BLEU

BLEU ( bilingual evaluation understudy ) är en algoritm för att utvärdera kvaliteten på text som har maskinöversatts från ett naturligt språk till ett annat. Kvalitet anses vara överensstämmelsen mellan en maskins produktion och en människas: "ju närmare en maskinöversättning är en professionell mänsklig översättning, desto bättre är den" – detta är den centrala idén bakom BLEU. BLEU var en av de första måtten som hävdade en hög korrelation med mänskliga kvalitetsbedömningar och är fortfarande en av de mest populära automatiserade och billiga måtten.

Poängen beräknas för enskilda översatta segment – vanligtvis meningar – genom att jämföra dem med en uppsättning referensöversättningar av god kvalitet. Dessa poäng beräknas sedan i genomsnitt över hela korpusen för att nå en uppskattning av översättningens övergripande kvalitet. Förståelighet eller grammatisk korrekthet beaktas inte. ^{[ citat behövs ]}

BLEU:s utdata är alltid ett tal mellan 0 och 1. Detta värde indikerar hur lik kandidattexten är referenstexterna, med värden närmare 1 representerar fler liknande texter. Få mänskliga översättningar kommer att uppnå poängen 1, eftersom detta skulle indikera att kandidaten är identisk med en av referensöversättningarna. Av denna anledning är det inte nödvändigt att uppnå en poäng på 1. Eftersom det finns fler möjligheter att matcha, kommer att lägga till ytterligare referensöversättningar att öka BLEU-poängen.

Matematisk definition

Grundläggande inställning

Ett grundläggande, första försök att definiera BLEU-poängen skulle ta två argument: en kandidatsträng ${\hat {y}}$ och en lista med referenssträngar $(y^{(1)},...,y^{(N)})$ . Tanken är att $BLEU({\hat {y}};y^{(1)},... ,y^{(N)})$ bör vara nära 1 när ${\hat {y}}$ liknar $y^{(1)},...,y^{(N)}$ och nära 0 om inte.

Som en analogi är BLEU-poängen som en språklärare som försöker bedöma kvaliteten på en elevöversättning ${\hat {y}}$ genom att kontrollera hur nära den följer referenssvaren $y^{(1)},...,y^{(N)}$ .

Eftersom man i naturlig språkbehandling bör utvärdera en stor uppsättning kandidatsträngar, måste man generalisera BLEU-poängen till det fall där man har en lista med M kandidatsträngar (kallad "korpus " ) ${\displaystyle ({\hat {y}}^{(1)},\cdots ,{\hat {y}}^{(M)})} och$ för varje kandidatsträng ${\hat {y}}^{(i)}$ , en lista med referenskandidatsträngar $S_{i}:=(y^{(i,1)},...,y^{(i,N_{i})})$ .

Givet vilken sträng som helst $y=y_{1}y_{2}\cdots y_{K}$ och vilket heltal som helst $n\geq 1$ , definierar vi uppsättningen av dess n-gram att vara

G_{n}(y)=\{y_{1} \cdots y_{n},y_{2}\cdots y_{n+1},\cdots ,y_{K-n+1}\cdots y_{K}\}

Observera att det är en uppsättning unika element, inte en multiset som tillåter redundanta element, så att till exempel

G_{2}(abab)= \{ab,ba\}

.

Givet två valfria strängar $s,y$ , definiera delsträngantalet $C(s,y)$ som antalet uppträdanden av $s$ som en delsträng av $y$ . Till exempel, $C(ab,abcbab)=2$ .

Fixa nu en kandidatkorpus ${\hat {S}}:=({\hat {y}}^{(1) },\cdots ,{\hat {y}}^{(M)})$ och referenskandidatkorpus $S=(S_{1},\cdots , S_{M})$ , där varje $S_{i}:=(y^{(i,1 )},...,y^{(i,N_{i})})$ .

Modifierad n-gram precision

Definiera den modifierade n-gram precisionsfunktionen att vara

p_{n}({\hat {S}};S):={ \frac {\sum _{i=1}^{M}\summa _{s\in G_{n}({\hat {y}}^{(i)})}\min(C(s,{ \hat {y}}^{(i)}),\max _{y\in S_{i}}C(s,y))}{\summa _{i=1}^{M}\summa _ {s\in G_{n}({\hat {y}}^{(i)})}C(s,{\hat {y}}^{(i)})}}

Det modifierade n-grammet, som ser komplicerat ut, är bara en enkel generalisering av det prototypiska fallet: en kandidatsats och en referenssats. I det här fallet är det så

p_{n}(\{{\hat {y}}\};\{y\})={\frac {\summa _{s\in G_{n}({\ hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}{\summa _{s\i G_{n}({\hat {y} })}C(s,{\hat {y}})}}

För att arbeta upp till detta uttryck börjar vi med den mest uppenbara summan av n-gram-antal:

\sum _{s\i G_{n}({\hat {y}} )}C(s,y)={\text{antal n-delsträngar i }}{\hat {y}}{\text{ som visas i }}y

Denna kvantitet mäter hur många n-gram i referenssatsen som reproduceras av kandidatsatsen. Observera att vi räknar n-delsträngarna , inte n-gram . Till exempel, när

{\hat {y}}=aba,y=abababa,n=2

, alla 2- delsträngar i

{\hat {y}}

(ab och ba) visas i

y

3 gånger vardera, så antalet är 6, inte 2.

I ovanstående situation är dock kandidatsträngen för kort. Istället för tre förekomster av $ab$ innehåller den bara en, så vi lägger till en minimifunktion för att korrigera för det:

{\sum _{s\in G_{n}({\hat {y}}) }\min(C(s,{\hat {y}}),C(s,y))}

Denna sammanräkning kan inte användas för att jämföra meningar, eftersom den inte är normaliserad. Om både referens- och kandidatmeningarna är långa kan antalet vara stort, även om kandidaten är av mycket dålig kvalitet. Så vi normaliserar det

{\frac {\ summa _{s\i G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}{\summa _{s \in G_{n}({\hat {y}})}C(s,{\hat {y}})}}

Normaliseringen är sådan att det alltid är ett tal i

[0,1]

, vilket möjliggör meningsfulla jämförelser mellan kroppar. Det är noll om ingen av n-delsträngarna i kandidat är i referens. Det är ett om varje n-gram i kandidaten förekommer i referens, minst lika många gånger som i kandidat. I synnerhet om kandidaten är en delsträng av referensen, så är det en.

Korthetsstraff

Den modifierade n-gram-precisionen ger onödigt hög poäng för kandidatsträngar som är " telegrafiska ", det vill säga innehåller alla n-gram för referenssträngarna, men så få gånger som möjligt.

För att straffa kandidatsträngar som är för korta, definiera korthetsstraffet som

BP({\hat {S}};S):=e^{-(r/c-1)^{ +}}

där

(r/c-1)^{+}=\max(0,r/c-1)

är den positiva delen av

r/c-1

.

När ${\displaystyle r\leq c} är$ korthetsstraffet $BP=1$ , vilket betyder att vi inte straffar långa kandidater, utan bara korta kandidater.
När $r>c$ , korthetsstraffet $BP=e^{1-r/c}$

$c$ är längden på kandidatkorpusen, det vill säga,

c:=\sum _{i=1}^{M}|{\hat {y}}^{(i)}|

där

|y|

är längden på

y

.

$r$ är den effektiva referenskorpuslängden , det vill säga,

r:=\sum _{i=1}^{M}|y^{(i,j)}|

där

y^{(i,j)}=\arg \min _{y\in S_{i}}||y|-|{\hat {y}}^{(i)}||

, det vill säga meningen från

S_{i}

vars längd är så nära

|{\hat {y}}^{(i)}|

som möjligt.

Slutlig definition av BLEU

Det finns inte en enda definition av BLEU, utan en hel familj av dem, parametriserad av viktningsvektorn $w:=(w_{1},w_{2}, \cdots )$ . Det är en sannolikhetsfördelning på $\{1,2,3,\cdots \}$ , det vill säga $\sum _ {i=1}^{\infty }w_{i}=1$ , och $\forall i\in \{1 ,2,3,\cdots \},w_{i}\in [0,1]$ .

Med ett val av $w$ är BLEU-poängen

BLEU_{w} ({\hat {S}};S):=BP({\hat {S}};S)\cdot \exp \left(\summa _{n=1}^{\infty }w_{n}\ ln p_{n}({\hat {S}};S)\höger)

Med ord är det ett viktat geometriskt medelvärde av alla modifierade n-grams precisioner, multiplicerat med korthetsstraffet. Vi använder det viktade geometriska medelvärdet, snarare än det viktade aritmetiska medelvärdet, för att starkt gynna kandidatkroppar som samtidigt är bra enligt flera n-grams precisioner.

Det vanligaste valet, det som rekommenderas i originalpapperet, är $w_{1}=\cdots =w_{4}={\frac {1}{4}}$ .

Algoritm

Detta illustreras i följande exempel från Papineni et al. (2002):

Exempel på dålig maskinöversättning med hög precision
Kandidat	de	de	de	de	de	de	de
Referens 1	de	katt	är	på	de	matta
Referens 2	där	är	a	katt	på	de	matta

Av de sju orden i kandidatöversättningen förekommer alla i referensöversättningarna. Således ges kandidattexten en unigramprecision av,

P={\frac {m}{w_{t}}}={\frac {7}{7}}=1

där $~m$ är antalet ord från kandidaten som finns i referensen, och $~w_{t}$ är det totala antalet ord i kandidaten. Detta är en perfekt poäng, trots att kandidatöversättningen ovan behåller lite av innehållet i någon av referenserna.

Modifieringen som BLEU gör är ganska enkel. För varje ord i kandidatöversättningen tar algoritmen sitt maximala totala antal, ${\displaystyle ~m_{max}} ,$ i någon av referensöversättningarna. I exemplet ovan förekommer ordet "the" två gånger i referens 1 och en gång i referens 2. Således $~m_{max}=2$ .

För kandidatöversättningen klipps antalet $m_{w}$ av varje ord till maximalt $m_{max}$ för det ordet. I det här fallet har "the" $~m_{w}=7$ och $~m_{max}=2$ , alltså $~m_ {w}$ klipps till 2. Dessa klippta räkningar $~m_{w}$ summeras sedan över alla distinkta ord i kandidaten. Denna summa divideras sedan med det totala antalet unigram i kandidatöversättningen. I exemplet ovan skulle den modifierade unigramprecisionspoängen vara:

P={\frac {2}{7}}

I praktiken är det dock inte optimalt att använda enskilda ord som jämförelseenhet. Istället beräknar BLEU samma modifierade precisionsmått med n-gram . Längden som har den "högsta korrelationen med enspråkiga mänskliga bedömningar" visade sig vara fyra. Unigram-poängen visar sig vara tillräckliga för översättningen, hur mycket information som behålls. De längre $n$ -gram står för översättningens flyt, eller i vilken utsträckning den lyder som "bra engelska".

Jämföra mätvärden för kandidaten "katten"
Modell	Set med gram	Göra
Unigram	"den", "den", "katt"	${\frac {1+1+1}{3}}=1$
Grupperat Unigram	"den"2, "katt"1	${\frac {1+1}{2+1}}={\frac {2}{3}}$
Bigram	"den", "katten"	${\frac {0+1}{2}}={\frac {1}{2}}$

Ett exempel på en kandidatöversättning för samma referenser som ovan kan vara:

katten

I det här exemplet skulle den modifierade unigramprecisionen vara,

P={\frac {1}{2}}+{\frac {1}{2}}={\frac {2}{2}}

eftersom ordet "den" och ordet "katt" förekommer en gång vardera i kandidaten, och det totala antalet ord är två. Den modifierade bigramprecisionen skulle vara $1/1$ eftersom bigrammet, "katten" förekommer en gång i Det har påpekats att precision vanligtvis kombineras med återkallelse för att övervinna ${\displaystyle 2/7$ $\displaystyle 3/6}$ eftersom unigramåterkallelsen i detta exempel skulle vara eller . Problemet är att eftersom det finns flera referensöversättningar kan en dålig översättning lätt få en uppblåst återkallelse, till exempel en översättning som bestod av alla ord i var och en av referenserna.

För att producera ett poängtal för hela korpusen kombineras de modifierade precisionspoängen för segmenten med användning av det geometriska medelvärdet multiplicerat med ett korthetsstraff för att förhindra att mycket korta kandidater får för höga poäng. Låt $r$ vara den totala längden på referenskorpusen och $c$ den totala längden på översättningskorpusen. Om $c\leq r$ gäller korthetsstraffet, definierat som $e^{(1-r/c)}$ . (I fallet med flera referensmeningar $r$ vara summan av längderna på de meningar vars längder ligger närmast längden på kandidatmeningarna. Men i versionen av måtten som användes av NIST-utvärderingar före 2009, den kortaste referensmeningen hade använts istället.)

iBLEU är en interaktiv version av BLEU som låter en användare visuellt granska BLEU-poängen som erhållits av kandidatöversättningarna. Det gör det också möjligt att jämföra två olika system på ett visuellt och interaktivt sätt vilket är användbart för systemutveckling.

Prestanda

BLEU har ofta rapporterats som korrelerar väl med mänskligt omdöme och förblir ett riktmärke för bedömningen av alla nya utvärderingsmått. Det finns dock ett antal kritik som har framförts. Det har noterats att även om BLEU i princip kan utvärdera översättningar av vilket språk som helst, kan BLEU inte i sin nuvarande form hantera språk som saknar ordgränser.

Det har hävdats att även om BLEU har betydande fördelar, finns det ingen garanti för att en ökning av BLEU-poängen är en indikator på förbättrad översättningskvalitet.

Se även

Anteckningar

^ Papineni, K., et al. (2002)
^ Papineni, K., et al. (2002)
^ Coughlin, D. (2003)
^ Papineni, K., et al. (2002)
^ Papineni, K., et al. (2002)
^ Papineni, K., et al. (2002)
^ Coughlin, D. (2003)
^ Doddington, G. (2002)
^ Denoual, E. och Lepage, Y. (2005)
^ Callison-Burch, C., Osborne, M. och Koehn, P. (2006)
^ Lee, A. och Przybocki, M. (2005)
^ Callison-Burch, C., Osborne, M. och Koehn, P. (2006)
^ Lin, C. och Och, F. (2004)
^ Callison-Burch, C., Osborne, M. och Koehn, P. (2006)
^ Madnani, N. (2011)

Bibliografi

Papineni, K.; Roukos, S.; Ward, T.; Zhu, WJ (2002). BLEU: en metod för automatisk utvärdering av maskinöversättning (PDF) . ACL-2002: 40:e årsmötet i Association for Computational Linguistics. s. 311–318. CiteSeerX 10.1.1.19.9416 .
Papineni, K., Roukos, S., Ward, T., Henderson, J och Reeder, F. (2002). " Corpus-baserad omfattande och diagnostisk MT-utvärdering: initiala arabiska, kinesiska, franska och spanska resultat arkiverade 2016-03-04 på Wayback Machine " i Proceedings of Human Language Technology 2002, San Diego, s. 132–137
Callison-Burch, C., Osborne, M. och Koehn, P. (2006) " Re-evaluating the Role of BLEU in Machine Translation Research " i 11th Conference of the European Chapter of Association for Computational Linguistics: EACL 2006 pp. 249–256
Doddington, G. (2002) " Automatisk utvärdering av maskinöversättningskvalitet med hjälp av n-gram samförekomststatistik " i Proceedings of the Human Language Technology Conference (HLT), San Diego, CA, s. 128–132
Coughlin, D. (2003) " Crelating Automated and Human Assessments of Machine Translation Quality " i MT Summit IX, New Orleans, USA s. 23–27
Denoual, E. och Lepage, Y. (2005) " BLEU i tecken: mot automatisk MT-utvärdering i språk utan ordavgränsare " i Companion Volume to the Proceedings of the Second International Joint Conference on Natural Language Processing s. 81–86
Lee, A. och Przybocki, M. (2005) NIST 2005 maskinöversättningsutvärdering officiella resultat
Lin, C. och Och, F. (2004) " Automatisk utvärdering av maskinöversättningskvalitet med hjälp av längsta vanliga följder och statistik över överhoppningsbigram" i förfarandet för det 42:a årsmötet i Association of Computational Linguistics .
Madnani, N. (2011). " iBLEU: Interactively Scoring and Debugging Statistic Machine Translation Systems " i "Proceedings of the Fifth IEEE International Conference on Semantic Computing (Demos), Palo Alto, CA" s. 213–214

externa länkar

BLEU – Tvåspråkig utvärdering Understudieföreläsning av maskinöversättningskurs vid Karlsruhe Institute for Technology , Coursera

Utvärderingsstatistik för maskininlärning
Regression	MSE · MAE · sMAPE · MAPE · MASE · MSPE · RMS · RMSE/RMSD · R2 · MDA · MAD
Klassificering	F-poäng · P4 · Noggrannhet · Precision · Återkallelse · Kappa · MCC · AUC · ROC · Sensitivitet och specificitet · Logaritmisk förlust
Klustring	Silhouette · Calinski-Harabasz · Davies-Bouldin · Dunn-index · Hopkins-statistik · Jaccard-index · Randindex · Likhetsmått · SMC · SimHash
Ranking	MRR · DCG · NDCG · AP
Datorsyn	PSNR · SSIM · IoU
NLP	Förvirring · BLEU
Deep Learning-relaterade mätvärden	Startpoäng · FID
Rekommendationssystem	Täckning · Intra-list likhet
Likhet	Cosinuslikhet · Euklidiskt avstånd · Pearson korrelationskoefficient
Förvirringsmatris