BLEU

BLEU ( bilingual evaluation understudy ) är en algoritm för att utvärdera kvaliteten på text som har maskinöversatts från ett naturligt språk till ett annat. Kvalitet anses vara överensstämmelsen mellan en maskins produktion och en människas: "ju närmare en maskinöversättning är en professionell mänsklig översättning, desto bättre är den" – detta är den centrala idén bakom BLEU. BLEU var en av de första måtten som hävdade en hög korrelation med mänskliga kvalitetsbedömningar och är fortfarande en av de mest populära automatiserade och billiga måtten.

Poängen beräknas för enskilda översatta segment – ​​vanligtvis meningar – genom att jämföra dem med en uppsättning referensöversättningar av god kvalitet. Dessa poäng beräknas sedan i genomsnitt över hela korpusen för att nå en uppskattning av översättningens övergripande kvalitet. Förståelighet eller grammatisk korrekthet beaktas inte. [ citat behövs ]

BLEU:s utdata är alltid ett tal mellan 0 och 1. Detta värde indikerar hur lik kandidattexten är referenstexterna, med värden närmare 1 representerar fler liknande texter. Få mänskliga översättningar kommer att uppnå poängen 1, eftersom detta skulle indikera att kandidaten är identisk med en av referensöversättningarna. Av denna anledning är det inte nödvändigt att uppnå en poäng på 1. Eftersom det finns fler möjligheter att matcha, kommer att lägga till ytterligare referensöversättningar att öka BLEU-poängen.

Matematisk definition

Grundläggande inställning

Ett grundläggande, första försök att definiera BLEU-poängen skulle ta två argument: en kandidatsträng och en lista med referenssträngar . Tanken är att bör vara nära 1 när liknar och nära 0 om inte.

Som en analogi är BLEU-poängen som en språklärare som försöker bedöma kvaliteten på en elevöversättning genom att kontrollera hur nära den följer referenssvaren .

Eftersom man i naturlig språkbehandling bör utvärdera en stor uppsättning kandidatsträngar, måste man generalisera BLEU-poängen till det fall där man har en lista med M kandidatsträngar (kallad "korpus " ) för varje kandidatsträng , en lista med referenskandidatsträngar .

Givet vilken sträng som helst och vilket heltal som helst , definierar vi uppsättningen av dess n-gram att vara

Observera att det är en uppsättning unika element, inte en multiset som tillåter redundanta element, så att till exempel .

Givet två valfria strängar , definiera delsträngantalet som antalet uppträdanden av som en delsträng av . Till exempel, .

Fixa nu en kandidatkorpus och referenskandidatkorpus , där varje .

Modifierad n-gram precision

Definiera den modifierade n-gram precisionsfunktionen att vara

Det modifierade n-grammet, som ser komplicerat ut, är bara en enkel generalisering av det prototypiska fallet: en kandidatsats och en referenssats. I det här fallet är det så
För att arbeta upp till detta uttryck börjar vi med den mest uppenbara summan av n-gram-antal:
Denna kvantitet mäter hur många n-gram i referenssatsen som reproduceras av kandidatsatsen. Observera att vi räknar n-delsträngarna , inte n-gram . Till exempel, när , alla 2- delsträngar i (ab och ba) visas i 3 gånger vardera, så antalet är 6, inte 2.


I ovanstående situation är dock kandidatsträngen för kort. Istället för tre förekomster av innehåller den bara en, så vi lägger till en minimifunktion för att korrigera för det:

Denna sammanräkning kan inte användas för att jämföra meningar, eftersom den inte är normaliserad. Om både referens- och kandidatmeningarna är långa kan antalet vara stort, även om kandidaten är av mycket dålig kvalitet. Så vi normaliserar det
Normaliseringen är sådan att det alltid är ett tal i , vilket möjliggör meningsfulla jämförelser mellan kroppar. Det är noll om ingen av n-delsträngarna i kandidat är i referens. Det är ett om varje n-gram i kandidaten förekommer i referens, minst lika många gånger som i kandidat. I synnerhet om kandidaten är en delsträng av referensen, så är det en.

Korthetsstraff

Den modifierade n-gram-precisionen ger onödigt hög poäng för kandidatsträngar som är " telegrafiska ", det vill säga innehåller alla n-gram för referenssträngarna, men så få gånger som möjligt.

För att straffa kandidatsträngar som är för korta, definiera korthetsstraffet som

där är den positiva delen av .
  • När korthetsstraffet , vilket betyder att vi inte straffar långa kandidater, utan bara korta kandidater.
  • När , korthetsstraffet

är längden på kandidatkorpusen, det vill säga,

där är längden på .

är den effektiva referenskorpuslängden , det vill säga,

där , det vill säga meningen från vars längd är så nära som möjligt.

Slutlig definition av BLEU

Det finns inte en enda definition av BLEU, utan en hel familj av dem, parametriserad av viktningsvektorn . Det är en sannolikhetsfördelning på , det vill säga , och .

Med ett val av är BLEU-poängen

Med ord är det ett viktat geometriskt medelvärde av alla modifierade n-grams precisioner, multiplicerat med korthetsstraffet. Vi använder det viktade geometriska medelvärdet, snarare än det viktade aritmetiska medelvärdet, för att starkt gynna kandidatkroppar som samtidigt är bra enligt flera n-grams precisioner.

Det vanligaste valet, det som rekommenderas i originalpapperet, är .

Algoritm

Detta illustreras i följande exempel från Papineni et al. (2002):

Exempel på dålig maskinöversättning med hög precision
Kandidat de de de de de de de
Referens 1 de katt är de matta
Referens 2 där är a katt de matta

Av de sju orden i kandidatöversättningen förekommer alla i referensöversättningarna. Således ges kandidattexten en unigramprecision av,

där är antalet ord från kandidaten som finns i referensen, och är det totala antalet ord i kandidaten. Detta är en perfekt poäng, trots att kandidatöversättningen ovan behåller lite av innehållet i någon av referenserna.

Modifieringen som BLEU gör är ganska enkel. För varje ord i kandidatöversättningen tar algoritmen sitt maximala totala antal, i någon av referensöversättningarna. I exemplet ovan förekommer ordet "the" två gånger i referens 1 och en gång i referens 2. Således .

För kandidatöversättningen klipps antalet av varje ord till maximalt för det ordet. I det här fallet har "the" och , alltså klipps till 2. Dessa klippta räkningar summeras sedan över alla distinkta ord i kandidaten. Denna summa divideras sedan med det totala antalet unigram i kandidatöversättningen. I exemplet ovan skulle den modifierade unigramprecisionspoängen vara:

I praktiken är det dock inte optimalt att använda enskilda ord som jämförelseenhet. Istället beräknar BLEU samma modifierade precisionsmått med n-gram . Längden som har den "högsta korrelationen med enspråkiga mänskliga bedömningar" visade sig vara fyra. Unigram-poängen visar sig vara tillräckliga för översättningen, hur mycket information som behålls. De längre n -gram står för översättningens flyt, eller i vilken utsträckning den lyder som "bra engelska".

Jämföra mätvärden för kandidaten "katten"
Modell Set med gram Göra
Unigram "den", "den", "katt"
Grupperat Unigram "den"*2, "katt"*1
Bigram "den", "katten"

Ett exempel på en kandidatöversättning för samma referenser som ovan kan vara:

katten

I det här exemplet skulle den modifierade unigramprecisionen vara,

eftersom ordet "den" och ordet "katt" förekommer en gång vardera i kandidaten, och det totala antalet ord är två. Den modifierade bigramprecisionen skulle vara eftersom bigrammet, "katten" förekommer en gång i Det har påpekats att precision vanligtvis kombineras med återkallelse för att övervinna eftersom unigramåterkallelsen i detta exempel skulle vara eller . Problemet är att eftersom det finns flera referensöversättningar kan en dålig översättning lätt få en uppblåst återkallelse, till exempel en översättning som bestod av alla ord i var och en av referenserna.

För att producera ett poängtal för hela korpusen kombineras de modifierade precisionspoängen för segmenten med användning av det geometriska medelvärdet multiplicerat med ett korthetsstraff för att förhindra att mycket korta kandidater får för höga poäng. Låt r vara den totala längden på referenskorpusen och c den totala längden på översättningskorpusen. Om gäller korthetsstraffet, definierat som . (I fallet med flera referensmeningar r vara summan av längderna på de meningar vars längder ligger närmast längden på kandidatmeningarna. Men i versionen av måtten som användes av NIST-utvärderingar före 2009, den kortaste referensmeningen hade använts istället.)

iBLEU är en interaktiv version av BLEU som låter en användare visuellt granska BLEU-poängen som erhållits av kandidatöversättningarna. Det gör det också möjligt att jämföra två olika system på ett visuellt och interaktivt sätt vilket är användbart för systemutveckling.

Prestanda

BLEU har ofta rapporterats som korrelerar väl med mänskligt omdöme och förblir ett riktmärke för bedömningen av alla nya utvärderingsmått. Det finns dock ett antal kritik som har framförts. Det har noterats att även om BLEU i princip kan utvärdera översättningar av vilket språk som helst, kan BLEU inte i sin nuvarande form hantera språk som saknar ordgränser.

Det har hävdats att även om BLEU har betydande fördelar, finns det ingen garanti för att en ökning av BLEU-poängen är en indikator på förbättrad översättningskvalitet.

Se även

Anteckningar

  1. ^ Papineni, K., et al. (2002)
  2. ^ Papineni, K., et al. (2002)
  3. ^ Coughlin, D. (2003)
  4. ^ Papineni, K., et al. (2002)
  5. ^ Papineni, K., et al. (2002)
  6. ^ Papineni, K., et al. (2002)
  7. ^ Coughlin, D. (2003)
  8. ^ Doddington, G. (2002)
  9. ^ Denoual, E. och Lepage, Y. (2005)
  10. ^ Callison-Burch, C., Osborne, M. och Koehn, P. (2006)
  11. ^ Lee, A. och Przybocki, M. (2005)
  12. ^ Callison-Burch, C., Osborne, M. och Koehn, P. (2006)
  13. ^ Lin, C. och Och, F. (2004)
  14. ^ Callison-Burch, C., Osborne, M. och Koehn, P. (2006)
  15. ^ Madnani, N. (2011)

Bibliografi

externa länkar