BLEU
BLEU ( bilingual evaluation understudy ) är en algoritm för att utvärdera kvaliteten på text som har maskinöversatts från ett naturligt språk till ett annat. Kvalitet anses vara överensstämmelsen mellan en maskins produktion och en människas: "ju närmare en maskinöversättning är en professionell mänsklig översättning, desto bättre är den" – detta är den centrala idén bakom BLEU. BLEU var en av de första måtten som hävdade en hög korrelation med mänskliga kvalitetsbedömningar och är fortfarande en av de mest populära automatiserade och billiga måtten.
Poängen beräknas för enskilda översatta segment – vanligtvis meningar – genom att jämföra dem med en uppsättning referensöversättningar av god kvalitet. Dessa poäng beräknas sedan i genomsnitt över hela korpusen för att nå en uppskattning av översättningens övergripande kvalitet. Förståelighet eller grammatisk korrekthet beaktas inte. [ citat behövs ]
BLEU:s utdata är alltid ett tal mellan 0 och 1. Detta värde indikerar hur lik kandidattexten är referenstexterna, med värden närmare 1 representerar fler liknande texter. Få mänskliga översättningar kommer att uppnå poängen 1, eftersom detta skulle indikera att kandidaten är identisk med en av referensöversättningarna. Av denna anledning är det inte nödvändigt att uppnå en poäng på 1. Eftersom det finns fler möjligheter att matcha, kommer att lägga till ytterligare referensöversättningar att öka BLEU-poängen.
Matematisk definition
Grundläggande inställning
Ett grundläggande, första försök att definiera BLEU-poängen skulle ta två argument: en kandidatsträng och en lista med referenssträngar . Tanken är att bör vara nära 1 när liknar och nära 0 om inte.
Som en analogi är BLEU-poängen som en språklärare som försöker bedöma kvaliteten på en elevöversättning genom att kontrollera hur nära den följer referenssvaren .
Eftersom man i naturlig språkbehandling bör utvärdera en stor uppsättning kandidatsträngar, måste man generalisera BLEU-poängen till det fall där man har en lista med M kandidatsträngar (kallad "korpus " ) för varje kandidatsträng , en lista med referenskandidatsträngar .
Givet vilken sträng som helst och vilket heltal som helst , definierar vi uppsättningen av dess n-gram att vara
Givet två valfria strängar , definiera delsträngantalet som antalet uppträdanden av som en delsträng av . Till exempel, .
Fixa nu en kandidatkorpus och referenskandidatkorpus , där varje .
Modifierad n-gram precision
Definiera den modifierade n-gram precisionsfunktionen att vara
I ovanstående situation är dock kandidatsträngen för kort. Istället för tre förekomster av innehåller den bara en, så vi lägger till en minimifunktion för att korrigera för det:
Korthetsstraff
Den modifierade n-gram-precisionen ger onödigt hög poäng för kandidatsträngar som är " telegrafiska ", det vill säga innehåller alla n-gram för referenssträngarna, men så få gånger som möjligt.
För att straffa kandidatsträngar som är för korta, definiera korthetsstraffet som
- När korthetsstraffet , vilket betyder att vi inte straffar långa kandidater, utan bara korta kandidater.
- När , korthetsstraffet
är längden på kandidatkorpusen, det vill säga,
är den effektiva referenskorpuslängden , det vill säga,
Slutlig definition av BLEU
Det finns inte en enda definition av BLEU, utan en hel familj av dem, parametriserad av viktningsvektorn . Det är en sannolikhetsfördelning på , det vill säga , och .
Med ett val av är BLEU-poängen
Det vanligaste valet, det som rekommenderas i originalpapperet, är .
Algoritm
Detta illustreras i följande exempel från Papineni et al. (2002):
Kandidat | de | de | de | de | de | de | de |
---|---|---|---|---|---|---|---|
Referens 1 | de | katt | är | på | de | matta | |
Referens 2 | där | är | a | katt | på | de | matta |
Av de sju orden i kandidatöversättningen förekommer alla i referensöversättningarna. Således ges kandidattexten en unigramprecision av,
där är antalet ord från kandidaten som finns i referensen, och är det totala antalet ord i kandidaten. Detta är en perfekt poäng, trots att kandidatöversättningen ovan behåller lite av innehållet i någon av referenserna.
Modifieringen som BLEU gör är ganska enkel. För varje ord i kandidatöversättningen tar algoritmen sitt maximala totala antal, i någon av referensöversättningarna. I exemplet ovan förekommer ordet "the" två gånger i referens 1 och en gång i referens 2. Således .
För kandidatöversättningen klipps antalet av varje ord till maximalt för det ordet. I det här fallet har "the" och , alltså klipps till 2. Dessa klippta räkningar summeras sedan över alla distinkta ord i kandidaten. Denna summa divideras sedan med det totala antalet unigram i kandidatöversättningen. I exemplet ovan skulle den modifierade unigramprecisionspoängen vara:
I praktiken är det dock inte optimalt att använda enskilda ord som jämförelseenhet. Istället beräknar BLEU samma modifierade precisionsmått med n-gram . Längden som har den "högsta korrelationen med enspråkiga mänskliga bedömningar" visade sig vara fyra. Unigram-poängen visar sig vara tillräckliga för översättningen, hur mycket information som behålls. De längre n -gram står för översättningens flyt, eller i vilken utsträckning den lyder som "bra engelska".
Modell | Set med gram | Göra |
---|---|---|
Unigram | "den", "den", "katt" | |
Grupperat Unigram | "den"*2, "katt"*1 | |
Bigram | "den", "katten" |
Ett exempel på en kandidatöversättning för samma referenser som ovan kan vara:
- katten
I det här exemplet skulle den modifierade unigramprecisionen vara,
eftersom ordet "den" och ordet "katt" förekommer en gång vardera i kandidaten, och det totala antalet ord är två. Den modifierade bigramprecisionen skulle vara eftersom bigrammet, "katten" förekommer en gång i Det har påpekats att precision vanligtvis kombineras med återkallelse för att övervinna eftersom unigramåterkallelsen i detta exempel skulle vara eller . Problemet är att eftersom det finns flera referensöversättningar kan en dålig översättning lätt få en uppblåst återkallelse, till exempel en översättning som bestod av alla ord i var och en av referenserna.
För att producera ett poängtal för hela korpusen kombineras de modifierade precisionspoängen för segmenten med användning av det geometriska medelvärdet multiplicerat med ett korthetsstraff för att förhindra att mycket korta kandidater får för höga poäng. Låt r vara den totala längden på referenskorpusen och c den totala längden på översättningskorpusen. Om gäller korthetsstraffet, definierat som . (I fallet med flera referensmeningar r vara summan av längderna på de meningar vars längder ligger närmast längden på kandidatmeningarna. Men i versionen av måtten som användes av NIST-utvärderingar före 2009, den kortaste referensmeningen hade använts istället.)
iBLEU är en interaktiv version av BLEU som låter en användare visuellt granska BLEU-poängen som erhållits av kandidatöversättningarna. Det gör det också möjligt att jämföra två olika system på ett visuellt och interaktivt sätt vilket är användbart för systemutveckling.
Prestanda
BLEU har ofta rapporterats som korrelerar väl med mänskligt omdöme och förblir ett riktmärke för bedömningen av alla nya utvärderingsmått. Det finns dock ett antal kritik som har framförts. Det har noterats att även om BLEU i princip kan utvärdera översättningar av vilket språk som helst, kan BLEU inte i sin nuvarande form hantera språk som saknar ordgränser.
Det har hävdats att även om BLEU har betydande fördelar, finns det ingen garanti för att en ökning av BLEU-poängen är en indikator på förbättrad översättningskvalitet.
Se även
Anteckningar
- ^ Papineni, K., et al. (2002)
- ^ Papineni, K., et al. (2002)
- ^ Coughlin, D. (2003)
- ^ Papineni, K., et al. (2002)
- ^ Papineni, K., et al. (2002)
- ^ Papineni, K., et al. (2002)
- ^ Coughlin, D. (2003)
- ^ Doddington, G. (2002)
- ^ Denoual, E. och Lepage, Y. (2005)
- ^ Callison-Burch, C., Osborne, M. och Koehn, P. (2006)
- ^ Lee, A. och Przybocki, M. (2005)
- ^ Callison-Burch, C., Osborne, M. och Koehn, P. (2006)
- ^ Lin, C. och Och, F. (2004)
- ^ Callison-Burch, C., Osborne, M. och Koehn, P. (2006)
- ^ Madnani, N. (2011)
Bibliografi
- Papineni, K.; Roukos, S.; Ward, T.; Zhu, WJ (2002). BLEU: en metod för automatisk utvärdering av maskinöversättning (PDF) . ACL-2002: 40:e årsmötet i Association for Computational Linguistics. s. 311–318. CiteSeerX 10.1.1.19.9416 .
- Papineni, K., Roukos, S., Ward, T., Henderson, J och Reeder, F. (2002). " Corpus-baserad omfattande och diagnostisk MT-utvärdering: initiala arabiska, kinesiska, franska och spanska resultat arkiverade 2016-03-04 på Wayback Machine " i Proceedings of Human Language Technology 2002, San Diego, s. 132–137
- Callison-Burch, C., Osborne, M. och Koehn, P. (2006) " Re-evaluating the Role of BLEU in Machine Translation Research " i 11th Conference of the European Chapter of Association for Computational Linguistics: EACL 2006 pp. 249–256
- Doddington, G. (2002) " Automatisk utvärdering av maskinöversättningskvalitet med hjälp av n-gram samförekomststatistik " i Proceedings of the Human Language Technology Conference (HLT), San Diego, CA, s. 128–132
- Coughlin, D. (2003) " Crelating Automated and Human Assessments of Machine Translation Quality " i MT Summit IX, New Orleans, USA s. 23–27
- Denoual, E. och Lepage, Y. (2005) " BLEU i tecken: mot automatisk MT-utvärdering i språk utan ordavgränsare " i Companion Volume to the Proceedings of the Second International Joint Conference on Natural Language Processing s. 81–86
- Lee, A. och Przybocki, M. (2005) NIST 2005 maskinöversättningsutvärdering officiella resultat
- Lin, C. och Och, F. (2004) " Automatisk utvärdering av maskinöversättningskvalitet med hjälp av längsta vanliga följder och statistik över överhoppningsbigram" i förfarandet för det 42:a årsmötet i Association of Computational Linguistics .
- Madnani, N. (2011). " iBLEU: Interactively Scoring and Debugging Statistic Machine Translation Systems " i "Proceedings of the Fifth IEEE International Conference on Semantic Computing (Demos), Palo Alto, CA" s. 213–214
externa länkar
- BLEU – Tvåspråkig utvärdering Understudieföreläsning av maskinöversättningskurs vid Karlsruhe Institute for Technology , Coursera