Utvärdering av maskinöversättning

Olika metoder för utvärdering för maskinöversättning har använts. Den här artikeln fokuserar på utvärderingen av resultatet av maskinöversättning snarare än på utvärdering av prestanda eller användbarhet.

Översättning tur och retur

Ett typiskt sätt för lekmän att bedöma kvaliteten på maskinöversättning är att översätta från ett källspråk till ett målspråk och tillbaka till källspråket med samma motor. Även om detta intuitivt kan verka som en bra utvärderingsmetod, har det visat sig att översättning tur och retur är en "dålig prediktor för kvalitet". Anledningen till att det är en så dålig prediktor för kvalitet är rimligt intuitivt. En översättning tur och retur testar inte ett system utan två system: språkparet i motorn för översättning till målspråket och språkparet som översätter tillbaka från målspråket.

Betrakta följande exempel på översättningar från engelska till italienska och portugisiska från Somers (2005):

Original text	Välj den här länken för att titta på vår hemsida.
Översatt	Selektera questo collegamento per guardare il nostro hemsida.
Översatt tillbaka	Väljer denna anslutning för att titta på vår hemsida.

Original text	Lika för lika
Översatt	Melharuco para o tat
Översatt tillbaka	Lika för lika

I det första exemplet, där texten översätts till italienska och sedan tillbaka till engelska , är den engelska texten avsevärt förvanskad, men den italienska är en användbar översättning. I det andra exemplet är texten som översatts tillbaka till engelska perfekt, men den portugisiska översättningen är meningslös; programmet trodde att "mes" var en referens till en mes (fågel) , som var avsedd för en "tat", ett ord som det inte förstod.

Även om översättning tur och retur kan vara användbar för att skapa ett "överskott av nöje", är metodiken bristfällig för att seriöst studera kvaliteten på maskinöversättning.

Mänsklig utvärdering

Detta avsnitt täcker två av de storskaliga utvärderingsstudierna som har haft betydande inverkan på området – ALPAC 1966-studien och ARPA-studien.

Rådgivande kommitté för automatisk språkbehandling (ALPAC)

En av de ingående delarna av ALPAC-rapporten var en studie som jämförde olika nivåer av mänsklig översättning med maskinöversättningsutdata, med mänskliga försökspersoner som domare. De mänskliga domarna var speciellt utbildade för ändamålet. Utvärderingsstudien jämförde ett MT-system som översatte från ryska till engelska med mänskliga översättare, på två variabler.

Variablerna som studerades var "förståelighet" och "trohet". Förståelighet var ett mått på hur "förståelig" meningen var, och mättes på en skala från 1–9. Trohet var ett mått på hur mycket information den översatta meningen behöll jämfört med originalet, och mättes på en skala från 0–9. Varje punkt på skalan förknippades med en textbeskrivning. Till exempel beskrevs 3 på förståelighetsskalan som "Generellt obegripligt; det tenderar att läsa som nonsens men med en ansenlig mängd reflektion och studier kan man åtminstone anta den idé som meningen avser".

Förståelighet mättes utan hänvisning till originalet, medan trohet mättes indirekt. Den översatta meningen presenterades, och efter att ha läst den och tagit till sig innehållet presenterades den ursprungliga meningen. Domarna ombads att betygsätta den ursprungliga meningen på informativitet. Så ju mer informativ den ursprungliga meningen är, desto lägre är kvaliteten på översättningen.

Studien visade att variablerna var starkt korrelerade när det mänskliga omdömet beräknades i genomsnitt per mening. Variationen mellan bedömare var liten, men forskarna rekommenderade att åtminstone tre eller fyra bedömare skulle användas. Utvärderingsmetoden lyckades med lätthet skilja översättningar av människor från översättningar med maskiner.

Studien drog slutsatsen att "mycket tillförlitliga bedömningar kan göras av kvaliteten på mänskliga och maskinella översättningar".

Advanced Research Projects Agency (ARPA)

Som en del av Human Language Technologies-programmet skapade Advanced Research Projects Agency (ARPA) en metod för att utvärdera maskinöversättningssystem och fortsätter att utföra utvärderingar baserade på denna metod. Utvärderingsprogrammet startade 1991 och fortsätter än i dag. Detaljer om programmet finns i White et al. (1994) och White (1995).

Utvärderingsprogrammet innebar att testa flera system utifrån olika teoretiska ansatser; statistiskt, regelbaserat och mänskligt assisterat. Ett antal metoder för utvärdering av resultaten från dessa system testades 1992 och de senaste lämpliga metoderna valdes ut för att inkluderas i programmen för efterföljande år. Metoderna var; förståelseutvärdering, kvalitetspanelutvärdering och utvärdering baserad på adekvathet och flyt.

Förståelseutvärdering syftade till att direkt jämföra system baserat på resultaten från flervalsförståelsetest, som i Church et al. (1993). De valda texterna var en uppsättning artiklar på engelska om ämnet finansiella nyheter. Dessa artiklar översattes av professionella översättare till en rad språkpar och översattes sedan tillbaka till engelska med hjälp av maskinöversättningssystem. Det beslutades att detta inte var tillräckligt för en fristående metod för att jämföra system och som sådan övergavs på grund av problem med ändring av betydelsen i processen att översätta från engelska.

Tanken med kvalitetspanelutvärdering var att skicka in översättningar till en panel av experter på engelska som modersmål som var professionella översättare och få dem att utvärdera dem. Utvärderingarna gjordes på basis av ett mått, modellerat på ett standardmått för amerikanska myndigheter som används för att betygsätta mänskliga översättningar. Detta var bra ur synvinkeln att måttet var "externt motiverat", eftersom det inte var specifikt utvecklat för maskinöversättning. Kvalitetspanelens utvärdering var dock mycket svår att sätta upp logistiskt, eftersom det krävde att ett antal experter samlades på ett ställe under en vecka eller mer, och dessutom för att de skulle nå konsensus. Även denna metod övergavs.

Tillsammans med en modifierad form av förståelseutvärderingen (omformaterad som informativitetsutvärdering) var den mest populära metoden att få betyg från enspråkiga domare för delar av ett dokument. Domarna presenterades för ett segment och ombads att betygsätta det för två variabler, adekvathet och flyt. Adequacy är ett betyg på hur mycket information som överförs mellan originalet och översättningen, och flyt är ett betyg på hur bra engelskan är. Denna teknik visade sig täcka de relevanta delarna av kvalitetspanelens utvärdering, samtidigt som den var lättare att implementera, eftersom den inte krävde expertbedömning.

Mätsystem baserade på adekvathet och flyt, tillsammans med informativitet är nu standardmetoden för ARPA-utvärderingsprogrammet.

Automatisk utvärdering

I samband med denna artikel är ett mått ett mått. Ett mått som utvärderar maskinöversättning representerar kvaliteten på resultatet. Kvaliteten på en översättning är till sin natur subjektiv, det finns inget objektivt eller kvantifierbart "bra". Därför måste alla mätvärden tilldela kvalitetspoäng så att de korrelerar med den mänskliga bedömningen av kvalitet. Det vill säga, ett mått ska ge höga poäng översättningar som människor får högt, och ge låga poäng till de människor som ger låga poäng. Mänskligt omdöme är riktmärket för att bedöma automatiska mätvärden, eftersom människor är slutanvändarna av alla översättningar.

Måttet på utvärdering för mått är korrelation med mänskligt omdöme. Detta görs i allmänhet på två nivåer, på meningsnivå, där poängen beräknas av måtten för en uppsättning översatta meningar, och sedan korreleras mot mänskligt omdöme för samma meningar. Och på korpusnivå, där poäng över meningarna aggregeras för både mänskliga bedömningar och metriska bedömningar, och dessa aggregerade poäng korreleras sedan. Siffror för korrelation på meningsnivå rapporteras sällan, även om Banerjee et al. (2005) ger korrelationssiffror som visar att, åtminstone för deras metriska, meningsnivåkorrelation är väsentligt sämre än korpusnivåkorrelation.

Även om det inte är allmänt rapporterat, har det noterats att genren, eller domänen, av en text har en effekt på korrelationen som erhålls när man använder mått. Coughlin (2003) rapporterar att en jämförelse av kandidattexten mot en enda referensöversättning inte negativt påverkar korrelationen mellan mätvärden när man arbetar i en begränsad domäntext.

Även om ett mått korrelerar bra med mänskligt omdöme i en studie på en korpus, kanske denna framgångsrika korrelation inte överförs till en annan korpus. Bra mätvärdesprestanda, över texttyper eller domäner, är viktigt för måttets återanvändbarhet. Ett mått som bara fungerar för text i en specifik domän är användbart, men mindre användbart än ett som fungerar över många domäner – eftersom det inte är önskvärt att skapa ett nytt mått för varje ny utvärdering eller domän.

En annan viktig faktor för användbarheten av ett utvärderingsmått är att ha en bra korrelation, även när man arbetar med små mängder data, det vill säga kandidatmeningar och referensöversättningar. Turian et al. (2003) påpekar att "Alla MT-utvärderingsmått är mindre tillförlitliga på kortare översättningar", och visar att en ökning av mängden data förbättrar tillförlitligheten för ett mått. Men de tillägger att "... tillförlitlighet på kortare texter, så korta som en mening eller till och med en fras, är mycket önskvärt eftersom en tillförlitlig MT-utvärderingsåtgärd avsevärt kan påskynda explorativ dataanalys".

Banerjee et al. (2005) lyfter fram fem attribut som ett bra automatiskt mått måste ha; korrelation, känslighet, konsekvens, tillförlitlighet och generalitet. Varje bra mått måste korrelera starkt med mänskligt omdöme, det måste vara konsekvent och ge liknande resultat till samma MT-system på liknande text. Det måste vara känsligt för skillnader mellan MT-system och tillförlitligt i och med att MT-system som får liknande resultat ska förväntas prestera liknande. Slutligen måste måttet vara generellt, det vill säga att det ska fungera med olika textdomäner , i ett brett spektrum av scenarier och MT-uppgifter.

Syftet med detta underavsnitt är att ge en översikt över det senaste inom automatiska mätvärden för utvärdering av maskinöversättning.

BLEU

BLEU var en av de första mätvärdena som rapporterade en hög korrelation med mänskliga kvalitetsbedömningar. Mätvärdet är för närvarande ett av de mest populära inom området. Den centrala tanken bakom metriken är att "ju närmare en maskinöversättning är en professionell mänsklig översättning, desto bättre är den". Måttet beräknar poängen för enskilda segment, vanligtvis meningar - sedan genomsnitt av dessa poäng över hela korpusen för ett slutresultat. Det har visat sig korrelera starkt med mänskliga kvalitetsbedömningar på korpusnivå.

BLEU använder en modifierad form av precision för att jämföra en kandidatöversättning med flera referensöversättningar. Metriken modifierar enkel precision eftersom maskinöversättningssystem har varit kända för att generera fler ord än vad som förekommer i en referenstext. Inget annat maskinöversättningsmått har ännu märkbart överträffat BLEU med avseende på korrelation med mänskligt omdöme över språkpar.

NIST

NIST-måttet är baserat på BLEU -måttet, men med vissa ändringar. Där BLEU helt enkelt beräknar n-gram- precision och lägger till lika vikt till var och en, beräknar NIST också hur informativ ett visst n-gram är. Det vill säga, när ett korrekt n-gram hittas, ju mer sällsynt n-gram är, desto mer vikt får det. Till exempel, om bigrammet "på" matchar korrekt, får det lägre vikt än den korrekta matchningen av bigram "intressanta beräkningar", eftersom det är mindre sannolikt att detta inträffar. NIST skiljer sig också från BLEU i sin beräkning av korthetsstraffet, såtillvida att små variationer i översättningslängd inte påverkar den totala poängen lika mycket.

Word felfrekvens

Ordfelfrekvensen (WER) är ett mått baserat på Levenshtein-avståndet , där Levenshtein-avståndet fungerar på teckennivå, WER fungerar på ordnivå. Det användes ursprungligen för att mäta prestanda hos taligenkänningssystem men används också vid utvärdering av maskinöversättning. Måttet baseras på beräkningen av antalet ord som skiljer sig mellan en maskinöversatt text och en referensöversättning.

Ett relaterat mått är positionsoberoende ordfelfrekvens (PER), som möjliggör omordning av ord och sekvenser av ord mellan en översatt text och en referensöversättning.

METEOR

METEOR-måttet är utformat för att åtgärda några av de brister som är inneboende i BLEU-måttet. Måttet är baserat på det viktade harmoniska medelvärdet av unigramprecision och unigramåterkallelse. Måttet utformades efter forskning av Lavie (2004) om betydelsen av återkallelse i utvärderingsmått. Deras forskning visade att mått baserade på återkallelse genomgående uppnådde högre korrelation än de baserade på enbart precision, jfr. BLEU och NIST.

METEOR innehåller även en del andra funktioner som inte finns i andra mätvärden, som synonymmatchning, där mätvärdet även matchar synonymer istället för att bara matcha den exakta ordformen. Till exempel, ordet "bra" i referensrenderingen som "bra" i översättningen räknas som en matchning. Måttet innehåller också en stemmer, som lemmatiserar ord och matchar de lemmatiserade formerna. Implementeringen av måttet är modulärt såtillvida att de algoritmer som matchar ord implementeras som moduler, och nya moduler som implementerar olika matchningsstrategier lätt kan läggas till.

LEPOR

En ny MT-utvärderingsmetrik LEPOR föreslogs som kombinationen av många utvärderingsfaktorer inklusive befintliga (precision, återkallelse) och modifierade (meningslängdsstraff och n-gram-baserat ordföljdsstraff). Experimenten testades på åtta språkpar från ACL-WMT2011 inklusive engelska till andra (spanska, franska, tyska och tjeckiska) och det omvända, och visade att LEPOR gav högre systemnivåkorrelation med mänskliga bedömningar än flera befintliga mätvärden som t.ex. som BLEU, Meteor-1.3, TER, AMBER och MP4IBM1. En förbättrad version av LEPOR metrisk, hLEPOR, introduceras i tidningen. hLEPOR använder det harmoniska medelvärdet för att kombinera delfaktorerna i den designade metriken. Vidare designar de en uppsättning parametrar för att justera vikterna av underfaktorerna enligt olika språkpar. ACL-WMT13 Metrics delade uppgiftsresultat visar att hLEPOR ger den högsta Pearson-korrelationspoängen med mänskligt omdöme på språkparet engelska till ryska, förutom det högsta genomsnittliga poängen på fem språkpar (engelska till tyska, franska , spanska, tjeckiska, ryska). De detaljerade resultaten av WMT13 Metrics Task presenteras i artikeln.

Översikter av mänskliga och automatiska utvärderingsmetoder

Det finns en del utvärderingsarbeten för maskinöversättning, där människor introducerade mer information om vilka typer av mänskliga utvärderingsmetoder de använde och hur de fungerar, såsom förståelighet, trohet, flyt, adekvathet, förståelse och informativitet, etc. För automatiska utvärderingar, de gjorde också några tydliga klassificeringar såsom de lexikaliska likhetsmetoderna, tillämpningen av språkliga egenskaper och underområdena för dessa två aspekter. Till exempel, för lexikal likhet, innehåller den redigera avstånd, precision, återkallelse och ordföljd; för språkliga drag är det uppdelat i det syntaktiska draget respektive det semantiska draget. Vissa toppmoderna översikter av både manuell och automatisk översättningsutvärdering introducerade de nyligen utvecklade av översättningskvalitet (TQA), såsom crowd-sourced intelligens Amazon Mechanical Turk användning, statistisk signifikanstestning, återbesök av traditionella kriterier med nyutformade strategier, samt MT-kvalitetsuppskattning (QE) delade uppgifter från den årliga workshopen om MT (WMT) och motsvarande modeller som inte förlitar sig på mänskliga erbjudna referensöversättningar.

Se även

Anteckningar

Banerjee, S. och Lavie, A. (2005) "METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments" i Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT och/eller sammanfattning vid det 43:e årsmötet i Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, juni 2005
Church, K. och Hovy, E. (1993) "Good Applications for Crummy Machine Translation". Maskinöversättning , 8 s. 239–258
Coughlin, D. (2003) "Correlating Automated and Human Assessments of Machine Translation Quality" i MT Summit IX, New Orleans, USA s. 23–27
Doddington, G. (2002) "Automatisk utvärdering av maskinöversättningskvalitet med hjälp av n-gram samförekomststatistik". Proceedings of the Human Language Technology Conference (HLT), San Diego, CA s. 128–132
Gaspari, F. (2006) "Titta vem som översätter. Imitationer, kinesiska viskningar och nöje med maskinöversättning på Internet" i Proceedings of the 11th Annual Conference of the European Association of Machine Translation
Graham, Y. och T. Baldwin. (2014) "Test för betydelse av ökad korrelation med mänskligt omdöme". Proceedings of EMNLP 2014, Doha, Qatar
Lavie, A., Sagae, K. och Jayaraman, S. (2004) "The Significance of Recall in Automatic Metrics for MT Evaluation" i Proceedings of AMTA 2004, Washington DC. september 2004
Papineni, K., Roukos, S., Ward, T. och Zhu, WJ (2002). "BLEU: a method for automatic evaluation of machine translation" i ACL-2002: 40th Annual meeting of the Association for Computational Linguistics s. 311–318
Somers, H. (2005) " Rundtursöversättning: Vad är det bra för? "
Somers, H., Gaspari, F. och Ana Niño (2006) "Att upptäcka olämplig användning av gratis maskinöversättning online av språkstudenter - ett särskilt fall av upptäckt av plagiat". Proceedings of the 11th Annual Conference of European Association of Machine Translation, Oslo Universitet (Norge) s. 41–48
ALPAC (1966) "Språk och maskiner: datorer i översättning och lingvistik". En rapport från den rådgivande kommittén för automatisk språkbehandling, avdelningen för beteendevetenskap, National Academy of Sciences, National Research Council. Washington, DC: National Academy of Sciences, National Research Council, 1966. (Publikation 1416.)
Turian, J., Shen, L. och Melamed, ID (2003) "Utvärdering av maskinöversättning och dess utvärdering". Proceedings of the MT Summit IX, New Orleans, USA, 2003 s. 386–393
White, J., O'Connell, T. och O'Mara, F. (1994) "The ARPA MT Evaluation Methodologies: Evolution, Lessons, and Future Approaches". Proceedings of the 1st Conference of Association for Machine Translation in the Americas. Columbia, MD s. 193–205
White, J. (1995) "Approaches to Black Box MT Evaluation". Förfarandet från MT Summit V
Han, ALF, Wong, DF och Chao, LS (2012) "LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors" i Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012): Posters, Mumbai, Indien . Öppen källkod s. 441–450
Han, ALF, Wong, DF, Chao, LS, He, L., Lu, Y., Xing, J. och Zeng, X. (2013a) "Språkoberoende modell för maskinöversättningsutvärdering med förstärkta faktorer" i Proceedings från Machine Translation Summit XIV, Nice, Frankrike. International Association for Machine Translation. Verktyg med öppen källkod
ACL-WMT. (2013) " ACL-WMT13 METRICS TASK "
Han, ALF, Wong, DF, Chao, LS, Lu, Y., He, L., Wang, Y. och Zhou, J. (2013b) "A Description of Tunable Machine Translation Evaluation Systems in WMT13 Metrics Task" i Proceedings of the åttonde workshop om statistisk maskinöversättning, ACL-WMT13, Sofia, Bulgarien. Föreningen för beräkningslingvistik. Nättidning s. 414–421
Han, Lifeng (2016) "Machine Translation Evaluation Resources and Methods: A Survey" i arXiv:1605.04515 [cs.CL] , [1] s. 1–14, maj, 2016.
EuroMatrix. 2007. 1.3: Undersökning av maskinöversättningsutvärdering. Offentlig distribution. Projekt finansierat av Europeiska gemenskapen inom det sjätte ramprogrammet för forskning och teknisk utveckling.
Bonnie Dorr , Matt Snover, Nitin Madnani. Del 5: Maskinöversättningsutvärdering. Redaktör: Bonnie Dorr. Bokkapitel.
Han, Lifeng, Jones, Gareth och Smeaton, Alan (2021) Översättningskvalitetsbedömning: en kort undersökning om manuella och automatiska metoder. [2] I: MoTra21: Workshop on Modeling Translation: Translatology in the Digital Age, @NoDaLiDa 2021. 19 sidor. Utgivare: Association for Computational Linguistics.

Vidare läsning

Maskinöversättningsarkiv: Ämnesindex: Publikationer efter 2000 (se underrubrik för utvärdering )
Maskinöversättningsarkiv: Ämnesindex: Publikationer före 2000 (se underrubrik för utvärdering )
Maskinöversättningsutvärdering: En undersökning: Publikationer fram till 2015

Programvara för automatiserad utvärdering