LEPOR

LEPOR ( Längdstraff , P recision, n-grams positionsskillnad Penalty and R ecall) är ett automatiskt språkoberoende maskinöversättningsutvärderingsmått med inställbara parametrar och förstärkta faktorer.

Bakgrund

Sedan IBM föreslog och realiserade systemet med BLEU som det automatiska måttet för utvärdering av maskinöversättning (MT), har många andra metoder föreslagits för att revidera eller förbättra det, såsom TER, METEOR , etc. Det finns dock vissa problem i den traditionella automatiska utvärderingsmått . Vissa mätvärden fungerar bra på vissa språk men svaga på andra språk, vilket brukar kallas för ett språkbiasproblem. Vissa mätvärden förlitar sig på många språkegenskaper eller språklig information, vilket gör det svårt för andra forskare att upprepa experimenten. LEPOR är ett automatiskt utvärderingsmått som försöker lösa några av de befintliga problemen. LEPOR är designad med utökade faktorer och motsvarande avstämbara parametrar för att ta itu med problem med språkbias. Dessutom, i den förbättrade versionen av LEPOR, dvs hLEPOR, försöker den använda de optimerade språkliga funktionerna som extraheras från trädbankar . En annan avancerad version av LEPOR är nLEPOR-måttet, som lägger till n-gram-funktionerna i de tidigare faktorerna. Hittills har LEPOR-måttet utvecklats till LEPOR-serien.

LEPOR-mått har studerats och analyserats av många forskare från olika områden, såsom maskinöversättning, generering av naturliga språk och sökning och vidare. LEPOR-mått får mer uppmärksamhet från vetenskapliga forskare inom naturlig språkbehandling .

Design

LEPOR är utformad med faktorerna förbättrad längdstraff, precision , n-gram ordföljdsstraff och återkallelse . Det utökade längdstraffet säkerställer att hypotesöversättningen, som vanligtvis översätts av maskinöversättningssystem, straffas om den är längre eller kortare än referensöversättningen. Precisionspoängen återspeglar noggrannheten i hypotesöversättningen. Återkallelsepoängen återspeglar hypotesöversättningens lojalitet mot referensöversättningen eller källspråket. Den n-gram baserade ordordningsstrafffaktorn är utformad för de olika positionsordningarna mellan hypotesöversättningen och referensöversättningen. Ordföljdsstrafffaktorn har visat sig vara användbar av många forskare, till exempel Wong och Kits (2008) arbete.

I ljuset av att ordet ytsträngsmatchningsmetrik kritiserades med bristande syntax och semantisk medvetenhet, undersöker den vidareutvecklade LEPOR-metriken (hLEPOR) integrationen av språkliga egenskaper, såsom ordspråk (POS). POS introduceras som en viss funktionalitet av både syntax och semantisk synvinkel, t.ex. om en symbol för utgående mening är ett verb medan det förväntas vara ett substantiv, så ska det finnas ett straff; också, om POS är detsamma men det exakta ordet inte är detsamma, t.ex. bra vs trevligt, så ska den här kandidaten få en viss kredit. Den totala poängen för hLEPOR beräknas sedan som kombinationen av ordnivåpoäng och POS-nivåpoäng med en viktningsuppsättning. Språkmodelleringsinspirerad n-gram-kunskap utforskas också omfattande i nLEPOR. Utöver n-gram-kunskapen för n-gram positionsskillnadsstraffberäkning, tillämpas n-gram även på n-gram-precision och n-gram-återkallelse i nLEPOR, och parametern n är en justerbar faktor. Förutom POS-kunskap i hLEPOR ingår frasstruktur från att tolka information i en ny variant HPPR. I HPPR-utvärderingsmodellering beaktas frasstrukturuppsättningen, såsom substantivfras, verbfras, prepositionsfras, adverbialfras under matchningen från kandidattext till referenstext.

Mjukvaruimplementering

LEPOR-måtten implementerades ursprungligen i programmeringsspråket Perl, och nyligen har Python-versionen blivit tillgänglig av andra forskare och ingenjörer, med ett pressmeddelande från Logrus Global Language Service-företaget.

Prestanda

LEPOR-serien har visat sina goda prestationer i ACL :s årliga internationella verkstad för statistisk maskinöversättning ( ACL-WMT) . ACL-WMT innehas av specialintressegruppen för maskinöversättning (SIGMT) i den internationella sammanslutningen för datorlingvistik (ACL). I ACL-WMT 2013 finns det två översättnings- och utvärderingsspår, engelska till andra och andra till engelska. De "andra" språken inkluderar spanska , franska , tyska , tjeckiska och ryska . I engelsk-till-annat riktning uppnår nLEPOR-måttet den högsta korrelationspoängen på systemnivå med mänskliga bedömningar med hjälp av Pearson-korrelationskoefficienten, den näst högsta korrelationspoängen på systemnivå med mänskliga bedömningar med användning av Spearman- rankkorrelationskoefficienten . I den andra-till-engelska riktningen presterar nLEPOR måttligt och METEOR ger den högsta korrelationspoängen med mänskliga bedömningar, vilket beror på det faktum att nLEPOR endast använder den kortfattade språkliga funktionen, ordspråksinformation, förutom den officiellt erbjudna träningsdata; METEOR har dock använt många andra externa resurser, såsom synonymerna ordböcker , parafraser och stemming , etc.

Ett utökat arbete och en introduktion om LEPORs föreställningar med olika villkor inklusive ren ord-ytaform, POS- funktioner, frastaggar-funktioner, beskrivs i en avhandling från University of Macau .

Det finns en djup statistisk analys om hLEPOR- och nLEPOR-prestanda i WMT13, som visar att den presterade som en av de bästa mätvärdena "i både den individuella språkparbedömningen för spanska-till-engelska och den aggregerade uppsättningen av 9 språkpar", se paper (exakt utvärdering av maskinöversättningsmått på segmentnivå) " https://www.aclweb.org/anthology/N15-1124 " Graham et al. 2015 NAACL ( https://github.com/ygraham/segment-mteval )

Ansökningar

LEPOR automatiska metriska serier har använts och använts av många forskare från olika områden inom naturlig språkbehandling . Till exempel i standard MT och neural MT. Även utanför MT-gemenskapen tillämpade till exempel LEPOR i sökutvärdering; nämnde tillämpningen av LEPOR för utvärdering av kodgenerering (programmeringsspråk); undersökte automatisk utvärdering av naturligt språkgenerering med mätvärden inklusive LEPOR, och hävdade att automatiska mätvärden kan hjälpa utvärderingar på systemnivå; även LEPOR används vid utvärdering av bildtextning.

Se även

Anteckningar

  • Papineni, K., Roukos, S., Ward, T. och Zhu, WJ (2002). "BLEU: a method for automatic evaluation of machine translation" i ACL-2002: 40th Annual meeting of the Association for Computational Linguistics s. 311–318
  • Han, ALF, Wong, DF och Chao, LS (2012) "LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors" i Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012): Posters, s. 441– 450. Mumbai, Indien. Onlinepapper Verktyg med öppen källkod
  • Han, ALF, Wong, DF, Chao, LS, He, L., Lu, Y., Xing, J. och Zeng, X. (2013a) "Språkoberoende modell för maskinöversättningsutvärdering med förstärkta faktorer" i Proceedings av Machine Translation Summit XIV (MT SUMMIT 2013), s. 215-222. Nice, Frankrike. Utgivare: International Association for Machine Translation. Onlinepapper Verktyg med öppen källkod
  • Han, ALF, Wong, DF, Chao, LS, Lu, Y., He, L., Wang, Y. och Zhou, J. (2013b) "A Description of Tunable Machine Translation Evaluation Systems in WMT13 Metrics Task" i Proceedings of the åttonde workshop om statistisk maskinöversättning, ACL-WMT13, Sofia, Bulgarien. Föreningen för beräkningslingvistik. Nättidning s. 414–421
  •    Han, Aaron L.-F.; Wong, Derek F.; Chao, Lidia S.; Han, Liangye; Lu, Yi (2014). "Oövervakad kvalitetsuppskattningsmodell för engelska till tyska översättning och dess tillämpning i omfattande övervakad utvärdering" . The Scientific World Journal . 2014 : 1–12. doi : 10.1155/2014/760301 . PMC 4032676 . PMID 24892086 .
  • ACL-WMT. (2013) " ACL-WMT13 METRICS TASK "
  • Wong, B.TM, och Kit, C. (2008). "Ordval och ordposition för automatisk MT-utvärdering" i Workshop: MetricsMATR of the Association for Machine Translation in the Americas (AMTA), kort papper, Waikiki, USA.
  • Banerjee, S. och Lavie, A. (2005) "METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments" i Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT och/eller sammanfattning vid det 43:e årsmötet i Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, juni 2005
  • Han, Lifeng. (2014) "LEPOR: An Augmented Machine Translation Evaluation Metric". Examensarbete för civilingenjör i mjukvaruteknik. University of Macau, Macao. [1] PPT
  • Yvette Graham, Timothy Baldwin och Nitika Mathur. (2015) Noggrann utvärdering av maskinöversättningsmått på segmentnivå. I NAACL HLT 2015, The 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Denver, Colorado, USA, 31 maj - 5 juni 2015, sidorna 1183–1191.
  • Han, Lifeng (2016). "Resurser och metoder för utvärdering av maskinöversättning: En undersökning". arXiv : 1605.04515 [ cs.CL ].
  • Jekaterina Novikova, Ondˇrej Dušek, Amanda Cercas Curry och Verena Rieser. (2017) Varför vi behöver nya utvärderingsmått för NLG. I Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, sidorna 2241–2252, Köpenhamn, Danmark. Föreningen för beräkningslingvistik.
  •   Liu, Zeyang; Zhou, Ke; Wilson, Max L. (2021). "Meta-utvärdering av mätvärden för konversationssökningsutvärdering". ACM-transaktioner på informationssystem . 39 (4): 1–42. arXiv : 2104.13453 . doi : 10.1145/3445029 . S2CID 233423567 .
  •   Liguori, Pietro; Al-Hossami, Erfan; Cotroneo, Domenico; Natella, Roberto; Cukic, Bojan; Shaikh, Samira (2021). "Shellcode_IA32: En datauppsättning för automatisk skalkodsgenerering". Proceedings of the 1st Workshop on Natural Language Processing for Programmering (NLP4Prog 2021) . s. 58–64. arXiv : 2104.13100 . doi : 10.18653/v1/2021.nlp4prog-1.7 . S2CID 233407761 .
  • Celikyilmaz, Asli; Clark, Elizabeth; Gao, Jianfeng (2020). "Utvärdering av textgenerering: En undersökning". arXiv : 2006.14799 [ cs.CL ].
  • D Qiu, B Rothrock, T Islam, AK Didier, VZ Sun… (2020) SCOTI: Science Captioning of Terrain Images för dataprioritering och lokal bildsökning. Planet och rymd. Elsevier
  •   Marzouk, Shaimaa; Hansen-Schirra, Silvia (2019). "Utvärdering av påverkan av kontrollerat språk på neural maskinöversättning jämfört med andra MT-arkitekturer". Maskinöversättning . 33 (1–2): 179–203. doi : 10.1007/s10590-019-09233-w . S2CID 171094946 .
  •   Han, Aaron Li-Feng; Wong, Derek F.; Chao, Lidia S.; Han, Liangye; Li, Shuo; Zhu, Ling (2013). "Frastagsmappning för franska och engelska trädbanker och dess tillämpning i maskinöversättningsutvärdering". Språkbehandling och kunskap på webben . Föreläsningsanteckningar i datavetenskap. Vol. 8105. s. 119–131. doi : 10.1007/978-3-642-40722-2_13 . ISBN 978-3-642-40721-5 .

externa länkar