Användbarhet av programvara för maskinöversättning

Avsnitten nedan ger objektiva kriterier för att utvärdera användbarheten av programvara för maskinöversättning .

Stationaritet eller kanonisk form

Konvergerar upprepade översättningar till ett enda uttryck på båda språken? Dvs visar översättningsmetoden stationaritet eller ger en kanonisk form ? Blir översättningen stationär utan att den ursprungliga betydelsen förloras? Detta mått har kritiserats för att inte vara välkorrelerat med BLEU (BiLingual Evaluation Understudy) poäng.

Anpassad till vardagsspråk, argot eller slang

Är systemet anpassat till vardagsspråk , argot eller slang ? Det franska språket har många regler för att skapa ord i populärkulturens tal och skrift . Två sådana regler är: (a) Omvänd stavning av ord som femme till meuf . (Detta kallas verlan .) (b) Fästningen av suffixet -ard till ett substantiv eller verb för att bilda ett egennamn. Till exempel betyder substantivet faluche "studentmössa". Ordet faluchard bildat av faluche i vardagsspråk kan, beroende på sammanhang, betyda "en grupp studenter", "en samling av studenter" och "beteende som är typiskt för en elev". Googles översättare från den 28 december 2006 härleder inte de konstruerade orden som till exempel från regel (b), som visas här:

Il ya une chorale falucharde mercredi, venez nombreux, les faluchards chantent des paillardes! ==> Det finns en körsällskap falucharde onsdag, kom många, falucharderna sjunger löst levande kvinnor!

Fransk argot har tre användningsnivåer:

  1. familjär eller vänlig, acceptabel bland vänner, familj och kamrater men inte på jobbet
  2. grovare eller svordomar, acceptabla bland vänner och kamrater men inte på jobbet eller i familjen
  3. verlan- eller ghettoslang, acceptabel bland lägre klasser men inte bland medel- eller överklasser

United States National Institute of Standards and Technology genomför årliga utvärderingar [1] av maskinöversättningssystem baserat på BLEU -4-kriteriet [2] . En kombinerad metod som kallas IQmt som innehåller BLEU och ytterligare mätvärden NIST, GTM, ROUGE och METEOR har implementerats av Gimenez och Amigo [3] .

Välformad utgång

Är utgången grammatisk eller välformad på målspråket? Att använda ett interlingua bör vara till hjälp i detta avseende, för med ett fast interlingua bör man kunna skriva en grammatisk mappning till målspråket från interlingua. Beakta följande arabiska språkinmatning och engelska översättningsresultat från Googles översättare den 27 december 2006 [ 4] . Denna utdata från Google översättare analyserar inte med en rimlig engelsk grammatik :

وعن حوادث التدافع عند شعيرة رمي الجمرات -التي كثيرا ما يسقط فيها الفيها الحارشديد مني إلى إدخال "تحسينات كثيرة في جسر الجمرات ستمنع بإذن الله حدوث أي تزاح". ==> Och incidenter på push Carbuncles-kastning ritual, som ofta faller där många av offren - Prince Nayef pekade på införandet av "många förbättringar i bro Carbuncles Gud skulle stoppa förekomsten av alla konkurrerande."

Bevarande av semantik

Bevarar upprepade omöversättningar den ursprungliga meningens semantik ? Tänk till exempel på följande engelska inmatning som skickats flera gånger till och från franskan med hjälp av Googles översättare den 27 december 2006:

Bättre en dag tidigare än en dag för sent. ==>

Améliorer un jour plus tôt qu'un jour tard. ==>

Att förbättra sig en dag tidigare än en dag för sent. ==>

Häll améliorer un jour plus tôt qu'un jour tard. ==>

Att förbättra sig en dag tidigare än en dag för sent.

Som nämnts ovan och i är denna typ av översättning tur och retur en mycket opålitlig metod för utvärdering.

Pålitlighet och säkerhet

En intressant egenhet med Google Translate den 24 januari 2008 (korrigerad från den 25 januari 2008) är följande resultat vid översättning från engelska till spanska, som visar ett inbäddat skämt i den engelsk-spanska ordboken som har en viss gripande effekt med tanke på de senaste händelserna:

Heath Ledger är död ==>

Tom Cruise är en spelare

Detta väcker frågan om tillförlitlighet när man förlitar sig på ett maskinöversättningssystem inbyggt i ett livskritiskt system där översättningssystemet har input till en process för säkerhetskritisk beslutsfattande. Tillsammans väcker det frågan om huruvida programvaran för maskinöversättningssystemet vid en viss användning är säker från hackare .

Det är inte känt om denna funktion i Google Translate var resultatet av ett skämt/hack eller kanske en oavsiktlig konsekvens av användningen av en metod som statistisk maskinöversättning . Reportrar från CNET Networks bad Google om en förklaring den 24 januari 2008; Google sa bara att det var ett "internt problem med Google Translate". Felöversättningen var föremål för mycket munterhet och spekulationer på Internet.

Om det är en oavsiktlig konsekvens av användningen av en metod som statistisk maskinöversättning , och inte ett skämt/hack, så är denna händelse en demonstration av en potentiell källa till kritisk opålitlighet i den statistiska maskinöversättningsmetoden.

tolkarnas sida, kommenteras ofta selektivitet hos översättaren när det gäller att utföra en översättning när en av de två parter som betjänas av tolken kan båda språken.

Detta leder till frågan om en viss översättning kan anses verifierbar . I det här fallet skulle en konvergerande översättning tur och retur vara ett slags verifiering.

Se även

Anteckningar