Pivotspråk

Ett pivotspråk , ibland även kallat ett bryggspråk , är ett konstgjort eller naturligt språk som används som mellanspråk för översättning mellan många olika språk – för att översätta mellan valfritt språkpar A och B översätter man A till pivotspråket P, sedan från P till B. Att använda ett pivotspråk undviker den kombinatoriska explosionen av att ha översättare över alla kombinationer av de språk som stöds, eftersom antalet kombinationer av språk är linjärt ( snarare än kvadratiskt – man behöver bara kunna språket A och pivotspråket P (och någon annan språket B och pivoten P), snarare än att behöva en annan översättare för varje möjlig kombination av A och B.

Nackdelen med ett pivotspråk är att varje steg i omöversättningen introducerar möjliga misstag och oklarheter – att använda ett pivotspråk innebär två steg, snarare än ett. Till exempel, när Hernán Cortés kommunicerade med mesoamerikanska indianer, talade han spanska med Gerónimo de Aguilar , som talade Mayan till Malintzin , som talade Nahuatl till lokalbefolkningen.

Exempel

Engelska , franska , ryska och arabiska används ofta som pivotspråk. Interlingua har använts som ett pivotspråk vid internationella konferenser och har föreslagits som ett pivotspråk för Europeiska unionen . Esperanto föreslogs som ett pivotspråk i projektet Distributed Language Translation och har använts på detta sätt i Majstro Tradukvortaro på Esperantos webbplats Majstro.com . Universal Networking Language är ett konstgjort språk speciellt utformat för att användas som ett pivotspråk.

I datoranvändning

Pivotkodning är också en vanlig metod för att översätta data för datorsystem. Till exempel internetprotokollet , XML och högnivåspråk pivotkodningar av datordata som sedan ofta renderas till interna binära format för särskilda datorsystem.

Unicode designades för att kunna användas som en pivotkodning mellan olika stora befintliga teckenkodningar, även om dess utbredda användning som en kodning i sig har gjort denna användning oviktig.

I maskinöversättning

Nuvarande system för statistisk maskinöversättning ( SMT ) använder parallella korpus för källspråk och målspråk för att uppnå sina goda resultat, men bra parallella korpus är inte tillgängliga för alla språk. Ett pivotspråk (p) möjliggör bryggan mellan två språk, till vilka befintliga parallella korpus helt eller delvis ännu inte finns till hands.

Pivotöversättning kan vara problematisk på grund av den potentiella bristen på trohet hos informationen som skickas vid användning av olika korpus. Från användningen av två tvåspråkiga korpus (sp & pt) för att sätta upp den st bron, går språkliga data oundvikligen förlorade. Regelbaserad maskinöversättning ( RBMT ) hjälper systemet att rädda denna information, så att systemet inte helt förlitar sig på statistik utan också på strukturell språklig information.

Tre grundläggande tekniker används för att använda pivotspråk i maskinöversättning: (1) triangulering , som fokuserar på frasparallellation mellan källa och pivot (sp) och mellan pivot och mål (pt); (2) transfer , som översätter hela meningen i källspråket till ett pivotspråk och sedan till målspråket; och (3) syntes , som bygger en egen korpus för systemträning.

Trianguleringsmetoden (även kallad frastabellmultiplikation ) beräknar sannolikheten för både översättningskorrespondenser och lexikal vikt i sp och pt, för att försöka inducera en ny st frastabell . Överföringsmetoden (även kallad meningsöversättningsstrategi ) utför helt enkelt en enkel översättning av s till p och sedan ytterligare en översättning av p till t utan att använda probabilistiska test (som i triangulering) . Den syntetiska metoden använder en befintlig korpus av s och försöker bygga en egen syntetisk korpus av den som används av systemet för att träna sig själv. Sedan syntetiseras en tvåspråkig sp-korpus för att möjliggöra en pt-översättning.

En direkt jämförelse mellan triangulering och överföringsmetoder för SMT-system har visat att triangulering ger mycket bättre resultat än överföring.

Alla tre pivotspråksteknikerna förbättrar prestandan hos SMT-system. Den syntetiska tekniken fungerar dock inte bra med RBMT, och systemens prestanda är lägre än förväntat. Hybrid SMT/RBMT-system uppnår bättre översättningskvalitet än strikta SMT-system som förlitar sig på dåliga parallella korpus.

Nyckelrollen för RBMT-system är att de hjälper till att fylla tomrummet i översättningsprocessen av sp → pt, i den meningen att dessa paralleller ingår i SMT-modellen för st.