Ordboksbaserad maskinöversättning

Från A till A

Maskinöversättning kan använda en metod baserad på ordboksposter , vilket innebär att orden kommer att översättas som en ordbok gör – ord för ord, vanligtvis utan någon större betydelsekorrelation mellan dem. Ordboksuppslagningar kan göras med eller utan morfologisk analys eller lemmatisering . Även om detta tillvägagångssätt för maskinöversättning förmodligen är det minst sofistikerade, ordboksbaserad maskinöversättning idealiskt lämplig för översättning av långa listor med fraser på subsentential (dvs. inte en hel mening) nivå, t.ex. inventeringar eller enkla kataloger av produkter och tjänster .

Det kan också användas för att påskynda manuell översättning, om personen som utför den är flytande i båda språken och därför kan korrigera syntax och grammatik.

LMT

LMT, som introducerades runt 1990, är ​​ett Prolog-baserat maskinöversättningssystem som fungerar på specialgjorda tvåspråkiga ordböcker, såsom Collins English-German (CEG), som har skrivits om i en indexerad form som är lätt att läsa av datorer. Denna metod använder en strukturerad lexikal databas (LDB) för att korrekt identifiera ordkategorier från källspråket och på så sätt konstruera en sammanhängande mening i målspråket, baserad på rudimentär morfologisk analys. Detta system använder "ramar" för att identifiera positionen ett visst ord bör ha, ur en syntaktisk synvinkel, i en mening. Dessa "ramar" kartläggs via språkkonventioner, såsom UDICT när det gäller engelska.

I sin tidiga (prototyp) form använder LMT tre lexikon som nås samtidigt: källa, överföring och mål, även om det är möjligt att kapsla in hela denna information i ett enda lexikon. Programmet använder en lexikalisk konfiguration som består av två huvudelement. Det första elementet är ett handkodat lexikontillägg som innehåller möjliga felaktiga översättningar. Det andra elementet består av olika tvåspråkiga och enspråkiga ordböcker om de två språk som är käll- och målspråk.

Exempel- och ordboksbaserad maskinöversättning

Denna metod för ordboksbaserad maskinöversättning utforskar ett annat paradigm än system som LMT. Ett exempelbaserat maskinöversättningssystem levereras endast med en "satsjusterad tvåspråkig korpus". Genom att använda dessa data genererar översättningsprogrammet en "ord-för-ord tvåspråkig ordbok" som används för vidare översättning.

Även om detta system i allmänhet skulle betraktas som ett helt annat sätt för maskinöversättning än ordboksbaserad maskinöversättning, är det viktigt att förstå den kompletterande karaktären hos dessa paradigm. Med den kombinerade kraften som är inneboende i båda systemen, tillsammans med det faktum att en ordboksbaserad maskinöversättning fungerar bäst med en "ord-för-ord tvåspråkig ordbok" listor med ord, visar det det faktum att en koppling av dessa två översättningsmotorer skulle generera ett mycket kraftfullt översättningsverktyg som, förutom att vara semantiskt korrekt, kan förbättra sina egna funktioner via eviga återkopplingsslingor.

Ett system som kombinerar båda paradigmen på ett sätt som liknar det som beskrevs i föregående stycke är Pangloss exempelbaserade maskinöversättningsmotor (PanEBMT) maskinöversättningsmotor. PanEBMT använder en korrespondenstabell mellan språk för att skapa sin korpus. Dessutom stöder PanEBMT flera inkrementella operationer på sin korpus, vilket underlättar en partisk översättning som används för filtreringsändamål.

Parallell textbehandling

Douglas Hofstadter bevisar genom sin "Le Ton beau de Marot: In Praise of the Music of Language" vilken komplex uppgift översättning är. Författaren producerade och analyserade dussintals på dussintals möjliga översättningar för en fransk dikt på arton rader, och avslöjade därmed komplexa inre funktioner av syntax, morfologi och mening. Till skillnad från de flesta översättningsmotorer som väljer en enskild översättning baserat på jämförelse av texterna på både käll- och målspråk, bevisar Douglas Hofstadters arbete den inneboende felnivån som finns i alla former av översättning, när källans betydelse texten är för detaljerad eller komplex. Således uppmärksammas problemet med textanpassning och "språkstatistik".

Dessa diskrepanser ledde till Martin Kays syn på översättnings- och översättningsmotorer som helhet. Som Kay uttrycker det "Mer betydande framgångar i dessa företag kommer att kräva en skarpare bild av världen än någon annan som helt enkelt kan utläsas från statistiken över språkanvändning" [(sida xvii) Parallell Text Processing: Alignment and Use of Translation Corpora] . Således har Kay lyft fram frågan om mening i språket och förvrängningen av mening genom översättningsprocesser.

Lexikal begreppsstruktur

En av de möjliga användningsområdena för ordboksbaserad maskinöversättning är att underlätta "Utlärning av främmande språk" (FLT). Detta kan uppnås genom att använda maskinöversättningsteknik såväl som lingvistik, semantik och morfologi för att producera "storskaliga ordböcker" på praktiskt taget vilket språk som helst. Utvecklingen inom lexikalisk semantik och beräkningslingvistik under tidsperioden mellan 1990 och 1996 gjorde det möjligt för "naturlig språkbehandling" (NLP) att blomstra, få nya möjligheter, men ändå gynna maskinöversättning i allmänhet.

"Lexical Conceptual Structure" (LCS) är en representation som är språkoberoende. Det används mest i handledning av främmande språk, särskilt i det naturliga språkbehandlingselementet i FLT. LCS har också visat sig vara ett oumbärligt verktyg för maskinöversättning av alla slag, såsom ordboksbaserad maskinöversättning. Överlag är ett av de primära målen för LCS "att visa att synonyma verbsinnen delar distributionsmönster".

"DKvec"

"DKvec är en metod för att extrahera tvåspråkiga lexikon, från brusiga parallella korpus baserat på ankomstavstånd för ord i brusiga parallella korpus". Denna metod har dykt upp som svar på två problem som plågar den statistiska utvinningen av tvåspråkiga lexikon: "(1) Hur kan brusiga parallella korpusar användas? (2) Hur kan icke-parallella men ändå jämförbara korpus användas?"

"DKvec"-metoden har visat sig ovärderlig för maskinöversättning i allmänhet, på grund av den fantastiska framgång den har haft i försök som genomförts på både engelska – japanska och engelska – kinesiska bullriga parallellkorpus. Siffrorna för noggrannhet "visar en 55,35% precision från en liten korpus och 89,93% precision från en större korpus". Med sådana imponerande siffror är det säkert att anta den enorma inverkan som metoder som "DKvec" har haft i utvecklingen av maskinöversättning i allmänhet, särskilt ordboksbaserad maskinöversättning.

Algoritmer som används för att extrahera parallella korpus i ett tvåspråkigt format utnyttjar följande regler för att uppnå en tillfredsställande noggrannhet och övergripande kvalitet:

  1. Ord har en betydelse per korpus
  2. Ord har en översättning per korpus
  3. Inga saknade översättningar i måldokumentet
  4. Frekvenser för tvåspråkiga ordförekomster är jämförbara
  5. Positionerna för tvåspråkiga ordförekomster är jämförbara

Dessa metoder kan användas för att generera, eller för att leta efter, förekomstmönster som i sin tur används för att producera binära förekomstvektorer som används av "DKvec"-metoden.

Maskinöversättningens historia

Maskinöversättningens (MT) historia börjar runt mitten av 1940-talet. Maskinöversättningar var förmodligen första gången datorer användes för icke-numeriska ändamål. Maskinöversättning åtnjöt ett starkt forskningsintresse under 1950- och 1960-talen, vilket följdes av en stagnation fram till 1980-talet. Efter 1980-talet blev maskinöversättning mainstream igen och åtnjöt en ännu större popularitet än på 1950- och 1960-talen samt en snabb expansion, till stor del baserad på textkorpusmetoden.

Grundbegreppet för maskinöversättning kan spåras tillbaka till 1600-talet i spekulationerna kring "universella språk och mekaniska ordböcker". De första verkliga praktiska maskinöversättningsförslagen gjordes 1933 av Georges Artsrouni i Frankrike och Petr Trojanskij i Ryssland. Båda hade patenterade maskiner som de trodde kunde användas för att översätta betydelse från ett språk till ett annat. "I juni 1952 sammankallades den första MT-konferensen vid MIT av Yehoshua Bar-Hillel". Den 7 januari 1954 tjänade en maskinöversättningskongress i New York, sponsrad av IBM, till att popularisera området. Konventionernas popularitet kom från översättningen av korta engelska meningar till ryska. Denna tekniska bedrift fascinerade allmänheten och regeringarna i både USA och Sovjetunionen som därför stimulerade storskalig finansiering inom maskinöversättningsforskning. Även om entusiasmen för maskinöversättning var extremt stor, ledde tekniska begränsningar och kunskapsbegränsningar till desillusioner om vad maskinöversättning faktiskt kunde göra, åtminstone på den tiden. Maskinöversättning förlorade således i popularitet fram till 1980-talet, då framsteg inom lingvistik och teknologi hjälpte till att återuppliva intresset för detta område.

Translingual informationssökning

"Translingual information retrieval (TLIR) består av att tillhandahålla en fråga på ett språk och att söka i dokumentsamlingar på ett eller flera olika språk". De flesta metoder för TLIR kan kvantifieras i två kategorier, nämligen statistiska IR-metoder och frågeöversättning. Maskinöversättningsbaserad TLIR fungerar på ett av två sätt. Antingen översätts frågan till målspråket, eller så används den ursprungliga frågan för att söka medan samlingen av möjliga resultat översätts till frågespråket och används för korsreferens. Båda metoderna har för- och nackdelar, nämligen:

  • Översättningsnoggrannhet – riktigheten av alla maskinöversättningar beror på storleken på den översatta texten, så korta texter eller ord kan drabbas av en större grad av semantiska fel, såväl som lexikaliska tvetydigheter, medan en större text kan ge sammanhang, vilket hjälper till att disambiguera.
  • Hämtningsnoggrannhet – baserat på samma logik som åberopades vid föregående punkt, är det helst att få hela dokument översatta, snarare än frågor, eftersom stora texter sannolikt kommer att drabbas av mindre betydelseförlust i översättning än korta frågor.
  • Praktisk – till skillnad från de föregående punkterna är översättning av korta frågor den bästa vägen att gå. Detta beror på att det är lätt att översätta korta texter, medan översättning av hela bibliotek är mycket resurskrävande, plus att volymen av en sådan översättningsuppgift innebär indexering av de nya översatta dokumenten

Alla dessa punkter bevisar det faktum att ordboksbaserad maskinöversättning är den mest effektiva och pålitliga översättningsformen när man arbetar med TLIR. Detta beror på att processen "slår upp varje frågeterm i en allmän tvåspråkig ordbok och använder alla dess möjliga översättningar."

Maskinöversättning av mycket nära språk

Exemplen på RUSLAN, ett ordboksbaserat maskinöversättningssystem mellan tjeckiska och ryska och CESILKO, ett tjeckiskt-slovakiskt ordboksbaserat maskinöversättningssystem, visar att när det gäller mycket nära språk är enklare översättningsmetoder effektivare, snabbare och tillförlitligare.

RUSLAN-systemet skapades för att bevisa hypoteserna att relaterade språk är lättare att översätta. Systemutvecklingen startade 1985 och avslutades fem år senare på grund av bristande ytterligare finansiering. Lärdomarna från RUSLAN-experimentet är att en överföringsbaserad översättningsmetod behåller sin kvalitet oavsett hur nära språken är. De två huvudsakliga flaskhalsarna i "fullfjädrade överföringsbaserade system" är komplexiteten och opålitligheten i syntaktisk analys.

Flerspråkig informationssökning MLIR

"Informationshämtningssystem rangordnar dokument enligt statistiska likhetsmått baserat på samtidig förekomst av termer i frågor och dokument". MLIR - systemet skapades och optimerades på ett sådant sätt att det underlättar ordboksbaserad översättning av frågor. Detta beror på att frågor tenderar att vara korta, ett par ord, vilket, trots att det inte ger mycket sammanhang, är mer genomförbart än att översätta hela dokument, på grund av praktiska skäl. Trots allt detta är MLIR-systemet starkt beroende av många resurser, såsom programvara för automatisk språkdetektering .

Se även

Bibliografi