Automatisk språköversättare

IBMs Automatic Language Translator var ett maskinöversättningssystem som konverterade ryska dokument till engelska . Den använde en optisk skiva som lagrade 170 000 ord-för-ord- och statement-for-statement-översättningar och en anpassad dator för att leta upp dem i hög hastighet. Byggd för det amerikanska flygvapnets Foreign Technology Division, AN/GSQ-16 (eller XW-2 ), som den var känd för flygvapnet, användes främst för att konvertera sovjetiska tekniska dokument för distribution till västerländska vetenskapsmän. Översättaren installerades 1959, uppgraderades dramatiskt 1964 och ersattes så småningom av en stordator som körde SYSTRAN 1970.

Historia

Fotoskopisk butik

Översättaren började i juni 1953 kontrakt från US Navy till International Telemeter Corporation (ITC) i Los Angeles. Detta var inte för ett översättningssystem, utan ett rent forsknings- och utvecklingskontrakt för ett högpresterande fotografiskt onlinelagringsmedium bestående av små svarta rektanglar inbäddade i en plastskiva. tog det dåvarande Rome Air Development Center (RADC) ytterligare finansiering 1954 och framåt.

Systemet utvecklades av Gilbert King, ingenjörschef på ITC, tillsammans med ett team som inkluderade Louis Ridenour . Det utvecklades till en 16-tums plastskiva med data registrerade som en serie mikroskopiska svarta rektanglar eller klara fläckar. Endast de yttersta 4 tum av skivan användes för lagring, vilket ökade den linjära hastigheten för den del som åtkoms. När skivan snurrade vid 2 400 rpm hade den en åtkomsthastighet på cirka 1 Mbit/sek. Totalt lagrade systemet 30 Mbits, vilket gör det till det högsta onlinesystemet i sin tid.

Mark I

1954 gav IBM en inflytelserik demonstration av maskinöversättning, idag känt som " Georgetown-IBM-experimentet ". Kört på en IBM 704 stordator , kunde översättningssystemet bara 250 ord ryska begränsat till området organisk kemi, och bara 6 grammatikregler för att kombinera dem. Ändå var resultaten extremt lovande och rapporterades brett i pressen.

Vid den tiden ansåg de flesta forskare inom det begynnande maskinöversättningsområdet att den stora utmaningen med att tillhandahålla rimliga översättningar var att bygga ett stort bibliotek, eftersom lagringsenheter från eran var både för små och för långsamma för att vara användbara i denna roll. King ansåg att fotobutiken var en naturlig lösning på problemet och lade upp idén om ett automatiserat översättningssystem baserat på fotobutiken för flygvapnet. RADC visade sig vara intresserad och gav ett forskningsbidrag i maj 1956. Vid den tiden gav flygvapnet också ett anslag till forskare vid University of Washington som arbetade med problemet med att ta fram en optimal översättningsordbok för projektet.

King förespråkade en enkel ord-för-ord-strategi för översättningar. Han trodde att de naturliga övertaligheterna i språket skulle göra det möjligt för även en dålig översättning att förstås, och att det lokala sammanhanget var ensamt nog att ge rimliga gissningar när de ställdes inför tvetydiga termer. Han konstaterade att "människans framgång med att uppnå en sannolikhet på 0,50 i att förutse orden i en mening till stor del beror på hans erfarenhet och de verkliga betydelserna av orden som redan upptäckts." Med andra ord, att bara översätta orden enbart skulle tillåta en människa att effektivt läsa ett dokument, eftersom de skulle kunna resonera ut den korrekta betydelsen från sammanhanget som tidigare ord gav.

1958 flyttade King till IBMs Thomas J. Watson Research Center och fortsatte utvecklingen av den fotobutiksbaserade översättaren. Med tiden ändrade King tillvägagångssättet från en ren ord-för-ord-översättare till en som lagrade "stammar och ändelser", som bröt ord i delar som kunde kombineras igen för att bilda kompletta ord igen.

Den första maskinen, "Mark I", demonstrerades i juli 1959 och bestod av en ordbok på 65 000 ord och en anpassad tubbaserad dator för att göra uppslagningarna. Texter handkopierades till hålkort med hjälp av anpassade kyrilliska terminaler och matades sedan in i maskinen för översättning. Resultaten var mindre än imponerande, men var tillräckligt för att antyda att en större och snabbare maskin skulle vara en rimlig utveckling. Under tiden användes märket I på översättningar av den sovjetiska tidningen Pravda . Resultaten fortsatte att vara tveksamma, men King förklarade att det var en framgång och påstod i Scientific American att systemet "...fanns, i en operativ utvärdering, vara ganska användbart av regeringen."

Mark II

Den 4 oktober 1957 lanserade Sovjetunionen Sputnik 1 , den första konstgjorda satelliten. Detta orsakade en våg av oro i USA, vars eget Project Vanguard greps på plattfot och sedan visade sig upprepade gånger misslyckas på ett spektakulärt sätt. Denna pinsamma händelseutveckling ledde till en enorm investering i amerikansk vetenskap och teknologi, inklusive bildandet av DARPA , NASA och en mängd olika underrättelseinsatser som skulle försöka undvika att bli överraskad på det här sättet igen.

Efter en kort period centraliserades underrättelseinsatserna vid Wright Patterson Air Force Base som Foreign Technology Division (FTD, nu känd som National Air and Space Intelligence Center ), som drivs av flygvapnet med input från DIA och andra organisationer. FTD fick i uppdrag att översätta sovjetiska och andra från Warszawablocket så att forskare i "västern" kunde hålla sig uppdaterade om utvecklingen bakom järnridån . De flesta av dessa dokument var allmänt tillgängliga, men FTD gjorde också ett antal engångsöversättningar av annat material på begäran.

Förutsatt att det fanns en brist på kvalificerade översättare, blev FTD extremt intresserad av Kings ansträngningar på IBM. Finansiering för en uppgraderad maskin var snart på gång, och arbetet började med ett "Mark II"-system baserat på en transistoriserad dator med en snabbare och högre kapacitet 10-tums glasbaserad optisk skiva som snurrade vid 2 400 RPM. Ett annat tillägg var en optisk teckenläsare från tredje part, som de hoppades skulle eliminera den tidskrävande processen att kopiera den ryska texten till maskinläsbara kort.

1960 gick Washington-teamet också med i IBM och tog med sig sina ordboksinsatser. Ordboken fortsatte att expandera när ytterligare lagring gjordes tillgänglig och nådde 170 000 ord och termer när den installerades på FTD. En stor mjukvaruuppdatering införlivades också i Mark II, som King kallade "ordboksfyllning". Fyllning var ett försök att ta itu med problemen med tvetydiga ord genom att "stoppa" prefix på dem från tidigare ord i texten. Dessa modifierade ord skulle matcha med liknande fyllda ord i ordboken, vilket minskar antalet falska positiva.

1962 lämnade King IBM för Itek , en militär entreprenör i färd med att snabbt förvärva ny teknik. Utvecklingen på IBM fortsatte, och systemet gick i full drift vid FTD i februari 1964. Systemet demonstrerades på 1964 års världsutställning i New York . Versionen på mässan inkluderade en ordbok på 150 000 ord, med ungefär 1/3 av orden i fraser. Cirka 3 500 av dessa lagrades i kärnminne för att förbättra prestandan, och en genomsnittlig hastighet på 20 ord per minut hävdades. Resultaten av den noggrant utvalda inmatningstexten var ganska imponerande. Efter dess återkomst till FTD, användes den kontinuerligt fram till 1970, då den ersattes av en maskin som körde SYSTRAN .

ALPAC-rapport

1964 gav USA:s försvarsdepartement USA:s nationella vetenskapsakademi (NAS) i uppdrag att utarbeta en rapport om tillståndet för maskinöversättning. NAS bildade "Automatic Language Processing Advisory Committee", eller ALPAC , och publicerade sina resultat 1966. Rapporten, Language and Machines: Computers in Translation and Linguistics, var mycket kritisk till de befintliga ansträngningarna och visade att systemen inte var snabbare än mänskliga översättningar, samtidigt som det visade att den förmodade bristen på översättare i själva verket var ett överskott, och som ett resultat av problem med utbud och efterfrågan var mänsklig översättning relativt billig – cirka 6 USD per 1 000 ord. Värre, FTD var också långsammare; tester med fysikpapper som indata visade att översättaren var "10 procent mindre exakt, 21 procent långsammare och hade en förståelsenivå 29 procent lägre än när han använde mänsklig översättning."

ALPAC-rapporten var lika inflytelserik som Georgetown-experimentet hade varit ett decennium tidigare; omedelbart efter publiceringen avbröt den amerikanska regeringen nästan all finansiering för maskinöversättningsforskning. Det pågående arbetet på IBM och Itek hade avslutats 1966 och lämnade fältet till européerna, som fortsatte utvecklingen av system som SYSTRAN och Logos.

Anteckningar

Citat

Bibliografi

  • GW King, GW Brown och LN Ridenour, "Photographic Techniques for Information Storage", Proceedings of the IRE , Volym 41 Issue 10 (oktober 1953), s. 1421–1428
  • GW King, "Stochastic Methods of Mechanical Translation", Mechanical Translation , Volym 3 Issue 2 (1956) s. 38–39
  • JL Craft, EH Goldman, WB Strohm, "A Table Look-up Machine for Processing of Natural Languages" , IBM Journal , juli 1961, s. 192–203
  • Language Processing Advisory Committee, "Language and Machines: Computers in Translation and Linguistics" , National Research Council , 1966 (allmänt känd som "ALPAC-rapporten")
  •   John Hutchins (red), "Gilbert W. King and the IBM-USAF Translator" , Early Years in Machine Translation , Joh Benjamins, 2000, ISBN 90-272-4586-X (RADC-TDR-62-105)
  •   Charles Bourne och Trudi Bellardo Hahn, "A History of Online Information Services, 1963–1976" , MIT Press, 2003, ISBN 0-262-02538-8