Martin Kay

Martin Kay (1935 – 8 augusti 2021) var en datavetare , särskilt känd för sitt arbete inom beräkningslingvistik .

Född och uppvuxen i Storbritannien tog han sin MA från Trinity College, Cambridge, 1961. 1958 började han arbeta vid Cambridge Language Research Unit, ett av de tidigaste centra för forskning inom vad som nu är känt som Computational Linguistics. 1961 flyttade han till Rand Corporation i Santa Monica, Kalifornien, USA, där han så småningom blev chef för forskning inom lingvistik och maskinöversättning. Han lämnade Rand 1972 för att bli ordförande för institutionen för datavetenskap vid University of California, Irvine . 1974 flyttade han till Xerox Palo Alto Research Center som forskare. 1985, samtidigt som han behöll sin position på Xerox PARC, började han på halvtid vid Stanford Universitys fakultet. Han var senast professor i lingvistik vid Stanford University och hedersprofessor i beräkningslingvistik vid Saarlands universitet .

Liv

Han föddes i Edgware (Middlesex, Storbritannien) 1935 och han studerade lingvistik och beräkningslingvistik vid Trinity College i Cambridge.

Hans huvudsakliga intressen var översättning, både av människor och maskiner, och beräkningslingvistiska algoritmer, särskilt inom områdena morfologi och syntax.

Arbete

Kay började sin karriär vid Cambridge Language Research Unit i Cambridge, England under Margaret Masterman . 1961 David G. Hays honom för att arbeta för RAND Corporation ; han arbetade därefter för University of California, Irvine och Xerox PARC . Kay är en av pionjärerna inom beräkningslingvistik och maskinöversättning. Han var ansvarig för att introducera begreppet diagramanalys i beräkningslingvistik, och begreppet förening inom lingvistik i allmänhet.

Tillsammans med Ron Kaplan var han pionjär inom forskning och applikationsutveckling inom finita-tillståndsmorfologi. Han har varit en långvarig bidragsgivare till och kritiker av arbetet med maskinöversättning. I sin uppsats "The Proper Place of Men and Machines in Language Translation" argumenterade Kay för MT-system som var tätt integrerade i den mänskliga översättningsprocessen. Han var recensent och kritiker av EUROTRA, Verbmobil och många andra MT-projekt.

Kay var en tidigare ordförande i Association of Computational Linguistics och ordförande för International Committee on Computational Linguistics . Han var forskare vid Xerox PARC fram till 2002. Han var hedersdoktor vid Göteborgs universitet . Kay fick Lifetime Achievement Award från Association for Computational Linguistics för sin uthålliga roll som intellektuell ledare för NLP-forskning 2005.

Prestationer och utmärkelser

Bidrag

1. Martin Kays "riktiga" papper [1] Efter ALPAC-rapporten 1966 drogs slutsatsen som "Det finns ingen omedelbar eller förutsägbar utsikt att användbar MT producerar användbar översättning av allmänna vetenskapliga texter." [2] Och på grund av detta resultat gick området för maskinöversättning in i en mörk period. Från 1966 till 1976, nästan tio år, gjordes få undersökningar. Men på 1980-talet kom renässansen. [3] "The Proper Place of Men and Machines in Language Translation" väckte mer uppmärksamhet på maskinöversättningen. I denna artikel har nya tankar uppnåtts om förhållandet mellan maskinöversättning och mänsklig översättning. På den tiden, med tillämpning av billigare datorer och bred användning av domäner i maskinöversättning, behövdes högkvalitativa utdata väl. Och teorin om helautomatisk högkvalitativ översättning var precis den idealiska nivån för maskinöversättning efter kritiken från Bar-Hillel i hans 1960-talsgranskning av MT:s framsteg: "Målet med MT bör inte vara den helautomatiska högkvalitativa översättningen (FAHQT) som kan ersätta mänskliga översättare. Istället bör MT anta mindre ambitiösa mål, t.ex. mer kostnadseffektiv interaktion mellan människa och maskin och syfta till att öka produktiviteten för mänsklig översättning." [4] Det användbara med mänsklig översättning lyftes till en ny högre nivå. Enligt denna tanke föreslog Martin Kay en mer praktisk idé om förhållandet mellan människa och maskin i processen för maskinöversättning, kallad "översättarens amanuens".

1.1 Två argument mot det användbara med maskinöversättning Eftersom denna idé inkluderar människan och maskinen på samma gång, så har både datavetare och lingvister ansvar gentemot MT. Men "de bör aldrig uppmanas att tillhandahålla en ingenjörslösning på ett problem som de bara inte förstår." De behöver bara uppnå "genom att bara göra det som kan göras med absolut säkerhet och tillförlitlighet ... kan praktiskt taget garanteras för alla berörda." Som huvuddelarna i översättningen finns det två sammanhängande argument mot sannolikheten av maskinöversättning som industriföretag ur lingvistik och datavetenskap. Två argument framförs vanligtvis för ad hoc-lösningar på problemen med maskinöversättning. I det förra argumentet, "Ad hoc-lösningar tenderar att baseras på analyser från fall till fall av vad lingvister kallar ytfenomen, i huvudsak ordsträngar, och på verkliga eller inbillade statistiska egenskaper hos särskilda skrivstilar och diskursområden." Det är ett enkelt statistiskt påstående som kan avfärdas. I det andra argumentet anspelas ad hoc-lösningar endast på förståelsen av det andra språket genom att läsa text, och kallades trollkarlslärling, eftersom "denna sorts argument är att den typ av ofullständig teori som lingvister och datavetare har kunnat tillhandahålla är ofta en sämre bas att bygga praktiska apparater på än ingen teori alls eftersom teorin inte vet när den ska sluta." "Det största problemet med trollkarlens-lärlingsargumentet är att beslutet att en mening skulle kunna översättas utan analys först kan fattas i efterhand. Exempelsatsen visar att det finns mer än en tolkning av en mening på någon nivå och ytterligare analys visar att det finns en enda översättning som är kompatibel med var och en av dem. Kort sagt, algoritmen som krävs för att bestämma när analys krävs måste använda resultaten av just den analys som den är utformad för att undvika."

1.2 Översättarens amanuens och översättningsminne Detta är huvuddelen av artikeln, för att illustrera vad som är översättarens amanuens visade författaren tre aspekter: textredigering, översättningshjälpmedel och maskinöversättning. "Anta att översättarna är försedda med en terminal som består av ett tangentbord, en skärm och ett sätt att peka på enskilda ord och bokstäver. Displayen på skärmen är uppdelad i två fönster. Texten som ska översättas visas i det övre fönstret och översättningen kommer att komponeras i den nedersta." Det är formen av översättarens amanuens som inte är en verklig anordning och aldrig kommer att göra det. "Båda fönstren beter sig på samma sätt. Med hjälp av pekdonet kan översättaren välja en bokstav, ett ord, en mening, en rad eller ett stycke och, genom att trycka på lämplig tangent, få någon operation att besökas på den."

Dessa två figurer visar översättningsprocessen från den första visningen till valet. Denna enhet är inte enkel som dessa två siffror, mer speciell service kan göras till översättaren av den. I översättningshjälpmedel visade författaren den tredje figuren:

"Ett relativt trivialt tillägg skulle vara en ordbok. Översättaren väljer ett ord eller en sekvens av ord och ger ett kommando för att få dem att slås upp... Det här nya fönstret ger effekten av att lägga över en del av fönstren som redan finns. I det här fallet , innehåller det nya fönstret en bedrägligt enkel ordbokspost för det valda ordet." Dessutom har enheten många andra funktioner. Till exempel kommer enkelheten i ordboksposten, orden Syntax och Semantik att inkluderas när man pekar på symboler, modifierbara ordboksposter och de tillfälliga ändringarna gör denna enhet mer praktisk. Därefter förklaras maskinöversättning. "Ett av alternativen som bör erbjudas en användare av det hypotetiska systemet som jag har beskrivit, i ett ganska tidigt skede, är ett kommando som kommer att styra programmet att översätta den för närvarande valda enheten. Vad händer när detta kommando ges kommer att vara olika i olika skeden av systemets utveckling. Men en användare av systemet kommer alltid att ha befogenhet att ingripa i översättningsprocessen i den utsträckning som han själv anger. Om han väljer att inte ingripa alls, en text som utger sig för att översätt den aktuella enheten kommer att visas i det nedre fönstret på hans skärm. Han kommer att kunna redigera detta på vilket sätt han vill, precis som efterredaktörer har gjort tidigare. Alternativt kan han be om att bli konsulterad närhelst programmet konfronteras med ett beslut av en viss typ, när vissa typer av oklarheter upptäcks, eller vad som helst. Vid dessa tillfällen kommer systemet att ställa en fråga till den mänskliga översättaren. Han kan till exempel be om att bli konsulterad i frågor av pronominal referens." I denna del visades idén om översättningsminne som en ordboksoperation. "Anta till exempel att ett ord läggs i den lokala butiken – den del av ordboken som bara finns kvar så länge det här dokumentet bearbetas – om det förekommer i texten betydligt oftare än statistik som lagras i huvudordboken indikera. En fras kommer att noteras om den förekommer två eller tre gånger men inte känns igen som ett idiom eller en fast fras av ordboken. Genom att undersöka innehållet i denna butik innan han påbörjar översättningen kan en användare hoppas på att få en förhandstitt av svårigheterna som ligger framför oss och att i förväg fatta några beslut om hur de ska behandlas. Dessa beslut kommer naturligtvis att registreras i själva butiken. Under loppet av detta eller, faktiskt, av vilken anledning som helst, kan översättaren efterlysa en visning av alla enheter i texten som innehåller ett visst ord, fras, teckensträng eller vad som helst. Den viktigaste referensen att ha när man översätter en text är ju själva texten. Om texten som ska översättas nästa är allt annat än helt okomplicerat, översättaren kan börja med att utfärda ett kommando som får systemet att visa allt i butiken som kan vara relevant för det. Detta kommer att uppmärksamma honom på beslut han fattade innan den faktiska översättningen startade, statistiskt signifikanta ord och fraser och en registrering av allt som hade väckt uppmärksamhet när det inträffade tidigare. Innan han fortsätter kan han undersöka tidigare och framtida textfragment som innehåller liknande material."

1.3 Förväntningar på bättre prestanda hos översättarens amanuens I slutet av artikeln nämnde Kay några skäl till att förvänta sig bättre prestanda för denna enhet. För det första är systemet i stånd att fästa sin mänskliga medarbetares uppmärksamhet på de frågor som mest sannolikt behöver det, för det andra är de beslut som måste fattas under översättningen av en passage sällan oberoende, för det tredje, en av de viktigaste anläggningar i systemet är den som håller reda på ord och fraser som används på något speciellt sätt i den aktuella texten.

Böcker

  • Lingvistik och informationsvetenskap (med Karen Spärck Jones ), Academic Press , 1973.
  • Natural Language in Information Science (redigerad med DE Walker och Hans Karlgren), Skriptor, Stockholm, 1977
  • Verbmobil: A Translation System for Face-to-Face Dialog (med Jean Mark Gawron och Peter Norvig ), CSLI, Stanford, Kalifornien, 1994.
  • En introduktion till maskinöversättning . W. John Hutchins och Harold L. Somers. London: Academic Press, 1992.
  • Handbok i beräkningslingvistik . Ruslan Mitkov (red.). Oxford University Press , 2003. (Introduktion.)

Utvalda papper

  • " Regler för tolkning — ett tillvägagångssätt till problemet med beräkning i det naturliga språkets semantik ", i Proceedings of the Second International Congress of International Federation for Information Processing, 1962.
  • "A Parsing Procedure" Proceedings of the Second International Congress of International Federation for Information Processing, 1962.
  • "A General Procedure for Rewriting Strings", uppsats presenterad vid årsmötet för Association for Machine Translation and Computational Linguistics, Bloomington, Indiana, 1964.
  • The Logic of Cognate Recognition in Historical Linguistics, RM-4224-PR, Santa Monica, The RAND Corporation, juli 1964.
  • A Parsing Program for Categorial Grammars, RM-4283-PR, Santa Monica, The RAND Corporation, augusti 1964.
  • The Tabular Parser: A Parsing Program for Phrase-Structure and Dependency, RM-4933-PR, Santa Monica, The RAND Corporation, juli 1966.
  • The Computer System to Aid the Linguistic Field Worker, P-4095, Santa Monica, The RAND Corporation, maj 1969.
  • The MIND System: The Morphological Analysis Program, RM-6265/2-PR, Santa Monica, The RAND Corporation, april 1970. (med Gary R. Martins).
  • "Automatisk översättning av naturliga språk" i Språk som ett mänskligt problem: Daedalus, 1973.
  • " Functional Unification Grammar: A Formalism for Machine Translation " i Proceedings of the International Conference on Computational Linguistics (COLING 84), The Association for Computational Linguistics, 1984.
  • "Parsing in Free Word Order Languages" (med Lauri Karttunen), i Dowty, David R., Lauri Karttunen och Arnold M. Zwicky, Natural Language Parsing, Cambridge University Press, 1985.
  • "Unification in Grammar", i Dahl, V. och P. Saint-Dizier, Natural Language Understanding and Logic Programming, North Holland, 1985.
  • "Teoretiska frågor i utformningen av en översättars arbetsstation", Proceedings of the IBM workshop on Computers and Translation, Köpenhamn.
  • "Regular Models of Phonological Rule Systems" (med RM Kaplan), Computational Linguistics 20:3 (september 1994. Med RM Kaplan).
  • "Substringsjustering med suffixträd". Computational Linguistics and Intelligent Text Processing , Springer, Lecture Notes in Computer Science, 2004.

Kursläsningar

Utmärkelser

  • Han har en hedersprofessur vid Saarlands universitet och hedersdoktorer från universiteten i Göteborg och Genève.
  • Han vann också 2005 års ACL Lifetime Achievement Award. Hans tacktal hade titeln "A Life of Language".

externa länkar

Föregås av
ACL Lifetime Achievement Award 2005
Efterträdde av