Naturlig språkbehandlings historia
Historien om naturlig språkbehandling beskriver framstegen inom naturlig språkbehandling (Outline of natural language processing). Det finns viss överlappning med maskinöversättningens historia , taligenkänningens historia och artificiell intelligenss historia .
Forskning och utveckling
Maskinöversättningens historia går tillbaka till 1600-talet, då filosofer som Leibniz och Descartes lade fram förslag på koder som skulle relatera ord mellan språk. Alla dessa förslag förblev teoretiska, och inget resulterade i utvecklingen av en verklig maskin.
De första patenten för "översättningsmaskiner" ansöktes i mitten av 1930-talet. Ett förslag av Georges Artsrouni var helt enkelt en automatisk tvåspråkig ordbok med papperstejp . Det andra förslaget, av Peter Troyanskii , en ryss , var mer detaljerat. Den inkluderade både den tvåspråkiga ordboken och en metod för att hantera grammatiska roller mellan språk, baserad på esperanto .
1950 publicerade Alan Turing sin berömda artikel " Computing Machinery and Intelligence " som föreslog det som nu kallas Turing-testet som ett kriterium för intelligens. Detta kriterium beror på förmågan hos ett datorprogram att imitera en människa i en skriftlig konversation i realtid med en mänsklig domare, tillräckligt väl för att domaren inte kan skilja på ett tillförlitligt sätt – enbart på basis av konversationsinnehållet – mellan programmet och en riktig människa.
1957 revolutionerade Noam Chomskys Syntactic Structures lingvistiken med " universell grammatik ", ett regelbaserat system av syntaktiska strukturer.
Georgetown -experimentet 1954 involverade helautomatisk översättning av mer än sextio ryska meningar till engelska. Författarna hävdade att inom tre eller fem år skulle maskinöversättning vara ett löst problem. De verkliga framstegen var dock mycket långsammare, och efter ALPAC-rapporten 1966, som fann att tio år lång forskning inte hade uppfyllt förväntningarna, minskade finansieringen för maskinöversättning dramatiskt. Lite ytterligare forskning inom maskinöversättning gjordes fram till slutet av 1980-talet, då de första statistiska maskinöversättningssystemen utvecklades.
Några särskilt framgångsrika NLP-system som utvecklades på 1960-talet var SHRDLU , ett naturligt språksystem som fungerar i begränsade " blockvärldar " med begränsade ordförråd.
1969 introducerade Roger Schank den konceptuella beroendeteorin för förståelse av naturligt språk. Denna modell, delvis influerad av Sydney Lambs arbete , användes flitigt av Schanks studenter vid Yale University , som Robert Wilensky, Wendy Lehnert och Janet Kolodner .
1970 introducerade William A. Woods det utökade övergångsnätverket (ATN) för att representera naturligt språkinmatning. Istället för frasstrukturregler använde ATN:er en motsvarande uppsättning finita tillståndsautomater som anropades rekursivt. ATN och deras mer generella format som kallas "generalized ATNs" fortsatte att användas under ett antal år. Under 1970-talet började många programmerare skriva "konceptuella ontologier", som strukturerade verklig information till data som kan förstås av datorn. Exempel är MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) och Plot Units (Lehnert) ). skrevs många chatterbots , inklusive PARRY , Racter och Jabberwacky .
Fram till 1980-talet var de flesta NLP-system baserade på komplexa uppsättningar av handskrivna regler. Med början i slutet av 1980-talet skedde dock en revolution inom NLP med införandet av maskininlärningsalgoritmer för språkbehandling. Detta berodde både på den stadiga ökningen av beräkningskraften till följd av Moores lag och den gradvisa minskningen av dominansen av Chomsky- teorier om lingvistik (t.ex. transformationsgrammatik ), vars teoretiska grundval avskräckte den typ av korpuslingvistik som ligger till grund för maskininlärningsmetoden till språkbehandling. Några av de tidigast använda maskininlärningsalgoritmerna, såsom beslutsträd , producerade system med hårda om-då-regler som liknar befintliga handskrivna regler. Men forskningen har i allt högre grad fokuserat på statistiska modeller , som fattar mjuka, sannolikhetsbeslut baserade på att fästa vikter med verkligt värde till de egenskaper som utgör indata. De cache-språkmodeller som många taligenkänningssystem nu förlitar sig på är exempel på sådana statistiska modeller. Sådana modeller är i allmänhet mer robusta när de ges obekant input, särskilt indata som innehåller fel (som är mycket vanligt för verkliga data), och ger mer tillförlitliga resultat när de integreras i ett större system som omfattar flera deluppgifter.
Många av de anmärkningsvärda tidiga framgångarna inträffade inom området maskinöversättning , särskilt på grund av arbete på IBM Research, där successivt mer komplicerade statistiska modeller utvecklades. Dessa system kunde dra fördel av befintliga flerspråkiga textkorpus som hade producerats av Kanadas parlament och Europeiska unionen som ett resultat av lagar som kräver översättning av alla statliga förfaranden till alla officiella språk i motsvarande regeringssystem. De flesta andra system var dock beroende av korpora speciellt utvecklade för de uppgifter som implementerades av dessa system, vilket var (och ofta fortsätter att vara) en stor begränsning i framgången för dessa system. Som ett resultat har en hel del forskning gått in på metoder för att mer effektivt lära av begränsade mängder data.
Ny forskning har i allt högre grad fokuserat på oövervakade och semi-övervakade inlärningsalgoritmer. Sådana algoritmer kan lära av data som inte har handkommenterats med de önskade svaren, eller genom att använda en kombination av kommenterade och icke-kommenterade data. I allmänhet är denna uppgift mycket svårare än övervakad inlärning och ger vanligtvis mindre exakta resultat för en given mängd indata. Det finns dock en enorm mängd icke-kommenterad data tillgänglig (inklusive bland annat hela innehållet på World Wide Web ), vilket ofta kan kompensera för de sämre resultaten.
programvara
programvara | År | Skapare | Beskrivning | Referens |
---|---|---|---|---|
Georgetown experiment | 1954 | Georgetown University och IBM | innebar helautomatisk översättning av mer än sextio ryska meningar till engelska. | |
STUDERANDE | 1964 | Daniel Bobrow | skulle kunna lösa ordproblem i gymnasieskolans algebra. | |
ELIZA | 1964 | Joseph Weizenbaum | en simulering av en Rogeriansk psykoterapeut , som omformulerar hennes svar med några grammatikregler. | |
SHRDLU | 1970 | Terry Winograd | ett naturligt språksystem som fungerar i begränsade " blockvärldar " med begränsade ordförråd, fungerade extremt bra | |
PARERA | 1972 | Kenneth Colby | En chatterbot | |
KL-ONE | 1974 | Sondheimer et al. | ett kunskapsrepresentationssystem i traditionen av semantiska nätverk och ramar; det är ett ramspråk . | |
MARGIE | 1975 | Roger Schank | ||
TaleSpin (mjukvara) | 1976 | Meehan | ||
QUALM | Lehnert | |||
LIV/STEGE | 1978 | Hendrix | ett naturligt språkgränssnitt till en databas med information om amerikanska flottans fartyg. | |
SAM (programvara) | 1978 | Cullingford | ||
PAM (programvara) | 1978 | Robert Wilensky | ||
Politik (mjukvara) | 1979 | Carbonell | ||
Plot Units (mjukvara) | 1981 | Lehnert | ||
Jabberwacky | 1982 | Rollo Snickare | chatterbot med uttalat syfte att "simulera naturlig mänsklig chatt på ett intressant, underhållande och humoristiskt sätt". | |
MUMBLE (mjukvara) | 1982 | McDonald | ||
Ractor | 1983 | William Chamberlain och Thomas Etter | chatterbot som genererade engelskspråkig prosa på måfå. | |
MOPTRANS | 1984 | Lytinen | ||
KODIAK (mjukvara) | 1986 | Wilensky | ||
Absity (mjukvara) | 1987 | Hirst | ||
Dr Sbaitso | 1991 | Creative Labs | ||
Watson (programvara för artificiell intelligens) | 2006 | IBM | Ett frågesvarssystem som vann Jeopardy! tävling och besegrade de bästa mänskliga spelarna i februari 2011. | |
Siri | 2011 | Äpple | En virtuell assistent utvecklad av Apple. | |
Cortana | 2014 | Microsoft | En virtuell assistent utvecklad av Microsoft. | |
Amazon Alexa | 2014 | Amazon | En virtuell assistent utvecklad av Amazon. | |
Google Assistant | 2016 | En virtuell assistent utvecklad av Google. |
Bibliografi
- Crevier, Daniel (1993). AI: The Tumultuous Search for Artificial Intelligence . New York, NY: BasicBooks. ISBN 0-465-02997-3 .
- McCorduck, Pamela (2004), Machines Who Think (2:a upplagan), Natick, MA: AK Peters, Ltd., ISBN 978-1-56881-205-2 , OCLC 52197627 .
- Russell, Stuart J .; Norvig, Peter (2003), Artificial Intelligence: A Modern Approach (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, ISBN 0-13-790395-2 .