Cachespråkmodell
En cache-språkmodell är en typ av statistisk språkmodell . Dessa förekommer inom datavetenskapens delområde för bearbetning av naturligt språk och tilldelar sannolikheter till givna ordsekvenser med hjälp av en sannolikhetsfördelning . Statistiska språkmodeller är nyckelkomponenter i taligenkänningssystem och i många maskinöversättningssystem : de talar om för sådana system vilka möjliga utgående ordsekvenser som är sannolika och vilka som är osannolika. Det speciella med en cache-språkmodell är att den innehåller en cache-komponent och tilldelar relativt höga sannolikheter till ord eller ordsekvenser som förekommer någon annanstans i en given text. Den primära, men inte på något sätt enda, användningen av cachespråkmodeller är i taligenkänningssystem. [ citat behövs ]
För att förstå varför det är en bra idé att en statistisk språkmodell innehåller en cache-komponent kan man överväga någon som dikterar ett brev om elefanter till ett taligenkänningssystem. Standard (icke-cache) N-gram språkmodeller kommer att tilldela ordet "elefant" en mycket låg sannolikhet eftersom det är ett mycket sällsynt ord på engelska . Om taligenkänningssystemet inte innehåller en cache-komponent kan personen som dikterar bokstaven bli irriterad: varje gång ordet "elefant" läses upp kan en annan ordsekvens med högre sannolikhet enligt N-grams språkmodell kännas igen ( t.ex. "berätta om en plan"). Dessa felaktiga sekvenser måste raderas manuellt och ersättas i texten med "elefant" varje gång "elefant" läses upp. Om systemet har en cache-språkmodell kommer "elefant" förmodligen fortfarande att kännas igen fel första gången den läses upp och måste matas in i texten manuellt; Men från och med denna tidpunkt är systemet medvetet om att "elefant" sannolikt kommer att inträffa igen - den uppskattade sannolikheten för förekomst av "elefant" har ökat, vilket gör det mer troligt att om den talas kommer den att kännas igen korrekt. När "elefant" har inträffat flera gånger, kommer systemet sannolikt att känna igen den korrekt varje gång den talas tills bokstaven har dikterats helt. Denna ökning av sannolikheten som tilldelas förekomsten av "elefant" är ett exempel på en konsekvens av maskininlärning och mer specifikt av mönsterigenkänning .
Det finns varianter av cache-språkmodellen där inte bara enstaka ord utan även flerordssekvenser som har förekommit tidigare tilldelas högre sannolikheter (t.ex. om "San Francisco" inträffade nära början av texten skulle efterföljande instanser av den tilldelas högre sannolikhet).
Cachespråkmodellen föreslogs först i en artikel publicerad 1990, varefter IBM -gruppen för taligenkänning experimenterade med konceptet. Gruppen fann att implementering av en form av cache-språkmodell gav en minskning med 24 % av antalet ordfel när de första hundra orden i ett dokument hade dikterats. En detaljerad undersökning av språkmodelleringstekniker drog slutsatsen att cache-språkmodellen var en av få nya språkmodelleringstekniker som gav förbättringar jämfört med standardmetoden för N-gram: "Våra cachningsresultat visar att cachelagring är den överlägset mest användbara tekniken för att minska förvirring. vid små och medelstora träningsdatastorlekar ".
Utvecklingen av cachespråkmodellen har genererat ett stort intresse bland dem som sysslar med beräkningslingvistik i allmänhet och statistisk naturspråksbehandling i synnerhet: på senare tid har det funnits ett intresse för att tillämpa cachespråkmodellen inom området statistisk maskinöversättning.
Framgången för cache-språkmodellen för att förbättra ordprediktionen vilar på den mänskliga tendensen att använda ord på ett "bursty" sätt: när man diskuterar ett visst ämne i ett visst sammanhang, kommer frekvensen med vilken man använder vissa ord att vara helt annorlunda från deras frekvenser när man diskuterar andra ämnen i andra sammanhang. De traditionella N-gram språkmodellerna, som helt och hållet förlitar sig på information från ett mycket litet antal (fyra, tre eller två) ord som föregår ordet som en sannolikhet ska tilldelas, modellerar inte denna "burstiness" tillräckligt. [ citat behövs ]
Nyligen har cachespråkmodellkonceptet - ursprungligen tänkt för N-gram statistisk språkmodellparadigm - anpassats för användning i det neurala paradigmet. Till exempel har nyligen genomfört arbete med språkmodeller för kontinuerlig cache i recurrent neural network (RNN) tillämpat cachekonceptet på mycket större sammanhang än tidigare, vilket har gett betydande minskningar i förvirring. En annan ny forskningslinje involverar att införliva en cache-komponent i en för feed-forward ( FN-LM) för att uppnå snabb domänanpassning.
Se även
- Artificiell intelligens
- Naturlig språkbehandlings historia
- Maskinöversättningens historia
- Taligenkänning
- Statistisk maskinöversättning
Vidare läsning
- Jelinek, Frederick (1997). Statistiska metoder för taligenkänning . MIT Press . ISBN 0-262-10066-5 . Arkiverad från originalet 2011-08-05 . Hämtad 2011-09-24 .