Språkidentifiering

Vid bearbetning av naturligt språk är språkidentifiering eller språkgissning problemet med att avgöra vilket naturligt språk givet innehåll finns i. Beräkningsmetoder för detta problem ser det som ett specialfall av textkategorisering , löst med olika statistiska metoder.

Översikt

Det finns flera statistiska metoder för språkidentifiering med olika tekniker för att klassificera data. En teknik är att jämföra textens komprimerbarhet med komprimerbarheten av texter på en uppsättning kända språk. Detta tillvägagångssätt är känt som ömsesidigt informationsbaserat avståndsmått. Samma teknik kan också användas för att empiriskt konstruera släktträd av språk som nära motsvarar de träd som konstruerats med historiska metoder. ^{[ citat behövs ]} Ömsesidigt informationsbaserat avståndsmått är i huvudsak likvärdigt med mer konventionella modellbaserade metoder och anses i allmänhet inte vara vare sig ny eller bättre än enklare tekniker.

En annan teknik, som beskrivs av Cavnar och Trenkle (1994) och Dunning (1994) är att skapa en språk- n-gram- modell från en "träningstext" för vart och ett av språken. Dessa modeller kan baseras på tecken (Cavnar och Trenkle) eller kodade bytes (Dunning); i den senare är språkidentifiering och teckenkodningsdetektering integrerade. Sedan, för varje text som behöver identifieras, görs en liknande modell, och den modellen jämförs med varje lagrad språkmodell. Det mest troliga språket är det med modellen som mest liknar modellen från texten som behöver identifieras. Detta tillvägagångssätt kan vara problematiskt när inmatningstexten är på ett språk som det inte finns någon modell för. I så fall kan metoden returnera ett annat, "mest liknande" språk som sitt resultat. Också problematiskt för alla tillvägagångssätt är bitar av inmatad text som är sammansatt av flera språk, vilket är vanligt på webben.

För en nyare metod, se Řehůřek och Kolkus (2009). Den här metoden kan upptäcka flera språk i ett ostrukturerat stycke text och fungerar robust på korta texter på endast ett fåtal ord: något som n- gram- metoderna kämpar med.

En äldre statistisk metod av Grefenstette baserades på förekomsten av vissa funktionsord (t.ex. "the" på engelska).

Ett vanligt icke-statistiskt intuitivt tillvägagångssätt (även om det är mycket osäkert) är att leta efter vanliga bokstavskombinationer, eller distinkta diakritiska tecken eller skiljetecken.

Identifiera liknande språk

En av de stora flaskhalsarna i språkidentifieringssystem är att skilja mellan närbesläktade språk. Liknande språk som bulgariska och makedonska eller indonesiska och malajiska uppvisar betydande lexikal och strukturell överlappning, vilket gör det utmanande för system att skilja mellan dem.

Under 2014 har den delade DSL-uppgiften organiserats och tillhandahåller en datauppsättning (Tan et al., 2014) som innehåller 13 olika språk (och språkvarianter) i sex språkgrupper: Grupp A (bosniska, kroatiska, serbiska), grupp B (indonesiska, malaysiska) ), Grupp C (tjeckiska, slovakiska), grupp D (brasiliansk portugisiska, europeisk portugisiska), grupp E (halvönsspanska, argentinska spanska), grupp F (amerikansk engelska, brittisk engelska). Det bästa systemet nådde prestanda på över 95 % av resultaten (Goutte et al., 2014). Resultaten av den delade DSL-uppgiften beskrivs i Zampieri et al. 2014.

programvara

Apache OpenNLP inkluderar char n-gram baserad statistisk detektor och levereras med en modell som kan särskilja 103 språk
Apache Tika innehåller en språkdetektor för 18 språk

Benedetto, D., E. Caglioti och V. Loreto. Språkträd och zippa . Physical Review Letters , 88:4 (2002), Komplexitetsteori .
Cavnar, William B. och John M. Trenkle. "N-Gram-baserad textkategorisering". Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
Cilibrasi, Rudi och Paul MB Vitanyi. " Klustring genom komprimering ". IEEE Transactions on Information Theory 51(4), april 2005, 1523-1545.
Dunning, T. (1994) "Statistical Identification of Language". Teknisk rapport MCCS 94-273, New Mexico State University, 1994.
Goodman, Joshua. (2002) Utökad kommentar till "Språkträd och Zipping" . Microsoft Research, 21 februari 2002. (Detta är en kritik av datakomprimeringen till förmån för Naive Bayes-metoden.)
Goutte, C.; Leger, S.; Carpuat, M. (2014) NRC-systemet för diskriminering av liknande språk . Proceedings of the Coling 2014 workshop "Apply NLP-verktyg på liknande språk, varianter och dialekter"
Grefenstette, Gregory. (1995) Jämförelse av två språkidentifieringssystem. Proceedings of the 3rd International Conference on the Statistical Analysis of Textual Data (JADT 1995).
Poutsma, Arjen. (2001) Att tillämpa Monte Carlo-tekniker för språkidentifiering. SmartHaven, Amsterdam. Presenterad på CLIN 2001 .
Tan, L.; Zampieri, M.; Ljubešić, N.; Tiedemann, J. (2014) Sammanfoga jämförbara datakällor för diskriminering av liknande språk: DSL Corpus Collection . Proceedings of the 7th Workshop on Building and Use Comparable Corpora (BUCC). Reykjavik, Island. sid. 6-10
Ekonomen. (2002) " Stilelementen: Analys av komprimerad data leder till imponerande resultat inom lingvistik "
Radim Řehůřek och Milan Kolkus. (2009) " Språkidentifiering på webben: utvidgning av ordboksmetoden" Computational Linguistics and Intelligent Text Processing .
Zampieri, M.; Tan, L.; Ljubešić, N.; Tiedemann, J. (2014) En rapport om DSL Shared Task 2014 . Proceedings of the 1st Workshop on Applicing NLP-verktyg på liknande språk, varianter och dialekter (VarDial). Dublin, Irland. sid. 58-67.

Se även

Referenser