Språkidentifiering

Vid bearbetning av naturligt språk är språkidentifiering eller språkgissning problemet med att avgöra vilket naturligt språk givet innehåll finns i. Beräkningsmetoder för detta problem ser det som ett specialfall av textkategorisering , löst med olika statistiska metoder.

Översikt

Det finns flera statistiska metoder för språkidentifiering med olika tekniker för att klassificera data. En teknik är att jämföra textens komprimerbarhet med komprimerbarheten av texter på en uppsättning kända språk. Detta tillvägagångssätt är känt som ömsesidigt informationsbaserat avståndsmått. Samma teknik kan också användas för att empiriskt konstruera släktträd av språk som nära motsvarar de träd som konstruerats med historiska metoder. [ citat behövs ] Ömsesidigt informationsbaserat avståndsmått är i huvudsak likvärdigt med mer konventionella modellbaserade metoder och anses i allmänhet inte vara vare sig ny eller bättre än enklare tekniker.

En annan teknik, som beskrivs av Cavnar och Trenkle (1994) och Dunning (1994) är att skapa en språk- n-gram- modell från en "träningstext" för vart och ett av språken. Dessa modeller kan baseras på tecken (Cavnar och Trenkle) eller kodade bytes (Dunning); i den senare är språkidentifiering och teckenkodningsdetektering integrerade. Sedan, för varje text som behöver identifieras, görs en liknande modell, och den modellen jämförs med varje lagrad språkmodell. Det mest troliga språket är det med modellen som mest liknar modellen från texten som behöver identifieras. Detta tillvägagångssätt kan vara problematiskt när inmatningstexten är på ett språk som det inte finns någon modell för. I så fall kan metoden returnera ett annat, "mest liknande" språk som sitt resultat. Också problematiskt för alla tillvägagångssätt är bitar av inmatad text som är sammansatt av flera språk, vilket är vanligt på webben.

För en nyare metod, se Řehůřek och Kolkus (2009). Den här metoden kan upptäcka flera språk i ett ostrukturerat stycke text och fungerar robust på korta texter på endast ett fåtal ord: något som n- gram- metoderna kämpar med.

En äldre statistisk metod av Grefenstette baserades på förekomsten av vissa funktionsord (t.ex. "the" på engelska).

Ett vanligt icke-statistiskt intuitivt tillvägagångssätt (även om det är mycket osäkert) är att leta efter vanliga bokstavskombinationer, eller distinkta diakritiska tecken eller skiljetecken.

Identifiera liknande språk

En av de stora flaskhalsarna i språkidentifieringssystem är att skilja mellan närbesläktade språk. Liknande språk som bulgariska och makedonska eller indonesiska och malajiska uppvisar betydande lexikal och strukturell överlappning, vilket gör det utmanande för system att skilja mellan dem.

Under 2014 har den delade DSL-uppgiften organiserats och tillhandahåller en datauppsättning (Tan et al., 2014) som innehåller 13 olika språk (och språkvarianter) i sex språkgrupper: Grupp A (bosniska, kroatiska, serbiska), grupp B (indonesiska, malaysiska) ), Grupp C (tjeckiska, slovakiska), grupp D (brasiliansk portugisiska, europeisk portugisiska), grupp E (halvönsspanska, argentinska spanska), grupp F (amerikansk engelska, brittisk engelska). Det bästa systemet nådde prestanda på över 95 % av resultaten (Goutte et al., 2014). Resultaten av den delade DSL-uppgiften beskrivs i Zampieri et al. 2014.

programvara

  • Apache OpenNLP inkluderar char n-gram baserad statistisk detektor och levereras med en modell som kan särskilja 103 språk
  • Apache Tika innehåller en språkdetektor för 18 språk

Se även

Referenser