Identifiering på modersmål

Native-language identification ( NLI ) är uppgiften att bestämma en författares modersmål (L1) endast baserat på deras skrifter på ett andra språk (L2). NLI arbetar genom att identifiera språkanvändningsmönster som är gemensamma för specifika L1-grupper och sedan tillämpa denna kunskap för att förutsäga modersmålet för tidigare osynliga texter. Detta motiveras bland annat av tillämpningar inom andraspråksinlärning , språkundervisning och rättslingvistik .

Översikt

NLI arbetar under antagandet att en författares L1 kommer att disponera dem mot särskilda språkproduktionsmönster i deras L2, beroende på deras modersmål. Detta relaterar till cross-linguistic influence (CLI), ett nyckelämne inom området andraspråksinlärning (SLA) som analyserar överföringseffekter från L1 på senare lärda språk.

Med hjälp av storskalig engelska data uppnår NLI-metoder över 80 % noggrannhet i att förutsäga modersmålet för texter skrivna av författare från 11 olika L1-bakgrunder. Detta kan jämföras med en baslinje på 9 % för att välja slumpmässigt.

Ansökningar

Pedagogik och språköverföring

Denna identifiering av L1-specifika egenskaper har använts för att studera språköverföringseffekter vid andraspråksinlärning. Detta är användbart för att utveckla pedagogiskt material, undervisningsmetoder, L1-specifika instruktioner och generera elevfeedback som är skräddarsydd för deras modersmål.

Forensisk lingvistik

NLI-metoder kan också tillämpas inom rättslingvistik som en metod för att utföra författarprofilering för att härleda en författares attribut, inklusive deras språkliga bakgrund. Detta är särskilt användbart i situationer där en text, t.ex. ett anonymt brev, är det viktigaste beviset i en utredning och ledtrådar om en författares modersmål kan hjälpa utredare att identifiera källan. Detta har redan väckt intresse och finansiering från underrättelsetjänster.

Metodik

Naturliga språkbehandlingsmetoder används för att extrahera och identifiera språkanvändningsmönster som är vanliga för talare i en L1-grupp. Detta görs med hjälp av språkinlärardata, vanligtvis från en elevkorpus. Därefter tillämpas maskininlärning för att träna klassificerare, som stödvektormaskiner , för att förutsäga L1 för osynliga texter. En rad ensemblebaserade system har också använts för uppgiften och visat sig förbättra prestanda jämfört med system med enstaka klassificerare.

Olika språkliga egenskaper har använts för denna uppgift. Dessa inkluderar syntaktiska egenskaper såsom beståndsdelar, grammatiska beroenden och ordordstaggar. Ytnivå lexikala egenskaper som tecken, ord och lemma n-gram har också visat sig vara ganska användbara för denna uppgift. Det verkar dock som att tecken n-gram är den enskilt bästa egenskapen för uppgiften.

2013 delad uppgift

Workshopen Building Educational Applications (BEA) vid NAACL 2013 var värd för den första delade NLI-uppgiften. Tävlingen resulterade i 29 bidrag från lag över hela världen, varav 24 också publicerade en artikel som beskrev deras system och tillvägagångssätt.

Se även