Faktoriserad språkmodell

Den faktoriserade språkmodellen ( FLM ) är en förlängning av en konventionell språkmodell som introducerades av Jeff Bilmes och Katrin Kirchoff 2003. I en FLM ses varje ord som en vektor av k faktorer: $w_{i}=\{f_{i}^{1},...,f_{i}^{k}\}.$ En FLM tillhandahåller den probabilistiska modellen $P(f|f_{1},...,f_{N})$ där förutsägelsen av en faktor $f$ är baserad på $N$ föräldrar $\{f_{1},...,f_{N}\}$ . Till exempel, om $w$ representerar en ordtoken och $t$ representerar en orddeltagg för engelska, uttrycket ${\displaystyle P(w_{i}|w_{i-2},w_{i-1},t_{i-1})} ger en modell för att förutsäga nuvarande ordtoken baserad på en traditionell Ngram$ - modell också som orddeltaggen för föregående ord.

En stor fördel med faktoriserade språkmodeller är att de tillåter användare att specificera språkkunskaper såsom förhållandet mellan ordsymboler och ordspråk på engelska, eller morfologisk information (stammar, rot, etc.) på arabiska.

Liksom N-gram- modeller är utjämningstekniker nödvändiga vid parameteruppskattning. I synnerhet används generaliserad back-off vid träning av en FLM.

J Bilmes och K Kirchhoff (2003). "Factored Language Models and Generalized Parallel Backoff" (PDF) . Human Language Technology Conference . Arkiverad från originalet (PDF) den 17 juli 2012.