Temporala uttryck

Ett temporalt uttryck i en text är en sekvens av tokens (ord, siffror och tecken) som betecknar tid, det vill säga uttrycker en tidpunkt, en varaktighet eller en frekvens. Exempel:

En tidpunkt:
 Han föddes den <TIMEX>6 maj 1980</TIMEX>. 
En längd:
 Showen varade <TIMEX>7 minuter</TIMEX>. 
A frekvens:
 Pumpen cirkulerar vattnet <TIMEX>varannan timme</TIMEX>. 

Till en början ansågs tidsmässiga uttryck vara en typ av namngivna enheter och deras identifiering var en del av uppgiften att identifiera entitet . Sedan programmet Automatic Content Extraction 2004 har det funnits en separat uppgift som har identifierats och kallats Temporal Expression Recognition and Normalization (TERN). Timex-utvärdering utvärderas nu i två stora tidsanteckningsutmaningar: TempEval och i2b2, som båda föredrar TimeML -nivån TIMEX3-standarden.

Närmar sig

I likhet med NER-system har temporala uttryckstaggare skapats antingen med hjälp av språkliga grammatikbaserade tekniker eller statistiska modeller . Handgjorda grammatikbaserade system fick vanligtvis bättre resultat, men på bekostnad av månaders arbete av erfarna lingvister. Det finns många sådana system tillgängliga nu, så att skapa en temporal uttrycksigenkännare från början är i allmänhet en oönskad dubbelarbete. Istället fokuserar nuvarande tillvägagångssätt på nya underklasser av timex.

Statistiska system kräver vanligtvis en stor mängd manuellt annoterade träningsdata och tillämpas vanligtvis endast på igenkänningsuppgiften (även om det finns arbete som utförs med maskininlärningsalgoritmer för att lösa vissa oklarheter i tolkningssteget).

Anteckningar