Namngiven enhet
I informationsextraktion är en namngiven enhet ett objekt i den verkliga världen , till exempel en person, plats, organisation, produkt, etc., som kan betecknas med ett egennamn . Det kan vara abstrakt eller ha en fysisk existens. Exempel på namngivna enheter inkluderar Barack Obama , New York City , Volkswagen Golf eller något annat som kan namnges. Namngivna enheter kan helt enkelt ses som entitetsinstanser (t.ex. New York City är en instans av en stad ).
myntades termen Named Entity under MUC-6-utvärderingskampanjen och innehöll ENAMEX (entitetsnamnuttryck t.ex. personer, platser och organisationer) och NUMEX (numeriskt uttryck).
En mer formell definition kan härledas från den stela beteckningen av Saul Kripke . I uttrycket "Named Entity" syftar ordet "Named" till att begränsa den möjliga uppsättningen av enheter till endast de för vilka en eller flera stela beteckningar står för referenten. En designer är stel när den betecknar samma sak i alla möjliga världar. Tvärtom slappa beteckningar beteckna olika saker i olika möjliga världar.
Som ett exempel, överväg meningen, "Biden är USA:s president". Både "Biden" och "USA" är namngivna enheter eftersom de hänvisar till specifika objekt ( Joe Biden och USA ). Men "president" är inte en namngiven enhet eftersom den kan användas för att hänvisa till många olika objekt i olika världar (under olika presidentperioder som hänvisar till olika personer, eller till och med i olika länder eller organisationer som hänvisar till olika personer). Stela beteckningar inkluderar vanligtvis egennamn såväl som vissa naturliga termer som biologiska arter och ämnen.
Det finns också en allmän överenskommelse i Named Entity Recognition- gemenskapen att betrakta tidsmässiga och numeriska uttryck som namngivna enheter, såsom summor pengar och andra typer av enheter, som kan bryta mot det stela beteckningsperspektivet.
Uppgiften att känna igen namngivna enheter i text är Named Entity Recognition medan uppgiften att fastställa identiteten för de namngivna enheterna som nämns i texten kallas Named Entity Disambiguation . Båda uppgifterna kräver dedikerade algoritmer och resurser för att hanteras.
Se även
- Namngiven enhetsigenkänning (även kallad enhetsidentifiering, enhetsuppdelning och enhetsextraktion)
- Entitetslänkning (även kallad namngiven entitetslänkning (NEL), named entity disambiguation (NED), named entity recognition and disambiguation (NERD) eller named entity normalization)
- Informationsextraktion
- Kunskapsutvinning
- Text mining (även kallad text data mining)
- Truecasing
- Apache OpenNLP
- rymd
- Allmän arkitektur för textteknik
- Naturligt språk verktygslåda