Lexikalisk substitution
Lexikalisk substitution är uppgiften att identifiera ett substitut för ett ord i sammanhanget av en sats. Till exempel, med tanke på följande text: "Efter matchen, ersätt eventuellt kvarvarande vätskeunderskott för att förhindra kronisk uttorkning under hela turneringen", kan ett ersättare av spel ges.
Lexikal substitution är strikt relaterad till ordbemärkelsedisambiguation (WSD), eftersom båda syftar till att bestämma betydelsen av ett ord. Men medan WSD består av att automatiskt tilldela den lämpliga betydelsen från en fast meningsinventering, sätter inte lexikal substitution någon begränsning på vilken ersättning som ska väljas som den bästa representanten för ordet i sammanhanget. Genom att inte föreskriva inventeringen övervinner lexikalisk substitution frågan om granulariteten i sinnesskillnader och ger lika villkor för automatiska system som automatiskt förvärvar ordsinne (en uppgift som kallas Word Sense Induction ).
Utvärdering
För att utvärdera automatiska system för lexikal substitution anordnades en uppgift vid utvärderingstävlingen Semeval-2007 som hölls i Prag 2007. En Semeval-2010- uppgift om tvärspråkig lexikal substitution har också ägt rum.
Skip-gram modell
Skip-gram-modellen tar ord med liknande betydelser in i ett vektorrum (samling av objekt som kan adderas och multipliceras med siffror) som finns nära varandra i N-dimensioner (lista över objekt). En mängd olika neurala nätverk (datorsystem modellerat efter en mänsklig hjärna) bildas tillsammans som ett resultat av de vektorer och nätverk som är relaterade till varandra. Allt detta sker i dimensionerna av ordförrådet som har genererats i ett nätverk. Modellen har använts i lexikal substitutionsautomatisering och prediktionsalgoritmer. En sådan algoritm utvecklad av Oren Melamud, Omer Levy och Ido Dagan använder skip-gram-modellen för att hitta en vektor för varje ord och dess synonymer. Sedan beräknar den cosinusavståndet mellan vektorer för att bestämma vilka ord som kommer att vara de bästa ersättningarna.
Exempel
I en mening som "Hunden gick i snabb takt" har varje ord en specifik vektor i förhållande till det andra. Vektorn för "The" skulle vara [1,0,0,0,0,0,0] eftersom 1:an är ordet ordförråd och nollorna är orden som omger det ordförrådet, vilket skapar en vektor.
Se även
Bibliografi
- D. McCarthy, R. Navigli. The English Lexical Substitution Task . Language Resources and Evaluation , 43(2), Springer, 2009, s. 139–159.
- D. McCarthy, R. Navigli. SemEval-2007 Uppgift 10: Engelsk Lexical Substitution Task . Proc. av Semeval-2007 Workshop (SEMEVAL) , i det 45:e årsmötet för Association for Computational Linguistics (ACL 2007), Prag, Tjeckien, 23–24 juni 2007, s. 48–53.
- D. McCarthy. Lexikalisk substitution som en uppgift för WSD-utvärdering . I Proceedings of the ACL workshop on word sense disambiguation: Recent successes and future directions, Philadelphia, USA, 2002, s. 109–115.
- R. Navigli. Word Sense Disambiguation: A Survey , ACM Computing Surveys, 41(2), 2009, s. 1–69.