Andra ordningens samtidiga förekomst punktvis ömsesidig information

Inom beräkningslingvistik är andra ordningens samtidiga förekomst punktvis ömsesidig information ett semantiskt likhetsmått . För att bedöma graden av association mellan två givna ord använder den punktvis ömsesidig information (PMI) för att sortera listor över viktiga grannord för de två målorden från en stor korpus .

Historia

PMI-IR-metoden [ förtydligande behövs ] använde AltaVistas sökfrågesyntax för avancerad sökning för att beräkna sannolikheter . Observera att sökoperatören "NÄRA" för AltaVista är en viktig operatör i PMI-IR-metoden. [ citat behövs ] Men det är inte längre i bruk i AltaVista; detta innebär att det ur implementeringssynpunkt inte är möjligt att använda PMI-IR-metoden i samma form i nya system. Hur som helst, ur algoritmisk synvinkel, är fördelen med att använda SOC-PMI att den kan beräkna likheten mellan två ord som inte förekommer ofta, eftersom de förekommer tillsammans med samma angränsande ord. Till exempel British National Corpus (BNC) använts som en källa till frekvenser och sammanhang.

Metodik

Metoden tar hänsyn till de ord som är vanliga i båda listorna och aggregerar deras PMI-värden (från den motsatta listan) för att beräkna den relativa semantiska likheten. Vi definierar den punktvisa ömsesidiga informationsfunktionen för endast de ord som har ,

där berättar hur många gånger typen förekom i hela korpusen, berättar hur många gånger ordet förekom med ordet i ett sammanhangsfönster och är det totala antalet tokens i korpusen. Nu, för ordet , definierar vi en uppsättning ord, , sorterade i fallande ordning efter deras PMI-värden med och tagit topp- de flesta ord som har .

Mängden , innehåller orden ,

, där och

En tumregel används för att välja värdet på . β -PMI summeringsfunktionen för ett ord definieras med avseende på ett annat ord För ordet med avseende på ordet är det:

där som summerar alla positiva PMI-värden för ord i mängden också gemensamma för orden i mängden . Med andra ord, denna funktion aggregerar faktiskt de positiva PMI-värdena för alla semantiskt nära ord i som också är vanliga i s lista. bör ha ett värde som är större än 1. Så -PMI summeringsfunktionen för ord med avseende på ordet som har och -PMI summeringsfunktionen för ord med respekt till ord med är

och

respektive.

Slutligen definieras den semantiska PMI-likhetsfunktionen mellan de två orden, och

Den semantiska ordlikheten är normaliserad, så att den ger en likhetspoäng mellan och inklusive. Normaliseringen av semantisk likhetsalgoritm returnerar en normaliserad poäng av likhet mellan två ord. Det tar som argument de två orden, och , och ett maximalt värde, , som returneras av den semantiska likheten funktion, Sim(). Algoritmen returnerar till exempel 0,986 för orden kyrkogård och kyrkogård med (för SOC-PMI-metoden).