Ordförrådsfel
Ordförrådsfelmatchning är ett vanligt fenomen i användningen av naturliga språk, som uppstår när olika personer namnger samma sak eller koncept på olika sätt.
Furnas et al. (1987) var kanske de första som kvantitativt studerade problemet med ordförrådsfel. Deras resultat visar att i genomsnitt 80 % av gångerna kommer olika personer (experter inom samma område) att namnge samma sak olika. Det finns vanligtvis tiotals möjliga namn som kan hänföras till samma sak. Denna forskning motiverade arbetet med latent semantisk indexering .
Ordförrådets oöverensstämmelse mellan användarskapade frågor och relevanta dokument i en korpus orsakar problem med termen oöverensstämmelse vid informationssökning . Zhao och Callan (2010) var kanske de första som kvantitativt studerade problem med ordförrådsfelmatchning i en hämtningsmiljö. Deras resultat visar att en genomsnittlig frågeterm inte visas i 30-40 % av de dokument som är relevanta för användarfrågan. De visade också att denna sannolikhet för missmatchning är en central sannolikhet i en av de grundläggande probabilistiska återvinningsmodellerna, den binära oberoendemodellen . De utvecklade nya metoder för förutsägelse av termvikt som kan leda till potentiellt 50-80 % noggrannhetsvinster vid hämtning jämfört med starka modeller för hämtning av sökord. Ytterligare forskning längs linjen visar att expertanvändare kan använda Boolean konjunktiv normalformexpansion för att förbättra hämtningsprestanda med 50-300 % jämfört med oexpanderade sökordsfrågor.
Tekniker som kan minska oöverensstämmelse
- Stemming
- Fulltextindexering istället för att bara indexera nyckelord eller sammanfattningar
- Indexering av text på inkommande länkar från andra dokument (eller annan social taggning
- Frågeexpansion . En studie från 2012 av Zhao och Callan med hjälp av expertskapade manuella konjunktiva normalformsfrågor har visat att sökonymexpansion i den booleska konjunktivnormalformen är mycket effektivare än den traditionella påsen med ordexpansion, t.ex. Rocchio-expansion .
- Översättningsbaserade modeller