Frågeexpansion
Frågeexpansion ( QE ) är processen att omformulera en given fråga för att förbättra hämtningsprestanda i informationshämtning , särskilt i samband med frågeförståelse . I samband med sökmotorer innebär sökningsexpansion att utvärdera en användares input (vilka ord som skrevs in i sökfrågeområdet, och ibland andra typer av data ) och att utöka sökfrågan för att matcha ytterligare dokument. Frågeexpansion involverar tekniker som:
- Hitta synonymer till ord och söka efter synonymer också
- Hitta semantiskt relaterade ord (t.ex. antonymer , meronymer , hyponymer , hypernyms )
- Hitta alla de olika morfologiska formerna av ord genom att stamma varje ord i sökfrågan
- Åtgärda stavfel och automatiskt söka efter det korrigerade formuläret eller föreslå det i resultaten
- Omvägning av termerna i den ursprungliga frågan
Frågeexpansion är en metod som studeras inom området datavetenskap , särskilt inom området naturlig språkbehandling och informationssökning .
Precision och återkallelse avvägningar
Sökmotorer åberopar frågeexpansion för att öka kvaliteten på användarens sökresultat. Det antas att användare inte alltid formulerar sökfrågor med de bästa termerna. Bäst i det här fallet kan vara att databasen inte innehåller de användarinmatade termerna.
Genom att härleda en användarinmatad term matchas fler dokument, eftersom de alternativa ordformerna för en användarinmatad term också matchas, vilket ökar den totala återkallelsen . Detta sker på bekostnad av att minska precisionen . Genom att utöka en sökfråga för att söka efter synonymer för en användarinmatad term, ökar även återkallelsen på bekostnad av precisionen. Detta beror på ekvationens natur för hur precision beräknas, genom att ett större återkallande implicit orsakar en minskning av precisionen, givet att återkallningsfaktorer är en del av nämnaren. Man drar också slutsatsen att ett större återkallande påverkar den övergripande sökresultatkvaliteten negativt, med tanke på att många användare inte vill att fler resultat ska kammas igenom, oavsett precision.
Målet med frågeexpansion i detta avseende är genom att öka återkallelsen, precision kan potentiellt öka (snarare än att minska som matematiskt likställts), genom att inkludera i resultatuppsättningen sidor som är mer relevanta (av högre kvalitet), eller åtminstone lika relevanta. Sidor som inte skulle inkluderas i resultatuppsättningen, som har potential att vara mer relevanta för användarens önskade sökfråga, inkluderas, och utan sökfråga skulle expansion inte ha, oavsett relevans . Samtidigt använder många av de nuvarande kommersiella sökmotorerna ordfrekvens ( tf-idf ) för att hjälpa till med rankningen. [ citat behövs ] Genom att rangordna förekomsterna av både användarinmatade ord och synonymer och alternativa morfologiska former tenderar dokument med högre densitet (hög frekvens och närhet) att migrera högre upp i sökresultaten, vilket leder till en högre kvalitet på sökresultat nära toppen av resultaten, trots den större återkallelsen.
Frågeexpansionsmetoder
Automatiska metoder för frågeexpansion föreslogs 1960 av Maron och Kuhns. Moderna frågeexpansionsmetoder innebär antingen analys av dokumentinsamling (global eller lokal) eller är ordboks- eller ontologibaserade. Den globala analysen av dokumentsamlingen används för att söka efter relationer mellan termer. Den lokala analysen hänvisar till relevansfeedbacken som introducerades av Rocchio. Rocchio föreslog att manuellt bedöma några av de hämtade dokumenten och använda denna feedbackinformation för att utöka frågan. Eftersom det kan vara svårt att samla in användarnas bedömningar, anses endast de först hämtade dokumenten som relevanta. Detta är så kallad pseudorelevansfeedback ( PRF). Pseudo-relevansfeedback är effektiv i genomsnitt men kan skada resultaten för vissa frågor, särskilt svåra eftersom de mest hämtade dokumenten förmodligen är icke-relevanta. Pseudo-relevanta dokument används för att hitta termer för expansionskandidater som förekommer tillsammans med många frågetermer. Denna idé utvecklades vidare inom relevansspråksmodellen formalism i positionsrelevans- och närhetsrelevansmodeller som tar hänsyn till avståndet till frågetermer i de pseudo-relevanta dokumenten. En annan riktning i frågaexpansion är tillämpningen av ordinbäddningar .
Ett alternativ till frågeexpansion är dokumentexpansion, som omformulerar texten i de dokument som söks i snarare än texten i frågan.
Se även
- Dokumenthämtning
- Informationsinhämtning
- Lingvistik
- Morfologi (lingvistik)
- Naturlig språkbehandling
- Sökmotor
- Sökmotorindexering
- Stemming
Programvarubibliotek
- QueryTermAnalyzer öppen källkod, C#. Maskininlärningsbaserad frågeterm vikt och synonymanalysator för frågeexpansion.
- LucQE - öppen källkod, Java. Tillhandahåller ett ramverk tillsammans med flera implementeringar som gör det möjligt att utföra frågeexpansion med användning av Apache Lucene .
- Xapian är ett sökbibliotek med öppen källkod som inkluderar stöd för utökning av frågor
- ReQue öppen källkod, Python. En konfigurerbar mjukvaruram och en samling av guldstandarddatauppsättningar för utbildning och utvärdering av övervakade frågeexpansionsmetoder.
Citat
Källor
- D. Abberley, D. Kirby, S. Renals och T. Robinson, The THISL broadcast news retriever system. I Proc. ESCA ETRW Workshop Accessing Information in Spoken Audio , (Cambridge), s. 14–19, 1999. Avsnitt om Query Expansion - Kortfattad, matematisk översikt.
- R. Navigli, P. Velardi. En analys av ontologibaserade frågeexpansionsstrategier . Proc. av Workshop on Adaptive Text Extraction and Mining (ATEM 2003) , i den 14:e europeiska konferensen om maskininlärning (ECML 2003), Cavtat-Dubrovnik, Kroatien, 22-26 september 2003, s. 42–49 - En analys av sökfrågaexpansion metoder som förlitar sig på WordNet som referensontologi.
- Y. Qiu och HP Frei. Konceptbaserad frågeexpansion . In Proceedings of SIGIR-93, 16th ACM International Conference on Research and Development in Information Retrieval, Pittsburgh, SIGIR Forum, ACM Press, juni 1993 - Akademiskt dokument om en specifik metod för sökexpansion
- Efthimis N. Efthimiadis. Frågeexpansion . I: Martha E. Williams (red.), Annual Review of Information Systems and Technology (ARIST) , v31, s 121–187, 1996 - En introduktion för mindre tekniska tittare.