Dokumenthämtning

Dokumenthämtning definieras som matchningen av en angiven användarfråga mot en uppsättning fritextposter . Dessa poster kan vara vilken typ av huvudsakligen ostrukturerad text som helst , såsom tidningsartiklar , fastighetsregister eller stycken i en manual. Användarfrågor kan sträcka sig från fullständiga beskrivningar i flera meningar av ett informationsbehov till några få ord.

Dokumenthämtning kallas ibland för, eller som en gren av, texthämtning . Texthämtning är en gren av informationssökning där informationen lagras främst i form av text . Textdatabaser blev decentraliserade tack vare persondatorn . Texthämtning är ett kritiskt studieområde idag, eftersom det är den grundläggande basen för alla sökmotorer på internet .

Beskrivning

System för dokumenthämtning hittar information till givna kriterier genom att matcha textposter ( dokument ) mot användarfrågor, i motsats till expertsystem som svarar på frågor genom att sluta sig till en logisk kunskapsdatabas . Ett dokumenthämtningssystem består av en databas med dokument, en klassificeringsalgoritm för att bygga ett fulltextindex och ett användargränssnitt för åtkomst till databasen.

Ett dokumenthämtningssystem har två huvuduppgifter:

  1. Hitta relevanta dokument för användarfrågor
  2. Utvärdera matchningsresultaten och sortera dem efter relevans, med hjälp av algoritmer som PageRank .

Internetsökmotorer är klassiska tillämpningar för dokumenthämtning . De allra flesta hämtningssystem som för närvarande används sträcker sig från enkla booleska system till system som använder statistiska eller naturliga språkbehandlingstekniker .

Variationer

Det finns två huvudklasser av indexeringsscheman för dokumenthämtningssystem: formulärbaserad (eller ordbaserad ) och innehållsbaserad indexering. Dokumentklassificeringsschemat (eller indexeringsalgoritmen ) som används bestämmer typen av dokumenthämtningssystem.

Formbaserat

Formulärbaserad dokumenthämtning adresserar de exakta syntaktiska egenskaperna hos en text, jämförbar med delsträngsmatchning i strängsökningar. Texten är i allmänhet ostrukturerad och inte nödvändigtvis i ett naturligt språk, systemet skulle till exempel kunna användas för att bearbeta stora uppsättningar av kemiska representationer inom molekylärbiologi. En suffixträdsalgoritm är ett exempel på formulärbaserad indexering.

Innehållsbaserat

Den innehållsbaserade metoden utnyttjar semantiska kopplingar mellan dokument och delar därav, och semantiska kopplingar mellan frågor och dokument. De flesta innehållsbaserade dokumenthämtningssystem använder en inverterad indexalgoritm .

En signaturfil är en teknik som skapar ett snabbt och smutsigt filter, till exempel ett Bloom-filter , som kommer att behålla alla dokument som matchar frågan och förhoppningsvis ett fåtal som inte gör det. Det här görs genom att skapa en signatur för varje fil, vanligtvis en hashkodad version. En metod är överlagrad kodning. Ett efterbearbetningssteg görs för att kassera de falska larmen. Eftersom denna struktur i de flesta fall är sämre än inverterade filer när det gäller hastighet, storlek och funktionalitet, används den inte i stor utsträckning. Men med rätt parametrar kan det slå de inverterade filerna i vissa miljöer.

Exempel: PubMed

PubMed- formulärgränssnittet innehåller sökningen "relaterade artiklar" som fungerar genom en jämförelse av ord från dokumentens titel, abstrakt och MeSH -termer med hjälp av en ordviktad algoritm.

Se även

Vidare läsning

externa länkar