Närhetssökning (text)

Vid textbehandling söker en närhetssökning efter dokument där två eller flera separat matchande termförekomster finns inom ett angivet avstånd , där avstånd är antalet mellanliggande ord eller tecken. Förutom närhet, kan vissa implementeringar även lägga en begränsning på ordordningen, genom att ordningen i den sökta texten måste vara identisk med ordningen för sökfrågan. Närhetssökning går utöver den enkla matchningen av ord genom att lägga till begränsningen av närhet och betraktas allmänt som en form av avancerad sökning.

Till exempel kan en sökning användas för att hitta "hus i rött tegel" och matcha fraser som "rött hus av tegel" eller "hus av rött tegel". Genom att begränsa närheten kan dessa fraser matchas samtidigt som man undviker dokument där orden är utspridda eller spridda över en sida eller i orelaterade artiklar i en antologi.

Logisk grund

Det grundläggande språkliga antagandet om närhetssökning är att ordens närhet i ett dokument innebär ett förhållande mellan orden. Med tanke på att författare till dokument försöker formulera meningar som innehåller en enda idé, eller ett kluster av relaterade idéer inom angränsande meningar eller organiserade i stycken, finns det en inneboende, relativt hög, sannolikhet inom dokumentstrukturen att ord som används tillsammans är relaterade. Å andra sidan, när två ord står i motsatta ändar av en bok, är sannolikheten för ett samband mellan orden relativt svag. Genom att begränsa sökresultaten till att endast inkludera matchningar där orden ligger inom angiven maximal närhet, eller avstånd, antas sökresultaten vara av högre relevans än de matchningar där orden är spridda.

Kommersiella sökmotorer på internet tenderar att producera för många matchningar (känd som återkallelse) för den genomsnittliga sökfrågan. Närhetssökning är en metod för att minska antalet sidor som matchar, och för att förbättra relevansen för de matchade sidorna genom att använda ordnärhet för att hjälpa till med rankningen. Som en extra fördel hjälper närhetssökning att bekämpa spamdexing genom att undvika webbsidor som innehåller ordbokslistor eller hagelgevärslistor med tusentals ord, som annars skulle rankas högt om sökmotorn var starkt partisk mot ordfrekvens .

Boolesk syntax och operatorer

Observera att en närhetssökning kan ange att endast vissa nyckelord måste vara inom ett angivet avstånd. Närhetssökning kan användas med annan söksyntax och/eller kontroller för att tillåta mer artikulerade sökfrågor. Ibland används frågeoperatorer som NEAR, NOT NEAR, FOLLOWED BY, NOT FOLLOWED BY, SENTENCE eller FAR för att ange en gräns för närhetssökning mellan angivna sökord: till exempel "tegel NÄRA hus".

Användning i kommersiella sökmotorer

När det gäller implicit/automatisk kontra explicit närhetssökning, från och med november 2008, implementerar de flesta sökmotorer på Internet endast en implicit närhetssökningsfunktion. Det vill säga att de automatiskt rankar dessa sökresultat högre där användarens sökord har en bra "övergripande närhetspoäng" i sådana resultat. Om endast två nyckelord finns i sökfrågan har detta ingen skillnad från en explicit närhetssökning som sätter en NEAR-operator mellan de två sökorden. Men om tre eller fler än tre sökord finns är det ofta viktigt för användaren att ange vilka undergrupper av dessa sökord som förväntar sig en närhet i sökresultaten. Detta är användbart om användaren vill göra en enligt teknikens ståndpunkt (t.ex. att hitta ett befintligt tillvägagångssätt för att slutföra en specifik uppgift, hitta ett dokument som avslöjar ett system som uppvisar ett procedurbeteende som utförs i samarbete med flera komponenter och länkar mellan dessa komponenter).

Webbsökmotorer som stöder närhetssökning via en explicit närhetsoperator på deras frågespråk inkluderar Walhello , Exalead , Yandex , Yahoo! , Altavista och Bing :

  • När du använder Walhello -sökmotorn kan närheten definieras av antalet tecken mellan nyckelorden.
  • Sökmotorn Exalead låter användaren specificera den närhet som krävs, som maximalt antal ord mellan sökorden. Syntaxen är (sökord1 NÄRA/n nyckelord2) där n är antalet ord.
  • Yandex använder syntax nyckelord1 /n nyckelord2 för att söka efter två nyckelord åtskilda av högst ord, och stöder några andra varianter av denna syntax.
  • Yahoo! och Altavista stöder båda en icke-dokumenterad NEAR-operatör. Syntaxen är nyckelord1 NEAR nyckelord2 .
  • Google Sök stöder AROUND(#).
  • Bing stöder NEAR. Syntaxen är nyckelord1 nära:n nyckelord2 där n=antalet maximalt separerande ord.

Beställd sökning inom Google och Yahoo! sökmotorer är möjliga med asterisken (*) jokertecken för hela ord : i Google matchar detta ett eller flera ord, och ett i Yahoo! Sök detta matchar exakt ett ord. (Detta verifieras enkelt genom att söka efter följande fras i både Google och Yahoo!: "beroendeframkallande * av biblioskopi".)

För att efterlikna oordnad sökning av NEAR-operatorn kan man göra med en kombination av ordnade sökningar. Till exempel, för att ange en nära förekomst av "hus" och "hund", kan följande sökuttryck anges: "hushund" ELLER "hundhus" ELLER "hus * hund" ELLER "hund * hus" ELLER "hus * * hund" ELLER "hund * * hus".

Se även

Anteckningar