Krypa gränsen

En genomsökningsgräns är en datastruktur som används för lagring av webbadresser som är kvalificerade för genomsökning och stöder sådana operationer som att lägga till webbadresser och välja för genomsökning. Ibland kan det ses som en prioriterad kö .

Översikt

Arkitektur för en sökrobot

En genomsökningsgräns är en av komponenterna som utgör arkitekturen för en sökrobot. Genomsökningsgränsen innehåller logiken och policyerna som en sökrobot följer när han besöker webbplatser. Denna aktivitet kallas genomsökning .

Policyerna kan innehålla sådant som vilka sidor som ska besökas härnäst, prioriteringarna för varje sida som ska sökas och hur ofta sidan ska besökas. [ citat behövs ] Effektiviteten hos genomsökningsgränsen är särskilt viktig eftersom en av webbens egenskaper som gör webbgenomsökning till en utmaning; är att den innehåller en så stor mängd data och den förändras hela tiden.

Arkitektur

Den första listan med webbadresser som finns i sökrobotgränsen kallas frön. Webbsökroboten kommer ständigt att fråga gränsen vilka sidor som ska besökas. När sökroboten besöker var och en av dessa sidor kommer den att informera frontier med svaret på varje sida. Sökroboten kommer också att uppdatera sökrobotens gräns med eventuella nya hyperlänkar på de sidor som den har besökt. Dessa hyperlänkar läggs till i gränsen och sökroboten kommer att besöka nya webbsidor baserat på gränsens policyer. Denna process fortsätter rekursivt tills alla webbadresser i genomsökningsgränsen har besökts.

De policyer som används för att avgöra vilka sidor som ska besökas baseras vanligtvis på en poäng. Denna poäng beräknas vanligtvis från ett antal olika attribut. Såsom färskheten på en sida, tiden då sidan uppdaterades och innehållets relevans med avseende på vissa termer.

Komponenter

Crawler Frontier-arkitektur

Frontier API/Manager

Frontier Manager är den komponent som sökroboten kommer att använda för att kommunicera med genomsökningsgränsen. Frontier API kan också användas för att kommunicera med crawl-gränsen.

Mellanvaror

Gränsmellanvarorna sitter mellan chefen och backend . Syftet med middleware är att hantera kommunikationen mellan frontier och backend. Middlewares är ett idealiskt sätt att lägga till eller utöka ytterligare funktionalitet helt enkelt genom att koppla in ytterligare kod.

Backend

Backend-komponenten innehåller all logik och all policy som används i en sökning. Funktionen för backend är att identifiera de sidor som ska genomsökas.