Fokuserad crawler

En fokuserad sökrobot är en sökrobot som samlar in webbsidor som uppfyller vissa specifika egenskaper genom att noggrant prioritera genomsökningsgränsen och hantera hyperlänksutforskningsprocessen. Vissa predikat kan baseras på enkla, deterministiska och ytegenskaper. En sökrobots uppdrag kan till exempel vara att genomsöka sidor från endast .jp-domänen. Andra predikat kan vara mjukare eller jämförande, t.ex. "genomsök sidor om baseball" eller "genomsök sidor med stor PageRank ". En viktig sidegenskap hänför sig till ämnen, vilket leder till "aktuella sökrobotar". Till exempel kan en aktuell sökrobot användas för att samla in sidor om solenergi, svininfluensa eller ännu mer abstrakta begrepp som kontroverser samtidigt som man minimerar resurser som spenderas på att hämta sidor om andra ämnen. Genomsökningsgränshantering kanske inte är den enda enheten som används av fokuserade sökrobotar; de kan använda en webbkatalog , ett webbtextindex , bakåtlänkar eller någon annan webbartefakt.

En fokuserad sökrobot måste förutsäga sannolikheten att en obesökt sida kommer att vara relevant innan den faktiskt laddas ner. En möjlig prediktor är länkens ankartext; detta var det tillvägagångssätt som Pinkerton använde i en sökrobot som utvecklades under webbens tidiga dagar. Aktuell krypning introducerades först av Filippo Menczer . Chakrabarti et al. myntade termen "fokuserad sökrobot" och använde en textklassificerare för att prioritera genomsökningsgränsen. Andrew McCallum och medförfattare använde också förstärkningsinlärning för att fokusera sökrobotar. Diligenti et al. spårade kontextdiagrammet som leder fram till relevanta sidor, och deras textinnehåll, för att träna klassificerare. En form av onlineförstärkningsinlärning har använts, tillsammans med funktioner som extraherats från DOM-trädet och texten på länkande sidor, för att kontinuerligt träna klassificerare som styr genomsökningen. I en genomgång av aktuella genomsökningsalgoritmer, Menczer et al. visa att sådana enkla strategier är mycket effektiva för korta krypningar, medan mer sofistikerade tekniker som förstärkningsinlärning och evolutionär anpassning kan ge bäst prestanda över längre krypningar. Det har visat sig att rumslig information är viktig för att klassificera webbdokument.

En annan typ av fokuserade sökrobotar är semantisk fokuserad sökrobot, som använder sig av domänontologier för att representera aktuella kartor och länka webbsidor med relevanta ontologiska koncept för urvals- och kategoriseringsändamål. Dessutom kan ontologier uppdateras automatiskt i genomsökningsprocessen. Dong et al. introducerade en sådan ontologi-inlärningsbaserad sökrobot som använder stödvektormaskin för att uppdatera innehållet i ontologiska koncept vid genomsökning av webbsidor.

Sökrobotar är också fokuserade på andra sidegenskaper än ämnen. Cho et al. studera en mängd olika policyer för genomsökningsprioritering och deras effekter på länkpopulariteten för hämtade sidor. Najork och Weiner visar att bredd-först genomsökning, med utgångspunkt från populära startsidor, leder till att man samlar in stora PageRank-sidor tidigt i genomsökningen. Förfiningar som involverar upptäckt av inaktuella (dåligt underhållna) sidor har rapporterats av Eiron et al. En slags semantiskt fokuserad crawler, som använder sig av idén om förstärkningsinlärning har introducerats av Meusel et al. använda onlinebaserade klassificeringsalgoritmer i kombination med en banditbaserad urvalsstrategi för att effektivt genomsöka sidor med märkningsspråk som RDFa , Microformats och Microdata .

Prestandan för en fokuserad sökrobot beror på mängden länkar i det specifika ämne som söks, och fokuserad genomsökning förlitar sig vanligtvis på en allmän webbsökmotor för att ge startpunkter. Davison presenterade studier om webblänkar och text som förklarar varför fokuserad genomsökning lyckas på breda ämnen; liknande studier presenterades av Chakrabarti et al. Fröval kan vara viktigt för fokuserade sökrobotar och avsevärt påverka genomsökningseffektiviteten. En vitlistasstrategi är att starta fokusgenomsökningen från en lista med startadresser av hög kvalitet och begränsa genomsökningsomfånget till dessa webbadressers domäner . Dessa högkvalitativa frön bör väljas baserat på en lista med URL- kandidater som ackumuleras under en tillräckligt lång period av allmän webbsökning. Vitlistan bör uppdateras regelbundet efter att den har skapats .