Distribuerad webbsökning

Distribuerad webbsökning är en distribuerad datorteknik där sökmotorer på Internet använder många datorer för att indexera Internet via webbsökning . Sådana system kan göra det möjligt för användare att frivilligt erbjuda sina egna dator- och bandbreddsresurser för att genomsöka webbsidor. Genom att sprida belastningen av dessa uppgifter över många datorer undviks kostnader som annars skulle läggas på att underhålla stora datorkluster.

Typer

Cho och Garcia-Molina studerade två typer av policyer:

Dynamiskt uppdrag

Med den här typen av policy tilldelar en central server nya webbadresser till olika sökrobotar dynamiskt. Detta tillåter den centrala servern att till exempel dynamiskt balansera belastningen på varje sökrobot.

Med dynamisk tilldelning kan systemen vanligtvis också lägga till eller ta bort nedladdningsprocesser. Den centrala servern kan bli flaskhalsen, så det mesta av arbetsbelastningen måste överföras till de distribuerade genomsökningsprocesserna för stora genomsökningar.

Det finns två konfigurationer av genomsökningsarkitekturer med dynamiska tilldelningar som har beskrivits av Shkapenyuk och Suel:

En liten sökrobotkonfiguration, i vilken det finns en central DNS- resolver och centrala köer per webbplats, och distribuerade nedladdare.
En stor sökrobotkonfiguration, där även DNS-resolvern och köerna är distribuerade.

Statisk tilldelning

Med den här typen av policy finns det en fast regel som anges från början av genomsökningen som definierar hur man tilldelar nya webbadresser till sökrobotarna.

För statisk tilldelning kan en hashfunktion användas för att omvandla webbadresser (eller ännu bättre, fullständiga webbplatsnamn) till ett nummer som motsvarar indexet för motsvarande genomsökningsprocess. Eftersom det finns externa länkar som går från en webbplats som är tilldelad en genomsökningsprocess till en webbplats som tilldelats en annan genomsökningsprocess, måste ett visst utbyte av webbadresser ske.

För att minska omkostnaderna på grund av utbyte av webbadresser mellan genomsökningsprocesser bör utbytet göras i grupp, flera webbadresser åt gången, och de mest citerade webbadresserna i samlingen bör vara kända av alla genomsökningsprocesser före genomsökningen (t.ex. data från en tidigare genomsökning).

Genomföranden

Från och med 2003 använder de flesta moderna kommersiella sökmotorer denna teknik. Google och Yahoo använder tusentals enskilda datorer för att genomsöka webben.

Nyare projekt försöker använda en mindre strukturerad, mer ad hoc- form av samarbete genom att värva volontärer att delta i ansträngningen med hjälp av, i många fall, deras hem- eller persondatorer. LookSmart är den största sökmotorn som använder denna teknik, som driver dess Grub-distributerade webbgenomsökningsprojekt . Wikia (nu känd som Fandom ) förvärvade Grub från LookSmart 2007.

Den här lösningen använder datorer som är anslutna till Internet för att genomsöka internetadresser i bakgrunden. Vid nedladdning av genomsökta webbsidor komprimeras de och skickas tillbaka tillsammans med en statusflagga (t.ex. ändrad, ny, ner, omdirigerad) till de kraftfulla centralservrarna. Servrarna, som hanterar en stor databas, skickar ut nya URL:er till klienter för testning.

Nackdelar

Enligt FAQ om Nutch , en webbplats med öppen källkod för sökmotorer, är besparingarna i bandbredd genom distribuerad webbsökning inte betydande, eftersom "En framgångsrik sökmotor kräver mer bandbredd för att ladda upp sökresultatsidor än dess sökrobot behöver för att ladda ner sidor. .".

Se även

Distribuerad databehandling
Webbsökare
YaCy - P2P webbsökmotor med distribuerad genomsökning
Söker - P2P-webbsökning med öppen källkod

Källor

externa länkar

Majestic-12 distribuerad sökmotor
UniCrawl: Ett praktiskt geografiskt distribuerat
Distribuerad webbsökning på ett enkelt sätt: system och arkitektur
Replaz distribuerad sökmotor

Distribuerade sökmotorer
Distribuerad webbsökning	Söker YaCy
Distribuerade sökrobotar	Röja
kursiv = nedlagd

Webbsökrobotar
Internetrobotar designade för webbsökning och webbindexering
Aktiva	80 ben bingbot Fetcher Googlebot Heritrix HTTrack PHP-Crawler PowerMapper Wget
Avvecklad	SNABB Crawler msnbot RBSE TkWWW robot Två gånger
Typer	Distribuerad sökrobot Fokuserad crawler