Distribuerad webbsökning
Distribuerad webbsökning är en distribuerad datorteknik där sökmotorer på Internet använder många datorer för att indexera Internet via webbsökning . Sådana system kan göra det möjligt för användare att frivilligt erbjuda sina egna dator- och bandbreddsresurser för att genomsöka webbsidor. Genom att sprida belastningen av dessa uppgifter över många datorer undviks kostnader som annars skulle läggas på att underhålla stora datorkluster.
Typer
Cho och Garcia-Molina studerade två typer av policyer:
Dynamiskt uppdrag
Med den här typen av policy tilldelar en central server nya webbadresser till olika sökrobotar dynamiskt. Detta tillåter den centrala servern att till exempel dynamiskt balansera belastningen på varje sökrobot.
Med dynamisk tilldelning kan systemen vanligtvis också lägga till eller ta bort nedladdningsprocesser. Den centrala servern kan bli flaskhalsen, så det mesta av arbetsbelastningen måste överföras till de distribuerade genomsökningsprocesserna för stora genomsökningar.
Det finns två konfigurationer av genomsökningsarkitekturer med dynamiska tilldelningar som har beskrivits av Shkapenyuk och Suel:
- En liten sökrobotkonfiguration, i vilken det finns en central DNS- resolver och centrala köer per webbplats, och distribuerade nedladdare.
- En stor sökrobotkonfiguration, där även DNS-resolvern och köerna är distribuerade.
Statisk tilldelning
Med den här typen av policy finns det en fast regel som anges från början av genomsökningen som definierar hur man tilldelar nya webbadresser till sökrobotarna.
För statisk tilldelning kan en hashfunktion användas för att omvandla webbadresser (eller ännu bättre, fullständiga webbplatsnamn) till ett nummer som motsvarar indexet för motsvarande genomsökningsprocess. Eftersom det finns externa länkar som går från en webbplats som är tilldelad en genomsökningsprocess till en webbplats som tilldelats en annan genomsökningsprocess, måste ett visst utbyte av webbadresser ske.
För att minska omkostnaderna på grund av utbyte av webbadresser mellan genomsökningsprocesser bör utbytet göras i grupp, flera webbadresser åt gången, och de mest citerade webbadresserna i samlingen bör vara kända av alla genomsökningsprocesser före genomsökningen (t.ex. data från en tidigare genomsökning).
Genomföranden
Från och med 2003 använder de flesta moderna kommersiella sökmotorer denna teknik. Google och Yahoo använder tusentals enskilda datorer för att genomsöka webben.
Nyare projekt försöker använda en mindre strukturerad, mer ad hoc- form av samarbete genom att värva volontärer att delta i ansträngningen med hjälp av, i många fall, deras hem- eller persondatorer. LookSmart är den största sökmotorn som använder denna teknik, som driver dess Grub-distributerade webbgenomsökningsprojekt . Wikia (nu känd som Fandom ) förvärvade Grub från LookSmart 2007.
Den här lösningen använder datorer som är anslutna till Internet för att genomsöka internetadresser i bakgrunden. Vid nedladdning av genomsökta webbsidor komprimeras de och skickas tillbaka tillsammans med en statusflagga (t.ex. ändrad, ny, ner, omdirigerad) till de kraftfulla centralservrarna. Servrarna, som hanterar en stor databas, skickar ut nya URL:er till klienter för testning.
Nackdelar
Enligt FAQ om Nutch , en webbplats med öppen källkod för sökmotorer, är besparingarna i bandbredd genom distribuerad webbsökning inte betydande, eftersom "En framgångsrik sökmotor kräver mer bandbredd för att ladda upp sökresultatsidor än dess sökrobot behöver för att ladda ner sidor. .".
Se även
- Distribuerad databehandling
- Webbsökare
- YaCy - P2P webbsökmotor med distribuerad genomsökning
- Söker - P2P-webbsökning med öppen källkod