Spindelfälla

En spindelfälla (eller sökrobotfälla ) är en uppsättning webbsidor som avsiktligt eller oavsiktligt kan användas för att få en sökrobot eller sökrobot att göra ett oändligt antal förfrågningar eller få en dåligt konstruerad sökrobot att krascha. Webbsökare kallas också för spindlar , varifrån namnet kommer. Spindelfällor kan skapas för att "fånga" spambots eller andra sökrobotar som slösar bort en webbplatss bandbredd. De kan också skapas oavsiktligt av kalendrar som använder dynamiska sidor med länkar som kontinuerligt pekar till nästa dag eller år.

Vanliga tekniker som används är:

  • skapa oändligt djupa katalogstrukturer som http://example.com/bar/foo/bar/foo/bar/foo/bar/...
  • Dynamiska sidor som producerar ett obegränsat antal dokument för en sökrobot att följa. Exempel inkluderar kalendrar och algoritmiskt genererad språkpoesi .
  • dokument fyllda med många tecken, kraschar den lexikala analysatorn som analyserar dokumentet.
  • dokument med sessions-id:n baserade på nödvändiga cookies.

Det finns ingen algoritm för att upptäcka alla spindelfällor. Vissa klasser av fällor kan upptäckas automatiskt, men nya, okända fällor uppstår snabbt.

Artighet

En spindelfälla får en sökrobot att gå in i något som liknar en oändlig loop , vilket slösar bort spindelns resurser, sänker dess produktivitet och, i fallet med en dåligt skriven sökrobot, kan krascha programmet. Artiga spindlar växlar förfrågningar mellan olika värdar, och begär inte dokument från samma server mer än en gång varannan sekund, vilket innebär att en "artig" webbsökare påverkas i mycket mindre grad än en "ohygglig" sökrobot. [ citat behövs ]

Dessutom har webbplatser med spindelfällor vanligtvis en robots.txt som säger åt botar att inte gå till fällan, så en legitim "artig" bot skulle inte falla i fällan, medan en "ohygglig" bot som bortser från robots.txt-inställningarna skulle påverkas av fällan.

Se även