Webbplatskorrelation
Webbplatskorrelation , eller webbplatsmatchning , är en process som används för att identifiera webbplatser som är liknande eller relaterade. Webbplatser är till sin natur lätta att duplicera. Detta ledde till spridning av identiska webbplatser eller mycket liknande webbplatser för ändamål som sträcker sig från översättning till internetmarknadsföring (särskilt affiliate-marknadsföring ) till internetbrott Att hitta liknande webbplatser är i sig problematiskt eftersom de kan finnas på olika språk, på olika servrar, i olika länder (olika länder) toppdomäner ).
Används
Webbplatskorrelation används i:
- Internetutredningar för att fastställa den övergripande omfattningen av en utredning
- Marknadsundersökning för att lokalisera konkurrenter eller bestämma marknadsräckvidden för konkurrerande företag eller för klusterprovtagning
- Webbfiltreringssystem för att säkerställa att alla webbplatser av en viss typ är blockerade från visning
- Datautvinningssystem för att maximera in- eller utdata
- Riskhanteringsprogram för att säkerställa att webbplatser övervakas för problem som medför skatterisker
- Övervakning av efterlevnad som en del av ett program eller policy för efterlevnad och etik för att säkerställa att webbplatser följer fastställda riktlinjer
Korrelationstyper
Det finns flera kända typer av korrelation, som var och en visar olika styrkor och svagheter. En praktisk webbkorrelationsprocess kan kräva att två eller flera av dessa metoder kombineras.
Liknande struktur
För att spara tid och ansträngning duplicerar webbplatsägare stora delar av webbplatskoden över många domäner . Likhet i kodstruktur kan ge tillräckligt med information för korrelation. Organisationer som är kända för att ha en offentligt sökbar databaser för denna typ av korrelation inkluderar:
Obs: Webbplatser kan ibland använda samma struktur men har ingen relation till varandra (som när webbplatser av en slump använder samma innehållshanteringssystem) .
Samma server eller subnät
Även känd som korrelerad omvänd DNS-sökning . Webbplatser kan betjänas från samma server , på en eller flera ip-adresser , på ett eller flera undernät . Flera organisationer behåller arkiv med ip-adressdata och korrelerar data. Exempel inkluderar:
Obs: Korrelation via den här metoden kan vara missvisande eftersom webbplatser ofta finns på samma server (alias delad värd ) men inte har någon relation till varandra.
Samma ägare
Webbplatser kan vara författade av samma person eller organisation. Webbplatsägare måste tillhandahålla kontaktinformation till en registrar för att få ett domännamn . Domänägande kan fastställas via WHOIS- protokollet som inte tillhandahåller någon mekanism för att söka eller korrelera ägande. Flera organisationer behåller arkiv med WHOIS-information och tillhandahåller sök- och korrelationstjänster. Exempel inkluderar:
Obs! Information om webbplatsens ägande kan vara förfalskad , föråldrad eller dold från allmänheten . Webbplatskorrelation via denna metod kan vara korrekt, vilseledande eller omöjlig beroende på informationen i WHOIS-posterna.
Liknande innehåll
Sökmotorer tillhandahåller sökbara databaser med indexerat webbplatsinnehåll. Sökmotorresultatlistor är korrelerade med innehållslikhet.
- på Google.com skriv 'related:website_name_here.com' för att hitta webbplatser som är relaterade med namn eller fraser
- hitta en unikt klingande fras på webbplatsen och använd sedan sökmotor(er) för att hitta frasen bokstavligen på andra webbplatser
- Placera citattecken runt frasen i sökrutan för att göra en bokstavlig frassökning
- istället för copyright 2010 xyzcompany använd "copyright 2010 xyzcompany"
Obs: Denna korrelationsmetod är i sig långsam eftersom man måste gissa vilka fraser man ska söka efter. Dessutom får relaterade webbplatser inte innehålla bokstavligen liknande innehåll (som när en webbplats översätts till ett annat språk).
Samma kategori
Webbplatser kategoriseras eller taggas ofta på liknande sätt via automatiserade eller manuella metoder. Exempel på allmänt tillgängliga webbplatskategoriseringsdatabaser inkluderar:
- http://www.similarsitesearch.com/
- http://similarsites.com
- http://similarsites.de
- http://www.similarsitecheck.com
- http://www.similarto.us
- DMOZ
Obs! Metoder för manuell kategorisering och tagg (metadata) är i sig subjektiva. Automatiserade kategoriserings- och taggningsmetoder är till sin natur föremål för de olika svagheterna och styrkorna hos underliggande kategoriseringsalgoritmer.
Samma spårnings-ID
Spårnings-ID:n som används för analys eller affiliate-identifiering är ofta inbäddade i webbplatsens kod. Dessa ID kan användas för korrelation eftersom de innebär gemensam hantering av webbplatser. Offentligt tillgängliga webbplatser för korrelering efter spårnings-id inkluderar: