Spam massa

Spammassa definieras som "måttet på effekten av länkspam på en sidas rankning." Konceptet utvecklades av Zoltán Gyöngyi och Hector Garcia-Molina från Stanford University i samarbete med Pavel Berkhin och Jan Pedersen från Yahoo! . Det här dokumentet utökar deras föreslagna TrustRank- metodik.

Forskarna utvecklade en bra kärna och en dålig kärna av utvalda webbdokument , från vilka de mätte spammassan över en samling dokument. Två typer av mätningar, absolut massa och relativ massa , används för att jämföra grupper av dokument. Ju högre massmått, desto mer sannolikt är dokumenten att motsvara spam.

Trösklar

Ett tröskelvärde används för att identifiera grupper av dokument som skräppost. Om deras relativa massvärde överstiger tröskeln anses dokumenten vara skräppost. En andra tröskel för PageRank -värdena för de valda dokumenten tillämpas. Endast dokument med hög PageRank är märkta som spam.

Syftet med metoden är att identifiera spamdokument med artificiellt uppblåsta PageRank-värden.

externa länkar

  • "Länkskräpupptäckt baserat på massuppskattning" (PDF) .