SALSA algoritm
Stochastic Approach for Link-Structure Analysis (SALSA) är en webbsidesrankningsalgoritm designad av R. Lempel och S. Moran för att tilldela höga poäng till nav- och auktoritetswebbsidor baserat på mängden hyperlänkar bland dem .
SALSA är inspirerad av två andra länkbaserade rankningsalgoritmer, nämligen HITS och PageRank , på följande sätt:
- precis som HITS tilldelar algoritmen två poäng till varje webbsida: ett navpoäng och ett auktoritetspoäng. En myndighet är en sida som är betydligt mer relevant för ett givet ämne än andra sidor, medan en hub är en sida som innehåller många länkar till myndigheter;
- som HITS, arbetar SALSA också på en fokuserad subgraf som är ämnesberoende. Denna fokuserade subgraf erhålls genom att först hitta en uppsättning sidor som är mest relevanta för ett givet ämne (t.ex. ta topp-n-sidorna som returneras av en textbaserad sökalgoritm) och sedan utöka denna uppsättning med webbsidor som länkar direkt till den och med sidor som är länkade direkt från den. På grund av denna urvalsprocess är nav- och auktoritetspoängen ämnesberoende;
- som PageRank, beräknar algoritmen poängen genom att simulera en slumpmässig vandring genom en Markov-kedja som representerar grafen för webbsidor. SALSA arbetar dock med två olika Markov-kedjor: en kedja av nav och en kedja av myndigheter. Detta är ett avsteg från HITS föreställningar om nav och myndigheter som bygger på en ömsesidigt förstärkande relation.
Egenskaper
SALSA kan ses som en förbättring av HITS.
Det är beräkningsmässigt lättare eftersom dess rankning motsvarar en viktad in/ut-gradsrankning. Beräkningskostnaden för algoritmen är en avgörande faktor eftersom HITS och SALSA beräknas vid frågetid och därför avsevärt kan påverka svarstiden för en sökmotor. Detta bör jämföras med frågeoberoende algoritmer som PageRank som kan beräknas offline.
SALSA är mindre sårbart för Tightly Knit Community (TKC)-effekten än HITS. En TKC är en topologisk struktur inom webben som består av en liten uppsättning mycket sammanlänkade sidor. Förekomsten av TKCs i en fokuserad subgraf är känd för att negativt påverka upptäckten av meningsfulla auktoriteter av HITS.
Twitter Sociala nätverk använder en SALSA - stilsalgoritm för att föreslå konton att följa.
- Lempel, R.; Moran S. (april 2001). "SALSA: Den stokastiska metoden för analys av länkstruktur". ACM-transaktioner på informationssystem . 19 (2): 131–160. CiteSeerX 10.1.1.38.5859 . doi : 10.1145/382979.383041 . S2CID 9607841 .