Lancichinetti–Fortunato–Radicchi riktmärke

Lancichinetti–Fortunato–Radicchi benchmark är en algoritm som genererar benchmarknätverk (konstgjorda nätverk som liknar verkliga nätverk). De har a priori kända gemenskaper och används för att jämföra olika gemenskapsdetekteringsmetoder. Fördelen med riktmärket framför andra metoder är att det tar hänsyn till heterogeniteten i fördelningarna av nodgrader och gemenskapsstorlekar.

Algoritmen

Nodgraderna och gemenskapsstorlekarna är fördelade enligt en maktlag , med olika exponenter. Riktmärket antar att både graden och gemenskapsstorleken har maktlagsfördelningar med olika exponenter, $\gamma$ respektive $\beta$ . $N$ är antalet noder och medelgraden är $\langle k\rangle$ . Det finns en blandningsparameter $\mu$ , som är den genomsnittliga andelen av angränsande noder till en nod som inte tillhör någon gemenskap som benchmarknoden tillhör. Den här parametern styr andelen kanter som finns mellan grupper. Således återspeglar det mängden brus i nätverket. I ytterligheterna, när $\mu =0$ är alla länkar inom community-länkar, om $\mu =1$ är alla länkar mellan noder som tillhör olika gemenskaper.

Man kan generera benchmark-nätverket med hjälp av följande steg.

Steg 1: Generera ett nätverk med noder efter en potenslagsfördelning med exponent $\gamma$ och välj extremer av fördelningen $k_{\min }$ och $k_{\max }$ för att få önskad medelgrad är $\langle k\rangle$ .

Steg 2: $(1-\mu )$ del av länkarna för varje nod är med noder i samma community, medan del $\mu$ är med de andra noderna.

Steg 3: Generera gemenskapsstorlekar från en kraftlagsfördelning med exponent $\beta$ . Summan av alla storlekar måste vara lika med $N$ . De minimala och maximala gemenskapsstorlekarna $s_{\min }$ och $s_{\max }$ måste uppfylla definitionen av gemenskap så att varje icke-isolerad nod finns i åtminstone en gemenskap:

s_{\min }>k_{\min }

s_{\max }>k_{\max }

Steg 4: Initialt tilldelas inga noder till gemenskaper. Sedan tilldelas varje nod slumpmässigt till en gemenskap. Så länge som antalet angränsande noder inom gemenskapen inte överstiger gemenskapens storlek läggs en ny nod till i gemenskapen, annars stannar den utanför. I följande iterationer tilldelas den "hemlösa" noden slumpmässigt till någon gemenskap. Om den gemenskapen är komplett, dvs. storleken är slut, måste en slumpmässigt vald nod för den gemenskapen kopplas bort. Stoppa iterationen när alla gemenskaper är kompletta och alla noder tillhör minst en gemenskap.

Steg 5: Implementera omkoppling av noder som behåller samma nodgrader men påverkar bara bråkdelen av interna och externa länkar så att antalet länkar utanför gemenskapen för varje nod är ungefär lika med blandningsparametern μ {\displaystyle \ $}$ .

Testning

Överväg en uppdelning i gemenskaper som inte överlappar varandra. Gemenskaperna av slumpmässigt valda noder i varje iteration följer en ${\displaystyle p(C)}-$ fördelning som representerar sannolikheten att en slumpmässigt utvald nod kommer från gemenskapen $C$ . Betrakta en partition av samma nätverk som förutspåddes av någon community-hittningsalgoritm och har ${\displaystyle p(C_{2})}-$ distribution. Benchmark-partitionen har ${\displaystyle p(C_{1})}-$ distribution. Den gemensamma fördelningen är $p(C_{1},C_{2})$ . Likheten mellan dessa två partitioner fångas av den normaliserade ömsesidiga informationen .

I_{n}={\frac {\sum _{C_{1},C_{2}}p(C_{1},C_{2} )\log _{2}{\frac {p(C_{1},C_{2})}{p(C_{1})p(C_{2})}}}{{\frac {1}{ 2}}H(\{p(C_{1})\})+{\frac {1}{2}}H(\{p(C_{2})\})}}

Om $I_{n}=1$ är riktmärket och de upptäckta partitionerna identiska, och om $I_{n}=0$ är de oberoende av varandra.