Exponentiell familj slumpmässiga grafmodeller

Exponential family random graph models ( ERGM) är en familj av statistiska modeller för att analysera data från sociala och andra nätverk . Exempel på nätverk som undersökts med ERGM är kunskapsnätverk, organisatoriska nätverk, kolleganätverk, sociala medier, nätverk för vetenskaplig utveckling och andra.

Bakgrund

Det finns många mått för att beskriva de strukturella egenskaperna hos ett observerat nätverk, såsom täthet, centralitet eller assortativitet. Dessa mått beskriver dock det observerade nätverket som bara är en instans av ett stort antal möjliga alternativa nätverk. Denna uppsättning alternativa nätverk kan ha liknande eller olika strukturella egenskaper. För att stödja statistiska slutsatser om de processer som påverkar bildandet av nätverksstruktur, bör en statistisk modell beakta uppsättningen av alla möjliga alternativa nätverk viktade på deras likhet med ett observerat nätverk. Men eftersom nätverksdata är till sin natur relationell, bryter den mot antagandena om oberoende och identisk fördelning av vanliga statistiska modeller som linjär regression . Alternativa statistiska modeller bör återspegla den osäkerhet som är förknippad med en given observation, tillåta slutsatser om den relativa frekvensen om nätverkssubstrukturer av teoretiskt intresse, disambiguera påverkan av förvirrande processer, effektivt representera komplexa strukturer och koppla processer på lokal nivå till egenskaper på global nivå. Gradbevarande randomisering , till exempel, är ett specifikt sätt på vilket ett observerat nätverk kan betraktas i termer av flera alternativa nätverk.

Definition

Den exponentiella familjen är en bred familj av modeller för att täcka många typer av data, inte bara nätverk. En ERGM är en modell från denna familj som beskriver nätverk.

Formellt består en slumpmässig graf av en uppsättning av noder och dyader (kanter) Y om noderna är anslutna och annars.

Grundantagandet för dessa modeller är att strukturen i en observerad graf kan förklaras av en given vektor med tillräcklig statistik som är en funktion av det observerade nätverket och, i vissa fall, nodalattribut. På så sätt är det möjligt att beskriva vilken typ av beroende som helst mellan de undyadiska variablerna:

där är en vektor av modellparametrar associerade med och .

Dessa modeller representerar en sannolikhetsfördelning på varje möjligt nätverk på noder. Storleken på uppsättningen möjliga nätverk för ett oriktat nätverk (enkel graf) av storleken är . Eftersom antalet möjliga nätverk i uppsättningen avsevärt överstiger antalet parametrar som kan begränsa modellen, är den ideala sannolikhetsfördelningen den som maximerar Gibbs- entropin .

Vidare läsning

  1. ^    Harris, Jenine K (2014). En introduktion till exponentiell slumpmässig grafmodellering . ISBN 9781452220802 . OCLC 870698788 .