Cramérs V

I statistik är Cramérs V (ibland kallad Cramérs phi och betecknad som φ c ) ett mått på association mellan två nominella variabler , vilket ger ett värde mellan 0 och +1 (inklusive). Den är baserad på Pearsons chi-kvadratstatistik och publicerades av Harald Cramér 1946.

Användning och tolkning

φ c är interkorrelationen mellan två diskreta variabler och kan användas med variabler som har två eller flera nivåer. φ c är ett symmetriskt mått: det spelar ingen roll vilken variabel vi placerar i kolumnerna och vilken i raderna. Ordningen på rader/kolumner spelar heller ingen roll, så φ c kan användas med nominella datatyper eller högre (särskilt ordnad eller numerisk).

Cramérs V kan också tillämpas på chi-kvadratmodeller med god passform när det finns en 1 × k tabell (i detta fall r = 1). I det här fallet k som antalet valfria utfall och det fungerar som ett mått på tendensen mot ett enda utfall. [ citat behövs ]

Cramérs V varierar från 0 (motsvarande ingen association mellan variablerna) till 1 (fullständig association) och kan nå 1 endast när varje variabel helt bestäms av den andra. Det kan ses som sambandet mellan två variabler som en procentandel av deras maximalt möjliga variation.

φ c 2 är medelkvadratens kanoniska korrelation mellan variablerna. [ citat behövs ]

I fallet med en 2 × 2 kontingenstabell är Cramérs V lika med det absoluta värdet av Phi-koefficienten .

Observera att eftersom chi-kvadratvärden tenderar att öka med antalet celler, ju större skillnaden är mellan r (rader) och c (kolumner), desto mer sannolikt kommer φ c att tendera till 1 utan starka bevis för en meningsfull korrelation.

Beräkning

Låt ett urval av storleken n av de simultant fördelade variablerna och för ges av frekvenserna

antal gånger värdena observerades.

Chi-kvadratstatistiken är då:

där är antalet gånger värdet observeras och är antalet gånger värdet observeras.

Cramérs V beräknas genom att ta kvadratroten av chi-kvadratstatistiken delat med urvalsstorleken och minimimåttet minus 1:

var:

  • är phi-koefficienten.
  • härleds från Pearsons chi-kvadrattest
  • är totalsumman av observationer och
  • är antalet kolumner.
  • är antalet rader.

P -värdet för signifikansen av V är detsamma som beräknas med Pearsons chi-kvadrattest . [ citat behövs ]

Formeln för variansen av V c är känd.

beräknar funktionen cramerV() från paketet rcompanion V med hjälp av chisq.test-funktionen från statistikpaketet. I motsats till funktionen cramersV() från lsr -paketet, erbjuder cramerV() också en möjlighet att korrigera för bias. Den tillämpar korrigeringen som beskrivs i följande avsnitt.

Fördomskorrigering

Cramérs V kan vara en starkt partisk skattare av sin befolkningsmotsvarighet och kommer att tendera att överskatta styrkan i associationen. En bias-korrigering, med användning av ovanstående notation, ges av

 

var

 

och

 
 

Sedan uppskattar samma populationskvantitet som Cramérs V men med typiskt mycket mindre medelkvadratfel . Skälet för korrigeringen är att under oberoende, .

Se även

Andra mått på korrelation för nominella data:

Andra relaterade artiklar:

externa länkar