Cramérs V
I statistik är Cramérs V (ibland kallad Cramérs phi och betecknad som φ c ) ett mått på association mellan två nominella variabler , vilket ger ett värde mellan 0 och +1 (inklusive). Den är baserad på Pearsons chi-kvadratstatistik och publicerades av Harald Cramér 1946.
Användning och tolkning
φ c är interkorrelationen mellan två diskreta variabler och kan användas med variabler som har två eller flera nivåer. φ c är ett symmetriskt mått: det spelar ingen roll vilken variabel vi placerar i kolumnerna och vilken i raderna. Ordningen på rader/kolumner spelar heller ingen roll, så φ c kan användas med nominella datatyper eller högre (särskilt ordnad eller numerisk).
Cramérs V kan också tillämpas på chi-kvadratmodeller med god passform när det finns en 1 × k tabell (i detta fall r = 1). I det här fallet k som antalet valfria utfall och det fungerar som ett mått på tendensen mot ett enda utfall. [ citat behövs ]
Cramérs V varierar från 0 (motsvarande ingen association mellan variablerna) till 1 (fullständig association) och kan nå 1 endast när varje variabel helt bestäms av den andra. Det kan ses som sambandet mellan två variabler som en procentandel av deras maximalt möjliga variation.
φ c 2 är medelkvadratens kanoniska korrelation mellan variablerna. [ citat behövs ]
I fallet med en 2 × 2 kontingenstabell är Cramérs V lika med det absoluta värdet av Phi-koefficienten .
Observera att eftersom chi-kvadratvärden tenderar att öka med antalet celler, ju större skillnaden är mellan r (rader) och c (kolumner), desto mer sannolikt kommer φ c att tendera till 1 utan starka bevis för en meningsfull korrelation.
Beräkning
Låt ett urval av storleken n av de simultant fördelade variablerna och för ges av frekvenserna
- antal gånger värdena observerades.
Chi-kvadratstatistiken är då:
där är antalet gånger värdet observeras och är antalet gånger värdet observeras.
Cramérs V beräknas genom att ta kvadratroten av chi-kvadratstatistiken delat med urvalsstorleken och minimimåttet minus 1:
var:
- är phi-koefficienten.
- härleds från Pearsons chi-kvadrattest
- är totalsumman av observationer och
- är antalet kolumner.
- är antalet rader.
P -värdet för signifikansen av V är detsamma som beräknas med Pearsons chi-kvadrattest . [ citat behövs ]
Formeln för variansen av V =φ c är känd.
beräknar funktionen cramerV()
från paketet rcompanion
V med hjälp av chisq.test-funktionen från statistikpaketet. I motsats till funktionen cramersV()
från lsr
-paketet, erbjuder cramerV()
också en möjlighet att korrigera för bias. Den tillämpar korrigeringen som beskrivs i följande avsnitt.
Fördomskorrigering
Cramérs V kan vara en starkt partisk skattare av sin befolkningsmotsvarighet och kommer att tendera att överskatta styrkan i associationen. En bias-korrigering, med användning av ovanstående notation, ges av
var
och
Sedan uppskattar samma populationskvantitet som Cramérs V men med typiskt mycket mindre medelkvadratfel . Skälet för korrigeringen är att under oberoende, .
Se även
Andra mått på korrelation för nominella data:
- phi -koefficienten
- Tschuprows T
- Osäkerhetskoefficienten _
- Lambdakoefficienten _
- Randindex _
- Davies–Bouldin index
- Dunn index
- Jaccard index
- Fowlkes–Mallows index
Andra relaterade artiklar:
externa länkar
- A Measure of Association for Nonparametric Statistics (Alan C. Acock och Gordon R. Stavig Sida 1381 av 1381–1386)
- Nominell förening: Phi och Cramer's Vl [ död länk ] från Pat Dattalos hemsida.