Punkt-biseriell korrelationskoefficient
Punktbiserialkorrelationskoefficienten ( r pb ) är en korrelationskoefficient som används när en variabel (t.ex. Y ) är dikotom ; Y kan antingen vara "naturligt" dikotom, som om ett mynt landar huvuden eller svansar, eller en artificiellt dikotomiserad variabel. I de flesta situationer är det inte tillrådligt att dikotomisera variabler på konstgjord väg. När en ny variabel är artificiellt dikotomerad kan den nya dikotoma variabeln begreppsmässigt ha en underliggande kontinuitet. Om så är fallet skulle en biseriell korrelation vara den mer lämpliga beräkningen.
Punkt-biseriell korrelation är matematiskt ekvivalent med Pearson (produktmoment) korrelationen ; det vill säga om vi har en kontinuerligt uppmätt variabel X och en dikotom variabel Y , r XY = r pb . Detta kan visas genom att tilldela två distinkta numeriska värden till den dikotoma variabeln.
Beräkning
För att beräkna r pb , antag att den dikotomiska variabeln Y har de två värdena 0 och 1. Om vi delar upp datamängden i två grupper, grupp 1 som fick värdet "1" på Y och grupp 2 som fick värdet "0" på Y beräknas punkt-biseriell korrelationskoefficient enligt följande:
där s n är standardavvikelsen som används när data är tillgängliga för varje medlem av befolkningen:
00 M1 är medelvärdet på den kontinuerliga variabeln X för alla datapunkter i grupp 1, och M medelvärdet på den kontinuerliga variabeln X för alla datapunkter i grupp 2. Vidare är n 1 antalet datapunkter i grupp 1 , n är antalet datapunkter i grupp 2 och n är den totala urvalsstorleken. Denna formel är en beräkningsformel som har härletts från formeln för r XY för att minska stegen i beräkningen; det är lättare att beräkna än r XY .
Det finns en ekvivalent formel som använder s n −1 :
där s n −1 är standardavvikelsen som används när data endast är tillgängliga för ett urval av populationen:
Den version av formeln som använder s n −1 är användbar om man beräknar punkt-biseriell korrelationskoefficienter i ett programmeringsspråk eller annan utvecklingsmiljö där det finns en funktion tillgänglig för att beräkna s n −1 , men ingen funktion tillgänglig för att beräkna s n .
Glass och Hopkins bok Statistical Methods in Education and Psychology , (3rd Edition) innehåller en korrekt version av punkt biserial formel.
Även kvadraten på punktens biserialkorrelationskoefficient kan skrivas:
Vi kan testa nollhypotesen att korrelationen är noll i populationen. En liten algebra visar att den vanliga formeln för att bedöma signifikansen av en korrelationskoefficient, när den tillämpas på r pb , är densamma som formeln för ett oparat t - test och så
0 följer Students t-fördelning med ( n 1 + n − 2) frihetsgrader när nollhypotesen är sann.
En nackdel med punktbiserialkoefficienten är att ju längre fördelningen av Y är från 50/50, desto mer begränsat kommer värdeintervallet som koefficienten kan ta. Om X kan antas vara normalfördelad, ges ett bättre beskrivande index av biserialkoefficienten
0 där u är ordinatan för normalfördelningen med nollmedelvärde och enhetsvarians i den punkt som delar upp fördelningen i proportionerna n / n och n 1 / n . Detta är inte lätt att beräkna, och biserialkoefficienten används inte i stor utsträckning i praktiken.
Ett specifikt fall av biseriell korrelation inträffar där X är summan av ett antal dikotoma variabler varav Y är en. Ett exempel på detta är där X är en persons totala poäng på ett test som består av n dikotomt poängsatta poster. En statistik av intresse (som är ett diskrimineringsindex) är korrelationen mellan svar på ett givet objekt och motsvarande totala testresultat. Det finns tre beräkningar i stor användning, alla kallade punkt-biseriell korrelation : (i) Pearson-korrelationen mellan objektpoäng och totala testresultat inklusive objektpoängen, (ii) Pearson-korrelationen mellan objektpoäng och totala testresultat exklusive objektet poäng, och (iii) en korrelation justerad för bias orsakad av inkluderingen av punktpoäng i testresultaten. Korrelation (iii) är
0 En något annorlunda version av punktbiserialkoefficienten är rangbiserialen som uppstår där variabeln X består av rangord medan Y är dikotom. Vi skulle kunna beräkna koefficienten på samma sätt som där X är kontinuerlig men det skulle ha samma nackdel att värdeintervallet det kan anta blir mer begränsat när fördelningen av Y blir mer ojämn. För att komma runt detta noterar vi att koefficienten kommer att ha sitt största värde där de minsta rankorna alla är mitt emot 0:orna och de största raden är motsatta 1:orna. Dess minsta värde inträffar där det omvända är fallet. Dessa värden är plus respektive minus ( n 1 + n )/2. Vi kan därför använda den reciproka av detta värde för att skala om skillnaden mellan de observerade medelvärdena till intervallet från plus ett till minus ett. Resultatet är
0 där M 1 respektive M är medelvärdena för rangorden som motsvarar 1- och 0-poängen för den dikotoma variabeln. Denna formel, som förenklar beräkningen från räkning av överenskommelser och inversioner, beror på Gene V Glass (1966).
Det är möjligt att använda detta för att testa nollhypotesen om nollkorrelation i populationen från vilken provet togs. Om r rb beräknas enligt ovan så är den minsta av
och
0 fördelas som Mann–Whitney U med urvalsstorlekarna n 1 och n när nollhypotesen är sann.
Anteckningar
- MacCallum Robert C. et alla psykologiska metoder. 2002, vol. 7, nr 1, 49-40
externa länkar
- Point Biserial Coefficient (Keith Calkins, 2005)