Fisher transformation
I statistik är Fisher-transformationen ( eller Fisher z -transformationen ) av en Pearson-korrelationskoefficient dess inversa hyperboliska tangent (artanh). När provkorrelationskoefficienten r är nära 1 eller -1 är dess fördelning mycket skev , vilket gör det svårt att uppskatta konfidensintervall och tillämpa signifikanstest för populationskorrelationskoefficienten ρ. Fisher-transformationen löser detta problem genom att ge en variabel vars fördelning är ungefärligen normalfördelad , med en varians som är stabil över olika värden på r .
Definition
Givet en uppsättning av N bivariata sampelpar ( Xi , Y i ), i = 1, …, N , ges provkorrelationskoefficienten r av
Här står kovariansen mellan variablerna och och står för standardavvikelsen för respektive variabel. Fishers z-transformation av r definieras som
där "ln" är den naturliga logaritmfunktionen och "artanh" är den inversa hyperboliska tangentfunktionen .
Om ( X , Y ) har en bivariat normalfördelning med korrelation ρ och paren ( X i , Y i ) är oberoende och identiskt fördelade , så är z ungefär normalfördelad med medelvärde .
och standardfel
där N är urvalsstorleken och ρ är den sanna korrelationskoefficienten.
Denna omvandling och dess invers
kan användas för att konstruera ett stort urvalskonfidensintervall för r med hjälp av standardnormalteori och härledningar. Se även tillämpning på partiell korrelation .
Härledning
Hotelling ger en kortfattad härledning av Fisher-transformationen.
För att härleda Fisher-transformationen börjar man med att betrakta en godtyckligt ökande, dubbelt differentierbar funktion av , säg . Att hitta den första termen i den stora expansionen av motsvarande skevhet resulterar i
Att sätta och lösa motsvarande differentialekvation för ger den inversa hyperboliska tangenten funktion.
Om man på liknande sätt expanderar medelvärdet m och varians v för får man
- m =
och
- v =
respektive.
De extra villkoren är inte en del av den vanliga Fisher-transformationen. För stora värden på och små värden på representerar de en stor förbättring av noggrannheten till minimal kostnad, även om de avsevärt komplicerar beräkningen av inversen – ett uttryck i sluten form är inte tillgängligt . Den nästan konstanta variansen av transformationen är resultatet av att dess skevhet har tagits bort – den faktiska förbättringen uppnås av den senare, inte av de extra termerna. Inklusive de extra termerna, dvs. computing (zm)/v 1/2 , ger:
som har, till en utmärkt approximation, en standardnormalfördelning .
Ansökan
Tillämpningen av Fishers transformation kan förbättras med hjälp av en mjukvarukalkylator som visas i figuren. Om man antar att det hittade r-kvadratvärdet är 0,80, att det finns 30 data [ förtydligande behövs ] och accepterar ett 90% konfidensintervall, kan r-kvadratvärdet i ett annat slumpmässigt urval från samma population variera från 0,588 till 0,921. När r-kvadrat ligger utanför detta intervall anses populationen vara annorlunda. Men om en viss datamängd analyseras med två olika regressionsmodeller medan den första modellen ger r-kvadrat = 0,80 och den andra r-kvadrat är 0,49, kan man dra slutsatsen att den andra modellen är insignifikant eftersom värdet 0,49 är under det kritiska värde 0,588.
Diskussion
Fisher-transformationen är en ungefärlig variansstabiliserande transformation för r när X och Y följer en bivariat normalfördelning. Detta betyder att variansen för z är ungefär konstant för alla värden på populationskorrelationskoefficienten ρ . Utan Fisher-transformationen blir variansen av r mindre som | ρ | kommer närmare 1. Eftersom Fisher-transformationen är ungefär identitetsfunktionen när | r | < 1/2, är det ibland användbart att komma ihåg att variansen för r är väl approximerad med 1/ N så länge som | ρ | är inte för stor och N är inte för liten. Detta är relaterat till det faktum att den asymptotiska variansen av r är 1 för bivariat normaldata.
Beteendet för denna transformation har studerats omfattande sedan Fisher introducerade den 1915. Fisher hittade själv den exakta fördelningen av z för data från en bivariat normalfördelning 1921; Gayen 1951 bestämde den exakta fördelningen av z för data från en bivariat typ A Edgeworth-fördelning. Hotelling 1953 beräknade Taylor-serieuttrycken för momenten av z och flera relaterad statistik och Hawkins upptäckte 1989 den asymptotiska fördelningen av z för data från en fördelning med avgränsade fjärde moment.
Ett alternativ till Fisher-transformationen är att använda den exakta konfidensfördelningstätheten för ρ som ges av
Andra användningsområden
Medan Fisher-transformationen huvudsakligen är associerad med Pearsons produkt-moment-korrelationskoefficient för bivariata normala observationer, kan den också tillämpas på Spearmans rangkorrelationskoefficient i mer allmänna fall. Ett liknande resultat för den asymptotiska fördelningen gäller, men med en mindre justeringsfaktor: se den senare artikeln [ förtydligande behövs ] för detaljer.
Se även
- Datatransformation (statistik)
- Metaanalys (denna transformation används i metaanalys för att stabilisera variansen)
- Partiell korrelation
- Pearson korrelationskoefficient § Inferens
- ^ Fisher, RA (1915). "Frekvensfördelning av värdena för korrelationskoefficienten i urval av en obegränsat stor population". Biometrika . 10 (4): 507–521. doi : 10.2307/2331838 . hdl : 2440/15166 . JSTOR 2331838 .
- ^ Fisher, RA (1921). "Om det 'troliga felet' för en korrelationskoefficient härledd från ett litet urval" ( PDF) . Metron . 1 :3–32.
- ^ Rick Wicklin. Fishers transformation av korrelationskoefficienten. 20 september 2017. https://blogs.sas.com/content/iml/2017/09/20/fishers-transformation-correlation.html . Åtkomst 15 februari 2022.
- ^ Hotelling, Harold (1953). "Nytt ljus på korrelationskoefficienten och dess transformationer" . Journal of the Royal Statistical Society, Series B (Methodological) . 15 (2): 193–225. doi : 10.1111/j.2517-6161.1953.tb00135.x . ISSN 0035-9246 .
- ^ Winterbottom, Alan (1979). "En anteckning om härledningen av Fishers transformation av korrelationskoefficienten" . Den amerikanska statistikern . 33 (3): 142–143. doi : 10.2307/2683819 . ISSN 0003-1305 . JSTOR 2683819 .
- ^ Vrbik, Jan (december 2005). "Befolkningsmoment för samplingsfördelningar". Beräkningsstatistik . 20 (4): 611–621. doi : 10.1007/BF02741318 . S2CID 120592303 .
- ^ r-kvadraträknare [1]
- ^ Gayen, AK (1951). "Frekvensfördelningen av produkt-ögonblickskorrelationskoefficienten i slumpmässiga prov av valfri storlek från icke-normala universum". Biometrika . 38 (1/2): 219–247. doi : 10.1093/biomet/38.1-2.219 . JSTOR 2332329 .
- ^ Hotelling, H (1953). "Nytt ljus på korrelationskoefficienten och dess omvandlingar". Journal of the Royal Statistical Society, Series B . 15 (2): 193–225. JSTOR 2983768 .
- ^ Hawkins, DL (1989). "Att använda U-statistik för att härleda den asymptotiska fördelningen av Fishers Z-statistik" . Den amerikanska statistikern . 43 (4): 235–237. doi : 10.2307/2685369 . JSTOR 2685369 .
- ^ Taraldsen, Gunnar (2021). "Förtroendetätheten för korrelation" . Sankhya A. doi : 10.1007/s13171-021-00267-y . ISSN 0976-8378 . S2CID 244594067 .
-
^
Taraldsen, Gunnar (2020). "Förtroende för korrelation" . doi : 10.13140/RG.2.2.23673.49769 .
{{ citera journal }}
: Citera journal kräver|journal=
( hjälp ) - ^ Zar, Jerrold H. (2005). "Spearman Rank Correlation: Översikt". Encyclopedia of Biostatistics . doi : 10.1002/9781118445112.stat05964 . ISBN 9781118445112 .