Fisher transformation

En graf över transformationen (i orange). Den otransformerade sampelkorrelationskoefficienten plottas på den horisontella axeln och den transformerade koefficienten plottas på den vertikala axeln. Identitetsfunktionen (grå) visas också för jämförelse.

I statistik är Fisher-transformationen ( eller Fisher z -transformationen ) av en Pearson-korrelationskoefficient dess inversa hyperboliska tangent (artanh). När provkorrelationskoefficienten r är nära 1 eller -1 är dess fördelning mycket skev , vilket gör det svårt att uppskatta konfidensintervall och tillämpa signifikanstest för populationskorrelationskoefficienten ρ. Fisher-transformationen löser detta problem genom att ge en variabel vars fördelning är ungefärligen normalfördelad , med en varians som är stabil över olika värden på r .

Definition

Givet en uppsättning av N bivariata sampelpar ( Xi , Y i ), i = 1, …, N , ges provkorrelationskoefficienten r av

Här står kovariansen mellan variablerna och och står för standardavvikelsen för respektive variabel. Fishers z-transformation av r definieras som

där "ln" är den naturliga logaritmfunktionen och "artanh" är den inversa hyperboliska tangentfunktionen .

Om ( X , Y ) har en bivariat normalfördelning med korrelation ρ och paren ( X i , Y i ) är oberoende och identiskt fördelade , så är z ungefär normalfördelad med medelvärde .

och standardfel

där N är urvalsstorleken och ρ är den sanna korrelationskoefficienten.

Denna omvandling och dess invers

kan användas för att konstruera ett stort urvalskonfidensintervall för r med hjälp av standardnormalteori och härledningar. Se även tillämpning på partiell korrelation .

Härledning

Fisher Transformation med och . Illustrerad är den exakta sannolikhetstäthetsfunktionen för (i svart), tillsammans med sannolikhetstäthetsfunktionerna för den vanliga Fisher-transformationen (blå) och den som erhålls genom att inkludera extra termer som beror på ( röd). Den senare approximationen är visuellt omöjlig att skilja från det exakta svaret (dess maximala fel är 0,3 %, jämfört med 3,4 % för grundläggande Fisher).

Hotelling ger en kortfattad härledning av Fisher-transformationen.

För att härleda Fisher-transformationen börjar man med att betrakta en godtyckligt ökande, dubbelt differentierbar funktion av , säg . Att hitta den första termen i den stora expansionen av motsvarande skevhet resulterar i

Att sätta och lösa motsvarande differentialekvation för ger den inversa hyperboliska tangenten funktion.

Om man på liknande sätt expanderar medelvärdet m och varians v för får man

m =

och

v =

respektive.

De extra villkoren är inte en del av den vanliga Fisher-transformationen. För stora värden på och små värden på representerar de en stor förbättring av noggrannheten till minimal kostnad, även om de avsevärt komplicerar beräkningen av inversen – ett uttryck i sluten form är inte tillgängligt . Den nästan konstanta variansen av transformationen är resultatet av att dess skevhet har tagits bort – den faktiska förbättringen uppnås av den senare, inte av de extra termerna. Inklusive de extra termerna, dvs. computing (zm)/v 1/2 , ger:

som har, till en utmärkt approximation, en standardnormalfördelning .

Kalkylator för konfidensbältet av r-kvadratvärden (eller bestämningskoefficient/förklaring eller god passform).

Ansökan

Tillämpningen av Fishers transformation kan förbättras med hjälp av en mjukvarukalkylator som visas i figuren. Om man antar att det hittade r-kvadratvärdet är 0,80, att det finns 30 data [ förtydligande behövs ] och accepterar ett 90% konfidensintervall, kan r-kvadratvärdet i ett annat slumpmässigt urval från samma population variera från 0,588 till 0,921. När r-kvadrat ligger utanför detta intervall anses populationen vara annorlunda. Men om en viss datamängd analyseras med två olika regressionsmodeller medan den första modellen ger r-kvadrat = 0,80 och den andra r-kvadrat är 0,49, kan man dra slutsatsen att den andra modellen är insignifikant eftersom värdet 0,49 är under det kritiska värde 0,588.

Diskussion

Fisher-transformationen är en ungefärlig variansstabiliserande transformation för r när X och Y följer en bivariat normalfördelning. Detta betyder att variansen för z är ungefär konstant för alla värden på populationskorrelationskoefficienten ρ . Utan Fisher-transformationen blir variansen av r mindre som | ρ | kommer närmare 1. Eftersom Fisher-transformationen är ungefär identitetsfunktionen när | r | < 1/2, är det ibland användbart att komma ihåg att variansen för r är väl approximerad med 1/ N så länge som | ρ | är inte för stor och N är inte för liten. Detta är relaterat till det faktum att den asymptotiska variansen av r är 1 för bivariat normaldata.

Beteendet för denna transformation har studerats omfattande sedan Fisher introducerade den 1915. Fisher hittade själv den exakta fördelningen av z för data från en bivariat normalfördelning 1921; Gayen 1951 bestämde den exakta fördelningen av z för data från en bivariat typ A Edgeworth-fördelning. Hotelling 1953 beräknade Taylor-serieuttrycken för momenten av z och flera relaterad statistik och Hawkins upptäckte 1989 den asymptotiska fördelningen av z för data från en fördelning med avgränsade fjärde moment.

Ett alternativ till Fisher-transformationen är att använda den exakta konfidensfördelningstätheten för ρ som ges av

där är den Gaussiska hypergeometriska funktionen och .

Andra användningsområden

Medan Fisher-transformationen huvudsakligen är associerad med Pearsons produkt-moment-korrelationskoefficient för bivariata normala observationer, kan den också tillämpas på Spearmans rangkorrelationskoefficient i mer allmänna fall. Ett liknande resultat för den asymptotiska fördelningen gäller, men med en mindre justeringsfaktor: se den senare artikeln [ förtydligande behövs ] för detaljer.

Se även

  1. ^   Fisher, RA (1915). "Frekvensfördelning av värdena för korrelationskoefficienten i urval av en obegränsat stor population". Biometrika . 10 (4): 507–521. doi : 10.2307/2331838 . hdl : 2440/15166 . JSTOR 2331838 .
  2. ^ Fisher, RA (1921). "Om det 'troliga felet' för en korrelationskoefficient härledd från ett litet urval" ( PDF) . Metron . 1 :3–32.
  3. ^ Rick Wicklin. Fishers transformation av korrelationskoefficienten. 20 september 2017. https://blogs.sas.com/content/iml/2017/09/20/fishers-transformation-correlation.html . Åtkomst 15 februari 2022.
  4. ^   Hotelling, Harold (1953). "Nytt ljus på korrelationskoefficienten och dess transformationer" . Journal of the Royal Statistical Society, Series B (Methodological) . 15 (2): 193–225. doi : 10.1111/j.2517-6161.1953.tb00135.x . ISSN 0035-9246 .
  5. ^    Winterbottom, Alan (1979). "En anteckning om härledningen av Fishers transformation av korrelationskoefficienten" . Den amerikanska statistikern . 33 (3): 142–143. doi : 10.2307/2683819 . ISSN 0003-1305 . JSTOR 2683819 .
  6. ^   Vrbik, Jan (december 2005). "Befolkningsmoment för samplingsfördelningar". Beräkningsstatistik . 20 (4): 611–621. doi : 10.1007/BF02741318 . S2CID 120592303 .
  7. ^ r-kvadraträknare [1]
  8. ^   Gayen, AK (1951). "Frekvensfördelningen av produkt-ögonblickskorrelationskoefficienten i slumpmässiga prov av valfri storlek från icke-normala universum". Biometrika . 38 (1/2): 219–247. doi : 10.1093/biomet/38.1-2.219 . JSTOR 2332329 .
  9. ^   Hotelling, H (1953). "Nytt ljus på korrelationskoefficienten och dess omvandlingar". Journal of the Royal Statistical Society, Series B . 15 (2): 193–225. JSTOR 2983768 .
  10. ^   Hawkins, DL (1989). "Att använda U-statistik för att härleda den asymptotiska fördelningen av Fishers Z-statistik" . Den amerikanska statistikern . 43 (4): 235–237. doi : 10.2307/2685369 . JSTOR 2685369 .
  11. ^    Taraldsen, Gunnar (2021). "Förtroendetätheten för korrelation" . Sankhya A. doi : 10.1007/s13171-021-00267-y . ISSN 0976-8378 . S2CID 244594067 .
  12. ^ Taraldsen, Gunnar (2020). "Förtroende för korrelation" . doi : 10.13140/RG.2.2.23673.49769 . {{ citera journal }} : Citera journal kräver |journal= ( hjälp )
  13. ^   Zar, Jerrold H. (2005). "Spearman Rank Correlation: Översikt". Encyclopedia of Biostatistics . doi : 10.1002/9781118445112.stat05964 . ISBN 9781118445112 .

externa länkar