Behrens–Fisher problem

Olöst problem i statistiken :

Är en approximation analog med Fishers argument nödvändig för att lösa Behrens-Fisher-problemet?

I statistiken är Behrens –Fisher-problemet , uppkallat efter Walter Behrens och Ronald Fisher , problemet med intervalluppskattning och hypotestestning som rör skillnaden mellan medelvärdena för två normalfördelade populationer när varianserna för de två populationerna inte antas vara lika , baserat på två oberoende urval.

Specifikation

En svårighet med att diskutera Behrens–Fisher-problemet och föreslagna lösningar är att det finns många olika tolkningar av vad som menas med "Behrens–Fisher-problemet". Dessa skillnader involverar inte bara vad som räknas som en relevant lösning, utan även det grundläggande uttalandet av sammanhanget som beaktas.

Sammanhang

Låt X 1 , ..., X n och Y 1 , ..., Y m vara iidprover från två populationer som båda kommer från samma plats-skala familj av distributioner. Skalparametrarna antas vara okända och inte nödvändigtvis lika, och problemet är att bedöma om platsparametrarna rimligen kan behandlas som lika. Lehmann konstaterar att "Behrens–Fisher-problemet" används både för denna allmänna form av modell när familjen av distributioner är godtycklig och för när begränsningen till en normalfördelning görs. Medan Lehmann diskuterar ett antal tillvägagångssätt för det mer allmänna problemet, huvudsakligen baserat på icke-parametriska, verkar de flesta andra källor använda "Behrens–Fisher-problemet" för att endast referera till det fall där fördelningen antas vara normal: det mesta av denna artikel gör detta antagande.

Krav på lösningar

Lösningar på Behrens-Fisher-problemet har presenterats som använder sig av antingen en klassisk eller en Bayesiansk slutledningssynpunkt och båda lösningarna skulle vara teoretiskt ogiltiga bedömda från den andra synvinkeln. Om hänsyn begränsas till enbart klassisk statistisk slutledning, är det möjligt att söka lösningar på slutledningsproblemet som är enkla att tillämpa i praktisk mening, med företräde åt denna enkelhet framför eventuella felaktigheter i motsvarande sannolikhetssatser. Om det krävs exakta signifikansnivåer för statistiska tester kan det finnas ett ytterligare krav på att proceduren ska utnyttja den statistiska informationen i datamängden maximalt. Det är välkänt att ett exakt test kan erhållas genom att slumpmässigt kassera data från den större datamängden tills urvalsstorlekarna är lika, sammanställa data i par och ta skillnader, och sedan använda ett vanligt t-test för att testa om medelskillnaden är noll: detta skulle helt klart inte vara "optimalt" i någon mening.

Uppgiften att specificera intervalluppskattningar för detta problem är en där ett frekventistiskt tillvägagångssätt inte ger en exakt lösning, även om vissa uppskattningar finns tillgängliga. Standard Bayesianska metoder ger inte heller ett svar som kan uttryckas som enkla enkla formler, men moderna beräkningsmetoder för Bayesiansk analys tillåter i huvudsak exakta lösningar att hittas. [ citat behövs ] Således studie av problemet kan användas för att klargöra skillnaderna mellan de frekventistiska och Bayesianska metoderna för intervalluppskattning.

Översikt över olika tillvägagångssätt

Behrens och Fisher närmar sig

Ronald Fisher introducerade 1935 fiducial inferens för att tillämpa den på detta problem. Han hänvisade till en tidigare artikel av Walter Ulrich Behrens från 1929. Behrens och Fisher föreslog att man skulle hitta sannolikhetsfördelningen för

där och är de två exempelmedelvärdena och s 1 och s 2 är deras standardavvikelser . Se Behrens–Fisher distribution . Fisher approximerade fördelningen av detta genom att ignorera den slumpmässiga variationen av de relativa storlekarna på standardavvikelserna,

Fishers lösning väckte kontroverser eftersom den inte hade egenskapen att hypotesen om lika medel skulle förkastas med sannolikhet α om medlen i själva verket var lika. Många andra metoder för att behandla problemet har föreslagits sedan dess, och effekten på de resulterande konfidensintervallen har undersökts.

Welchs ungefärliga t lösning

En mycket använd metod är den av BL Welch , som liksom Fisher var vid University College London . Variansen av medelskillnaden

resulterar i

Welch (1938) approximerade fördelningen av med Pearson-fördelningen av typ III (en skalad chi-kvadratfördelning ) vars första två moment överensstämmer med den för . Detta gäller för följande antal frihetsgrader (df), som vanligtvis inte är heltal:

Under nollhypotesen om lika förväntningar, μ 1 = μ 2 , kan fördelningen av Behrens–Fisher-statistiken T , som också beror på varianskvoten σ 1 2 / σ 2 2 , nu approximeras med Students t-fördelning med dessa ν grader av frihet. Men detta ν innehåller populationsvarianserna σ i 2 , och dessa är okända. Följande uppskattning ersätter bara populationsvarianserna med urvalsvarianserna:

Denna är en slumpvariabel. En t-fördelning med ett slumpmässigt antal frihetsgrader existerar inte. Ändå kan Behrens–Fisher T jämföras med en motsvarande kvantil av Students t-fördelning med dessa uppskattade antal frihetsgrader, som i allmänhet inte är heltal. På detta sätt beräknas gränsen mellan acceptans- och förkastningsregionen för teststatistiken T baserat på de empiriska varianserna s i 2 , på ett sätt som är en jämn funktion av dessa.

Denna metod ger inte heller exakt den nominella räntan, men ligger i allmänhet inte för långt borta. [ Redigering behövs ] Men om populationsvarianserna är lika, eller om urvalen är ganska små och populationsvarianserna kan antas vara ungefär lika, är det mer korrekt att använda Students t-test . [ citat behövs ]


Exakt metod: Testet

Testet är att ta itu med det berömda Behrens-Fisher-problemet, det vill säga att jämföra skillnaden mellan medelvärdena för två normalfördelade populationer när varianserna för de två populationerna inte antas vara lika, baserat på två oberoende stickprov.

Testet är utvecklat som ett Exakt-test , vilket möjliggör ojämna urvalsstorlekar och ojämna varianser för två populationer. Den exakta egenskapen håller fortfarande även med liten extremt liten och obalanserad urvalsstorlek (t.ex. .

Te-statistiken för att testa om medelvärdena är olika kan beräknas enligt följande:

Låt och vara iid-sampelvektorerna ( ) från och separat.

Låt vara en ortogonal matris vars element i den första raden alla är , på samma sätt, låt vara de första n raderna av en ortogonal matris (vars element i den första raden alla är .

Sedan är en n-dimensionell normal slumpmässig vektor.

Av ovanstående fördelning ser vi det

Andra tillvägagångssätt

Ett antal olika tillvägagångssätt för det allmänna problemet har föreslagits, av vilka några hävdar att de "löser" någon version av problemet. Bland dessa finns,

  • det av Chapman 1950,
  • det av Prokof'yev och Shishkin 1974,
  • det av Dudewicz och Ahmed 1998.
  • det av Chang Wang 2022.

I Dudewiczs jämförelse av utvalda metoder fann man att Dudewicz–Ahmed-proceduren rekommenderas för praktisk användning.

Exakta lösningar på de vanliga och generaliserade Behrens-Fisher-problemen

Under flera decennier trodde man allmänt att det inte fanns någon exakt lösning på det vanliga Behrens-Fisher-problemet. [ citat behövs ] Men det bevisades 1966 att det har en exakt lösning. Under 2018 bevisades sannolikhetstäthetsfunktionen för en generaliserad Behrens–Fisher-fördelning av m medelvärden och m distinkta standardfel från m urval av distinkta storlekar från oberoende normalfördelningar med distinkta medelvärden och varianser och artikeln undersökte också dess asymptotiska approximationer. En uppföljningsrapport visade att det klassiska parade t -testet är ett centralt Behrens–Fisher-problem med en populationskorrelationskoefficient som inte är noll och härledde dess motsvarande sannolikhetstäthetsfunktion genom att lösa dess associerade icke-centrala Behrens–Fisher-problem med en population som inte är noll korrelationskoefficient. Det löste också ett mer allmänt icke-centralt Behrens–Fisher-problem med en populationskorrelationskoefficient som inte var noll i bilagan.

Varianter

En mindre variant av Behrens–Fisher-problemet har studerats. I det här fallet är problemet, om man antar att de två populationsmedlen faktiskt är desamma, att dra slutsatser om det gemensamma medelvärdet: man kan till exempel kräva ett konfidensintervall för det gemensamma medelvärdet.

Generaliseringar

En generalisering av problemet involverar multivariat normalfördelning med okända kovariansmatriser, och är känt som det multivariata Behrens–Fisher-problemet .

Det icke-parametriska Behrens–Fisher-problemet antar inte att fördelningarna är normala. Testerna inkluderar Cucconi-testet 1968 och Lepage-testet 1971.

Anteckningar

  1. ^ Lehmann (1975) s.95
  2. ^ Lehmann (1975) Avsnitt 7
  3. ^ Fisher, RA (1935). "The fiducial argument in statistical inferens". Annals of Eugenics . 8 (4): 391–398. doi : 10.1111/j.1469-1809.1935.tb02120.x . hdl : 2440/15222 .
  4. ^ "RA Fishers fiducial argument och Bayes' sats av Teddy Seidenfeld" (PDF) .
  5. ^ "Sezer, A. et al. Jämförelse av konfidensintervall för Behrens-Fisher Problem Comm. Stats. 2015" .
  6. ^ Welch (1938, 1947)
  7. ^ a b c Wang, Chang (2022). "Ett nytt icke-asymptotiskt t-test för Behrens-Fisher-problem". arXiv : 2210.16473 [ math.ST ].
  8. ^ a b Dudewicz, Ma, Mai och Su (2007)
  9. ^ Chapman, DG (1950). "Några två exempeltester" . Annals of Mathematical Statistics . 21 (4): 601–606. doi : 10.1214/aoms/1177729755 .
  10. ^ Prokof'yev, VN; Shishkin, AD (1974). "Successiv klassificering av normala uppsättningar med okända varianser". Radio Engng. Elektron. Phys . 19 (2): 141–143.
  11. ^ Dudewicz & Ahmed (1998, 1999)
  12. ^   Kabe, DG (december 1966). "Om den exakta fördelningen av Fisher-Behren'-Welch-statistiken". Metrika . 10 (1): 13–15. doi : 10.1007/BF02613414 . S2CID 120965543 .
  13. ^ Xiao, Yongshun (22 mars 2018). "Om lösningen av ett generaliserat Behrens-Fisher-problem" . Far East Journal of Theoretical Statistics . 54 (1): 21–140. doi : 10.17654/TS054010021 . Hämtad 21 maj 2020 .
  14. ^ a b   Xiao, Yongshun (12 december 2018). "Om lösningen av ett icke-centralt Behrens-Fisher-problem med en populationskorrelationskoefficient som inte är noll" . Far East Journal of Theoretical Statistics . 54 (6): 527–600. doi : 10.17654/TS054060527 . S2CID 125245802 . Hämtad 21 maj 2020 .
  15. ^   Young, GA, Smith, RL (2005) Essentials of Statistical Inference , CUP. ISBN 0-521-83971-8 (sida 204)
  16. ^ Belloni & Didier (2008)
  17. ^ Brunner, E. (2000). "Ickeparametriskt Behrens-Fisher-problem: Asymptotisk teori och ett litet provapproximation". Biometrisk tidskrift . 42 : 17–25. doi : 10.1002/(SICI)1521-4036(200001)42:1<17::AID-BIMJ17>3.0.CO;2-U .
  18. ^ Konietschke, Frank (2015). "nparcomp: Ett R-programpaket för icke-parametriska flera jämförelser och samtidiga konfidensintervall" . Journal of Statistical Software . 64 (9). doi : 10.18637/jss.v064.i09 . Hämtad 26 september 2016 .

externa länkar