Wilks teorem
Inom statistik erbjuder Wilks teorem en asymptotisk fördelning av log-likelihood ratio-statistiken, som kan användas för att producera konfidensintervall för maximal-sannolikhetsuppskattningar eller som en teststatistik för att utföra sannolikhetsförhållandet .
tester (som hypotestestning ) kräver i allmänhet kunskap om teststatistikens sannolikhetsfördelning . Detta är ofta ett problem för sannolikhetskvoter , där sannolikhetsfördelningen kan vara mycket svår att fastställa.
Ett bekvämt resultat av Samuel S. Wilks säger att när urvalsstorleken närmar sig fördelningen av teststatistiken asymptotiskt chi -kvadratfördelningen ( ) under nollhypotesen . Här betecknar sannolikhetsförhållandet , och fördelningen har frihetsgrader lika med skillnaden i dimensionalitet för och , där är hela parameterutrymmet och är delmängden av parameterutrymmet som är associerat med . Detta resultat betyder att för stora urval och en stor variation av hypoteser kan en utövare beräkna sannolikhetsförhållandet för data och jämföra till -värdet som motsvarar en önskad statistisk signifikans som ett ungefärligt statistiskt test.
Satsen gäller inte längre när det sanna värdet av parametern är på gränsen för parameterutrymmet: Wilks sats antar att de "sanna" men okända värdena för de uppskattade parametrarna ligger inom det inre av det understödda parameterutrymmet . I praktiken kommer man att märka problemet om skattningen ligger på den gränsen. I så fall är sannolikhetstestet fortfarande en vettig teststatistik och har till och med vissa asymptotiska optimalitetsegenskaper, men signifikansen (p-värdet) kan inte tillförlitligt uppskattas med hjälp av chi-kvadratfördelningen med antalet frihetsgrader som föreskrivs av Wilks. I vissa fall är statistikens asymptotiska nollhypotesfördelning en blandning av chi-kvadratfördelningar med olika antal frihetsgrader.
Använda sig av
Var och en av de två konkurrerande modellerna, nollmodellen och den alternativa modellen, anpassas separat till data och loggsannolikheten som registreras . Teststatistiken (ofta betecknad med D ) är två gånger logaritmen av sannolikhetsförhållandet, dvs. det är två gånger skillnaden i logsannolikheterna:
Modellen med fler parametrar (här alternativ ) kommer alltid att passa minst lika bra — dvs ha samma eller större log-sannolikhet — än modellen med färre parametrar (här null ). Huruvida passformen är betydligt bättre och därför bör föredras avgörs genom att härleda hur sannolikt ( p -värde ) det är att observera en sådan skillnad D av en slump , om modellen med färre parametrar var sann. Där nollhypotesen representerar ett specialfall av den alternativa hypotesen, sannolikhetsfördelningen för teststatistiken ungefär en chi-kvadratfördelning med frihetsgrader lika med respektive antalet lediga parametrar för modeller alternativ och null .
Till exempel: Om nollmodellen har 1 parameter och en log-sannolikhet på -8024 och den alternativa modellen har 3 parametrar och en log-sannolikhet på -8012, så är sannolikheten för denna skillnad den för ett chi-kvadratvärde på med frihetsgrader, och är lika med . Vissa antaganden måste uppfyllas för att statistiken ska följa en chi-kvadratfördelning , men empiriska p -värden kan också beräknas om dessa villkor inte är uppfyllda.
Exempel
Myntkastning
Ett exempel på Pearsons test är en jämförelse av två mynt för att avgöra om de har samma sannolikhet att komma upp. Observationerna kan läggas in i en beredskapstabell med rader som motsvarar myntet och kolumner som motsvarar huvuden eller svansarna. Beståndsdelarna i beredskapstabellen kommer att vara antalet gånger varje mynt kom upp med huvudet eller svansen. Innehållet i denna tabell är våra observationer X .
Här består Θ av de möjliga kombinationerna av värden för parametrarna , , , och som är sannolikheten för att mynt 1 och 2 kommer upp i huvuden eller svansar. I det följande är och . Hypotesutrymmet H begränsas av de vanliga begränsningarna för en sannolikhetsfördelning, , och . Utrymmet för nollhypotesen är delrummet där . Dimensionaliteten för hela parameterutrymmet Θ är 2 (endera av och endera av kan behandlas som fria parametrar enligt hypotesen ), och dimensionaliteten för är 1 (endast en av kan betraktas som en fri parameter under nollhypotesen ).
Genom att skriva för de bästa uppskattningarna av under hypotesen H , ges den maximala sannolikhetsuppskattningen av
ges de maximala sannolikhetsuppskattningarna för under nollhypotesen
som inte beror på myntet i .
Hypotesen och nollhypotesen kan skrivas om något så att de uppfyller begränsningarna för att logaritmen för sannolikhetsförhållandet ska ha den önskade fördelningen. Eftersom begränsningen gör att det tvådimensionella H reduceras till det endimensionella , blir den asymptotiska fördelningen för testet , fördelningen med en frihetsgrad.
För den allmänna beredskapstabellen kan vi skriva log-likelihood ratio-statistiken som
Ogiltighet för modeller med slumpmässiga eller blandade effekter
Wilks sats antar att de sanna men okända värdena för de uppskattade parametrarna finns i det inre av parameterutrymmet . Detta bryts ofta i modeller med slumpmässiga eller blandade effekter , till exempel när en av varianskomponenterna är försumbar i förhållande till de andra. I vissa sådana fall kan en varianskomponent vara noll i förhållande till de andra, eller i andra fall kan modellerna vara felaktigt kapslade.
För att vara tydlig: Dessa begränsningar av Wilks' teorem förnekar inte några effektegenskaper hos ett visst sannolikhetsförhållandetest. Det enda problemet är att en -fördelning ibland är ett dåligt val för att uppskatta den statistiska signifikansen för resultatet.
Dåliga exempel
Pinheiro och Bates (2000) visade att den sanna fördelningen av denna sannolikhetsförhållande chi-kvadratstatistik kan skilja sig väsentligt från den naiva – ofta dramatiskt. De naiva antagandena skulle kunna ge signifikanssannolikheter ( p -värden) som i genomsnitt är alldeles för stora i vissa fall och alldeles för små i andra.
I allmänhet, för att testa slumpmässiga effekter, rekommenderar de att man använder Restricted Maximal likelihood (REML). För testning av fasta effekter, säger de, "ett sannolikhetsförhållandetest för REML-passningar är inte genomförbart", eftersom att ändra specifikationen för fasta effekter ändrar innebörden av de blandade effekterna, och den begränsade modellen är därför inte kapslad i den större modellen. Som en demonstration satte de antingen en eller två slumpmässiga effektvarianser till noll i simulerade tester. I de specifika exemplen matchade de simulerade p -värdena med k- restriktioner närmast en 50–50-blandning av och . (Med k = 1 , 0 med sannolikhet 1. Det betyder att en bra approximation var )
Pinheiro och Bates simulerade också tester av olika fasta effekter. I ett test av en faktor med 4 nivåer ( frihetsgrader = 3) fann de att en 50–50 blandning av och var en bra matchning för faktiska p -värden erhållna genom simulering – och felet i att använda den naiva "kanske inte är för alarmerande."
Men i ett annat test av en faktor med 15 nivåer fann de en rimlig matchning till – 4 fler frihetsgrader än de 14 som man skulle få från en naiv (olämplig) tillämpning av Wilks' teorem, och det simulerade p -värdet var flera gånger det naiva . De drar slutsatsen att för att testa fasta effekter "är det klokt att använda simulering."
Se även
Anteckningar
Andra källor
- Casella, George; Berger, Roger L. (2001). Statistical Inference (andra upplagan). ISBN 0-534-24312-6 .
- Humör, AM; Graybill, FA (1963). Introduktion till teorin om statistik (2:a uppl.). McGraw-Hill. ISBN 978-0070428638 .
- Cox, DR; Hinkley, DV (1974). Teoretisk statistik . Chapman och Hall. ISBN 0-412-12420-3 .
- Stuart, A.; Ord, K.; Arnold, S. (1999). Kendalls avancerade teori om statistik . Vol. 2A. London: Arnold . ISBN 978-0-340-66230-4 .