Minsta chi-kvadratuppskattning

Inom statistik är minimi chi-kvadratuppskattning en metod för uppskattning av icke observerade kvantiteter baserat på observerade data.

I vissa chi-kvadrattest förkastar man en nollhypotes om en populationsfördelning om en specificerad teststatistik är för stor, när den statistiken skulle ha ungefär en chi-kvadratfördelning om nollhypotesen är sann. Vid minsta chi-kvadratuppskattning hittar man värdena på parametrar som gör den teststatistiken så liten som möjligt.

Bland konsekvenserna av dess användning är att teststatistiken faktiskt har ungefär en chi-kvadratfördelning när urvalsstorleken är stor. I allmänhet minskar man antalet frihetsgrader med 1 för varje parameter som uppskattas med denna metod.

Illustration via ett exempel

Antag att en viss slumpvariabel tar värden i uppsättningen av icke-negativa heltal 1, 2, 3, . . . . Ett enkelt slumpmässigt urval av storlek 20 tas, vilket ger följande datamängd. Det är önskvärt att testa nollhypotesen att populationen från vilken detta prov togs följer en Poisson - fördelning .

Den maximala sannolikhetsuppskattningen av befolkningsgenomsnittet är 3,3. Man skulle kunna tillämpa Pearsons chi-kvadrattest av om populationsfördelningen är en Poisson-fördelning med förväntat värde 3,3. Nollhypotesen specificerade dock inte att det var just den Poisson-fördelningen, utan bara att det är någon Poisson-fördelning, och talet 3,3 kom från data, inte från nollhypotesen. En tumregel säger att när en parameter uppskattas minskar man antalet frihetsgrader med 1, i detta fall från 9 (eftersom det finns 10 celler) till 8. Man kan hoppas att den resulterande teststatistiken skulle ha ungefär en chi-kvadratfördelning när nollhypotesen är sann. Det är dock inte i allmänhet fallet när maximal sannolikhetsuppskattning används. Det är dock sant asymptotiskt när minsta chi-kvadratuppskattning används.

Hitta minsta chi-kvadratuppskattning

Minsta chi-kvadratuppskattning av populationens medelvärde λ är talet som minimerar chi-kvadratstatistiken

där a är det uppskattade förväntade antalet i "> 8"-cellen och "20" visas eftersom det är provstorleken. Värdet av a är 20 gånger sannolikheten att en Poisson-fördelad slumpvariabel överstiger 8, och det beräknas lätt som 1 minus summan av sannolikheterna som motsvarar 0 till 8. Med trivial algebra reduceras den sista termen helt enkelt till en . Numerisk beräkning visar att värdet på λ som minimerar chi-kvadratstatistiken är cirka 3,5242. Det är den minsta chi-kvadratskattningen av λ . För det värdet på λ är chi-kvadratstatistiken cirka 3,062764. Det finns 10 celler. Om nollhypotesen hade specificerat en enkel fördelning, snarare än att kräva att λ skulle uppskattas, så skulle nollfördelningen av teststatistiken vara en chi-kvadratfördelning med 10 − 1 = 9 frihetsgrader. Eftersom λ måste uppskattas går ytterligare en frihetsgrad förlorad. Det förväntade värdet för en chi-kvadratslumpvariabel med 8 frihetsgrader är 8. Det observerade värdet, 3,062764, är alltså ganska blygsamt och nollhypotesen förkastas inte.

Anteckningar och referenser

externa länkar