t -statistik
I statistik är t - statistiken förhållandet mellan avvikelsen av det uppskattade värdet för en parameter från dess hypotesvärde till dess standardfel . Det används i hypotestestning via Students t -test . t - statistiken används i ett t -test för att avgöra om nollhypotesen ska stödjas eller förkastas. Det är väldigt likt z-poängen men med skillnaden att t -statistik används när urvalsstorleken är liten eller populationens standardavvikelse är okänd. Till exempel används t -statistiken för att uppskatta populationsmedelvärdet från en urvalsfördelning av urvalsmedelvärden om populationens standardavvikelse är okänd. Det används också tillsammans med p-värde när man kör hypotesprov där p-värdet talar om för oss vad oddsen är för att resultaten ska ha inträffat.
Definition och funktioner
Låt vara en estimator av parametern β i någon statistisk modell . Då är en t -statistik för denna parameter valfri kvantitet av formuläret
0 där β är en icke-slumpmässig, känd konstant, som kan eller kanske inte matchar det faktiska okända parametervärdet β , och är standardfelet för estimatorn för β .
0 Som standard rapporterar statistiska paket t -statistik med 0 β = 0 (dessa t -statistik används för att testa signifikansen av motsvarande regressor). Emellertid, när t -statistik behövs för att testa hypotesen av formen 0 H : β = β 0 , då kan en icke-noll β användas.
0 Om är en vanlig minsta kvadrat- estimator i den klassiska linjära regressionsmodellen (det vill säga med normalfördelade och homoskedastiska feltermer), och om det sanna värdet av parametern β är lika med β , då är samplingsfördelningen av t -statistiken Elevens t -fördelning med ( n − k ) frihetsgrader, där n är antalet observationer och k är antalet regressorer (inklusive skärningen) [ citat behövs ] .
0 är estimatorn konsekvent för β och fördelas asymptotiskt normalt . Om det sanna värdet för parametern β är lika med β , och kvantiteten uppskattar korrekt den asymptotiska variansen för denna estimator, då kommer t -statistiken asymptotiskt att ha standardnormalfördelningen .
I vissa modeller skiljer sig fördelningen av t -statistiken från normalfördelningen, även asymptotiskt. Till exempel, när en tidsserie med en enhetsrot regresseras i det utökade Dickey–Fuller-testet , kommer testets t -statistik asymptotiskt att ha en av Dickey–Fuller-distributionerna (beroende på testinställningen).
Använda sig av
Oftast används t- statistik i Students t -test , en form av statistisk hypotestestning , och vid beräkning av vissa konfidensintervall .
Den viktigaste egenskapen hos t- statistiken är att den är en pivotal kvantitet – även om den definieras i termer av urvalets medelvärde, beror dess urvalsfördelning inte på populationsparametrarna, och därför kan den användas oavsett vad dessa kan vara.
Man kan också dividera en rest med provets standardavvikelse :
för att beräkna en uppskattning av antalet standardavvikelser ett givet urval är från medelvärdet, som en provversion av en z-poäng , z-poängen som kräver populationsparametrarna.
Förutsägelse
Givet en normalfördelning med okänt medelvärde och varians, t - statistiken för en framtida observation efter att man har gjort n observationer, är en sidostatistik – en pivotal storhet (beror inte på värdena för μ och σ 2 ) som är en statistik (beräknad från observationer). Detta gör att man kan beräkna ett frekventistiskt prediktionsintervall (ett prediktivt konfidensintervall ), via följande t-fördelning:
Lösning för ger prediktionsfördelningen
från vilket man kan beräkna prediktiva konfidensintervall – givet en sannolikhet p , kan man beräkna intervall så att 100 p % av tiden kommer nästa observation att falla i det intervallet.
Historia
Termen " t -statistik" är förkortad från "hypotesteststatistik". I statistiken härleddes bakre t-fördelningen först som en fördelning 1876 av Helmert och Lüroth . T-distributionen förekom också i en mer allmän form som Pearson Type IV -distribution i Karl Pearsons tidning från 1895. T-distributionen, även känd som Student's T Distribution, har dock fått sitt namn från William Sealy Gosset som var den första som publicerade resultatet på engelska i sin tidning från 1908 med titeln "The Probable Error of a Mean" (i Biometrika ) med sin pseudonym " Student" eftersom hans arbetsgivare föredrog att deras personal använde pennnamn när de publicerade vetenskapliga artiklar istället för deras riktiga namn, så han använde namnet "Student" för att dölja sin identitet. Gosset arbetade på Guinness Brewery i Dublin , Irland , och var intresserad av problemen med små prover – till exempel de kemiska egenskaperna hos korn där provstorlekarna kan vara så få som 3. Därav en andra version av etymologin för termen Student är att Guinness inte ville att deras konkurrenter skulle veta att de använde t-testet för att fastställa kvaliteten på råvaran. Även om det var William Gosset som termen "Student" är skriven efter, var det faktiskt genom Ronald Fishers arbete som distributionen blev välkänd som "Student's distribution" och " Student's t-test "
Relaterade begrepp
- z -poäng (standardisering) : Om populationsparametrarna är kända kan man istället för att beräkna t-statistiken beräkna z-poängen; analogt, snarare än att använda ett t -test, använder man ett z -test . Detta är sällsynt utanför standardiserade tester .
- Studentiserad residual : I regressionsanalys varierar standardfelen för estimatorerna vid olika datapunkter (jämför mitten mot ändpunkterna för en enkel linjär regression ), och därför måste man dividera de olika residualerna med olika uppskattningar för felet, vilket ger vad som kallas studentiserade rester .
Se även
- F -test
- t 2 -statistik
- Elevens T-fördelning
- Elevens t-test
- Hypotestestning
- Vikt-t- och halv-t-fördelningar
- Chi-kvadratfördelning