Krympning (statistik)
I statistiken är krympning minskningen av effekterna av provtagningsvariation . I regressionsanalys tycks en anpassad relation fungera mindre bra på en ny datamängd än på datamängden som används för anpassning. Särskilt värdet av bestämningskoefficienten "krymper". Denna idé är komplementär till överanpassning och, separat, till standardjusteringen som görs i bestämningskoefficienten för att kompensera för de konjunktiva effekterna av ytterligare provtagning, som att kontrollera potentialen för nya förklarande termer som förbättrar modellen av en slump: det vill säga justeringen formeln i sig ger "krympning". Men justeringsformeln ger en konstgjord krympning.
En krympningsuppskattare är en skattare som, antingen explicit eller implicit, inkorporerar effekterna av krympning. I lösa ordalag betyder detta att en naiv eller rå skattning förbättras genom att den kombineras med annan information. Termen hänför sig till uppfattningen att den förbättrade skattningen görs närmare det värde som tillhandahålls av den "övriga informationen" än den råa skattningen. I denna mening används krympning för att reglera illa ställda slutledningsproblem .
Krympning är implicit i Bayesiansk slutledning och straffad sannolikhetsinferens, och explicit i slutledning av James-Stein -typ. Däremot inkluderar enkla typer av förfaranden för uppskattning av maximal sannolikhet och minsta kvadrater inte krympningseffekter, även om de kan användas inom system för uppskattning av krympning.
Beskrivning
Många standarduppskattare kan förbättras , i termer av medelkvadratfel (MSE), genom att krympa dem mot noll (eller något annat fast konstant värde). Med andra ord kan förbättringen av uppskattningen från motsvarande minskning av bredden på konfidensintervallet uppväga försämringen av uppskattningen som införts genom att vrida uppskattningen mot noll (se avvägning mellan bias-varians ) .
Antag att det förväntade värdet för råuppskattningen inte är noll och överväg andra uppskattningar som erhålls genom att multiplicera råuppskattningen med en viss parameter. Ett värde för denna parameter kan anges för att minimera MSE för den nya uppskattningen. För detta värde på parametern kommer den nya uppskattningen att ha en mindre MSE än den råa. Den har alltså förbättrats. En effekt här kan vara att konvertera en opartisk råuppskattning till en förbättrad partisk.
Exempel
Ett välkänt exempel uppstår vid uppskattningen av populationsvariansen efter provvarians . För en urvalsstorlek på n ger användningen av en divisor n − 1 i den vanliga formeln ( Bessels korrigering ) en opartisk estimator, medan andra divisorer har lägre MSE, på bekostnad av bias. Det optimala valet av divisor (viktning av krympning) beror på överskottet av kurtos hos populationen, som diskuterats vid medelkvadratfel: varians , men man kan alltid göra bättre (i termer av MSE) än den opartiska skattaren; för normalfördelningen ger en divisor på n + 1 en som har minsta medelkvadratfel.
Metoder
Typer av regression som involverar krympningsuppskattningar inkluderar åsregression , där koefficienter härledda från en regelbunden minsta kvadraters regression förs närmare noll genom att multiplicera med en konstant (krympningsfaktorn ), och lassoregression , där koefficienter förs närmare noll genom att addera eller subtrahera en konstant.
Användningen av krympningsestimatorer i samband med regressionsanalys, där det kan finnas ett stort antal förklaringsvariabler, har beskrivits av Copas. Här krymps värdena för de uppskattade regressionskoefficienterna mot noll med effekten av att reducera medelkvadratfelet för predikterade värden från modellen när de tillämpas på nya data. En senare artikel av Copas tillämpar krympning i ett sammanhang där problemet är att förutsäga ett binärt svar på basis av binära förklarande variabler.
Hausser och Strimmer "utvecklar en krympningsuppskattning av James-Stein-typ, vilket resulterar i en procedur som är mycket effektiv både statistiskt och beräkningsmässigt. Trots sin enkelhet överträffar den åtta andra entropiuppskattningsprocedurer i en mängd olika urvalsscenarier och datagenererande modeller, även i fall av allvarlig undersampling. ...metoden är helt analytisk och därmed beräkningsmässigt billig. Dessutom ger ...proceduren samtidigt uppskattningar av entropin och av cellfrekvenserna. ...De föreslagna krympningsuppskattningarna av entropi och ömsesidig information, såväl som alla andra undersökta entropiuppskattare, har implementerats i R (R Development Core Team, 2008) Ett motsvarande R-paket "entropy" deponerades i R-arkivet CRAN och är tillgängligt på URL:en https : //cran.r-project.org/web/packages/entropy/ under GNU General Public License."
Se även
- Additiv utjämning
- Boosting (maskininlärning)
- Chapman estimator
- Huvudkomponentregression
- Regularisering (matematik)
- Krympuppskattning vid uppskattning av kovariansmatriser
- Steins exempel
- Tikhonov regularisering
Statistisk programvara
- Hausser, Jean. "entropi" . entropipaket för R . Hämtad 2013-03-23 .