L-skattare
I statistik är en L-estimator en estimator som är en linjär kombination av ordningsstatistik för mätningarna (vilket också kallas en L-statistik ). Detta kan vara så lite som en enda punkt, som i medianen (av ett udda antal värden), eller så många som alla punkter, som i medelvärdet.
De främsta fördelarna med L-uppskattare är att de ofta är extremt enkla och ofta robusta statistiker : om man antar sorterad data är de mycket lätta att beräkna och tolka och är ofta resistenta mot extremvärden. De är därför användbara i robust statistik, som beskrivande statistik , i statistikundervisning och när beräkning är svår. Men de är ineffektiva , och i modern tid föredras robust statistik M-skattare , även om dessa är mycket svårare beräkningsmässigt. I många fall är L-uppskattningar någorlunda effektiva och därför tillräckliga för initial uppskattning.
Exempel
Ett grundläggande exempel är medianen . Givet n värden , om är udda, är medianen lika med , e ordningens statistik; om är jämnt, är det genomsnittet av två ordningsstatistik: . Dessa är båda linjära kombinationer av orderstatistik, och medianen är därför ett enkelt exempel på en L-skattare.
En mer detaljerad lista med exempel inkluderar: med en enda punkt, maximum, minimum eller valfri statistik eller kvantil för enstaka ordning ; med en eller två punkter, medianen; med två punkter, mid-range , range , midsummary ( trimmad mid-range, inklusive mellangångjärn ) och trimmad range (inklusive interquartile range och interdecile range ); med tre poäng, trimean ; med en fast bråkdel av punkterna, trimmat medelvärde (inklusive interkvartilmedelvärde ) och Winsorized medelvärde ; med alla punkter, medelvärdet.
Observera att vissa av dessa (som median eller mellanintervall) är mått på central tendens , och används som estimerare för en platsparameter , till exempel medelvärdet av en normalfördelning, medan andra (som intervall eller trimmat intervall) är mått på statistisk spridning och används som estimatorer av en skalparameter , såsom standardavvikelsen för en normalfördelning.
L-skattare kan också mäta formen på en fördelning, bortom plats och skala. Till exempel är mittgångjärnet minus medianen en 3-term L-skattare som mäter skevheten, och andra skillnader i midsummaries ger mått på asymmetri vid olika punkter i svansen.
Sample L-moment är L-estimatorer för populationens L-moment och har ganska komplexa uttryck. L-moment behandlas i allmänhet separat; se den artikeln för detaljer.
Robusthet
L-skattare är ofta statistiskt resistenta och har en hög nedbrytningspunkt . Detta definieras som den del av mätningarna som kan ändras godtyckligt utan att den resulterande uppskattningen tenderar till oändlighet (dvs. att "bryta ner"). Nedbrytningspunkten för en L-skattare ges av den statistik som ligger närmast ordningen till minimum eller maximum: till exempel har medianen en nedbrytningspunkt på 50 % (högsta möjliga), och ett n % trimmat eller Winsorized medelvärde har en uppdelning punkt av n %.
Inte alla L-skattare är robusta; om det inkluderar minimum eller maximum, så har det en nedbrytningspunkt på 0. Dessa icke-robusta L-estimatorer inkluderar minimum, maximum, medelvärde och mellanintervall. De trimmade motsvarigheterna är dock robusta.
Robusta L-estimatorer som används för att mäta spridning, såsom IQR, ger robusta mått på skalan .
Ansökningar
I praktisk användning i robust statistik har L-estimatorer ersatts av M-estimatorer , som ger robust statistik som också har hög relativ effektivitet , till priset av att vara mycket mer beräkningsmässigt komplex och ogenomskinlig.
L-skattarens enkelhet gör dock att de är lätta att tolka och visualisera, och gör dem lämpade för beskrivande statistik och statistikundervisning ; många kan till och med beräknas mentalt från en sammanfattning med fem siffror eller sammanfattning med sju siffror, eller visualiseras från en ruta . L-estimatorer spelar en grundläggande roll i många metoder för icke-parametrisk statistik .
Även om de inte är parametriska, används L-uppskattning ofta för parameteruppskattning , vilket indikeras av namnet, även om de ofta måste justeras för att ge en opartisk konsekvent uppskattning . Valet av L-estimator och justering beror på fördelningen vars parameter estimeras.
Till exempel, när man uppskattar en platsparameter , för en symmetrisk fördelning kommer en symmetrisk L-skattare (som median eller mittgångjärn) att vara opartisk. Men om fördelningen har skevhet kommer symmetriska L-skattare i allmänhet att vara partiska och kräva justering. Till exempel, i en skev fördelning, mäter den icke-parametriska skevningen (och Pearsons skevhetskoefficienter ) medianens bias som en estimator av medelvärdet.
När man uppskattar en skalparameter , till exempel när man använder en L-estimator som ett robust skalmått , till exempel för att uppskatta populationsvariansen eller populationens standardavvikelse , måste man generellt multiplicera med en skalfaktor för att göra det till en opartisk konsekvent skattare; se skalparameter: uppskattning .
Till exempel, dividera IQR med (med hjälp av felfunktionen ) gör det till en opartisk, konsekvent skattare för populationens standardavvikelse om data följer en normalfördelning .
L-estimatorer kan också användas som statistik i sig – till exempel är medianen ett mått på plats och IQR är ett mått på spridning. I dessa fall kan urvalsstatistiken fungera som estimerare av sitt eget förväntade värde ; till exempel är urvalsmedianen en skattare av populationsmedianen.
Fördelar
Utöver enkelheten är L-skattare ofta lätta att beräkna och robusta.
Med antagande av sorterade data kan L-uppskattningar som endast involverar ett fåtal punkter beräknas med mycket färre matematiska operationer än effektiva uppskattningar. Före tillkomsten av elektroniska miniräknare och datorer var dessa ett användbart sätt att extrahera mycket av informationen från ett prov med minimalt arbete. Dessa förblev i praktisk användning under början och mitten av 1900-talet, då automatiserad sortering av hålkortsdata var möjlig, men beräkningen förblev svår, och är fortfarande användbar idag, för uppskattningar som ges en lista med numeriska värden i icke maskinläsbar form , där datainmatning är dyrare än manuell sortering. De tillåter också snabb uppskattning.
L-estimatorer är ofta mycket mer robusta än maximalt effektiva konventionella metoder – medianen är maximalt statistiskt resistent , har en 50% nedbrytningspunkt , och det X% trimmade mellanintervallet har en X% nedbrytningspunkt, medan provmedelvärdet (som är maximalt effektiv) är minimalt robust och bryts ner för en enda extremvärde.
Effektivitet
Även om L-estimatorer inte är lika effektiva som annan statistik, har de ofta ganska hög relativ effektivitet och visar att en stor del av informationen som används i uppskattningen kan erhållas med bara några få punkter – så få som en, två eller tre . Alternativt visar de att orderstatistik innehåller en betydande mängd information.
Till exempel, i termer av effektivitet, givet ett urval av en normalfördelad numerisk parameter, kan det aritmetiska medelvärdet (genomsnittet) för populationen uppskattas med maximal effektivitet genom att beräkna urvalets medelvärde – lägga till alla medlemmar i urvalet och dividera med antalet medlemmar.
Men för en stor datamängd (över 100 poäng) från en symmetrisk population kan medelvärdet uppskattas någorlunda effektivt i förhållande till den bästa skattningen av L-skattare. Med hjälp av en enda punkt görs detta genom att ta median , utan några beräkningar som krävs (förutom sortering); detta ger en verkningsgrad på 64 % eller bättre (för alla n ). Med hjälp av två punkter är en enkel uppskattning mittgångjärnet (det 25 % trimmade mellanområdet ), men en mer effektiv uppskattning är det 29 % trimmade mellanområdet, det vill säga ett genomsnitt av de två värdena 29 % av vägen in från det minsta och de största värdena: den 29:e och 71:e percentilen; denna har en verkningsgrad på ca 81%. För tre punkter trimean (genomsnitt av median och mittgångjärn) användas, även om genomsnittet av den 20:e, 50:e och 80:e percentilen ger 88 % effektivitet. Att använda ytterligare poäng ger högre effektivitet, även om det är anmärkningsvärt att endast 3 poäng behövs för mycket hög effektivitet.
För att uppskatta standardavvikelsen för en normalfördelning ger det skalade interdecilintervallet en någorlunda effektiv skattare, men istället tar det 7 % trimmade intervallet (skillnaden mellan 7:e och 93:e percentilen) och dividera med 3 (motsvarande 86 % av data av en normalfördelning som faller inom 1,5 standardavvikelser från medelvärdet) ger en uppskattning av cirka 65 % effektivitet.
För små prover är L-estimatorer också relativt effektiva: mellansumman av den 3:e punkten från varje ände har en effektivitet runt 84 % för prover med storlek cirka 10, och intervallet dividerat med n {\displaystyle {\sqrt {n har ganska bra effektivitet för storlekar upp till 20, även om denna sjunker med ökande n och skalfaktorn kan förbättras (effektivitet 85 % för 10 poäng). Andra heuristiska estimatorer för små sampel inkluderar intervallet över n (för standardfel) och intervallet kvadratiskt över medianen (för chi-kvadraten för en Poisson-fördelning).
Se även
- Evans, Robley Dunglison (1955). Atomkärnan . Internationell serie i ren och tillämpad fysik. McGraw-Hill. sid. 972 . ISBN 0-89874414-8 .
- Fraiman, R.; Meloche, J.; García-Escudero, LA; Gordaliza, A.; Han, X .; Maronna, R.; Yohai, VCJ; Sheather, SJ; McKean, JW; Liten, CG; Wood, A.; Fraiman, R.; Meloche, J. (1999). "Multivariat L-uppskattning". Testa . 8 (2): 255–317. doi : 10.1007/BF02595872 .
- Huber, Peter J. (2004). Robust statistik . New York: Wiley-Interscience. ISBN 0-471-65072-2 .
- Mosteller, Frederick (2006) [1946]. "Om lite användbar "ineffektiv" statistik". I Fienberg, Stephen; Hoaglin, David (red.). Utvalda papper av Frederick Mosteller . Springer-serien i statistik. New York: Springer. s. 69 –100. doi : 10.1007/978-0-387-44956-2_4 . ISBN 978-0-387-20271-6 .
- Shao, juni (2003). Matematisk statistik . Berlin: Springer-Verlag. ISBN 0-387-95382-5 . – sek. 5.2.2
- Velleman, PF; Hoaglin, DC (1981). Tillämpningar, grunder och beräkning av utforskande dataanalys . ISBN 0-87150-409-X .