Hodges–Lehmann estimator
I statistik är Hodges –Lehmann-estimatorn en robust och icke-parametrisk skattare av en populations platsparameter . För populationer som är symmetriska kring en median , såsom den (Gaussiska) normalfördelningen eller Student t -fördelningen, är Hodges–Lehmann-estimatorn en konsekvent och median-opartisk uppskattning av populationsmedianen. För icke-symmetriska populationer uppskattar Hodges-Lehmann-estimatorn " pseudo-medianen ", som är nära relaterad till populationsmedianen.
Hodges–Lehmann-estimatorn föreslogs ursprungligen för att uppskatta platsparametern för endimensionella populationer, men den har använts för många fler syften. Den har använts för att uppskatta skillnaderna mellan medlemmarna i två populationer. Det har generaliserats från univariata populationer till multivariata populationer , som producerar prover av vektorer .
Den är baserad på Wilcoxon signed-rank statistic . Inom statistisk teori var det ett tidigt exempel på en rangbaserad estimator, en viktig klass av estimatorer både i icke-parametrisk statistik och i robust statistik. Hodges-Lehmann-skattaren föreslogs 1963 oberoende av Pranab Kumar Sen och av Joseph Hodges och Erich Lehmann , och så kallas den också " Hodges-Lehmann-Sen-skattaren" .
Definition
I det enklaste fallet uppskattar "Hodges–Lehmann"-statistiken platsparametern för en univariat population. Dess beräkning kan beskrivas snabbt. För en datauppsättning med n mätningar har uppsättningen av alla möjliga två-elements delmängder av den n ( n - 1)/2 element. För varje sådan delmängd beräknas medelvärdet; definieras medianen för dessa n ( n - 1)/2 medelvärden att vara Hodges-Lehmann-estimatorn för lokalisering.
Hodges–Lehmann-statistiken uppskattar också skillnaden mellan två populationer. För två uppsättningar data med m och n observationer är uppsättningen av två-elementuppsättningar gjorda av dem deras kartesiska produkt, som innehåller m × n par av punkter (en från varje uppsättning); varje sådant par definierar en skillnad av värden. Hodges–Lehmann-statistiken är medianen för m × n skillnader.
Uppskattning av populationsmedianen för en symmetrisk population
För en population som är symmetrisk uppskattar Hodges–Lehmann-statistiken populationens median. Det är en robust statistik som har en nedbrytningspunkt på 0,29, vilket innebär att statistiken förblir begränsad även om nästan 30 procent av datan har kontaminerats. Denna robusthet är en viktig fördel gentemot provmedelvärdet, som har en nollgenombrottspunkt, är proportionell mot varje enskild observation och därför riskerar att bli vilseledd av ens en extremvärde . Provmedianen och har en nedbrytningspunkt på 0,50. Hodges–Lehmann-estimatorn är också mycket bättre än stickprovets medelvärde när man uppskattar blandningar av normalfördelningar.
För symmetriska fördelningar har Hodges–Lehmann-statistiken större effektivitet än provmedianen. För normalfördelningen är Hodges-Lehmann-statistiken nästan lika effektiv som urvalets medelvärde. För Cauchy-fördelningen (Student-t-fördelning med en frihetsgrad) är Hodges-Lehmann oändligt mycket effektivare än urvalsmedelvärdet, vilket inte är en konsekvent skattare av medianen.
För icke-symmetriska populationer uppskattar Hodges-Lehmann-statistiken populationens "pseudo-median", en platsparameter som är nära relaterad till medianen . Skillnaden mellan median och pseudomedian är relativt liten, så denna distinktion försummas i elementära diskussioner. Liksom den rumsliga medianen är pseudomedianen väldefinierad för alla distributioner av slumpvariabler med dimension två eller större; för endimensionella distributioner finns det någon pseudo-median, som dock inte behöver vara unik. Liksom medianen definieras pseudo-medianen för även tungsvansfördelningar som saknar något (ändligt) medelvärde .
Hodges–Lehmann-statistiken med ett urval behöver inte uppskatta något populationsmedelvärde, vilket för många distributioner inte existerar. Hodges–Lehmann-estimatorn med två urval behöver inte uppskatta skillnaden mellan två medelvärden eller skillnaden mellan två (pseudo-)medianer; snarare uppskattar den skillnaderna mellan populationen av de parade slumpvariablerna från respektive populationer.
I allmän statistik
Hodges–Lehmanns univariatstatistik har flera generaliseringar i multivariatstatistik :
- Multivariata rangord och tecken
- Spatala teckentest och rumsliga medianer
- Spatial signed-rank tests
- Jämförelser av tester och uppskattningar
- Flera exempel på platsproblem
Se även
Anteckningar
- Everitt, BS (2002) Cambridge Dictionary of Statistics , CUP. ISBN 0-521-81099-X
- Hettmansperger, T. P.; McKean, J.W. (1998). Robusta icke-parametriska statistiska metoder . Kendall's Library of Statistics. Vol. 5 (Första upplagan, snarare än Taylor och Francis (2010) andra upplagan). London; New York: Edward Arnold; John Wiley and Sons, Inc. s. xiv+467. ISBN 0-340-54937-8 . MR 1604954 .
- Hodges, J.L.; Lehmann, E.L. (1963). "Uppskattning av plats baserat på rangordningar" . Annals of Mathematical Statistics . 34 (2): 598–611. doi : 10.1214/aoms/1177704172 . JSTOR 2238406 . MR 0152070 . Zbl 0203.21105 . PE euclid.aoms/1177704172 .
- Lehmann, Erich L. (2006). Nonparametrics: Statistiska metoder baserade på rangordningar . Med särskild hjälp av H. J. M. D'Abrera (Reprinting of 1988 revision of 1975 Holden-Day ed.). New York: Springer. s. xvi+463. ISBN 978-0-387-35212-1 . MR 0395032 .
- Oja, Hannu (2010). Multivariata icke-parametriska metoder med R : Ett tillvägagångssätt baserat på rumsliga tecken och rangordningar . Föreläsningsanteckningar i statistik. Vol. 199. New York: Springer. s. xiv+232. doi : 10.1007/978-1-4419-0468-3 . ISBN 978-1-4419-0467-6 . MR 2598854 .
- Sen, Pranab Kumar (december 1963). "Om uppskattning av relativ styrka i utspädnings(-direkt) analyser med distributionsfria metoder". Biometri . 19 (4): 532–552. doi : 10.2307/2527532 . JSTOR 2527532 . Zbl 0119.15604 .