Beställningsstatistik
I statistik är k : te ordningens statistik för ett statistiskt urval lika med dess k: te minsta värde. Tillsammans med rankstatistik är ordningsstatistik bland de mest grundläggande verktygen i icke-parametrisk statistik och slutledning .
Viktiga specialfall av orderstatistiken är det lägsta och högsta värdet av ett prov, och (med vissa kvalifikationer som diskuteras nedan) provmedianen och andra provkvantiler .
När man använder sannolikhetsteori för att analysera orderstatistik för slumpmässiga urval från en kontinuerlig fördelning , används den kumulativa fördelningsfunktionen för att reducera analysen till fallet med orderstatistik för den enhetliga fördelningen .
Notation och exempel
Anta till exempel att fyra siffror observeras eller registreras, vilket resulterar i ett urval av storlek 4. Om urvalsvärdena är
- 6, 9, 3, 8,
orderstatistiken skulle betecknas
där nedsänkningen ( i ) inom parentes indikerar den i:te ordningens statistik för provet.
Första ordningens statistik (eller minsta ordningens statistik ) är alltid minimum av urvalet, det vill säga
där vi, enligt en vanlig konvention, använder versaler för att referera till slumpvariabler, och gemener (enligt ovan) för att referera till deras faktiska observerade värden.
På liknande sätt, för ett urval av storlek n , är n :te ordningens statistik (eller största ordningens statistik ) det maximala , dvs.
Sampelintervallet är skillnaden mellan maximum och minimum . Det är en funktion av orderstatistiken:
En liknande viktig statistik inom explorativ dataanalys som helt enkelt är relaterad till orderstatistiken är det interkvartila urvalet .
Urvalsmedianen kan vara en ordningsstatistik eller inte, eftersom det bara finns ett enda mittvärde när antalet n observationer är udda . Närmare bestämt, om n = 2 m +1 för något heltal m , så är sampelmedianen och så är en ordningsstatistik. Å andra sidan, när n är jämn , n = 2 m och det finns två mittvärden, och , och urvalsmedianen är någon funktion av de två (vanligtvis genomsnittet) och därför inte en ordningsstatistik. Liknande anmärkningar gäller för alla provkvantiler.
Probabilistisk analys
Givet eventuella slumpvariabler X 1 , X 2 ..., X n , är ordningsstatistiken X (1) , X (2) , ..., X ( n ) också slumpvariabler, definierade genom att sortera värdena ( realisationer ) av X1 , ..., Xn i stigande ordning.
När de slumpmässiga variablerna X 1 , X 2 ..., Xn bildar ett urval är de oberoende och identiskt fördelade . Detta är fallet som behandlas nedan. Generellt sett kan de slumpmässiga variablerna X 1 , ..., X n uppstå genom sampling från mer än en population. Sedan är de oberoende , men inte nödvändigtvis identiskt fördelade, och deras gemensamma sannolikhetsfördelning ges av Bapat–Beg-satsen .
Från och med nu kommer vi att anta att de slumpvariabler som övervägs är kontinuerliga och, där det är lämpligt, kommer vi också att anta att de har en sannolikhetstäthetsfunktion (PDF), det vill säga att de är absolut kontinuerliga . Särdragen med analysen av fördelningar som tilldelar massa till poäng (särskilt diskreta fördelningar ) diskuteras i slutet.
Kumulativ fördelningsfunktion för orderstatistik
För ett slumpmässigt urval enligt ovan, med kumulativ fördelning , har orderstatistiken för det urvalet kumulativa fördelningar enligt följande (där r anger vilken orderstatistik):
motsvarande sannolikhetstäthetsfunktion kan härledas från detta resultat och befinns vara det
Dessutom finns det två specialfall, som har CDF:er som är lätta att beräkna.
Vilket kan härledas genom noggrant övervägande av sannolikheter.
Sannolikhetsfördelningar av orderstatistik
Orderstatistik samplad från en enhetlig fördelning
I detta avsnitt visar vi att ordningsstatistiken för den enhetliga fördelningen på enhetsintervallet har marginalfördelningar som tillhör betafördelningsfamiljen . Vi ger också en enkel metod för att härleda den gemensamma distributionen av valfritt antal orderstatistik, och slutligen översätter dessa resultat till godtyckliga kontinuerliga distributioner med hjälp av cdf .
Vi antar genom hela detta avsnitt att är ett slumpmässigt urval från en kontinuerlig fördelning med cdf . Betecknar får vi motsvarande slumpmässiga urval från den enhetliga standardfördelningen . Observera att orderstatistiken även uppfyller .
Sannolikhetstäthetsfunktionen för orderstatistiken är lika med
det vill säga att k: te ordningens statistik för den enhetliga fördelningen är en beta-fördelad slumpvariabel.
Beviset för dessa uttalanden är följande. För att ska vara mellan u och u + du , är det nödvändigt att exakt k − 1 element i urvalet är mindre än u , och att minst ett är mellan u och u + d u . Sannolikheten att mer än en finns i det senare intervallet är redan , så vi måste beräkna sannolikheten för att exakt k − 1, 1 och n − k observationer faller i intervallen , och respektive. Detta är lika med (se multinomial distribution för detaljer)
och resultatet följer.
Medelvärdet för denna fördelning är k / ( n + 1).
Den gemensamma fördelningen av den enhetliga fördelningens orderstatistik
På liknande sätt, för i < j , kan den gemensamma sannolikhetstäthetsfunktionen för tvåordningsstatistiken U ( i ) < U ( j ) visas vara
vilket är (upp till termer av högre ordning än ) sannolikheten att i − 1, 1, j − 1 − i , 1 och n − j sampel element faller i intervallen , , , , respektive.
Man resonerar på ett helt analogt sätt för att härleda de högre ordningens gemensamma fördelningar. Kanske överraskande visar sig den gemensamma tätheten för n -ordningens statistik vara konstant :
Ett sätt att förstå detta är att det oordnade provet har konstant densitet lika med 1, och att det finns n ! olika permutationer av provet som motsvarar samma sekvens av orderstatistik. Detta hänger samman med att 1/ n ! är volymen för regionen . Det är också relaterat till en annan särdrag av ordningsstatistik för enhetliga slumpvariabler: Det följer av BRS -olikheten att det maximala förväntade antalet enhetliga U(0,1] slumpvariabler man kan välja från ett urval av storlek n med en summa upp inte överstiger begränsas ovan av som alltså är invariant på mängden av alla med konstant produkt .
Med hjälp av formlerna ovan kan man härleda fördelningen av intervallet för orderstatistiken, det vill säga fördelningen av , dvs max minus minimum. Mer allmänt, för , har också en betadistribution:
Orderstatistik samplad från en exponentiell fördelning
För ett slumpmässigt urval av storlek n från en exponentialfördelning med parametern λ , orderstatistiken X ( i ) för i = 1, 2,3, ..., n var och en har fördelning
där Zj är iid standardexponentiella slumpvariabler (dvs med hastighetsparameter 1) . Detta resultat publicerades först av Alfréd Rényi .
Orderstatistik samplad från en Erlang-distribution
Laplace -transformeringen av orderstatistik kan samplas från en Erlang-distribution via en vägräkningsmetod [ förtydligande behövs ] .
Den gemensamma fördelningen av orderstatistiken av en absolut kontinuerlig fördelning
Om F X är absolut kontinuerlig , har den en densitet så att , och vi kan använda ersättningarna
och
för att härleda följande sannolikhetstäthetsfunktioner för ordningsstatistiken för ett urval av storlek n från fördelningen av X :
- där
- där
Användning: konfidensintervall för kvantiler
En intressant fråga är hur väl orderstatistiken presterar som estimerare av kvantilerna i den underliggande fördelningen.
Ett exempel i liten provstorlek
Det enklaste fallet att överväga är hur väl urvalsmedianen uppskattar populationsmedianen.
Som ett exempel, betrakta ett slumpmässigt urval av storlek 6. I så fall definieras urvalsmedianen vanligtvis som mittpunkten av intervallet avgränsat av 3:e och 4:e ordningens statistik. Men vi vet från den föregående diskussionen att sannolikheten att detta intervall faktiskt innehåller populationsmedianen är [ förtydligande behövs ]
Även om urvalsmedianen förmodligen är bland de bästa fördelningsoberoende punktuppskattningarna av populationsmedianen, är vad detta exempel illustrerar att det inte är särskilt bra i absoluta tal. I detta speciella fall är ett bättre konfidensintervall för medianen det som avgränsas av 2:a och 5:e ordningens statistik, som innehåller populationsmedianen med sannolikhet
Med en så liten urvalsstorlek, om man vill ha minst 95% konfidens, reduceras man till att säga att medianen ligger mellan minimum och maximum av de 6 observationerna med sannolikhet 31/32 eller ungefär 97%. Storlek 6 är i själva verket den minsta urvalsstorleken så att intervallet som bestäms av minimum och maximum är minst ett 95 % konfidensintervall för populationsmedianen.
Stora provstorlekar
För den likformiga fördelningen, eftersom n tenderar till oändligheten, är den p :te provkvantilen asymptotiskt normalfördelad eftersom den approximeras av
För en allmän fördelning F med en kontinuerlig densitet som inte är noll vid F −1 ( p ), gäller en liknande asymptotisk normalitet:
där f är densitetsfunktionen och F −1 är den kvantilfunktion som är associerad med F. En av de första personerna som nämnde och bevisade detta resultat var Frederick Mosteller i hans framstående artikel 1946. Ytterligare forskning ledde på 1960-talet till Bahadur -representationen som ger information om felgränserna.
En intressant observation kan göras i fallet där fördelningen är symmetrisk och populationsmedianen är lika med populationsmedelvärdet. I det här fallet är stickprovets medelvärde , med centrala gränssatsen , också asymptotiskt normalfördelad, men med varians σ 2 /n istället. Denna asymptotiska analys tyder på att medelvärdet överträffar medianen i fall av låg kurtos och vice versa. Till exempel uppnår medianen bättre konfidensintervall för Laplace-fördelningen , medan medelvärdet presterar bättre för X som är normalfördelade.
Bevis
Det kan man visa
var
där Z i är oberoende identiskt fördelade exponentiella slumpvariabler med hastighet 1. Eftersom X / n och Y / n är asymptotiskt normalfördelade av CLT, följer våra resultat genom tillämpning av deltametoden .
Användning: Icke-parametrisk densitetsuppskattning
Moment av fördelningen för första ordningens statistik kan användas för att utveckla en icke-parametrisk densitetsuppskattare. Antag att vi vill uppskatta densiteten vid punkten . Betrakta de slumpmässiga variablerna , som är iid med fördelningsfunktionen . Speciellt .
Det förväntade värdet för första ordningens statistik givet ett urval av totala observationsavkastningar,
där är kvantilfunktionen associerad med fördelningen , och . Denna ekvation i kombination med en jackknifing -teknik blir grunden för följande densitetsuppskattningsalgoritm,
Indata: Ett urval av observationer. punkter för densitetsutvärdering. Stämningsparameter (vanligtvis 1/3). Utdata: vid utvärderingspunkterna.
1: Set Set 3: Skapa en matris som innehåller delmängder med observationer vardera. 4: Skapa en vektor för att hålla densitetsutvärderingarna. 5: för till 6: för till 7: Hitta närmaste avstånd till den aktuella punkten inom e delmängden 8: slut för 9: Beräkna delmängdens medelvärde av avstånd till 10: Beräkna densitetsuppskattningen vid f ^ { \
I motsats till de bandbredds/längdbaserade avstämningsparametrarna för histogram- och kärnbaserade tillvägagångssätt, är avstämningsparametern för den ordningsstatistiska baserade densitetsuppskattaren storleken på provdelmängder. En sådan estimator är mer robust än histogram- och kärnbaserade tillvägagångssätt, till exempel kan densiteter som Cauchy-fördelningen (som saknar ändliga moment) härledas utan behov av specialiserade modifieringar såsom IQR- baserade bandbredder . Detta beror på att det första momentet i orderstatistiken alltid existerar om det förväntade värdet av den underliggande fördelningen gör det, men det omvända är inte nödvändigtvis sant.
Att hantera diskreta variabler
Antag att är iid slumpvariabler från en diskret fördelning med kumulativ fördelningsfunktion och sannolikhetsmassfunktion . För att hitta sannolikheterna för ordningsstatistiken behövs först tre värden, nämligen
Den kumulativa fördelningsfunktionen för ordningsstatistiken kan beräknas genom att notera att
På liknande sätt ges
Observera att sannolikhetsmassfunktionen för bara är skillnaden mellan dessa värden, det vill säga
Beräkningsorderstatistik
Problemet med att beräkna det k: te minsta (eller största) elementet i en lista kallas urvalsproblemet och löses med en urvalsalgoritm. Även om detta problem är svårt för mycket stora listor, har sofistikerade urvalsalgoritmer skapats som kan lösa detta problem i tid proportionellt mot antalet element i listan, även om listan är helt oordnad. Om data lagras i vissa specialiserade datastrukturer kan denna tid föras ner till O(log n ). I många applikationer krävs all orderstatistik, i vilket fall en sorteringsalgoritm kan användas och tiden det tar är O( n log n ).
Se även
- Rankit
- Box tomt
- BRS-ojämlikhet
- Samtidigt (statistik)
- Fisher–Tippett distribution
- Bapat–Beg-satsen för ordningsstatistiken för oberoende men inte nödvändigtvis identiskt fördelade slumpvariabler
- Bernstein polynom
- L-estimator – linjära kombinationer av orderstatistik
- Rang-storleksfördelning
- Urvalsalgoritm
Exempel på orderstatistik
externa länkar
- Beställningsstatistik hos PlanetMath . Hämtad 2005-02-02
- Weisstein, Eric W. "Orderstatistik" . MathWorld . Hämtad 2005-02-02
- C++-källa Dynamisk orderstatistik