Prov max och minimum
Inom statistik är urvalsmaximum och urvalsminimum, även kallade den största observationen och den minsta observationen, värdena för de största och minsta elementen i ett urval . De är grundläggande sammanfattningsstatistik , som används i beskrivande statistik som femsiffrig sammanfattning och Bowleys sjusiffriga sammanfattning och tillhörande boxplot .
Minsta och högsta värde är den första och sista orderstatistiken (ofta betecknad med X (1) respektive X ( n ) för en urvalsstorlek på n ).
Om provet har extremvärden , måste de nödvändigtvis inkludera provets maximum eller sample minimum, eller båda, beroende på om de är extremt höga eller låga. Provets maximum och minimum behöver dock inte vara extremvärden, om de inte är ovanligt långt från andra observationer.
Robusthet
Provets maximum och minimum är den minst robusta statistiken : de är maximalt känsliga för extremvärden.
Detta kan antingen vara en fördel eller en nackdel: om extrema värden är verkliga (inte mätfel) och av verklig konsekvens, som i tillämpningar av extremvärdesteori som att bygga vallar eller ekonomisk förlust, då extremvärden (som återspeglas i provextrema) är viktigt. Å andra sidan, om extremvärden har liten eller ingen inverkan på faktiska utfall, då använder icke-robust statistik som exempelextrema helt enkelt statistiken, och robusta alternativ bör användas, såsom andra kvantiler: 10:e och 90 : e percentilen ( första och sista decilen ) är mer robusta alternativ.
Härledd statistik
Förutom att vara en komponent i varje statistik som använder alla element i urvalet, är urvalets extrema viktiga delar av intervallet , ett mått på spridning och mellanintervall , ett mått på plats. De inser också den maximala absoluta avvikelsen : en av dem är den punkt som ligger längst bort från en given punkt, särskilt ett mått på mitten som median eller medelvärde.
Ansökningar
Smidigt max
För en provuppsättning är den maximala funktionen icke-slät och därmed icke-differentieringsbar. För optimeringsproblem som uppstår i statistik behöver det ofta approximeras av en smidig funktion som är nära maxvärdet för uppsättningen.
Ett jämnt maximum t.ex.
- g ( x 1 , x 2 , …, x n ) = log( exp( x 1 ) + exp( x 2 ) + … + exp( x n ) )
är en bra approximation av provets maximum.
Sammanfattande statistik
Provets maximum och minimum är grundläggande sammanfattande statistik , som visar de mest extrema observationerna, och används i femnummersammanfattningen och en version av sjunummersammanfattningen och den tillhörande boxplotten .
Förutsägelseintervall
Urvalets maximum och minimum ger ett icke-parametriskt prediktionsintervall : i ett urval från en population, eller mer allmänt en utbytbar sekvens av slumpvariabler, är varje observation lika sannolikt att vara maximum eller minimum.
Så om man har ett prov och man väljer en annan observation då har detta sannolikhet att vara det största värdet hittills, sannolikhet att vara det minsta värdet hittills, och därmed den andra för tiden , faller mellan sampelmaximum och sampelminimum av Betecknar alltså provets maximum och minimum med M och m, ger detta en prediktionsintervall på [ m , M ].
Till exempel, om n = 19, då ger [ m , M ] ett 18/20 = 90 % förutsägelseintervall – 90 % av tiden, den 20:e observationen hamnar mellan den minsta och största observationen som setts hittills. På samma sätt n = 39 ett 95 % prediktionsintervall och n = 199 ger ett 99 % prediktionsintervall.
Uppskattning
På grund av deras känslighet för extremvärden kan provextrema inte på ett tillförlitligt sätt användas som estimatorer om inte data är rena – robusta alternativ inkluderar den första och sista decilen .
Men med rena data eller i teoretiska inställningar kan de ibland visa sig vara mycket bra estimatorer, särskilt för platykurtiska distributioner, där för små datamängder är mellanintervallet den mest effektiva estimatorn.
De är dock ineffektiva estimatorer av lokalisering för mesokurtiska distributioner, såsom normalfördelningen och leptokurtiska distributioner.
Jämn fördelning
provtagning utan ersättning från en enhetlig fördelning med en eller två okända slutpunkter (så med N okänd, eller med både M och N okända), provmaximum, respektive provmaximum och sampelminimum, är tillräcklig och fullständig statistik för de okända slutpunkterna; sålunda kommer en opartisk estimator härledd från dessa att vara UMVU- estimator.
Om endast den översta ändpunkten är okänd är urvalsmaximum en partisk estimator för populationsmaximum, men den opartiska estimatorn (där m är stickprovets maximum och k är provstorleken) är UMVU-estimatorn; se tyska tankproblem för detaljer.
Om båda ändpunkterna är okända, är urvalsintervallet en partisk estimator för populationsintervallet, men korrigering som för maximum ovan ger UMVU-estimatorn.
Om båda ändpunkterna är okända, är mellanintervallet en opartisk (och därmed UMVU) skattare av intervallets mittpunkt (här motsvarande populationsmedian, medelvärde eller mellanintervall).
Anledningen till att urvalsextrema är tillräcklig statistik är att den villkorliga fördelningen av de icke-extrema proven bara är fördelningen för det enhetliga intervallet mellan provets maximum och minimum – när ändpunkterna är fixerade lägger värdena för de inre punkterna ingen ytterligare information till. .
Normalitetstestning
Provextrema kan användas för ett enkelt normalitetstest , specifikt för kurtosis: man beräknar t-statistiken för provets maximum och minimum (subtraherar provmedelvärde och dividerar med provets standardavvikelse ), och om de är ovanligt stora för provet storlek (enligt tre sigma-regeln och tabellen däri, eller mer exakt en Students t-fördelning ), så avviker kurtosen för provfördelningen signifikant från normalfördelningen.
Till exempel bör en daglig process förvänta sig en 3σ-händelse en gång per år (med kalenderdagar; en gång varje och ett halvt år av arbetsdagar), medan en 4σ-händelse inträffar i genomsnitt vart 40:e år av kalenderdagar, 60 år av arbetsdagar ( en gång i livet), 5σ händelser inträffar vart 5000:e år (en gång i nedtecknad historia), och 6σ händelser händer var 1,5 miljon år (i princip aldrig). Om provextrema är 6 sigma från medelvärdet har man således ett signifikant normalitetsfel.
Vidare är detta test mycket lätt att kommunicera utan inblandad statistik.
Dessa normalitetstester kan tillämpas om man till exempel löper risk för kurtos .
Extremvärdesteori
Exempelextrema spelar två huvudroller i extremvärdesteorin :
- för det första ger de en nedre gräns för extrema händelser – händelser kan vara åtminstone så här extrema, och för detta storleksurval;
- för det andra kan de ibland användas i beräkningar av sannolikheten för mer extrema händelser.
Försiktighet måste dock iakttas när man använder provextrema som riktlinjer: i kraftiga svansfördelningar eller för icke-stationära processer kan extrema händelser vara betydligt mer extrema än någon tidigare observerad händelse. Detta utvecklas i teorin om svart svan .