Trunkerat medelvärde

Ett trunkerat medelvärde eller trimmat medelvärde är ett statistiskt mått på central tendens , ungefär som medelvärdet och medianen . Det involverar beräkning av medelvärdet efter att givna delar av en sannolikhetsfördelning eller ett urval har kasserats i den höga och låga delen, och vanligtvis kasserar en lika stor mängd av båda. Detta antal poäng som ska kasseras anges vanligtvis som en procentandel av det totala antalet poäng, men kan också ges som ett fast antal poäng.

För de flesta statistiska tillämpningar kasseras 5 till 25 procent av ändarna. Till exempel, givet en uppsättning av 8 poäng, skulle trimning med 12,5 % förkasta det lägsta och högsta värdet i urvalet: de minsta och största värdena, och skulle beräkna medelvärdet av de återstående 6 poängen. Det 25 % trimmade medelvärdet (när de lägsta 25 % och de högsta 25 % kasseras) är känt som det interkvartila medelvärdet .

Medianen kan betraktas som ett helt trunkerat medelvärde och är mest robust. Som med andra trimmade estimatorer är den största fördelen med det trimmade medelvärdet robusthet och högre effektivitet för blandade distributioner och tungstjärtad distribution (som Cauchy-distributionen ), till priset av lägre effektivitet för vissa andra mindre kraftigt svansade distributioner (som t.ex. normal distribution). För mellanfördelningar är skillnaderna mellan effektiviteten för medelvärdet och medianen inte särskilt stora, t.ex. för student-t-fördelningen med 2 frihetsgrader är varianserna för medelvärde och median nästan lika.

Terminologi

I vissa regioner i Centraleuropa är det också känt som ett Windsor-medelvärde , [ citat behövs ] men detta namn ska inte förväxlas med det Winsoriserade medelvärdet : i det senare ersätts observationerna som det trimmade medelvärdet skulle förkasta med det största/ minsta av de återstående värdena.

Att bara kassera maximum och minimum kallas det modifierade medelvärdet , särskilt i förvaltningsstatistik. Detta är också känt som det olympiska genomsnittet (till exempel inom amerikanskt jordbruk, som Average Crop Revenue Election ), på grund av dess användning i olympiska evenemang, såsom ISU Judging System i konståkning , för att göra poängen robust mot en enda extremvärde bedöma.

Interpolation

När procentandelen poäng som ska kastas inte ger ett heltal, kan det trimmade medelvärdet definieras genom interpolation, vanligtvis linjär interpolation, mellan de närmaste heltal. Till exempel, om du behöver beräkna 15 % trimmat medelvärde för ett prov som innehåller 10 poster, skulle det strikt innebära att man kasserar 1 poäng från varje ände (motsvarande det 10 % trimmade medelvärdet). Om man interpolerar skulle man istället beräkna 10% trimmat medelvärde (bortsätt 1 punkt från varje ände) och 20% trimmat medelvärde (kassera 2 punkter från varje ände), och sedan interpolera, i detta fall medelvärde för dessa två värden. På liknande sätt, om man interpolerar det 12% trimmade medelvärdet, skulle man ta det viktade medelvärdet : vikta det 10% trimmade medelvärdet med 0,8 och det 20% trimmade medelvärdet med 0,2.

Fördelar

Det trunkerade medelvärdet är en användbar skattare eftersom det är mindre känsligt för extremvärden än medelvärdet men ger ändå en rimlig uppskattning av central tendens eller medelvärde för många statistiska modeller. I detta avseende kallas den för en robust estimator . Till exempel, när den används vid olympisk bedömning, förhindrar trunkering av maximum och minimum en enda domare från att öka eller sänka den totala poängen genom att ge en exceptionellt hög eller låg poäng.

En situation där det kan vara fördelaktigt att använda ett trunkerat medelvärde är när man uppskattar platsparametern för en Cauchy-fördelning , en klockformad sannolikhetsfördelning med (mycket) fetare svansar än en normalfördelning . Det kan visas att det trunkerade medelvärdet av den mellersta 24 % -statistiken för urvalsordning (dvs. trunkera urvalet med 38 % i varje ände) ger en uppskattning för populationsplatsparametern som är mer effektiv än att använda antingen urvalsmedianen eller den fullständiga provmedelvärde. På grund av Cauchy-fördelningens fettsvansar minskar emellertid effektiviteten hos skattaren när mer av provet används i uppskattningen. Observera att för Cauchy-fördelningen representerar varken det trunkerade medelvärdet, det fullständiga urvalets medelvärde eller provmedian en maximal sannolikhetsestimator , och inte heller är någon lika asymptotiskt effektiv som den maximala sannolikhetsskattaren; dock är den maximala sannolikhetsuppskattningen svårare att beräkna, vilket lämnar det trunkerade medelvärdet som ett användbart alternativ.

Nackdelar

Det trunkerade medelvärdet använder mer information från fördelningen eller urvalet än medianen , men såvida inte den underliggande fördelningen är symmetrisk , är det osannolikt att det trunkerade medelvärdet av ett urval ger en opartisk estimator för vare sig medelvärdet eller medianen.

Statistiska tester

Det är möjligt att utföra ett Students t-test baserat på det trunkerade medelvärdet, som kallas Yuens t-test, som också har flera implementeringar i R .

Exempel

Poängmetoden som används i många sporter som utvärderas av en panel av domare är ett trunkerat medelvärde: kassera de lägsta och de högsta poängen; beräkna medelvärdet av de återstående poängen .

Libor benchmark-räntan beräknas som ett trimmat medelvärde: givet 18 svar, kasseras de 4 och de nedersta 4, och de återstående 10 beräknas i medeltal (avkastning på en trimfaktor på 4/18 ≈ 22%) .

Tänk på datamängden som består av:

{92, 19, 101 , 58, 1053 , 91, 26, 78, 10, 13, −40 , 101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 20, medelvärde 101,5)

Den 5:e percentilen (−6,75) ligger mellan −40 och −5, medan den 95:e percentilen (148,6) ligger mellan 101 och 1053 (värden visas i fet stil). Då skulle ett 5 % trimmat medelvärde resultera i följande:

{92, 19, 101, 58, 91, 26, 78, 10, 13, 101, 86, 85, 15, 89, 89, 28, −5, 41} (N = 18, medelvärde = 56,5)

Detta exempel kan jämföras med det som använder Winsorising -proceduren.

Se även