Vägt aritmetiskt medelvärde

Det viktade aritmetiska medelvärdet liknar ett vanligt aritmetiskt medelvärde (den vanligaste typen av medelvärde ), förutom att istället för att var och en av datapunkterna bidrar lika mycket till det slutliga medelvärdet, bidrar vissa datapunkter mer än andra. Begreppet viktat medelvärde spelar en roll i beskrivande statistik och förekommer även i en mer generell form inom flera andra områden inom matematiken.

Om alla vikter är lika, då är det viktade medelvärdet detsamma som det aritmetiska medelvärdet . Medan viktade medel i allmänhet beter sig på ett liknande sätt som aritmetiska medel, har de några kontraintuitiva egenskaper, som fångas till exempel i Simpsons paradox .

Exempel

Grundläggande exempel

Givet två skolklasser - en med 20 elever, en med 30 elever - och provbetyg i varje klass enligt följande:

Morgonklass = {62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98} Eftermiddagsklass = {81
, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93, 5, 94, 96, 97, 98, 99}

Medelvärdet för morgonklassen är 80 och medelvärdet för eftermiddagsklassen är 90. Det ovägda medelvärdet av de två medelvärdena är 85. Detta tar dock inte hänsyn till skillnaden i antal elever i varje klass (20 mot 30); värdet 85 återspeglar därför inte det genomsnittliga elevbetyget (oberoende av klass). Det genomsnittliga elevbetyget kan erhållas genom att genomsnittet av alla betyg, utan hänsyn till klasser (lägg ihop alla betyg och dividera med det totala antalet elever):

Eller så kan detta uppnås genom att vikta klassmedel med antalet elever i varje klass. Den större klassen får mer "vikt":

Det viktade medelvärdet gör det alltså möjligt att hitta det genomsnittliga elevbetyget utan att veta varje elevs poäng. Endast klassmedel och antal elever i varje klass behövs.

Exempel på konvex kombination

Eftersom endast de relativa vikterna är relevanta kan alla viktade medelvärden uttryckas med koefficienter som summerar till ett. En sådan linjär kombination kallas en konvex kombination .

Med hjälp av föregående exempel skulle vi få följande vikter:

Applicera sedan vikterna så här:

Matematisk definition

Formellt är det viktade medelvärdet av en icke-tom finit tupel av data , med motsvarande icke-negativa vikter är

som expanderar till:

Därför bidrar dataelement med hög vikt mer till det viktade medelvärdet än element med låg vikt. Vikterna kan inte vara negativa. Vissa kan vara noll, men inte alla (eftersom division med noll inte är tillåtet).

Formlerna förenklas när vikterna är normaliserade så att de summerar till 1, dvs . För sådana normaliserade vikter är det viktade medelvärdet på motsvarande sätt:

.

Observera att man alltid kan normalisera vikterna genom att göra följande transformation på originalvikterna:

.

Det vanliga medelvärdet specialfall av det viktade medelvärdet där alla data har samma vikt.

Om dataelementen är oberoende och identiskt fördelade slumpvariabler med varians standardfelet för det viktade medelvärdet, σ , kan via osäkerhetsspridning visas vara:

Variansdefinierade vikter

För det viktade medelvärdet av en lista med data för vilka varje element potentiellt kommer från en annan sannolikhetsfördelning med känd varians , alla med samma medelvärde, ett möjligt val för vikterna ges av den reciproka variansen:

Det viktade medelvärdet i detta fall är:

och standardfelet för det viktade medelvärdet (med inversvariansvikter) är:

Observera att detta reduceras till när alla . Det är ett specialfall av den allmänna formeln i föregående avsnitt,

Ekvationerna ovan kan kombineras för att få:

Betydelsen av detta val är att detta viktade medelvärde är den maximala sannolikhetsskattaren av medelvärdet av sannolikhetsfördelningarna under antagandet att de är oberoende och normalfördelade med samma medelvärde.

Statistiska egenskaper

Förväntning

Det viktade urvalsmedelvärdet, , är i sig en slumpvariabel. Dess förväntade värde och standardavvikelse är relaterade till observationernas förväntade värden och standardavvikelser enligt följande. För enkelhetens skull antar vi normaliserade vikter (vikter summeras till ett).

Om observationerna har förväntade värden

då har det viktade urvalsmedelvärdet förväntan
I synnerhet, om medelvärdena är lika, , då kommer förväntan på det viktade urvalsmedelvärdet att vara det värdet,

Variation

Enkelt iid fall

När man behandlar vikterna som konstanter och har ett urval av n observationer från okorrelerade slumpvariabler , alla med samma varians och förväntan (som är fallet för iid slumpvariabler), då kan variansen av det viktade medelvärdet uppskattas som multiplikationen av variansen genom Kishs designeffekt (se bevis ):

Med = w

Denna uppskattning är dock ganska begränsad på grund av det starka antagandet om y -observationerna. Detta har lett till utvecklingen av alternativa, mer generella estimatorer.

Undersökningsurvalsperspektiv

Ur ett modellbaserat perspektiv är vi intresserade av att uppskatta variansen för det viktade medelvärdet när de olika inte är iid slumpvariabler. Ett alternativt perspektiv för detta problem är det med någon godtycklig samplingsdesign av data där enheter väljs ut med olika sannolikheter ( med ersättning).

I undersökningsmetodik beräknas populationsmedelvärdet, av en viss mängd av intresse y , genom att ta en uppskattning av summan av y över alla element i populationen ( Y eller ibland T ) och dividera det med populationsstorleken – antingen känd ( ) eller uppskattad ( ). I detta sammanhang anses varje värde på y vara konstant, och variabiliteten kommer från urvalsproceduren. Detta till skillnad från "modellbaserade" tillvägagångssätt där slumpmässigheten ofta beskrivs i y-värdena. Enkätprovtagningsproceduren ger en serie Bernoulli- indikatorvärden ( ) som får 1 om någon observation i finns i urvalet och 0 om den inte valdes. Detta kan inträffa med fast urvalsstorlek eller varierad urvalsstorlek (t.ex.: Poisson-sampling ) . Sannolikheten för att något element ska väljas, givet ett urval, betecknas som , och sannolikheten för ett drag för urval är p är mycket liten). För följande härledning kommer vi att anta att sannolikheten för att välja varje element representeras fullt ut av dessa sannolikheter. Dvs: att välja ett element kommer inte att påverka sannolikheten att rita ett annat element (detta gäller inte för saker som kluster sampling design).

Eftersom varje element ( ) är fixerat, och slumpen kommer från att det ingår i urvalet eller inte ( ), talar vi ofta om multiplikationen av de två, vilket är en slumpvariabel. För att undvika förvirring i följande avsnitt, låt oss kalla denna term: . Med följande förväntade: ; och varians: .

När varje element i urvalet blåses upp med inversen av dess urvalssannolikhet kallas det för -expanderade y -värden, dvs: . En relaterad kvantitet är -expanderade y- värden: . Som ovan kan vi lägga till en bock om vi multiplicerar med indikatorfunktionen. Dvs:

I detta designbaserade perspektiv erhålls vikterna, som används i täljaren för det viktade medelvärdet, från att ta inversen av urvalssannolikheten (dvs. inflationsfaktorn). Dvs: .

Varians av den viktade summan ( pwr -estimator för totaler)

Om populationens storlek N är känd kan vi uppskatta populationens medelvärde med .

Om samplingsdesignen är en som resulterar i en fast urvalsstorlek n (som i pps sampling ), är variansen för denna skattare:

Bevis

Den allmänna formeln kan utvecklas så här:

Populationssumman betecknas som och den kan uppskattas av den (opartiska) Horvitz–Thompson estimator , även kallad -estimatorn. Denna estimator kan själv uppskattas med hjälp av pwr -estimatorn (dvs: -expanderad med ersättningsestimator, eller "sannolikhet med ersättning"-estimator). Med ovanstående notation är det: .

Den uppskattade variansen för pwr -estimatorn ges av:

där .

Ovanstående formel togs från Sarndal et al. (1992) (presenteras också i Cochran 1977), men skrevs annorlunda. Den vänstra sidan är hur variansen skrevs och den högra sidan är hur vi har utvecklat den viktade versionen:

Och vi kom till formeln ovanifrån.

En alternativ term, för när urvalet har en slumpmässig urvalsstorlek (som i Poisson-sampling ), presenteras i Sarndal et al. (1992) som:

Med . Även där är sannolikheten att välja både i och j. Och , och för i=j: .

Om urvalssannolikheten är okorrelerad (dvs: , och när man antar att sannolikheten för varje element är mycket liten, då:

Bevis

Vi antar att och att

Varians av det viktade medelvärdet ( π -estimator för förhållande-medelvärde)

Det föregående avsnittet handlade om att uppskatta populationsmedelvärdet som ett förhållande mellan en uppskattad populationssumma ( ) med en känd populationsstorlek ( , och variansen var uppskattas i det sammanhanget. Ett annat vanligt fall är att själva populationsstorleken ( ) är okänd och uppskattas med hjälp av urvalet (dvs: . Uppskattningen av kan beskrivas som summan av vikter. Så när får vi . När vi använder notation från tidigare avsnitt är förhållandet vi bryr oss om summan av s och 1s. Dvs: . Vi kan uppskatta det med vårt urval med: . När vi gick från att använda N till att använda n vet vi faktiskt att alla indikatorvariabler får 1, så vi kunde helt enkelt skriva: . Detta kommer att vara uppskattningen för specifika värden på y och w, men de statistiska egenskaperna kommer när man inkluderar indikatorvariabeln .

Detta kallas Ratio estimator och det är ungefär opartiskt för R .

förhållandets variabilitet på variabiliteten hos de slumpmässiga variablerna både i täljaren och nämnaren - såväl som deras korrelation. Eftersom det inte finns någon sluten analytisk form för att beräkna denna varians, används olika metoder för ungefärlig uppskattning. Primärt Taylor-serien första ordningens linjärisering, asymptotik och bootstrap/jackknife. Taylor-lineariseringsmetoden kan leda till underskattning av variansen för små urvalsstorlekar i allmänhet, men det beror på statistikens komplexitet. För det viktade medelvärdet antas den ungefärliga variansen vara relativt exakt även för medelstora urvalsstorlekar. För när urvalet har en slumpmässig urvalsstorlek (som i Poisson-sampling ), är det som följer:

.

Vi noterar att om , då använder vi antingen eller skulle ge samma estimator, eftersom multiplicera med någon faktor skulle leda till samma estimator. Det betyder också att om vi skalar summan av vikter till att vara lika med en känd-från-före populationsstorlek N , skulle variansberäkningen se likadan ut. När alla vikter är lika med varandra reduceras denna formel till den standardmässiga opartiska variansskattaren.

Bevis

Taylor-lineariseringen anger att för en allmän kvotskattare av två summor ( ), kan de utökas runt det sanna värdet R och ge:

Och variansen kan uppskattas genom:

.

Termen den uppskattade kovariansen mellan den uppskattade summan av Y och uppskattad summa av Z. Eftersom detta är kovariansen av två summor av slumpvariabler, skulle den inkludera många kombinationer av kovarianser som kommer att bero på indikatorvariablerna. Om urvalssannolikheten är okorrelerad (dvs: ), skulle denna term fortfarande inkludera en summering av n kovarianser för varje element i mellan och . Detta hjälper till att illustrera att den här formeln inkluderar effekten av korrelationen mellan y och z på variansen hos kvotuppskattningarna.

När du definierar blir ovanstående:

Om urvalssannolikheten är okorrelerad (dvs: ), och när man antar att sannolikheten för varje element är mycket liten (dvs: ) , sedan reduceras ovanstående till följande:

En liknande återskapande av beviset (upp till några misstag i slutet) gavs av Thomas Lumley i crossvalidated.

Vi har (minst) två versioner av varians för det viktade medelvärdet: en med känd och en med okänd uppskattning av populationsstorlek. Det finns inget enhetligt bättre tillvägagångssätt, men litteraturen presenterar flera argument för att föredra att använda populationsuppskattningsversionen (även när populationsstorleken är känd). Till exempel: om alla y-värden är konstanta kommer estimatorn med okänd populationsstorlek att ge det korrekta resultatet, medan den med känd populationsstorlek kommer att ha viss variation. När själva urvalsstorleken är slumpmässig (t.ex. i Poisson-sampling ), anses versionen med okänt populationsmedelvärde vara mer stabil. Slutligen, om andelen provtagning är negativt korrelerad med värdena (dvs. mindre chans att ta prov på en observation som är stor), så kompenserar den okända populationsstorleksversionen något för det.

Bootstrapping-validering

Det har visats av Gatz et al. (1995), att i jämförelse med bootstrapping -metoder är följande (variansuppskattning av förhållande-medelvärde med hjälp av Taylor-seriens linjärisering) en rimlig uppskattning för kvadraten på standardfelet för medelvärdet (när det används i samband med mätning av kemiska beståndsdelar) :

där . Ytterligare förenkling leder till

Gatz et al. nämna att ovanstående formulering publicerades av Endlich et al. (1988) när man behandlar det vägda medelvärdet som en kombination av en viktad total uppskattning dividerad med en uppskattare av populationsstorleken, baserat på formuleringen publicerad av Cochran (1977), som en approximation till förhållandets medelvärde. Emellertid har Endlich et al. verkade inte publicera denna härledning i sin tidning (även om de nämner att de använde den), och Cochrans bok innehåller en något annorlunda formulering. Ändå är det nästan identiskt med formuleringarna som beskrivs i tidigare avsnitt.

Replikationsbaserade estimatorer

Eftersom det inte finns någon sluten analytisk form för variansen av det viktade medelvärdet, föreslogs det i litteraturen att förlita sig på replikeringsmetoder som Jackknife och Bootstrapping .

Andra anteckningar

För okorrelerade observationer med varianser är variansen för det viktade urvalsmedelvärdet [ citat behövs ]

vars kvadratrot kan kallas standardfelet för det viktade medelvärdet (allmänt fall) . [ citat behövs ]

Följaktligen, om alla observationer har lika stor varians, , kommer det viktade urvalsmedelvärdet att ha varians

där . Variansen uppnår sitt maximala värde, , när alla vikter utom en är noll. Dess minimivärde hittas när alla vikter är lika (dvs ovägda medelvärde), i vilket fall vi har , dvs det urartar till standardfelet för medelvärdet , kvadratiskt.

Observera att eftersom man alltid kan transformera icke-normaliserade vikter till normaliserade vikter kan alla formler i detta avsnitt anpassas till icke-normaliserade vikter genom att ersätta alla .

Relaterade begrepp

Viktad provvariation

Vanligtvis när ett medelvärde beräknas är det viktigt att känna till variansen och standardavvikelsen för det medelvärdet. När ett viktat medelvärde används, skiljer sig variansen för det viktade urvalet från variansen för det ovägda urvalet.

Den partiska viktade sampelvariansen definieras på samma sätt som den normala partiska sampelvariansen :

där för normaliserade vikter. Om vikterna är frekvensvikter (och därmed är slumpvariabler), kan det visas [ citat behövs ] att är den maximala sannolikhetsskattaren för för iid gaussiska observationer.

För små urval är det vanligt att använda en opartisk skattare för populationsvariansen. I normala ovägda prover N i nämnaren (motsvarande provstorleken) till N − 1 (se Bessels korrigering ). I den viktade inställningen finns det faktiskt två olika opartiska skattare, en för fallet med frekvensvikter och en annan för fallet med tillförlitlighetsvikter .

Frekvensvikter

Om vikterna är frekvensvikter (där en vikt är lika med antalet förekomster), är den opartiska skattaren:

Detta tillämpar effektivt Bessels korrigering för frekvensvikter.

Till exempel, om värdena dras från samma fördelning, då kan vi behandla denna uppsättning som ett oviktat prov, eller så kan vi behandla det som det viktade provet med motsvarande vikter , och vi får samma resultat oavsett.

Om frekvensvikterna normaliseras till 1, så blir det korrekta uttrycket efter Bessels korrigering

där det totala antalet sampel är (inte ). I vilket fall som helst är informationen om totalt antal sampel nödvändig för att få en opartisk korrigering, även om har en annan betydelse än frekvensvikt.

Observera att skattaren endast kan vara opartisk om vikterna inte är standardiserade eller normaliserade , dessa processer ändrar datas medelvärde och varians och leder därmed till en förlust av bashastigheten (populationsantalet, vilket är ett krav för Bessels korrigering).

Tillförlitlighetsvikter

Om vikterna istället är icke-slumpmässiga ( tillförlitlighetsvikter [ definition behövs] ) , kan vi bestämma en korrektionsfaktor för att ge en opartisk skattare. Om vi ​​antar att varje slumpvariabel samplas från samma fördelning med medelvärde och faktisk varians med förväntningar vi har,

där och . Därför är biasen i vår estimator , analogt med bias i den ovägda estimatorn (märk också att är den effektiva urvalsstorleken ). Detta betyder att för att göra vår estimator opartisk måste vi fördividera med , säkerställa att det förväntade värdet av den uppskattade variansen är lika med den faktiska variansen i urvalsfördelningen.

Den slutliga opartiska uppskattningen av urvalsvariansen är:

där .

Frihetsgraderna för den viktade, opartiska urvalsvariansen varierar i enlighet därmed från N - 1 ner till 0.

Standardavvikelsen är helt enkelt kvadratroten av variansen ovan.

Som en sidoanteckning har andra tillvägagångssätt beskrivits för att beräkna den viktade urvalsvariansen.

Viktad urvalskovarians

I ett viktat urval tilldelas varje radvektor (varje uppsättning enstaka observationer på var och en av de K slumpvariablerna) en vikt .

Sedan ges den viktade medelvektorn

Och den viktade kovariansmatrisen ges av:

I likhet med viktad provvarians finns det två olika opartiska skattare beroende på typen av vikter.

Frekvensvikter

Om vikterna är frekvensvikter , ges den opartiska viktade uppskattningen av kovariansmatrisen med Bessels korrigering, av:

Observera att denna estimator endast kan vara opartisk om vikterna inte är standardiserade eller normaliserade , dessa processer ändrar datas medelvärde och varians och leder därmed till en förlust av bashastigheten (populationsantalet, vilket är ett krav för Bessels korrigering).

Tillförlitlighetsvikter

När det gäller tillförlitlighetsvikter är vikterna normaliserade :

(Om de inte är det, dividera vikterna med deras summa för att normalisera innan du beräknar :

Sedan kan den viktade medelvektorn

och den opartiska viktade uppskattningen av kovariansmatrisen är:

Resonemanget här är detsamma som i föregående avsnitt.

Eftersom vi antar att vikterna är normaliserade, då och detta reduceras till:

Om alla vikter är desamma, dvs minskar det viktade medelvärdet och kovariansen till det ovägda urvalsmedelvärdet och kovariansen ovan .

Vektorvärderade uppskattningar

Ovanstående generaliserar lätt till fallet att ta medelvärdet av vektorvärderade uppskattningar. Till exempel kan uppskattningar av position på ett plan ha mindre säkerhet i en riktning än en annan. Liksom i det skalära fallet kan det viktade medelvärdet av flera uppskattningar ge en maximal sannolikhetsuppskattning . Vi ersätter helt enkelt variansen med kovariansmatrisen och den aritmetiska inversen med matrisinversen (båda betecknade på samma sätt, via upphöjda skrifter) ; viktmatrisen lyder då:

Det viktade medelvärdet i detta fall är:

(där ordningen för matris-vektorprodukten inte är kommutativ ), i termer av kovariansen av det viktade medelvärdet:

Betrakta till exempel det viktade medelvärdet av punkten [1 0] med hög varians i den andra komponenten och [0 1] med hög varians i den första komponenten. Sedan

då är det viktade medelvärdet:

vilket är vettigt: [1 0] uppskattningen är "kompatibel" i den andra komponenten och [0 1] uppskattningen är kompatibel i den första komponenten, så det viktade medelvärdet är nästan [1 1].

Redovisning av korrelationer

I det allmänna fallet, anta att , är kovariansmatrisen som relaterar kvantiteterna , är det vanliga medelvärdet som ska uppskattas, och är en designmatris lika med en vektor av ettor (av längden ). Gauss -Markov-satsen säger att uppskattningen av medelvärdet med minsta varians ges av:

och

var:

Minskande styrka av interaktioner

Betrakta tidsserien för en oberoende variabel och en beroende variabel , med observationer samplade vid diskreta tidpunkter . I många vanliga situationer beror värdet på vid tidpunkten utan också på dess tidigare värden. Vanligtvis minskar styrkan av detta beroende när separeringen av observationer i tid ökar. För att modellera denna situation kan man ersätta den oberoende variabeln med dess glidande medelvärde för en fönsterstorlek .

Exponentiellt minskande vikter

I scenariot som beskrivs i föregående avsnitt lyder minskningen i interaktionsstyrka oftast en negativ exponentiell lag. Om observationerna samplas vid ekvidistanta tidpunkter, är exponentiell minskning ekvivalent med minskning med en konstant bråkdel vid varje tidssteg. Inställning kan vi definiera normaliserade vikter med

där är summan av de onormaliserade vikterna. I det här fallet är

närmar sig för stora värden på .

Dämpningskonstanten måste motsvara den faktiska minskningen av interaktionsstyrkan. Om detta inte kan bestämmas utifrån teoretiska överväganden, är följande egenskaper för exponentiellt minskande vikter användbara för att göra ett lämpligt val: vid steg ( , vikt är ungefär lika med svansytan värdet , huvudområdet . Svansområdet vid steg är . Där i första hand de närmaste observationerna spelar roll och effekten av de återstående observationerna kan ignoreras på ett säkert sätt, välj sedan så att svansarean är tillräckligt liten.

Viktade medelvärden av funktioner

Begreppet vägt medelvärde kan utvidgas till funktioner. Vägda medelvärden av funktioner spelar en viktig roll i systemen för vägd differential- och integralkalkyl.

Korrigering för över- eller underspridning

Viktade medelvärden används vanligtvis för att hitta det viktade medelvärdet av historiska data, snarare än teoretiskt genererade data. I det här fallet kommer det att finnas något fel i variansen för varje datapunkt. Typiskt kan experimentella fel underskattas på grund av att försöksledaren inte tar hänsyn till alla felkällor vid beräkning av variansen för varje datapunkt. I detta fall måste variansen i det viktade medelvärdet korrigeras för att ta hänsyn till det faktum att är för stor. Den korrigering som måste göras är

där är den reducerade chi-kvadraten :

Kvadratroten kan kallas standardfelet för det viktade medelvärdet (variansvikter, skala korrigerad) .

När alla datavarianser är lika, tar de ut i den viktade medelvariansen, , vilket återigen reducerar till standardfelet för medelvärdet (kvadrat), , formulerad i termer av provets standardavvikelse (kvadrat),

Se även

Vidare läsning

  •   Bevington, Philip R (1969). Datareduktion och felanalys för fysik . New York, NY: McGraw-Hill. OCLC 300283069 .
  •   Strutz, T. (2010). Dataanpassning och osäkerhet (En praktisk introduktion till viktade minsta kvadrater och vidare) . Vieweg+Teubner. ISBN 978-3-8348-1022-9 .

externa länkar