Betyder absolut skillnad

Den genomsnittliga absoluta skillnaden (univariat) är ett mått på statistisk spridning lika med den genomsnittliga absoluta skillnaden för två oberoende värden hämtade från en sannolikhetsfördelning . En relaterad statistik är den relativa genomsnittliga absoluta skillnaden , som är den genomsnittliga absoluta skillnaden dividerat med det aritmetiska medelvärdet och lika med två gånger Gini-koefficienten . Den genomsnittliga absoluta skillnaden är också känd som den absoluta medelskillnaden (inte att förväxla med det absoluta värdet av den genomsnittliga teckenskillnaden ) och Gini -medelskillnaden (GMD). Den genomsnittliga absoluta skillnaden betecknas ibland med Δ eller som MD.

Definition

Den genomsnittliga absoluta skillnaden definieras som "genomsnittet" eller "medelvärdet", formellt det förväntade värdet , av den absoluta skillnaden mellan två slumpvariabler X och Y oberoende och identiskt fördelade med samma (okänd) fördelning som hädanefter kallas Q .

\mathrm {MD} :=E[|XY|].

Beräkning

Specifikt i det diskreta fallet,

För ett slumpmässigt urval av storleken n av en population fördelad enhetligt enligt Q , kan den (empiriska) genomsnittliga absoluta skillnaden för sekvensen av urvalsvärden y _{i ,} i = 1 till n beräknas som det aritmetiska medelvärdet . av det absoluta värdet av alla möjliga skillnader:

{\displaystyle \mathrm {MD} =E[|XY|]=E_{X}[E_{Y|X}[|XY|]]={\frac {1}{n^{2}}}\summa _{i=1}^{n}\summa _{j=1}^{n}|x_{i}-y_{j}|.} om Q har en

diskret sannolikhetsfunktion f ( y ) , där y _i , i = 1 till n , är värdena med sannolikheter som inte är noll:

\mathrm {MD} =\summa _{i=1}^{n}\summa _{j=1}^{n}f(y_{i})f(y_{j})|y_{ i}-y_{j}|.

I det kontinuerliga fallet,

om Q har en sannolikhetstäthetsfunktion f ( x ):

\mathrm {MD} =\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }f(x)\,f(y)\,|xy| \,dx\,dy.

En alternativ form av ekvationen ges av:

\mathrm {MD} =\int _{0}^{\infty }\int _{-\infty }^{\infty }2\,f(x)\,f(x+\delta )\, \delta \,dx\,d\delta .

om Q har en kumulativ fördelningsfunktion F ( x ) med kvantilfunktion Q ( F ), då, eftersom f(x)=dF(x)/dx och Q(F( x))=x , det följer att:

\mathrm {MD} =\int _{0}^{1}\int _{0}^{1}|Q(F_{1})-Q(F_{2})|\,dF_{ 1}\,dF_{2}.

Relativ genomsnittlig absolut skillnad

När sannolikhetsfördelningen har ett ändligt och icke-noll aritmetiskt medelvärde AM, definieras den relativa genomsnittliga absoluta skillnaden, ibland betecknad med Δ eller RMD, av

\mathrm {RMD} ={\frac {\mathrm {MD} }{\mathrm {AM} }}.

Den relativa genomsnittliga absoluta skillnaden kvantifierar den genomsnittliga absoluta skillnaden i jämförelse med storleken på medelvärdet och är en dimensionslös storhet. Den relativa genomsnittliga absoluta skillnaden är lika med två gånger Gini-koefficienten som definieras i termer av Lorenz-kurvan . Detta förhållande ger kompletterande perspektiv till både den relativa medelabsoluta skillnaden och Gini-koefficienten, inklusive alternativa sätt att beräkna deras värden.

Egenskaper

Den genomsnittliga absoluta skillnaden är invariant för översättningar och negation, och varierar proportionellt till positiv skalning. Det vill säga, om X är en slumpvariabel och c är en konstant:

MD( X + c ) = MD( X ),
MD(− X ) = MD( X ), och
MD( cX ) = | c | MD( X ).

Den relativa genomsnittliga absoluta skillnaden är invariant i förhållande till positiv skalning, pendlar med negation och varierar under översättning i proportion till förhållandet mellan det ursprungliga och översatta aritmetiska medelvärdet. Det vill säga, om X är en slumpvariabel och c är en konstant:

RMD( X + c ) = RMD( X ) · medel( X )/(medelvärde( X ) + c ) = RMD( X ) / (1 + c / medelvärde( X )) för c ≠ −medelvärde( X ),
RMD(− X ) = −RMD( X ), och
RMD( c X ) = RMD( X ) för c > 0.

Om en slumpvariabel har ett positivt medelvärde, kommer dess relativa medelvärde av absoluta skillnad alltid att vara större än eller lika med noll. Om den slumpmässiga variabeln dessutom bara kan anta värden som är större än eller lika med noll, kommer dess relativa medelabsoluta skillnad att vara mindre än 2.

Jämfört med standardavvikelse

Den genomsnittliga absoluta skillnaden är två gånger L-skalan (det andra L-momentet ), medan standardavvikelsen är kvadratroten av variansen kring medelvärdet (det andra konventionella centrala momentet). Skillnaderna mellan L-moment och konventionella moment ses först när man jämför den genomsnittliga absoluta skillnaden och standardavvikelsen (det första L-momentet och det första konventionella momentet är båda medelvärdet).

Både standardavvikelsen och den genomsnittliga absoluta skillnaden mäter spridningen – hur utspridda är värdena för en population eller sannolikheterna för en fördelning. Den genomsnittliga absoluta skillnaden definieras inte i termer av ett specifikt mått på central tendens, medan standardavvikelsen definieras i termer av avvikelsen från det aritmetiska medelvärdet. Eftersom standardavvikelsen kvadrerar sina skillnader, tenderar den att ge större vikt åt större skillnader och mindre vikt åt mindre skillnader jämfört med den genomsnittliga absoluta skillnaden. När det aritmetiska medelvärdet är ändligt, kommer den genomsnittliga absoluta skillnaden också att vara ändlig, även när standardavvikelsen är oändlig. Se exemplen för några specifika jämförelser.

Den nyligen införda avståndsstandardavvikelsen spelar liknande roll som den genomsnittliga absoluta skillnaden, men avståndsstandardavvikelsen fungerar med centrerade avstånd. Se även E-statistik .

Exempel uppskattare

För ett slumpmässigt urval S från en slumpvariabel X , bestående av n värden y _i , är statistiken

\mathrm {MD} (S)={\frac {\sum _{i=1}^{n}\summa _{j=1}^{n}|y_{i }-y_{j}|}{n(n-1)}}

är en konsekvent och opartisk skattare av MD( X ). Statistiken:

\mathrm {RMD} (S)={\frac {\sum _{i=1}^{n}\sum _{j=1}^{ n}|y_{i}-y_{j}|}{(n-1)\summa _{i=1}^{n}y_{i}}}

är en konsekvent skattare av RMD( X ), men är i allmänhet inte opartisk .

Konfidensintervall för RMD( X ) kan beräknas med hjälp av bootstrap-samplingstekniker.

Det finns i allmänhet inte en opartisk skattning för RMD( X ), delvis på grund av svårigheten att hitta en opartisk uppskattning för att multiplicera med inversen av medelvärdet. Till exempel, även där urvalet är känt för att tas från en slumpvariabel X ( p ) för en okänd p , och $X (p) - 1$ har Bernoulli-fördelningen , så att $Pr(X (p) = 1) = 1 - p$ och $Pr(X (p) = 2) = p$ , sedan

RMD(X (p)) = 2 p (1 - p)/(1 + p)

.

Men det förväntade värdet för varje estimator R ( S ) av RMD( X ( p )) kommer att ha formen: ^{[ citat behövs ]}

(R(S))=\summa _{i=0}^ {n}p^{i}(1-p)^{ni}r_{i},}

där r _i är konstanter. Så E( R ( S )) kan aldrig vara lika med RMD( X ( p )) för alla p mellan 0 och 1.

Exempel

Exempel på genomsnittlig absolut skillnad och relativ genomsnittlig absolut skillnad
Distribution	Parametrar	Betyda	Standardavvikelse	Betyder absolut skillnad	Relativ genomsnittlig absolut skillnad
Kontinuerlig uniform	$a=0;b=1$	$2=0,5$	${\frac {1}{\sqrt {12}}}\approx 0,2887$	${\frac {1}{3}}\approx 0,3333$	${\frac {2}{3}}\approx 0,6667$
Vanligt	$\mu =0$ ; $\sigma =1$	$0$	$1$	${\frac {2}{\sqrt {\pi }}}\approx 1,1284$	odefinierad
Exponentiell	$\lambda =1$	$1$	$1$	$1$	$1$
Pareto	$k>1$ ; $x_{m}=1$	${\frac {k}{k-1}}$	${\frac {1}{k-1}}\,{\sqrt {\frac {k}{k-2}}}{\text{ för }}k>2$	${\frac {2k}{(k-1)(2k-1)}}\,$	${\frac {2}{2k-1}}\,$
Gamma	$k$ ; $\theta$	$k\theta$	${\sqrt {k}}\,\theta$	$k\theta (2-4I_{0,5}(k,k+1))$ †	$4I_{0.5}(k,k+1)-2$ †
Gamma	$k=1$ ; $\theta =1$	$1$	$1$	$1$	$1$
Gamma	$k=2$ ; $\theta =1$	$2$	${\sqrt {2}}\approx 1,4142$	${\displaystyle 3/2=$	${\displaystyle 3/4=$
Gamma	$k=3$ ; $\theta =1$	$3$	${\sqrt {3}}\approx 1,7321$	$\displaystyle 15/8=1,875$	$\displaystyle 5/8=0,625$
Gamma	$k=4$ ; $\theta =1$	$4$	$2$	$\displaystyle 35/16=2,1875$	$35/64=0,546875$
Bernoulli	$0\leq p\leq 1$	$p$	${\sqrt {p(1-p)}}$	$2p(1-p)$	$2(1-p){\text{ för }}p>0$
Students t , 2 df	$\nu =2$	$0$	$\infty$	${\frac {\pi }{\sqrt {2}}}\approx 2.2214$	odefinierad

†

I_{z}(x,y)

är den reguljära ofullständiga betafunktionen

Se även

Källor

Xu, Kuan (januari 2004). "Hur har litteraturen på Ginis index utvecklats under de senaste 80 åren?" (PDF) . Institutionen för ekonomi, Dalhousie University . Hämtad 2006-06-01 . {{ citera journal }} : Citera journal kräver |journal= ( hjälp )
Gini, Corrado (1912). Variabilitet och mutabilitet . Bologna: Tipografia di Paolo Cuppini. Bibcode : 1912vamu.book.....G .
Gini, Corrado (1921). "Mätning av ojämlikhet och inkomster" . The Economic Journal . 31 (121): 124–126. doi : 10.2307/2223319 . JSTOR 2223319 .
Chakravarty, SR (1990). Etiska sociala indexnummer . New York: Springer-Verlag.
Mills, Jeffrey A.; Zandvakili, Sourushe (1997). "Statistisk slutledning via bootstrapping för mått på ojämlikhet". Journal of Applied Econometrics . 12 (2): 133–150. CiteSeerX 10.1.1.172.5003 . doi : 10.1002/(SICI)1099-1255(199703)12:2<133::AID-JAE433>3.0.CO;2-H .
Lomnicki, ZA (1952). "Standardfelet för Gini's Mean Difference" . Annals of Mathematical Statistics . 23 (4): 635–637. doi : 10.1214/aoms/1177729346 .
Nair, USA (1936). "Standardfel av Gini's Mean Difference". Biometrika . 28 (3–4): 428–436. doi : 10.1093/biomet/28.3-4.428 .
Yitzhaki, Shlomo (2003). "Ginis medelskillnad: ett överlägset mått på variabilitet för icke-normala distributioner" ( PDF) . Metron – International Journal of Statistics . 61 : 285-316.