Sammansättningsdata

Inom statistik är sammansättningsdata kvantitativa beskrivningar av delar av en helhet, som förmedlar relativ information . Matematiskt representeras sammansättningsdata av punkter på ett simplex . Mätningar som involverar sannolikheter, proportioner, procenttal och ppm kan alla ses som sammansättningsdata.

Ternär tomt

Kompositionsdata i tre variabler kan plottas via ternära plots . Användningen av en barycentrisk plot på tre variabler visar grafiskt förhållandena mellan de tre variablerna som positioner i en liksidig triangel .

Enkelt provutrymme

I allmänhet definierade John Aitchison kompositionsdata som proportioner av någon helhet 1982. I synnerhet kan en kompositionsdatapunkt (eller sammansättning för kort) representeras av en verklig vektor med positiva komponenter. Exempelutrymmet för sammansättningsdata är ett simplex:

{\mathcal {S}}^{D}=\left\{\mathbf {x} =[x_{1},x_{2},\dots ,x_{D}]\in \mathbb {R } ^{D}\,\left|\,x_{i}>0,i=1,2,\dots ,D;\summa _{i=1}^{D}x_{i}=\kappa \ eller hur\}.\

En illustration av Aitchison simplex. Här finns det 3 delar,

x_{1},x_{2},x_{3}

representerar värden av olika proportioner. A, B, C, D och E är 5 olika sammansättningar inom simplexen. A, B och C är alla likvärdiga och D och E är likvärdiga.

Den enda informationen ges av förhållandena mellan komponenterna, så informationen om en komposition bevaras under multiplikation med en positiv konstant. Därför kan sampelutrymmet för sammansättningsdata alltid antas vara ett standardsimplex, dvs $\kappa =1$ . I detta sammanhang kallas normalisering till standardsimplexet stängning och betecknas med $\scriptstyle {\mathcal {C}}[\,\cdot \,]$ :

{\ displaystyle {\mathcal {C}}[x_{1},x_{2},\dots ,x_{D}]=\left[{\frac {x_{1}}{\sum _{i=1}^ {D}x_{i}}},{\frac {x_{2}}{\sum _{i=1}^{D}x_{i}}},\dots ,{\frac {x_{D} }{\summa _{i=1}^{D}x_{i}}}\höger],\ }

där D är antalet delar (komponenter) och $[\cdot ]$ anger en radvektor.

Aitchison geometri

Simplexet kan ges strukturen av ett verkligt vektorrum på flera olika sätt. Följande vektorrymdstruktur kallas Aitchison geometri eller Aitchison simplex och har följande operationer:

Störning

x\oplus y=\left[{\frac {x_{1}y_{1}}{\sum _ {i=1}^{D}x_{i}y_{i}}},{\frac {x_{2}y_{2}}{\summa _{i=1}^{D}x_{i} y_{i}}},\dots ,{\frac {x_{D}y_{D}}{\sum _{i=1}^{D}x_{i}y_{i}}}\right]= C[x_{1}y_{1},\ldots ,x_{D}y_{D}]\qquad \forall x,y\in S^{D}

Powering

{\displaystyle \alpha \odot x=\left[{\frac {x_{1}^{\alpha }}{\sum _{i=1}^{D}x_{i}^{\ alpha }}},{\frac {x_{2}^{\alpha }}{\sum _{i=1}^{D}x_{i}^{\alpha }}},\ldots,{\frac {x_{D}^{\alpha }}{\sum _{i=1}^{D}x_{i}^{\alpha }}}\right]=C[x_{1}^{\alpha } ,\ldots ,x_{D}^{\alpha }]\qquad \forall x\in S^{D},\;\alpha \in \mathbb {R} } Inre

produkt

\langle x,y\rangle ={\frac {1}{2D}} \sum _{i=1}^{D}\summa _{j=1}^{D}\log {\frac {x_{i}}{x_{j}}}\log {\frac {y_{ i}}{y_{j}}}\qquad \forall x,y\in S^{D}

Enbart under dessa operationer är det tillräckligt att visa att Aitchison simplex bildar ett $(D-1)$ -dimensionellt euklidiskt vektorrum.

Ortonormala baser

Eftersom Aitchison simplex bildar ett ändligt dimensionellt Hilbert-rum är det möjligt att konstruera ortonormala baser i simplexen. Varje komposition $x$ kan dekomponeras enligt följande

x=\bigoplus _{i=1}^{D}x_{i}^{*}\odot e_{i}

där $e_{1},\ldots ,e_{D-1}$ bildar en ortonormal bas i simplexet. Värdena $x_{i}^{*},i=1,2,\ldots ,D-1$ är de (ortonormala och kartesiska) koordinaterna av $x$ med avseende på den givna basen. De kallas isometriska log-ratio koordinater $(\operatorname {ilr} )$ .

Linjära transformationer

Det finns tre välkarakteriserade isomorfismer som förvandlas från Aitchison simplex till verkliga rymden. Alla dessa transformationer uppfyller linjäritet och enligt nedan

Additiv logratiotransform

Den additiva logkvoten (alr)-transformen är en isomorfism där $\operatorname {alr} :S^{D}\rightarrow \mathbb {R} ^{D-1}$ . Detta ges av

\operatorname {alr} (x)=\left[\log {\frac {x_{1}}{ x_{D}}}\cdots \log {\frac {x_{D-1}}{x_{D}}}\right]

Valet av nämnarkomponent är godtyckligt och kan vara vilken som helst specificerad komponent. Denna transformation används ofta inom kemi med mätningar som pH. Dessutom är detta den transformation som oftast används för multinomial logistisk regression . alr-transformen är inte en isometri, vilket innebär att avstånd på transformerade värden inte kommer att motsvara avstånden på de ursprungliga kompositionerna i simplexet.

Centrumlogratiotransform

Centrumloggförhållandet (clr)-transformen är både en isomorfism och en isometri där $\operatorname {clr} :S^{D}\högerpil U,\quad U\subset \mathbb {R} ^{D}$

\operatorname {clr} (x)=\left[\log {\frac {x_{1} }{g(x)}}\cdots \log {\frac {x_{D}}{g(x)}}\right]

Där $g(x)$ är det geometriska medelvärdet av $x$ . Inversen av denna funktion är också känd som softmax-funktionen .

Isometrisk logratiotransform

Den isometriska logkvoten (ilr)-transformen är både en isomorfism och en isometri där $\operatorname {ilr} :S^{D}\rightarrow \mathbb {R} ^{D- 1}$

\operatorname {ilr} (x)={\big [}\langle x,e_{1} \rangle ,\ldots ,\langle x,e_{D-1}\rangle {\big ]}

Det finns flera sätt att konstruera ortonormala baser, inklusive att använda Gram-Schmidt-ortogonaliseringen eller singularvärdesuppdelning av clr-transformerade data. Ett annat alternativ är att konstruera stockkontraster från ett grenigt träd. Om vi får ett bifurcating träd kan vi konstruera en bas från de interna noderna i trädet.

En representation av ett träd i termer av dess ortogonala komponenter. l representerar en intern nod, en del av den ortonormala basen. Detta är en föregångare till att använda trädet som en ställning för ilr-transformen

Varje vektor i basen skulle bestämmas enligt följande

e_{\ell }=C[\exp (\,\underbrace {0,\ldots ,0} _{k},\underbrace {a,\ldots,a} _{r},\underbrace {b,\ldots ,b} _{s},\underbrace {0,\ldots ,0} _{t}\,)]

Elementen inom varje vektor ges enligt följande

a={\frac {\sqrt {s}}{\sqrt {r(r+s)}}}\quad {\text{and}}\quad b={\frac {-{\sqrt {r}}}{\sqrt {s(r+s)}}}

där $k,r,s,t$ är respektive antal spetsar i motsvarande underträd som visas i figuren. Det kan visas att den resulterande basen är ortonormal

När grunden $\Psi$ är byggd kan ilr-transformen beräknas enligt följande

\operatörsnamn {ilr} (x)=\operatörsnamn {clr} (x)\Psi ^{T}

där varje element i ilr-transformerade data har följande form

b_{i}={\sqrt {\frac {rs}{r+s}}}\log {\frac { g(x_{R})}{g(x_{S})}}

där $x_{R}$ och $x_{S}$ är den uppsättning värden som motsvarar spetsarna i underträden $R$ och $S$

Exempel

Inom kemi kan kompositioner uttryckas som molära koncentrationer av varje komponent. Eftersom summan av alla koncentrationer inte bestäms, behövs hela sammansättningen av D- delar och uttrycks således som en vektor av D- molära koncentrationer. Dessa kompositioner kan översättas till viktprocent multiplicering av varje komponent med den tilldelade konstanten.
I demografi kan en stad vara en sammansättningsdatapunkt i ett urval av städer; en stad där 35 % av människorna är kristna, 55 % är muslimer, 6 % är judar och de återstående 4 % är andra skulle motsvara fyrdubblingen [0,35, 0,55, 0,06, 0,04]. En datamängd skulle motsvara en lista över städer.
Inom geologi kan en sten som består av olika mineraler vara en sammansättningsdatapunkt i ett prov av stenar; en sten där 10 % är det första mineralet, 30 % är det andra och de återstående 60 % är det tredje skulle motsvara trippeln [0,1, 0,3, 0,6]. En datamängd skulle innehålla en sådan trippel för varje sten i ett urval av stenar.
Vid sekvensering med hög genomströmning omvandlas erhållna data vanligtvis till relativa mängder, vilket gör dem sammansatta.
I sannolikhet och statistik beskrivs en uppdelning av samplingsutrymmet i osammanhängande händelser av sannolikheterna som är tilldelade sådana händelser. Vektorn av D -sannolikheter kan betraktas som en sammansättning av D -delar. När de lägger till en, kan en sannolikhet undertryckas och sammansättningen är helt bestämd.
Inom kemometri , för klassificering av petroleumoljor.
I en undersökning kan andelen personer som svarar positivt på vissa olika frågor uttryckas i procent. Eftersom den totala mängden identifieras som 100, kan sammansättningsvektorn för D -komponenter definieras med endast D − 1-komponenter, förutsatt att den återstående komponenten är den procentandel som behövs för att hela vektorn ska läggas till 100.

Se även

Anteckningar

Aitchison, J. (2011) [1986], The Statistical Analysis of Compositional Data , Monographs on statistik och tillämpad sannolikhet, Springer, ISBN 978-94-010-8324-9
van den Boogaart, K. Gerald; Tolosana-Delgado, Raimon (2013), Analyzing Compositional Data with R , Springer, ISBN 978-3-642-36809-7
Egozcue, Juan Jose; Pawlowsky-Glahn, Vera; Mateu-Figueras, Gloria; Barcelo-Vidal, Carles (2003), "Isometric logratio transformations for composital data analysis", Mathematical Geology , 35 (3): 279–300, doi : 10.1023/A:1023818214614 , S2CID 122844634
Egozcue, Juan Jose; Pawlowsky-Glahn, Vera (2005), "Groups of parts and their balances in compoundal data analysis", Mathematical Geology , 37 (7): 795–828, doi : 10.1007/s11004-005-7381-9 , S2CID 4506133
Pawlowsky-Glahn, Vera ; Egozcue, Juan Jose; Tolosana-Delgado, Raimon (2015), Modeling and Analysis of Compositional Data , Wiley, doi : 10.1002/9781119003144 , ISBN 9781119003144

externa länkar

CoDaWeb – Webbplats för sammansättningsdata
Pawlowsky-Glahn, V.; Egozcue, JJ; Tolosana-Delgado, R. (2007). "Föreläsningsanteckningar om sammansättningsdataanalys". hdl : 10256/297 . {{ citera journal }} : Citera journal kräver |journal= ( hjälp )
Varför och hur bör geologer använda kompositionsdataanalys ( wikibook)