Sammansättningsdata
Inom statistik är sammansättningsdata kvantitativa beskrivningar av delar av en helhet, som förmedlar relativ information . Matematiskt representeras sammansättningsdata av punkter på ett simplex . Mätningar som involverar sannolikheter, proportioner, procenttal och ppm kan alla ses som sammansättningsdata.
Ternär tomt
Kompositionsdata i tre variabler kan plottas via ternära plots . Användningen av en barycentrisk plot på tre variabler visar grafiskt förhållandena mellan de tre variablerna som positioner i en liksidig triangel .
Enkelt provutrymme
I allmänhet definierade John Aitchison kompositionsdata som proportioner av någon helhet 1982. I synnerhet kan en kompositionsdatapunkt (eller sammansättning för kort) representeras av en verklig vektor med positiva komponenter. Exempelutrymmet för sammansättningsdata är ett simplex:
Den enda informationen ges av förhållandena mellan komponenterna, så informationen om en komposition bevaras under multiplikation med en positiv konstant. Därför kan sampelutrymmet för sammansättningsdata alltid antas vara ett standardsimplex, dvs . I detta sammanhang kallas normalisering till standardsimplexet stängning och betecknas med :
där D är antalet delar (komponenter) och anger en radvektor.
Aitchison geometri
Simplexet kan ges strukturen av ett verkligt vektorrum på flera olika sätt. Följande vektorrymdstruktur kallas Aitchison geometri eller Aitchison simplex och har följande operationer:
- Störning
- Powering
- produkt
Enbart under dessa operationer är det tillräckligt att visa att Aitchison simplex bildar ett -dimensionellt euklidiskt vektorrum.
Ortonormala baser
Eftersom Aitchison simplex bildar ett ändligt dimensionellt Hilbert-rum är det möjligt att konstruera ortonormala baser i simplexen. Varje komposition kan dekomponeras enligt följande
där bildar en ortonormal bas i simplexet. Värdena är de (ortonormala och kartesiska) koordinaterna av med avseende på den givna basen. De kallas isometriska log-ratio koordinater .
Linjära transformationer
Det finns tre välkarakteriserade isomorfismer som förvandlas från Aitchison simplex till verkliga rymden. Alla dessa transformationer uppfyller linjäritet och enligt nedan
Additiv logratiotransform
Den additiva logkvoten (alr)-transformen är en isomorfism där . Detta ges av
Valet av nämnarkomponent är godtyckligt och kan vara vilken som helst specificerad komponent. Denna transformation används ofta inom kemi med mätningar som pH. Dessutom är detta den transformation som oftast används för multinomial logistisk regression . alr-transformen är inte en isometri, vilket innebär att avstånd på transformerade värden inte kommer att motsvara avstånden på de ursprungliga kompositionerna i simplexet.
Centrumlogratiotransform
Centrumloggförhållandet (clr)-transformen är både en isomorfism och en isometri där
Där är det geometriska medelvärdet av . Inversen av denna funktion är också känd som softmax-funktionen .
Isometrisk logratiotransform
Den isometriska logkvoten (ilr)-transformen är både en isomorfism och en isometri där
Det finns flera sätt att konstruera ortonormala baser, inklusive att använda Gram-Schmidt-ortogonaliseringen eller singularvärdesuppdelning av clr-transformerade data. Ett annat alternativ är att konstruera stockkontraster från ett grenigt träd. Om vi får ett bifurcating träd kan vi konstruera en bas från de interna noderna i trädet.
Varje vektor i basen skulle bestämmas enligt följande
Elementen inom varje vektor ges enligt följande
där är respektive antal spetsar i motsvarande underträd som visas i figuren. Det kan visas att den resulterande basen är ortonormal
När grunden är byggd kan ilr-transformen beräknas enligt följande
där varje element i ilr-transformerade data har följande form
där och är den uppsättning värden som motsvarar spetsarna i underträden och
Exempel
- Inom kemi kan kompositioner uttryckas som molära koncentrationer av varje komponent. Eftersom summan av alla koncentrationer inte bestäms, behövs hela sammansättningen av D- delar och uttrycks således som en vektor av D- molära koncentrationer. Dessa kompositioner kan översättas till viktprocent multiplicering av varje komponent med den tilldelade konstanten.
- I demografi kan en stad vara en sammansättningsdatapunkt i ett urval av städer; en stad där 35 % av människorna är kristna, 55 % är muslimer, 6 % är judar och de återstående 4 % är andra skulle motsvara fyrdubblingen [0,35, 0,55, 0,06, 0,04]. En datamängd skulle motsvara en lista över städer.
- Inom geologi kan en sten som består av olika mineraler vara en sammansättningsdatapunkt i ett prov av stenar; en sten där 10 % är det första mineralet, 30 % är det andra och de återstående 60 % är det tredje skulle motsvara trippeln [0,1, 0,3, 0,6]. En datamängd skulle innehålla en sådan trippel för varje sten i ett urval av stenar.
- Vid sekvensering med hög genomströmning omvandlas erhållna data vanligtvis till relativa mängder, vilket gör dem sammansatta.
- I sannolikhet och statistik beskrivs en uppdelning av samplingsutrymmet i osammanhängande händelser av sannolikheterna som är tilldelade sådana händelser. Vektorn av D -sannolikheter kan betraktas som en sammansättning av D -delar. När de lägger till en, kan en sannolikhet undertryckas och sammansättningen är helt bestämd.
- Inom kemometri , för klassificering av petroleumoljor.
- I en undersökning kan andelen personer som svarar positivt på vissa olika frågor uttryckas i procent. Eftersom den totala mängden identifieras som 100, kan sammansättningsvektorn för D -komponenter definieras med endast D − 1-komponenter, förutsatt att den återstående komponenten är den procentandel som behövs för att hela vektorn ska läggas till 100.
Se även
Anteckningar
- Aitchison, J. (2011) [1986], The Statistical Analysis of Compositional Data , Monographs on statistik och tillämpad sannolikhet, Springer, ISBN 978-94-010-8324-9
- van den Boogaart, K. Gerald; Tolosana-Delgado, Raimon (2013), Analyzing Compositional Data with R , Springer, ISBN 978-3-642-36809-7
- Egozcue, Juan Jose; Pawlowsky-Glahn, Vera; Mateu-Figueras, Gloria; Barcelo-Vidal, Carles (2003), "Isometric logratio transformations for composital data analysis", Mathematical Geology , 35 (3): 279–300, doi : 10.1023/A:1023818214614 , S2CID 122844634
- Egozcue, Juan Jose; Pawlowsky-Glahn, Vera (2005), "Groups of parts and their balances in compoundal data analysis", Mathematical Geology , 37 (7): 795–828, doi : 10.1007/s11004-005-7381-9 , S2CID 4506133
- Pawlowsky-Glahn, Vera ; Egozcue, Juan Jose; Tolosana-Delgado, Raimon (2015), Modeling and Analysis of Compositional Data , Wiley, doi : 10.1002/9781119003144 , ISBN 9781119003144
externa länkar
- CoDaWeb – Webbplats för sammansättningsdata
-
Pawlowsky-Glahn, V.; Egozcue, JJ; Tolosana-Delgado, R. (2007). "Föreläsningsanteckningar om sammansättningsdataanalys". hdl : 10256/297 .
{{ citera journal }}
: Citera journal kräver|journal=
( hjälp ) - Varför och hur bör geologer använda kompositionsdataanalys ( wikibook)