Variationssätt

I statistik är variationssätt en kontinuerligt indexerad uppsättning vektorer eller funktioner som är centrerade vid ett medelvärde och används för att skildra variationen i en population eller ett urval. Typiskt kan variationsmönster i data dekomponeras i fallande ordning av egenvärden med riktningarna representerade av motsvarande egenvektorer eller egenfunktioner . Variationssätt ger en visualisering av denna nedbrytning och en effektiv beskrivning av variation kring medelvärdet. Både i principal komponentanalys (PCA) och i funktionell principal komponentanalys (FPCA) spelar variationssätt en viktig roll för att visualisera och beskriva variationen i data som varje egenkomponent bidrar med. I verkliga applikationer hjälper egenkomponenterna och tillhörande variationssätt för att tolka komplexa data, särskilt i utforskande dataanalys ( EDA).

Formulering

Variationssätt är en naturlig förlängning av PCA och FPCA .

Variationssätt i PCA

Om en slumpmässig vektor har medelvektorn och kovariansmatrisen med egenvärden och motsvarande ortonormal egenvektor genom egennedbrytning av en verklig symmetrisk matris kan kovariansmatrisen dekomponeras som

där är en ortogonal matris vars kolumner är egenvektorerna för , och är en diagonal matris vars poster är egenvärdena för . Genom Karhunen–Loève-expansionen för slumpmässiga vektorer kan man uttrycka den centrerade slumpmässiga vektorn i egenbasen

där är huvudkomponenten associerad med -th egenvektorn med egenskaperna

och

Sedan är -:te varianten av uppsättningen av vektorer, indexerade med ,

där vanligtvis väljs som .

Variationssätt i FPCA

För en kvadratintegrerbar slumpmässig funktion där typiskt och är ett intervall, beteckna medelfunktionen med , och kovariansfunktionen av

där är egenvärdena och är de ortonormala egenfunktionerna för den linjära Hilbert–Schmidt-operatorn

Med Karhunen–Loève-satsen kan man uttrycka den centrerade funktionen i egenbasen,

var

är den -te huvudkomponenten med egenskaperna

och

Sedan är -:te varianten av uppsättningen funktioner, indexerade med ,

som visas samtidigt över intervallet , vanligtvis för .

Uppskattning

Formuleringen ovan är härledd från egenskaper hos befolkningen. Uppskattning behövs i verkliga tillämpningar. Nyckelidén är att uppskatta medelvärde och kovarians.

Variationssätt i PCA

Antag att data representerar oberoende ritningar från någon -dimensionell population med medelvektor och kovariansmatris . Dessa data ger provmedelvektorn och sampelkovariansmatrisen med egenvärde-egenvektorpar . Sedan -:e variationsläget för uppskattas av

Variationssätt i FPCA

Betrakta realisationer av en kvadratintegrerbar slumpmässig funktion med medelfunktionen och kovariansfunktionen . Funktionell principkomponentanalys tillhandahåller metoder för uppskattning av och i detalj, ofta med punktvis uppskattning och interpolation . Genom att ersätta uppskattningar för de okända kvantiteterna -:e variationssättet för uppskattas med

Ansökningar

Den första och andra varianten av kvinnlig dödlighetsdata från 41 länder 2003
Den första och andra varianten av mäns dödlighetsdata från 41 länder 2003

Variationslägen är användbara för att visualisera och beskriva variationsmönstren i data sorterade efter egenvärden. I verkliga tillämpningar tillåter variationssätt associerade med egenkomponenter att tolka komplexa data, såsom utvecklingen av funktionsegenskaper och andra oändliga dimensionella data. För att illustrera hur variationssätt fungerar i praktiken visas två exempel i graferna till höger, som visar de två första variationssätten. Den heldragna kurvan representerar provets medelfunktion. De streckade, prickstreckade och prickade kurvorna motsvarar variationslägen med och , respektive.

Den första grafen visar de två första variationssätten för kvinnlig dödlighetsdata från 41 länder under 2003. Objektet av intresse är logfarefunktion mellan åldrarna 0 och 100 år. Det första variationssättet tyder på att variationen av kvinnlig dödlighet är mindre för åldrarna runt 0 eller 100, och större för åldrarna runt 25. En lämplig och intuitiv tolkning är att dödlighet runt 25 drivs av oavsiktlig död, medan runt 0 eller 100, dödlighet är relaterad till medfödd sjukdom eller naturlig död.

Jämfört med uppgifter om kvinnlig dödlighet visar variationssätten för mäns dödlighetsdata högre dödlighet efter omkring 20 års ålder, möjligen relaterat till det faktum att medellivslängden för kvinnor är högre än för män.