I statistik är variationssätt en kontinuerligt indexerad uppsättning vektorer eller funktioner som är centrerade vid ett medelvärde och används för att skildra variationen i en population eller ett urval. Typiskt kan variationsmönster i data dekomponeras i fallande ordning av egenvärden med riktningarna representerade av motsvarande egenvektorer eller egenfunktioner . Variationssätt ger en visualisering av denna nedbrytning och en effektiv beskrivning av variation kring medelvärdet. Både i principal komponentanalys (PCA) och i funktionell principal komponentanalys (FPCA) spelar variationssätt en viktig roll för att visualisera och beskriva variationen i data som varje egenkomponent bidrar med. I verkliga applikationer hjälper egenkomponenterna och tillhörande variationssätt för att tolka komplexa data, särskilt i utforskande dataanalys ( EDA).
Formulering
Variationssätt är en naturlig förlängning av PCA och FPCA .
Variationssätt i PCA
Om en slumpmässig vektor har medelvektorn och kovariansmatrisen med egenvärden och motsvarande ortonormal egenvektor genom egennedbrytning av en verklig symmetrisk matris kan kovariansmatrisen dekomponeras som
där är en ortogonal matris vars kolumner är egenvektorerna för , och är en diagonal matris vars poster är egenvärdena för . Genom Karhunen–Loève-expansionen för slumpmässiga vektorer kan man uttrycka den centrerade slumpmässiga vektorn i egenbasen
där är huvudkomponenten associerad med -th egenvektorn med egenskaperna
-
och
Sedan är -:te varianten av uppsättningen av vektorer, indexerade med ,
där vanligtvis väljs som .
Variationssätt i FPCA
För en kvadratintegrerbar slumpmässig funktion där typiskt och är ett intervall, beteckna medelfunktionen med , och kovariansfunktionen av
där är egenvärdena och är de ortonormala egenfunktionerna för den linjära Hilbert–Schmidt-operatorn
Med Karhunen–Loève-satsen kan man uttrycka den centrerade funktionen i egenbasen,
var
är den -te huvudkomponenten med egenskaperna
-
och
Sedan är -:te varianten av uppsättningen funktioner, indexerade med ,
som visas samtidigt över intervallet , vanligtvis för .
Uppskattning
Formuleringen ovan är härledd från egenskaper hos befolkningen. Uppskattning behövs i verkliga tillämpningar. Nyckelidén är att uppskatta medelvärde och kovarians.
Variationssätt i PCA
Antag att data representerar oberoende ritningar från någon -dimensionell population med medelvektor och kovariansmatris . Dessa data ger provmedelvektorn och sampelkovariansmatrisen med egenvärde-egenvektorpar . Sedan -:e variationsläget för uppskattas av
Variationssätt i FPCA
Betrakta realisationer av en kvadratintegrerbar slumpmässig funktion med medelfunktionen och kovariansfunktionen . Funktionell principkomponentanalys tillhandahåller metoder för uppskattning av och i detalj, ofta med punktvis uppskattning och interpolation . Genom att ersätta uppskattningar för de okända kvantiteterna -:e variationssättet för uppskattas med
Ansökningar
Den första och andra varianten av kvinnlig dödlighetsdata från 41 länder 2003
Den första och andra varianten av mäns dödlighetsdata från 41 länder 2003
Variationslägen är användbara för att visualisera och beskriva variationsmönstren i data sorterade efter egenvärden. I verkliga tillämpningar tillåter variationssätt associerade med egenkomponenter att tolka komplexa data, såsom utvecklingen av funktionsegenskaper och andra oändliga dimensionella data. För att illustrera hur variationssätt fungerar i praktiken visas två exempel i graferna till höger, som visar de två första variationssätten. Den heldragna kurvan representerar provets medelfunktion. De streckade, prickstreckade och prickade kurvorna motsvarar variationslägen med och , respektive.
Den första grafen visar de två första variationssätten för kvinnlig dödlighetsdata från 41 länder under 2003. Objektet av intresse är logfarefunktion mellan åldrarna 0 och 100 år. Det första variationssättet tyder på att variationen av kvinnlig dödlighet är mindre för åldrarna runt 0 eller 100, och större för åldrarna runt 25. En lämplig och intuitiv tolkning är att dödlighet runt 25 drivs av oavsiktlig död, medan runt 0 eller 100, dödlighet är relaterad till medfödd sjukdom eller naturlig död.
Jämfört med uppgifter om kvinnlig dödlighet visar variationssätten för mäns dödlighetsdata högre dödlighet efter omkring 20 års ålder, möjligen relaterat till det faktum att medellivslängden för kvinnor är högre än för män.