Variationssätt

I statistik är variationssätt en kontinuerligt indexerad uppsättning vektorer eller funktioner som är centrerade vid ett medelvärde och används för att skildra variationen i en population eller ett urval. Typiskt kan variationsmönster i data dekomponeras i fallande ordning av egenvärden med riktningarna representerade av motsvarande egenvektorer eller egenfunktioner . Variationssätt ger en visualisering av denna nedbrytning och en effektiv beskrivning av variation kring medelvärdet. Både i principal komponentanalys (PCA) och i funktionell principal komponentanalys (FPCA) spelar variationssätt en viktig roll för att visualisera och beskriva variationen i data som varje egenkomponent bidrar med. I verkliga applikationer hjälper egenkomponenterna och tillhörande variationssätt för att tolka komplexa data, särskilt i utforskande dataanalys ( EDA).

Formulering

Variationssätt är en naturlig förlängning av PCA och FPCA .

Variationssätt i PCA

Om en slumpmässig vektor $\mathbf {X} =(X_{1},X_{2},\cdots ,X_{p})^{T }$ har medelvektorn ${\boldsymbol {\mu }}_{p}$ och kovariansmatrisen $\mathbf {\Sigma } _{p\times p}$ med egenvärden $\lambda _{1}\geq \lambda _{2}\geq \cdots \geq \lambda _{p}\geq 0$ och motsvarande ortonormal egenvektor ${\displaystyle \mathbf {e} _{1},\mathbf {e} _{2},\cdots ,\mathbf {e} _{p}} ,$ genom egennedbrytning av en verklig symmetrisk matris kan kovariansmatrisen $\mathbf {\Sigma }$ dekomponeras som

\mathbf {\Sigma } =\mathbf {Q} \mathbf {\Lambda } \mathbf {Q} ^{T},

där $\mathbf {Q}$ är en ortogonal matris vars kolumner är egenvektorerna för $\mathbf {\Sigma }$ , och $\mathbf {\Lambda }$ är en diagonal matris vars poster är egenvärdena för $\mathbf {\Sigma }$ . Genom Karhunen–Loève-expansionen för slumpmässiga vektorer kan man uttrycka den centrerade slumpmässiga vektorn i egenbasen

\mathbf {X} -{\boldsymbol {\mu }}=\summa _{k=1}^{p}\xi _{k} \mathbf {e} _{k},

där $\xi _{k}=\mathbf {e} _{k}^{T}(\mathbf {X} -{\boldsymbol {\mu }} )$ är huvudkomponenten associerad med $k$ -th egenvektorn ${\displaystyle \mathbf {e} _{k}} ,$ med egenskaperna

{\displaystyle \operatörsnamn {E} (\xi _{k})=0,\operatörsnamn {Var} (\xi _{k}) =\lambda _{k

\operatörsnamn {E} (\xi _{k}\xi _{l})=0\ {\text{för}}\ l\neq k.

och

Sedan är $k$ -:te varianten av $\mathbf {X}$ uppsättningen av vektorer, indexerade med $\alpha$ ,

\mathbf {m} _{k,\alpha }={\boldsymbol {\mu }}\pm \alpha {\sqrt {\lambda _{k}}}\mathbf {e} _{k},\alpha \in [-A,A],

där $A$ vanligtvis väljs som $2\ {\text{eller}}\ 3$ .

Variationssätt i FPCA

För en kvadratintegrerbar slumpmässig funktion ${\displaystyle X(t),t\in {\mathcal {T}}\subset R^{p}} ,$ där typiskt $p=1$ och ${\mathcal {T}}$ är ett intervall, beteckna medelfunktionen med $\mu (t) =\operatörsnamn {E} (X(t))$ , och kovariansfunktionen av

G(s,t)=\ operatornamn {Cov} (X(s),X(t))=\sum _{k=1}^{\infty }\lambda _{k}\varphi _{k}(s)\varphi _{k} (t),

där $\lambda _{1}\geq \lambda _{2}\geq \cdots \geq 0$ är egenvärdena och $\{\varphi _{1},\varphi _{2},\cdots \}$ är de ortonormala egenfunktionerna för den linjära Hilbert–Schmidt-operatorn

G:L^{2}({\mathcal {T}})\högerpil L^{2}({\mathcal {T}}),\,G(f)=\int _{\mathcal { T}}G(s,t)f(s)ds.

Med Karhunen–Loève-satsen kan man uttrycka den centrerade funktionen i egenbasen,

X(t)-\mu (t)=\summa _{k=1}^{\infty } \xi _{k}\varphi _{k}(t),

var

\xi _{k}=\int _{\mathcal {T}}(X(t)-\ mu (t))\varphi _{k}(t)dt

är den $k$ -te huvudkomponenten med egenskaperna

\operatörsnamn {E} (\xi _{k})=0,\operatörsnamn {Var} (\xi _{k}) =\lambda _{k},

och

\operatorname {E} (\xi _{k}\xi _{l})=0{\text{ för }}l\neq k.

Sedan är $k$ -:te varianten av $X(t)$ uppsättningen funktioner, indexerade med $\alpha$ ,

m_{k,\alpha }(t)=\mu (t)\pm \alpha {\sqrt {\lambda _{k}}}\varphi _{k}(t),\ t\in {\mathcal {T}},\ \alpha \in [-A, A]

som visas samtidigt över intervallet $\alpha$ , vanligtvis för $A=2\ {\text{or}}\ 3$ .

Uppskattning

Formuleringen ovan är härledd från egenskaper hos befolkningen. Uppskattning behövs i verkliga tillämpningar. Nyckelidén är att uppskatta medelvärde och kovarians.

Variationssätt i PCA

Antag att data $\mathbf {x} _{1},\mathbf {x} _{2},\cdots ,\mathbf {x} _{n}$ representerar $n$ oberoende ritningar från någon $p$ -dimensionell population $\mathbf {X}$ med medelvektor ${\boldsymbol {\mu }}$ och kovariansmatris $\mathbf {\Sigma }$ . Dessa data ger provmedelvektorn ${\overline {\mathbf {x} }}$ och sampelkovariansmatrisen $\mathbf {S}$ med egenvärde-egenvektorpar $({\hat {\lambda }}_{1},{\hat {\mathbf { e} }}_{1}),({\hat {\lambda }}_{2},{\hat {\mathbf {e}}}_{2}),\cdots ,({\hat {\ lambda }}_{p},{\hat {\mathbf {e} }}_{p})$ . Sedan $k$ -:e variationsläget för $\mathbf {X}$ uppskattas av

{\hat {\mathbf {m} }}_{k,\alpha }={\overline {\mathbf {x} }}\pm \alpha {\sqrt {{\hat {\lambda }}_ {k}}}{\hat {\mathbf {e} }}_{k},\alpha \in [-A,A].

Variationssätt i FPCA

Betrakta $n$ realisationer $X_{1}(t),X_{2}(t),\cdots ,X_ {n}(t)$ av en kvadratintegrerbar slumpmässig funktion $X(t),t\in {\mathcal {T}}$ med medelfunktionen $\mu (t)=\operatörsnamn {E} (X(t))$ och kovariansfunktionen $G(s,t)=\operatörsnamn {Cov} (X(s),X(t))$ . Funktionell principkomponentanalys tillhandahåller metoder för uppskattning av $\mu (t)$ och $G(s,t)$ i detalj, ofta med punktvis uppskattning och interpolation . Genom att ersätta uppskattningar för de okända kvantiteterna $k$ -:e variationssättet för $X(t)$ uppskattas med

{\hat {m}}_{k,\alpha }(t)={\hat {\mu }}(t)\pm \alpha {\sqrt {{\hat {\lambda}}_{ k}}}{\hat {\varphi }}_{k}(t),t\in {\mathcal {T}},\alpha \in [-A,A].

Ansökningar

Den första och andra varianten av kvinnlig dödlighetsdata från 41 länder 2003

Den första och andra varianten av mäns dödlighetsdata från 41 länder 2003

Variationslägen är användbara för att visualisera och beskriva variationsmönstren i data sorterade efter egenvärden. I verkliga tillämpningar tillåter variationssätt associerade med egenkomponenter att tolka komplexa data, såsom utvecklingen av funktionsegenskaper och andra oändliga dimensionella data. För att illustrera hur variationssätt fungerar i praktiken visas två exempel i graferna till höger, som visar de två första variationssätten. Den heldragna kurvan representerar provets medelfunktion. De streckade, prickstreckade och prickade kurvorna motsvarar variationslägen med $\alpha =\pm 1,\pm 2,$ och $\pm 3$ , respektive.

Den första grafen visar de två första variationssätten för kvinnlig dödlighetsdata från 41 länder under 2003. Objektet av intresse är logfarefunktion mellan åldrarna 0 och 100 år. Det första variationssättet tyder på att variationen av kvinnlig dödlighet är mindre för åldrarna runt 0 eller 100, och större för åldrarna runt 25. En lämplig och intuitiv tolkning är att dödlighet runt 25 drivs av oavsiktlig död, medan runt 0 eller 100, dödlighet är relaterad till medfödd sjukdom eller naturlig död.

Jämfört med uppgifter om kvinnlig dödlighet visar variationssätten för mäns dödlighetsdata högre dödlighet efter omkring 20 års ålder, möjligen relaterat till det faktum att medellivslängden för kvinnor är högre än för män.