Högdimensionell statistik

Inom statistisk teori studerar området högdimensionell statistik data vars dimension är större än vad som vanligtvis anses i klassisk multivariat analys . Området uppstod på grund av uppkomsten av många moderna datamängder där dimensionen av datavektorerna kan vara jämförbar med, eller till och med större än, urvalsstorleken, så att motivering för användning av traditionella tekniker, ofta baserade på asymptotiska argument med dimensionen som hölls fast när urvalsstorleken ökade saknades.

Exempel

Parameteruppskattning i linjära modeller

Illustration av den linjära modellen i höga dimensioner: en datamängd består av en svarsvektor

Y\in \mathbb {R} ^{n}

och en designmatris

{\ displaystyle X\in \mathbb {R} ^{n\times p}}

med

p\gg n

. Vårt mål är att uppskatta den okända vektorn

\beta =(\beta _{1},\dots ,\beta _{p})\in \mathbb {R} ^{p}

av regressionskoefficienter där

\beta

ofta antas vara gles , i den meningen att kardinaliteten för mängden

S: =\{j:\beta _{j}\neq 0\}

är liten i jämförelse med

p

.

Den mest grundläggande statistiska modellen för sambandet mellan en kovariatvektor $x\in \mathbb {R} ^{p}$ och en svarsvariabel $y\in \mathbb {R}$ är den linjära modellen

y=x^{\top }\beta +\epsilon ,

där $\beta \in \mathbb {R} ^{p}$ är en okänd parametervektor, och $\epsilon$ är slumpmässigt brus med medelvärde noll och varians $\ sigma ^{2}$ . Givet oberoende svar ${\displaystyle Y_{1},\ldots ,Y_{n}} ,$ med motsvarande kovariater $x_{1},\ldots ,x_{ n}$ , från denna modell kan vi bilda svarsvektorn $Y=(Y_{1},\ldots ,Y_{n})^{\top }$ , och designmatris $X=(x_{1},\ldots ,x_{n})^{\top }\in \mathbb {R} ^{n\ gånger p}$ . När $n\geq p$ och designmatrisen har full kolumnrankning (dvs. dess kolumner är linjärt oberoende ), är den vanliga minsta kvadratens uppskattning av $\beta$

{\hat {\beta }}:=(X^{\top }X)^{-1}X^{\top }Y.

När $\epsilon \sim N(0,\sigma ^{2})$ , är det känt att ${\hat {\beta }}\sim N_{p}{\bigl (}\beta ,\sigma ^{2}(X^{\top }X)^{-1}{\bigr ) }$ . Således ${\hat {\beta }}$ en opartisk skattare av $\beta$ , och Gauss-Markovs sats säger oss att det är den bästa linjära opartiska skattaren .

Överanpassning är dock ett problem när $p$ är av jämförbar storlek med $n$ : matrisen $X^{\top }X$ i definitionen av ${\hat {\beta }}$ kan bli dåligt betingade , med ett litet minimiegenvärde . Under sådana omständigheter ${\displaystyle \mathbb {E} (\|{\hat {\beta }}-\beta \ |^{2})=\sigma ^{2}\mathrm {tr} {\bigl (}(X^{\top }X)^{-1}{\bigr )}} kommer att vara stor ($ eftersom spåret av en matris är summan av dess egenvärden). Ännu värre, när ${\displaystyle p>n} ,$ är matrisen $X^{\top }X$ singular . (Se avsnitt 1.2 och övning 1.2 i .)

Det är viktigt att notera att försämringen av uppskattningsprestanda i höga dimensioner som observerades i föregående stycke inte är begränsad till den vanliga minsta kvadrat-uppskattaren. Faktum är att statistisk slutledning i höga dimensioner är i sig svår, ett fenomen som kallas dimensionalitetens förbannelse, och det kan visas att ingen estimator kan göra det bättre i värsta fall utan ytterligare information (se exempel 15.10). Ändå är situationen i högdimensionell statistik kanske inte hopplös när data har någon lågdimensionell struktur. Ett vanligt antagande för högdimensionell linjär regression är att vektorn för regressionskoefficienter är sparsam , i den meningen att de flesta koordinaterna för $\beta$ är noll. Många statistiska procedurer, inklusive Lasso , har föreslagits för att passa högdimensionella linjära modeller under sådana sparsitetsantaganden.

Kovariansmatrisuppskattning

Ett annat exempel på ett högdimensionellt statistiskt fenomen kan hittas i problemet med kovariansmatrisuppskattning . Antag att vi observerar ${\displaystyle X_{1},\ldots ,X_{n}\in \mathbb {R} ^{p}} ,$ som är iid -drag från något nollmedelvärde distribution med en okänd kovariansmatris $\Sigma \in \mathbb {R} ^{p\times p}$ . En naturlig opartisk skattare av $\Sigma$ är provets kovariansmatris

{\widehat {\Sigma }}:={\frac {1}{n}}\sum _{i=1}^{n}X_{i}X_{i}^{\top }.

I den lågdimensionella inställningen där $n$ ökar och $p$ hålls fast, är ${\displaystyle {\widehat {\Sigma }}} en$ konsekvent skattare av $\Sigma$ i valfri matrisnorm . När $p$ växer med $n$ å andra sidan kan detta konsekvensresultat misslyckas. Som en illustration, anta att varje $X_{i}\sim N_{p}(0,I)$ och $p /n\högerpil \alpha \in (0,1)$ . Om ${\widehat {\Sigma }}$ konsekvent skulle uppskatta ${\displaystyle \Sigma =I} , så$ borde egenvärdena för ${\widehat {\Sigma }}$ närma dig ett när $n$ ökar. Det visar sig att så inte är fallet i denna högdimensionella miljö. Faktum är att de största och minsta egenvärdena för ${\widehat {\Sigma }}$ koncentreras kring $(1+{\sqrt {\alpha }})^{2}$ resp $_$ _ _ _ $\Sigma$ . Ytterligare information om det asymptotiska beteendet hos egenvärdena för ${\widehat {\Sigma }}$ kan erhållas från Marchenko–Pastur-lagen . Ur en icke-asymptotisk synvinkel är det maximala egenvärdet $\lambda _{\mathrm {max} }({\widehat {\Sigma }})$ för ${\widehat {\Sigma }}$ uppfyller

\mathbb {P} \left(\lambda _{\mathrm {max } }({\widehat {\Sigma }})\geq (1+{\sqrt {p/n}}+\delta )^{2}\right)\leq e^{-n\delta ^{2} /2},

för alla $\delta \geq 0$ och alla val av par av $n,p$ .

Återigen behövs ytterligare lågdimensionell struktur för framgångsrik kovariansmatrisuppskattning i höga dimensioner. Exempel på sådana strukturer inkluderar gleshet , låg rangordning och bandighet . Liknande anmärkningar gäller vid uppskattning av en invers kovariansmatris ( precisionsmatris) .

Historia

Ur ett tillämpat perspektiv motiverades forskning inom högdimensionell statistik av insikten att framsteg inom datorteknik dramatiskt hade ökat förmågan att samla in och lagra data, och att traditionella statistiska tekniker som de som beskrivs i exemplen ovan ofta var dåligt utrustade. att hantera de utmaningar som uppstår. Teoretiska framsteg inom området kan spåras tillbaka till det anmärkningsvärda resultatet av Charles Stein 1956, där han bevisade att den vanliga estimatorn för ett multivariat normalmedelvärde var otillåtet med avseende på kvadratisk felförlust i tre eller flera dimensioner. James-Stein-estimatorn gav faktiskt insikten att i högdimensionella miljöer kan man få förbättrad uppskattningsprestanda genom krympning, vilket minskar variansen på bekostnad av att införa en liten del av bias. Denna avvägning mellan bias-varians utnyttjades ytterligare i samband med högdimensionella linjära modeller av Hoerl och Kennard 1970 med introduktionen av åsregression . En annan stor drivkraft för fältet gavs av Robert Tibshiranis arbete med Lasso 1996, som använde $\ell _{1}$ -regularisering för att uppnå samtidig modellval och parameteruppskattning i högdimensionell gles linjär regression . Sedan dess har ett stort antal andra krympningsuppskattare föreslagits för att utnyttja olika lågdimensionella strukturer i ett brett spektrum av högdimensionella statistiska problem.

Ämnen inom högdimensionell statistik

Följande är exempel på ämnen som har fått stor uppmärksamhet i den högdimensionella statistiklitteraturen de senaste åren:

Linjära modeller i höga dimensioner. Linjära modeller är ett av de mest använda verktygen inom statistik och dess tillämpningar. Som sådan är gles linjär regression ett av de mest välstuderade ämnena inom högdimensionell statistisk forskning. Byggande på tidigare arbeten om åsregression och Lasso , har flera andra krympningsuppskattare föreslagits och studerats i detta och relaterade problem. De inkluderar
- Dantzig-väljaren, som minimerar den maximala kovariat-restkorrelationen, istället för restsumman av kvadrater som i lassot, med förbehåll för en $\ell _{1}$ begränsning på koefficienterna.
- Elastiskt nät , som kombinerar $\ell _{1}$ -regularisering av lassot med $\ell _{2}$ -regularisering av åsregression för att tillåta högkorrelerade kovariater att väljas samtidigt med liknande regression koefficienter.
- Grupplasset , som gör att fördefinierade grupper av kovariater kan väljas gemensamt.
- Fused lasso , som regulariserar skillnaden mellan närliggande koefficienter när regressionskoefficienterna reflekterar rumsliga eller tidsmässiga relationer, för att framtvinga en bitvis konstant struktur.
Val av högdimensionell variabel . Förutom att uppskatta den underliggande parametern i regressionsmodeller är ett annat viktigt ämne att söka identifiera de icke-nollkoefficienter, eftersom dessa motsvarar variabler som behövs i en slutlig modell. Var och en av teknikerna som listas under föregående rubrik kan användas för detta ändamål och kombineras ibland med idéer som delsampling genom Stabilitetsval.
Högdimensionell kovarians och precisionsmatrisuppskattning. Dessa problem introducerades ovan; se även krympuppskattning . Metoder inkluderar avsmalnande estimatorer och den begränsade $\ell _{1}$ minimeringsuppskattaren.
Sparsam huvudkomponentanalys . Principal Component Analysis är en annan teknik som bryts ner i höga dimensioner; närmare bestämt, under lämpliga förhållanden, är den ledande egenvektorn för sampelkovariansmatrisen en inkonsekvent skattare av dess populationsmotsvarighet när förhållandet mellan antalet variabler $p$ och antalet observationer $n$ är begränsat bort från noll. Under antagandet att denna ledande egenvektor är sparsam (vilket kan underlätta tolkningen), kan konsistensen återställas.
Matriskomplettering . Detta ämne, som handlar om uppgiften att fylla i de saknade posterna i en delvis observerad matris, blev populärt till stor del på grund av Netflix-priset för att förutsäga användarbetyg för filmer.
Högdimensionell klassificering. Linjär diskriminantanalys kan inte användas när $p>n$ , eftersom sampelkovariansmatrisen är singular . Alternativa tillvägagångssätt har föreslagits baserat på naiva Bayes , urval av funktioner och slumpmässiga projektioner .
Grafiska modeller för högdimensionell data . Grafiska modeller används för att koda den villkorliga beroendestrukturen mellan olika variabler. Under ett Gaussianitetsantagande reduceras problemet till att uppskatta en gles precisionsmatris, diskuterat ovan.

Anteckningar

Johannes Lederer (2022). Grunderna för högdimensionell statistik . Cham: Springer.
Christophe Giraud (2015). Introduktion till högdimensionell statistik . Philadelphia: Chapman och Hall/CRC.
T. Tony Cai, Xiaotong Shen, red. (2011). Högdimensionell dataanalys . Statistikens gränser. Singapore: World Scientific.
Peter Bühlmann och Sara van de Geer (2011). Statistik för högdimensionell data: metoder, teori och tillämpningar . Heidelberg; New York: Springer.
Martin J. Wainwright (2019). Högdimensionell statistik: En icke-asymptotisk synvinkel . Cambridge, Storbritannien: Cambridge University Press.