Matrisregularisering

Inom området för statistisk inlärningsteori generaliserar matrisregularisering föreställningar om vektorregularisering till fall där objektet som ska läras är en matris . Syftet med regularisering är att upprätthålla förhållanden, till exempel gleshet eller jämnhet, som kan producera stabila prediktiva funktioner. Till exempel, i det vanligare vektorramverket, optimerar Tikhonov-regulariseringen över

\min _{x}\|Ax-y\|^{2}+\lambda \|x\|^{2}

för att hitta en vektor $x$ som är en stabil lösning på regressionsproblemet. När systemet beskrivs av en matris snarare än en vektor, kan detta problem skrivas som

\min _{X}\|AX-Y\|^{2}+\lambda \|X\|^{2},

där vektornormen som upprätthåller en regleringsstraff på $x$ har utökats till en matrisnorm på $X$ .

Matrisregularisering har tillämpningar inom matriskomplettering , multivariat regression och multi-task inlärning . Idéer om funktions- och gruppval kan också utökas till matriser, och dessa kan generaliseras till det icke-parametriska fallet med inlärning av flera kärnor .

Grundläggande definition

Betrakta en matris $W$ som kan läras från en uppsättning exempel, $S=(X_{i}^{t},y_{i}^{ t})$ , där $i$ går från $1$ till $n$ , och $t$ går från $1$ till $T$ . Låt varje inmatningsmatris $X_{i}$ vara ${\displaystyle \in \mathbb {R} ^{DT}} ,$ och låt $W$ ha storleken $D\times T$ . En allmän modell för utgången $y$ kan ställas upp som

y_{i}^{t}=\langle W,X_{i}^{t}\rangle _{F},

där den inre produkten är den inre produkten från Frobenius . För olika applikationer kommer matriserna $X_{i}$ att ha olika former, men för var och en av dessa kan optimeringsproblemet att sluta sig till $W$ skrivas som

\min _{W\in {\mathcal {H}}}E(W)+R(W),

där $E$ definierar det empiriska felet för en given $W$ , och $R(W)$ är en matrisregulariseringsstraff. Funktionen $R(W)$ väljs vanligtvis att vara konvex och väljs ofta för att framtvinga sparsitet (med $\ell ^{1}$ -normer) och/eller jämnhet (med hjälp av $\ell ^{2}$ -normer). Slutligen $W$ i utrymmet för matriserna ${\mathcal {H}}$ med Frobenius inre produkt $\langle \dots \rangle _{F}$ .

Allmänna tillämpningar

Matriskomplettering

I problemet med matriskomplettering tar matrisen $X_{i}^{t}$ formen

X_{i}^{t}=e_{t}\otimes e_{i}',

där $(e_{t})_{t}$ och $(e_{i}')_{i}$ är den kanoniska grunden i $\mathbb {R} ^{T}$ och $\mathbb {R} ^{D}$ . I det här fallet är rollen för Frobenius inre produkt att välja individuella element med $\displaystyle w_{i}^{t}}$ matrisen $W}$ . Sålunda är utgången $y$ ett urval av poster från matrisen $W$ .

Problemet med att rekonstruera $W$ från en liten uppsättning samplade poster är endast möjligt under vissa restriktioner på matrisen, och dessa restriktioner kan upprätthållas av en regulariseringsfunktion. Till exempel kan det antas att $W$ är låg rang, i vilket fall regulariseringsstraffet kan ha formen av en kärnkraftsnorm.

R(W)=\lambda \|W\|_{*}=\lambda \sum |\sigma _{i}|,

där $\sigma _{i}$ , med $i$ från $1$ till $\min D,T$ , är singularvärdena för $W$ .

Multivariat regression

Modeller som används i multivariat regression parametriseras av en matris av koefficienter. I Frobenius inre produkt ovan är varje matris $X$

X_{i}^{t}=e_{t}\otimes x_{i}\,

så att utmatningen av den inre produkten är punktprodukten av en rad av inmatningen med en kolumn i koefficientmatrisen. Den välbekanta formen av sådana modeller är

Y=XW+b\,

Många av vektornormerna som används i enkel variabel regression kan utvidgas till det multivariata fallet. Ett exempel är den kvadratiska Frobenius-normen, som kan ses som en $\ell ^{2}$ -norm som agerar antingen ingångsvis eller på matrisens singularvärden:

R(W)=\lambda \|W\|_{F}^{2}=\lambda \sum \sum |w_{ij}|^{2}=\lambda \operatörsnamn {Tr} (W ^{*}W)=\lambda \sum \sigma _{i}^{2}.

I det multivariata fallet är effekten av att reglera med Frobenius-normen densamma som vektorfallet; mycket komplexa modeller kommer att ha större normer och kommer därför att straffas mer.

Multi-task lärande

Inställningen för multi-task inlärning är nästan densamma som inställningen för multivariat regression. Den primära skillnaden är att indatavariablerna också indexeras efter uppgift (kolumner av ${\displaystyle Y} )$ . Representationen med Frobenius inre produkt är därefter

X_{i}^{t}=e_{t}\otimes x_{i}^{t}.

Rollen för matrisregularisering i den här miljön kan vara densamma som vid multivariat regression, men matrisnormer kan också användas för att koppla inlärningsproblem över uppgifter. Observera i synnerhet det för optimeringsproblemet

\min _{W}\|XW-Y\|_{2}^{2}+\lambda \|W\|_ {2}^{2}

lösningarna som motsvarar varje kolumn i $Y$ är frikopplade. Det vill säga att samma lösning kan hittas genom att lösa det gemensamma problemet, eller genom att lösa ett isolerat regressionsproblem för varje kolumn. Problemen kan kopplas genom att lägga till en ytterligare regleringsstraff på samvariationen av lösningar

\min _{W,\Omega }\|XW-Y \|_{2}^{2}+\lambda _{1}\|W\|_{2}^{2}+\lambda _{2}\operatörsnamn {Tr} (W^{T}\Omega ^{-1}W)

där $\Omega$ modellerar förhållandet mellan uppgifter. Detta schema kan användas för att både framtvinga likheter mellan lösningar över uppgifter och för att lära sig den specifika strukturen för uppgiftslikhet genom att växla mellan optimeringar av $W$ och $\Omega$ . När förhållandet mellan uppgifterna är känt för att ligga på en graf, Laplacian-matris användas för att koppla ihop inlärningsproblemen.

Spektral regularisering

Regularisering med spektralfiltrering har använts för att hitta stabila lösningar på problem som de som diskuterats ovan genom att ta itu med illa ställda matrisinversioner (se till exempel Filterfunktion för Tikhonov-regularisering ). I många fall verkar regulariseringsfunktionen på ingången (eller kärnan) för att säkerställa en begränsad invers genom att eliminera små singularvärden, men det kan också vara användbart att ha spektrala normer som verkar på matrisen som ska läras in.

Det finns ett antal matrisnormer som verkar på matrisens singularvärden. Ofta använda exempel inkluderar Schatten p-normer , med p = 1 eller 2. Till exempel kan matrisregularisering med en Schatten 1-norm, även kallad nukleär norm, användas för att framtvinga sparsitet i en matris spektrum. Detta har använts i samband med matriskomplettering när matrisen i fråga tros ha en begränsad rangordning. I det här fallet blir optimeringsproblemet:

\min \|W\|_{*}

med förbehåll för

W_{i,j}=Y_{ij}.

Spektral Regularization används också för att framtvinga en reducerad rangkoefficientmatris vid multivariat regression. I den här inställningen kan en reducerad rangkoefficientmatris hittas genom att bara behålla de n översta $n$ singularvärdena, men detta kan utökas för att behålla valfri reducerad uppsättning singularvärden och vektorer.

Strukturerad gleshet

Sparsam optimering har blivit i fokus för mycket forskningsintresse som ett sätt att hitta lösningar som är beroende av ett litet antal variabler (se t.ex. Lassometoden ) . I princip kan entry-wise sparsity upprätthållas genom att straffa den entry-wise $\ell ^{0}$ -normen för matrisen, men ℓ {\ $\ell ^{0}}$ -normen är inte konvex. I praktiken kan detta implementeras genom konvex relaxation till $\ell ^{1}$ -normen. Medan ingångsmässig regularisering med en $\ell ^{1}$ -norm kommer att hitta lösningar med ett litet antal element som inte är noll, tillämpar en $\ell ^{1}$ -norm på olika grupper av variabler kan tvinga fram struktur i sparsamheten av lösningar.

Det enklaste exemplet på strukturerad sparsitet använder ${\displaystyle \ell _{p,q}}-$ normen med $p=2$ och $q=1$ :

\|W\|_{2,1}=\summa \|w_{i}\|_{2}.

Till exempel, ${\displaystyle \ell _{2,1}}-$ normen används i multi-task-inlärning för att gruppera funktioner över uppgifter, så att alla element i en given rad i koefficientmatrisen kan tvingas fram till noll som grupp. Grupperingseffekten uppnås genom att ta $\ell ^{2}$ -normen för varje rad, och sedan ta den totala straffavgiften till summan av dessa radvisa normer. Denna regularisering resulterar i rader som tenderar att vara alla nollor, eller täta. Samma typ av regularisering kan användas för att framtvinga sparsitet kolumnvis genom att ta $\ell ^{2}$ -normerna för varje kolumn.

Mer generellt kan ${\displaystyle \ell _{2,1}}-$ normen tillämpas på godtyckliga grupper av variabler:

R(W)=\lambda \sum _{g}^{G}{\sqrt {\sum _{j}^{|G_{g}|} |w_{g}^{j}|^{2}}}=\lambda \sum _{g}^{G}\|w_{g}\|_{g}

där indexet $g$ är över grupper av variabler, och $|G_{g}|$ indikerar kardinalitet för grupp $g$ .

Algoritmer för att lösa dessa gruppgleshetsproblem utökar de mer välkända lasso- och grupplassometoderna genom att tillåta överlappande grupper, till exempel, och har implementerats via matchande strävan : och proximala gradientmetoder . Genom att skriva den proximala gradienten med avseende på en given koefficient, $w_{g}^{i}$ , kan man se att denna norm tvingar fram en gruppvis mjuk tröskel

\operatorname {prox} _{\lambda ,R_{g}}(w_{g})^{i}=\left(w_{g}^{i}-\lambda {\frac {w_{g }^{i}}{\|w_{g}\|_{g}}}\right)\mathbf {1} _{\|w_{g}\|_{g}\geq \lambda }.

där ${\displaystyle \mathbf {1} _{\|w_{g}\|_{g}\geq \lambda }} är$ indikatorfunktionen för gruppnormer $\ geq \lambda$ .

Med ${\displaystyle \ell _{2,1}}-$ normer är det alltså enkelt att framtvinga struktur i glesheten av en matris, antingen radvis, kolumnvis eller i godtyckliga block. Genom att upprätthålla gruppnormer på block i multivariat- eller multi-task-regression, till exempel, är det möjligt att hitta grupper av ingångs- och utdatavariabler, så att definierade delmängder av utdatavariabler (kolumner i matrisen Y {\displaystyle Y} ) kommer $bero$ på på samma glesa uppsättning indatavariabler.

Val av flera kärnor

Idéerna med strukturerad sparsitet och funktionsval kan utvidgas till det icke-parametriska fallet med multipel kärninlärning . Detta kan vara användbart när det finns flera typer av indata (till exempel färg och textur) med olika lämpliga kärnor för var och en, eller när den lämpliga kärnan är okänd. Om det till exempel finns två kärnor med funktionskartor $A$ och $B$ som ligger i motsvarande reproducerande kärna Hilbert-mellanslag ${\mathcal {H_{A}} },{\mathcal {H_{B}}}$ , sedan kan ett större mellanslag, ${\mathcal {H_{D}}}$ , skapas som summan av två mellanslag:

{\mathcal {H_{D}}}:f=h+h';h\in {\mathcal {H_{A}}},h'\in { \mathcal {H_{B}}}

anta linjärt oberoende i $A$ och $B$ . I detta fall $\ell _{2,1}$ -normen återigen summan av normer:

\|f\|_{{\mathcal {H_{D}}},1}=\|h\|_ {\mathcal {H_{A}}}+\|h'\|_{\mathcal {H_{B}}}

Genom att välja en matrisregulariseringsfunktion som denna typ av norm är det alltså möjligt att hitta en lösning som är sparsam när det gäller vilka kärnor som används, men tät i koefficienten för varje använd kärna. Multipelkärninlärning kan också användas som en form av icke-linjär variabelselektion, eller som en modellaggregationsteknik (t.ex. genom att ta summan av kvadratiska normer och slappna av sparsitetsbegränsningar). Till exempel kan varje kärna anses vara den Gaussiska kärnan med olika bredd.

Se även

Regularisering (matematik)