Neural tangentkärna

I studien av artificiella neurala nätverk (ANN) är den neurala tangentkärnan ( NTK ) en kärna som beskriver utvecklingen av djupa artificiella neurala nätverk under deras träning genom gradientnedstigning . Det tillåter ANN att studeras med hjälp av teoretiska verktyg från kärnmetoder .

För de flesta vanliga neurala nätverksarkitekturer blir NTK konstant inom gränsen för stor lagerbredd. Detta gör det möjligt att göra enkla i sluten form om neurala nätverksförutsägelser, träningsdynamik, generalisering och förlustytor. Till exempel garanterar det att tillräckligt breda ANN:er konvergerar till ett globalt minimum när de tränas för att minimera en empirisk förlust. NTK för nätverk med stor bredd är också relaterad till flera andra stora breddgränser för neurala nätverk .

NTK introducerades 2018 av Arthur Jacot, Franck Gabriel och Clément Hongler. Det var implicit i samtida arbete med överparameterisering.

Definition

Skalär utgångsväska

En ANN med skalär utdata består av en familj av funktioner $f\left(\cdot ,\theta \right):\mathbb {R} ^{n_{\ mathrm {in} }}\to \mathbb {R}$ parametriserad av en vektor av parametrar $\theta \in \mathbb {R} ^{P}$ .

NTK är en kärna $\Theta :\mathbb {R} ^{n_{\mathrm {in} }}\times \mathbb {R} ^{n_ {\mathrm {in} }}\to \mathbb {R}$ definieras av

\Theta \left(x,y;\theta \right)=\summa _{p=1}^{P}\partial _{\theta _{p}}f\left(x;\theta \ höger)\partial _{\theta _{p}}f\left(y;\theta \right).

På språket för kärnmetoder är NTK

\Theta

kärnan som är associerad med funktionskartan

{\displaystyle \left

.

Vektor utgång fall

En ANN med vektorutgång av storleken $n_{\mathrm {out} }$ består av en familj av funktioner ${\displaystyle f \left(\cdot ;\theta \right):\mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R} ^{n_{\mathrm {out} }}} parametriserad av$ en vektor av parametrar $\theta \in \mathbb {R} ^{P}$ .

I detta fall, NTK ${\displaystyle \Theta :\mathbb {R} ^{n_{\mathrm {in} }}\times \mathbb {R} ^{n_{\mathrm {in} }}\to {\mathcal {M}}_{n_{\mathrm {out} }}\left(\mathbb {R} \right)} är$ en matrisvärderad kärna , med värden i utrymmet $n_{\mathrm {out} }\times n_{\mathrm {out} }$ matriser, definierade av

\Theta _{k,l}\left(x,y;\theta \right)=\summa _{p=1}^{P}\partial _{\theta _{p}}f_{k }\left(x;\theta \right)\partial _{\theta _{p}}f_{l}\left(y;\theta \right).

Härledning

Vid optimering av parametrarna $\theta \in \mathbb {R} ^{P}$ för en ANN för att minimera en empirisk förlust genom gradientnedstigning , styr NTK dynamiken för ANN-utgångsfunktionen $f_{\theta }$ under hela träningen.

Skalär utgångsväska

För en datauppsättning $\left(x_{i}\right)_{i=1,\ldots ,n}\subset \mathbb {R} ^{n_{\mathrm {in} }}$ med skalära etiketter $\left(z_{i}\right)_{i=1,\ldots , n}\subset \mathbb {R}$ och en förlustfunktion ${\displaystyle c:\mathbb {R} \times \mathbb {R} \to \mathbb {R} } , den$ tillhörande empirin förlust, definierad på funktioner ${\displaystyle f:\mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R} } ,$ ges av

{\mathcal {C}}\left(f\right)=\sum _{i=1}^{n}c\left(f\left(x_{i}\right),z_{i} \höger).

När ANN

f\left(\cdot ;\theta \right):\mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R}

tränas för att passa datauppsättningen (dvs minimera

{\mathcal {C}}

) via kontinuerlig gradientnedstigning, parametrarna

\left (\theta \left(t\right)\right)_{t\geq 0}

utvecklas genom den vanliga differentialekvationen :

\partial _{t}\theta \left(t\right)=-\nabla {\mathcal {C}}\left(f\left(\cdot ;\theta \right)\right).

Under träning följer ANN-utgångsfunktionen en utvecklingsdifferentialekvation som ges i termer av NTK:

\partial _{t}f\left(x;\theta \left(t\right)\right)=-\summa _{i=1}^{n}\Theta \left(x,x_{ i};\theta \right)\partial _{w}c\left(w,z_{i}\right){\Big |}_{w=f\left(x_{i};\theta \left( t\right)\right)}.

Denna ekvation visar hur NTK driver dynamiken för $f\left(\cdot ;\theta \left(t\right)\right)$ i funktionsutrymmet $\mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R}$ under träning.

Vektor utgång fall

För en datauppsättning $\left(x_{i}\right)_{i=1,\ldots ,n}\subset \mathbb {R} ^{n_{\mathrm {in} }}$ med vektoretiketter ${\displaystyle \left(z_{i}\right)_{i=1 ,\ldots ,n}\subset \mathbb {R} ^{n_{\mathrm {out} }}} och$ en förlustfunktion ${\displaystyle c:\ mathbb {R} ^{n_{\mathrm {out} }}\times \mathbb {R} ^{n_{\mathrm {out} }}\to \mathbb {R} } , motsvarande empiriska förlust på$ funktioner $f:\mathbb {R} ^{n_{\mathrm {in} }}\to \mathbb {R} ^{n_{\mathrm {out} }}$ definieras av

{\mathcal {C}}\left(f\right)=\sum _{i=1}^{n}c\left(f\left(x_{i}\right),z_{i} \höger).

Träningen av

f_{\theta \left(t\right)}

genom kontinuerlig gradientnedstigning ger följande utveckling i funktionsutrymme som drivs av NTK:

\partial _{t}f_{k}\left(x;\theta \left(t\right)\right)=-\summa _{i=1}^{n}\summa _{l= 1}^{n_{\mathrm {out} }}\Theta _{k,l}\left(x,x_{i};\theta \right)\partial _{w_{l}}c\left(\ left(w_{1},\ldots ,w_{n_{\mathrm {out} }}\right),z_{i}\right){\Big |}_{w=f\left(x_{i}; \theta \left(t\right)\right)}.

Tolkning

NTK $\Theta \left(x,x_{i};\theta \right)$ representerar påverkan av förlustgradienten $\partial _{w}c\left(w,z_{i}\right){\big |}_{w=f\left(x_{i};\ theta \right)}$ med avseende på exempel $i$ om utvecklingen av ANN-utgången $f\left(x;\theta \right)$ genom ett steg med gradientnedstigning: i det skalära fallet, lyder detta

f\left(x;\theta \left(t+\epsilon \right)\right)-f\left(x;\theta \left(t\right)\right)\approx \epsilon \sum _{ i=1}^{n}\Theta \left(x,x_{i};\theta \left(t\right)\right)\partial _{w}c\left(w,z_{i}\right ){\big |}_{w=f\left(x_{i};\theta \right)}.

I synnerhet påverkar varje datapunkt

x_{i}

utvecklingen av utdata

f\left(x;\theta \right)

för varje

x

under hela träningen, på ett sätt som fångas av NTK

\Theta \left(x,x_{i};\theta \right)

.

Stor breddgräns

Nyligen genomförda teoretiska och empiriska arbeten inom djupinlärning har visat att prestandan hos ANN:er strikt förbättras när deras lagerbredder växer sig större. För olika ANN-arkitekturer ger NTK exakt insikt i utbildningen i denna stora bredd.

Breda fullt anslutna ANN:er har en deterministisk NTK, som förblir konstant under träningen

Betrakta en ANN med helt sammankopplade lager $\ell =0,\ldots ,L$ av bredderna ${\displaystyle n_{0}=n_{\mathrm {in} },n_{1},\ldots ,n_{L}=n_{\mathrm {out} }} , så$ att ${\displaystyle f\left(\cdot ;\theta \right)=R_{L-1}\circ \cdots \circ R_{0}} , där R ℓ$ = $R_ {\ell }=\sigma \circ A_{\ell }}$ är sammansättningen av en affin transformation $A_{i}$ med punktvis tillämpning av en olinjäritet $\sigma : \mathbb {R} \to \mathbb {R}$ , där $\theta$ parametriserar kartorna $A_{0},\ldots ,A_{L-1}$ . Parametrarna $\theta \in \mathbb {R} ^{P}$ initieras slumpmässigt, på ett oberoende, identiskt fördelat sätt.

När bredderna växer, påverkas NTK:s skala av den exakta parametriseringen av $A_{i}$ och av parameterinitieringen. Detta motiverar den så kallade NTK-parametriseringen $A_{\ell }\left(x\right)={\frac {1}{ \sqrt {n_{\ell }}}}W^{\left(\ell \right)}x+b^{\left(\ell \right)}$ . Denna parametrisering säkerställer att om parametrarna $\theta \in \mathbb {R} ^{P}$ initieras som normala standardvariabler , har NTK en finit icke-trivial gräns. I gränsen för stor bredd konvergerar NTK till en deterministisk (icke-slumpmässig) gräns ${\displaystyle \Theta _{\infty }} ,$ som förblir konstant i tiden.

NTK $\Theta _{\infty }$ ges uttryckligen av $\Theta _{\infty }=\Theta ^{\left(L\right)}$ , där $\Theta ^{\left(L\right)}$ bestäms av uppsättningen rekursiva ekvationer:

{\begin{aligned}\Theta ^{\left(1\right )}\left(x,y\right)&=\Sigma ^{\left(1\right)}\left(x,y\right),\\\Sigma ^{\left(1\right)}\ left(x,y\right)&={\frac {1}{n_{\mathrm {in} }}}x^{T}y+1,\\\Theta ^{\left(\ell +1\ höger)}\left(x,y\right)&=\Theta ^{\left(\ell \right)}\left(x,y\right){\dot {\Sigma }}^{\left(\ ell +1\right)}\left(x,y\right)+\Sigma ^{\left(\ell +1\right)}\left(x,y\right),\\\Sigma ^{\left (\ell +1\right)}\left(x,y\right)&=L_{\Sigma ^{\left(\ell \right)}}^{\sigma}\left(x,y\right) ,\\{\dot {\Sigma }}^{\left(\ell +1\right)}\left(x,y\right)&=L_{\Sigma ^{\left(\ell \right)} }^{\dot {\sigma }},\end{aligned}}

där $L_{K}^{f}$ anger kärnan definierad i termer av Gauss förväntan :

L_{K}^{f}\left(x,y\right)=\mathbb {E} _{\left(X,Y\right)\sim {\mathcal {N}}\left(0 ,{\begin{pmatrix}K\left(x,x\right)&K\left(x,y\right)\\K\left(y,x\right)&K\left(y,y\right)\ end{pmatrix}}\right)}\left[f\left(X\right)f\left(Y\right)\right].

I denna formel är kärnorna $\Sigma ^{\left(\ell \right)}$ ANN:s så kallade aktiveringskärnor.

Breda helt uppkopplade nätverk är linjära i sina parametrar under hela utbildningen

NTK beskriver utvecklingen av neurala nätverk under gradientnedstigning i funktionsrymden. Dual till detta perspektiv är en förståelse för hur neurala nätverk utvecklas i parameterrymden, eftersom NTK definieras i termer av gradienten för ANN:s utsignaler med avseende på dess parametrar. I den oändliga breddgränsen blir kopplingen mellan dessa två perspektiv särskilt intressant. NTK som förblir konstant under träning på stora bredder sker samtidigt med att ANN är väl beskrivet under träningen genom dess första ordningens Taylor-expansion kring dess parametrar vid initialisering:

f\left(x;\theta (t)\right)=f\left(x;\theta (0)\right)+\nabla _{\theta }f\left(x;\theta (0) )\right)\left(\theta (t)-\theta (0)\right)+{\mathcal {O}}\left(\min \left(n_{1}\dots n_{L-1}\ höger)^{-{\frac {1}{2}}}\höger).

Andra arkitekturer

NTK kan studeras för olika ANN-arkitekturer , i synnerhet konvolutionella neurala nätverk (CNN), återkommande neurala nätverk (RNN) och transformatorer . I sådana inställningar motsvarar den stora breddgränsen att låta antalet parametrar växa, samtidigt som antalet lager hålls fast: för CNN :er innebär detta att låta antalet kanaler växa.

Ansökningar

Konvergens till ett globalt minimum

För en konvex förlust funktionell ${\mathcal {C}}$ med ett globalt minimum , om NTK förblir ${ \displaystyle {\mathcal {C}}\left(f\left(\cdot ;\theta \left(t\right)\right)\right)} konvergerar till det minimum som t → ∞ {\$ -definitiv under , förlusten av ANN displaystyle $\ infty }$ . Denna positiva definititetsegenskap har visats i ett antal fall, vilket ger de första bevisen på att ANN med stor bredd konvergerar till globala minima under träning.

Kärnmetoder

NTK ger en rigorös koppling mellan den slutledning som utförs av ANN:er med oändlig bredd och den som utförs av kärnmetoder : när förlustfunktionen är den minsta kvadratiska förlusten, är slutledningen som utförs av en ANN i förväntan lika med kernel ridge-regression (med noll ås) med avseende på NTK $\Theta _{\infty }$ . Detta tyder på att prestandan för stora ANN:er i NTK-parametriseringen kan replikeras med kärnmetoder för lämpligt valda kärnor.

Programvarubibliotek

Neural Tangents är ett gratis Python - bibliotek med öppen källkod som används för att beräkna och göra slutledningar med den oändliga bredden NTK och det neurala nätverket Gaussian process ( NNGP) som motsvarar olika vanliga ANN-arkitekturer.

externa länkar

Ananthaswamy, Anil (2021-10-11). "En ny länk till en gammal modell kan knäcka mysteriet med djupinlärning" . Quanta Magazine .