Neuralt nätverk Gaussisk process

Vänster : ett bayesiskt neuralt nätverk med två dolda lager, som omvandlar en 3-dimensionell ingång (nederst) till en tvådimensionell utgång

(y_{1},y_{2})

(överst ). Höger : utgångssannolikhetstäthetsfunktion p

\displaystyle p(y_{1},y_{2})}

inducerad av nätverkets slumpmässiga vikter. Video : när nätverkets bredd ökar, förenklas utmatningsfördelningen och konvergerar slutligen till en multivariat normal i den oändliga breddgränsen.

Bayesianska nätverk är ett modelleringsverktyg för att tilldela sannolikheter till händelser, och därigenom karakterisera osäkerheten i en modells förutsägelser. Deep learning och artificiella neurala nätverk är metoder som används i maskininlärning för att bygga beräkningsmodeller som lär sig av träningsexempel. Bayesianska neurala nätverk sammanfogar dessa fält. De är en typ av konstgjorda neurala nätverk vars parametrar och förutsägelser båda är sannolikhet. Medan vanliga artificiella neurala nätverk ofta tilldelar hög konfidens även till felaktiga förutsägelser, kan Bayesianska neurala nätverk mer exakt utvärdera hur sannolikt deras förutsägelser är korrekta.

Neural Network Gaussian Processer (NNGP) är likvärdiga med Bayesianska neurala nätverk inom en viss gräns och ger ett slutet sätt att utvärdera Bayesianska neurala nätverk. De är en Gaussisk processsannolikhetsfördelning som beskriver fördelningen över förutsägelser gjorda av motsvarande Bayesianska neurala nätverk. Beräkning i artificiella neurala nätverk är vanligtvis organiserade i sekventiella lager av artificiella neuroner . Antalet neuroner i ett lager kallas lagerbredden. Ekvivalensen mellan NNGP:er och Bayesianska neurala nätverk uppstår när lagren i ett Bayesianskt neuralt nätverk blir oändligt breda (se figur). Denna stora breddgräns är av praktiskt intresse, eftersom neurala nätverk med ändlig bredd vanligtvis presterar strikt bättre när skiktbredden ökas.

NNGP förekommer också i flera andra sammanhang: den beskriver fördelningen över förutsägelser gjorda av breda icke-bayesianska artificiella neurala nätverk efter slumpmässig initialisering av deras parametrar, men före träning; det förekommer som en term i neurala tangentkärnans prediktionsekvationer; det används i djup informationsspridning för att karakterisera huruvida hyperparametrar och arkitekturer kommer att kunna tränas. Det är relaterat till andra stora breddgränser för neurala nätverk .

En tecknad illustration

När parametrarna

\theta

för ett nätverk med oändlig bredd samplas upprepade gånger från deras tidigare

p(\theta )

, beskrivs den resulterande fördelningen över nätverksutgångar av en Gauss-process.

Varje inställning av ett neuralt nätverks parametrar $\theta$ motsvarar en specifik funktion som beräknas av det neurala nätverket. En tidigare fördelning $p(\theta )$ över neurala nätverksparametrar motsvarar därför en tidigare fördelning över funktioner som beräknas av nätverket. Eftersom neurala nätverk görs oändligt breda, konvergerar denna fördelning över funktioner till en Gauss-process för många arkitekturer.

Figuren till höger plottar de endimensionella utsignalerna $z^{L}(\cdot ;\theta )$ från ett neuralt nätverk för två ingångar $x$ och $x^{*}$ mot varandra. De svarta prickarna visar funktionen som beräknas av det neurala nätverket på dessa ingångar för slumpmässiga dragningar av parametrarna från $p(\theta )$ . De röda linjerna är iso-sannolikhetskonturer för den gemensamma fördelningen över nätverksutgångarna $z^{L}(x;\theta )$ och $z ^{L}(x^{*};\theta )$ inducerad av $p(\theta )$ . Detta är fördelningen i funktionsutrymme som motsvarar fördelningen $p(\theta )$ i parameterrymden, och de svarta prickarna är exempel från denna fördelning. För oändligt breda neurala nätverk, eftersom fördelningen över funktioner som beräknas av det neurala nätverket är en Gauss-process, är den gemensamma fördelningen över nätverksutgångar en multivariat Gauss-nivå för vilken ändlig uppsättning nätverksingångar som helst.

Notationen som används i det här avsnittet är densamma som notationen som används nedan för att härleda överensstämmelsen mellan NNGP:er och fullt anslutna nätverk, och mer information kan hittas där.

Arkitekturer som motsvarar en NNGP

Ekvivalensen mellan oändligt breda Bayesianska neurala nätverk och NNGP:er har visat sig hålla för: ett enda dolt lager och djupt helt anslutna nätverk eftersom antalet enheter per lager tas till oändlighet; konvolutionella neurala nätverk när antalet kanaler tas till oändlighet; transformatornätverk eftersom antalet uppmärksamhetshuvuden tas till oändlighet; återkommande nätverk när antalet enheter tas till oändlighet. Faktum är att denna NNGP-överensstämmelse gäller för nästan vilken arkitektur som helst: I allmänhet, om en arkitektur kan uttryckas enbart via matrismultiplikation och koordinatmässiga olinjäriteter (dvs ett tensorprogram), så har den en oändlig bredd GP. Detta inkluderar i synnerhet alla framkopplade eller återkommande neurala nätverk som består av flerskiktsperceptron, återkommande neurala nätverk (t.ex. LSTM , GRUs ), (nD eller graf) faltning , pooling, hoppa över anslutning, uppmärksamhet, batchnormalisering och/eller lagernormalisering.

Överensstämmelse mellan ett oändligt brett fullt uppkopplat nätverk och en gaussisk process

Detta avsnitt expanderar på överensstämmelsen mellan oändligt breda neurala nätverk och Gaussiska processer för det specifika fallet med en helt uppkopplad arkitektur. Den ger en bevisskiss som beskriver varför korrespondensen håller, och introducerar den specifika funktionella formen av NNGP för fullt anslutna nätverk. Bevisskissen följer nära tillvägagångssättet i Novak, et al., 2018 .

Nätverksarkitekturspecifikation

En NNGP härleds vilket motsvarar ett Bayesianskt neuralt nätverk med denna fullt anslutna arkitektur.

Betrakta ett fullt anslutet artificiellt neuralt nätverk med ingångar $x$ , parametrar $\theta$ bestående av vikter $W^{l}$ och bias $b^{l}$ för varje lager $l$ i nätverket, föraktiveringar (pre-olinjäritet) $z^{l}$ , aktiveringar (post-olinjäritet) y $\displaystyle y^{l} }$ , punktvis olinjäritet $\phi (\cdot )$ och lagerbredder $n^{l}$ . För enkelhetens skull antas bredden $n^{L+1}$ för avläsningsvektorn $z^{L}$ vara 1. Parametrarna för detta nätverk har en tidigare fördelning $p(\theta )$ , som består av en isotrop Gauss för varje vikt och bias, med variansen av vikterna skalad omvänt med lagerbredden. Detta nätverk illustreras i figuren till höger och beskrivs av följande uppsättning ekvationer:

{\begin{aligned}x&\equiv {\text{input}}\\y^{l}(x)&= \left\{{\begin{array}{lcl}x&&l=0\\\phi \left(z^{l-1}(x)\right)&&l>0\end{array}}\right.\\ z_{i}^{l}(x)&=\summa _{j}W_{ij}^{l}y_{j}^{l}(x)+b_{i}^{l}\\W_ {ij}^{l}&\sim {\mathcal {N}}\left(0,{\frac {\sigma _{w}^{2}}{n^{l}}}\right)\\ b_{i}^{l}&\sim {\mathcal {N}}\left(0,\sigma _{b}^{2}\right)\\\phi (\cdot )&\equiv {\text {olinjäritet}}\\y^{l}(x),z^{l-1}(x)&\in \mathbb {R} ^{n^{l}\ gånger 1}\\n^{L +1}&=1\\\theta &=\left\{W^{0},b^{0},\dots ,W^{L},b^{L}\right\}\end{aligned }}

$z^{l}|y^{l}$ är en gaussisk process

Vi observerar först att föraktiveringarna $z^{l}$ beskrivs av en Gauss-process betingad av de föregående aktiveringarna y $\displaystyle y^{l}}$ . Detta resultat håller även vid ändlig bredd. Varje föraktivering $z_{i}^{l}$ är en viktad summa av gaussiska slumpvariabler, motsvarande vikterna $W_{ij}^{l}$ och förspänningar $b_{i}^{l}$ , där koefficienterna för var och en av dessa Gaussvariabler är de föregående aktiveringarna $y_{j}^{l}$ . Eftersom de är en viktad summa av nollmedelsgaussianer, $z_{i}^{l}$ i sig nollmedelsgaussianer (betingat av koefficienterna $y_{j}^ {l}$ ). Eftersom $z^{l}$ gemensamt är Gaussiska för vilken som helst uppsättning av $y^{l}$ , beskrivs de av en Gaussisk process betingad av de föregående aktiveringarna y $\displaystyle y ^{l}}$ . Kovariansen eller kärnan för denna Gaussprocess beror på vikt- och biasvarianserna $\sigma _{w}^{2}$ och $\sigma _{b}^{2}$ , såväl som den andra momentmatrisen $K^{l}$ av de föregående aktiveringarna $y^{l}$ ,

{\ displaystyle {\begin{aligned}z_{i}^{l}\mid y^{l}&\sim {\mathcal {GP}}\left(0,\sigma _{w}^{2}K^{ l}+\sigma _{b}^{2}\right)\\K^{l}(x,x')&={\frac {1}{n^{l}}}\summa _{i }y_{i}^{l}(x)y_{i}^{l}(x')\end{aligned}}}

Effekten av viktskalan $\sigma _{w}^{2}$ är att skala om bidraget till kovariansmatrisen från $K^{l}$ , medan förspänningen är delad för alla ingångar, och så gör $\sigma _{b}^{2}$ $z_{i}^{l}$ för olika datapunkter mer lika och gör kovariansmatrisen mer som en konstant matris.

$z^{l}|K^{l}$ är en gaussisk process

Föraktiveringarna $z^{l}$ beror bara på $y^{l}$ genom dess andra momentmatris $K^{l}$ . På grund av detta kan vi säga att $z^{l}$ är en gaussisk process betingad av $K^{l}$ , snarare än betingad av $y^{l }$ ,

{\begin{aligned}z_{i}^{l}\mid K^{l}&\sim {\mathcal {GP}}\left(0,\sigma _{w}^{2}K ^{l}+\sigma _{b}^{2}\right).\end{aligned}}

Eftersom lagerbredden $n^{l}\rightarrow \infty$ , blir $K^{l}\mid K^{l-1}$ deterministisk

Som tidigare definierats är $K^{l}$ den andra momentmatrisen för $y^{l}$ . Eftersom $y^{l}$ är aktiveringsvektorn efter att ha tillämpat olinjäriteten ${\displaystyle \phi } ,$ kan den ersättas med $\phi \left(z^ {l-1}\right)$ , vilket resulterar i en modifierad ekvation som uttrycker $K^{l}$ för $l>0$ i termer av $z^{ l-1}$ ,

{\begin{aligned}K^{l}(x,x')&={\frac {1}{n^{l}}}\summa _{i}\phi \left(z_{i }^{l-1}(x)\right)\phi \left(z_{i}^{l-1}(x')\right).\end{aligned}}

Vi har redan bestämt att $z^{l-1}|K^{l-1}$ är en gaussisk process. Detta betyder att summan som definierar $K^{l}$ är ett medelvärde över $n^{l}$ sampel från en Gauss-process som är en funktion av $K ^{l-1}$ ,

${\begin{aligned}\left\{z_{i}^{l-1}(x),z_{i}^{l-1}(x')\right\}&\sim {\ mathcal {GP}}\left(0,\sigma _{w}^{2}K^{l-1}+\sigma _{b}^{2}\right).\end{aligned}}$

Eftersom lagerbredden $n^{l}$ går till oändlighet, kan detta medelvärde över $n^{l}$ sampel från Gauss-processen ersättas med en integral över Gauss-processen:

{\begin{aligned}\lim _ {n^{l}\rightarrow \infty }K^{l}(x,x')&=\int dzdz'\phi (z)\phi (z'){\mathcal {N}}\left(\ vänster[{\begin{array}{c}z\\z'\end{array}}\right];0,\sigma _{w}^{2}\left[{\begin{array}{cc} K^{l-1}(x,x)&K^{l-1}(x,x')\\K^{l-1}(x',x)&K^{l-1}(x' ,x')\end{array}}\right]+\sigma _{b}^{2}\right)\end{aligned}}

Så i den oändliga breddgränsen kan den andra momentmatrisen $K^{l}$ för varje par av ingångar $x$ och $x'$ uttryckas som en integral över en 2d Gauss, av produkten av $\phi (z)$ och $\phi (z')$ . Det finns ett antal situationer där detta har lösts analytiskt, till exempel när $\phi (\cdot )$ är en ReLU , ELU, GELU eller felfunktion olinjäritet. Även när det inte kan lösas analytiskt, eftersom det är en 2d-integral, kan det generellt sett effektivt beräknas numeriskt. Denna integral är deterministisk, så $K^{l}|K^{l-1}$ är deterministisk.

Som stenografi definierar vi en funktionell $F$ , som motsvarar att beräkna denna 2d-integral för alla par av ingångar, och som mappar $K^{l-1}$ till ${\ displaystil K^{l}}$ ,

{\begin{aligned}\lim _{n^{l}\rightarrow \infty }K^{l}&=F\left(K^{l-1}\right).\end{aligned} }

$z^{L}\mid x$ är en NNGP

Genom att rekursivt tillämpa observationen att $K^{l}\mid K^{l-1}$ är deterministisk som $n^{l}\rightarrow \infty$ , $K^{L}$ kan skrivas som en deterministisk funktion av $K^{0}$ ,

{\begin{aligned}\lim _{\min \left(n^ {1},\dots ,n^{L}\right)\rightarrow \infty }K^{L}&=F\circ F\cdots \left(K^{0}\right)=F^{L} \left(K^{0}\right),\end{aligned}}

där $F^{L}$ indikerar att den funktionella ${\displaystyle F} tillämpas$ sekventiellt $L$ gånger. Genom att kombinera detta uttryck med de ytterligare observationerna att inmatningsskiktets andra momentmatris $K^{0}(x,x')={\frac {1}{n^{0}}}\summa _{i}x_{i}x'_{i}$ är en deterministisk funktion av ingången $x$ , och att $z^{L}|K^{L}$ är en Gauss-process, utsignalen från det neurala nätverket kan uttryckas som en Gauss-process i termer av dess input,

{\begin{aligned}z_{i}^{L}(x)&\sim {\mathcal {GP}}\left(0,\sigma _{w}^{2}F^{L} \left(K^{0}\right)+\sigma _{b}^{2}\right).\end{aligned}}

Programvarubibliotek

Neural Tangents är ett gratis Python -bibliotek med öppen källkod som används för att beräkna och göra slutsatser med NNGP och neural tangentkärnan som motsvarar olika vanliga ANN-arkitekturer.