Stora breddgränser för neurala nätverk
Artificiella neurala nätverk är en klass av modeller som används i maskininlärning och inspirerade av biologiska neurala nätverk . De är kärnkomponenten i moderna algoritmer för djupinlärning . Beräkningar i artificiella neurala nätverk är vanligtvis organiserade i sekventiella lager av artificiella neuroner . Antalet neuroner i ett lager kallas lagerbredden. Teoretisk analys av artificiella neurala nätverk anser ibland att det begränsande fallet att lagerbredden blir stor eller oändlig. Denna gräns gör det möjligt att göra enkla analytiska uttalanden om neurala nätverksförutsägelser, träningsdynamik, generalisering och förlustytor. Denna breda lagergräns är också av praktiskt intresse, eftersom neurala nätverk med ändlig bredd ofta presterar strikt bättre när lagrets bredd ökar.
Teoretiska ansatser baserade på en stor breddgräns
- Neural Network Gaussian Process (NNGP) motsvarar den oändliga breddgränsen för Bayesianska neurala nätverk och fördelningen över funktioner som realiseras av icke-bayesianska neurala nätverk efter slumpmässig initiering.
- Samma underliggande beräkningar som används för att härleda NNGP-kärnan används också i djup informationsspridning för att karakterisera spridningen av information om gradienter och indata genom ett djupt nätverk. Denna karaktärisering används för att förutsäga hur modellens träningsbarhet beror på arkitektur och hyperparametrar för initialiseringar.
- Neural Tangent Kernel beskriver utvecklingen av neurala nätverksförutsägelser under gradientnedstigningsträning. I den oändliga breddgränsen blir NTK vanligtvis konstant, vilket ofta tillåter slutna formuttryck för funktionen som beräknas av ett brett neuralt nätverk under träning med gradientnedstigning. Träningsdynamiken blir i huvudsak linjäriserad.
- Studiet av neurala nätverk med oändlig bredd med en annan initial viktskalning och lämpligt höga inlärningshastigheter leder till kvalitativt annorlunda olinjär träningsdynamik än de som beskrivs av den fixerade neurala tangentkärnan.
- Katapultdynamik beskriver träningsdynamik för neurala nätverk i det fall att logiter divergerar till oändlighet när skiktbredden tas till oändlighet, och beskriver kvalitativa egenskaper hos tidig träningsdynamik.