Universell approximationssats

I den matematiska teorin om artificiella neurala nätverk är universella approximationssatser resultat som fastställer tätheten av en algoritmiskt genererad klass av funktioner inom ett givet funktionsutrymme av intresse. Typiskt gäller dessa resultat approximationsförmågan hos feedforward-arkitekturen på utrymmet av kontinuerliga funktioner mellan två euklidiska utrymmen , och approximationen är med avseende på den kompakta konvergenstopologin .

Det finns emellertid också en mängd olika resultat mellan icke-euklidiska utrymmen och andra ofta använda arkitekturer och, mer allmänt, algoritmiskt genererade uppsättningar av funktioner, såsom den konvolutionella neurala nätverksarkitekturen (CNN), radiella basfunktioner eller neurala nätverk med specifika egenskaper. De flesta universella approximationssatser kan tolkas i två klasser. Den första kvantifierar approximationsförmågan hos neurala nätverk med ett godtyckligt antal artificiella neuroner (" arbitrary width " fall) och den andra fokuserar på fallet med ett godtyckligt antal dolda lager, som vart och ett innehåller ett begränsat antal artificiella neuroner (" arbiträrt djup ") " fall). Utöver dessa två klasser finns det också universella approximationssatser för neurala nätverk med begränsat antal dolda lager och ett begränsat antal neuroner i varje lager (" bounded depth and bounded width" fall).

Universella approximationssatser antyder att neurala nätverk kan representera en mängd olika intressanta funktioner när de ges lämplig vikt. Å andra sidan ger de vanligtvis ingen konstruktion för vikterna, utan anger bara att en sådan konstruktion är möjlig.

Historia

En av de första versionerna av fallet med godtycklig bredd bevisades av George Cybenko 1989 för sigmoidaktiveringsfunktioner . Kurt Hornik, Maxwell Stinchcombe och Halbert White visade 1989 att flerlagers feed-forward-nätverk med så få som ett dolt lager är universella approximatorer. Hornik visade också 1991 att det inte är det specifika valet av aktiveringsfunktionen utan snarare själva flerlagers feed-forward-arkitekturen som ger neurala nätverk potentialen att vara universella approximatorer. Moshe Leshno et al 1993 och senare Allan Pinkus 1999 visade att den universella approximationsegenskapen är likvärdig med att ha en icke-polynomisk aktiveringsfunktion.

Det godtyckliga djupfallet studerades också av ett antal författare, såsom Gustaf Gripenberg 2003, Dmitry Yarotsky, Zhou Lu et al 2017, Boris Hanin och Mark Sellke 2018 och Patrick Kidger och Terry Lyons 2020. 2021, Park et al erhöll den minsta bredd som krävs för den universella approximationen av Lp - funktioner med användning av framkopplade neurala nätverk med ReLU som aktiveringsfunktioner. Liknande resultat som kan appliceras direkt på kvarvarande neurala nätverk erhölls också samma år av Paulo Tabuada och Bahman Gharesifard med hjälp av kontrollteoretiska argument.

Fallet avgränsat djup och avgränsad bredd studerades först av Maiorov och Pinkus 1999. De visade att det finns en analytisk sigmoidal aktiveringsfunktion så att två dolda skikts neurala nätverk med begränsat antal enheter i dolda skikt är universella approximatorer. Med hjälp av algoritmer och datorprogrammeringstekniker, konstruerade Guliyev och Ismailov en smidig sigmoidal aktiveringsfunktion som ger universell approximationsegenskap för två dolda lager framåtkopplade neurala nätverk med färre enheter i dolda lager. Det bevisades konstruktivt i 2018 års papper att nätverk med enstaka dolda lager med begränsad bredd fortfarande är universella approximatorer för univariata funktioner, men denna egenskap är inte längre sant för multivariabla funktioner.

Det finns flera förlängningar av satsen, som till diskontinuerliga aktiveringsfunktioner, icke-kompakta domäner, certifierbara nätverk, slumpmässiga neurala nätverk och alternativa nätverksarkitekturer och topologier.

Fall med godtycklig bredd

En mängd uppsatser under 1980--1990-talet, från George Cybenko och Kurt Hornik etc, etablerade flera universella approximationssatser för godtycklig bredd och begränsat djup. Se för recensioner. Följande är det som oftast citeras:

Universal approximationssats Låt beteckna uppsättningen av kontinuerliga funktioner från till . Låt . Observera att betecknar applicerad på varje komponent av .

Då är inte polynom om och bara om för varje m , kompakt , det finns , , , sådana den där

var

En sådan kan också approximeras av ett nätverk med större djup genom att använda samma konstruktion för det första skiktet och approximera identitetsfunktionen med senare skikt.

Bevisskiss

Det räcker för att bevisa fallet där , eftersom enhetlig konvergens i bara är enhetlig konvergens i varje koordinat.

Låt vara mängden av alla neurala nätverk med ett dolda lager konstruerade med . Låt vara mängden av alla med kompakt stöd.

Om funktionen är ett polynom av grad , så finns , så dess stängning är också som finns i den, vilket inte är allt av .

Annars visar vi att s stängning är hela . Antag att vi kan konstruera godtyckligt bra approximationer av rampfunktionen så kan den kombineras för att konstruera godtycklig kompakt-stödd kontinuerlig funktion till godtycklig precision. Det återstår att approximera rampfunktionen.

Vilken som helst av de vanligaste aktiveringsfunktionerna som används i maskininlärning kan uppenbarligen användas för att approximera rampfunktionen, eller först approximera ReLU, sedan rampfunktionen.

om är "squashing", det vill säga den har gränser , då kan man först affint skala ner dess x-axel så att dess graf ser ut som en stegfunktion med två skarpa "överskjutningar", sedan göra en linjär summa av tillräckligt många för att göra en "trappuppgång" approximation av rampfunktionen. Med fler steg i trappan jämnas överskotten ut och vi får en godtyckligt bra approximation av rampfunktionen.

Fallet där är en generisk icke-polynomfunktion är svårare, och läsaren riktas till.

Problemet med polynom kan tas bort genom att tillåta utdata från de dolda lagren att multipliceras tillsammans ("pi-sigma-nätverken"), vilket ger generaliseringen:

Universell approximationssats för pi-sigma-nätverk Med alla icke-konstant aktiveringsfunktioner är ett ett-dolt pi-sigma-nätverk en universell approximator.

Godtyckligt djupfall

De "dubbla" versionerna av satsen tar hänsyn till nätverk av begränsad bredd och godtyckligt djup. En variant av den universella approximationssatsen bevisades för det godtyckliga djupfallet av Zhou Lu et al. 2017. De visade att nätverk med bredd n+4 med ReLU- aktiveringsfunktioner kan approximera vilken Lebesgue-integrerbar funktion som helst n -dimensionellt inmatningsutrymme med avseende på avstånd om nätverksdjupet tillåts växa . Det visades också att om bredden var mindre än eller lika med n , gick denna allmänna uttryckskraft att approximera en Lebesgue-integrerbar funktion förlorad. I samma artikel visades det att ReLU- nätverk med bredd n+1 var tillräckliga för att approximera alla kontinuerliga funktioner av n -dimensionella indatavariabler. Följande förfining specificerar den optimala minimibredden för vilken en sådan approximation är möjlig och beror på.

Universell approximationssats (L1-avstånd, ReLU-aktivering, godtyckligt djup, minimal bredd). För alla Bochner–Lebesgue p-integrerbara funktioner { , det finns ett helt anslutet ReLU- nätverk med bredd exakt , tillfredsställande

.

Dessutom finns det en funktion och några , för vilka det inte finns något helt anslutet ReLU- nätverk med en bredd som är mindre än som uppfyller ovanstående approximationsgräns.

Kvantitativ förfining: I det fall när och och där är ReLU-aktiveringsfunktionen , då är det exakta djupet och bredden för ett ReLU-nätverk för att uppnå -felet också känt. Om dessutom målfunktionen är jämn, kan det erforderliga antalet lager och deras bredd vara exponentiellt mindre. Även om inte är jämn, kan dimensionalitetens förbannelse brytas om f medger ytterligare "kompositionsstruktur".

Tillsammans ger det centrala resultatet av följande universella approximationssats för nätverk med begränsad bredd (jfr även för det första resultatet av detta slag).

Universell approximationssats (Uniform icke- affin aktivering, godtyckligt djup , begränsad bredd). Låt vara en kompakt delmängd av . Låt vara vilken icke- affin kontinuerlig funktion som helst som är kontinuerligt differentierbar vid åtminstone en punkt, med icke- nollderivata vid den punkten. Låt beteckna utrymmet för framkopplade neurala nätverk med ingångsneuroner, utgångsneuroner och ett godtyckligt antal dolda lager var och en med neuroner, så att varje dold neuron har aktivering funktion och varje utgångsneuron har identiteten som sin aktiveringsfunktion, med ingångslager och utgångslager . Sedan ges valfritt och valfritt , det finns så att

Med andra ord, är tät i med avseende på topologin för enhetlig konvergens .

Kvantitativ förfining: Antalet lager och bredden av varje lager som krävs för att approximera f till känd precision; Dessutom gäller resultatet när och ersätts med valfritt icke-positivt krökt Riemann-grenrör .

Vissa nödvändiga villkor för fallet med begränsad bredd, godtyckligt djup har fastställts, men det finns fortfarande ett gap mellan de kända tillräckliga och nödvändiga villkoren.

Avgränsat djup och avgränsat breddfall

Det första resultatet om approximationsförmåga hos neurala nätverk med begränsat antal lager, som var och en innehåller ett begränsat antal artificiella neuroner, erhölls av Maiorov och Pinkus. Deras anmärkningsvärda resultat avslöjade att sådana nätverk kan vara universella approximatorer och för att uppnå denna egenskap räcker två dolda lager.

Universell approximationssats: Det finns en aktiveringsfunktion som är analytisk, strikt ökande och sigmoidal och har följande egenskap: För alla och det finns konstanter och vektorer för vilka

för alla .

Detta är ett existensresultat. Det sägs att aktiveringsfunktioner som tillhandahåller universell approximationsegenskap för avgränsade djupbegränsade breddnätverk existerar. Med hjälp av vissa algoritmer och datorprogrammeringstekniker konstruerade Guliyev och Ismailov effektivt sådana aktiveringsfunktioner beroende på en numerisk parameter. Den utvecklade algoritmen gör att man kan beräkna aktiveringsfunktionerna när som helst på den verkliga axeln direkt. För algoritmen och motsvarande datorkod se. Det teoretiska resultatet kan formuleras enligt följande.

Universell approximationssats: Låt vara ett ändligt segment av den reella linjen, och vara någon Positivt nummer. Sedan kan man algoritmiskt konstruera en beräkningsbar sigmoidal aktiveringsfunktion som är oändligt differentierbar, strikt ökar på , -strikt ökande på , och uppfyller följande egenskaper:

1) För alla och finns det nummer och så att för alla

2) För varje kontinuerlig funktion -dimensionella rutan och , det finns konstanter , , och så att ojämlikheten

gäller för alla . Här är vikterna , fixerade enligt följande:
Dessutom är alla koefficienter förutom en, lika.

Här betyder λ -strikt ökande på någon uppsättning det finns en strikt ökande funktion så att för alla . Uppenbarligen fungerar en -ökande funktion som en vanlig ökande funktion när blir liten. I " depth-width "-terminologin säger ovanstående sats att för vissa aktiveringsfunktioner är djup- width- -nätverk universella approximatorer för univariata funktioner och djup- width- nätverk är universella approximatorer för -variabelfunktioner ( .

Grafinmatning

Att uppnå användbar universell funktionsapproximation på grafer (eller snarare på grafisomorfismklasser ) har varit ett långvarigt problem. De populära grafkonvolutionella neurala nätverken (GCNs eller GNNs) kan göras lika diskriminerande som Weisfeiler-Lemans grafisomorfismtest. approximationssatsresultat av Brüel-Gabrielsson, som visar att grafrepresentation med vissa injektiva egenskaper är tillräcklig för universell funktionsapproximation på avgränsade grafer och begränsad universell funktionsapproximation på obegränsade grafer, med ett åtföljande O ( {\ #edges #nodes -körningsmetod som presterade vid toppmoderna på en samling benchmarks.

Se även