Stokastisk gradient Langevin-dynamik

SGLD kan tillämpas på optimering av icke-konvexa objektivfunktioner, som här visas som summan av Gausser.

Stokastisk gradient Langevin-dynamik ( SGLD ) är en optimerings- och samplingsteknik som består av egenskaper från Stokastisk gradientnedstigning , en Robbins-Monro- optimeringsalgoritm och Langevin-dynamik , en matematisk förlängning av molekylära dynamikmodeller . Liksom stokastisk gradientnedstigning är SGLD en iterativ optimeringsalgoritm som använder minibatching för att skapa en stokastisk gradientestimator, som används i SGD för att optimera en differentierbar objektivfunktion . Till skillnad från traditionell SGD kan SGLD användas för Bayesian inlärning som en provtagningsmetod. SGLD kan ses som Langevin-dynamik som tillämpas på posteriora distributioner, men den viktigaste skillnaden är att sannolikhetsgradienttermerna är minibatchade, som i SGD. SGLD, liksom Langevin-dynamik, producerar prover från en posterior fördelning av parametrar baserat på tillgängliga data. Metoden beskrevs först av Welling och Teh 2011, och den har tillämpningar i många sammanhang som kräver optimering, och den tillämpas framför allt i problem med maskininlärning.

Formell definition

Givet någon parametervektor , dess tidigare fördelning , och en uppsättning datapunkter , Langevin dynamikprov från den bakre fördelningen :

Stokastisk gradient Langevin dynamics använder en modifierad uppdateringsprocedur med minibatchade sannolikhetstermer:

där är ett positivt heltal, är Gaussiskt brus, är sannolikheten för data givet parametervektorn , och våra stegstorlekar uppfyller följande villkor:

För tidiga iterationer av algoritmen härmar varje parameteruppdatering Stokastisk Gradient Descent; men när algoritmen närmar sig ett lokalt minimum eller maximum, krymper gradienten till noll och kedjan producerar sampel som omger det maximala a posteriori-modet som tillåter bakre slutledning. Denna process genererar ungefärliga prover från baksidan som genom att balansera variansen från det injicerade Gaussiska bruset och stokastisk gradientberäkning. [ citat behövs ]

Ansökan

SGLD är tillämpbart i alla optimeringssammanhang för vilka det är önskvärt att snabbt erhålla posteriora prover istället för ett maximalt a posteriori-läge. Genom att göra så upprätthåller metoden beräkningseffektiviteten för stokastisk gradientnedstigning jämfört med traditionell gradientnedstigning samtidigt som den tillhandahåller ytterligare information om landskapet runt den kritiska punkten för målfunktionen. I praktiken kan SGLD appliceras på träning av Bayesian Neural Networks in Deep Learning , en uppgift där metoden ger en fördelning över modellparametrar. Genom att introducera information om variansen av dessa parametrar, karakteriserar SGLD dessa modellers generaliserbarhet vid vissa punkter under träningen. Dessutom tillåter erhållande av prover från en bakre fördelning osäkerhetskvantifiering med hjälp av konfidensintervall, en egenskap som inte är möjlig med traditionell stokastisk gradientnedstigning. [ citat behövs ]

Varianter och tillhörande algoritmer

Om gradientberäkningar är exakta, reducerar SGLD ner till Langevin Monte Carlo- algoritmen, som först myntades i litteraturen om gitterfältteori . Denna algoritm är också en minskning av Hamiltonian Monte Carlo , som består av ett enstaka stegförslag snarare än en serie steg. Eftersom SGLD kan formuleras som en modifiering av både stokastisk gradientnedstigning och MCMC-metoder, ligger metoden i skärningspunkten mellan optimerings- och samplingsalgoritmer; Metoden upprätthåller SGD:s förmåga att snabbt konvergera till regioner med låg kostnad samtidigt som prover tillhandahålls för att underlätta bakre slutledning. [ citat behövs ]

Med tanke på avslappnade begränsningar för stegstorlekarna så att de inte närmar sig noll asymptotiskt, misslyckas SGLD med att producera prover för vilka Metropolis Hastings avvisningsfrekvens är noll, och därför blir ett MH-avvisningssteg nödvändig. Den resulterande algoritmen, kallad Metropolis Adjusted Langevin-algoritmen, kräver steget:

där är en normalfördelning centrerad ett gradientnedstigningssteg från och är vår målfördelning. [ citat behövs ]

Blandningshastigheter och algoritmisk konvergens

Nya bidrag har bevisat övre gränser för blandningstider för både den traditionella Langevin-algoritmen och den Metropolis-justerade Langevin-algoritmen. Utgivna i Ma et al., 2018, definierar dessa gränser den hastighet med vilken algoritmerna konvergerar till den sanna bakre fördelningen, formellt definierad som:

där är en godtycklig feltolerans, är en initial fördelning, är den bakre fördelningen, och är den totala variationsnormen . Under vissa regularitetsförhållanden för en L-Lipschitz slät objektiv funktion som är m-starkt konvex utanför ett område med radie med villkorsnummer , vi har blandningshastighetsgränser:

där och hänvisar till blandningshastigheterna för den ojusterade Langevin-algoritmen respektive den Metropolis-justerade Langevin-algoritmen. Dessa gränser är viktiga eftersom de visar att beräkningskomplexiteten är polynom i dimensionen villkorad av att är .

  1. ^ a b Welling, Max; Teh, Yee Whye (2011). "Bayesian Learning via Stokastisk Gradient Langevin Dynamics" (PDF) . Proceedings of the 28th International Conference on International Conference on Machine Learning : 681–688.
  2. ^ Chaudhari, Pratik; Choromanska, Anna; Soatto, Stefano ; LeCun, Yann ; Baldassi, Carlo; Borgs, Christian ; Chayes, Jennifer ; Sagun, Levent; Zecchina, Riccardo (2017). "Entropy-sgd: Biasing gradient nedstigning i breda dalar". arXiv : 1611.01838 [ cs.LG ].
  3. ^   Kennedy, AD (1990). "Teorin om hybrid stokastiska algoritmer". Probabilistiska metoder inom kvantfältteori och kvantgravitation . Plenum Press. s. 209–223. ISBN 0-306-43602-7 .
  4. ^   Neal, R. (2011). "MCMC använder Hamiltonian Dynamics". Handbok för Markov Chain Monte Carlo . CRC Tryck. ISBN 978-1-4200-7941-8 .
  5. ^ a b Ma, YA; Chen, Y.; Jin, C.; Flammarion, N.; Jordan, MI (2018). "Sampling kan gå snabbare än optimering". arXiv : 1811.08413 [ stat.ML ].