Wasserstein GAN

Wasserstein Generative Adversarial Network (WGAN) är en variant av generative adversarial network (GAN) som föreslogs 2017 som syftar till att "förbättra stabiliteten i inlärningen, bli av med problem som lägeskollaps och tillhandahålla meningsfulla inlärningskurvor användbara för felsökning och hyperparametersökningar ".

Jämfört med den ursprungliga GAN-diskriminatorn ger Wasserstein GAN-diskriminatorn en bättre inlärningssignal till generatorn. Detta gör att träningen blir mer stabil när generatorn lär sig distributioner i mycket högdimensionella utrymmen.

Motivering

GAN-spelet

Den ursprungliga GAN-metoden är baserad på GAN-spelet, ett nollsummespel med 2 spelare: generator och diskriminator. Spelet definieras över ett sannolikhetsutrymme ${\displaystyle (\Omega ,{\mathcal {B}},\mu _{ref})} ,$ Generatorns strategiuppsättning är uppsättningen av alla sannolikhetsmått $\mu _{G}$ på ${\displaystyle (\Omega ,{\mathcal {B}})} ,$ och diskriminatorns strategiuppsättning är mängden mätbara funktioner $D:\Omega \to [0,1]$ .

Målet med spelet är

L(\mu _{G},D):=\mathbb {E} _{x\sim \mu _{ref}}[\ln D(x)]+\mathbb {E} _{x \sim \mu _{G}}[\ln(1-D(x))].

Generatorn syftar till att minimera den, och diskriminatorn strävar efter att maximera den.

En grundläggande teorem i GAN-spelet säger att

Sats (den optimala diskriminatorn beräknar Jensen–Shannon-divergensen) — För varje fast generatorstrategi $\mu _{G}$ , låt det optimala svaret vara ${\displaystyle D^{*}=\arg \max _{D}L(\mu _{G},D)} ,$ sedan

{\begin{aligned}D^{*}(x)&={\frac {d\mu _{ref}}{d(\mu _{ref}+\mu _{G})}}\ \L(\mu _{G},D^{*})&=2D_{JS}(\mu _{ref};\mu _{G})-2\ln 2,\end{aligned}}

där derivatan är Radon–Nikodym-derivatan och $D_{JS}$ är Jensen–Shannon-divergensen .

Upprepa GAN-spelet många gånger, varje gång med generatorn i rörelse först och diskriminatorn i rörelse som andra. Varje gång generatorn $\mu _{G}$ ändras måste diskriminatorn anpassa sig genom att närma sig idealet

D^{*}(x)={\frac {d\mu _{ref}}{d(\mu _{ref}+\mu _{G})}}.

Eftersom vi verkligen är intresserade av

\mu _{ref}

, är diskriminatorfunktionen

D

i sig ganska ointressant. Den håller bara reda på sannolikhetsförhållandet mellan generatordistributionen och referensfördelningen. Vid jämvikt matar diskriminatorn bara ut

{\frac {1}{2}}

konstant, efter att ha gett upp försöken att uppfatta någon skillnad.

Konkret, i GAN-spelet, låt oss fixa en generator $\mu _{G}$ och förbättra diskriminatorn steg för steg, med $\mu _{D,t }$ är diskriminatorn i steg $t$ . Då har vi (helst) det

L(\mu _{G},\mu _{D,1})\leq L(\mu _{G},\mu _{D,2})\leq \cdots \leq \max _{\mu _{D}}L(\mu _{G},\mu _{D})=2D_{JS}(\mu _{ref}\|\mu _{G}) -2\ln 2,

så vi ser att diskriminatorn faktiskt är lägre

D_{JS}(\mu _{ref}\|\mu _{G})

.

Wasserstein avstånd

Vi ser alltså att poängen med diskriminatorn främst är som kritiker att ge feedback till generatorn, om "hur långt det är från perfektion", där "långt" definieras som Jensen–Shannon-divergens.

Naturligtvis medför detta möjligheten att använda ett annat kriterier för farness. Det finns många möjliga divergenser att välja mellan, till exempel f-divergensfamiljen , som skulle ge f-GAN.

Wasserstein GAN erhålls genom att använda Wasserstein-måttet , som uppfyller ett "dubbel representationssats" som gör det mycket effektivt att beräkna:

Sats (Kantorovich-Rubenstein-dualitet) — När sannolikhetsutrymmet $\Omega$ är ett metriskt utrymme, då för varje fast $K>0$ ,

W_{1}(\mu ,\ nu )={\frac {1}{K}}\sup _{\|f\|_{L}\leq K}\mathbb {E} _{x\sim \mu }[f(x)]- \mathbb {E} _{y\sim \nu }[f(y)]

där

\|\cdot \|_{L}

är Lipschitz-normen .

Ett bevis finns på huvudsidan om Wasserstein metrisk .

Definition

Genom Kantorovich-Rubenstein-dualiteten är definitionen av Wasserstein GAN tydlig:

Ett Wasserstein GAN-spel definieras av ett sannolikhetsutrymme ${\displaystyle (\Omega ,{\mathcal {B}},\mu _{ref})} ,$ där $\ Omega$ är ett metriskt utrymme och en konstant $K>0$ .

Det finns 2 spelare: generator och diskriminator (även kallad "kritiker").

Generatorns strategiuppsättning är mängden av alla sannolikhetsmått $\mu _{G}$ på $(\Omega ,{\mathcal {B}})$ .

Diskriminatorns strategiuppsättning är uppsättningen av mätbara funktioner av typ $D:\Omega \to \mathbb {R}$ med avgränsad Lipschitz-norm: $\|D \|_{L}\leq K$ .

Wasserstein GAN-spelet är ett nollsummespel med objektiv funktion
$L_{WGAN}(\mu _{G},D):=\mathbb {E} _{x\sim \mu _{G}}[D(x)]-\mathbb {E} _{ x\sim \mu _{ref}}[D(x)].$
Generatorn går först och diskriminatorn går tvåa. Generatorn syftar till att minimera målet, och diskriminatorn strävar efter att maximera målet:
$\min _{\mu _{G}}\max _{D}L_{WGAN}(\mu _{G},D).$

Genom Kantorovich-Rubenstein-dualiteten, för varje generatorstrategi $\mu _{G}$ , är det optimala svaret från diskriminatorn $D^{*}$ , så att

L_{WGAN}(\mu _{G},D^{*})=K\cdot W_{1}(\mu _{G},\mu _{ref}).

Följaktligen, om diskriminatorn är bra, skulle generatorn konstant pressas för att minimera

W_{1}(\mu _{G},\mu _{ref})

, och den optimala strategin för generatorn är bara

{\displaystyle \mu _{G}=\mu _{ref}} ,

som den borde.

Jämförelse med GAN

I Wasserstein GAN-spelet ger diskriminatorn en bättre gradient än i GAN-spelet.

Betrakta till exempel ett spel på den verkliga linjen där både $\mu _{G}$ och $\mu _{ref}$ är gaussiska. Sedan ritas den optimala Wasserstein-kritikern $D_{WGAN}$ och den optimala GAN-diskriminatorn $D$ enligt nedan:

Den optimala Wasserstein-kritikern

D_{WGAN}

och den optimala GAN-diskriminatorn

D

för en fast referensfördelning

\mu _{ref}

och generatorfördelning

\mu _{G}

. Både Wasserstein-kritikern

D_{WGAN}

och GAN-diskriminatorn

D

är nedskalade för att passa handlingen.

För fast diskriminator måste generatorn minimera följande mål:

För GAN, $\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x) )]$ .
För Wasserstein GAN, $\mathbb {E} _{x\sim \mu _{G}}[D_{WGAN}(x)]$ .

Låt $\mu _{G}$ parametriseras med $\theta$ , då kan vi utföra stokastisk gradientnedstigning genom att använda två opartiska estimatorer av gradienten:

_ displaystyle \nabla _{\theta }\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x))]=\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x))\cdot \nabla _{\theta }\ln \rho _{\mu _{G}}(x)]}

\nabla _ {\theta }\mathbb {E} _{x\sim \mu _{G}}[D_{WGAN}(x)]=\mathbb {E} _{x\sim \mu _{G}}[D_ {WGAN}(x)\cdot \nabla _{\theta }\ln \rho _{\mu _{G}}(x)]

där vi använde omparametriseringstricket.

Samma plot, men med GAN-diskriminatorn

D

ersatt av

{\displaystyle \ln(1-D)} (

och nedskalad för att passa plottet).

Som visas är generatorn i GAN motiverad att låta sin $\mu _{G}$ "glida nerför toppen" av $\ln(1-D (x))$ . Likadant för generatorn i Wasserstein GAN.

För Wasserstein GAN har $D_{WGAN}$ gradient 1 nästan överallt, medan för GAN har $\ln(1-D)$ platt gradient i mitten och brant lutning på andra håll. Som ett resultat är variansen för estimatorn i GAN vanligtvis mycket större än den i Wasserstein GAN. Se även figur 3 av.

Problemet med $D_{JS}$ är mycket allvarligare i verkliga maskininlärningssituationer. Överväg att utbilda en GAN för att skapa ImageNet , en samling foton i storleken 256 x 256. Utrymmet för alla sådana foton är ${\displaystyle \mathbb {R} ^{256^{2}}} ,$ och distributionen av ImageNet-bilder, $\mu _{ref}$ , koncentrerar sig på ett grenrör av mycket lägre dimension i den. Följaktligen skulle varje generatorstrategi $\mu _{G}$ nästan säkert vara helt osammanhängande från $\mu _{ref}$ , vilket gör $D_{JS}(\mu _{G}\|\mu _{ref})=+\infty$ . Således kan en bra diskriminator nästan perfekt skilja $\mu _{ref}$ från $\mu _{G}$ , såväl som alla $\mu _ {G}'$ nära $\mu _{G}$ . Gradienten $\nabla _{\mu _{G}}L(\mu _{G},D)\approx 0$ skapar alltså ingen inlärningssignal för generatorn.

Detaljerade satser finns i.

Utbildning Wasserstein GANs

Att träna generatorn i Wasserstein GAN är bara gradient descent , samma som i GAN (eller de flesta djupinlärningsmetoder), men att träna diskriminatorn är annorlunda, eftersom diskriminatorn nu är begränsad till att ha begränsat Lipschitz-normen. Det finns flera metoder för detta.

Övergränsar Lipschitz-normen

Låt diskriminatorfunktionen $D$ implementeras av en flerskiktsperceptron :

D=D_{n}\circ D_{n-1}\circ \cdots \circ D_{1}

där

D_{i}(x)=h(W_{i}x)

och

h:\mathbb {R} \to \mathbb {R}

är en fast aktiveringsfunktion med

\sup _{x}|h'(x)|\leq 1

. Till exempel, den hyperboliska tangentfunktionen

h=\tanh

uppfyller kravet.

Sedan, för valfri $x$ , låt $x_{i}=(D_{i}\circ D_{i -1}\circ \cdots \circ D_{1})(x)$ , vi har av kedjeregeln :

dD(x)=diag(h'(W_{n}x_{n-1}))\cdot W_{n} \cdot diag(h'(W_{n-1}x_{n-2}))\cdot W_{n-1}\cdots diag(h'(W_{1}x))\cdot W_{1}\ cdot dx

Således är Lipschitz-normen för

D

övre gränsad av

\|D\|_{L}\leq \sup _{x}\|diag(h'(W_{n }x_{n-1}))\cdot W_{n}\cdot diag(h'(W_{n-1}x_{n-2}))\cdot W_{n-1}\cdots diag(h' (W_{1}x))\cdot W_{1}\|_{F}

där

\|\cdot \|_{s}

är operatornormen för matrisen, det vill säga det största singularvärdet för matrisen, det vill säga matrisens spektralradie (dessa begrepp är samma för matriser, men olika för allmänna linjära operatorer ).

Sedan $\sup _{x}|h'(x)|\leq 1$ , vi har $\|diag(h'(W_{i}x_{i-1}))\|_{s}=\max _{j}|h'(W_{i}x_{i-1 ,j})|\leq 1$ , och följaktligen den övre gränsen:

\|D\|_{L}\leq \prod _{i=1}^{n}\|W_{i}\|_ {s}

Således, om vi kan övergränsa operatornormer

\|W_{i}\|_{s}

för varje matris, kan vi övergränsa Lipschitz-normen för

D

.

Viktklippning

Eftersom för valfri $m\times l$ matris $W$ , låt ${\displaystyle c=\max _{i,j}|W_{i,j}|} ,$ vi har

\|W\|_{s}^{2}=\sup _{\|x\|_{2} =1}\|Wx\|_{2}^{2}=\sup _{\|x\|_{2}=1}\summa _{i}\left(\summa _{j}W_{ i,j}x_{j}\right)^{2}=\sup _{\|x\|_{2}=1}\summa _{i,j,k}W_{ij}W_{ik} x_{j}x_{k}\leq c^{2}ml^{2}

genom att klippa alla poster i

W

till inom ett visst intervall

[-c,c]

, kan vi binda

\|W\|_{ s}

.

Detta är viktklippningsmetoden, föreslagen av originaltidningen.

Spektral normalisering

Spektralradien kan effektivt beräknas med följande algoritm:

INPUT- matris $W$ och initial gissning $x$

Iterera $x\mapsto {\frac {1}{\|Bx\|_{2}}}Bx$ till konvergens $x^{*}$ . Detta är egenvektorn för $W$ med egenvärdet $\|W\|_{s}$ .

RETURN $x^{*},\|Bx^{*}\|_{2}$

Genom att omtilldela $W_{i}\leftarrow {\frac {W_{i}}{\|W_{i}\|_{s}}}$ efter varje uppdatering av diskriminatorn kan vi övre gränsen ${\displaystyle \|W_{i}\|_{s}\leq 1} ,$ och därmed övre gränsen $\|D\| _{L}$ .

Algoritmen kan accelereras ytterligare genom memoisering : I steg $t$ , lagra $x_{i}^{*}(t)$ . Sedan i steg $t+1$ , använd $x_{i}^{*}(t)$ som initial gissning för algoritmen. Eftersom $W_{i}(t+1)$ är mycket nära $W_{i}(t)$ , så är $x_{i}^{*}(t)$ nära $x_{i}^{*}(t+1)$ , så detta tillåter snabb konvergens.

Detta är den spektrala normaliseringsmetoden.

Gradientstraff

Istället för att strikt begränsa $\|D\|_{L}$ , kan vi helt enkelt lägga till en "gradient penalty"-term för diskriminatorn, av form

\mathbb {E} _{x\sim {\hat {\mu }}}[(\|\nabla D( x)\|_{2}-a)^{2}]

där

{\hat {\mu }}

är en fast fördelning som används för att uppskatta hur mycket diskriminatorn har brutit mot Lipschitz-normens krav. Diskriminatorn, i ett försök att minimera den nya förlustfunktionen, skulle naturligtvis bringa

\nabla D(x)

nära

a

överallt, vilket gör

{\ displaystil \|D\|_{L}\approx a}

.

Detta är metoden för gradientstraff.

Vidare läsning

Se även

Anteckningar