Startpoäng

Inception Score (IS) är en algoritm som används för att bedöma kvaliteten på bilder skapade av en generativ bildmodell som ett generativt motståndsnätverk (GAN). Poängen beräknas baserat på resultatet av en separat, förtränad Inceptionv3- bildklassificeringsmodell som tillämpas på ett urval av (vanligtvis cirka 30 000) bilder som genereras av den generativa modellen. Startresultatet maximeras när följande villkor är uppfyllda:

Entropin för distributionen av etiketter som förutspås av Inceptionv3-modellen för de genererade bilderna minimeras . Med andra ord, klassificeringsmodellen förutsäger med säkerhet en enda etikett för varje bild. Intuitivt motsvarar detta önskan att genererade bilder är "skarpa" eller "distinkta".
Klassificeringsmodellens förutsägelser är jämnt fördelade över alla möjliga etiketter. Detta motsvarar önskemålet att den generativa modellens utdata är "diverse".

Det har ersatts något av det relaterade Fréchet-startavståndet . Medan Inception Score endast utvärderar distributionen av genererade bilder, jämför FID distributionen av genererade bilder med distributionen av en uppsättning riktiga bilder ("ground truth").

Definition

Låt det finnas två mellanslag, utrymmet för bilder $\Omega _{X}$ och utrymmet för etiketter $\Omega _{Y}$ . Etiketternas utrymme är begränsat.

Låt $p_{gen}$ vara en sannolikhetsfördelning över $\Omega _{X}$ som vi vill bedöma.

Låt en diskriminator vara en funktion av typ

p_{dis}:\Omega _{X}\to M(\Omega _{Y})

där

M(\Omega _{Y})

är mängden av alla sannolikhetsfördelningar på

\Omega _{Y}

. För vilken bild

{\displaystyle x} som helst

och vilken etikett som helst

y

, låt

p_{dis}(y|x)

vara sannolikheten att bilden

x

har etiketten

y

, enligt diskriminatorn. Det är vanligtvis implementerat som ett Inception-v3-nätverk tränat på ImageNet.

Startpoängen för $p_{gen}$ i förhållande till $\displaystyle p_{dis}}$ { är

IS(p_{gen},p_{dis}):=\exp \left(\mathbb {E} _{x\sim p_{gen}}\ vänster[D_{KL}\left(p_{dis}(\cdot |x)\|\int p_{dis}(\cdot |x)p_{gen}(x)dx\right)\right]\right)

Motsvarande omskrivningar inkluderar

\ln IS(p_{gen},p_{inc}):=\mathbb {E} _{x\sim p_{gen}}\left[D_{KL} \left(p_{dis}(\cdot |x)\|\mathbb {E} _{x\sim p_{gen}}[p_{dis}(\cdot |x)]\right)\right]

\ln IS(p_{gen},p_{dis}):=H[\mathbb {E} _{x\sim p_{gen}}[p_{dis} }(\cdot |x)]]-\mathbb {E} _{x\sim p_{gen}}[H[p_{dis}(\cdot |x)]]

För att visa att detta är icke-negativt, använd Jensens ojämlikhet .

Pseudokod:

INPUT -diskriminator $p_{dis}$ .

INPUT -generator $g$ .

Exempelbilder $x_{i}$ från generatorn.

Beräkna ${\displaystyle p_{dis}(\cdot |x_{i})} ,$ sannolikhetsfördelningen över etiketter villkorad av bilden $x_{i}$ .

Summera resultaten för att få ${\hat {p}}$ , en empirisk uppskattning av $\int p_{ dis}(\cdot |x)p_{gen}(x)dx$ .

Prova fler bilder $x_{i}$ från generatorn, och för varje, beräkna $D_{KL}\left(p_ {dis}(\cdot |x_{i})\|{\hat {p}}\right)$ .

Sätt ett genomsnitt av resultaten och ta dess exponentiella.

Returnera resultatet.

Tolkning

En högre startpoäng tolkas som "bättre", eftersom det betyder att $p_{gen}$ är en "skarp och distinkt" samling bilder.

$\ln IS(p_{gen},p_{dis})\i [0,\ln N]$ , där $N$ är det totala antalet möjliga etiketter.

$\ln IS(p_{gen},p_{dis})=0$ iff för nästan alla $x \sim p_{gen}$

p_{dis}(\cdot |x)=\int p_{dis}( \cdot |x)p_{gen}(x)dx

Det betyder att

p_{gen}

är helt "otydlig". Det vill säga, för vilken bild som helst

x

samplade från

p_{gen}

, returnerar diskriminatorn exakt samma etikettförutsägelser

p_{dis} (\cdot |x)

.

Den högsta startpoängen $N$ uppnås om och endast om båda villkoren är sanna:

För nästan alla ${\displaystyle x\sim p_{gen}} är$ fördelningen $p_{dis}(y|x)$ koncentrerad till en etikett . Det vill säga, $H_{y}[p_{dis}(y|x)]=0$ . Det vill säga att varje bild som samplas från $p_{gen}$ klassificeras exakt av diskriminatorn.
För varje etikett ${\displaystyle y} är$ andelen genererade bilder märkta som $y$ exakt $\ mathbb {E} _{x\sim p_{gen}}[p_{dis}(y|x)]={\frac {1}{N}}$ . Det vill säga att de genererade bilderna är lika fördelade över alla etiketter.

Utvärderingsstatistik för maskininlärning
Regression	MSE · MAE · sMAPE · MAPE · MASE · MSPE · RMS · RMSE/RMSD · R2 · MDA · MAD
Klassificering	F-poäng · P4 · Noggrannhet · Precision · Återkallelse · Kappa · MCC · AUC · ROC · Sensitivitet och specificitet · Logaritmisk förlust
Klustring	Silhouette · Calinski-Harabasz · Davies-Bouldin · Dunn-index · Hopkins-statistik · Jaccard-index · Randindex · Likhetsmått · SMC · SimHash
Ranking	MRR · DCG · NDCG · AP
Datorsyn	PSNR · SSIM · IoU
NLP	Förvirring · BLEU
Deep Learning-relaterade mätvärden	Startpoäng · FID
Rekommendationssystem	Täckning · Intra-list likhet
Likhet	Cosinuslikhet · Euklidiskt avstånd · Pearson korrelationskoefficient
Förvirringsmatris