Startpoäng

Inception Score (IS) är en algoritm som används för att bedöma kvaliteten på bilder skapade av en generativ bildmodell som ett generativt motståndsnätverk (GAN). Poängen beräknas baserat på resultatet av en separat, förtränad Inceptionv3- bildklassificeringsmodell som tillämpas på ett urval av (vanligtvis cirka 30 000) bilder som genereras av den generativa modellen. Startresultatet maximeras när följande villkor är uppfyllda:

  1. Entropin för distributionen av etiketter som förutspås av Inceptionv3-modellen för de genererade bilderna minimeras . Med andra ord, klassificeringsmodellen förutsäger med säkerhet en enda etikett för varje bild. Intuitivt motsvarar detta önskan att genererade bilder är "skarpa" eller "distinkta".
  2. Klassificeringsmodellens förutsägelser är jämnt fördelade över alla möjliga etiketter. Detta motsvarar önskemålet att den generativa modellens utdata är "diverse".

Det har ersatts något av det relaterade Fréchet-startavståndet . Medan Inception Score endast utvärderar distributionen av genererade bilder, jämför FID distributionen av genererade bilder med distributionen av en uppsättning riktiga bilder ("ground truth").

Definition

Låt det finnas två mellanslag, utrymmet för bilder och utrymmet för etiketter . Etiketternas utrymme är begränsat.

Låt vara en sannolikhetsfördelning över som vi vill bedöma.

Låt en diskriminator vara en funktion av typ

där är mängden av alla sannolikhetsfördelningar på . För vilken bild och vilken etikett som helst , låt vara sannolikheten att bilden har etiketten , enligt diskriminatorn. Det är vanligtvis implementerat som ett Inception-v3-nätverk tränat på ImageNet.

Startpoängen för i förhållande till { är

Motsvarande omskrivningar inkluderar
För att visa att detta är icke-negativt, använd Jensens ojämlikhet .

Pseudokod:

INPUT -diskriminator .

INPUT -generator .

Exempelbilder från generatorn.

Beräkna sannolikhetsfördelningen över etiketter villkorad av bilden .

Summera resultaten för att få , en empirisk uppskattning av .

Prova fler bilder från generatorn, och för varje, beräkna .

Sätt ett genomsnitt av resultaten och ta dess exponentiella.

Returnera resultatet.

Tolkning

En högre startpoäng tolkas som "bättre", eftersom det betyder att är en "skarp och distinkt" samling bilder.

, där är det totala antalet möjliga etiketter.

iff för nästan alla

Det betyder att är helt "otydlig". Det vill säga, för vilken bild som helst samplade från , returnerar diskriminatorn exakt samma etikettförutsägelser .

Den högsta startpoängen uppnås om och endast om båda villkoren är sanna:

  • För nästan alla fördelningen koncentrerad till en etikett . Det vill säga, . Det vill säga att varje bild som samplas från klassificeras exakt av diskriminatorn.
  • För varje etikett andelen genererade bilder märkta som exakt . Det vill säga att de genererade bilderna är lika fördelade över alla etiketter.