Zero-shot inlärning

Zero-shot learning ( ZSL ) är en problemuppsättning i maskininlärning där en elev vid testtillfället observerar prover från klasser som inte observerades under träningen och måste förutsäga vilken klass de tillhör. Zero-shot-metoder fungerar i allmänhet genom att associera observerade och icke-observerade klasser genom någon form av hjälpinformation, som kodar observerbara särskiljande egenskaper hos objekt. Till exempel, givet en uppsättning bilder av djur som ska klassificeras, tillsammans med hjälptextuella beskrivningar av hur djur ser ut, kan en artificiell intelligensmodell som har tränats att känna igen hästar, men som aldrig har fått en zebra, fortfarande känna igen en zebra när den också vet att zebror ser ut som randiga hästar. Detta problem studeras allmänt inom datorseende , naturlig språkbehandling och maskinuppfattning .

Bakgrund och historia

Den första artikeln om noll-shot-inlärning i naturlig språkbehandling dök upp 2008 på AAAI'08 , men namnet på inlärningsparadigmet där var datalös klassificering . Den första artikeln om noll-shot learning i datorseende dök upp på samma konferens, under namnet zero-data learning . Själva termen zero-shot learning dök först upp i litteraturen i en artikel från Palatucci, Hinton, Pomerleau och Mitchell från 2009 på NIPS'09 . Denna riktning populariserades senare i ett annat datorseendepapper och termen zero-shot learning kom ikapp, som en start på one-shot-inlärning som introducerades i datorseende år tidigare.

I datorseende lärde noll-shot-inlärningsmodeller in parametrar för sedda klasser tillsammans med deras klassrepresentationer och förlitar sig på representativ likhet mellan klassetiketter så att instanser kan klassificeras i nya klasser under slutledning.

Inom naturlig språkbehandling bygger den tekniska nyckelriktningen som utvecklats på förmågan att "förstå etiketterna" - representera etiketterna i samma semantiska utrymme som det för dokumenten som ska klassificeras. Detta stöder klassificeringen av ett enda exempel utan att observera några kommenterade data, den renaste formen av nollskottsklassificering. Den ursprungliga uppsatsen använde sig av Explicit Semantic Analysis (ESA), men senare papper använde sig av andra representationer, inklusive täta representationer. Detta tillvägagångssätt utvidgades också till flerspråkiga domäner, finskrivning av enheter och andra problem. Dessutom, utöver att bara förlita sig på representationer, har beräkningsmetoden utökats till att vara beroende av överföring från andra uppgifter, såsom textmedverkan och frågesvar.

Den ursprungliga artikeln påpekar också att, utöver möjligheten att klassificera ett enstaka exempel, när en samling exempel ges, med antagandet att de kommer från samma distribution, är det möjligt att bootstrap föreställningen på ett semi-övervakat liknande sätt (eller transduktiv inlärning ).

Till skillnad från standardgeneralisering inom maskininlärning, där klassificerare förväntas korrekt klassificera nya prov till klasser som de redan har observerat under träningen, i ZSL, har inga prov från klasserna getts under utbildningen av klassificeraren. Det kan därför ses som ett extremfall av domänanpassning .

Förutsättningsinformation för nollskottsklasser

Naturligtvis måste någon form av hjälpinformation ges om dessa nollskottsklasser, och denna typ av information kan vara av flera typer.

  • Lärande med attribut: klasserna åtföljs av fördefinierade strukturerade beskrivningar. Till exempel, för fågelbeskrivningar, kan detta inkludera "rött huvud", "lång näbb". Dessa attribut är ofta organiserade på ett strukturerat sätt, och att ta hänsyn till den strukturen förbättrar inlärningen. Även om detta tillvägagångssätt användes mest i datorseende, finns det några exempel på det även i naturlig språkbehandling.
  • Att lära av textbeskrivning. Som påpekats ovan har detta varit nyckelriktningen för behandling av naturligt språk. Här anses klassetiketter ha en mening och de kompletteras ofta med definitioner eller beskrivningar på naturligt språk i fritext. Detta kan till exempel inkludera en wikipedia-beskrivning av klassen.
  • Klass-klasslikhet. Här är klasser inbäddade i ett kontinuerligt utrymme. en nollskottsklassificerare kan förutsäga att ett prov motsvarar någon position i det utrymmet, och den närmaste inbäddade klassen används som en förutsagd klass, även om inga sådana prover observerades under träningen.

Generaliserad zero-shot inlärning

Ovanstående ZSL-inställning förutsätter att vid testtillfället endast nollskottsprov ges, nämligen prover från nya osynliga klasser. I generaliserad noll-shot-inlärning kan prover från både nya och kända klasser dyka upp vid testtillfället. Detta innebär nya utmaningar för klassificerare vid testtillfället, eftersom det är mycket utmanande att uppskatta om ett givet prov är nytt eller känt. Några metoder för att hantera detta inkluderar:

  • en grindmodul, som först tränas för att avgöra om ett givet prov kommer från en ny klass eller från en gammal, och sedan, vid slutledningstidpunkten, utmatar antingen ett svårt beslut eller ett mjukt sannolikhetsbeslut
  • en generativ modul, som tränas för att generera funktionsrepresentationer av de osynliga klasserna - en standardklassificerare kan sedan tränas på prover från alla klasser, sedda och osynliga.

Användningsdomäner

Zero shot learning har tillämpats på följande fält:

Se även