Maskininlärningsmetoder som använder flera inmatningsmodaliteter
Multimodalt lärande försöker modellera kombinationen av olika datamodaliteter , som ofta uppstår i verkliga tillämpningar. Ett exempel på multimodal data är data som kombinerar text (vanligtvis representerad som diskreta ordräkningsvektorer) med bilddata som består av pixelintensiteter och annoteringstaggar. Eftersom dessa modaliteter har fundamentalt olika statistiska egenskaper, är det icke-trivialt att kombinera dem, varför specialiserade modelleringsstrategier och algoritmer krävs.
Motivering
Många modeller och algoritmer har implementerats för att hämta och klassificera en viss typ av data, t.ex. bild eller text (där människor som interagerar med maskiner kan extrahera bilder i form av bilder och text som kan vara vilket meddelande som helst etc.). Men data kommer vanligtvis med olika modaliteter (det är i vilken grad ett systems komponenter kan separeras eller kombineras) som bär olika information. Det är till exempel väldigt vanligt att texta en bild för att förmedla informationen som inte presenteras i själva bilden. På samma sätt är det ibland enklare att använda en bild för att beskriva information som kanske inte är uppenbar från texter. Som ett resultat, om olika ord förekommer i liknande bilder, så beskriver dessa ord sannolikt samma sak. Omvänt, om ett ord används för att beskriva till synes olika bilder, kan dessa bilder representera samma objekt. I de fall som handlar om multimodala data är det alltså viktigt att använda en modell som tillsammans kan representera informationen så att modellen kan fånga korrelationsstrukturen mellan olika modaliteter. Dessutom bör den också kunna återställa saknade modaliteter givet observerade sådana (t.ex. förutsäga möjliga bildobjekt enligt textbeskrivning). Multimodal Deep Boltzmann Machine-modellen uppfyller ovanstående syften.
Bakgrund: Boltzmann-maskin
En Boltzmann-maskin är en typ av stokastiskt neuralt nätverk som uppfanns av Geoffrey Hinton och Terry Sejnowski 1985. Boltzmann-maskiner kan ses som den stokastiska , generativa motsvarigheten till Hopfield-nät . De är uppkallade efter Boltzmann-fördelningen inom statistisk mekanik. Enheterna i Boltzmann-maskiner är indelade i två grupper: synliga enheter och dolda enheter. Allmänt Boltzmann-maskiner tillåter anslutning mellan alla enheter. Men inlärning är opraktisk med allmänna Boltzmann-maskiner eftersom beräkningstiden är exponentiell till storleken på maskinen [ citat behövs ] . En mer effektiv arkitektur kallas begränsad Boltzmann-maskin där anslutning endast tillåts mellan dold enhet och synlig enhet, vilket beskrivs i nästa avsnitt.
Begränsad Boltzmann-maskin
En begränsad Boltzmann-maskin är en oriktad grafisk modell med stokastiska synliga variabler och stokastiska dolda variabler. Varje synlig variabel är kopplad till varje dold variabel. Modellens energifunktion definieras som
där modellparametrar: representerar den symmetriska interaktionstermen mellan synlig enhet och dold enhet ; och är biastermer. Systemets gemensamma distribution definieras som
där är en normaliseringskonstant. Den villkorliga fördelningen över dolda och kan härledas som logistisk funktion i termer av modellparametrar.
-
, med
-
, med
där är logistikfunktionen.
Derivatan av log-sannolikheten med avseende på modellparametrarna kan dekomponeras som skillnaden mellan modellens förväntan och databeroende förväntan .
Gaussian-Bernoulli RBM
Gaussian-Bernoulli RBMs är en variant av begränsad Boltzmann-maskin som används för att modellera vektorer med verkligt värde som pixelintensiteter. Det används vanligtvis för att modellera bilddata. Energin i systemet av Gaussian-Bernoulli RBM definieras som
där modellen parametrar. Den gemensamma distributionen definieras på samma sätt som den i begränsad Boltzmann-maskin . De villkorliga fördelningarna blir nu
-
, med
-
med
I Gaussian-Bernoulli RBM modelleras den synliga enheten betingad på dolda enheter som en Gaussisk fördelning.
Replikerad Softmax-modell
Den replikerade Softmax-modellen är också en variant av begränsad Boltzmann-maskin och används ofta för att modellera ordräkningsvektorer i ett dokument. I ett typiskt textutvinningsproblem , låt vara ordboksstorleken och vara antalet ord i dokumentet. Låt vara en binär matris med endast när ordet i dokumentet är ordet i ordboken. anger antalet ordet i ordboken. Energin för tillståndet för ett dokument innehåller ord definieras som
De villkorliga fördelningarna ges av
Deep Boltzmann-maskiner
En djup Boltzmann-maskin har en sekvens av lager av dolda enheter. Det finns bara kopplingar mellan intilliggande dolda lager, såväl som mellan synliga enheter och dolda enheter i det första dolda lagret. Systemets energifunktion lägger till termer för lagerinteraktion till energifunktionen för allmänt begränsade Boltzmann-maskiner och definieras av
Den gemensamma fördelningen är
Multimodala djupa Boltzmann-maskiner
Multimodal djup Boltzmann-maskin använder en bild-text bi-modal DBM där bildvägen är modellerad som Gaussian-Bernoulli DBM och textväg som Replicated Softmax DBM, och varje DBM har två dolda lager och ett synligt lager. De två DBM:erna förenas i ett extra, övre dolt lager. Den gemensamma fördelningen över de multimodala ingångarna definierade som
De villkorliga fördelningarna över de synliga och dolda enheterna är
Slutledning och lärande
Exakt maximal sannolikhetsinlärning i denna modell är svårhanterlig, men ungefärlig inlärning av DBM:er kan utföras genom att använda en variationsmetod, där medelfältsinferens används för att uppskatta databeroende förväntningar och en MCMC-baserad stokastisk approximationsprocedur används för att approximera modellens förväntade tillräcklig statistik.
Ansökan
Multimodala djupa Boltzmann-maskiner används framgångsrikt vid klassificering och hämtning av saknad data. Klassificeringsnoggrannheten för multimodala djupa Boltzmann-maskiner överträffar stödvektormaskiner , latent Dirichlet-allokering och djupt belief-nätverk , när modeller testas på data med både bild-text-modaliteter eller med singelmodalitet [ citat behövs ] . Multimodal djup Boltzmann-maskin kan också förutsäga saknade modaliteter givet de observerade med någorlunda god precision [ citat behövs ] . Self Supervised Learning ger en mer intressant och kraftfull modell för multimodalitet. OpenAI utvecklade CLIP- och DALL-E- modeller som revolutionerade multimodalitet.
Multimodal djupinlärning används för cancerscreening – minst ett system under utveckling integrerar så olika typer av data.
Se även