Kärnmetoder för vektorutdata

Kärnmetoder är ett väletablerat verktyg för att analysera förhållandet mellan indata och motsvarande utdata från en funktion. Kärnor kapslar in egenskaperna hos funktioner på ett beräkningseffektivt sätt och tillåter algoritmer att enkelt byta funktioner av varierande komplexitet.

I typiska maskininlärningsalgoritmer producerar dessa funktioner en skalär utdata. Den senaste tidens utveckling av kärnmetoder för funktioner med vektorvärderad utdata beror, åtminstone delvis, på intresset för att samtidigt lösa relaterade problem. Kärnor som fångar förhållandet mellan problemen gör att de kan låna styrka av varandra. Algoritmer av denna typ inkluderar multi-task learning (även kallat multi-output learning eller vektorvärderad inlärning), transfer learning och co- kriging . Fleretikettsklassificering kan tolkas som avbildning av indata till (binära) kodningsvektorer med längd lika med antalet klasser.

I Gaussiska processer kallas kärnor för kovariansfunktioner . Funktioner med flera utdata motsvarar att överväga flera processer. Se Bayesiansk tolkning av regularisering för sambandet mellan de två perspektiven.

Historia

Historien om att lära sig vektorvärderade funktioner är nära kopplad till överföringsinlärning - lagring av kunskap som erhållits samtidigt som man löser ett problem och tillämpar den på ett annat men relaterat problem. Den grundläggande motivationen för överföringsinlärning inom området maskininlärning diskuterades i en NIPS-95-workshop om "Learning to Learning", som fokuserade på behovet av livslånga metoder för maskininlärning som behåller och återanvänder tidigare lärd kunskap. Forskning om överföringslärande har väckt stor uppmärksamhet sedan 1995 i olika namn: lära att lära, livslångt lärande, kunskapsöverföring, induktiv överföring, multitask-inlärning, kunskapskonsolidering, kontextkänsligt lärande, kunskapsbaserad induktiv bias, metalearning och inkrementell/ kumulativ lärande . Intresset för att lära sig vektorvärderade funktioner väcktes särskilt av multitask-inlärning, ett ramverk som försöker lära sig flera, möjligen olika uppgifter samtidigt.

Mycket av den initiala forskningen inom multitask-inlärning i maskininlärningsgemenskapen var algoritmisk till sin natur, och tillämpades på metoder som neurala nätverk, beslutsträd och k -närmaste grannar på 1990-talet. Användningen av probabilistiska modeller och Gaussiska processer var banbrytande och till stor del utvecklad inom ramen för geostatistik, där förutsägelse över vektorvärderade utdata är känd som cokriging. Geostatistiska tillvägagångssätt för multivariat modellering är mestadels formulerade kring den linjära modellen för samregionalisering (LMC), en generativ metod för att utveckla giltiga kovariansfunktioner som har använts för multivariat regression och i statistik för datoremulering av dyra multivariata datorkoder. Den legaliserings- och kärnteoretiska litteraturen för vektorvärderade funktioner följde på 2000-talet. Även om det Bayesianska perspektivet och regulariseringsperspektivet utvecklades oberoende av varandra, är de i själva verket nära besläktade.

Notation

I detta sammanhang är det övervakade inlärningsproblemet att lära sig funktionen som bäst förutsäger vektorvärderade utdata givna indata (data) .

för
ett inmatningsutrymme (t.ex. )

I allmänhet kan varje komponent i ( ), ha olika indata ( ) med olika kardinalitet ( ) och även olika inmatningsutrymmen ( . Geostatistisk litteratur kallar det här fallet heterotopiskt och använder isotop för att indikera att varje komponent i utgångsvektorn har samma uppsättning ingångar.

Här, för enkelhetens skull i notationen, antar vi att antalet och sampelutrymmet för data för varje utdata är desamma.

Regulariseringsperspektiv

Ur ett regulariseringsperspektiv är problemet att lära sig som tillhör en reproducerande kärna Hilbert-rymd av vektorvärderade funktioner ( . Detta liknar det skalära fallet med Tikhonov-regularisering , med lite extra försiktighet i notationen.

Vektorvärderat fall Skalärt fall
Återskapande kärna
Inlärningsproblem


Lösning (härledd via representationssatsen )


med { \ är koefficienterna och utdatavektorerna sammanlänkade för att bilda vektorer och { block:

Lös för genom att ta derivatan av inlärningsproblemet, sätta det lika med noll och ersätta :

där

Det är möjligt, även om det inte är trivialt, att visa att en representationssats också gäller för Tikhonov-regularisering i den vektorvärderade miljön.

Notera att den matrisvärdade kärnan också kan definieras av en skalär kärna på utrymmet . En isometri existerar mellan Hilbert-utrymmena som är associerade med dessa två kärnor:

Gaussiskt processperspektiv

Estimatorn för det vektorvärderade regulariseringsramverket kan också härledas från en Bayesiansk synvinkel genom att använda Gaussiska processmetoder i fallet med en ändlig dimensionell reproducerande kärna Hilbert-rymd . Härledningen liknar den skalärvärderade fallet Bayesianska tolkningen av regularisering . Den vektorvärderade funktionen , bestående av ger ut , antas följa en Gaussisk process:

där en vektor av medelfunktionerna för utgångarna och är en positiv definitiv matrisvärderad funktion med inmatning motsvarar kovariansen mellan utgångarna och .

För en uppsättning ingångar ges den tidigare fördelningen över vektorn av , där är en vektor som sammanlänkar medelvektorerna associerade med utgångarna och är en blockuppdelad matris. Fördelningen av utsignalerna antas vara Gaussisk:

där är en diagonal matris med elementen som anger bruset för varje utgång. Med hjälp av detta formulär för sannolikheten är den prediktiva fördelningen för en ny vektor

där är träningsdata, och är en uppsättning hyperparametrar för och .

Ekvationer för och kan då erhållas:

där poster för och . Observera att prediktorn är identisk med prediktorn som härleds i regulariseringsramverket. För icke-Gaussiska sannolikheter behövs olika metoder såsom Laplace-approximation och variationsmetoder för att approximera estimatorerna.

Exempel kärnor

Separerbar

En enkel, men brett tillämpbar, klass av kärnor med flera utdata kan separeras i produkten av en kärna på inmatningsutrymmet och en kärna som representerar korrelationerna mellan utdata:

: skalär kärna på

I matrisform: där är en symmetrisk och positiv semidefinitiv matris. Observera att inställning av till identitetsmatrisen behandlar utdata som orelaterade och är likvärdigt med att lösa de skalära utdataproblemen separat.

För en lite mer allmän form, att lägga till flera av dessa kärnor ger summan av separerbara kärnor ( SoS kernels).

Från regulariseringslitteratur

Kommer från regularizer

Ett sätt att få är att specificera en regularizer som begränsar komplexiteten för på ett önskvärt sätt, och sedan härleda motsvarande kärna. För vissa regularizers kommer denna kärna att visa sig vara separerbar.

Reglerare med blandad effekt

var:

där matris med alla poster lika med 1.

Denna regularizer är en kombination av att begränsa komplexiteten för varje komponent i estimatorn ( ) och att tvinga varje komponent i estimatorn att vara nära medelvärdet av alla komponenter. Inställningen behandlar alla komponenter som oberoende och är detsamma som att lösa de skalära problemen separat. Inställning av förutsätter att alla komponenter förklaras av samma funktion.

Klusterbaserad regularizer

var:

  • är indexuppsättningen av komponenter som tillhör kluster
  • är kardinaliteten för kluster
  • om och båda tillhör kluster ( annars

där

Denna regularizer delar upp komponenterna i -kluster och tvingar komponenterna i varje kluster att vara lika.

Graph regularizer

där matris av vikter som kodar likheterna mellan komponenterna

där ,

Observera att är grafen laplacian . Se även: grafkärna .

Lärt av data

Flera metoder för att lära från data har föreslagits. Dessa inkluderar: att utföra ett preliminärt slutledningssteg för att uppskatta från träningsdata, ett förslag att lära sig och tillsammans baserat på klusterregulariseraren och sparsitetsbaserade tillvägagångssätt som förutsätter att endast ett fåtal av funktionerna behövs.

Från Bayesiansk litteratur

Linjär modell för samregionalisering (LMC)

I LMC uttrycks utgångar som linjära kombinationer av oberoende slumpmässiga funktioner så att den resulterande kovariansfunktionen (över alla ingångar och utgångar) är en giltig positiv semidefinit funktion. Om vi ​​antar ger med f är uttryckt som:

där är skalära koefficienter och de oberoende funktionerna har noll medelvärde och kovarians cov om och 0 annars. Korskovariansen mellan två valfria funktioner och kan sedan skrivas som:

där funktionerna , med och har noll medelvärde och kovarians cov om och . Men ges av . Således kan kärnan nu uttryckas som

där varje samregionaliseringsmatris . Därför är kärnan härledd från LMC en summa av produkterna av två kovariansfunktioner, en som modellerar beroendet mellan utgångarna, oberoende av ingångsvektorn (samregionaliseringsmatrisen ), och en som modellerar ingångsberoendet, oberoende av (kovariansfunktionen .

Intrinsic coregionalization model (ICM)

ICM är en förenklad version av LMC, med . ICM antar att elementen i samregionaliseringsmatrisen kan skrivas som för några lämpliga koefficienter . Med denna form för :

var

I detta fall koefficienterna

och kärnmatrisen för flera utdata blir . ICM är mycket mer restriktiv än LMC eftersom den antar att varje grundläggande kovarians bidrar lika mycket till konstruktionen av autokovarianserna och korskovarianserna för utgångarna. De beräkningar som krävs för slutsatsen är emellertid avsevärt förenklade.

Semiparametrisk latent faktormodell (SLFM)

En annan förenklad version av LMC är den semiparametriska latenta faktormodellen (SLFM), som motsvarar inställningen av (istället för som i ICM ). Således har varje latent funktion sin egen kovarians.

Ej separerbar

Även om den är enkel, kan strukturen av separerbara kärnor vara för begränsande för vissa problem.

Anmärkningsvärda exempel på icke-separerbara kärnor i regulariseringslitteraturen inkluderar :

I det Bayesianska perspektivet producerar LMC en separerbar kärna eftersom utdatafunktionerna som utvärderas vid en punkt endast beror på värdena för de latenta funktionerna vid . Ett icke-trivialt sätt att blanda de latenta funktionerna är att kombinera en basprocess med en utjämningskärna. Om basprocessen är en gaussisk process, är den konvolverade processen också Gaussisk. Vi kan därför utnyttja faltningar för att konstruera kovariansfunktioner. Denna metod för att producera icke-separerbara kärnor är känd som processfalsning. Processfalsningar introducerades för flera utdata i maskininlärningsgemenskapen som "beroende Gaussiska processer".

Genomförande

När du implementerar en algoritm med någon av kärnorna ovan måste praktiska överväganden för att justera parametrarna och säkerställa rimlig beräkningstid övervägas.

Regulariseringsperspektiv

Sett ur ett regulariseringsperspektiv liknar parameterjusteringen det skalära fallet och kan i allmänhet åstadkommas med korsvalidering . Att lösa det linjära systemet som krävs är vanligtvis dyrt i minne och tid. Om kärnan är separerbar kan en koordinattransform konvertera till en blockdiagonal matris , vilket avsevärt minskar beräkningen belastning genom att lösa D oberoende delproblem (plus egenuppdelningen av B . Speciellt för en minsta kvadratförlustfunktion (Tikhonov-regularisering) finns det en sluten formlösning för :

Bayesianskt perspektiv

Det finns många arbeten relaterade till parameteruppskattning för Gaussiska processer. Vissa metoder som maximering av marginalsannolikheten (även känd som evidensapproximation, typ II maximal sannolikhet, empiriska Bayes), och minsta kvadrater ger punktuppskattningar av parametervektorn ϕ {\displaystyle \ . Det finns också verk som använder en fullständig Bayesiansk slutledning genom att tilldela priors till och beräkna den bakre fördelningen genom ett samplingsförfarande. För icke-Gaussiska sannolikheter finns det ingen sluten formlösning för den bakre fördelningen eller för den marginella sannolikheten. Den marginella sannolikheten kan emellertid approximeras under ett Laplace-, variationsbaserat Bayes- eller förväntansutbredning (EP) approximationsramverk för multipel utdataklassificering och användas för att hitta uppskattningar för hyperparametrarna.

Det huvudsakliga beräkningsproblemet i Bayesiansk synvinkel är detsamma som det som förekommer i regulariseringsteorin om att invertera matrisen

Detta steg är nödvändigt för att beräkna den marginella sannolikheten och den prediktiva fördelningen. För de flesta föreslagna approximationsmetoderna för att minska beräkningen är den erhållna beräkningseffektiviteten oberoende av den speciella metod som används (t.ex. LMC, processfaltning) som används för att beräkna multi-output kovariansmatrisen. En sammanfattning av olika metoder för att minska beräkningskomplexiteten i Gaussiska processer med flera utgångar presenteras i.

  1. ^ SJ Pan och Q. Yang, "A survey on transfer learning," IEEE Transactions on Knowledge and Data Engineering, 22, 2010
  2. ^ Rich Caruana, "Multitask Learning," Machine Learning, 41–76, 1997
  3. ^ J. Ver Hoef och R. Barry, " Konstruera och anpassa modeller för cokriging och multivariabel rumslig förutsägelse [ död länk ] ," Journal of Statistical Planning and Inference, 69:275–294, 1998
  4. ^ P. Goovaerts, "Geostatistics for Natural Resources Evaluation," Oxford University Press, USA, 1997
  5. ^ N. Cressie "Statistics for Spatial Data," John Wiley & Sons Inc. (reviderad upplaga), USA, 1993
  6. ^ CA Micchelli och M. Pontil, " Om att lära sig vektorvärderade funktioner ," Neural Computation, 17:177–204, 2005
  7. ^ C. Carmeli et al., " Vektor värderade reproducerande kärna hilbert utrymmen av integrerbara funktioner och mercer teorem, " Anal. Appl. (Singap.), 4
  8. ^ a b c d e f g h i j k Mauricio A. Álvarez, Lorenzo Rosasco och Neil D. Lawrence, "Kärnor för vektorvärderade funktioner: En recension," Grunder och trender i maskininlärning 4, nr. 3 (2012): 195–266. doi: 10.1561/2200000036 arXiv:1106.6251
  9. ^ a b Hans Wackernagel. Multivariat geostatistik. Springer-Verlag Heidelberg New York, 2003.
  10. ^ a b C.A. Micchelli och M. Pontil. Om att lära sig vektorvärderade funktioner. Neural Computation, 17:177–204, 2005.
  11. ^ C.Carmeli, E.DeVito och A.Toigo. Vektor värderade reproducera kärnan Hilbert utrymmen av integrerbara funktioner och Mercer teorem. Anal. Appl. (Singap.), 4(4):377–408, 2006.
  12. ^ CA Micchelli och M. Pontil. Kärnor för multi-task inlärning. In Advances in Neural Information Processing Systems (NIPS). MIT Press, 2004.
  13. ^ T.Evgeniou, CAMicchelli och M.Pontil. Lär dig flera uppgifter med kärnmetoder . Journal of Machine Learning Research, 6:615–637, 2005.
  14. ^ a b L. Baldassarre, L. Rosasco, A. Barla och A. Verri. Flerutgångsinlärning via spektralfiltrering . Teknisk rapport, Massachusetts Institute of Technology, 2011. MIT-CSAIL-TR-2011-004, CBCL-296.
  15. ^ Laurent Jacob, Francis Bach och Jean-Philippe Vert. Clustered multi-task learning: En konvex formulering . I NIPS 21, sidorna 745–752, 2008.
  16. ^ Andreas Argyriou, Theodoros Evgeniou och Massimiliano Pontil. Konvex multi-task-funktionsinlärning. Machine Learning, 73(3):243–272, 2008.
  17. ^ Andreas Argyriou, Andreas Maurer och Massimiliano Pontil. En algoritm för överföring av lärande i en heterogen miljö. I ECML/PKDD (1), sidorna 71–85, 2008.
  18. ^ I. Maceˆdo och R. Castro. Lär dig divergensfria och krullfria vektorfält med matrisvärdade kärnor. Teknisk rapport, Instituto Nacional de Matematica Pura e Aplicada, 2008.
  19. ^ A. Caponnetto, CA Micchelli, M. Pontil och Y. Ying. Universella kärnor för multi-task inlärning. Journal of Machine Learning Research, 9:1615–1646, 2008.
  20. ^ D. Higdon, "Rymd- och rumtidsmodellering med hjälp av processfalsningar, Kvantitativa metoder för aktuella miljöfrågor, 37–56, 2002
  21. ^ P. Boyle och M. Frean, " Dependent gaussian processes , Advances in Neural Information Processing Systems, 17:217–224, MIT Press, 2005