Uppriktning av grenrör

Manifold alignment är en klass av maskininlärningsalgoritmer som producerar projektioner mellan uppsättningar av data, givet att de ursprungliga datamängderna ligger på ett gemensamt grenrör . Konceptet introducerades först som sådant av Ham, Lee och Saul 2003, vilket lade till en mångfaldig begränsning till det allmänna problemet med att korrelera uppsättningar av högdimensionella vektorer.

Översikt

Manifold-inriktning förutsätter att olika datamängder producerade av liknande genereringsprocesser kommer att dela en liknande underliggande mångfaldsrepresentation . Genom att lära sig projektioner från varje originalutrymme till det delade mångfalden, återvinns korrespondenser och kunskap från en domän kan överföras till en annan. De flesta mångfaldiga inriktningstekniker beaktar endast två datamängder, men konceptet sträcker sig till godtyckligt många initiala datamängder.

Tänk på fallet med att justera två datamängder, och , med och .

Algoritmer för grenrörsinriktning försöker projicera både och i ett nytt d -dimensionellt utrymme så att projektionerna både minimerar avståndet mellan motsvarande punkter och bevarar den lokala grenrörsstrukturen för originaldata. Projektionsfunktionerna betecknas:

Låt representera den binära korrespondensmatrisen mellan punkter i och :

Låt och representera punktvisa likheter inom datamängder. Detta kodas vanligtvis som värmekärnan för närliggande matris i en k -närmaste granne-graf .

Till sist, introducera en koefficient som kan ställas in för att justera vikten av målet 'bevara grenrörsstrukturen' kontra målet 'minimera motsvarande punktavstånd'.

Med dessa definitioner på plats kan förlustfunktionen för grenrörsinriktning skrivas:

Att lösa detta optimeringsproblem är ekvivalent med att lösa ett generaliserat egenvärdeproblem med hjälp av grafen laplacian för den gemensamma matrisen, G :

Inter-data korrespondenser

Algoritmen som beskrivs ovan kräver fullständig parvis överensstämmelseinformation mellan indatauppsättningar; ett paradigm för övervakat lärande . Men denna information är vanligtvis svår eller omöjlig att få tag på i verkliga tillämpningar. Nyligen arbete har utökat algoritmen för justering av kärnan i grenröret till inställningar för semiövervakade , oövervakade och flera instanser .

En-stegs kontra två-stegs justering

Algoritmen som beskrivits ovan utför en "ettstegs"-inriktning och hittar inbäddningar för båda datamängderna samtidigt. En liknande effekt kan också uppnås med "tvåstegs" justeringar, efter en något modifierad procedur:

  1. Projicera varje indatauppsättning till ett mindre dimensionellt utrymme oberoende, med hjälp av någon av en mängd olika dimensionsreduceringsalgoritmer .
  2. Utför linjär grenrörsjustering på den inbäddade datan, håll den första datamängden fixerad, mappa varje ytterligare datamängd på den förstas grenrör. Detta tillvägagångssätt har fördelen av att dekomponera den erforderliga beräkningen, vilket minskar minneskostnader och tillåter parallella implementeringar.

Projektioner på instansnivå kontra funktionsnivå

Manifoldjustering kan användas för att hitta linjära (funktionsnivå) projektioner, eller olinjära (instansnivå) inbäddningar. Även om versionen på instansnivå i allmänhet ger mer exakta justeringar, offrar den en stor grad av flexibilitet eftersom den inlärda inbäddningen ofta är svår att parametrisera. Projektioner på funktionsnivå gör att alla nya instanser enkelt kan bäddas in i det mångfaldiga utrymmet, och projektioner kan kombineras för att bilda direkta mappningar mellan de ursprungliga datarepresentationerna. Dessa egenskaper är särskilt viktiga för applikationer för kunskapsöverföring.

Ansökningar

Uppriktning av grenrör är lämplig för problem med flera korpus som ligger på ett delat grenrör, även när varje korpus har olika dimensioner. Många verkliga problem passar denna beskrivning, men traditionella tekniker kan inte dra fördel av alla korpora samtidigt. Manifold anpassning underlättar också överföringsinlärning , där kunskap om en domän används för att kickstarta lärande i korrelerade domäner.

Tillämpningar av grenrörsinriktning inkluderar:

  • Tvärspråkig informationshämtning / automatisk översättning
    • Genom att representera dokument som vektor för ordantal kan manifold alignment återställa mappningen mellan dokument på olika språk.
    • Tvärspråkig dokumentkorrespondens är relativt lätt att få tag på, särskilt från flerspråkiga organisationer som Europeiska unionen .
  • Överför lärande av policy och statliga representationer för förstärkande lärande
  • Inriktning av protein-NMR- strukturer
  • Accelerera modellinlärning inom robotik genom att dela data som genereras av andra robotar

Se även

Vidare läsning