Generativ topografisk karta
Generativ topografisk karta ( GTM ) är en maskininlärningsmetod som är en probabilistisk motsvarighet till den självorganiserande kartan (SOM), är förmodligen konvergent och kräver inte en krympande stadsdel eller en minskande stegstorlek. Det är en generativ modell : data antas uppstå genom att först probabilistiskt välja en punkt i ett lågdimensionellt utrymme, kartlägga punkten till det observerade högdimensionella ingångsutrymmet (via en jämn funktion), sedan lägga till brus i det utrymmet. Parametrarna för den lågdimensionella sannolikhetsfördelningen, den jämna kartan och bruset lärs alla från träningsdata med hjälp av förväntningsmaximering (EM). GTM introducerades 1996 i en artikel av Christopher Bishop , Markus Svensen och Christopher KI Williams.
Detaljer om algoritmen
Tillvägagångssättet är starkt relaterat till densitetsnätverk som använder betydelsesampling och en flerskiktsperceptron för att bilda en icke-linjär latent variabel modell . I GTM är det latenta utrymmet ett diskret rutnät av punkter som antas vara icke-linjärt projicerat in i datarymden. Ett Gaussiskt brusantagande görs sedan i datarymden så att modellen blir en begränsad blandning av Gaussianer . Då kan modellens sannolikhet maximeras av EM.
I teorin skulle en godtycklig olinjär parametrisk deformation kunna användas. De optimala parametrarna kunde hittas genom gradientnedstigning, etc.
Det föreslagna tillvägagångssättet för den olinjära mappningen är att använda ett radiellt basfunktionsnätverk (RBF) för att skapa en olinjär mappning mellan det latenta utrymmet och datautrymmet. Noderna i RBF-nätverket bildar sedan ett särdragsutrymme och den olinjära avbildningen kan sedan tas som en linjär transformation av detta särdragsutrymme. Detta tillvägagångssätt har fördelen jämfört med det föreslagna tillvägagångssättet för täthetsnätverk att det kan optimeras analytiskt.
Används
Inom dataanalys är GTM:er som en icke-linjär version av huvudkomponentanalys , vilket gör att högdimensionell data kan modelleras som ett resultat av Gaussiskt brus som lagts till källor i lägre dimensionellt latent utrymme. Till exempel för att lokalisera aktier i plottbart 2D-utrymme baserat på deras hi-D-tidsserieformer. Andra applikationer kanske vill ha färre källor än datapunkter, till exempel blandningsmodeller.
I generativ deformationsmodellering har latenta och datautrymmen samma dimensioner, till exempel 2D-bilder eller 1 ljudljudvågor. Extra "tomma" dimensioner läggs till källan (känd som "mallen" i denna form av modellering), till exempel lokalisering av 1D-ljudvågen i 2D-rymden. Ytterligare olinjära dimensioner läggs sedan till, framställda genom att kombinera de ursprungliga dimensionerna. Det förstorade latenta utrymmet projiceras sedan tillbaka in i 1D-datautrymmet. Sannolikheten för en given projektion ges, som tidigare, av produkten av sannolikheten för data under den Gaussiska brusmodellen med prioriteten på deformationsparametern. Till skillnad från konventionell fjäderbaserad deformationsmodellering har denna fördelen att den är analytiskt optimerbar. Nackdelen är att det är ett "data-mining"-tillvägagångssätt, det vill säga att formen på deformationen före är osannolikt att vara meningsfull som en förklaring av de möjliga deformationerna, eftersom den är baserad på en mycket hög, artificiell och godtyckligt konstruerad olinjär latent Plats. Av denna anledning lärs prioriteten från data snarare än skapad av en mänsklig expert, vilket är möjligt för fjäderbaserade modeller.
Jämförelse med Kohonens självorganiserande kartor
Medan noder i den självorganiserande kartan (SOM) kan vandra runt efter behag, är GTM-noder begränsade av de tillåtna transformationerna och deras sannolikheter. Om deformationerna är väluppförda bevaras topologin för det latenta utrymmet.
SOM skapades som en biologisk modell av neuroner och är en heuristisk algoritm. Däremot har GTM ingenting att göra med neurovetenskap eller kognition och är en probabilistiskt principiell modell. Således har det ett antal fördelar jämfört med SOM, nämligen:
- den formulerar uttryckligen en densitetsmodell över data.
- den använder en kostnadsfunktion som kvantifierar hur väl kartan är tränad.
- den använder en ljudoptimeringsprocedur ( EM- algoritm).
GTM introducerades av Bishop, Svensen och Williams i deras tekniska rapport 1997 (Technical Report NCRG/96/015, Aston University, UK) publicerad senare i Neural Computation. Det beskrivs också i Markus Svensens doktorsavhandling (Aston, 1998) .
Ansökningar
Se även
- Självorganiserande karta (SOM)
- Artificiellt neuralt nätverk
- Connectionism
- Data mining
- Maskininlärning
- Reduktion av icke-linjär dimensionalitet
- Programvara för neurala nätverk
- Mönsterigenkänning
externa länkar
- Bishop, Svensen och Williams Generativa topografiska kartläggningspapper
- Generativ topografisk kartläggning utvecklad vid Neural Computing Research Group vid Aston University (UK). ( Matlab verktygslåda )