Typer av artificiella neurala nätverk

Det finns många typer av artificiella neurala nätverk ( ANN) .

Artificiella neurala nätverk är beräkningsmodeller inspirerade av biologiska neurala nätverk och används för att approximera funktioner som är allmänt okända. De är särskilt inspirerade av neuronernas beteende och de elektriska signalerna de förmedlar mellan input (som från ögonen eller nervändar i handen), bearbetning och utsignal från hjärnan (som att reagera på ljus, beröring eller värme). ). Det sätt som neuroner semantiskt kommunicerar på är ett område av pågående forskning. De flesta artificiella neurala nätverk har bara vissa likheter med sina mer komplexa biologiska motsvarigheter, men är mycket effektiva i sina avsedda uppgifter (t.ex. klassificering eller segmentering).

Vissa artificiella neurala nätverk är adaptiva system och används till exempel för att modellera populationer och miljöer som ständigt förändras.

Neurala nätverk kan vara hårdvaru- (neuroner representeras av fysiska komponenter) eller mjukvarubaserade (datormodeller) och kan använda en mängd olika topologier och inlärningsalgoritmer.

Feedback

Det neurala nätverket för feedforward var den första och enklaste typen. I detta nätverk rör sig informationen endast från ingångsskiktet direkt genom eventuella dolda skikt till utgångsskiktet utan cykler/slingor. Feedforward-nätverk kan konstrueras med olika typer av enheter, såsom binära McCulloch-Pitts-neuroner , varav den enklaste är perceptronen . Kontinuerliga neuroner, ofta med sigmoidal aktivering, används i samband med backpropagation .

Gruppmetod för datahantering

Group Method of Data Handling (GMDH) har helautomatisk strukturell och parametrisk modelloptimering. Nodaktiveringsfunktionerna är Kolmogorov- Gabor-polynom som tillåter additioner och multiplikationer. Den använder en djup flerskiktsperceptron med åtta lager. Det är ett övervakat lärandenätverk som växer lager för lager, där varje lager tränas genom regressionsanalys . Värdelösa föremål upptäcks med hjälp av en valideringsuppsättning och beskärs genom regularisering . Storleken och djupet på det resulterande nätverket beror på uppgiften.

Autokodare

En autoencoder, autoassociator eller Diabolo-nätverk liknar multilayer perceptron (MLP) – med ett ingångsskikt, ett utgångsskikt och ett eller flera dolda lager som förbinder dem. Utgångsskiktet har dock samma antal enheter som ingångsskiktet. Dess syfte är att rekonstruera sina egna indata (istället för att avge ett målvärde). Därför är autokodare oövervakade inlärningsmodeller . En autoencoder används för oövervakad inlärning av effektiva kodningar , vanligtvis i syfte att reducera dimensionalitet och för att lära sig generativa modeller av data.

Probabilistiskt

Ett probabilistiskt neuralt nätverk (PNN) är ett fyrlagers neuralt nätverk för feedforward. Lagren är Input, Hidden, pattern/summation och output. I PNN-algoritmen approximeras den överordnade sannolikhetsfördelningsfunktionen (PDF) för varje klass av ett Parzen-fönster och en icke-parametrisk funktion. Sedan, med hjälp av PDF för varje klass, uppskattas klasssannolikheten för en ny indata och Bayes regel används för att allokera den till klassen med högst posterior sannolikhet. Den härrörde från det Bayesianska nätverket och en statistisk algoritm som kallas Kernel Fisher diskriminantanalys . Den används för klassificering och mönsterigenkänning.

Tidsfördröjning

Ett neuralt nätverk med tidsfördröjning (TDNN) är en feedforward-arkitektur för sekventiell data som känner igen egenskaper oberoende av sekvensposition. För att uppnå tidsförskjutningsinvarians läggs fördröjningar till ingången så att flera datapunkter (tidpunkter) analyseras tillsammans.

Det är vanligtvis en del av ett större mönsterigenkänningssystem. Det har implementerats med hjälp av ett perceptronnätverk vars anslutningsvikter tränades med backpropagation (övervakad inlärning).

Konvolutionell

Ett faltningsneuralt nätverk (CNN, eller ConvNet eller skiftinvariant eller rymdinvariant) är en klass av djupa nätverk, sammansatt av ett eller flera faltningsskikt med helt anslutna skikt (matchande de i typiska ANN) ovanpå. Den använder bundna vikter och poollager. I synnerhet max-pooling. Det är ofta strukturerat via Fukushimas konvolutionella arkitektur. De är varianter av flerskiktsperceptroner som använder minimal förbearbetning . Denna arkitektur tillåter CNN att dra fördel av 2D-strukturen för indata.

Dess enhetsanslutningsmönster är inspirerat av den visuella cortexens organisation. Enheter svarar på stimuli i ett begränsat område av rymden som kallas det receptiva fältet. Receptiva fält överlappar delvis och övertäcker hela synfältet . Enhetssvar kan approximeras matematiskt genom en faltningsoperation .

CNN är lämpliga för att bearbeta visuella och andra tvådimensionella data. De har visat överlägsna resultat i både bild- och talapplikationer. De kan tränas med standard backpropagation. CNN:er är lättare att träna än andra vanliga, djupa neurala nätverk med feed-forward och har många färre parametrar att uppskatta.

Capsule Neural Networks (CapsNet) lägger till strukturer som kallas kapslar till en CNN och återanvänder utdata från flera kapslar för att bilda mer stabila (med hänsyn till olika störningar) representationer.

Exempel på applikationer inom datorseende är DeepDream och robotnavigering . De har breda tillämpningar inom bild- och videoigenkänning , rekommendationssystem och naturlig språkbehandling .

Djupt staplingsnätverk

Ett djupstackningsnätverk (DSN) (djupt konvext nätverk) är baserat på en hierarki av block av förenklade neurala nätverksmoduler. Det introducerades 2011 av Deng och Dong. Den formulerar inlärningen som ett konvext optimeringsproblem med en lösning i sluten form , och betonar mekanismens likhet med staplad generalisering . Varje DSN-block är en enkel modul som är lätt att träna själv på ett övervakat sätt utan bakåtökning för hela blocken.

Varje block består av en förenklad multi-layer perceptron (MLP) med ett enda dolt lager. Det dolda lagret h har logistiska sigmoidala enheter och utdatalagret har linjära enheter. Förbindelser mellan dessa skikt representeras av viktmatris U; ingång-till-dolda-lager-anslutningar har viktmatris W . Målvektorer t bildar kolumnerna i matrisen T , och indatavektorerna x bildar kolumnerna i matrisen X. Matrisen av dolda enheter är ${\boldsymbol {H}}=\sigma ({\boldsymbol {W}}^{T}{\boldsymbol {X}})$ . Modulerna tränas i ordning, så vikterna W i lägre lager är kända i varje steg. Funktionen utför den elementmässiga logistiska sigmoidoperationen . Varje block uppskattar samma slutliga etikettklass y , och dess uppskattning sammanlänkas med den ursprungliga ingången X för att bilda den utökade inmatningen för nästa block. Således innehåller inmatningen till det första blocket endast originaldata, medan nedströmsblockens inmatning adderar utdata från föregående block. Att sedan lära sig det övre skiktets viktmatris U givet andra vikter i nätverket kan formuleras som ett konvext optimeringsproblem:

\min _{U^{T}}f=\|{\boldsymbol {U}}^{T}{\boldsymbol {H}} -{\boldsymbol {T}}\|_{F}^{2},

som har en sluten lösning.

Till skillnad från andra djupa arkitekturer, såsom DBN:er, är målet inte att upptäcka den transformerade egenskapsrepresentationen . Strukturen i hierarkin för denna typ av arkitektur gör parallell inlärning enkel, som ett batch-mode optimeringsproblem. I rent diskriminerande uppgifter överträffar DSN:er konventionella DBN .

Tensor djupstackningsnätverk

Denna arkitektur är en DSN-förlängning. Den erbjuder två viktiga förbättringar: den använder information av högre ordning från kovariansstatistik , och den omvandlar det icke-konvexa problemet med ett lägre skikt till ett konvext underproblem i ett övre skikt. TDSN: er använder kovariansstatistik i en bilinjär mappning från var och en av två distinkta uppsättningar av dolda enheter i samma lager till förutsägelser, via en tredje ordningens tensor .

Även om parallellisering och skalbarhet inte övervägs på allvar i konventionella DNN:er , görs all inlärning för DSN: er och TDSN: er i batch-läge, för att tillåta parallellisering. Parallellisering gör det möjligt att skala designen till större (djupare) arkitekturer och datamängder.

Den grundläggande arkitekturen är lämplig för olika uppgifter som klassificering och regression .

Regulatorisk feedback

Regulatoriska återkopplingsnätverk började som en modell för att förklara hjärnfenomen som hittas under igenkänning, inklusive nätverksomfattande sprängningar och svårigheter med likheter som finns universellt inom sensorisk igenkänning. En mekanism för att utföra optimering under igenkänning skapas med hjälp av inhiberande återkopplingsanslutningar tillbaka till samma ingångar som aktiverar dem. Detta minskar kraven under inlärning och gör att inlärning och uppdatering blir enklare samtidigt som man kan utföra komplex igenkänning.

Radiell basfunktion (RBF)

Radiella basfunktioner är funktioner som har ett avståndskriterium med avseende på ett centrum. Radiella basfunktioner har använts som en ersättning för den sigmoidala dolda skiktöverföringskarakteristiken i flerskiktsperceptroner. RBF-nätverk har två lager: I det första mappas indata till varje RBF i det "dolda" lagret. Den RBF som väljs är vanligtvis en Gauss. I regressionsproblem är utgångsskiktet en linjär kombination av dolda skiktvärden som representerar medelvärde för förutsagd utgång. Tolkningen av detta utdatalagervärde är densamma som en regressionsmodell i statistik. I klassificeringsproblem är utgångsskiktet typiskt en sigmoidfunktion av en linjär kombination av dolda skiktvärden, som representerar en posterior sannolikhet. Prestanda i båda fallen förbättras ofta av krympningstekniker, känd som åsregression i klassisk statistik. Detta motsvarar en tidigare övertygelse om små parametervärden (och därför jämna utgångsfunktioner) i ett Bayesiskt ramverk.

RBF-nätverk har fördelen av att undvika lokala minima på samma sätt som flerskiktsperceptroner. Detta beror på att de enda parametrarna som justeras i inlärningsprocessen är den linjära mappningen från dolt lager till utdatalager. Linjäritet säkerställer att felytan är kvadratisk och därför har ett enkelt lätt hittat minimum. I regressionsproblem kan detta hittas i en matrisoperation. I klassificeringsproblem hanteras den fixerade icke-linjäriteten som introduceras av sigmoid-utgångsfunktionen mest effektivt med iterativt omvägda minsta kvadrater .

RBF-nät har nackdelen att de kräver god täckning av inmatningsutrymmet med radiella basfunktioner. RBF-centra bestäms med hänvisning till fördelningen av indata, men utan hänvisning till prediktionsuppgiften. Som ett resultat kan representationsresurser slösas bort på områden i inmatningsutrymmet som är irrelevanta för uppgiften. En vanlig lösning är att associera varje datapunkt med sitt eget centrum, även om detta kan utöka det linjära systemet som ska lösas i det sista lagret och kräver krympningstekniker för att undvika överanpassning .

Att associera varje indatadatum med en RBF leder naturligt till kärnmetoder som stödvektormaskiner (SVM) och Gaussiska processer (RBF är kärnfunktionen ) . Alla tre tillvägagångssätten använder en icke-linjär kärnfunktion för att projicera indata till ett utrymme där inlärningsproblemet kan lösas med hjälp av en linjär modell. Liksom Gaussiska processer, och till skillnad från SVM, tränas RBF-nätverk vanligtvis i ett ramverk för maximal sannolikhet genom att maximera sannolikheten (minimera felet). SVM:er undviker övermontering genom att istället maximera en marginal. SVM:er överträffar RBF-nätverk i de flesta klassificeringstillämpningar. I regressionsapplikationer kan de vara konkurrenskraftiga när dimensionaliteten hos inmatningsutrymmet är relativt liten.

Hur RBF-nätverk fungerar

RBF neurala nätverk liknar konceptuellt K-Nearest Neighbor (k-NN) modeller. Grundtanken är att liknande ingångar ger liknande utgångar.

I fallet med en träningsuppsättning har två prediktorvariabler, x och y och målvariabeln har två kategorier, positiv och negativ. Givet ett nytt fall med prediktorvärden x=6, y=5.1, hur beräknas målvariabeln?

Den närmaste grannklassificering som utförs för detta exempel beror på hur många angränsande punkter som beaktas. Om 1-NN används och den närmaste punkten är negativ, ska den nya punkten klassificeras som negativ. Alternativt, om 9-NN-klassificering används och de närmaste 9 punkterna beaktas, kan effekten av de omgivande 8 positiva punkterna uppväga de närmaste 9 (negativa) punkterna.

Ett RBF-nätverk placerar neuroner i det utrymme som beskrivs av prediktorvariablerna (x,y i detta exempel). Detta utrymme har lika många dimensioner som prediktorvariabler. Det euklidiska avståndet beräknas från den nya punkten till mitten av varje neuron, och en radiell basfunktion (RBF) (även kallad en kärnfunktion) tillämpas på avståndet för att beräkna vikten (inflytandet) för varje neuron. Den radiella basfunktionen heter så eftersom radieavståndet är argumentet till funktionen.

Vikt = RBF( avstånd )

Radiell basfunktion

Värdet för den nya punkten hittas genom att summera utgångsvärdena för RBF-funktionerna multiplicerat med vikter beräknade för varje neuron.

Den radiella basfunktionen för en neuron har ett centrum och en radie (även kallad spridning). Radien kan vara olika för varje neuron, och i RBF-nätverk som genereras av DTREG kan radien vara olika i varje dimension.

Med större spridning har neuroner på avstånd från en punkt ett större inflytande.

Arkitektur

RBF-nätverk har tre lager:

Indatalager: En neuron visas i indatalagret för varje prediktorvariabel. I fallet med kategoriska variabler används N-1-neuroner där N är antalet kategorier. Ingångsneuronerna standardiserar värdeområdena genom att subtrahera medianen och dividera med det interkvartila området. Ingångsneuronerna matar sedan värdena till var och en av neuronerna i det dolda lagret.
Dolt lager: Detta lager har ett varierande antal neuroner (bestäms av träningsprocessen). Varje neuron består av en radiell basfunktion centrerad på en punkt med lika många dimensioner som prediktorvariabler. Spridningen (radien) för RBF-funktionen kan vara olika för varje dimension. Centrum och spridningar bestäms genom träning. När den presenteras med x-vektorn av ingångsvärden från indatalagret, beräknar en dold neuron det euklidiska avståndet för testfallet från neurons mittpunkt och tillämpar sedan RBF-kärnfunktionen på detta avstånd med hjälp av spridningsvärdena. Det resulterande värdet skickas till summeringsskiktet.
Summationslager: Värdet som kommer ut från en neuron i det dolda lagret multipliceras med en vikt som är associerad med neuronen och läggs till de viktade värdena för andra neuroner. Denna summa blir utdata. För klassificeringsproblem produceras en utdata (med en separat uppsättning vikter och summeringsenhet) för varje målkategori. Värdet för en kategori är sannolikheten att fallet som utvärderas har den kategorin.

Träning

Följande parametrar bestäms av träningsprocessen:

Antalet neuroner i det dolda lagret
Koordinaterna för mitten av varje dolda lager RBF-funktion
Radien (spridningen) för varje RBF-funktion i varje dimension
Vikterna som appliceras på RBF-funktionsutgångarna när de passerar till summeringsskiktet

Olika metoder har använts för att träna RBF-nätverk. Ett tillvägagångssätt använder först K-betyder klustring för att hitta klustercentra som sedan används som centra för RBF-funktionerna. K-means-klustring är dock beräkningsintensivt och det genererar ofta inte det optimala antalet centra. Ett annat tillvägagångssätt är att använda en slumpmässig delmängd av träningspoängen som centra.

DTREG använder en träningsalgoritm som använder ett evolutionärt tillvägagångssätt för att bestämma de optimala mittpunkterna och spridningarna för varje neuron. Den bestämmer när man ska sluta lägga till neuroner i nätverket genom att övervaka det uppskattade leave-one-out-felet (LOO) och avslutas när LOO-felet börjar öka på grund av överanpassning.

Beräkningen av de optimala vikterna mellan neuronerna i det dolda lagret och summeringsskiktet görs med hjälp av åsregression. En iterativ procedur beräknar den optimala lambdaparametern för regularisering som minimerar det generaliserade korsvalideringsfelet (GCV).

Generell regression neuralt nätverk

En GRNN är ett associativt minnesneuralt nätverk som liknar det probabilistiska neurala nätverket men det används för regression och approximation snarare än klassificering.

Djupt trosnätverk

En begränsad Boltzmann-maskin (RBM) med fullt anslutna synliga och dolda enheter. Observera att det inte finns några dolda, dolda eller synliga anslutningar.

Ett djupt trosnätverk (DBN) är en probabilistisk, generativ modell som består av flera dolda lager. Det kan betraktas som en sammansättning av enkla inlärningsmoduler.

En DBN kan användas för att generativt förträna ett djupt neuralt nätverk (DNN) genom att använda de inlärda DBN-vikterna som initiala DNN-vikter. Olika diskriminerande algoritmer kan sedan ställa in dessa vikter. Detta är särskilt användbart när träningsdata är begränsade, eftersom dåligt initialiserade vikter avsevärt kan hindra inlärningen. Dessa förtränade vikter hamnar i en region av viktutrymmet som är närmare de optimala vikterna än slumpmässiga val. Detta möjliggör både förbättrad modellering och snabbare slutlig konvergens.

Återkommande neurala nätverk

Återkommande neurala nätverk (RNN) sprider data framåt, men också bakåt, från senare bearbetningssteg till tidigare stadier. RNN kan användas som generella sekvensprocessorer.

Helt återkommande

Denna arkitektur utvecklades på 1980-talet. Dess nätverk skapar en riktad koppling mellan varje par av enheter. Var och en har en tidsvarierande, verkligt värderad (mer än bara noll eller en) aktivering (utgång). Varje anslutning har en modifierbar reell vikt. Vissa av noderna kallas märkta noder, vissa utgångsnoder, resten dolda noder.

För övervakad inlärning i diskreta tidsinställningar blir träningssekvenser av realvärdade ingångsvektorer sekvenser av aktivering av ingångsnoderna, en ingångsvektor åt gången. Vid varje tidssteg beräknar varje icke-ingångsenhet sin nuvarande aktivering som en icke-linjär funktion av den viktade summan av aktiveringarna av alla enheter från vilka den tar emot anslutningar. Systemet kan explicit aktivera (oberoende av inkommande signaler) vissa utgångsenheter vid vissa tidssteg. Till exempel, om ingångssekvensen är en talsignal som motsvarar en talad siffra, kan den slutliga målutgången i slutet av sekvensen vara en etikett som klassificerar siffran. För varje sekvens är dess fel summan av avvikelserna för alla aktiveringar som beräknats av nätverket från motsvarande målsignaler. För en träningsuppsättning av många sekvenser är det totala felet summan av felen för alla individuella sekvenser.

För att minimera det totala felet kan gradientnedgång användas för att ändra varje vikt i proportion till dess derivata med avseende på felet, förutsatt att de icke-linjära aktiveringsfunktionerna är differentierbara . Standardmetoden kallas " backpropagation through time " eller BPTT, en generalisering av back-propagation för feedforward-nätverk. En beräkningsmässigt dyrare online-variant kallas "Real-Time Recurrent Learning" eller RTRL. Till skillnad från BPTT är denna algoritm lokal i tiden men inte lokal i rymden . Det finns en onlinehybrid mellan BPTT och RTRL med mellanliggande komplexitet, med varianter för kontinuerlig tid. Ett stort problem med gradientnedstigning för standard RNN-arkitekturer är att felgradienter försvinner exponentiellt snabbt med storleken på tidsfördröjningen mellan viktiga händelser. Den långa korttidsminnesarkitekturen övervinner dessa problem.

I förstärkningsinlärningsmiljöer ger ingen lärare målsignaler. Istället används ibland en fitnessfunktion eller en belöningsfunktion eller en hjälpfunktion för att utvärdera prestanda, vilket påverkar dess ingångsström genom utgångsenheter anslutna till ställdon som påverkar miljön. Varianter av evolutionär beräkning används ofta för att optimera viktmatrisen.

Hopfield

Hopfield -nätverket (som liknande attraktionsbaserade nätverk) är av historiskt intresse även om det inte är ett allmänt RNN, eftersom det inte är utformat för att bearbeta mönstersekvenser. Istället kräver den stationära ingångar. Det är ett RNN där alla anslutningar är symmetriska. Det garanterar att det kommer att konvergera. Om anslutningarna tränas med hjälp av Hebbian-inlärning kan Hopfield-nätverket fungera som ett robust innehållsadresserbart minne , resistent mot anslutningsförändringar.

Boltzmann maskin

Boltzmann -maskinen kan ses som ett bullrigt Hopfield-nätverk. Det är ett av de första neurala nätverken som demonstrerar inlärning av latenta variabler (dolda enheter). Boltzmann maskininlärning var till en början långsam att simulera, men den kontrastiva divergensalgoritmen påskyndar träningen för Boltzmann-maskiner och expertprodukter .

Självorganiserande karta

Den självorganiserande kartan (SOM) använder oövervakat lärande . En uppsättning neuroner lär sig att kartlägga punkter i ett inmatningsutrymme till koordinater i ett utmatningsutrymme. Inmatningsutrymmet kan ha olika dimensioner och topologi än utmatningsutrymmet, och SOM försöker bevara dessa.

Att lära sig vektorkvantisering

Lärande vektorkvantisering (LVQ) kan tolkas som en neural nätverksarkitektur. Prototypiska representanter för klasserna parametriserar, tillsammans med ett lämpligt avståndsmått, i ett avståndsbaserat klassificeringsschema.

Enkelt återkommande

Enkla återkommande nätverk har tre lager, med tillägg av en uppsättning "kontextenheter" i indatalagret. Dessa enheter ansluter från det dolda lagret eller utdatalagret med en fast vikt på ett. Vid varje tidssteg sprids indata på ett standardfeedforward-sätt, och sedan tillämpas en backpropagation-liknande inlärningsregel (utför inte gradient descent ). De fasta bakanslutningarna lämnar en kopia av de tidigare värdena för de dolda enheterna i kontextenheterna (eftersom de sprider sig över anslutningarna innan inlärningsregeln tillämpas).

Reservoarberäkning

Reservoarberäkning är ett beräkningsramverk som kan ses som en förlängning av neurala nätverk . Vanligtvis matas en insignal in i ett fast (slumpmässigt) dynamiskt system som kallas en reservoar vars dynamik mappar ingången till en högre dimension. En avläsningsmekanism tränas för att mappa reservoaren till den önskade utgången. Träning utförs endast vid avläsningsstadiet. Liquid-state maskiner är en typ av reservoarberäkning.

Ekotillstånd

Ekotillståndsnätverket (ESN) använder ett glest anslutet slumpmässigt dolt lager. Vikten av utgående neuroner är den enda delen av nätverket som tränas. ESN är bra på att återge vissa tidsserier.

Långt korttidsminne

Det långa korttidsminnet (LSTM) undviker problemet med försvinnande gradienter . Den fungerar även med långa fördröjningar mellan ingångarna och kan hantera signaler som blandar låg- och högfrekventa komponenter. LSTM RNN överträffade andra RNN och andra sekvensinlärningsmetoder som HMM i applikationer som språkinlärning och ansluten handskriftsigenkänning.

Dubbelriktad

Dubbelriktad RNN, eller BRNN, använder en ändlig sekvens för att förutsäga eller märka varje element i en sekvens baserat på både det tidigare och framtida sammanhanget för elementet. Detta görs genom att lägga till utsignalerna från två RNN:er: en bearbetar sekvensen från vänster till höger, den andra från höger till vänster. De kombinerade utsignalerna är förutsägelserna av de av läraren givna målsignalerna. Denna teknik visade sig vara särskilt användbar i kombination med LSTM.

Hierarkisk

Hierarkisk RNN kopplar ihop element på olika sätt för att dekomponera hierarkiskt beteende till användbara underprogram.

Stokastisk

Ett distrikt från konventionella neurala nätverk, stokastiska artificiella neurala nätverk som används som en approximation till slumpmässiga funktioner.

Genetisk skala

En RNN (ofta en LSTM) där en serie delas upp i ett antal skalor där varje skala informerar om den primära längden mellan två på varandra följande punkter. En första ordningens skala består av en normal RNN, en andra ordningen består av alla punkter åtskilda av två index och så vidare. N:te ordningens RNN förbinder den första och sista noden. Resultaten från alla olika skalor behandlas som en kommitté av maskiner och de tillhörande poängen används genetiskt för nästa iteration.

Modul

Biologiska studier har visat att den mänskliga hjärnan fungerar som en samling av små nätverk. Denna insikt födde konceptet med modulära neurala nätverk , där flera små nätverk samarbetar eller tävlar för att lösa problem.

Maskinkommitté

En kommitté av maskiner (CoM) är en samling av olika neurala nätverk som tillsammans "röstar" på ett givet exempel. Detta ger generellt sett ett mycket bättre resultat än enskilda nätverk. Eftersom neurala nätverk lider av lokala minima, börjar med samma arkitektur och träning men att använda slumpmässigt olika initialvikter ger ofta väldigt olika resultat. ^{[ citat behövs ]} En CoM tenderar att stabilisera resultatet.

CoM liknar den allmänna maskininlärningsmetoden , förutom att den nödvändiga variationen av maskiner i kommittén erhålls genom att träna från olika startvikter snarare än att träna på olika slumpmässigt valda delmängder av träningsdata .

Associativ

Det associativa neurala nätverket (ASNN) är en förlängning av en kommitté av maskiner som kombinerar flera neurala nätverk för feedforward och tekniken k-närmaste granne. Den använder korrelationen mellan ensemblesvar som ett mått på avstånd mitt i de analyserade fallen för kNN. Detta korrigerar förspänningen hos den neurala nätverksensemblen. Ett associativt neuralt nätverk har ett minne som kan sammanfalla med träningsuppsättningen. Om ny data blir tillgänglig förbättrar nätverket omedelbart sin prediktionsförmåga och tillhandahåller dataapproximation (självlärande) utan omskolning. En annan viktig egenskap hos ASNN är möjligheten att tolka neurala nätverksresultat genom analys av korrelationer mellan datafall i modellutrymmet.

Fysisk

Ett fysiskt neuralt nätverk inkluderar elektriskt justerbart motståndsmaterial för att simulera artificiella synapser. Exempel inkluderar det ADALINE memristor -baserade neurala nätverket. Ett optiskt neuralt nätverk är en fysisk implementering av ett artificiellt neuralt nätverk med optiska komponenter .

Dynamisk

Dynamiska neurala nätverk adresserar ickelinjärt multivariat beteende och inkluderar (inlärning av) tidsberoende beteende, såsom övergående fenomen och fördröjningseffekter. Tekniker för att uppskatta en systemprocess från observerade data faller under den allmänna kategorin systemidentifiering.

Cascading

Kaskadkorrelation är en arkitektur och övervakad inlärningsalgoritm . Istället för att bara justera vikterna i ett nätverk av fast topologi, börjar Cascade-Correlation med ett minimalt nätverk, tränar sedan automatiskt och lägger till nya dolda enheter en efter en, vilket skapar en flerskiktsstruktur. När en ny dold enhet har lagts till i nätverket fryses dess vikter på ingångssidan. Denna enhet blir sedan en permanent funktionsdetektor i nätverket, tillgänglig för att producera utsignaler eller för att skapa andra, mer komplexa funktionsdetektorer. Kaskad-korrelationsarkitekturen har flera fördelar: Den lär sig snabbt, bestämmer sin egen storlek och topologi, behåller strukturerna den har byggt även om träningsuppsättningen ändras och kräver ingen backpropagation .

Neuro-luddrig

Ett neurofuzzy nätverk är ett fuzzy inferenssystem i kroppen av ett artificiellt neuralt nätverk. Beroende på FIS-typ simulerar flera lager de processer som är involverade i en fuzzy inferensliknande fuzzification, inferens, aggregering och defuzzification. Att bädda in en FIS i en allmän struktur för en ANN har fördelen av att använda tillgängliga ANN-träningsmetoder för att hitta parametrarna för ett fuzzy system.

Kompositionsmönsterproducerande

Kompositionsmönsterproducerande nätverk (CPPN) är en variant av artificiella neurala nätverk som skiljer sig åt i sin uppsättning aktiveringsfunktioner och hur de tillämpas. Medan typiska artificiella neurala nätverk ofta bara innehåller sigmoidfunktioner (och ibland Gaussiska funktioner ), kan CPPN innehålla båda typerna av funktioner och många andra. Dessutom, till skillnad från typiska artificiella neurala nätverk, appliceras CPPN över hela utrymmet av möjliga ingångar så att de kan representera en komplett bild. Eftersom de är sammansättningar av funktioner, kodar CPPN i själva verket bilder med oändlig upplösning och kan samplas för en viss skärm med vilken upplösning som helst som är optimal.

Minnesnätverk

Minnesnätverk innehåller långtidsminne . Långtidsminnet kan läsas och skrivas till, med målet att använda det för förutsägelse. Dessa modeller har tillämpats i samband med frågesvar (QA) där långtidsminnet effektivt fungerar som en (dynamisk) kunskapsbas och resultatet är ett textsvar.

I sparsamt distribuerat minne eller hierarkiskt temporalt minne används mönstren som kodas av neurala nätverk som adresser för innehållsadresserbart minne , med "neuroner" som huvudsakligen fungerar som adresskodare och avkodare . De tidiga kontrollerna för sådana minnen var dock inte differentierbara.

Engångs associativt minne

Den här typen av nätverk kan lägga till nya mönster utan omträning. Det görs genom att skapa en specifik minnesstruktur, som tilldelar varje nytt mönster till ett ortogonalt plan med hjälp av intilliggande anslutna hierarkiska arrayer. Nätverket erbjuder mönsterigenkänning i realtid och hög skalbarhet; detta kräver parallell bearbetning och är därför bäst lämpat för plattformar som trådlösa sensornätverk , grid computing och GPGPU :er .

Hierarkiskt temporalt minne

Hierarkiskt temporalt minne (HTM) modellerar några av de strukturella och algoritmiska egenskaperna hos neocortex . HTM är en biomimetisk modell baserad på minnesprediktionsteori . HTM är en metod för att upptäcka och härleda orsakerna på hög nivå till observerade inmatningsmönster och sekvenser, och därmed bygga en allt mer komplex modell av världen.

HTM kombinerar befintliga idéer för att efterlikna neocortex med en enkel design som ger många möjligheter. HTM kombinerar och utökar tillvägagångssätt som används i Bayesianska nätverk , rumsliga och tidsmässiga klustringsalgoritmer, samtidigt som man använder en trädformad hierarki av noder som är vanlig i neurala nätverk .

Holografiskt associativt minne

Holographic Associative Memory (HAM) är ett analogt, korrelationsbaserat, associativt, stimulus-responssystem. Information avbildas på fasorienteringen av komplexa tal. Minnet är effektivt för associativa minnesuppgifter , generalisering och mönsterigenkänning med föränderlig uppmärksamhet. Dynamisk söklokalisering är central för biologiskt minne. I visuell perception fokuserar människor på specifika föremål i ett mönster. Människor kan ändra fokus från objekt till objekt utan att lära sig. HAM kan härma denna förmåga genom att skapa explicita representationer för fokus. Den använder en bi-modal representation av mönster och ett hologramliknande komplext sfäriskt vikttillståndsutrymme. HAM:er är användbara för optisk realisering eftersom de underliggande hypersfäriska beräkningarna kan implementeras med optisk beräkning.

LSTM-relaterade differentierbara minnesstrukturer

Förutom långtidsminne (LSTM) lade andra tillvägagångssätt också differentierbart minne till återkommande funktioner. Till exempel:

Differentiera push- och pop-åtgärder för alternativa minnesnätverk som kallas neurala stackmaskiner
Minnesnätverk där styrnätets externa differentierbara lagring ligger i ett annat nätverks snabba vikter
LSTM glöm grindar
Självrefererande RNN:er med speciella utgångsenheter för att adressera och snabbt manipulera RNN:s egna vikter på differentierbart sätt (intern lagring)
Att lära sig transducera med obegränsat minne

Neural Turing-maskiner

Neural Turing-maskiner kopplar LSTM-nätverk till externa minnesresurser, med vilka de kan interagera genom uppmärksamhetsprocesser. Det kombinerade systemet är analogt med en Turing-maskin men är differentierbart från början till slut, vilket gör att det kan tränas effektivt genom lutning . Preliminära resultat visar att neurala Turing-maskiner kan sluta sig till enkla algoritmer som kopiering, sortering och associativ återkallelse från in- och utdataexempel.

Differentiera neurala datorer (DNC) är en NTM-förlängning. De presterade bättre än neurala tureringsmaskiner, långtidskorttidsminnessystem och minnesnätverk på sekvensbearbetningsuppgifter.

Semantisk hashing

Tillvägagångssätt som representerar tidigare erfarenheter direkt och använder en liknande erfarenhet för att bilda en lokal modell kallas ofta för närmaste granne eller k-närmaste grannar- metoder. Deep learning är användbart i semantisk hashing där en djup grafisk modell av ordräkningsvektorerna erhålls från en stor uppsättning dokument. ^{[ förtydligande behövs ]} Dokument mappas till minnesadresser på ett sådant sätt att semantiskt liknande dokument finns på närliggande adresser. Dokument som liknar ett frågedokument kan sedan hittas genom att komma åt alla adresser som skiljer sig endast några bitar från frågedokumentets adress. Till skillnad från sparsamt distribuerat minne som fungerar på 1000-bitars adresser, fungerar semantisk hash på 32 eller 64-bitars adresser som finns i en konventionell datorarkitektur.

Pekarnätverk

Djupa neurala nätverk kan potentiellt förbättras genom fördjupning och parameterminskning, samtidigt som träningsbarheten bibehålls. Även om det kanske inte är praktiskt att träna extremt djupa (t.ex. 1 miljon lager) neurala nätverk, CPU -liknande arkitekturer som pekarnätverk och neurala slumpmässiga maskiner denna begränsning genom att använda externt slumpmässigt minne och andra komponenter som vanligtvis tillhör en datorarkitektur som register , ALU och pekare . Sådana system arbetar på sannolikhetsfördelningsvektorer lagrade i minnesceller och register. Således är modellen helt differentierbar och tränar från början till slut. Det viktigaste kännetecknet för dessa modeller är att deras djup, storleken på deras korttidsminne och antalet parametrar kan ändras oberoende av varandra.

Hybrider

Encoder–decoder nätverk

Encoder-decoder-ramverk är baserade på neurala nätverk som kartlägger mycket strukturerad indata till mycket strukturerad utdata. Tillvägagångssättet uppstod i samband med maskinöversättning , där input och output är skrivna meningar på två naturliga språk. I det arbetet användes en LSTM RNN eller CNN som en kodare för att sammanfatta en källmening, och sammanfattningen avkodades med en villkorad RNN- språkmodell för att producera översättningen. Dessa system delar byggstenar: gated RNN och CNN och tränade uppmärksamhetsmekanismer.

Andra typer

Omedelbart tränad

Momentant tränade neurala nätverk (ITNN) inspirerades av fenomenet korttidsinlärning som tycks inträffa omedelbart. I dessa nätverk mappas vikten av de dolda och utgående lagren direkt från träningsvektordata. Vanligtvis arbetar de på binär data, men versioner för kontinuerlig data som kräver liten extra bearbetning finns.

Spiking

Spiking neurala nätverk (SNN) tar uttryckligen hänsyn till tidpunkten för ingångar. Nätverksinmatningen och -utgången representeras vanligtvis som en serie spikar (deltafunktion eller mer komplexa former). SNN kan bearbeta information i tidsdomänen (signaler som varierar över tiden). De implementeras ofta som återkommande nätverk. SNN är också en form av pulsdator .

Spikande neurala nätverk med axonala ledningsfördröjningar uppvisar polykronisering och kan därför ha en mycket stor minneskapacitet.

SNN och de tidsmässiga korrelationerna mellan neurala sammansättningar i sådana nätverk - har använts för att modellera figur/markseparation och regionlänkning i det visuella systemet.

Rumslig

Spatial neurala nätverk ( SNN ) utgör en överkategori av skräddarsydda neurala nätverk (NN) för att representera och förutsäga geografiska fenomen. De förbättrar generellt både den statistiska noggrannheten och tillförlitligheten för de a-spatiala/klassiska NN:erna när de hanterar geospatiala datauppsättningar, och även för de andra rumsliga (statistiska) modellerna (t.ex. rumsliga regressionsmodeller) närhelst de geospatiala datauppsättningarnas variabler visar icke-linjära relationer . Exempel på SNN är OSFAs rumsliga neurala nätverk, SVANN och GWNN.

Regulatorisk feedback

Ett nätverk för reglerande återkoppling drar slutsatser med hjälp av negativ feedback . Återkopplingen används för att hitta den optimala aktiveringen av enheter. Den liknar mest en icke-parametrisk metod men skiljer sig från K-närmaste granne genom att den matematiskt emulerar feedforward-nätverk.

Neokognitron

Neokognitronen är ett hierarkiskt , flerskiktsnätverk som modellerades efter den visuella cortex . Den använder flera typer av enheter, (ursprungligen två, kallade enkla och komplexa celler), som en kaskadmodell för användning i mönsterigenkänningsuppgifter. Lokala egenskaper extraheras av S-celler vars deformation tolereras av C-celler. Lokala funktioner i ingången integreras gradvis och klassificeras i högre lager. Bland de olika typerna av neokognitron finns system som kan upptäcka flera mönster i samma ingång genom att använda backpropagation för att uppnå selektiv uppmärksamhet . Den har använts för mönsterigenkänningsuppgifter och inspirerade faltningsneurala nätverk .

Sammansatta hierarkiska-djupa modeller

Sammansatta hierarkiska-djupa modeller komponerar djupa nätverk med icke-parametriska Bayesianska modeller . Funktioner kan läras in med hjälp av djupa arkitekturer som DBN:er, djupa Boltzmann-maskiner (DBM), djupa automatiska kodare, faltningsvarianter, ssRBM:er, djupkodningsnätverk, DBN:er med sparsam funktionsinlärning, RNN:er, villkorade DBN:er, avbrusande automatiska kodare. Detta ger en bättre representation, vilket möjliggör snabbare inlärning och mer exakt klassificering med högdimensionella data. Dessa arkitekturer är dock dåliga på att lära sig nya klasser med få exempel, eftersom alla nätverksenheter är involverade i att representera input (en distribuerad representation ) och måste justeras tillsammans (hög grad av frihet ). Att begränsa graden av frihet minskar antalet parametrar att lära sig, vilket underlättar inlärning av nya klasser från få exempel. Hierarkiska Bayesianska (HB) modeller tillåter lärande från få exempel, till exempel för datorseende, statistik och kognitionsvetenskap.

Compound HD-arkitekturer syftar till att integrera egenskaper hos både HB- och djupa nätverk. Den sammansatta HDP-DBM-arkitekturen är en hierarkisk Dirichlet-process (HDP) som en hierarkisk modell, som innehåller DBM-arkitektur. Det är en fullständig generativ modell , generaliserad från abstrakta begrepp som flödar genom modelllagren, som kan syntetisera nya exempel i nya klasser som ser "rimligt" naturliga ut. Alla nivåer lärs in gemensamt genom att maximera en gemensam log- sannolikhetspoäng .

är sannolikheten för en synlig indata '' $ν$ '' :

p({\boldsymbol {\nu }},\psi )={\frac {1}{Z}}\sum _{h}\exp \left (\sum _{ij}W_{ij}^{(1)}\nu _{i}h_{j}^{1}+\summa _{j\ell }W_{j\ell}^{(2 )}h_{j}^{1}h_{\ell }^{2}+\sum _{\ell m}W_{\ell m}^{(3)}h_{\ell }^{2}h_ {m}^{3}\höger),

där ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol { h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ är mängden dolda enheter, och $\psi =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3) }\}$ är modellparametrarna, som representerar synliga-dolda och dolda symmetriska interaktionstermer.

En inlärd DBM-modell är en oriktad modell som definierar den gemensamma fördelningen $P(\nu ,h^{1},h^{2},h^{3 })$ . Ett sätt att uttrycka vad man har lärt sig är den villkorliga modellen $P(\nu ,h^{1},h^{2}\mid h^{3 })$ och en tidigare term $P(h^{3})$ .

Här representerar $P(\nu ,h^{1},h^{2}\mid h^{3})$ en villkorlig DBM-modell, som kan ses som en tvålagers DBM men med bias termer som ges av tillstånden $h^{3}$ :

P(\nu ,h^{1},h^{2}\mid h^{3})={\frac {1}{Z(\psi ,h^{3})}}\exp \left(\sum _{ij}W_{ij}^{(1)}\nu _{i}h_{j}^{1}+\sum _{j\ell}W_{j\ell}^{ (2)}h_{j}^{1}h_{\ell }^{2}+\sum _{\ell m}W_{\ell m}^{(3)}h_{\ell }^{2 }h_{m}^{3}\höger).

Djupa prediktiva kodningsnätverk

Ett djupt prediktivt kodningsnätverk (DPCN) är ett prediktivt kodningsschema som använder top-down-information för att empiriskt justera de prioriteringar som behövs för en bottom-up- inferensprocedur med hjälp av en djup, lokalt ansluten, generativ modell . Detta fungerar genom att extrahera glesa funktioner från tidsvarierande observationer med hjälp av en linjär dynamisk modell. Sedan används en poolningsstrategi för att lära sig invarianta funktionsrepresentationer. Dessa enheter komponerar för att bilda en djup arkitektur och tränas av girigt skiktmässigt oövervakat lärande . Skikten utgör en slags Markov-kedja så att tillstånden i vilket skikt som helst beror endast på de föregående och efterföljande skikten.

DPCN:er förutsäger representationen av lagret, genom att använda ett uppifrån och ned-tillvägagångssätt som använder informationen i det övre lagret och tidsmässiga beroenden från tidigare tillstånd.

DPCN:er kan utökas för att bilda ett konvolutionerande nätverk .

Flerlagers kärna maskin

Multilayer kernel machines (MKM) är ett sätt att lära sig mycket olinjära funktioner genom iterativ tillämpning av svagt olinjära kärnor. De använder kernel principal component analysis (KPCA), som en metod för det oövervakade giriga, lagermässiga förträningssteget av djupinlärning.

Layer $\ell +1$ lär sig representationen av föregående lager $\ell$ , extraherar $n_{l}$ huvudkomponenten (PC) i projektionsskiktet $l$ utdata i funktionsdomänen inducerad av kärnan. För att minska dimensionaliteten hos den uppdaterade representationen i varje lager väljer en övervakad strategi ut de bästa informativa funktionerna bland funktioner som extraherats av KPCA. Processen är:

rangordna $n_{\ell }$ funktionerna enligt deras ömsesidiga information med klassetiketterna;
för olika värden på K och ${\displaystyle m_{\ell }\in \{1,\ldots ,n_{\ell }\}} beräknar du klassificeringsfelfrekvensen för$ en K-närmaste granne (K-NN) klassificerare som endast använder de $m_{l}$ mest informativa funktionerna i en valideringsuppsättning ;
värdet på $m_{\ell }$ med vilket klassificeraren har nått den lägsta felfrekvensen bestämmer antalet funktioner som ska behållas.

Vissa nackdelar följer med KPCA-metoden för MKM.

Ett enklare sätt att använda kärnmaskiner för djupinlärning utvecklades för att förstå talat språk. Huvudidén är att använda en kärnmaskin för att approximera ett grunt neuralt nät med ett oändligt antal dolda enheter, och sedan använda ett djupstackningsnätverk för att splittra utdata från kärnmaskinen och den råa input för att bygga nästa, högre nivå av kärna maskin. Antalet nivåer i det djupt konvexa nätverket är en hyperparameter av det övergripande systemet, som ska bestämmas genom korsvalidering.

Se även