Pandemonium arkitektur

Den ursprungliga pandemoniummodellen som föreslogs av Oliver Selfridge 1959

Pandemoniumarkitektur är en teori inom kognitionsvetenskap som beskriver hur visuella bilder bearbetas av hjärnan. Den har tillämpningar inom artificiell intelligens och mönsterigenkänning . Teorin utvecklades av pionjären med artificiell intelligens Oliver Selfridge 1959. Den beskriver processen för objektigenkänning som ett hierarkiskt system för upptäckt och association genom en metaforisk uppsättning "demoner" som skickar signaler till varandra. Denna modell är nu erkänd som grunden för visuell perception inom kognitionsvetenskap.

Pandemoniumarkitektur uppstod som svar på oförmågan hos mallmatchningsteorier att erbjuda en biologiskt rimlig förklaring av fenomenet bildkonstans . Samtida [ när? ] forskare berömmer denna arkitektur för dess elegans och kreativitet; att idén med att ha flera oberoende system (t.ex. funktionsdetektorer ) som arbetar parallellt för att ta itu med fenomenen med bildbeständighet av mönsterigenkänning är kraftfull men ändå enkel. Grundtanken med pandemoniumarkitekturen är att ett mönster först uppfattas i sina delar före "helheten".

Pandemonium-arkitektur var en av de första beräkningsmodellerna inom mönsterigenkänning. Även om den inte var perfekt, påverkade pandemoniumarkitekturen utvecklingen av moderna kopplingsmodeller , artificiell intelligens och ordigenkänningsmodeller .

Historia

Vi uppfattar hund, men hur och varför?

Den mesta forskningen inom perception har fokuserats på det visuella systemet, undersökt mekanismerna för hur vi ser och förstår objekt. En kritisk funktion hos vårt visuella system är dess förmåga att känna igen mönster, men mekanismen genom vilken detta uppnås är oklart.

Den tidigaste teorin som försökte förklara hur vi känner igen mönster är mallmatchningsmodellen. Enligt denna modell jämför vi alla yttre stimuli mot en intern mental representation. Om det finns "tillräcklig" överlappning mellan den upplevda stimulansen och den interna representationen kommer vi att "känna igen" stimulansen. Även om vissa maskiner följer en mallmatchningsmodell (t.ex. bankmaskiner som verifierar signaturer och kontonummer), är teorin kritiskt felaktig när det gäller att förklara fenomenet bildkonstans: vi kan lätt känna igen en stimulans oavsett förändringarna i dess presentationsform (t.ex. , T och T känns båda lätt igen som bokstaven T). Det är högst osannolikt att vi har en lagrad mall för alla varianter av varje enskilt mönster.

Som ett resultat av den biologiska rimlighetskritiken av mallmatchningsmodellen började funktionsdetekteringsmodeller att öka. I en funktionsdetekteringsmodell uppfattas bilden först i sina grundläggande individuella element innan den känns igen som ett helt objekt. Till exempel, när vi presenteras med bokstaven A, skulle vi först se en kort horisontell linje och två lutande långa diagonala linjer. Sedan skulle vi kombinera funktionerna för att fullborda uppfattningen av A. Varje unikt mönster består av olika kombinationer av funktioner, vilket innebär att de som är bildade med samma egenskaper kommer att generera samma igenkänning. Det vill säga, oavsett hur vi roterar bokstaven A, uppfattas den fortfarande som bokstaven A. Det är lätt för den här typen av arkitektur att redogöra för fenomenen med bildkonstans eftersom du bara behöver "matcha" på den grundläggande funktionsnivån, vilket antas vara begränsad och ändlig, sålunda biologiskt rimlig. Den mest kända funktionsdetekteringsmodellen kallas pandemoniumarkitekturen.

Pandemonium arkitektur

Pandemoniumarkitekturen utvecklades ursprungligen av Oliver Selfridge i slutet av 1950-talet. Arkitekturen är sammansatt av olika grupper av "demoner" som arbetar självständigt för att bearbeta den visuella stimulansen. Varje grupp av demoner tilldelas ett specifikt stadium i erkännande, och inom varje grupp arbetar demonerna parallellt. Det finns fyra stora grupper av demoner i den ursprungliga arkitekturen.

De fyra stora bearbetningsstegen av pandemoniumarkitektur
Skede
Demon namn Fungera
1 Bild demon Spelar in bilden som tas emot i näthinnan.
2 Visa demoner Det finns många funktionsdemoner, som var och en representerar en specifik funktion. Till exempel finns det en funktionsdemon för korta raka linjer, en annan för böjda linjer och så vidare. Varje funktionsdemons jobb är att "ropa" om de upptäcker en funktion som de motsvarar. Observera att funktionsdemoner inte är avsedda att representera några specifika neuroner , utan att representera en grupp neuroner som har liknande funktioner. Till exempel används den vertikala linjefunktionsdemonen för att representera nervcellerna som svarar på de vertikala linjerna i näthinnan.
3 Kognitiva demoner Titta på "skrikandet" från demonerna. Varje kognitiv demon är ansvarig för ett specifikt mönster (t.ex. en bokstav i alfabetet). De kognitiva demonernas "skrik" är baserat på hur mycket av deras mönster som upptäcktes av funktionsdemonerna. Ju fler egenskaper de kognitiva demonerna hittar som motsvarar deras mönster, desto högre "skriker" de. Till exempel, om de böjda, långa raka och kortvinklade linjedemonerna skriker riktigt högt, kan R-bokstavens kognitiva demon bli riktigt upphetsad, och P-bokstavens kognitiva demon kan också vara något upphetsad; men Z-bokstavens kognitiva demon är mycket sannolikt tyst.
4 Beslutsdemon
Representerar det sista steget i bearbetningen. Den lyssnar på "skrikandet" som produceras av de kognitiva demonerna. Den väljer den mest högljudda kognitiva demonen. Demonen som blir utvald blir vår medvetna uppfattning. Om vi ​​fortsätter med vårt tidigare exempel, skulle den kognitiva R-demonen vara den mest högljudda, sekunderad av P; därför kommer vi att uppfatta R, men om vi skulle göra ett misstag på grund av dåliga visningsförhållanden (t.ex. bokstäver blinkar snabbt eller har delar tilltäppta), är det sannolikt P. Observera att "pandemonium" helt enkelt representerar det kumulativa "skrik" som produceras av systemet.

Konceptet med funktionsdemoner, att det finns specifika neuroner dedikerade för att utföra specialiserad bearbetning stöds av forskning inom neurovetenskap. Hubel och Wiesel fann att det fanns specifika celler i en katts hjärna som svarade på specifika längder och orienteringar av en linje. Liknande fynd upptäcktes i grodor , bläckfiskar och en mängd andra djur. Bläckfiskar upptäcktes endast vara känsliga för vertikala linjer, medan grodor visade ett bredare känslighetsområde. Dessa djurförsök visar att funktionsdetektorer verkar vara en mycket primitiv utveckling. Det vill säga, det berodde inte på den högre kognitiva utvecklingen hos människor. Inte överraskande finns det också bevis för att den mänskliga hjärnan också har dessa elementära funktionsdetektorer.

Dessutom är den här arkitekturen kapabel att lära sig, liknande ett bakåtförökningsformat neuralt nätverk . Vikten mellan de kognitiva och funktionella demonerna kan justeras i proportion till skillnaden mellan det korrekta mönstret och aktiveringen från de kognitiva demonerna. För att fortsätta med vårt tidigare exempel, när vi först lärde oss bokstaven R, vet vi att den består av en krökt, lång rak och en kort vinklad linje. Så när vi uppfattar dessa egenskaper uppfattar vi R. Bokstaven P består dock av mycket liknande egenskaper, så under inlärningsstadierna är det troligt att denna arkitektur felaktigt identifierar R som P. Men genom konstant exponering för att bekräfta R:s egenskaper som ska identifieras som R, vikten av R:s egenskaper till P justeras så att P-svaret blir hämmat (t.ex. lära sig att hämma P-svaret när en kort vinklad linje detekteras). I princip kan en pandemoniumarkitektur känna igen vilket mönster som helst.

Som nämnts tidigare gör denna arkitektur felförutsägelser baserat på mängden överlappande funktioner. Såsom, det mest sannolika felet för R bör vara P. För att visa att denna arkitektur representerar det mänskliga mönsterigenkänningssystemet måste vi testa dessa förutsägelser. Forskare har konstruerat scenarier där olika bokstäver presenteras i situationer som gör dem svåra att identifiera; sedan observerades typer av fel, som användes för att generera förvirringsmatriser: där alla fel för varje bokstav registreras. Generellt sett matchade resultaten från dessa experiment felförutsägelserna från pandemoniumarkitekturen. Också som ett resultat av dessa experiment har vissa forskare föreslagit modeller som försökte lista alla de grundläggande funktionerna i det romerska alfabetet .

Kritik

En stor kritik mot pandemoniumarkitekturen är att den antar en helt nedifrån-och-upp-bearbetning: igenkänning drivs helt av de fysiska egenskaperna hos den riktade stimulansen. Detta innebär att det inte kan ta hänsyn till några uppifrån-och-ned-bearbetningseffekter, såsom kontexteffekter ( t.ex. pareidolia ), där kontextuella ledtrådar kan underlätta (t.ex. ordöverlägsenhetseffekt: det är relativt lättare att identifiera en bokstav när den är en del av ett ord än isolerat) bearbetning. Detta är dock inte en ödesdiger kritik mot den övergripande arkitekturen, eftersom det är relativt lätt att lägga till en grupp kontextuella demoner för att arbeta tillsammans med de kognitiva demonerna för att redogöra för dessa kontexteffekter.

En demonstration av den globala-till-lokala hypotesen: människor ser A:et före Hs

Även om pandemoniumarkitekturen är byggd på det faktum att den kan redogöra för fenomenen med bildbeständighet, har vissa forskare hävdat något annat; och påpekade att pandemoniumarkitekturen kan ha samma brister som mallmatchningsmodellerna. Till exempel är bokstaven H sammansatt av 2 långa vertikala linjer och en kort horisontell linje; men om vi roterar H 90 grader i endera riktningen, är den nu sammansatt av 2 långa horisontella linjer och en kort vertikal linje. För att känna igen det roterade H som H, skulle vi behöva en roterad H kognitiv demon. Således kan vi sluta med ett system som kräver ett stort antal kognitiva demoner för att producera korrekt igenkänning, vilket skulle leda till samma biologiska rimlighetskritik av mallmatchningsmodellerna. Det är dock ganska svårt att bedöma giltigheten av denna kritik eftersom pandemoniumarkitekturen inte specificerar hur och vilka funktioner som extraheras från inkommande sensorisk information, den skisserar helt enkelt de möjliga stadierna av mönsterigenkänning. Men det väcker förstås sina egna frågor, till vilka det är nästan omöjligt att kritisera en sådan modell om den inte innehåller specifika parametrar. Teorin verkar också vara ganska ofullständig utan att definiera hur och vilka egenskaper som extraheras, vilket visar sig vara särskilt problematiskt med komplexa mönster (t.ex. att extrahera vikten och egenskaperna hos en hund).

Vissa forskare har också påpekat att bevisen som stöder pandemoniumarkitekturen har varit mycket snäva i sin metodik. Majoriteten av forskningen som stöder denna arkitektur har ofta hänvisat till dess förmåga att känna igen enkla schematiska ritningar som är valda från en liten ändlig uppsättning (t.ex. bokstäver i det romerska alfabetet). Bevis från dessa typer av experiment kan leda till övergeneraliserade och missvisande slutsatser, eftersom igenkänningsprocessen av komplexa, tredimensionella mönster kan skilja sig mycket från enkla scheman. Dessutom har vissa kritiserat den metod som används för att skapa förvirringsmatrisen, eftersom den blandar ihop perceptuell förvirring (fel i identifieringen orsakad av överlappande egenskaper mellan felet och det korrekta svaret) med postperceptuell gissning (människor som slumpmässigt gissar eftersom de inte kan vara säkra på vad de såg). Denna kritik togs dock upp något när liknande resultat replikerades med andra paradigm (t.ex. go/no go och samma olika uppgifter), vilket stöder påståendet att människor har elementära funktionsdetektorer. Dessa nya paradigm förlitade sig på reaktionstid som den beroende variabeln, vilket också undvek problemet med tomma celler som är inneboende i förvirringsmatrisen (statistiska analyser är svåra att genomföra och tolka när data har tomma celler).

Dessutom har vissa forskare påpekat att teorier om funktionsackumulering som pandemoniumarkitekturen har bearbetningsstadierna för mönsterigenkänning nästan bakåt. Denna kritik användes huvudsakligen av förespråkare för global-till-lokal-teorin, som argumenterade och gav bevis för att uppfattningen börjar med en suddig syn på helheten som förfinar övertid, vilket antyder att dragextraktion inte sker i de tidiga stadierna av igenkänning. Det finns dock inget som hindrar en demon från att känna igen ett globalt mönster parallellt med att andra demoner känner igen lokala mönster inom det globala mönstret.

Tillämpningar och influenser

Ett pandemoniumbaserat system kunde korrekt identifiera alla dessa stimuli som bokstaven A, utan att exponeras för dessa exakta stimuli i förväg.

Pandemoniumarkitekturen har använts för att lösa flera verkliga problem, som att översätta handskickade morsekoder och identifiera handtryckta bokstäver. Den övergripande noggrannheten hos pandemoniumbaserade modeller är imponerande, även när systemet fick en kort inlärningsperiod. Till exempel konstruerade Doyle ett pandemoniumbaserat system med över 30 komplexa funktionsanalysatorer. Han matade sedan sitt system med flera hundra bokstäver för att lära sig. Under denna fas analyserade systemet den inmatade bokstaven och genererade sin egen utdata (vad systemet identifierar bokstaven som). Resultatet från systemet jämfördes mot den korrekta identifieringen, vilket skickar en felsignal tillbaka till systemet för att justera vikterna mellan funktionerna analysatorer därefter. I testfasen presenterades okända bokstäver (annan stil och storlek på bokstäverna än de som presenterades i inlärningsfasen), och systemet kunde uppnå en noggrannhet på nästan 90 %. På grund av dess imponerande förmåga att känna igen ord följer alla moderna teorier om hur människor läser och känner igen ord denna hierarkiska struktur: ordigenkänning börjar med funktionsextraktioner av bokstäverna, som sedan aktiverar bokstavsdetektorerna (t.ex. SOLAR, SERIOL, IA, DRC) ).

Baserat på den ursprungliga pandemoniumarkitekturen har John Jackson utökat teorin för att förklara fenomen bortom perception. Jackson erbjöd analogin med en arena för att redogöra för " medvetande ". Hans arena bestod av en läktare, en spelplan och en underarena. Arenan var befolkad av en mängd demoner. De demoner som utsågs på spelfälten var de aktiva demonerna, eftersom de representerar de aktiva delarna av mänskligt medvetande. Demonerna på läktaren ska titta på dem på spelplanen tills något upphetsar dem; varje demon är upphetsad av olika saker. Ju mer upphetsade demonerna blir, desto högre skriker de. Om en demon skriker passerar en fastställd tröskel, får den gå med de andra demonerna på spelplanen och utföra sin funktion, vilket sedan kan reta upp andra demoner, och denna cykel fortsätter. Delarenan i analogin fungerar som systemets inlärnings- och återkopplingsmekanism. Inlärningssystemet här liknar alla andra neurala nätverk, vilket är genom att modifiera anslutningsstyrkan mellan demonerna; med andra ord, hur demonerna svarar på varandras skrik. Denna multipla agent-inställning till mänsklig informationsbehandling blev antagandet för många moderna artificiell intelligenssystem.

Jämförelser

Jämförelse med mallmatchningsteorier

Även om pandemoniumarkitekturen uppstod som ett svar för att ta itu med en stor kritik mot mallmatchningsteorierna, är de två faktiskt ganska lika i någon mening: det finns en process där en specifik uppsättning funktioner för föremål matchas mot någon form av mental representation. Den kritiska skillnaden mellan de två är att bilden jämförs direkt mot en intern representation i mallmatchningsteorierna, medan med pandemoniumarkitekturen först sprids och bearbetas bilden på funktionsnivå. Detta gav pandemoniumarkitekturer en enorm kraft eftersom den är kapabel att känna igen en stimulans trots dess förändringar i storlek, stil och andra förändringar; utan antagandet om ett obegränsat mönsterminne. Det är också osannolikt att mallmatchningsteorierna kommer att fungera korrekt när de står inför realistiska visuella input, där objekt presenteras i tre dimensioner och ofta tilltäppt av andra objekt (t.ex. halva en bok täcks av ett papper, men vi kan känner fortfarande igen den som en bok relativt lätt). Icke desto mindre har vissa forskare genomfört experiment som jämför de två teorierna. Inte överraskande gynnade resultaten ofta en hierarkisk byggnadsmodell som pandemoniumarkitekturen.

Jämförelse med hebbisk mönsterigenkänning

Den hebbiska modellen liknar funktionsorienterade teorier som pandemoniumarkitekturen i många aspekter. Den första bearbetningsnivån i den hebbiska modellen kallas cellsammansättningar, som har mycket liknande funktioner som demoner. Cellsammansättningar är dock mer begränsade än funktionsdemonerna, eftersom den bara kan extrahera linjer, vinklar och konturer. Cellsammansättningarna kombineras för att bilda fassekvenser, vilket är mycket likt de kognitiva demonernas funktion. På sätt och vis anser många att den hebbiska modellen är en korsning mellan teorierna om mall- och funktionsmatchning, eftersom funktionerna som extraherats från de hebbiska modellerna kan betraktas som enkla mallar.

Se även