Visuell tidsmässig uppmärksamhet

Videoramar i handlingskategorin Parallel Bars i UCF-101-datauppsättningen (a) De fyra högst rankade bilderna i videotidsuppmärksamhetsvikter, där idrottaren presterar på parallellstavarna; (b) Den lägsta rankade fyra bildrutor i video temporal uppmärksamhetsvikt , där idrottaren står på marken. Alla vikter förutsägs av ATW CNN-algoritmen. De högviktade videoramarna fångar i allmänhet de mest distinkta rörelserna som är relevanta för actionkategorin.

Visuell tidsuppmärksamhet är ett specialfall av visuell uppmärksamhet som innebär att rikta uppmärksamheten till ett specifikt ögonblick av tid. I likhet med dess rumsliga motsvarighet visuell rumslig uppmärksamhet , har dessa uppmärksamhetsmoduler implementerats i stor utsträckning i videoanalys i datorseende för att ge förbättrad prestanda och mänskligt tolkbar förklaring av modeller för djupinlärning .

Eftersom visuell spatial uppmärksamhetsmekanism tillåter mänskliga och/eller datorseendesystem att fokusera mer på semantiskt mer betydande regioner i rymden, möjliggör visuella tidsmässiga uppmärksamhetsmoduler maskininlärningsalgoritmer att betona mer på kritiska videorutor i videoanalysuppgifter , såsom mänsklig handlingsigenkänning . I konvolutionella neurala nätverksbaserade system implementeras prioriteringen som introduceras av uppmärksamhetsmekanismen regelbundet som ett linjärt viktningslager med parametrar som bestäms av märkta träningsdata.

Application in Action Recognition

ATW CNN-arkitektur. Tre CNN-strömmar används för att bearbeta rumsliga RGB-bilder, temporala optiska flödesbilder respektive tidsförvrängda optiska flödesbilder. En uppmärksamhetsmodell används för att tilldela tidsmässiga vikter mellan utdrag för varje ström/modalitet. Viktad summa används för att sammansmälta förutsägelser från de tre strömmarna/modaliteterna.

Nya videosegmenteringsalgoritmer utnyttjar ofta både rumsliga och tidsmässiga uppmärksamhetsmekanismer. Forskningen inom mänsklig handlingsigenkänning har accelererat avsevärt sedan introduktionen av kraftfulla verktyg som Convolutional Neural Networks (CNN) . Men effektiva metoder för att införliva tidsinformation i CNN:er undersöks fortfarande aktivt. Motiverad av de populära återkommande uppmärksamhetsmodellerna inom naturligt språkbehandling föreslås Attention-aware Temporal Weighted CNN (ATW CNN) i videor, som bäddar in en visuell uppmärksamhetsmodell i ett temporalt viktat multi-stream CNN. Denna uppmärksamhetsmodell implementeras som temporal viktning och den ökar effektivt igenkänningsprestandan för videorepresentationer. Dessutom är varje ström i det föreslagna ATW CNN-ramverket kapabel till end-to-end-träning, med både nätverksparametrar och temporala vikter optimerade av stokastisk gradientnedstigning (SGD) med back-propagation . Experimentella resultat visar att ATW CNN:s uppmärksamhetsmekanism bidrar väsentligt till prestandavinsterna med de mer diskriminerande utdragen genom att fokusera på mer relevanta videosegment.


Se även