Visuell tidsmässig uppmärksamhet
Visuell tidsuppmärksamhet är ett specialfall av visuell uppmärksamhet som innebär att rikta uppmärksamheten till ett specifikt ögonblick av tid. I likhet med dess rumsliga motsvarighet visuell rumslig uppmärksamhet , har dessa uppmärksamhetsmoduler implementerats i stor utsträckning i videoanalys i datorseende för att ge förbättrad prestanda och mänskligt tolkbar förklaring av modeller för djupinlärning .
Eftersom visuell spatial uppmärksamhetsmekanism tillåter mänskliga och/eller datorseendesystem att fokusera mer på semantiskt mer betydande regioner i rymden, möjliggör visuella tidsmässiga uppmärksamhetsmoduler maskininlärningsalgoritmer att betona mer på kritiska videorutor i videoanalysuppgifter , såsom mänsklig handlingsigenkänning . I konvolutionella neurala nätverksbaserade system implementeras prioriteringen som introduceras av uppmärksamhetsmekanismen regelbundet som ett linjärt viktningslager med parametrar som bestäms av märkta träningsdata.
Application in Action Recognition
Nya videosegmenteringsalgoritmer utnyttjar ofta både rumsliga och tidsmässiga uppmärksamhetsmekanismer. Forskningen inom mänsklig handlingsigenkänning har accelererat avsevärt sedan introduktionen av kraftfulla verktyg som Convolutional Neural Networks (CNN) . Men effektiva metoder för att införliva tidsinformation i CNN:er undersöks fortfarande aktivt. Motiverad av de populära återkommande uppmärksamhetsmodellerna inom naturligt språkbehandling föreslås Attention-aware Temporal Weighted CNN (ATW CNN) i videor, som bäddar in en visuell uppmärksamhetsmodell i ett temporalt viktat multi-stream CNN. Denna uppmärksamhetsmodell implementeras som temporal viktning och den ökar effektivt igenkänningsprestandan för videorepresentationer. Dessutom är varje ström i det föreslagna ATW CNN-ramverket kapabel till end-to-end-träning, med både nätverksparametrar och temporala vikter optimerade av stokastisk gradientnedstigning (SGD) med back-propagation . Experimentella resultat visar att ATW CNN:s uppmärksamhetsmekanism bidrar väsentligt till prestandavinsterna med de mer diskriminerande utdragen genom att fokusera på mer relevanta videosegment.