Förgrundsdetektering

Förgrundsdetektering är en av huvuduppgifterna inom området datorseende och bildbehandling vars syfte är att upptäcka förändringar i bildsekvenser. Bakgrundssubtraktion är vilken teknik som helst som gör att en bilds förgrund kan extraheras för vidare bearbetning (objektigenkänning etc.).

Många applikationer behöver inte veta allt om rörelsens utveckling i en videosekvens, utan kräver bara information om förändringar i scenen, eftersom en bilds intresseområden är objekt (människor, bilar, text etc.) i förgrunden. Efter stadiet av bildförbehandling (vilket kan inkludera bildnedsättning , efterbearbetning som morfologi etc.) krävs objektlokalisering som kan utnyttja denna teknik.

Förgrundsdetektering separerar förgrund från bakgrund baserat på dessa förändringar som sker i förgrunden. Det är en uppsättning tekniker som vanligtvis analyserar videosekvenser inspelade i realtid med en stationär kamera.

Bakgrundsbild och förgrundsbild.

Beskrivning

Alla detekteringstekniker bygger på att modellera bildens bakgrund, det vill säga ställa in bakgrunden och upptäcka vilka förändringar som sker. Att definiera bakgrunden kan vara mycket svårt när den innehåller former, skuggor och rörliga objekt. Vid definition av bakgrunden antas det att de stationära föremålen kan variera i färg och intensitet över tiden.

Scenarier där dessa tekniker tillämpas tenderar att vara mycket olika. Det kan vara mycket varierande sekvenser, som bilder med mycket olika ljussättning, interiörer, exteriörer, kvalitet och brus. Förutom bearbetning i realtid måste systemen kunna anpassa sig till dessa förändringar.

Ett mycket bra förgrundsdetekteringssystem bör kunna:

Utveckla en bakgrundsmodell (uppskattning).
Var robust mot ljusförändringar, repetitiva rörelser (löv, vågor, skuggor) och långsiktiga förändringar.

Bakgrundssubtraktion

Bakgrundssubtraktion är ett allmänt använt tillvägagångssätt för att upptäcka rörliga föremål i videor från statiska kameror. Skälet i tillvägagångssättet är att detektera de rörliga objekten från skillnaden mellan den aktuella ramen och en referensram, ofta kallad "bakgrundsbild", eller "bakgrundsmodell". Bakgrundssubtraktion görs oftast om bilden i fråga är en del av en videoström. Bakgrundssubtraktion ger viktiga ledtrådar för många applikationer inom datorseende, till exempel övervakningsspårning eller uppskattning av mänsklig pose . ^{[ citat behövs ]}

Bakgrundssubtraktion baseras i allmänhet på en statisk bakgrundshypotes som ofta inte är tillämpbar i verkliga miljöer. Med inomhusscener leder reflektioner eller animerade bilder på skärmar till bakgrundsförändringar. På samma sätt, på grund av vind, regn eller belysningsförändringar orsakade av väder, har statiska bakgrundsmetoder svårt med utomhusscener.

Temporalt medelfilter

Exempel på tidsmässigt medelfilter

Det tidsmässiga medelfiltret är en metod som föreslogs vid Velastin. Detta system uppskattar bakgrundsmodellen från medianen för alla pixlar i ett antal tidigare bilder. Systemet använder en buffert med pixelvärdena för de sista bildrutorna för att uppdatera medianen för varje bild.

För att modellera bakgrunden undersöker systemet alla bilder under en given tidsperiod som kallas träningstid . För närvarande visar vi bara bilder och kommer att hitta medianen, pixel för pixel, för alla plotter i bakgrunden denna gång.

Efter träningsperioden för varje ny bildruta jämförs varje pixelvärde med ingångsvärdet för tidigare beräknade medel. Om ingångspixeln ligger inom ett tröskelvärde anses pixeln matcha bakgrundsmodellen och dess värde inkluderas i pixbuf. Annars, om värdet ligger utanför detta tröskelvärde, klassificeras pixeln som förgrund och ingår inte i bufferten.

Denna metod kan inte anses vara särskilt effektiv eftersom de inte presenterar en rigorös statistisk grund och kräver en buffert som har en hög beräkningskostnad.

Konventionella tillvägagångssätt

En robust bakgrundssubtraktionsalgoritm ska kunna hantera ljusförändringar, repetitiva rörelser från röran och långvariga scenförändringar. Följande analyser använder funktionen av V ( x , y , t ) som en videosekvens där t är tidsdimensionen, x och y är pixelplatsvariablerna. t.ex. V (1,2,3) är pixelintensiteten vid (1,2) pixelplats för bilden vid t = 3 i videosekvensen.

Använder ramskillnad

En rörelsedetekteringsalgoritm börjar med segmenteringsdelen där förgrunden eller rörliga objekt segmenteras från bakgrunden. Det enklaste sättet att implementera detta är att ta en bild som bakgrund och ta bildrutor som erhölls vid tidpunkten t, betecknad med I(t), för att jämföra med bakgrundsbilden betecknad med B. Här med enkla aritmetiska beräkningar kan vi segmentera ut objekt helt enkelt genom att använda bildsubtraktionsteknik för datorseende betydelse för varje pixel i I(t), ta pixelvärdet betecknat med P[I(t)] och subtrahera det med motsvarande pixlar på samma position på bakgrundsbilden betecknad som P[B].

I matematiska ekvationer skrivs det som:

P[F(t)]=P[I(t)]-P[B]

Bakgrunden antas vara ramen vid tidpunkten t . Denna skillnadsbild skulle bara visa viss intensitet för pixelplatserna som har ändrats i de två bildrutorna. Även om vi till synes har tagit bort bakgrunden, kommer detta tillvägagångssätt bara att fungera i fall där alla förgrundspixlar rör sig och alla bakgrundspixlar är statiska. En tröskel "Tröskel" sätts på denna skillnadsbild för att förbättra subtraktionen (se Bildtröskelvärde ) .

|P[F(t)]-P[F(t+1)]|>\mathrm {Tröskel}

Detta betyder att skillnadsbildens pixlars intensiteter är "tröskelvärden" eller filtreras på basis av värdet för Threshold. Noggrannheten i detta tillvägagångssätt beror på rörelsehastigheten i scenen. Snabbare rörelser kan kräva högre trösklar.

Genomsnittligt filter

För att beräkna bilden som endast innehåller bakgrunden, beräknas ett medelvärde av en serie av föregående bilder. För att beräkna bakgrundsbilden vid ögonblicket t ,

B(x,y,t)={1 \över N}\summa _{i= 1}^{N}V(x,y,ti)

där N är antalet föregående bilder tagna för medelvärdesberäkning. Denna medelvärdesberäkning avser medelvärdesbildning av motsvarande pixlar i de givna bilderna. N skulle bero på videohastigheten (antal bilder per sekund i videon) och mängden rörelse i videon. Efter att ha beräknat bakgrunden B ( x , y , t ) kan vi sedan subtrahera den från bilden V ( x , y , t ) vid tiden t = t och tröskelvärda den. Sålunda är förgrunden

|V(x,y,t)-B(x,y,t)|>\mathrm {Th}

där Th är ett tröskelvärde. På liknande sätt kan vi också använda median istället för medelvärde i ovanstående beräkning av B ( x , y , t ).

Användning av globala och tidsoberoende tröskelvärden (samma Th-värde för alla pixlar i bilden) kan begränsa noggrannheten hos ovanstående två tillvägagångssätt.

Löpande Gaussiskt medelvärde

För denna metod, Wren et al. föreslå att en Gaussisk probabilistisk densitetsfunktion (pdf) monteras på de senaste $n$ ramarna. För att undvika att pdf-filen anpassas från början vid varje ny bildrutetid $t$ , beräknas ett löpande (eller kumulativt on-line) medelvärde.

Pdf för varje pixel kännetecknas av medelvärdet $\mu _{t}$ och varians $\sigma _{t}^{2}$ . Följande är ett möjligt initialtillstånd (förutsatt att varje pixel initialt är bakgrund):

\mu _{0}=I_{0}

\sigma _{0}^{2}=\langle {\text{något standardvärde} }\rangle

där $I_{t}$ är värdet på pixelns intensitet vid tidpunkten $t$ . För att initiera varians kan vi till exempel använda variansen i x och y från ett litet fönster runt varje pixel.

Observera att bakgrunden kan ändras med tiden (t.ex. på grund av belysningsförändringar eller icke-statiska bakgrundsobjekt). För att anpassa sig till den förändringen, vid varje bildruta $t$ , måste varje pixels medelvärde och varians uppdateras, enligt följande:

\mu _{t}=\rho I_{t}+(1-\rho )\mu _{t-1}

\sigma _{t}^{2}=d^{2}\rho +(1-\rho )\sigma _{t- 1}^{2}

d=|(I_{t}-\mu _{t})|

Där $\rho$ bestämmer storleken på det tidsfönster som används för att passa pdf:en (vanligtvis $\rho =0,01$ ) och $d$ är det euklidiska avståndet mellan medelvärdet och värdet på pixeln.

Gaussisk fördelning för varje pixel.

Vi kan nu klassificera en pixel som bakgrund om dess nuvarande intensitet ligger inom något konfidensintervall för dess distributions medelvärde:

{\frac {|(I_{t}-\mu _{t})|}{\sigma _{t}}}>k\longrightarrow {\text{förgrund}}

{\frac {|(I_{t}-\mu _{t})|}{\sigma _{t}}}\leq k\longrightarrow {\text{bakgrund}}

där parametern $k$ är en fri tröskel (vanligtvis ${\displaystyle k=2,5} )$ . Ett större värde för $k$ möjliggör mer dynamisk bakgrund, medan ett mindre $k$ ökar sannolikheten för en övergång från bakgrund till förgrund på grund av mer subtila förändringar.

I en variant av metoden uppdateras en pixels distribution endast om den klassificeras som bakgrund. Detta för att förhindra att nyligen införda förgrundsobjekt tonas in i bakgrunden. Uppdateringsformeln för medelvärdet ändras i enlighet med detta:

\mu _{t}=M\mu _{t-1}+( 1-M)(I_{t}\rho +(1-\rho )\mu _{t-1})

där $M=1$ när $I_{t}$ betraktas som förgrund och $M=0$ annars. Så när ${\displaystyle M=1},$ det vill säga när pixeln detekteras som förgrund, förblir medelvärdet detsamma. Som ett resultat kan en pixel, när den väl har blivit förgrund, bara bli bakgrund igen när intensitetsvärdet kommer nära vad det var innan det vände förgrunden. Den här metoden har dock flera problem: Den fungerar bara om alla pixlar från början är bakgrundspixlar (eller förgrundspixlar är kommenterade som sådana). Den klarar inte heller av gradvisa bakgrundsförändringar: Om en pixel kategoriseras som förgrund under en för lång tidsperiod kan bakgrundsintensiteten på den platsen ha ändrats (eftersom belysningen har ändrats etc.). Som ett resultat, när förgrundsobjektet är borta, kanske den nya bakgrundsintensiteten inte känns igen som sådan längre.

Bakgrundsblandningsmodeller

Mixture of Gauss-metoden genom att modellera varje pixel som en blandning av Gaussians och använder en on-line approximation för att uppdatera modellen. I denna teknik antas det att varje pixels intensitetsvärden i videon kan modelleras med en Gaussisk blandningsmodell . En enkel heuristik avgör vilka intensiteter som troligen är bakgrunden. Då kallas de pixlar som inte matchar dessa för förgrundspixlar. Förgrundspixlar grupperas med hjälp av 2D- ansluten komponentanalys .

När som helst t är historiken för en viss pixel ( ${\displaystyle x_{0},y_{0}} )$

X_{1},\ldots ,X_{t}=\{V(x_{0},y_ {0},i):1\leqslant i\leqslant t\}

Denna historia är modellerad av en blandning av K Gaussiska distributioner:

P(X_{t})=\summa _{i=1}^ {K}\omega _{i,t}N\left(X_{t}\mid \mu _{i,t},\sigma _{i,t}\right)

var

left(X_{t}\mid \

För det första kännetecknas varje pixel av sin intensitet i RGB-färgrymden. Då ges sannolikheten att observera den aktuella pixeln av följande formel i det flerdimensionella fallet

P(X_{t})=\summa _{i=1}^ {K}\omega _{i,t}\eta \left(X_{t},\,\mu _{i,t},\sigma _{i,t}\right)

Där K är antalet fördelningar, ω är en vikt associerad med den i:te Gauss vid tidpunkten t och µ, Σ är medelvärdet respektive standardavvikelsen för nämnda Gauss.

\eta \left(X_{t},\, \mu _{i,t},\sigma _{i,t}\right)={\dfrac {1}{(2\pi )^{D/2}}}{1 \over |\sigma _{ i,t}|^{1/2}}\exp \left(-{1 \över 2}(X_{t}-\mu _{i,t})^{T}\sigma _{i,t }^{-1}\left(X_{t}-\mu _{i,t}\right)\right)

När parametrarnas initialisering har gjorts kan en första förgrundsdetektering göras och sedan uppdateras parametrarna. Den första B Gauss-fördelningen som överskrider tröskeln T bibehålls för en bakgrundsfördelning

B=\operatörsnamn {argmin} \left(\Sigma _{i=1}^{B}\omega _{i,t} >T\höger)

De övriga fördelningarna anses representera en förgrundsfördelning. Sedan, när den nya bildrutan kommer in vid tidpunkterna $t+1$ , görs ett matchningstest av varje pixel. En pixel matchar en Gaussisk fördelning om Mahalanobis-avståndet

\left(\left(X_{ t+1}-\mu _{i,t}\right)^{T}\sigma _{i,t}^{-1}\left(X_{t+1}-\mu _{i,t }\right)\right)^{0.5}<k\cdot \sigma _{i,t}

där k är ett konstant tröskelvärde lika med $2,5$ . Då kan två fall inträffa:

Fall 1: En matchning hittas med en av k Gausserna. För den matchade komponenten görs uppdateringen enligt följande

\sigma _{ i,t+1}^{2}=\left(1-\rho \right)\sigma _{i,t}^{2}+\rho \left(X_{x+1}-\mu _{ x+1}\höger)\vänster(X_{x+1}-\mu _{x+1}\höger)^{T}

Power och Schoonees [3] använde samma algoritm för att segmentera bildens förgrund

\sigma _{i,t+1}=\left(1-\alpha \right )\omega _{i,t}+\alpha P\left(k\mid X_{t},\varphi \right)

Den väsentliga approximationen till $P\left(k\mid \ X_{t},\varphi \right)$ $M_{k,t }$ av

M_{k,t}={\begin{cases}1&{\text{match}},\\0&{\text{annars}}.\end{cases}}

Fall 2: Ingen matchning hittas med någon av $K$ Gausserna. I detta fall ersätts den minst sannolika fördelningen ${\displaystyle K} med en ny med parametrar$

k_{it}={\text{låg tidigare vikt}}

\mu _{i,t+1}=X_{ t+1}

\sigma _{i.t+1}^{2}={\text{stor initial varians}}

När väl parameterunderhållet har gjorts kan förgrundsdetektering göras och så vidare. En on-line K-means approximation används för att uppdatera Gausserna. Många förbättringar av denna ursprungliga metod utvecklad av Stauffer och Grimson har föreslagits och en fullständig översikt finns i Bouwmans et al. En standardmetod för adaptiv bakgrundsbildning är att medelvärdet av bilderna över tid skapas, vilket skapar en bakgrundsapproximation som liknar den aktuella statiska scenen utom där rörelse uppstår.

Undersökningar

Flera undersökningar som rör kategorier eller underkategorier av modeller kan hittas enligt följande:

MOG bakgrundssubtraktion
Subtraktion för bakgrundssubtraktion för subspaceinlärning
Statistisk bakgrundssubtraktion
Suddig bakgrundssubtraktion
RPCA bakgrundssubtraktion (se Robust huvudkomponentanalys för mer information)
Dynamisk RPCA för bakgrunds-/förgrundsseparation (se Robust principal komponentanalys för mer information)
Nedbrytning i låg rang plus additiv matris för bakgrund/förgrund Separation
Djupa neurala nätverkskoncept för bakgrundssubtraktion
Traditionella och nya metoder för bakgrundssubtraktion

Ansökningar

Videoövervakning
Optisk rörelsefångst
Människa-datorinteraktion
Innehållsbaserad videokodning
Trafikövervakning
Rörelsegesterigenkänning i realtid

För mer information, se

Se även

Jämförelser

Flera jämförelse-/utvärderingsartiklar finns i litteraturen:

A. Sobral, A. Vacavant. " En omfattande genomgång av bakgrundssubtraktionsalgoritmer utvärderade med syntetiska och riktiga videor [ ^{död länk ]"} . Datorseende och bildförståelse, CVIU 2014, 2014.
A. Shahbaz, J. Hariyono, K. Jo, " Evaluation of Background Subtraction Algorithms for Video Surveillance ", FCV 2015, 2015.
Y. Xu, J. Dong, B. Zhang, D. Xu, " Background modeling methods in video analysis: A review and comparative evaluation", CAAI Transactions on Intelligence Technology, sidorna 43–60, volym 1, nummer 1, januari 2016 .

Böcker

T. Bouwmans, F. Porikli, B. Horferlin, A. Vacavant, Handbook on "Background Modeling and Foreground Detection for Video Surveillance: Traditional and Recent Approaches, Implementations, Benchmarking and Evaluation" , CRC Press, Taylor and Francis Group, juni 2014 . (För mer information: http://www.crcpress.com/product/isbn/9781482205374 )
T. Bouwmans, N. Aybat och E. Zahzah. Handbook on Robust Low-Rank and Sparse Matrix Decomposition: Applications in Image and Video Processing , CRC Press, Taylor and Francis Group, maj 2016. (För mer information: http://www.crcpress.com/product/isbn/9781498724623 )

Tidskrifter

T. Bouwmans, L. Davis, J. Gonzalez, M. Piccardi, C. Shan, Special Issue on " Background Modeling for Foreground Detection in Real-World Dynamic Scenes ", Special Issue in Machine Vision and Applications , juli 2014.
A. Vacavant, L. Tougne, T. Chateau, Särskilt avsnitt om " Jämförelse av bakgrundsmodeller ", Computer Vision and Image Understanding, CVIU 2014, maj 2014.
A. Petrosino, L. Maddalena, T. Bouwmans, Special Issue on " Scene Background Modeling and Initialization ", Pattern Recognition Letters , september 2017.
T. Bouwmans, Special Issue on " Detection of Moving Objects ", MDPI Journal of Imaging, 2018.

Workshops

Bakgrundsinlärning för upptäckt och spårning från RGB-videor (RGBD 2017) Workshop i samband med ICIAP 2017. (För mer information: http://rgbd2017.na.icar.cnr.it/ )
Scenbakgrundsmodellering och initiering (SBMI 2015) Workshop i samband med ICIAP 2015. (För mer information: http://sbmi2015.na.icar.cnr.it/ )
IEEE Change Detection Workshop i samband med CVPR 2014. (För mer information: http://www.changedetection.net/ )
Workshop om bakgrundsmodellutmaningar (BMC 2012) i samband med ACCV 2012. (För mer information: http://bmc.iut-auvergne.com/ )

Tävlingar

IEEE Scene Background Modeling Contest (SBMC 2016) i samband med ICPR 2016 (För mer information: http://pione.dinf.usherbrooke.ca/sbmc2016/ )

externa länkar

Webbplatser

Webbplats för bakgrundssubtraktion

Webbplatsen för bakgrundssubtraktion (T. Bouwmans, Univ. La Rochelle, Frankrike) innehåller en omfattande lista över referenser i fältet och länkar till tillgängliga datauppsättningar och programvara.

Datauppsättningar

ChangeDetection.net (För mer information: http://www.changedetection.net/ )
Background Models Challenge (För mer information: http://bmc.iut-auvergne.com/ )
Stuttgart Artificiell Bakgrundssubtraktion Dataset (För mer information: http://www.vis.uni-stuttgart.de/index.php?id=sabs Arkiverad 2015-03-27 på Wayback Machine )
SBMI dataset (För mer information: http://sbmi2015.na.icar.cnr.it/ )
SBMnet dataset (För mer information: http://pione.dinf.usherbrooke.ca/dataset/ )

Bibliotek

Bakgrund SubtractorCNT

BackgroundSubtractorCNT-biblioteket implementerar en mycket snabb och högkvalitativ algoritm skriven i C++ baserad på OpenCV. Den är inriktad på hårdvara med låg specifikation men fungerar lika snabbt på moderna Linux och Windows. (För mer information: https://github.com/sagi-z/BackgroundSubtractorCNT ).

BGS bibliotek

BGS-biblioteket (A. Sobral, Univ. La Rochelle, Frankrike) tillhandahåller ett C++-ramverk för att utföra bakgrundssubtraktionsalgoritmer. Koden fungerar antingen på Windows eller på Linux. För närvarande erbjuder biblioteket mer än 30 BGS-algoritmer. (För mer information: https://github.com/andrewssobral/bgslibrary )

LRS Library – Lågrankade och sparsamma verktyg för bakgrundsmodellering och subtraktion i videor LRSLibrary (A. Sobral, Univ. La Rochelle, Frankrike) tillhandahåller en samling lågrankade och glesa nedbrytningsalgoritmer i MATLAB. Biblioteket är designat för rörelsesegmentering i videor, men det kan också användas eller anpassas för andra datorseendeproblem. För närvarande innehåller LRSLibrary mer än 100 matrisbaserade och tensorbaserade algoritmer. (För mer information: https://github.com/andrewssobral/lrslibrary )
OpenCV – OpenCV-biblioteket tillhandahåller ett antal bakgrunds-/förgrundssegmenteringsalgoritmer .