Haarliknande inslag

Haarliknande funktioner är digitala bildfunktioner som används vid objektigenkänning . De har sitt namn att tacka för sin intuitiva likhet med Haar wavelets och användes i den första ansiktsdetektorn i realtid.

Historiskt sett har arbetet med enbart bildintensiteter (dvs. RGB- pixelvärdena vid varje bildpixel) gjort uppgiften med funktionsberäkning beräkningsmässigt dyr . En publikation av Papageorgiou et al. diskuterade att arbeta med en alternativ funktionsuppsättning baserad på Haar-vågor istället för de vanliga bildintensiteterna. Paul Viola och Michael Jones anpassade idén om att använda Haar wavelets och utvecklade de så kallade Haar-liknande funktionerna. En Haar-liknande funktion tar hänsyn till angränsande rektangulära områden på en specifik plats i ett detekteringsfönster, summerar pixelintensiteterna i varje region och beräknar skillnaden mellan dessa summor. Denna skillnad används sedan för att kategorisera undersektioner av en bild. Till exempel, med ett mänskligt ansikte, är det en vanlig observation att bland alla ansikten är ögonområdet mörkare än kinderområdet. Därför är en vanlig Haar-funktion för ansiktsdetektion en uppsättning av två intilliggande rektanglar som ligger ovanför ögat och kindområdet. Positionen för dessa rektanglar definieras i förhållande till ett detekteringsfönster som fungerar som en begränsningsruta för målobjektet (ansiktet i det här fallet).

I detekteringsfasen av Viola–Jones-objektdetektionsramverket flyttas ett fönster med målstorleken över inmatningsbilden, och för varje undersektion av bilden beräknas den Haar-liknande funktionen. Denna skillnad jämförs sedan med en inlärd tröskel som separerar icke-objekt från objekt. Eftersom en sådan Haar-liknande funktion bara är en svag inlärare eller klassificerare (dess detekteringskvalitet är något bättre än slumpmässig gissning) är ett stort antal Haar-liknande egenskaper nödvändiga för att beskriva ett objekt med tillräcklig noggrannhet. I Viola–Jones-objektdetektionsramverket är de Haar-liknande funktionerna därför organiserade i något som kallas en klassificerarekaskad för att bilda en stark inlärare eller klassificerare.

Den viktigaste fördelen med en Haar-liknande funktion jämfört med de flesta andra funktioner är dess beräkningshastighet. På grund av användningen av integrerade bilder kan en Haar-liknande funktion av valfri storlek beräknas i konstant tid (ungefär 60 mikroprocessorinstruktioner för en 2-rektangelfunktion).

Rektangulära Haar-liknande egenskaper

Ett exempel på tidiga Haar-liknande funktioner som användes av Viola och Jones 2001.

En enkel rektangulär Haar-liknande funktion kan definieras som skillnaden mellan summan av pixlar av områden inuti rektangeln, som kan vara i vilken position och skala som helst inom originalbilden. Denna modifierade funktionsuppsättning kallas 2-rektangelfunktion . Viola och Jones definierade också 3-rektangelfunktioner och 4-rektangelfunktioner. Värdena indikerar vissa egenskaper hos ett visst område av bilden. Varje funktionstyp kan indikera förekomsten (eller frånvaron) av vissa egenskaper i bilden, såsom kanter eller förändringar i struktur. Till exempel kan en funktion med två rektanglar indikera var gränsen går mellan ett mörkt område och ett ljust område.

Snabb beräkning av Haar-liknande funktioner

Hitta summan av det skuggade rektangulära området

Ett av bidragen från Viola och Jones var att använda summerade arealtabeller , som de kallade integralbilder . Integrala bilder kan definieras som tvådimensionella uppslagstabeller i form av en matris med samma storlek som originalbilden. Varje element i integralbilden innehåller summan av alla pixlar som är placerade på den övre vänstra delen av originalbilden (i förhållande till elementets position). Detta gör det möjligt att beräkna summan av rektangulära områden i bilden, i valfri position eller skala, med endast fyra uppslagningar:

där punkterna tillhör integralbilden , som visas i figuren.

Varje Haar-liknande funktion kan behöva mer än fyra uppslagningar, beroende på hur den definierades. Viola och Jones 2-rektangelfunktioner behöver sex uppslagningar, 3-rektangelfunktioner behöver åtta uppslagningar och 4-rektangelfunktioner behöver nio uppslagningar.

Lutade Haar-liknande funktioner

Illustration of Haar-like features proposed by Lienhart: 4 edge features, 8 line features, and 2 center-surround features
Förlängningen som Lienhart och Maydt föreslagit

Lienhart och Maydt introducerade konceptet med en lutad (45°) Haar-liknande funktion. Detta användes för att öka dimensionaliteten hos uppsättningen funktioner i ett försök att förbättra upptäckten av objekt i bilder. Detta var framgångsrikt, eftersom några av dessa funktioner kan beskriva objektet på ett bättre sätt. Till exempel kan en 2-rektangel lutad Haar-liknande funktion indikera förekomsten av en kant vid 45°.

Messom och Barczak utökade idén till en generisk roterad Haar-liknande funktion. Även om idén är korrekt matematiskt, förhindrar praktiska problem användningen av Haar-liknande funktioner i alla vinklar. För att vara snabb använder detekteringsalgoritmer lågupplösta bilder som introducerar avrundningsfel . Av denna anledning är roterade Haar-liknande funktioner inte vanliga.

  1. ^ a b Viola och Jones, " Snabb objektdetektering med hjälp av en förstärkt kaskad av enkla funktioner ", Computer Vision and Pattern Recognition , 2001
  2. ^ Papageorgiou, Oren och Poggio, "En allmän ram för objektdetektering", Internationell konferens om datorseende, 1998.
  3. ^ Crow, F, " Summerade areatabeller för texturkartläggning ", i Proceedings of SIGGRAPH , 18(3):207–212, 1984
  4. ^ a b Lienhart, R. och Maydt, J., " An extended set of Haar-like features for quick object detection ", ICIP02, s. I: 900–903, 2002
  5. ^ Messom, CH och Barczak, ALC, " Snabbt och effektivt roterade Haar-liknande funktioner som använder roterade integrerade bilder ", Australian Conference on Robotics and Automation (ACRA2006), s. 1–6, 2006

Vidare läsning