3D-objektigenkänning
Funktionsdetektering |
---|
Kantdetektering |
Hörndetektering |
Blob-detektering |
Åsdetektering |
Hough transformation |
Strukturtensor |
Affin invariant funktionsdetektion |
Funktionsbeskrivning |
Skala utrymme |
I datorseende innebär 3D- objektigenkänning att känna igen och bestämma 3D-information, såsom positur , volym eller form, av användarvalda 3D - objekt i ett fotografi eller en räckviddsskanning . Typiskt presenteras ett exempel på objektet som ska kännas igen för ett visionsystem i en kontrollerad miljö, och sedan för en godtycklig ingång, såsom en videoström, lokaliserar systemet det tidigare presenterade objektet. Detta kan göras antingen offline eller i realtid . Algoritmerna för att lösa detta problem är specialiserade för att lokalisera ett enda föridentifierat objekt och kan ställas i kontrast till algoritmer som fungerar på allmänna klasser av objekt, såsom ansiktsigenkänningssystem eller generisk 3D-objektigenkänning. På grund av den låga kostnaden och lättheten att skaffa fotografier har en betydande mängd forskning ägnats åt 3D-objektigenkänning i fotografier.
3D-igenkänning av ett objekt i fotografier
Metoden för att känna igen ett 3D-objekt beror på egenskaperna hos ett objekt. För enkelhetens skull har många befintliga algoritmer fokuserat på att känna igen stela objekt som består av en enda del, det vill säga objekt vars rumsliga transformation är en euklidisk rörelse . Två allmänna tillvägagångssätt har använts till problemet: mönsterigenkänningsmetoder använder lågnivåinformation om bildutseende för att lokalisera ett objekt, medan funktionsbaserade geometriska tillvägagångssätt konstruerar en modell för objektet som ska kännas igen och matchar modellen mot fotografiet.
Mönsterigenkänning närmar sig
Dessa metoder använder utseendeinformation som samlats in från förfångade eller förberäknade projektioner av ett objekt för att matcha objektet i den potentiellt röriga scenen. De tar dock inte hänsyn till objektets 3D-geometriska begränsningar under matchning och hanterar vanligtvis inte heller ocklusion eller funktionsbaserade tillvägagångssätt. Se [Murase och Nayar 1995] och [Selinger och Nelson 1999].
Funktionsbaserade geometriska tillvägagångssätt
Funktionsbaserade tillvägagångssätt fungerar bra för objekt som har särdrag . Hittills har objekt som har bra kantegenskaper eller blob -egenskaper framgångsrikt erkänts; till exempel detektionsalgoritmer, se Harris affin regiondetektor respektive SIFT . På grund av brist på lämpliga detektorer kan objekt utan strukturerade, släta ytor för närvarande inte hanteras med detta tillvägagångssätt.
Funktionsbaserade objektigenkännare fungerar i allmänhet genom att förfånga ett antal fasta vyer av objektet som ska kännas igen, extrahera särdrag från dessa vyer, och sedan i igenkänningsprocessen, matcha dessa funktioner till scenen och upprätthålla geometriska begränsningar.
Som ett exempel på ett prototypiskt system som använder detta tillvägagångssätt kommer vi att presentera en översikt över den metod som används av [Rothganger et al. 2004], med vissa detaljer försvunna. Metoden börjar med att anta att objekt genomgår globalt stela transformationer. Eftersom släta ytor är lokalt plana är affina invarianta egenskaper lämpliga för matchning: papperet upptäcker ellipsformade områden av intresse med användning av både kantliknande och blobliknande egenskaper, och enligt [Lowe 2004] hittar den dominerande gradientriktningen för ellips, omvandlar ellipsen till ett parallellogram och tar en SIFT- deskriptor på det resulterande parallellogrammet. Färginformation används också för att förbättra diskrimineringen enbart jämfört med SIFT-funktioner.
Därefter, med tanke på ett antal kameravyer av objektet (24 i tidningen), konstruerar metoden en 3D-modell för objektet, som innehåller 3D-rumspositionen och orienteringen för varje funktion. Eftersom antalet vyer av objektet är stort, finns vanligtvis varje funktion i flera intilliggande vyer. Mittpunkterna för sådana matchande särdrag överensstämmer, och detekterade särdrag är inriktade längs den dominerande gradientriktningen, så punkterna vid (1, 0) i det lokala koordinatsystemet för särdragsparallellogrammet motsvarar också, liksom punkterna (0, 1) i parallellogrammets lokala koordinater. För varje par av matchande särdrag i närliggande vyer är således trepunktsparöverensstämmelser kända. Givet minst två matchande funktioner kan en multi-view affin struktur från rörelsealgoritm (se [Tomasi och Kanade 1992]) användas för att konstruera en uppskattning av poängpositioner (upp till en godtycklig affin transformation). Uppsatsen av Rothganger et al. väljer därför två angränsande vyer, använder en RANSAC -liknande metod för att välja två motsvarande par av funktioner och lägger till nya funktioner till den delmodell som byggts av RANSAC så länge de är under en felterm. För varje givet par av angränsande vyer skapar algoritmen således en delmodell av alla funktioner som är synliga i båda vyerna.
För att producera en enhetlig modell tar papperet den största delmodellen och anpassar stegvis alla mindre delmodeller till den. Global minimering används för att minska felet, sedan används en euklidisk uppgradering för att ändra modellens funktionspositioner från unika 3D-koordinater upp till affin transformation till 3D-koordinater som är unika upp till euklidiska rörelser . I slutet av detta steg har man en modell av målobjektet, bestående av funktioner som projiceras in i ett gemensamt 3D-utrymme.
För att känna igen ett objekt i en godtycklig inmatningsbild, upptäcker papperet funktioner och använder sedan RANSAC för att hitta den affina projektionsmatris som bäst passar den enhetliga objektmodellen till 2D-scenen. Om denna RANSAC-metod har tillräckligt låga fel, så känner algoritmen vid framgång både objektet och ger objektets positur i form av en affin projektion. Under de antagna förhållandena uppnår metoden typiskt en igenkänningsgrad på cirka 95 %.
- Murase, H. och SK Nayar: 1995, Visual Learning and Recognition of 3-D Objects from Appearance . International Journal of Computer Vision 14, 5–24. [1]
- Selinger, A. och R. Nelson: 1999, A Perceptual Grouping Hierarchy for Appearance-Based 3D Object Recognition. Datorseende och bildförståelse 76(1), 83–92. [2]
- Rothganger, F; S. Lazebnik, C. Schmid och J. Ponce: 2004. 3D-objektmodellering och igenkänning med hjälp av lokala affina-invarianta bilddeskriptorer och rumsliga begränsningar för flera vyer, ICCV. [3]
- Lowe, D.: 2004, Distinkta bildegenskaper från skalinvarianta nyckelpunkter. International Journal of Computer Vision. I pressen. [4]
- Tomasi, C. och T. Kanade: 1992, Form och rörelse från bildströmmar: en faktoriseringsmetod. International Journal of Computer Vision 9(2), 137–154. [5]
Se även
- Blob-detektering
- Objektigenkänning
- Funktionsbeskrivning
- Funktionsdetektering (datorseende)
- Harris affin regiondetektor
- RANSAC
- SÅLLA
- Struktur från rörelse