Dokumentmosaik

Dokumentmosaik är en process som sammanfogar flera överlappande ögonblicksbilder av ett dokument för att skapa en stor högupplöst sammansättning. Dokumentet skjuts för hand under en stationär, över skrivbordet kamera tills alla delar av dokumentet är snapshotade av kamerans synfält. När dokumentet gled under kameran, spåras all rörelse av dokumentet grovt av visionsystemet. Dokumentet tas med jämna mellanrum så att de på varandra följande ögonblicksbilderna överlappar med cirka 50 %. Systemet hittar sedan de överlappande paren och syr ihop dem upprepade gånger tills alla par har sytts ihop som ett dokument.

Dokumentmosaiken kan delas in i fyra huvudprocesser.

Spårning (enkel korrelationsprocess)

I denna process spåras dokumentets rörelse under kameran grovt av systemet. Spårning utförs av en process som kallas enkel korrelationsprocess . I den första bildrutan med ögonblicksbilder extraheras en liten lapp från mitten av bilden som en korrelationsmall som visas i figur 1. Korrelationsprocessen utförs i fyra gånger storleken på lappområdet för nästa bildruta. Papperets rörelse indikeras av toppen i korrelationsfunktionen. Toppen i korrelationsfunktionen indikerar papperets rörelse. Mallen samplas om från denna ram och spårningen fortsätter tills mallen når kanten av dokumentet. När mallen når kanten av dokumentet tas ytterligare en ögonblicksbild och spårningsprocessen utförs upprepade gånger tills hela dokumentet är avbildat. Ögonblicksbilderna lagras i en ordnad lista för att underlätta parning av de överlappande bilderna i senare processer.

Funktionsdetektering för effektiv matchning

Funktionsdetektering är processen att hitta transformationen som justerar en bild med en annan. Det finns två huvudsakliga metoder för funktionsdetektering.

  • Funktionsbaserat tillvägagångssätt : Rörelseparametrar uppskattas från punktöverensstämmelse. Detta tillvägagångssätt är lämpligt för det fall att det finns gott om utbud av stabila och detekterbara funktioner.
  • Funktionslöst tillvägagångssätt : När rörelsen mellan de två bilderna är liten, uppskattas rörelseparametrarna med hjälp av optiskt flöde . Å andra sidan, när rörelsen mellan de två bilderna är stor, uppskattas rörelseparametrarna med hjälp av generaliserad korskorrelation . Detta tillvägagångssätt kräver dock en beräkningsmässigt dyra resurser.

Varje bild är uppdelad i en hierarki av kolumner, linjer och ord för att matcha de organiserade uppsättningarna av funktioner över bilder. Skevvinkeluppskattning och kolumner, linjer och ordsökning är exempel på funktionsdetektering.

Skevvinkeluppskattning

Först uppskattas vinkeln som textraderna gör med bildens rasterlinjer (skevvinkel). Den antas ligga inom intervallet ±20°. En liten fläck med text i bilden väljs slumpmässigt och roteras sedan i intervallet ±20° tills variansen av pixelintensiteterna för fläcken summerad längs rasterlinjerna är maximerad. Se figur 2.

För att säkerställa att den hittade snedställningsvinkeln är korrekt, utför dokumentmosaiksystemet beräkningar vid många bildlappar och härleder den slutliga uppskattningen genom att hitta medelvärdet av de individuella vinklarna viktat av variansen av pixelintensiteterna för varje lapp.

Kolumner, rader och ord att hitta

I denna operation segmenteras det snedställda dokumentet intuitivt i en hierarki av kolumner, rader och ord. Känsligheten för belysning och sidfärgning av det snedställda dokumentet kan tas bort genom att applicera en Sobel-operator på den snedställda bilden och tröskelvärda utmatningen för att erhålla den binära gradienten, avsnedvridna bilden. Se figur 3.

Operationen kan grovt delas upp i 3 steg: kolumnsegmentering, linjesegmentering och ordsegmentering.

  1. Kolumner segmenteras lätt från den binära gradienten , avskedade bilderna genom att summera pixlar vertikalt som visas i figur 4.
  2. Baslinjerna för varje rad segmenteras på samma sätt som kolumnsegmenteringsprocessen men horisontellt.
  3. Slutligen segmenteras enskilda ord genom att tillämpa den vertikala processen på varje segmenterad rad.

Dessa segmentering är viktiga eftersom dokumentmosaiken skapas genom att matcha de nedre högra hörnen av ord i överlappande bildpar. Dessutom kan segmenteringsoperationen organisera listan med bilder i kontexten av en hierarki av rader och kolumner på ett tillförlitligt sätt.

Segmenteringsoperationen involverar en avsevärd mängd summering i den binära gradienten , avskedade bilder, vilket görs genom att konstruera en matris av delsummor vars element ges av

Matrisen av delsummor beräknas i en passage genom den binära gradienten , avskeda bilden.

Korrespondenser upprättande

De två bilderna är nu organiserade i hierarki av länkade listor i följande struktur:

  • image=lista med kolumner
  • rad=lista med ord
  • kolumn=lista över rad
  • word=längd (i pixlar)

Längst ner i strukturen registreras längden på varje ord för att upprätta överensstämmelse mellan två bilder för att reducera till att endast söka i motsvarande strukturer för grupperna av ord med matchande längder.

Hitta frömatchningar

Ett frömatchningsfynd görs genom att jämföra varje rad i bild1 med varje rad i bild2. De två raderna jämförs sedan med varandra för varje ord. Om längden (i pixlar) av de två orden (ett från bild1 och ett från bild2) och deras omedelbara grannar överensstämmer med varandra inom ett fördefinierat toleransvärde (t.ex. 5 pixlar), så antas de matcha. Raden i varje bild antas vara en matchning om det finns tre eller fler ordmatchningar mellan de två raderna. Frömatchningssökningsoperationen avslutas när två par på varandra följande radmatchningar hittas.

Matchlista byggnad

Efter att ha avslutat en seed-match-sökningsoperation är nästa process att bygga matchlistan för att generera korrespondenspunkterna för de två bilderna. Processen görs genom att söka de matchande paren av rader bort från fröraden.

Bilder mosaik

Figur 5 : Mosaik av två dokumentbilder. Suddighet är tydlig i den affina mosaiken (b), men inte i mosaiken som är konstruerad med en plan-till-plan-projektivitet (a). Närbilder av typiska sömmar av (a) och (b) visas i (c) respektive (d).

Med tanke på listan över motsvarande punkter för de två bilderna är nästa process att hitta transformationen av den överlappande delen av bilderna. Om man antar en pinhole-kameramodell , demonstreras transformationen mellan pixlar (u,v) i bild 1 och pixlar (u0, v0) i bild 2 av en plan-till-plan-projektivitet.

Parametrarna för projektiviteten hittas från fyra par av matchningspunkter. RANSAC-regressionsteknik används för att förkasta outlying-matchningar och uppskatta projektiviteten från de återstående bra matchningarna.

Projektiviteten finjusteras med hjälp av korrelation vid hörnen av den överlappande delen för att erhålla fyra överensstämmelse med subpixelnoggrannhet. Därför transformeras bild1 sedan till bild2s koordinatsystem med hjälp av Eq.1. Det typiska resultatet av processen visas i figur 5.

Många bilder klarar sig

Slutligen byggs hela sidkompositionen upp genom att alla bilder kartläggs till koordinatsystemet för en "ankarbild", som normalt är den som ligger närmast sidans mitt. Transformationerna till ankarramen beräknas genom att sammanfoga de parvisa transformationer som hittats tidigare. Rådokumentmosaiken visas i figur 6.

Det kan dock finnas ett problem med bilder som inte följer varandra som överlappar varandra. Detta problem kan lösas genom att utföra Hierarkiska sub-mosaiker. Som visas i figur 7 registreras bild1 och bild2, liksom bild3 och bild4, vilket skapar två undermosaiker. Dessa två sub-mosaiker sys senare ihop i en annan mosaikprocess.

Tillämpade områden

Det finns olika områden som tekniken för dokumentmosaik kan tillämpas på, till exempel:

  • Textsegmentering av bilder av dokument
  • Dokumentigenkänning
  • Interaktion med papper på det digitala skrivbordet
  • Videomosaik för virtuella miljöer
  • Bildregistreringstekniker

Relevanta forskningsartiklar

  • Huang, TS; Netravali, AN (1994). "Rörelse och struktur från inslagskorrespondenser: En recension". IEEE:s förfaranden . 82 (2): 252–268. doi : 10.1109/5.265351 .
  • GD Lowe. [1] Perceptuell organisation och visuell igenkänning. Kluwer Academic Publishers, Boston, 1985.
  • Irani, M.; Peleg, S. (1991). "Förbättra upplösningen genom bildregistrering". CVGIP: Grafiska modeller och bildbehandling . 53 (3): 231–239. doi : 10.1016/1049-9652(91)90045-L .
  • Shivakumara, P.; Kumar, G. Hemantha; Guru, DS; Nagabhushan, P. (2006). "Skjutfönsterbaserat tillvägagångssätt för dokumentbildsmosaik" . Bild- och bildberäkning . 24 (1): 94–100. doi : 10.1016/j.imavis.2005.09.015 .
  • [2] Kamerabaserad dokumentbildsmosaik. (nd). Bild (Rochester, NY), 1.
  •    Kumar, GH; Shivakumara, P.; Guru, DS; Nagabhushan (2004). "Document image mosaicing: A novel approach" (PDF) . Text . 29 (3): 329–341. CiteSeerX 10.1.1.107.4304 . doi : 10.1007/bf02703782 . S2CID 62593940 .
  • Sato, T., Ikeda, S., Kanbara, M., Iketani, A., Nakajima, N., Yokoya, N., & Yamada, K. (nd). Högupplöst videomosaik för dokument och foton genom att uppskatta kamerarörelse. Mosaic A Journal for the Interdisciplinary Study of Literature.
  1. ^ a b c d Zappalá, Anthony; Jösses, Andrew; Taylor, Michael (1999). "Dokumentmosaik". Bild- och bildberäkning . 17 (8): 589–595. doi : 10.1016/S0262-8856(98)00178-4 .
  2. ^   Mann, S.; Picard, RW (1995). "Video orbits of the projective group: A new perspective on image mosaicing". Teknisk rapport (Perceptual Computing Section), MIT Media Laboratory (338). CiteSeerX 10.1.1.56.6000 .
  3. ^ a b    Brown, LG (1992). "En undersökning av bildregistreringstekniker". ACM Computing Surveys . 24 (4): 325–376. CiteSeerX 10.1.1.35.2732 . doi : 10.1145/146370.146374 . S2CID 14576088 .
  4. ^ a b   Bloomberg, Dan S.; Kopec, Gary E.; Dasari, Lakshmi (1995). "Mäta dokumentets snedställning och orientering" (PDF) . I Vincent, Luc M; Baird, Henry S (red.). Dokumenterkännande II . SPIE:s handlingar. Vol. 2422. s. 302–315. Bibcode : 1995SPIE.2422..302B . doi : 10.1117/12.205832 . S2CID 5106427 .
  5. ^ a b Taylor, MJ; Zappala, A.; Newman, WM; Dance, CR (1999). "Dokument genom kameror". Bild- och bildberäkning . 17 (11): 831–844. doi : 10.1016/S0262-8856(98)00155-3 .
  6. ^ a b   Preparata, FP; Shamos, MI (1985). Computational Geometry: An Introduction . Monografier i datavetenskap. Springer–Verlag. ISBN 9780387961316 .
  7. ^    Mundy, JL; Zisserman, A. (1992). "Bilaga-Projektiv geometri för maskinseende" . Geometrisk invarians i datorseende . Cambridge MA: MIT Press. CiteSeerX 10.1.1.17.1329 . ISBN 9780262132855 .
  8. ^   Martin A. Fischler; Robert C. Bolles (1981). "Slumpmässig samsyn: Ett paradigm för modellanpassning med tillämpningar för bildanalys och automatiserad kartografi" ( PDF) . Kommunikation från ACM . 24 (6): 381–395. doi : 10.1145/358669.358692 . S2CID 972888 .
  9. ^    Wellner, P. (1993). "Interagera med papper på det digitala skrivbordet". Kommunikation från ACM . 36 (7): 87–97. CiteSeerX 10.1.1.53.7526 . doi : 10.1145/159544.159630 . S2CID 207174911 .
  10. ^ Szeliski, R. (1996). "Videomosaiker för virtuella miljöer". IEEE Datorgrafik och applikationer . 16 (2): 22–306. doi : 10.1109/38.486677 .

Bibliografi

externa länkar