Multifokus bildfusion

Multi-focus image fusion är en teknik för komprimering av flera bilder som använder ingångsbilder med olika fokusdjup för att skapa en utdatabild som bevarar all information.

Översikt

Under de senaste åren har bildfusion använts i många applikationer såsom fjärranalys, övervakning , medicinsk diagnos och fotografering. Två stora tillämpningar av bildsammanslagning inom fotografering är sammanslagning av flerfokusbilder och multiexponeringsbilder .

Huvudidén med bildsammanslagning är att samla in viktig och väsentlig information från ingångsbilderna till en enda bild som helst har all information från ingångsbilderna. Forskningshistorien kring bildfusion sträcker sig över 30 år och många vetenskapliga artiklar. Bildfusion har i allmänhet två aspekter: bildfusionsmetoder och objektiva utvärderingsmått.

Ett exempel på Multi-Focus Image Fusion

I visuella sensornätverk (VSN) är sensorer kameror som spelar in bilder och videosekvenser. I många tillämpningar av VSN kan en kamera inte ge en perfekt illustration inklusive alla detaljer om scenen. Detta beror på det begränsade fokusdjupet hos kamerans optiska lins . Därför är bara objektet i kamerans brännvidd fokuserat och tydligt, och andra delar av bilden är suddiga.

VSN tar bilder med olika fokusdjup med hjälp av flera kameror. På grund av den stora mängden data som genereras av kameror jämfört med andra sensorer som tryck- och temperatursensorer och vissa begränsningar av bandbredd , energiförbrukning och bearbetningstid, är det viktigt att bearbeta de lokala ingångsbilderna för att minska mängden överförd data.

Mycket forskning om sammansmältning av flerfokusbilder har gjorts under de senaste åren och kan klassificeras i två kategorier: transform och rumsliga domäner. Vanligt använda transformer för bildfusion är Diskret cosinustransform (DCT) och Multi-Scale Transform (MST). Deep learning (DL) har på senare tid blomstrat i flera bildbehandlings- och datorseendeapplikationer .

Multi-Focus bildfusion i den rumsliga domänen

Huang och Jing har granskat och tillämpat flera fokusmätningar i den rumsliga domänen för multi-focus bildfusionsprocessen, lämplig för realtidsapplikationer. De nämnde några fokusmätningar, inklusive varians , bildgradientenergi ( EOG), Tenenbaums algoritm (Tenengrad), energi av Laplacian (EOL), summamodifierad Laplacian (SML) och spatial frekvens (SF). Deras experiment visade att EOL gav bättre resultat än andra metoder som varians och rumslig frekvens.

Multi-Focus bildfusion i multi-scale transform och DCT-domän

Bildfusion baserad på multi-scale transformation är den mest använda och lovande tekniken. Laplacian pyramidtransform , gradientpyramidbaserad transformation, morfologisk pyramidtransform och de främsta, diskret wavelettransform , shift-invariant wavelettransform (SIDWT) och diskret cosinus harmonisk wavelettransform (DCHWT) är några exempel på bildfusionsmetoder baserade på multi -skalomvandling. Dessa metoder är komplexa och har vissa begränsningar, t.ex. processtid och energiförbrukning. Till exempel kräver flerfokusbildsfusionsmetoder baserade på DWT en hel del faltningsoperationer , så de tar mer tid och energi att bearbeta. Därför är de flesta metoder i multi-scale transform inte lämpliga för realtidsapplikationer. Dessutom är dessa metoder inte särskilt framgångsrika längs kanterna, på grund av att wavelet- transformationsprocessen saknar bildens kanter. De skapar ringande artefakter i den utgående bilden och minskar dess kvalitet.

På grund av de tidigare nämnda problemen i multi-skala transformation metoder, forskare är intresserade av multi-fokus bild fusion i DCT-domänen. DCT-baserade metoder är mer effektiva när det gäller överföring och arkivering av bilder kodade i Joint Photographic Experts Group (JPEG) standard till den övre noden i VSN-agenten. Ett JPEG-system består av ett par av en kodare och en avkodare. I kodaren är bilder uppdelade i icke-överlappande 8×8 block, och DCT- koefficienterna beräknas för varje. Eftersom kvantiseringen av DCT-koefficienter är en förlustprocess , kvantiseras många av de lågt värderade DCT-koefficienterna till noll, vilket motsvarar höga frekvenser. DCT-baserade bildfusionsalgoritmer fungerar bättre när flerfokusbildsfusionsmetoderna tillämpas i den komprimerade domänen.

Dessutom, i de rumsbaserade metoderna, måste ingångsbilderna avkodas och sedan överföras till den rumsliga domänen. Efter implementering av bildfusionsoperationerna måste de utgående sammansmälta bilderna kodas igen. DCT-domänbaserade metoder kräver inte komplexa och tidskrävande på varandra följande avkodnings- och kodningsoperationer. Därför fungerar bildfusionsmetoderna baserade på DCT-domänen med mycket mindre energi och bearbetningstid. På senare tid har mycket forskning utförts inom DCT-domänen. DCT+Varians, DCT+Corr_Eng, DCT+EOL och DCT+VOL är några framträdande exempel på DCT-baserade metoder.

Multi-Focus bildfusion med hjälp av Deep Learning

Nuförtiden används den djupa inlärningen i bildfusionsapplikationer som multi-focus bildfusion. Liu et al. var de första forskarna som använde CNN för sammansmältning av flerfokusbilder. De använde den siamesiska arkitekturen för att jämföra de fokuserade och ofokuserade lapparna. C. Du et al. inlämnad MSCNN-metod som erhåller den initiala segmenterade beslutskartan med bildsegmentering mellan de fokuserade och ofokuserade lapparna genom det neurala multi-scale faltningsnätverket . H. Tang et al. introducerade det pixelvisa faltningsneurala nätverket (p-CNN) för klassificering av de fokuserade och ofokuserade lapparna.

Alla dessa CNN-baserade multi-focus bildfusionsmetoder har förbättrat beslutskartan. Ändå har deras initiala segmenterade beslutskartor många svagheter och fel. Därför är tillfredsställelsen av deras slutliga fusionsbeslutskarta beroende av att använda omfattande efterbearbetningsalgoritmer såsom konsistensverifiering (CV), morfologiska operationer, vattendelare, vägledande filter och avlägsnande av små regioner på den initiala segmenterade beslutskartan. Tillsammans med de CNN-baserade metoderna för sammansmältning av flerfokusbilder, används också helt konvolutionerande nätverk (FCN) vid sammansmältning av flerfokusbilder.

ECNN: Ensemble av CNN för Multi-Focus Image Fusion

Det schematiska diagrammet för att generera tre datauppsättningar enligt den föreslagna patch-matningen som används i utbildningsproceduren för ECNN

De Convolutional Neural Networks (CNN) baserade multi-focus bildfusionsmetoderna har nyligen väckt enorm uppmärksamhet. De förbättrade avsevärt den konstruerade beslutskartan jämfört med de tidigare toppmoderna metoderna som har gjorts i de rumsliga och transformerande domänerna. Ändå har dessa metoder inte nått till den tillfredsställande initiala beslutskartan, och de måste genomgå omfattande efterbearbetningsalgoritmer för att uppnå en tillfredsställande beslutskarta.

I metoden för ECNN föreslås en ny CNN-baserad metod med hjälp av ensembleinlärning . Det är mycket rimligt att använda olika modeller och datauppsättningar snarare än bara en. De ensembleinlärningsbaserade metoderna avser att sträva efter ökad mångfald bland modellerna och datamängderna för att minska problemet med överanpassning av träningsdatauppsättningen .

Det är uppenbart att resultaten av en ensemble av CNN:er är bättre än bara en enda CNN. Den föreslagna metoden introducerar också en ny enkel typ av multifokusbilddataset. Det ändrar helt enkelt arrangemanget av lapparna i multifokusdatauppsättningarna, vilket är mycket användbart för att få bättre noggrannhet. Med detta nya typarrangemang av datamängder genereras de tre olika datamängderna inklusive originalet och Gradienten i riktningar av vertikala och horisontella fläckar från COCO- datauppsättningen. Därför introducerar den föreslagna metoden ett nytt nätverk med tre CNN-modeller som har tränats på tre olika skapade datamängder för att konstruera den initiala segmenterade beslutskartan. Dessa idéer förbättrar avsevärt den initiala segmenterade beslutskartan för den föreslagna metoden som är liknande, eller till och med bättre än, den andra slutliga beslutskartan över CNN:s baserade metoder erhållna efter tillämpning av många efterbehandlingsalgoritmer. Många riktiga multifokustestbilder används i våra experiment, och resultaten jämförs med kvantitativa och kvalitativa kriterier. De erhållna experimentella resultaten indikerar att det föreslagna CNN-baserade nätverket är mer exakt och har bättre beslutskarta utan efterbearbetningsalgoritmer än de andra befintliga toppmoderna multifokusfusionsmetoderna som använde många efterbearbetningsalgoritmer.

Flödesschemat för den föreslagna metoden för ECNN för att få den initiala segmenterade beslutskartan över multifokusbildsfusion

Denna metod introducerar ett nytt nätverk för att uppnå den renare initiala segmenterade beslutskartan jämfört med de andra. Den föreslagna metoden introducerar en ny arkitektur som använder en ensemble av tre CNN: er tränade på tre olika datamängder. Den föreslagna metoden förbereder också en ny enkel typ av multifokusbilddatauppsättningar för att uppnå bättre fusionsprestanda än de andra populära multifokusbilddataseten.

Den här idén är till stor hjälp för att uppnå den bättre initiala segmenterade beslutskartan, som är samma eller till och med bättre än de andra initiala segmenterade beslutskartan genom att använda omfattande efterbearbetningsalgoritmer.

Schemat av den föreslagna ECNN - arkitekturen med alla detaljer om modeller av CNN

externa länkar

Källkoden för ECNN http://amin-naji.com/publications/ och https://github.com/mostafaaminnaji/ECNN

  1. ^ a b c d e f g    Amin-Naji, Mostafa; Aghagolzadeh, Ali; Ezoji, Mehdi (2019). "Ensemble of CNN for multi-focus image fusion". Information Fusion . 51 : 201–214. doi : 10.1016/j.inffus.2019.02.003 . ISSN 1566-2535 . S2CID 150059597 .
  2. ^ a b c d e   Li, Shutao; Kang, Xudong; Fang, Leyuan; Hu, Jianwen; Yin, Haitao (2017-01-01). "Pixel-level image fusion: En översikt över toppmoderna". Information Fusion . 33 : 100–112. doi : 10.1016/j.inffus.2016.05.004 . ISSN 1566-2535 .
  3. ^ a b    Amin-Naji, Mostafa; Aghagolzadeh, Ali; Ezoji, Mehdi (2019). "CNN:s röstar hårt för sammansmältning av flerfokusbilder". Journal of Ambient Intelligence and Humanized Computing . 11 (4): 1749–1769. doi : 10.1007/s12652-019-01199-0 . ISSN 1868-5145 . S2CID 86563059 .
  4. ^ a b   Liu, Yu; Chen, Xun; Peng, Hu; Wang, Zengfu (2017-07-01). "Multi-focus bildfusion med ett djupt konvolutionellt neuralt nätverk". Information Fusion . 36 : 191-207. doi : 10.1016/j.inffus.2016.12.001 . ISSN 1566-2535 .
  5. ^ a b c d e f g   Amin-Naji, Mostafa; Aghagolzadeh, Ali (2018). "Multi-Focus Image Fusion i DCT-domän med varians och energi för Laplacian och korrelationskoefficient för visuella sensornätverk". Journal of AI and Data Mining . 6 (2): 233–250. doi : 10.22044/jadm.2017.5169.1624 . ISSN 2322-5211 .
  6. ^ a b    Liu, Yu; Chen, Xun; Wang, Zengfu; Wang, Z. Jane ; Ward, Rabab K.; Wang, Xuesong (2018-07-01). "Djup inlärning för bildfusion på pixelnivå: Senaste framsteg och framtidsutsikter". Information Fusion . 42 : 158–173. doi : 10.1016/j.inffus.2017.10.007 . ISSN 1566-2535 . S2CID 46849537 .
  7. ^ a b c d e f    Haghighat, Mohammad Bagher Akbari; Aghagolzadeh, Ali; Seyedarabi, Hadi (2011-09-01). "Multi-focus bildfusion för visuella sensornätverk i DCT-domän". Datorer och elektroteknik . Specialnummer om bildbehandling. 37 (5): 789–797. doi : 10.1016/j.compeleceng.2011.04.016 . ISSN 0045-7906 . S2CID 38131177 .
  8. ^ a b    Amin-Naji, Mostafa; Aghagolzadeh, Ali; Ezoji, Mehdi (2018). "Fullständigt nvolutionära nätverk för multi-cus Image Fusion". 2018 9th International Symposium on Telecommunications (IST) : 553–558. doi : 10.1109/ISTEL.2018.8660989 . ISBN 978-1-5386-8274-6 . S2CID 71150698 .
  9. ^   Huang, Wei; Jing, Zhongliang (2007-03-01). "Utvärdering av fokusåtgärder vid multifokusbildsammanslagning". Mönsterigenkänningsbokstäver . 28 (4): 493–500. Bibcode : 2007PaReL..28..493H . doi : 10.1016/j.patrec.2006.09.005 . ISSN 0167-8655 .
  10. ^   Du, C.; Gao, S. (2017). "Bildsegmenteringsbaserad multifokusbildfusion genom multiskaligt konvolutionellt neuralt nätverk". IEEE-åtkomst . 5 : 15750–15761. doi : 10.1109/ACCESS.2017.2735019 . S2CID 9466474 .
  11. ^   Tang, Han; Xiao, Bin; Li, Weisheng; Wang, Guoyin (2018-04-01). "Pixel konvolutionellt neuralt nätverk för multi-fokus bildfusion". Informationsvetenskap . 433–434: 125–141. doi : 10.1016/j.ins.2017.12.043 . ISSN 0020-0255 .
  12. ^     Guo, Xiaopeng; Nie, Rencan; Cao, Jinde; Zhou, Dongming; Qian, Wenhua (2018-06-12). "Fullständigt konvolutionell nätverksbaserad multifokusbildfusion". Neural beräkning . 30 (7): 1775–1800. doi : 10.1162/neco_a_01098 . ISSN 0899-7667 . PMID 29894654 . S2CID 48358558 .