




摘 要: 針對現有融合方法缺乏通用性的問題,提出一種結合空間注意力和通道注意力的特征融合網絡,設計一個端到端融合框架,采用兩階段的訓練策略進行訓練。在第一個階段,訓練一個自編碼器用來提取圖像的特征;在第二個階段,使用提出的融合損失函數對融合網絡進行訓練。實驗結果表明,該算法既能保留紅外圖像顯著目標特征,還能在保留可見光圖像細節上有很好的特性。主觀和客觀的實驗分析驗證了該算法的有效性。
關鍵詞: 圖像融合; 卷積神經網絡; 可訓練融合策略; 卷積神經網絡; 可見光圖像
中圖分類號: TP391.41"" 文獻標志碼: A
文章編號: 1001-3695(2022)05-049-1569-04
doi:10.19734/j.issn.1001-3695.2021.10.0422
Fusion network based on attention mechanism for infrared and visible images
Chen Yihan, Zheng Qianying
(College of Physics amp; Information Engineering, Fuzhou University, Fuzhou 350108, China)
Abstract: Aiming at the problem of lack of versatility in existing fusion methods,this paper proposed a feature fusion network combining spatial attention and channel attention.The network designed an end-to-end fusion framework and used a two-stage training strategy for training.In the first stage,it trained an auto-encoder to extract the features of the image.In the second stage,it trained the fusion network by the proposed fusion loss function.Experimental results show that the algorithm can not only retain the significant target features of the infrared image,but also have good characteristics in retaining the details of the visible image.Subjective and objective experimental analyses verify the effectiveness of the algorithm.
Key words: image fusion; convolution neural network; trainable fusion strategy; CNN; visible image
0 引言
圖像處理作為圖像識別、目標檢測、語義分割等任務的上游任務,具有重要的研究意義。圖像融合的目標是從多張圖像中提取各自重要的信息,并將其整合在一張圖像上。圖像融合有著幾十年的研究歷史,到目前為止,圖像融合已實現了良好的性能表現,它在目標跟蹤、軍事監控領域發揮了重要作用。現有的融合方法可以分為傳統方法和基于深度學習的方法兩大類。傳統方法的計算代價比較高,在實際應用中的運行速度較慢。而且針對不同的圖像融合任務,往往需要設計不同的融合策略。為了克服這些缺點,研究人員開始將深度學習方法應用到圖像融合上。Li等人[1]基于VGG-19 預訓練網絡提出了一個深度學習融合框架,雖然該方法利用了卷積神經網絡提取深層信息,但是其融合策略還是相對簡單,并且VGG網絡特征提取的能力也不夠強,導致特征丟失部分信息。為了解決這些問題,文獻[2]進一步提出了結合 ResNet[3]和零相位組件分析(ZCA)的紅外與可見光圖像融合方法,首先利用預訓練的ResNet-50直接提取源圖像的特征,然后通過ZCA將特征投影到相同的空間上,使用L1-norm和softmax得到決策圖。由于卷積自編碼器網絡強大的圖像表征能力,越來越多的研究人員開始將該結構遷移到圖像融合任務上。DeepFuse[4]首先將該架構用于多曝光圖像融合上,但是其網絡結構比較簡單,提取的特征會丟失一些重要信息。受DeepFuse的啟發,文獻[5]提出一個新的圖像融合架構DenseFuse。整個網絡分為編碼器、融合層和解碼器三部分,融合層使用特征相加或L1-norm的方式對特征進行加權計算,該結構指導了后續圖像融合網絡的設計。為了提高編碼器的特征提取能力,借鑒了DenseNet中密集連接塊的設計,實現了特征的復用,使得編碼器能保留更多源圖像的特征信息,但是最后的融合效果還是很依賴于人工設計的融合策略。
為了解決人工設計特征融合策略的問題,一些學者提出了使用端到端的神經網絡來直接對圖像進行融合。基于GAN的圖像融合框架FusionGAN[6]提出利用生成器對輸入源圖像進行特征級別的融合,而判別器則限制生成器生成的融合圖像從可見光圖像中獲取細節信息,也就是讓融合圖像盡可能獲取可見光圖像的細節信息但又不與可見光圖像非常相似。FusionGAN的損失函數由內容損失和判別器損失兩部分組成。內容損失使得融合圖像保留紅外圖像的顯著目標信息,而判別器損失則讓融合圖像擁有可見光圖像的紋理和邊緣等細節信息。為了提高FusionGAN的生成效果,文獻[7]提出了該網絡的升級版 FusionGANV2。FusionGANV2 改進了生成器的結構,賦予其更強的特征提取能力;此外提出了新的目標邊緣增強損失函數和可見光細節保留損失函數,使得融合圖像擁有更豐富的紋理細節和更清晰的目標邊緣。IFCNN[8]提出了一種適用于多任務的通用圖像融合框架,它是一個有監督的融合網絡,雖然使用大量ground-truth訓練數據來訓練模型,但該網絡太過簡單且其融合策略只是簡單的相加、取最大和取均值,得到的結果也不是最優。文獻[9]提出一種結合引導濾波和快速共現濾波的融合方法,該方法以高斯濾波將源圖像分解為細節層和基礎層,然后使用不同的方法對這兩個層進行融合,提高了融合圖像的背景細節。
為了解決上述方法所產生的缺點,提出了一種新的、簡單高效的端到端圖像融合網絡(SCF-RDFuse),該網絡利用自編碼器網絡提取到的特征,將特征輸入到可訓練的融合網絡(SCF)中,最后重建融合后的特征得到融合圖像。與人工設計的融合策略不同,本文采用了結合空間注意力和通道注意力的融合網絡,并設計了一個新的損失函數LSCF來保持可見光圖像的細節信息和突出紅外圖像的目標顯著性特征。與現有算法相比,本文算法提高了融合圖像的效果,得到了更好的視覺效果。
1 算法原理
本文SCF-RDFuse是一個端到端可訓練網絡,如圖1所示,整個網絡由編碼器、SCF融合網絡和解碼器三大部分組成。輸入Ir和Iv分別表示紅外圖像和可見光圖像,If表示最終的融合圖像。編碼器用來提取圖像的特征,SCF 融合網絡結合空間注意力和通道注意力,根據輸入的紅外特征圖和可見光特征圖,自適應地為它們分配權重,得到融合后的特征圖。最后解碼器根據融合特征重建出融合圖像。
2 分析與討論
2.1 訓練過程中的實驗設置
使用PyTorch深度學習框架來實現本文算法,并在英偉達GTX 1080Ti顯卡的環境下進行訓練。在第一個訓練階段,即訓練編碼器和解碼器的時候,本文使用MS-COCO作為訓練集。首先將圖片轉為灰度圖,然后將其大小調整為256×256。在式(7)中,參數λ設為100,用來平衡LSSIM和Lp之間的數量級。每批訓練圖片的大小設置為4,共訓練四輪,學習率設置為1×10-4。參數α、β、δ和γ設置為α=500,β=1.0,δ=10.0和γ=0.01。在第二個訓練階段,本文選擇KAIST來訓練SCF網絡。KAIST數據集由大約90 000對圖片組成,其中80 000個紅外和可見光圖像對用來訓練。圖像同樣采用第一階段的預處理,每批訓練圖片的大小、訓練輪數、學習率都和第一個訓練階段一樣。
2.2 測試過程中的實驗設置
本文的測試圖像來自TNO數據集,圖6展示了數據集中的部分圖片。TNO數據集包含21對紅外和可見光圖像對。本文使用六個質量評估指標來客觀地評估本文融合算法,包括entropy(En)[11]、mutual information(MI)[12]、spatial frequency(SF)[13]、Qabf[14]、the sum of the correlations of differences(SCD)[15]和multi-scale structural similarity(MS-SSIM)[16]。當這六個指標增加時,則對應融合圖像的質量也將提升。
2.3 在21對圖像對上的結果
為了比較本文方法和其他先進算法的性能,選擇了八個比較有代表性的方法,其中包括convolutional sparse representation(ConvSR)、multi-layer deep features fusion method(VggML)、DeepFuse、ResNet50、DenseFuse、FusionGAN、IFCNN(elementwise-maximum)、DDcGAN。ConvSR將卷積稀疏表征學習引入到圖像融合任務中,將圖像分成基礎和細節兩部分,對細節部分應用CSR模型。VggML算法是利用VGG-19預訓練網絡提取輸入圖像的特征,并對特征進行人工策略的融合。ResNet50與VggML算法基本相同,只是將預訓練網絡換成了ResNet50,并使用零相位分析法(ZCA)進行特征降維。DeepFuse和DenseFuse方法都是由編碼器、融合層和解碼器三部分組成,區別在于DenseFuse的編碼器使用了DenseNet的密集連接方式,能提取更加有效的特征。IFCNN則利用一個端到端的深度卷積神經網絡進行圖像融合。FusionGAN和DDcGAN都是利用生成對抗網絡來進行圖像融合,不同的是DDcGAN采用雙判別器來區分融合圖像和兩個源圖像的結構差異。
對于DenseFuse的融合策略,本文使用直接相加的策略,根據經驗設置λ為100。對于其他模型,使用其在網絡上的公開代碼進行測試,所有參數都按照論文要求設置。本文選擇了測試集里比較有代表性的兩對紅外與可見光圖像對來和其他先進方法作視覺上的比較,融合結果如圖7所示。
圖7為第1組紅外與可見光圖像融合的結果。在圖7中,基于深度學習方法所得到的圖像整體亮度會比較暗,圖像包含更多的可見光細節。如圖中實線框所示,相比于本文方法,ConvSR、VggML和FusionGAN雖然保留了一些可見光中的重要特征,但是圖像整體會顯得比較模糊,物體的邊緣不夠清晰。而且實線框中的燈不夠明亮,融合效果還有待改進。而DDcGAN由于采用了雙判別器網絡進行訓練,導致生成的融合圖像不夠真實,整體的圖像偏向紅外圖像,不符合正常人眼的視覺感受,并且目標周圍有比較嚴重的偽影產生。
現有方法在某些地方,比如商店外的椅子和街道邊屋檐,融合圖像的邊緣不夠清晰,且整體圖像也有點模糊。IFCNN則有點過度融合,圖像噪點過多。而本文方法不僅擁有更多的可見光細節,如圖像中的椅子輪廓比較清晰;而且,本文方法擁有比較合理的圖像亮度和對比度,這是因為本文算法使用了新的紅外對比度損失函數和紅外特征損失函數進行訓練,模型能自適應地學習到紅外圖像的對比度特征,并引導融合圖像擁有這類特征。圖8為第2組紅外與可見光圖像融合的結果。可以看出除了DeepFuse、DenseFuse、IFCNN和本文方法外,其他大多數融合方法不能很好地保留虛線框中“亭子”的細節特征。此類方法在融合中沒有合理權衡紅外和可見信息,導致“亭子”部分包含太多紅外的背景信息,細節分辨不清。與其他方法相比,在實線框中,使用本文方法融合出來的圖像有著更清晰的樹輪廓,并且融合出來的圖像能更好地平衡紅外和可見特征,達到一種較好的視覺感受。這是因為本文算法添加了新的梯度保留損失函數,通過最小化融合圖像和可見光圖像之間的梯度誤差,可以保留可見光圖像中物體的輪廓細節。
TNO數據集的實驗結果如表1所示,其中每列數據的最高值用粗體加以突出。從表中可以看出,本文融合框架(SCF-RDFuse)在Qabf、SCD和MS-SSIM指標上獲得了最高的數值,而在En、MI和SF指標上則獲得了第二高的數值。而DDcGAN雖然有著較高的En和MI,但其融合圖像噪聲太多而且有許多肉眼可見的偽影。本文融合網絡實現了良好的融合表現,產生了更清晰的圖像邊緣和更高的內容保真度。
3 結束語
本文解決了現有融合方法缺乏通用性的缺點,提出了一種基于注意力機制的可學習融合策略,設計了一個端到端的融合框架(SCF-RDFuse),引入了一種雙階段的訓練方法來訓練SCF-RDFuse。本文算法在編碼器階段加入了殘差密集連接模塊,使模型提取到更豐富的特征。可學習融合策略結合注意力機制對圖像特征進行自適應融合,獲得合適的融合特征。訓練階段增加新的損失函數使圖像獲得更合適的對比度,突出紅外目標信息,保留圖像更多可見細節。本文算法在TNO數據集上進行了實驗,在Qabf、SCD和MS-SSIM指標上優于其他算法。與其他融合算法相比,本文算法在圖像質量上取得了較好的結果,融合圖像有著更清晰的圖像邊緣和可見細節。本文采用的SCF融合網絡需要大量的圖像對去訓練,這對圖像融合任務不太友好,因此下一步將探索更高效的可學習融合策略的設計方法,考慮將傳統融合算法與神經網絡的方法進行結合,減少訓練所需的數據量。此外,本文將考慮把這種融合策略應用到其他圖像融合任務,例如多曝光圖像融合、多焦點圖像融合和醫學圖像融合,以驗證本文算法的有效性和通用性。
參考文獻:
[1]Li Hui,Wu X J,Kittler J.Infrared and visible image fusion using a deep learning framework[C]//Proc of the 24th International Confe-rence on Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2705-2710.
[2]Li Hui,Wu Xiaojun,Durrani T S.Infrared and visible image fusion with ResNet and zero-phase component analysis[J].Infrared Physics amp; Technology,2019,102:103039.
[3]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[4]Prabhakar K R,Srikar V S,Babu R V.DeepFuse:a deep unsupervised approach for exposure fusion with extreme exposure image pairs[C]//Proc of IEEE International Conference on Computer Vision.Pisca-taway,NJ:IEEE Press,2017:4724-4732.
[5]Li Hui,Wu X J.DenseFuse:a fusion approach to infrared and visible images[J].IEEE Trans on Image Processing,2019,28(5):2614-2623.
[6]Ma Jiayi,Yu Wei,Liang Pengwei,et al.FusionGAN:a generative adversarial network for infrared and visible image fusion[J].Information Fusion,2019,48(4):11-26.
[7]Ma Jiayi,Liang Pengwei,Yu Wei,et al.Infrared and visible image fusion via detail preserving adversarial learning[J].Information Fusion,2020,54(2):85-98.
[8]Zhang Yu,Liu Yu,Sun Peng,et al.IFCNN:a general image fusion framework based on convolutional neural network[J].Information Fusion,2020,54(2):99-118.
[9]朱文鵬,陳莉,張永新.基于引導濾波和快速共現濾波的紅外和可見光圖像融合[J].計算機應用研究,2021,38(2):600-604. (Zhu Wenpeng,Chen Li,Zhang Yongxin,et al.Infrared and visible image fusion based on guided filter and fast co-occurrence filter[J].Application Research of Computers,2021,38(2):600-604.)
[10]Wang Zhou,Bovik A C,Sheikh H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans on Image Processing,2004,13(4):600-612.
[11]Roberts J,Van Aardt J,Ahmed F.Assessment of image fusion procedures using entropy,image quality,and multispectral classification[J].Journal of Applied Remote Sensing,2008,2(1):1-28.
[12]Qu Guihong,Zhang Dali,Yan Pingfan.Information measure for performance of image fusion[J].Electronics Letters,2002,38(7):313-315.
[13]Eskicioglu A M,Fisher P S.Image quality measures and their perfor-mance[J].IEEE Trans on Communications,1995,43(12):2959-2965.
[14]Xydeas C S,Petrovic V.Objective image fusion performance measure[J].Electronics Letters,2000,36(4):308-309.
[15]Aslantas V,Bendes E.A new image quality metric for image fusion:the sum of the correlations of differences[J].AEU-International Journal of Electronics and Communications,2015,69(12):1890-1896.
[16]Ma Kede,Zeng Kai,Wang Zhou.Perceptual quality assessment for multi-exposure image fusion[J].IEEE Trans on Image Processing,2015,24(11):3345-3356.