
















摘" 要: 針對目前可見光與紅外光圖像融合過程中的關鍵細節信息丟失,目標對比度較低的問題,提出一種基于多尺度跨階段密集連接網絡的圖像融合算法。通過多尺度卷積與跨階段的密集連接網絡實現雙模態圖像的特征提取工作,結合CA注意力機制提高模型的融合效果,并以[L1]范數作為特征融合規則來獲取融合特征圖,并最終通過解碼網絡實現圖像的重構工作。實驗結果表明,在公共數據集TNO中,文中提出的算法在結構相似度、信息熵以及差異相關系數三項指標中獲得了最優值,相較于次優值分別提高了4.14%、2.66%、2.59%,在邊緣信息度量上取得了次優值,與最優值相差3.3%。綜合主客觀評價,文中提出的方法可獲取高質量的融合圖像,具有明顯的優勢。
關鍵詞: 圖像處理; 可見光與紅外光; 深度學習; 圖像融合; 多尺度; 跨階段密集連接
中圖分類號: TN911.73?34; TP391.4" " " " " " " " " "文獻標識碼: A" " " " " " " " 文章編號: 1004?373X(2025)05?0107?08
Image fusion algorithm based on multi?scale cross?stage dense connection
ZHAI Lihong1, LUO Jiyang2
(1. Taiyuan Institute of Technology, Taiyuan 030008, China; 2. North Automatic Control Technology Institute, Taiyuan 030006, China)
Abstract: In view of the key detail information loss and low contrast of the objects in the fusion process of visible and infrared images, an image fusion algorithm based on multi?scale cross?stage densely?connected network is proposed. The feature extraction of bimodal images is realized by multi?scale convolution and cross?stage densely?connected network, and the fusion effect of the model is improved by combining CA attention mechanism. The fusion feature map is obtained by taking the norm [L1] as the feature fusion rule. Finally, the image is reconstructed by decoding the network. The experimental results show that in the public dataset TNO, the proposed algorithm achieves the optimal value for the three indicators of structural similarity, information entropy and difference correlation coefficient, which are 4.14%, 2.66% and 2.59% higher than the sub?optimal value, and achieves the sub?optimal value for the edge information measurement, which is 3.3% lower than the optimal value. From the subjective and objective evaluation, it can be seen that the proposed method can obtain high?quality fusion images, and has obvious advantages.
Keywords: image processing; visible and infrared light; deep learning; image fusion; multi?scale; cross?stage dense connection
0" 引" 言
隨著圖像采集設備與計算機視覺技術的不斷發展,監控設備被廣泛應用于各種安防領域。但是,由于有相當一部分設備處于室外環境,在夜晚低照度或極端惡劣的天氣情況下,單一模態的可見光相機存在場景信息丟失,不足以為后續算法提供高質量圖像的情況。針對上述問題,較為直接的方法便是提高設備硬件屬性,增加曝光時間或者增大感光面積[1];其次,則是在攝像機中同時配置可見光與紅外傳感器,通過不同模態傳感器的互補性實現高質量圖像的獲取[2]。
紅外熱成像傳感器通過感受視野中的熱輻射信息進行成像,可以全天候獲取周圍環境中的目標信息,可見光相機則根據反射原理得到周界環境的細節紋理信息,通過融合算法便可獲取全局信息與細節信息并存的高質量圖像,成為目標檢測[3?4]、目標跟蹤[5]、圖像分割[6]等計算機視覺的前置算法。相較于提高設備硬件屬性而言,對不同模態的數據進行融合的方式不僅成本更低,且提升效果更加明顯,因此成為主流的圖像增強方法[7]。
目前,圖像融合方法主要分為傳統算法與深度學習兩大類。在傳統算法中根據采用的理論不同,主要包括:基于多尺度變換(Multiscale Transformation, MST)[8?11]的方法,通過拉普拉斯等變換將圖像分解,在不同尺度上進行融合,得到最終的結果;基于稀疏表示(Sparse Representation, SR)[12?13]的方法,通過稀疏編碼獲取源圖像的稀疏系數,融合后進行圖像重構;基于子空間的方法[14?15],通過高維向低維的映射實現融合,以及基于顯著性的方法[16]。傳統算法根據采用的原理不同,在各自的數據集中實現了較好的融合效果,但其融合效果受手工設計融合規則的影響,非常依賴于先驗知識,導致算法普適性較差。
為了改善上述缺陷,近年來多采用基于深度學習的融合算法,這是由于卷積神經網絡可以根據卷積層數的不同來有效獲取不同維度的圖像特征,因此可以更好地融合圖像信息。在深度學習領域,文獻[17]首先提出了一種基于密集連接網絡的圖像融合算法(DenseFuse),但是由于密集連接網絡對模型中的所有張量都進行了連接,造成了內存占用過大的現象;文獻[18?19]首次在圖像融合的領域中引入生成對抗網絡(FusionGAN),但是GAN生成圖像的過程中易混入噪聲,導致最終生成的圖像不穩定;文獻[20]提出了一種端到端的圖像融合網絡IFCNN,但其網絡結構過于復雜冗余,訓練和推理效率較低,無法在實際中進行應用。
1" 多尺度跨階段密集連接網絡
在圖像融合的過程中,需要從不同模態的圖像中提取有效的特征,根據這些特征進行重建使之形成更加清晰,細節更加明顯的圖像。因此,如何選擇特征的權重便是圖像融合中較為重要的環節。紅外圖像根據目標的溫度進行成像,溫度越高則像素值也越大,因此可有效區分不同目標;可見光圖像則包含著目標的細節紋理信息,可區分目標的具體細節。因此,融合后的圖像應盡可能地包含紅外熱源圖像中的顯著性信息以及可見光圖像的細節信息。為此,將整個融合過程定義為一個網絡模型,如式(1)所示:
[If=Fu[f1(Iir)f2(Ivi)]] (1)
式中:[Iir]、[Ivi]分別表示輸入的雙模態圖像;[f1(Iir)]和[f2(Ivi)]表示對不同模態的圖像經過一系列卷積層后形成的特征層;[Fu]表示最終將特征進行融合的過程。
最終形成如圖1所示的模型架構。網絡總體分為三個模塊:圖像首先經過特征編碼網絡實現不同源圖像的特征提取,在特征融合網絡中進行圖像融合,再經過解碼網絡重建最終圖像,實現可見光與紅外圖像的融合功能。
1.1" 多尺度跨階段密集連接特征提取模塊
現有的算法在圖像融合時往往將圖像進行分解,在不同的頻帶中將特征權重相加,這導致大量的計算資源被用于分解以及融合過程,同時分解過程也會隨之丟失圖像部分的紋理細節。因此,本文首先通過多尺度的卷積核進行不同視野的特征提取,避免了單尺度卷積帶來的特征丟失;其次,通過跨階段的局部密集連接網絡優化網絡中重復的梯度信息,將梯度的變化信息集成到特征圖中,優化網絡的計算效率;最終,在網絡中引入注意力機制,考慮不同特征之間的關聯信息,以提高融合的質量。
1.1.1" 多尺度卷積
如圖2所示,本文采用多尺度卷積的方式對圖像進行初步的特征提取。通過不同大小的卷積核在不填充邊界的情況下會生成大小不同的特征圖,最終經過上采樣統一特征圖大小。
通過這種方式在不改變原有特征圖大小的情況下,豐富圖像特征,能夠在全局視角下尋找圖像中感興趣的信息以提高模型的性能。模型在特征提取網絡中分別使用5×5、3×3和1×1的卷積核,實現了在不同的尺度上捕獲圖像的詳細特征。
1.1.2" 跨階段密集連接網絡
在DenseFuse中,整個編碼網絡中采用密集連接塊,通過對網絡中的每一層都添加單獨的通道,使得任意兩層網絡都可以直接“溝通”,從而實現圖像的深層特征信息提取,DenseNet密集連接網絡示意圖如圖3所示。
密集連接在網絡中的特征張量都與之前的張量進行維度拼接,因此針對[L]層的網絡,其中共有[L(L+1)2]個連接。DenseNet信息傳遞過程如圖4所示。
在該結構中,每個層都包含一個稠密塊和一個過渡塊,稠密塊又包括[k]個稠密層,整個過程如式(2)所示。
[xk=wk?x0,x1,x2,…,xk-1] (2)
式中:“[?]”為卷積運算;“[ ]”表示張量拼接;[wk]與[xk]為第[k]層的權重與輸出。此時網絡利用反向傳播算法對權重進行更新的方程如式(3)所示:
[w′k=f(wk,g0,g1,g2,…,gk-1)] (3)
式中:[f]為權值更新函數;[gk]為第[k]個密集層的梯度。通過式(2)與式(3)可以發現,密集連接網絡在權重更新過程中大量的梯度信息用以更新不同密集層的權值,導致網絡反復學習密集層中復制的梯度信息。
針對密集連接網絡中計算成本較高的問題,引入跨階段局部網絡,如圖5所示。將每個階段中的稠密塊改為局部稠密塊,將輸入[x0]分解為[x′0,x″0],其中[x′0]直接連接至階段末尾,而[x″0]參與密集層的運算。
此時,網絡的前向計算方程與權值更新方程如式(4)與式(5)所示:
[xk=wk?x0,x1,x2,…,xk-1xT=wT?x0,x1,x2,…,xkxU=wU?x0,xT] (4)
[w′k=f(wk,g0,g1,g2,…,gk-1)w′T=f(wT,g0,g1,g2,…,gk)w′U=f(wU,g0,gT)]" " " (5)
通過上述跨階段的操作,使得基礎層的通道層數僅為原始數據的一半,可以減少一半的計算瓶頸,并通過分塊增加梯度路徑,減少特征圖直接拼接帶來的弊端。
1.1.3" CA注意力機制
本文在網絡中通過多尺度卷積以及跨階段的密集連接塊雖然可實現圖像中不同層次間的特征獲取,但是其特征為圖像中的局部特征,缺乏特征之間的關聯信息,因此在網絡中引入注意力機制。目前,常用的注意力機制包括SENet、ECANet、CBAMBlock。SENet與ECANet網絡通常只關注通道維度的特征權重調整,忽略坐標信息從而導致在進行空間感知任務時表現不佳。后來的CBAMBlock則通過串行的方式處理空間和通道注意力,然而,這種串行方式可能導致空間和通道信息關聯不足,無法充分捕捉它們之間的相互作用。因此在網絡中引入基于坐標的注意力機制CA模塊,使得模型在關注空間信息的同時也關注其位置信息,CA注意力機制網絡結構如圖6所示。
CA注意力機制首先對圖像在高度與寬度兩個方向進行平均池化,獲取該方向的特征圖,其過程如式(6)與式(7)所示:
[zhc(h)=1W0≤i≤Wxc(h,i)] (6)
[zwc(w)=1H0≤j≤Hxc(j,w)] (7)
式中:[H]、[W]、[c]分別表示特征圖的高度、寬度以及通道數。
獲取特征向量后將兩個方向的特征圖進行拼接送入共享的1×1卷積模塊進行降維操作,再經過歸一化處理與激活函數得到特征圖[f],如式(8)所示:
[f=δ(F1[zh,zw])] (8)
式中:“[·]”表示圖像的拼接;[δ]表示非線性激活函數。
將得到的特征圖[f]按照原來的高度和寬度進行卷積核為1×1的卷積升維操作,從而得到通道數與原來一樣的特征圖,經過Sigmoid激活函數后則得到特征圖在高度和寬度上的注意力權重[gh]與[gw],表示過程如下所示:
[gh=σFh(fh)]" (9)
[gw=σFw(fw)] (10)
經過上述計算后將會得到輸入特征圖在高度方向的注意力權重[gh]和在寬度方向的注意力權重[gw]。最后在原始特征圖上通過乘法加權計算,將得到最終在寬度和高度方向上帶有注意力權重的特征圖,公式如下所示:
[yc(i,j)=xc(i,j)×ghc(i)×gwc(j)] (11)
1.2" 圖像融合與損失函數
1.2.1" 融合規則
對于圖像的融合策略而言,主要有直接相加、權重相加與[L1]范數等方式,相較于簡單的直接加權與權重加權,[L1]范數可以將一些權重置為0,以此來去除冗余和無關的特征,也因此可以忽略一些異常值和噪聲數據,從而減少它們對模型的影響,同時也無需額外設置權值矩陣或依賴其他先驗知識。norm?1l融合規則如圖7所示。
在圖像融合過程中,首先是將特征編碼子網絡中提取到的特征[?mk]通過[L1]范數對其作用程度進行計算,由[Ck]進行表示,并生成最終的融合圖像[fm],具體計算過程如下:
[Ck(x,y)=?1:Mk(x,y)1] (12)
將初始作用程度圖以像素為中心的3×3范圍進行平均,得到最終的作用程度圖,如式(13)所示:
[Ck(x,y)=a=-rrb=-rrCk(x+a,y+b)(2r+1)2] (13)
最終通過式(14)與式(15)對圖像進行融合。
[wk(x,y)=Ck(x,y)n=1kCn(x,y)] (14)
[fm(x,y)=w1(x,y)×?m1(x,y)+w2(x,y)×?m2] (15)
1.2.2nbsp; 解碼網絡
解碼子網絡如圖8所示,可見光與紅外圖像經過特征編碼網絡與融合網絡后進行解碼重構,在解碼子網絡中,首先通過3×3、步長為1的卷積核進行降維操作,再通過BN正則化與ReLU激活進行解碼重構,產生最終的融合圖像。
1.2.3" 損失函數
在模型訓練過程中,需要通過損失函數計算模型預測的誤差,通過損失值最小化來使得模型更準確地擬合訓練數據。但是在圖像融合領域,無法對圖像進行標注,從而得到正確的標注。因此,相較于圖像的分類工作,需要重新設計損失函數。為了得到雙模圖像的有效信息,損失函數由[Lcon](內容損失)與[Lmaxi?grad](最大梯度損失)兩部分組成。
[Loss=Lcon+γLmaxi?grad]" (16)
式中[γ]為權重系數,用以控制兩部分損失函數間的相關性。[Lcon]如式(17)所示:
[Lcon=1h×wsumIf-IviF+sumIf-IirF] (17)
式中:[If]表示融合圖像;[Ivi]與[Iir]代表可見光與紅外圖像;[h]和[w]表示源圖像的高度和寬度。[Lmaxi?grad]的計算公式如下:
[Lmaxi?grad=1h×wsumIf→-max(Ivis→,Iir→)L1] (18)
式中:“[?]”是梯度運算;[*L1]則表示[L1]距離通過計算源圖像的梯度,可在融合圖像中保留可見光圖像和紅外圖像的紋理信息,并最終利用[max(?)]得到源圖像的最大梯度。
2" 實驗結果分析
2.1" 實驗條件與評價指標
2.1.1" 實驗條件
在實驗過程中選擇TNO公共數據集進行驗證,該數據集由加拿大國家光學研究所提供,所有圖像均經過配準,訓練過程中在不同類別圖像中選取具有代表性的圖片,并進行擴容,最終形成圖像4 200對,并以8∶2的比例分為訓練集與測試集。
本文的實驗硬件環境為:Windows 11操作系統,AMD Ryzen 7 5800H with Radeon Graphics 3.20 GHz,16.0 GB DDR4內存,NVIDIA GeForce RTX 3060 12 GB獨立顯卡。通過PyTorch框架對模型進行搭建,在訓練過程中超參數Batch size設為16、初始學習率(Learning Rate)設置為0.005,算法總迭代次數設置為160次,最終的客觀評價指標結果通過Python計算得到。
2.1.2" 評價指標
本文對最終圖像的融合質量進行主客觀評價,其中客觀指標選取SSIM(結構相似度)、EN(信息熵)、[QAB/F](邊緣信息度量)和SCD(差異相關系數)等4項指標對圖像進行效果評價,計算公式分別如下:
[SSIMs, f=s, f2μsμf+c1μ2s+μ2f+c1×2σsσf+c2σ2s+σ2f+c2×σsf+c3σ2sσ2f+c3] (19)
式中:[μ]表示平均值;[σ]代表標準差;[σsf]表示協方差;[c]為常數,避免分母為0的情況出現。
[EN=-x=0255pxlog2(px)]" (20)
式中:[x]為灰度值;[px]是針對該灰度值的歸一化直方圖;EN越大,圖像的信息就越豐富。
[QAB/F=i=1Mj=1NQAF(i,j)wA(i,j)+QBF(i,j)wB(i,j)i=1Mj=1N(wA(i,j)+wB(i,j))] (21)
式中:[Q]表示邊緣強度;[w]代表權重;[QAB/F]越大就意味著轉移了越多的圖像信息,圖像融合質量越好。
[SCD=1MNi=1Mj=1N[H(i,j)-H]2] (22)
式中:[M]與[N]分別為圖像的長度與寬度;[H]表示均值。SCD值越大,表示源圖像與融合圖像的相關性越高,也就是說融合后的圖像保留了更多的源圖像互補信息。
2.2" 消融實驗
為了保證本文提出模塊的有效性,在相同的訓練情況下,對數據集中的圖像進行消融實驗,主要分為:
1) 多尺度密集連接網絡(Multi?Dense);
2) 跨階段密集連接網絡(Multi?CSD);
3) 加入CA注意力機制(Multi?CSDC),選取其中的“sandpath”圖像進行主觀評價,并對測試集中的數據進行客觀指標對比,結果如圖9所示,消融實驗數據見表1。
通過圖10可以對模型進行主觀評價,相較于原始網絡,本文提出的模型結構更改均可使得融合圖像質量有不同程度的提升,圖像細節更加明顯,對比度也更高。同時,在客觀評價指標中,所有指標均有所提升,表明圖像的結構相似性增加,融合圖像信息豐富,邊緣信息也保持較好,因此最終融合圖像質量高。
2.3" 對比實驗
本文選擇NSCT、DCHWT、IFCNN、DenseFuse與FusionGAN等5種經典融合算法與本文算法進行對比。并通過主客觀指標進行評價,選取數據集中的兩組數據“Road”與“Kaptein_1123”進行主觀比較,圖10與圖11顯示了不同算法的融合結果。
從圖10和圖11可以看出:在選用的對比算法中,NSCT在圖像融合的過程中易產生區域性的黑斑或白斑,極易對后續的圖像處理算法產生影響;而DCHWT則出現了邊緣模糊的現象,導致圖像的對比度較低;DenseFuse與IFCNN最終的融合圖像中更多地保留了紅外圖像的顯著性信息,通過在“Road”圖像中標注處可以看出,其可見光圖像中的細節丟失現象嚴重;相較于其他算法,本文算法的融合圖像在保持可見光圖像中紋理細節信息的同時,更好地融合了紅外圖像中的顯著性信息,且最終圖像的亮度較高,有著良好的對比度。
為了更好地分析融合圖像的質量,本節對實驗中所使用的不同算法的融合結果進行了客觀指標的評估。不同融合算法在測試圖像上融合結果的客觀評價指標的均值如表2所示。
通過表2可以看出,本文提出的算法在SSIM、EN、SCD三個指標上均達到了最優值,在[QAB/F]指標上也達到了次優值,與其他方法相比較,本文提出的方法有著明顯的優勢,可以保留較多的信息,邊緣信息完整且圖像對比度高。
3" 結" 語
本文提出了一種基于多尺度跨階段密集連接網絡的圖像融合算法。通過多尺度卷積與跨階段的密集連接網絡獲取圖像特征,并添加注意力機制來提高融合效果。實驗結果表明:在公共數據集TNO中,本文提出的算法在結構相似度、信息熵以及差異相關系數三項指標中獲得了最優值,相較于次優值分別提高了4.14%、2.66%、2.59%;在邊緣信息度量上取得了次優值,相較于最優值相差3.3%。綜合主客觀評價,本文提出的方法融合效果更佳,具有可靠的融合性能。
注:本文通訊作者為翟麗紅。
參考文獻
[1] 唐超影,浦世亮,葉鵬釗,等.基于卷積神經網絡的低照度可見光與近紅外圖像融合[J].光學學報,2020,40(16):37?45.
[2] MA J Y, MA Y, LI C. Infrared and visible image fusion methods and applications: A survey [J]. Information fusion, 2019, 45: 153?178.
[3] WANG J, SONG K C, BAO Y Q, et al. CGFNet: Cross?guided fusion network for RGB?T salient object detection [J]. IEEE transactions on circuits and systems for video technology, 2022, 32(5): 2949?2961.
[4] LU R T, YANG X G, LI W P, et al. Robust infrared small target detection via multidirectional derivative?based weighted contrast measure [J]. IEEE geoscience and remote sensing letters, 2022, 19: 1?5.
[5] LI C L, XIANG Z Q, TANG J, et al. RGBT tracking via noise?robust cross?modal ranking [J]. IEEE transactions on neural networks and learning systems, 2022, 33(9): 5019?5031.
[6] TANG L F, YUAN J T, MA J Y. Image fusion in the loop of high?level vision tasks: A semantic?aware real?time infrared and visible image fusion network [J]. Information fusion, 2022, 82: 28?42.
[7] 曲海成,胡倩倩,張雪聰.結合信息感知與多尺度特征的紅外與可見光圖像融合[J].紅外技術,2023,45(7):685?695.
[8] CHEN J, LI X J, LUO L B, et al. Infrared and visible image fusion based on target?enhanced multiscale transform decomposition [J]. Information sciences, 2020, 508: 64?78.
[9] LIU X B, MEI W B, DU H Q. Structure tensor and nonsubsampled shearlet transform based algorithm for CT and MRI image fusion [J]. Neurocomputing, 2017, 235: 131?139.
[10] LIU Y P, JIN J, WANG Q, et al. Region level based multi?focus image fusion using quaternion wavelet and normalized cut [J]. Signal processing, 2014, 97: 9?30.
[11] ZHANG Q, MALDAGUE X. An adaptive fusion approach for infrared and visible images based on NSCT and compressed sensing [J]. Infrared physics and technology, 2016, 74: 11?20.
[12] LI H, WU X J, KITTLER J. MDLatLRR: A novel decomposition method for infrared and visible image fusion [J]. IEEE transactions on image processing, 2020, 29: 4733?4746.
[13] LIU Y, CHEN X, WARD R K, et al. Image fusion with convolutional sparse representation [J]. IEEE signal processing letters, 2016, 23(12): 1882?1886.
[14] FU Z Z, WANG X, XU J, et al. Infrared and visible images fusion based on RPCA and NSCT [J]. Infrared physics and technology, 2016, 77: 114?123.
[15] MOU J, GAO W, SONG Z X. Image fusion based on non?negative matrix factorization and infrared feature extraction [C]// 6th International Congress on Image and Signal Processing (CISP). New York: IEEE, 2013: 1046?1050.
[16] MA J Y, CHEN C, LI C, et al. Infrared and visible image fusion via gradient transfer and total variation minimization [J]. Information fusion, 2016, 31: 100?109.
[17] LI H, WU X J. DenseFuse: A fusion approach to infrared and visible images [J]. IEEE transactions on image processing, 2019, 28(5): 2614?2623.
[18] MA J Y, YU W, LIANG P W, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion [J]. Information fusion, 2019, 48: 11?26.
[19] 武圓圓,王志社,王君堯,等.紅外與可見光圖像注意力生成對抗融合方法研究[J].紅外技術,2022,44(2):170?178.
[20] ZHANG Y, LIU Y, SUN P, et al. IFCNN: A general image fusion framework based on convolutional neural network [J]. Information fusion, 2020, 54: 99?118.
基金項目:山西省高等學校科技創新項目(2020L0671);2023年山西省高等學校一般性教學改革創新項目(J20231302)
作者簡介:翟麗紅(1989—),女,山西太原人,在讀博士研究生,講師,研究方向為圖像處理、深度學習等。
羅繼陽(1988—),男,湖北隨州人,碩士研究生,工程師,研究方向為自動控制、深度學習等。