劉锃亮,張 宇,呂恒毅
(1.中國科學院長春光學精密機械與物理研究所,吉林 長春 130033;2.中國科學院大學 光電學院,北京 100039)
圖像融合屬于圖像增強技術,目的是為了將不同的圖像融合在一起生成信息豐富的圖像,從而方便進行進一步處理。為了滿足人們生產生活中在各種復雜環境下的需要,多源圖像的融合引起了廣泛的重視。紅外圖像可基于輻射差異將目標與背景區分開來,同時可見光圖像可提供符合人類視覺感知的具有高空間分辨率和清晰度的紋理細節[1]。為了取得令人滿意的融合效果,關鍵是有效的圖像信息提取和合適的融合原則。
圖像融合算法目前已經發展多種不同的方案,包括多尺度變換[2]、稀疏表示[3]、神經網絡[4]、子空間[5]、混合模型[6]和其他方法[7]。現有方法通常在融合過程中對不同的源圖像使用相同的變換或表示,然而它不適用于紅外和可見光圖像,因為紅外圖像中的熱輻射和可見光圖像中的細節紋理是2種不同現象的表現。此外,大多數現有方法中的圖像信息提取和融合規則都是手工設計的,并且變得越來越復雜,受實現難度和計算成本的限制[8]。
受最近兩年在CVPR會議上香港科技大學李鐸、陳啟峰團隊[9]提出的一種多尺度卷PSConv和天津大學王啟龍團隊[10]改進的輕量級注意力模塊ECA-Net的啟發,在融合生成對抗網絡FusionGAN[11]的基礎上,在其殘差網絡中引入了PSConv,以提升特征提取的細粒度與深度,再經過ECA網絡增強對有用信息的收集,從而使最終融合后的圖像具有更豐富的細節特征和紋理信息。
FusionGAN的原理是將紅外與可見光融合的過程公式化成一個對抗的過程,其結構包括生成器G(Generate)和辨別器D(Discriminator),訓練過程與測試過程如圖1和圖2所示。訓練時,首先將紅外圖像Ir與可見圖像Iv疊加在一起傳送給生成器G,融合后的圖像既包含了紅外的熱輻射信息,又保留可見光圖像的梯度信息;再將生成融合后的圖像If與可視圖像Iv一同發送給辨別器D,讓其區分二者;最后將辨別的結果形成一個反饋,輸送回生成器G,形成一個對抗的反饋網絡。經過大量的訓練之后,當辨別器無法辨別Ir與Iv時,說明生成的融合圖像已經達到了好的效果,訓練完成。再進行測試時,只需要用到已經訓練好的生成器G即可。

圖1 訓練過程

圖2 測試過程
FusionGAN的損失函數主要包括生成器G的損失函數與辨別器D的損失函數兩部分。
1.2.1 生成器損失函數
生成器損失函數為:
(1)
其主要由2個部分組成,VFusionGAN(G)代表生成器與辨別器之間的對抗損耗,即:
(2)

(3)
式中,‖·‖F為矩陣范數;H和W為輸入圖像的高度和寬度;為梯度算子;為保留紅外圖像的熱輻射信息;為保留可見光圖像的梯度信息;ξ為控制2項之間權衡的參數。
1.2.2 辨別器損失函數
辨別器基于可見圖像中提取的特征來區分融合圖像和可見圖像,使用最小二乘作為損失函數使訓練過程更加穩定,損失函數收斂速度更加迅速:
(4)
式中,a和b為融合后圖像和可見圖像的標簽;D(Iv)與D(If)為可見圖像和融合圖像的分類結果。
雖然FusionGAN算法能很好地平衡紅外與可見圖像中的有效信息,與其他方法相比圖像融合的質量更高,但是在細節紋理和深度特征提取上還不夠,因此新增加了一個即插即用卷積PSConv與一個超輕量級的注意力模塊ECA Module。改進后的算法網絡結構如圖3所示。輸入的紅外圖像與可見圖像分別經過各自的3層卷積和1層殘差網絡后,在第2層殘差塊中引入上述2個模塊,加深了網絡的深度,有利于深度特征的提取,最后再經過3次反卷積生成最后融合的圖像。雖然增加了2個模塊,但是由于都是輕量級網絡,使整個模型增加的運算量不大,接下來將分別介紹這2個模塊。

圖3 改進后的算法結構
1.3.1 PSConv


圖4 PSConv示意
(5)
擴張卷積則可描述為:
(6)
而PSConv則可描述為:
(7)
從上述卷積計算公式可以看出,PSConv將多尺度卷積歸入同一個計算過程中,且不同尺度卷積計算按通道交替執行,是一種更細粒度的多尺度操作。
1.3.2 ECA-Net


圖5 SE與ECA結構對比
(8)
式中,|t|odd表示離t最近的奇數;γ和b在本文中取2和1;K取5。相比之下,ECA-Net結構更加輕量化增加可以忽略不計的參數量的同時,帶來性能明顯的提升。
為了增強實驗結果的準確性與可靠性,選用公開并且校準好的紅外與可見光數據集TNO與INO。其中TNO數據集包含軍事場景和其他一些不同場景下的近紅外和長波紅外或熱紅外夜間圖像與可見光圖像,適用于復雜場景下的圖像融合算法研究。INO數據集來自加拿大國家光學研究所,包含了許多在不同天氣條件下拍攝的不同的城市道路街景。
選取來自TNO和INO數據集中的1 200張紅外圖像與可見光圖像作為訓練集,為了驗證算法的性能,再從TNO數據集中單獨挑選出20對可見與紅外圖像作為測試集。訓練集融合的結果如圖6所示,模型訓練好之后測試集融合的結果如圖7所示。

圖6 訓練集結果

圖7 測試集結果
本實驗將幾種目前比較常用的先進的圖像融合方法與本文的方法進行比較,其中包括曲波變換(CVT)[14]、雙樹復小波變換(DTCWT)[15]、加權最小二乘優化法(WLS)[16]和原融合生成對抗網絡FusionGAN等圖像融合方法,并且采用主觀評價與客觀評價相結合的方法,使實驗結果更具有真實性和可靠性。
2.3.1 主觀評價
選取了5對紅外與可見圖像的融合結果作為主觀評價指標,上述不同的融合方法對來自TNO數據集中5對圖像的融合結果如圖8所示。為了體現改進的算法與FusionGAN的不同,在圖8(f)和(g)中加入了一些方框用于細節的比較,并且將其放大,放在原圖的右下角。通過融合后的結果可以看出,上述方法均能對紅外圖像與可見圖像進行成功融合,融合后的圖像均能包含紅外與可見圖像的特征信息。雖然CVT和DTCWT方法融合的結果含有足夠的細節特征,但紅外的目標不夠顯著。而與CVT和DTCWT方法相比,WLS方法具有更強的目標追蹤性,但在背景部分損失了較多的紅外信息。FusionGAN方法在目標追蹤和細節紋理特征保留之間取得了較好的實現,但是背景信息中的細節特征仍不夠豐富。與上述方法相比,本文采用的方法既保留了紅外目標的顯著性,又在背景中包含了足夠的細節紋理與邊緣信息。

(a)源紅外圖像
2.3.2 客觀評價
為了增強實驗的準確性與客觀性,采用多種評價指標進行定量分析。選取熵(EN)[17]、平均梯度(AG)[18]、空間頻率(SF)[19]和結構相似指數(SSIM)[20]這4種常用評價指標。EN主要是度量圖像包含信息量多少的一個客觀量,熵值越大,表明融合圖像中的信息越豐富,而噪聲也會對EN的結果造成影響,一般不單獨使用。AG度量融合圖像中包含的梯度信息,反映了細節和紋理,AG值越大,表明融合圖像中所含梯度信息越多。SF可以有效衡量圖像的梯度分布,SF越大,融合的圖像具有更豐富的邊緣信息和紋理特征。SSIM是用于模擬圖像畸變和失真的一種評價方法,SSIM越大,說明融合算法的效果越好,失真與畸變越小。4種指標下不同方法的平均性能如表1所示,20對圖像的數據結果用Matlab繪制成折線圖,如圖9~圖12所示。從表和圖中可以看出,在上述4種評價指標下,5種方法在客觀的定量分析上有差距,本文所用的方法在AG,SF,SSIM這3種指標上取得了不錯的效果。結果表明,本文方法的試驗結果中包含了更多的細節紋理與梯度信息,得到的融合圖像與源圖像之間的畸變小于CVT,DTCWT和WLS,FusionGAN雖然能包含更多的信息熵,但在空間頻率信息與結構相似性上遠不如改進后的方法。

表1 5種算法在指標下的平均性能

圖9 EN指標下對TNO數據集中20對圖像對的試驗結果

圖10 AG指標下對TNO數據集中20對圖像對的試驗結果

圖11 SF指標下對TNO數據集中20對圖像對的試驗結果

圖12 SSIM指標下對TNO 數據集中 20對圖像對的試驗結果
針對可見光與紅外圖像融合中所存在的問題,提出了一種改進的FusionGAN方法。分析了FusionGAN的原理和2個引入模塊PSConv與ECA-Net的架構。PSConv對圖像細節處理更好,ECA-Net能更好地提取圖像中的有用信息,使用了數據集驗證了新算法的可行性與效果,加入的模塊使改進后的算法與原算法相比在AG上提升了6.2%,在SF上提升了14.4%,在SSIM上提升了18.6%。本文引入注意力機制模塊與插入式卷積,為圖像融合算法的改進與提高提供了新的思路,更適用于復雜場景下的紅外與可見圖像融合,為今后繼續研究深度神經網絡用于圖像融合打下了基礎。