萬劉永程健慶劉義海
(江蘇自動化研究所,江蘇 連云港 222006)
圖像融合是一項增強技術,旨在組合不同類型傳感器獲得的圖像,以生成穩健或信息豐富的圖像,便于進行后續處理和決策。隨著傳感器技術的迅速發展,可獲得的圖像類型也越來越多。在某些復雜的場景中,單一類型圖像分析已經很難滿足現實需要,必須綜合多種圖像信息進行綜合分析。不同類型的圖像,例如可見光、紅外線、X 射線、計算機斷層掃描以及磁共振成像都可以采用適當的算法進行融合。可見光圖像通常具有高分辨率和豐富的紋理特征和細節信息,適合人類的視覺感知。但是,可見光的傳播很容易受到環境條件的制約,而紅外圖像受環境天氣等條件的制約較少,因此,紅外與可見光圖像的融合可以實現信息的有效互補。
傳統的基于多尺度變換的圖像融合方法提取的特征單一,在一些場景多變的條件下難以取得良好的效果,同時因為融合規則往往需要手動設計,運算效率也較低。近年來,卷積神經網絡在圖像處理領域取得了長足的發展,具有強大的特征提取能力,能夠自動從數據中提取特征而無需人工干預。因此,本文使用卷積神經網絡并結合顯著性目標掩圖的方法對圖像融合進行研究。
本文基于卷積神經網絡和顯著目標掩圖相結合的方法,首先從紅外圖像獲得目標顯著性掩圖,從而得到紅外圖像的顯著目標區域和可見光圖像的背景、紋理區域;然后根據得到的掩圖,定義像素值損失函數和梯度損失函數,進而得到整體損失函數;最后根據損失函數對網絡進行訓練,輸出融合結果。
所謂的目標顯著性指的就是紅外圖像中熱輻射較高的區域,在紅外圖像中具有更高的亮度。通常情況下,目標區域的溫度越高,所產生的紅外輻射也就越多,更容易被紅外設備所采集。因此,當人們看一幅紅外圖像的時候,注意力往往集中在熱輻射較高的區域,也就是顯著性區域。典型的顯著性目標有人、車輛、機器設備等。本文采用公開數據集TNO_Image_Fusion_Dataset,使用圖像處理軟件,如Photoshop獲取目標顯著性掩圖mask,然后對可見光圖像、紅外圖像及相應的目標顯著性掩圖統一進行旋轉、鏡像等變換,增強數據集。
損失函數定義為像素值損失和梯度損失的加權和。像素值損失能使融合圖像在像素強度上與源圖像保持一致,而梯度損失函數能夠使得融合圖像保持更多的紋理特征和細節信息。像素值損失采用均方誤差,定義如下:

圖1 紅外圖像、可見光圖像及其顯著性目標掩圖

式中:、分別表示像素矩陣的行數和列數;表示顯著性掩圖。
當像素點位于紅外圖像的顯著性區域,(,)的值取1,反 之取0。(,)、(,)、(,)分別表示融合圖像、紅外圖像和可見光圖像對應點的像素值。
同時定義梯度損失。本文設計了一階梯度損失和二階梯度損失。通常情況下:一階梯度可以反映出圖像灰度梯度的變化情況,如圖像中產生較為粗糙的邊緣;而二階梯度對精細細節(如細線、細小的紋理)有較強的響應,可以提取出圖像的細節,同時雙響應圖像梯度變化情況,能夠指導融合圖像保留更多的源圖像細節信息。梯度損失定義如下:


最終的損失函數定義如下:

式中:和為超參數。
如圖2所示,網絡結構包含2個部分:特征提取網絡和融合網絡。

圖2 卷積神經網絡架構
(1) 特征提取網絡:特征提取網絡由darknet53受到啟發,采取殘差塊與卷積核串聯的方式構建。引入殘差塊可以減輕梯度消失或爆炸的問題。特征提取網絡由紅外和可見光2個通道構成,每個通道都具有相同的結構。
(2) 融合網絡:融合網絡由殘差塊與卷積核串聯而成,特征提取網絡的輸出作為融合網絡的輸入,輸出結果為融合圖像。整個網絡的卷積層都沒有進行下采樣,這樣做的目的是為了使融合圖像與源圖像保持同樣的大小尺寸。整個網絡采用Relu函數作為激活函數。
使用公共數據集TNO_Image_Fusion_Dataset對網絡模型進行訓練,訓練完成后隨機選取3組圖片并采用不同的圖像融合算法對融合結果進行橫向比較,與之比較的算法為離散小波變換(DWT)、非下采樣剪切波變換(NSST)、非下采樣輪廓波變換(NSCT)3種方法。本文從主客觀角度對融合結果進行評價,主觀質量評價主要是通過人眼對實驗結果進行定性的評價,評價結果可能受人的習慣、聚焦的角度等主觀因素的影響而不同。客觀評價往往是采用客觀評價指標來實現,這些客觀評價指標有著嚴格的數學定義。本文采用的客觀評價指標為平均梯度、空間頻率、熵、互信息、交叉熵。以下是關于各評價指標的定義與解釋。
(1) 平均梯度(AG):

式中:▽和▽分別為融合圖像矩陣上的水平梯度算子和垂直梯度算子。
平均梯度反映了融合圖像的細節反差和紋理特征,相鄰像素之間的灰度變化越大,平均梯度就越大,表明融合圖像紋理特征越清晰,細節表達能力越強。
(2) 空間頻率(SF):

式中:和分別表示融合圖像的空間行頻率和空間列頻率,定義如下:

空間頻率表征的是圖像的邊緣化程度,反映融合圖像的整體活躍程度。
(3) 熵(E)

式中:為圖像的灰度級數;P 為灰度值為的頻率值,計算如下:

式中:N 為像素值為的元素個數;為像素總數。
熵表示圖像信息的豐富程度,熵越大,信息越豐富,效果越好。
(4) 互信息(MI)



式中:(,)和(,)分別表示融合圖像與可見光圖像和紅外圖像的聯合概率分布;()、()、()分別表示融合圖像、可見光圖像、紅外圖像的邊緣分布。
互信息是衡量融合圖像從源圖像中獲取信息的多少,互信息值越大,表明融合圖像從源圖像獲取的信息量越多,融合效果越好。
(5) 交叉熵(CE)



式中:P P 、P 分別表示融合圖像、可見光圖像、紅外圖像的灰度概率分布。
交叉熵反映了融合圖像與源圖像對應灰度的分布差異,值越小,表明融合圖像與源圖像越相似。
如圖3所示,第1組圖像是Kaptein_1123紅外與可見光的融合,(a)、(b)分別為紅外與可見光源圖像;(c)為DWT 方法融合的結果,人物較為暗淡,背景模糊,基本喪失紋理等細節信息;(d)圖能夠呈現背景細節信息,但不夠自然;(e)圖也能呈現紋理信息,但色調偏暗,而且引入了噪聲;(f)圖的融合效果最佳,地面和墻面的紋理信息以及樹葉與樹枝等細節信息都較為豐富。

圖3 “Kaptein_1123”紅外和可見光圖像以及融合結果
第2 組圖像是Sandpath,如圖4 所示。圖4(a)、圖4(b)是紅外和可見光圖像;圖4(c)的人物和背景都較為模糊;圖4(d)中的人物得到較好的呈現,但背景信息保留不夠;圖4(e)中的樹枝等背景紋理信息比較豐富,但紅外目標不夠明顯;圖4(f)中人物明亮,背景信息也保存較好,綜合而言融合效果更佳。

圖4 “Sandpath”紅外和可見光圖像以及融合結果
第3組圖像是選自Nato_camp_sequence中的1組圖像,如圖5所示。圖5(c)人物圖像邊緣出現虛影,過渡不自然;圖5(d)背景模糊,人物特征也保留不夠完整;圖5(e)和圖5(f)都保存了背景和紅外目標的特征;但圖5(e)中的人物旁邊存在一定的光暈;圖5(f)更符合人眼的視覺感受。

圖5 “Nato_camp_sequence”紅外和可見光圖像以及融合結果
本文采取平均梯度(AG)、空間頻率(SF)、信息熵(E)、像素互信息(MI)、交叉熵(CE)5個指標來對融合結果進行客觀評價,表1 為融合結果的客觀評價。
由表1可知,本文方法在一定程度上均優于對比方法。對于“Kaptein_1123”融合圖像,平均梯度、空間頻率、信息熵、互信息、交叉熵分別提高了4.32%、2.63%、2.12%、2.39%、2.20%;對 于“Nato_camp_sequence”融合圖像,平均梯度、空間頻率、信息熵、互信息、交叉熵分別提高了4.05%、1.82%、3.55%、5.92%、4.94%;對于“sandpath”融合圖像,平均梯度、空間頻率、信息熵、互信息、交叉熵分別提高了0.36%、4.18%、0.39%、3.17%、1.06%。

表1 融合結果客觀評價指標
本文使用集特征提取與融合于一體的卷積神經網絡對紅外和可見光進行了融合,區別于以往神經網絡只進行特征提取而采用其他方法進行融合。同時引入像素損失、一階梯度損失和二階梯度損失構成損失函數對神經網絡進行訓練。采用顯著性掩圖提取紅外顯著目標并同時獲得更多可見光圖像的背景信息。對實驗結果從主客觀2 個角度進行了評價,評價結果均優于對比方法。