李宏偉
(1. 河北地質大學信息工程學院,河北 石家莊 050030;2. 河北省智能傳感物聯網技術工程研究中心,河北 石家莊 050030)
紅外成像和可見光成像的融合是一個重要且經常出現的問題。最近,許多學者已經提出了融合方法來將紅外和可見光圖像中存在的特征組合成一個圖像[1]。這些最新的方法廣泛應用于許多領域,如圖像預處理、目標識別和圖像分類。
圖像融合的關鍵問題是如何從源圖像中提取顯著特征,并將其組合生成融合圖像。幾十年來,許多信號處理方法被應用于圖像融合領域來提取圖像特征,如離散小波變換[2]、四元數小波變換[3]等。對于紅外和可見光圖像融合任務,Bavirisetti等人[4]提出了一種基于兩個尺度分解和顯著性檢測的融合方法,其中通過均值和中值濾波提取基層和細節層。然后利用視覺顯著性獲得權重圖。最后,通過這三部分結合得到融合圖像。
除了上述方法之外,稀疏表示(SR)和低秩表示的作用也引起了極大的關注。宗等[5]提出了一種基于隨機共振的醫學圖像融合方法,該方法利用方向梯度直方圖(HOG)特征對圖像塊進行分類,并學習多個子字典[6]。采用l1范數和最大選擇策略重構融合圖像。
隨著深度學習的興起,源圖像的深度特征也用來重構融合圖像。Yu Liu等人[7]提出了一種基于卷積神經網絡(CNN)的融合方法。他們使用包含輸入圖像的不同模糊的圖像塊來訓練網絡,并使用它來獲得決策權重。最后,利用決策權重和源圖像得到融合圖像。雖然基于深度學習的方法取得了較好的性能,但這些方法仍然有很多缺點:1)文獻[7]中的方法只適用于多焦圖像融合;2)這些方法只使用最后幾層計算的結果,中間幾層得到的大量有用信息都會丟失。當網絡越深時,信息損失越大[8]。
本文提出了一種基于深度學習框架的紅外與可見光圖像融合方法。結構如下:第一節介紹了基于深度學習框架的圖像樣式轉換。第二節介紹了提出的基于深度學習的圖像融合方法。第三節是實驗結果。最后,第四節得出結論。
眾所周知,深度學習在許多圖像處理任務中取得了最先進的性能,例如圖像分類。此外,深度學習也是提取圖像特征的有用工具,圖像特征每一層都包含不同的信息。深度學習的不同應用在過去兩年里受到了很多關注。因此,深度學習也可以應用于圖像融合任務。在CVPR 2016年,加蒂斯等人[9]提出了一種基于 CNN的圖像風格轉換方法。他們使用VGG網絡[10]分別從“內容”圖像、“風格”圖像和生成的圖像中提取不同層的深層特征。通過迭代來最小化從生成的圖像和源圖像中提取的深度特征的差異。生成的圖像將包含來自“內容”圖像的主要對象和來自“樣式”圖像的紋理特征。雖然這種方法可以獲得良好的風格化圖像,但即使使用圖形處理器,其速度也非常慢。由于這些缺點,在ECCV 2016年,賈斯廷、約翰遜等人[11]提出了一個前饋網絡來實時解決文獻[10]中提出的優化問題。但是在這種方法中,每個網絡都綁定到一個固定的樣式。為了解決這個問題,在ICCV 2017年,黃浚等人[12]使用VGGnetwork和自適應實例規范化來構建一個新的風格轉換框架。在這個框架中,風格化的圖像可以是任意風格的,并且該方法比文獻[9]快近三個數量級。這些方法有一個共同點。它們都使用多層網絡特性作為約束條件。受其啟發,在本文的融合方法中,多層深層特征是通過一個神經網絡提取的。我們使用在 ImageNet上訓練的VGG-19[10]來提取特征。本文融合方法的細節將在下一節介紹。
下面將介紹基礎部分和細節部分的融合處理。
假設有K個預處理源圖像,在本文中,選擇K=2,但是對于K>2,融合策略是相同的。源圖像將表示為Ik,k∈{1,2}。首先將待融合的紅外圖像利用中值濾波進行預處理。然后對圖像進行分解,與小波分解和潛在低秩分解等其他圖像分解方法相比,優化方法[13]更有效,并且可以節省時間。因此,在本文中,使用這種方法來分解源圖像。對于每個源圖像Ik,獲得的基礎部分和細節部分由[13]分隔。基礎部分通過解決以下優化問題獲得:
其中gx=[-1 1]和gy=[-1 1]T分別是水平和垂直梯度算子。本文中,參數λ被設置為5。在獲得基礎部分之后,通過公式(2)獲得細節部分,
本文的融合方法框架如圖1所示。
圖1 本文方法框架Fig.1 the method framework of this paper
源圖像表示為I1和I2。首先,通過求解方程得到每個源圖像的基礎部分和細節部分,I1和I2,其中k∈{1,2}。然后通過加權平均策略融合基礎部分,通過深度學習框架重構細節部分。最后,將通過基礎部分Fb和細節部分Fd來重構融合圖像F。
從源圖像中提取的基礎部分包含共同特征和冗余信息。在本文中,選擇加權平均策略來融合這些基礎部分。融合的基礎部分由公式(3)計算。
其中(x,y)表示圖像強度在中的對應位置。1α和α2分別表示中像素的權重值。為了保留共同特征和減少冗余信息,本文選α1=0.5和α2 =0 .5。
圖2 細節部分融合過程Fig.2 detail part fusion process
在圖2中,使用VGG-19提取細節部分的深層特征。然后通過多層融合策略得到兩個細節部分的權重圖。最后,通過權重圖和細節部分重構得到融合后的細節部分。
接下來,詳細介紹多層融合策略。
其中每個Φi(·)表示 VGG網絡中的一層,而i∈ { 1,2,3,4}分別表示 relu_1_2、relu_2_2、relu_3_2和relu_4_2。
圖3 細節部分的融合策略流程Fig.3 integration strategy process of details
受[12]的啟發,的l范數可以作為源1細節部分的特征度量。因此,初始特征圖由下式獲得。
其中塊的大小取決于r的值。r值越大,融合方法對配準錯誤的魯棒性越強,但大概率會失去一些細節。所以,在本方法中r取1。
其中K表示特征圖的數量,在本文中設置為K= 2 。表示[0,1]范圍內的初始權重映射值。
眾所周知,VGG網絡中的匯集算子是一種子抽樣方法。每次該運算符將要素映射的大小調整為原始大小的1/s倍,其中s是池化的步長。在VGG網絡中,池化的步長是2。因此,在不同的圖層中,特征圖的大小是詳細內容大小的 1 /2i-1倍,其中i∈ { 1,2,3,4}分別表示 relu_1_2、relu_2_2、relu_3_2和relu_4_2的圖層。在得到每個初始權重圖之后,使用一個上采樣將權重圖的大小調整到輸入細節部分的大小。最終的權重圖由公式(8)計算。
最后,通過公式(10)獲得融合細節部分Fd,從每個位置的四個初始融合細節部分中選擇最大值。
獲得融合的細節部分Fd后,使用融合的基礎部分Fb和融合的細節部分Fd來重構最終的融合圖像,如公式(11)所示。
在本節中,將提出的基于深度學習的融合方法總結如下:
(1)圖像去噪:通過中值濾波去除紅外圖像的噪聲。
(2)圖像分解:通過圖像分解操作[13]對源圖像進行分解,以獲得基礎部分和細節部分,其中k∈{1,2}。
(3)基礎部分的融合:選擇加權平均融合策略來融合基礎部分,每個基礎部分的權重值為0.5。
(4)細節部分融合:通過多層融合策略獲得融合后的細節部分。
(5)重構:最后,由公式(11)給出融合圖像。
實驗將本文方法與現有方法進行比較。然后使用主客觀標準驗證本文方法的效果。
在實驗中,有18對源紅外和可見光圖像。所有融合算法均在3.4 GHz Intel(R) Core(TM) CPU上的MATLAB R2020a中實現。
在多層融合策略中,從預先訓練的 VGG-19網絡[12]中選擇幾層來提取深層特征。這些層分別是relu_1_2、relu_2_2、relu_3_2和relu_4_2。
為了與本文方法比較,選擇了幾種最近的和經典的融合方法來進行相同的實驗,包括:交叉雙邊濾波融合方法(CBF)[14]、聯合稀疏表示模型(JSR)、具有顯著性檢測的 JSR模型融合方法(JSRSD)[15]、基于加權最小二乘優化的方法(WLS)[7]和卷積稀疏表示模型(ConSR)。
圖4表示出了由五種現有方法和本文方法獲得的融合圖像。由于篇幅限制,僅在一對圖像上評估融合方法的相對性能。
圖4 融合圖像結果Fig.4 fusion image results
正如從圖 4(8)中看到的,通過本文方法獲得的融合圖像中保留了更多的細節信息,并且包含更少的人為噪聲。由CBF、JSRSD、WLS和ConvSR得到的融合圖像含有較多的人工噪聲,顯著特征不明顯,圖像細節模糊。相比之下,JSR和本文的融合方法包含更多顯著特征,并且保留了更多的細節信息。與現有的五種融合方法相比,本文方法得到的融合圖像看起來更加自然。
為了定量比較本文方法和現有的融合方法,使用了四個質量指標。它們是:分別為離散余弦(FMI)和小波特征的互信息(FMI);N[16]dctwabf表示通過融合過程添加到融合圖像的噪聲或偽影的比率;和改進的結構相似性(SSIMa)。在本文中,通過公式(12)計算SSIMa。
其中SSIM(·)表示結構相似性運算,F是融合圖像,I1,I2是源圖像。SSIMa值用來評估圖片保存結構信息的能力。
方法的性能隨著FMIdct、FMIw和SSIMa數值的增加而提高。相反,當Nabf值較小時,融合性能較好,這意味著融合圖像包含的人工信息和噪聲較少。用現有方法和本文方法得到的18幅融合圖像的Nabf均值如表1所示。
在表1中,FMIdct、FMIw、SSIMa和Nabf的最佳值以粗體顯示。如表所示,本文方法具有這些指標的所有最佳平均值。這些值表明,通過本文方法獲得的融合圖像更加自然,并且包含較少的人工噪聲。從客觀評價來看,本文的融合方法比現有方法具有更好的融合性能。更進一步的,圖5中給出了通過這些方法產生的18對圖像的所有Nabf值的折線圖。
圖5 18幅圖像的所有Nabf值Fig.5 All Nabf values of 18 images
從表1可以看出,本文方法測得的Nabf值比CBF、JSR和 JSRSD大約低兩個數量級。與ConvSR相比,該方法的Nabf值也非常小。這表明該方法得到的融合圖像包含較少的人工信息和噪聲。
本文提出了一種簡單有效的基于深度學習框架(VGG網絡)的紅外與可見光圖像融合方法。首先,將紅外圖像運用中值濾波去除噪聲。然后將源圖像分解為基礎部分和細節部分。前者包含低頻信息,后者包含紋理信息。這些基礎部分通過加權平均策略進行融合。針對細節部分,提出了一種基于預訓練的VGG-19網絡的多層融合策略。細節部分的深層特征由VGG-19網絡獲得。運用l1范數和塊平均算子獲得初始權重圖。最終的權重圖由Soft-Max算子獲得。由每對權重圖和輸入細節部分生成初始融合細節部分。融合的細節部分通過這些初始融合的細節部分的最大選擇算子來重構。最后,通過融合后的基礎部分和細節部分來重構融合圖像。然后使用主觀和客觀的方法來評估本文方法。實驗結果表明,該方法具有較好的融合性能。