王繼霄,李 陽,王家寶,苗 壯,張洋碩
(陸軍工程大學指揮控制工程學院,南京210007)
(*通信作者電子郵箱emiao_beyond@163.com)
復雜場景下計算機視覺任務對于計算機而言十分困難,往往需要利用多種信息才能實現。隨著傳感技術的飛速發展,綜合利用多源信息成為了可能。但多種傳感器的部署,同時也帶來了信息的冗余與分析困難。隨著深度學習技術的興起,從2016 年開始,基于深度學習特別是卷積神經網絡的圖像融合方法開始出現。例如VGG_ML 方法[1]、ConvSR 方法[2]、DeepFuse 方法[3]和ResNet50 方法[4]在紅外與可見光圖像融合上都取得了較好的效果。但在實際應用中,由于圖像融合需要在前端邊緣設備上進行實時計算,傳統的深度模型很難達到邊緣設備計算資源有限的要求。例如,經典的ResNet50 網絡包含2 556 萬參數,需要占用98 MB 內存,計算一個圖像前傳過程需要完成28 億次高精度計算,這對于資源有限的前端設備來說負載過重。因此,如何高效地在嵌入式設備上進行實時圖像融合成為研究的重大挑戰。
最近,在目標檢測和目標識別等領域,越來越多的研究人員開始關注輕量級卷積神經網絡在移動設備上的應用。例如:MobileNetV1[5]和MobileNetV2[6]采用深度可分卷積來構建輕量級深度神經網絡;ShuffleNet[7]采用分組卷積和深度可分卷積來構建輕量級神經網絡;SqueezeNet[8]開創性地提出了Fire 模塊來壓縮模型參數,減少了網絡的深度,降低了模型的大小。這些網絡在移動和嵌入式設備上,可高效完成目標檢測和目標識別任務。然而,在紅外與可見光圖像融合領域,仍缺少輕量級深度神經網絡支持移動和嵌入式設備上的圖像融合任務。
因此,本文提出一種基于SqueezeNet 的輕量級圖像融合方法。該方法通過遷移SqueezeNet網絡的部分模型參數構建輕量級圖像融合模型,實現了模型的精簡、壓縮和輕量化,可有效降低當前深度融合模型的大小。同時,本文的輕量級圖像融合模型可以高效地提取紅外與可見光圖像特征,進而獲得高質量的融合結果。本文在公開融合圖像數據集上進行實驗,并和其他10 種方法進行對比,實驗結果表明本文方法可以有效提高圖像融合的質量和效率。
紅外與可見光圖像融合技術在軍事偵察、遙感探測、安全導航、醫學圖像分析、反恐檢查、環境保護、交通監測、清晰圖像重建、災情檢測與預報等領域都有著重大的應用價值。經過多年的發展,傳統的圖像融合方法主要有:基于交叉雙邊濾波器(Cross Bilateral Filter,CBF)的方法[9]、基于離散余弦諧小波變換(Discrete Cosine Harmonic Wavelet Transform,DCHWT)[10]的方法、基于聯合稀疏表示(Joint Sparse Representation,JSR)的方法[11]、基于顯著性檢測的聯合稀疏表示(JSR with Saliency Detection,JSRSD)的方法[12]、加權最小平方法(Weighted Least Square,WLS)方法[13]以及最小梯度下降法(Gradient TransFer and total variation minimization,GTF)[14]等。這些融合方法只能針對特定的圖像類型進行融合,同時融合策略為人工設定,缺乏一定的泛化能力,融合的效果欠佳。
隨著深度學習技術的興起,尤其是深度卷積神經網絡的廣泛運用,基于深度學習的卷積神經網絡在計算機視覺任務中發揮出強大的作用。在圖像融合方面,研究人員開始利用卷積神經網絡進行圖像融合。
在文獻[15]中,Liu 等利用深度卷積神經網絡(Convolutional Neural Network,CNN)針對不同焦距的輸入圖像構建融合權重圖,進而實現圖像融合。這種方法在多焦距圖像融合上獲得了較好的效果,但并不適用于其他類型圖像的融合。Li等[1]利用VGG-ML方法強大的圖像特征提取能力,將紅外與可見光圖像分別拆分為基礎部分(base parts)和細節內容(detail content)。針對基礎部分,采用加權平均的方式對兩類圖像的基礎部分進行融合;針對細節內容,通過該網絡的多個卷積層提取深度特征,然后將提取的深度特征采用softmax 的方式融合在一起。最后,將融合后的基礎部分和細節內容進行重構。VGG-ML方法在圖像融合任務上表現出了較好的性能,但VGG-ML方法的弊端也比較明顯[15]:該網絡結構過深且包含3 個全連接層,融合過程中需要消耗過多的計算資源。因此VGG-ML方法并不適合部署在移動和嵌入式設備上。
此后,Li等[4]又提出使用ResNet50網絡進行圖像融合,在融合過程中該方法將ResNet50網絡某幾層輸出的特征圖按照設定的策略進行加權組合,用來保留更多的圖像細節信息,并獲得了較好的融合效果。ResNet50模型比VGG-ML模型小了近10倍,但是模型過大的問題仍然沒有得到根本性的解決。
由此可見,以上的這些深度學習方法雖然在圖像融合上都取得了較好的效果,但是模型結構大、參數多、耗時長的問題并沒有解決,無法直接部署到前端移動和嵌入式設備上進行圖像融合。
在目標檢測領域,移動端部署的輕量級深度模型已經開始應用。這些網絡主要采取了可分離卷積和分組卷積等策略進行模型壓縮,取得了較好的應用效果。其中,Iandola 等[8]提出SqueezeNet[8]網絡首次引入了Fire[8]模塊,減少了卷積神經網的參數量,實現了卷積神經網絡的輕量化。Fire 模塊的作用是先對特征圖進行維度壓縮,然后對這些特征圖做多尺度學習并進行拼接。Fire 模塊這種結構可大量壓縮模型參數,同時保持模型的魯棒性。因此,在檢測精度相近的情況下,SqueezeNet 模型的參數量比AlexNet[16]模型縮小了近50倍,且模型小于0.5 MB。SqueezeNet 網絡精度高、體積小的特性在圖像處理方面備受關注。受此啟發,本文基于SqueezeNet 設計了一種紅外與可見光圖像融合方法,該方法首先通過Fire模塊提取兩類圖像特征,然后求解提取特征的l1范數獲得融合的權重圖,最后按照設定的融合策略進行加權融合,進而獲得高質量的融合結果。
SqueezeNet輕量級卷積神經網絡由Berkeley和Stanford的研究人員提出,其主要設計理念是通過減少卷積神經網絡結構參數,來降低模型的大小。SqueezeNet 中的Fire 模塊主要分為兩個部分:squeeze層和expand層(各自連接一個ReLU 激活層)。squeeze 層中的卷積核全都是1×1 的卷積核,數量為S1,expand 層中包含E1 個1×1 的卷積核和E2 個3×3 的卷積核,并且滿足S1<E1+E2,如圖1所示。

圖1 SqueezeNet中Fire模塊的示意圖Fig. 1 Schematic diagram of Fire module in SqueezeNet
SqueezeNet 模型共包含8 個Fire 模塊,中間插入了3 個max pooling 層,最后一層為average pooling 層,這樣的設計大大減少了參數的數量。除了Fire 模塊以外,SqueezeNet 在開始輸入和結束輸出時各加入了一個卷積層,如圖2所示。

圖2 SqueezeNet網絡的結構Fig. 2 Network architecture of SqueezeNet
本章主要介紹運用卷積神經網絡SqueezeNet 進行紅外與可見光圖像融合的過程,如圖3所示。
在圖3 中,紅外和可見光圖像分別輸入到SqueezeNet 網絡中,經過提取特征、融合策略和加權融合3 個步驟進行圖像融合。

圖3 圖像融合的具體過程Fig. 3 Process of images fusion in detail
首先將需要融合的成對紅外圖像Source1(x,y)和可見光圖像Source2(x,y)輸入到SqueezeNet 的前半部分網絡中。紅外和可見光圖像輸入的網絡參數和結構相同,它包含1 個卷積層conv1、1個max pooling 層和2個Fire模塊。Fire模塊用于提取的圖像特征,本文選取fire3-relu_squeeze1×1層輸出的特征圖作為融合圖像特征。設F1∈(K×W×H)和F2∈(K×W×H)分別表示該網絡提取的紅外和可見光圖像特征圖,其中W×H表示特征圖的寬度和長度,K表示特征圖的通道數。
得到特征圖F1∈(K×W×H)和F2∈(K×W×H)之后,在通道維運用l1-norm 正則化方法[17]求解特征范數,分別獲得紅外與可見光圖像的權值圖和。和的求解方式如式(1):

其中:K表示特征圖的通道數,t表示滑動窗口的大小,p表示滑動窗口的長度,q表示滑動窗口的寬。
通過式(1)的計算,厚度為K的特征圖被壓縮成二維矩陣。通過這樣的方式,實現了特征圖的降維。
最后用softmax 的方式(如式(2))得出紅外和可見光圖在融合時的權值圖,由于權值圖的大小與原始圖像尺度不同,采用雙線性插值方法將權重圖調整到原始圖像大小。具體流程如圖4所示。


圖4 獲得權重圖的過程Fig. 4 Process of obtaining weight map

其中:Sourcek(x,y)表示源圖像(紅外和可見光圖均為灰度圖像),Fused(x,y)表示融合結果圖像。
為了對各種融合方法進行有效的評估和對比,本文利用文獻[18]中使用的21 對圖像數據集進行實驗。該數據集作為評價各種融合方法的經典數據集,得到了廣泛使用。圖5給出了21對圖像中的4對圖像示例。

圖5 圖像融合數據集中的4對源圖像Fig. 5 Four pairs of source images in image fusion dataset
本文使用的評價融合圖像質量的指標為:FMIpixel[19]、Nabf[10]和SSIMa[1]。FMIpixel表示像素級特征互信息,用于表征從原圖像傳輸到融合圖像的特征信息量,FMIpixel越高,融合圖像質量越好;Nabf表示通過融合過程添加到融合結果中噪聲和人工干擾的數量,該指標越低,融合結果越好;SSIMa表示結構相似度指標,該指標越高,說明融合圖像的結果與源圖像結構越相近。
本文進行實驗的硬件環境:CPU為Intel Core i5-7200U、內存為8 GB。軟件環境:計算機操作系統為Windows 10 pro、模型運行平臺為Matlab 2018b。
本文所使用的SqueezeNet 網絡模型為預訓練的模型,在進行紅外與可見光圖像融合時,通過調用Matlab 2018b 版本中自帶的deep learning 工具箱模型SqueezeNet 網絡,將紅外和可見光圖像輸入到網絡中,選取Fire3 模塊的fire3-relu_squeeze1×1層輸出作為紅外和可見光圖像的特征圖,進行加權融合。
SqueezeNet 網絡包含了8 個Fire 模塊以及部分卷積層和池化層。但在圖像融合過程中,只需要其中某一層的輸出作為選取的特征層。因此選擇合適的輸出層作為提取特征的輸出至關重要。將Fire2 到Fire9 這8 個輸出層的每個輸出特征圖分別進行圖像融合,得到了表1 中不同層21 對圖像的平均融合結果。
在表1 中,可以看到Fire2 作為輸出層的特征輸出所得到的融合圖像效果最好(將最好的數值進行了加粗)。因此在下面的實驗中選擇Fire2作為特征輸出層。

表1 不同層輸出的融合質量對比Tab. 1 Fusion quality comparison of different layer outputs
在21 張紅外和可見光圖像數據集上,將本文方法與近期10 種圖像融合方法:DCHWT[10]、CBF[9]、JSR[11]、JSRSD[12]、GTF[14] 、WLS[13] 、ConvSR[2] 、VggML[1] 、DeepFuse[20] 和ResNet50[4]進行對比實驗并評估融合性能。對比的10種融合方法中,DCHWT[10]、CBF[9]、JSR[11]、JSRSD[12]、GTF[14]、WLS[13]是 傳 統 圖 像 融 合 方 法;ConvSR[2]、VggML[1]、DeepFuse[20]、ResNet50[4]是基于深度學習的方法。
表2 中各數值均是每種方法采用21 對圖融合后的平均值,將圖像融合質量指標排名第一的數值用黑體突出,排名第二的數值用下劃線突出。從表2可以看出,SqueezeNet方法的融合效果比較良好,在11種方法中Nabf和SSIMa兩個指標均排名第一,FMIpixel指標雖然排名第三,但與第一、二差距較小。在所有深度學習的方法中:本文方法FMIpixel指標僅比第一名的ConvSR 和第二名的VggML 分別低0.007 98 和0.001 77;Nabf指標(指標越低越好)比第二名的ResNet50 方法提升0.000 16;SSIMa比ResNet50方法高0.000 24。
在圖像融合過程中,除了要考慮圖像融合的質量,還要考慮融合效率。本文在表3中對比ResNet50方法和本文方法的融合效率。

表2 不同方法下的融合質量對比Tab. 2 Fusion quality comparison of different fusion methods

表3 ResNet50和SqueezeNet性能參數比較Tab. 3 Comparison of performance parameters between ResNet50 and SqueezeNet
如表3 所示,本文方法網絡的參數量是ResNet50 網絡的1/21,模式大小是ResNet50 的1/204,運行速度加快了約4 倍。由此可以看出,本文方法較ResNet50 方法在融合效率上有較大的提升,在融合效果近似的情況下實現了高效的圖像融合。SqueezeNet 網絡在參數量設置、模型尺寸、運行時間都具備了輕量級的神經網絡的特性,運行時間滿足移動和嵌入式設備上的基礎要求。
如圖6(c)~(h)所示,可以看到本文所用的方法(m)將紅外與可見光圖像融合后得到的圖像在紅框的位置人工噪聲較少且展示出了更多的細節內容,例如目標的紋理。

圖6 不同圖像融合方法的融合結果Fig. 6 Fusion results of different image fusion methods
從圖6 中可以直觀地看到,CBF 方法獲得的圖像中很多的人工噪聲而且顯著特征也不清晰;JSR、JSRSD 和WLS 方法獲得的圖像的顯著特征位置包含了許多人工噪聲,并且其細節信息也不清晰;運用神經網絡融合架構的ConvSR、VGGML、DeepFuse 以及SqueezeNet 方法獲得的圖像在顯著特征的數量比較多,并且圖像信息的細節上要更加清晰完整。
從圖6 中傳統方法融合所得到的圖像不清晰且噪點較多,可以分析出,這主要是因為這些方法提取的特征的理論所致。傳統方法主要是基于域變換的方式將圖像矩陣轉化為另一個子空間的方式進行,這樣的方式更多地關注圖像的細節信息,而缺乏語義信息的提取。而神經網絡的方法在細節信息和語義信息方法都進行了較好的兼顧,因此可以看到基于神經網絡的融合方法其融合效果更好。
圖像特征的提取和融合策略的設計是紅外與可見圖像融合的關鍵所在,現有的深度卷積特征提取網絡參數較多、結構較深、計算耗時,不適用于移動和嵌入式設備。本文提出采用基于輕量級SqueezeNet 的圖像融合方法,運用SqueezeNet 作為圖像特征提取的網絡,改善現有網絡的不足。實驗表明,本文方法不僅能夠壓縮網絡規模,同時在取得與其他融合方法相近的融合效果下,提高了融合的速度和效率,能夠較好地適應移動和嵌入式設備。
但是,融合策略的設計仍是圖像融合領域富有挑戰的任務,需要針對不同類型網絡和圖像進行具體分析,它對融合質量的提升具有重要的意義,需要進一步研究。