楊 勇,劉家祥,黃淑英,張迎梅,吳嘉驊,李露奕
1(江西財經大學 信息管理學院,南昌 330032)2(江西財經大學 軟件與通信工程學院,南昌 330032)
紅外圖像的目標輪廓清晰,熱度信息豐富,但是存在視覺性不強、清晰度不高、細節信息少等缺點.可見光圖像的對比度和分辨率都比較高,具有光譜信息豐富、細節信息多、視覺性好等優點,但是可見光圖像抗干擾能力差.紅外與可見光圖像融合是將不同類型的傳感器獲得的紅外圖像與可見光圖像進行融合,提取源圖像中的顯著特征,然后將這些特征通過適當的融合方法使其集成到單個圖像中.融合算法廣泛應用于許多應用中,如公共安全和軍事應用等領域.
近些年來,圖像融合領域得到廣泛的關注.在變換域,有多尺度變換[1],基于顯著性的方法[2]、稀疏表示[3,4]和定向梯度直方圖[5]融合方法.在空間域,有基于引導濾波[6]和基于稠密尺度不變特征變換[7]的方法,這些方法大多數要經過復雜的圖像像素點活躍度系數的測量以及復雜融合規則的制定,其實施難度與計算成本較高.
深度學習能夠讓計算機自動學習模式特征,并將特征學習融入到建立模型的過程中.目前,許多融合方法都以此為基礎來進行研究.劉等人[8]提出了一種基于卷積神經網絡(Convolutional Neural Network,CNN)的方法,CNN能夠有效提取源圖像的特征,但是其方法計算復雜度高,時間較長,并且忽略了許多在中間層獲得的有用信息.馬等人[9]提出了一種基于生成對抗網絡模型的方法FusionGAN,它是一種端到端的網絡模型,不用設計復雜的融合規則,但是由于GAN網絡的不穩定性,其訓練與測試過程都相對不穩定.李等人[10]提出了一種基于CNN的融合網絡DenseFuse,可以得到較好的融合效果,但是其網絡相對復雜,計算復雜度較高.
為了克服以上缺點,本文基于CNN和編解碼結構,構建出一種簡單、高效、泛化能力強的卷積自編碼網絡,并考慮到融合中需要保留圖像結構信息的要求,在傳統損失函數的基礎上,提出了一種基于圖像梯度紋理信息保留的損失函數來指導網絡的訓練,提高融合結果的質量.本文提出的基于卷積自編碼融合網絡的紅外與可見光圖像融合方法,是使用編碼網絡提取兩類源圖像的特征,通過融合規則來實現特征圖的融合,再通過重建的解碼網絡獲得融合圖像.自編碼融合網絡是由卷積層構造,其中每層的輸出用來作為下一層的輸入.在提出的深度學習架構中,編碼網絡由三個卷積編碼層構成,用于提取特征圖,解碼網絡由三個卷積解碼層構成.
本文融合方法首先訓練卷積自編碼網絡,再利用訓練好的卷積編碼網絡提取源圖像相應的特征,得到多張特征圖,特征圖在不同維度上包含了源圖像的各項信息;接著對多張圖像特征圖利用融合規則將其融合,得到包含所有源圖像信息的特征圖,然后利用卷積解碼網絡對其進行重建的操作,最終輸出一張包含多張源圖像信息的融合結果.圖1給出了一個代表例子,左邊兩幅圖像是待融合的紅外和可見光圖像,其中紅外圖像突出了目標,而可見光圖像包含豐富的背景細節和紋理信息,但是關鍵目標信息丟失,而本文的融合結果很好地包含了紅外圖像的目標信息與可見光圖像的紋理背景信息.

圖1 基于卷積自編碼融合網絡的紅外與可見光圖像融合結果Fig.1 Infrared and visible image fusion result based on convolutional auto-encoding fusion network
論文結構如下:在第2節中,簡要介紹自編碼器與卷積神經網絡的基礎知識;在第3節中,給出了本文融合方法的詳細介紹;在第4節中,將本文方法與現有的多種融合方法進行主觀與客觀實驗對比分析;在第5節中,對本文工作進行總結.
自編碼器[11]主要用于降維和特征學習的任務,對提取的高階特征信息進行編碼與解碼,是一種無監督學習的非線性特征提取方法,其輸出與輸入具有相同的維度,隱藏層被用來對原始數據的特征進行編碼.自動編碼器是指保持輸入與輸出盡可能一致(通過信息損失來判定)的情形下,實現無監督方式下的隱層特征提取與參數學習[12].目的是讓神經網絡的輸出能和原始輸入一致.相當于在特征空間上學習一個恒等式 y=x.將原始圖像作為輸入,對圖像進行編碼解碼,使提取到的特征保持輸入與輸出接近一致.本文將利用自編碼器的結構思想,利用兩個并行的編碼網絡分別對兩類圖像進行特征提取,然后對兩類特征圖進行融合,最后對融合后的特征圖重建出與輸入圖像大小相同的融合結果.傳統的自編碼器因其無監督特征提取方法的特點,其雖可快速提取特征,但特征提取準確性與還原性卻無法保證.
卷積神經網絡(CNN)[13]是一種特殊的可訓練權重和偏置的前饋神經網絡,是深度學習中最經典的算法之一,誕生于上世紀80年代,當時只是應用于支票數字的識別,隨著計算機硬件的發展和算法的創新,CNN已經在計算機視覺領域發揮了巨大的作用.CNN因為具有深度結構,以及局部感受野與共享權重的特點,使其可以提取更加完整的特征信息.以二維圖像為例,CNN可以直接處理二維圖像數據,通過卷積核和池化操作對原始輸入進行特征提取,對輸入數據進行特征表示,然后通過反向傳播算法(Back Propagation,BP)進行參數的更新.CNN仿造生物的視覺感知機制構建,可以進行監督學習和非監督學習,其隱含層內的卷積核參數共享和層間連接的稀疏性使得CNN能夠以較小的計算量對像素點提取特征.因此本文將利用CNN的優點,與自編碼結構結合,提出一種卷積自編解碼融合網絡.
本文提出的基于卷積自編碼融合(Convolutional Auto-encoding Fusion,CAEFuse)網絡的紅外與可見光圖像融合的過程,可以概括為如下四個步驟:
1)利用公共數據集訓練CAEFuse網絡模型的參數,選擇所提出的損失函數來調整整個網絡的參數訓練;
2)分別對源圖像A、B利用CAEFuse編碼層進行深層特征圖的提取;
3)對兩類源圖像提取的特征圖采取等權重相加的融合策略,得到融合后的卷積特征圖;
4)利用CAEFuse解碼網絡對卷積特征圖進行重建,得到最終的融合圖像.
由于自編碼網絡提取信息準確率較低,單一的卷積神經網絡忽略淺層特征,本文將卷積神經網絡與自動編碼器相結合,構建出CAEFuse網絡.根據紅外與可見光圖像融合的特性設置卷積核的參數、調整網絡框架,并根據融合特性提出一種基于圖像紋理梯度信息的損失函數來指導網絡訓練.所提出的CAEFuse的網絡框架如圖2所示.該網絡分為三個部分,第一部分是提取特征圖的卷積編碼層,第二部分為融合過程,將提取的兩類圖像的卷積特征圖進行融合,第三部分是對于融合后的卷積特征圖進行重建的解碼層.第一、三部分構成一個自編碼網絡,需要利用數據集提前被訓練,自編碼網絡的結構包含了三個3×3卷積核的卷積層,其步長為1,其參數設置如表1所示;在自編碼網絡訓練好的基礎上,利用第二部分的融合策略來實現編碼網絡中特征圖的融合,再由解碼網絡重建融合圖像.

圖2 本文的融合框架Fig.2 Proposed fusion framework
表1 CAEFuse結構
Table 1 Structure of CAEFuse

卷積層大小輸入通道輸出通道激活層卷積C13116ReLu編碼卷積C231632ReLu卷積C333264ReLu卷積C436432ReLu解碼卷積C533216ReLu卷積C63161ReLu
CAEFuse網絡結構中的卷積編碼層用來提取源圖像的深層特征,使用卷積計算的方式,利用卷積的平移不變性,對圖像上的每個像素進行卷積運算.在訓練過程中,每層的卷積核會根據損失函數進行訓練修正,以此降低損失.卷積計算公式如下表示:

(1)
其中,?表示卷積運算,這個公式表示卷積核Q在輸入圖像I上的空間滑動,Conv(i,j)表示卷積核Q對應的輸出矩陣所對應位置的元素值,Q(m,n)表示卷積核的參數,經過多層的卷積編碼網絡得到源圖像的卷積特征圖.
損失函數是深度學習優化中至關重要的一部分,沒有一個適合所有深度學習任務的損失函數,常見的損失函數有L1損失、L2損失等,這些損失函數在分類任務中表現良好,但是在融合任務中表現不足.為了更加精準地重建源圖像中包含的紋理結構,本文改進了傳統的損失函數,提出一種針對于紅外與可見光圖像融合任務的損失函數,CAEFuse網絡將通過最小化該損失函數訓練得到.
CAEFuse的損失函數由兩部分構成,如公式(2)所示:第一項的目的是將輸入圖像的全局顯著性信息保留在融合圖像中;第二項的目的是將輸入圖像的梯度紋理信息保留在融合圖像中:
(2)
Iin代表輸入卷積編碼網絡的圖像,Iout代表卷積解碼網絡輸出的圖像,代表梯度算子,‖·‖F代表矩陣Frobenius范數,ξ為經過實驗設置的權重參數,在本文實驗中,設置為5.
為了說明本文損失函數的優勢,圖3選取了一組圖像在不同損失函數訓練網絡得到的主觀實驗對比,從圖中可以看出通過本文損失函數所得到的樹枝在細節提取上更豐富,并且對比度更強.表2給出了不同損失函數訓練網絡所得到的8組圖像(源圖像見圖6)的客觀平均結果.其中,邊緣保持度(QAB/F)[20]能夠反映融合圖像中紋理信息的保留程度,差異的相關系數之和(SCD)[21]代表了融合圖像從源圖像中獲得的信息量.從表2可以看出,本文提出的損失函數在邊緣保持度等指標上均優于傳統損失函數,說明本文所提出的損失函數在紋理梯度信息上的提取更為豐富,獲得的信息量更多.

圖3 不同損失函數的融合結果對比Fig.3 Comparison of fusion results obtained by different los
表2 不同損失函數訓練網絡結果客觀指標的對比
Table 2 Comparison of objective indicators of fusion resultsobtained by different loss functions

QAB/FSCDL2損失函數0.46901.8895本文損失函數0.48461.9037
融合策略是圖像融合中重要的一部分,本文經過大量對融合策略的對比實驗,選擇了特征圖等權重相加的融合策略.

圖4 加權融合策略下的不同融合權重的SSIM曲線Fig.4 SSIM curve with different fusion weights under weighted fusion strategy
圖4給出了融合圖像的平均SSIM[23]指標隨融合權重變化曲線.從圖4中可以看出,在等權重策略或6/4(紅外圖像/可見光圖像)融合權重下SSIM達到峰值;圖5給出了L1-norm〗融合策略以及加權融合策略下不同權重的融合圖像,圖5(a)為L1-norm融合策略下的融合圖像,圖5(b)-圖5(j)為加權融合策略下的不同權重值的融合圖像,右上角的矩形框為左下角的矩形框的放大圖.從人物框處可以看出,圖5(g)-圖5(i)中嚴重丟失紅外的目標信息;從樹枝放大框處可以看出,圖5(a)-圖5(d)中嚴重丟失樹枝的紋理信息;在圖5(e)-圖5(j)中,等權重策略(j)的紅外信息與可見光信息保持得最完整.綜上,在L1-norm融合策略下以及在加權融合策略下紅外特征圖的融合權重較大時,融合圖像中樹枝的紋理細節丟失嚴重;在加權融合策略下可見光特征圖的融合權重較大時,融合圖像中紅外圖像目標信息丟失嚴重,因此本文選擇等權重相加的融合策略,其定義如下:
(3)

圖5 L1-norm融合策略與加權融合策略下不同權重的融合圖像Fig.5 Fused images of L1-norm fusion strategy and weighted fusion strategy with different fusion weights

在訓練過程中,只考慮CAEFuse網絡的第一部分提取特征的編碼層和第三部分重建解碼層.選取多個公共數據集作為訓練數據,其中包括公共數據集OSU[14](選取80組紅外與可見光圖像)、TNO[15](選取了40組紅外與可見光圖像)和MS-COCO[16](包含82700張灰度圖像).訓練過程是將單張圖像作為輸入送進網絡,通過特征提取重建等過程得到輸出圖像,利用Adam[17]優化算法對損失函數進行最小值優化,調整整個網絡參數,本文的方法是在NVIDIA GTX 1070 GPU上進行訓練.通過對數據集的對比實驗發現,提出的CAEFuse網絡的泛化能力高,該部分將會在第三節數據集部分進行實驗說明.
在測試過程中,將紅外與可見光圖像分別作為網絡的輸入圖像,通過三層的卷積編碼網絡提取兩類圖像的特征圖,將特征圖送入融合策略進行等權重的加權融合,最后通過三層的卷積解碼網絡對融合的特征圖進行重建,得到最終的融合結果.

圖6 八組紅外與可見光源圖像Fig.6 Eight groups of infrared and visible source images
為了驗證本文所提出方法的有效性,本文選擇了8組被廣泛用于實驗研究的紅外與可見光圖像進行對比,其中包括people、house、plane、lake、mailbox、car、window、bridge,如圖6所示.本文方法與五種當前主流的融合方法進行了比較,包括交叉雙邊濾波(CBF)[18]、梯度轉移和總變異最小化法(GFT)[19]、卷積神經網絡(CNN)[8]、融合對抗生成網絡(FusionGAN)[9]、DenseFuse[10].五種方法的代碼均是作者發布的,它們的參數選擇均與各文獻中保持一致,所有的實驗均是在python3.6上實現的,實驗配置是AMD Ryzen 7 2700X的CPU和NVIDIA GTX 1070 GPU.
融合圖像的質量評價主要包括主觀評價和客觀評價兩部分.由于融合技術的不斷提升,主觀評價的標準已經很難發現不同融合方法得到的效果的差異.在本文中,將同時考慮融合圖像的主觀視覺效果和客觀定量評價,其中客觀定量評價通過四種常用的圖像融合質量評價指標來衡量.
4.1.1 邊緣信息保持度
邊緣信息保持度(QAB/F)[20]使用Sobel邊緣檢測算子計算源圖像與融合圖像像素的強度和方向信息,以此衡量源圖像傳遞到融合圖像的邊緣信息的多少.QAB/F的值越大說明融合圖像保留了越多源圖像的邊緣信息.其定義為:
(4)
式中:
(5)
(6)

4.1.2 差異的相關系數之和
差異的相關系數之和(SCD)[21],是基于輸入圖像傳輸的最大的互補信息設計的,計算融合圖像與輸入圖像的信息相關度.輸入圖像(S2)與融合圖像(F)之間的差值圖像可以得到從另一個輸入圖像(S1)的信息.反之亦然.F和S1之間的差實際上產生了從S2收集到的信息.這些差分圖像(D1和D2)可以表示為:
(7)
在圖像融合應用中,要求融合后的圖像盡可能多地包含輸入圖像的信息.將D1與S1、D2與S2關聯得到的值表示這些圖像之間的相似性.換句話說,這些值表示從每個輸入圖像傳輸到融合圖像的信息量.SCD指標利用這些相關值的和作為融合圖像的質量度量.它的表達式如下:

圖7 五組典型的紅外與可見光圖像融合結果Fig.7 Five typical fusion results of infrared and visible images
SCD=r(D1,S1)+r(D2,S2)
(8)
其中r函數計算S1與D1、S2與D2的相關關系:
r(Dk,Sk)=
(9)

4.1.3 離散余弦變換的互信息
離散余弦變換的互信息(FMIdct)[22]用來計算經過離散余弦變換的互信息.互信息是一個隨機變量,其包含另一個隨機變量的信息量的度量,它通過測量聯合分布p(x, y)與完全獨立情況下的分布p(x)·p(y)之間的Kullback-Leibler分布來衡量兩個變量X和Y之間的依賴程度.
4.1.4 改進的無參考圖像的結構相似度
結構相似度(SSIM)[23]通過計算圖像結構的信息改變量來衡量圖像的失真程度,改進的無參考圖像的結構相似度定義如下:
SSIMa(F)=(SSIM(F,I1)+SSIM(F,I2))×0.5
(10)
其中,F表示融合圖像,I1和I2表示輸入的源圖像.
4.2.1 主觀視覺效果
由于篇幅的限制,圖7給出源圖像以及六種方法的融合圖像:從上到下分別是紅外圖像、可見光圖像、CBF[18]、GFT[19]、CNN[8]、FusionGAN[9]、DenseFuse[10]以及本文方法的融合結果,從左到右分別是people、plane、lake、mailbox、car.從圖7可以看出,CBF[18]方法引入噪聲嚴重,圖像嚴重失真,GFT[19]與CNN[8],FusionGAN[9]方法在保留紋理信息方面存在不足,造成了圖像邊緣處的模糊現象,相對來說,Dense-Fuse[10]的結果較好.本文提出的方法很好地融合了紅外圖像的整體目標信息以及可見光圖像的紋理細節信息,相對于CBF[18]、GFT[19]、CNN[8]和FusionGAN[9]方法,本文方法的細節信息明顯增多,原因在于用梯度算子作為損失函數的一項,更好的保留了梯度紋理信息.本文方法相對于DenseFuse[10]方法得到的結果在視覺上雖然很難看出差異,但后續的進一步分析可知本文提出的網絡在訓練時間與測試時間上都有較為明顯的優勢,具有更為簡單、高效的優點,得到的融合圖像在客觀定量指標上表現也更好.
表3 不同融合方法得到的客觀指標對比
Table 3 Comparison of objective indicators obtained by different fusion methods

源圖像指標CBF[17]GTF[18]CNN[8]FusionGAN[9]DenseFuse[10]CAEFuseWindowQAB/F0.30610.28910.24200.19090.45310.4534SCD0.02201.02891.79791.83951.99251.9926FMIdct0.21720.39120.24450.33180.40650.4065SSIMa0.51470.76760.77540.59240.71990.7204HouseQAB/F0.08180.54790.42220.29990.61660.6166SCD0.24750.97510.91141.68881.95081.9517FMIdct0.11450.44430.41540.39750.45080.4521SSIMa0.51630.76950.7640.78700.79570.7954PeopleQAB/F0.23650.41120.38340.24180.40840.4187SCD0.26580.96971.33851.13791.89831.8991FMIdct0.20100.43040.28820.32430.35650.3812SSIMa0.40100.69840.70540.69320.72330.7334LakeQAB/F0.10870.48130.21750.2330.40710.4048SCD0.63371.17271.66241.5821.76161.7775FMIdct0.11880.45000.40990.38950.43160.4318SSIMa0.60260.74250.73150.75410.80100.8018MailboxQAB/F0.11640.47550.32610.22940.42300.4230SCD0.41851.11131.44561.59331.79671.7954FMIdct0.11560.43810.4030.36600.43910.4394SSIMa0.39430.67180.66420.64810.73620.7367CarQAB/F0.23890.31640.26520.27320.48040.4806SCD0.88831.05061.71921.76221.99411.9939FMIdct0.14190.39610.27160.36230.40860.4087SSIMa0.39140.66060.68160.66000.67110.6711PlaneQAB/F0.15330.37150.40780.23140.52780.5278SCD0.50070.55481.52071.27591.95981.9606FMIdct0.10970.28880.26310.19800.35680.3571SSIMa0.5490.83430.8250.79820.75040.7503BridgeQAB/F0.10450.55020.23040.21460.55090.5519SCD0.47570.9741.46111.43081.85291.8592FMIdct0.10710.47550.44870.41080.46710.4677SSIMa0.59700.7320.72770.68930.79550.7948AverageQAB/F0.16820.43030.31180.23920.48350.4846SCD0.43150.97961.48211.53881.90081.9037FMIdct0.14070.41430.34300.34750.41460.4180SSIMa0.49570.73450.73430.70270.74910.7504
4.2.2 客觀定量評價
為了進一步驗證本文方法的性能,本文對六種方法的結果進行了客觀質量評價.利用QAB/F[20]和SCD[21]、FMIdct[22]、SSIMa[23]對融合結果進行定量分析,評價結果如表3所示,其中黑色加粗為所有方法中的最大值.
從表3中可以看出,本文方法的四種定量指標大部分都能得到最大值,少數指標是第二大值,所提出方法的客觀指標明顯優于傳統融合方法CBF[18]和GTF[19],也優于CNN[8]、FusionGAN[9]、DenseFuse[10]等深度學習融合方法.從平均定量指標來看,本文方法的結果都是最優的.因此,綜合全部評價指標的結果來看,本文方法在有效信息提取上優于其它五種主流方法.
4.2.3 算法效率分析
在時間上,表4給出了不同紅外與可見光圖像融合的方法在八組融合實驗中的平均耗時.從表4可以看出,在對比方法中,GTF[18]和DenseFuse[10]是效率較高的兩種方法,分別需要4.88秒和3.53秒.CNN[8]是最耗時的方法,這是由于CNN[8]方法中結合了傳統方法,計算復雜度較高,本文提出的方法是所有對比方法中效率最高的方法,可以達到準實時任務的響應需求.因此,可以證明本文方法與其他方法相比,性能優越.
表4 不同融合方法的耗時對比
Table 4 Comparison of time-consuming of different fusion methods

融合方法耗時/sCBF17.27GTF4.88CNN132.15FusionGAN8.52DenseFuse3.53CAEFuse3.14
表5 不同網絡模型的模型大小與訓練時間的對比
Table 5 Comparison of model size and training time of different network models

模型模型大小(kb)訓練時間(s)CAEFuse5462.55DenseFuse87023.15
在模型和訓練成本上,表5給出了DenseFuse[10]與本文方法的模型大小與訓練時間對比,可以看出本文提出的模型訓練時間(該訓練時間指的是在TNO[15]數據集上迭代一次的時間)上優于DenseFuse模型,CAEFuse網絡模型更為簡單、高效.
本文利用了不同數據集來訓練CAEFuse網絡模型,接下來將討論不同數據集對于網絡的影響,說明網絡的泛化能力.
本文對三組數據集OSU[14]、TNO[15]和MS-COCO[16]訓練得到的模型分別進行了實驗.選取八組紅外與可見光進行融合測試,得到的客觀指標的平均值如表6所示.
表6 MS-COCO與TNO、OSU數據集訓練網絡結果客觀指標的對比
Table 6 Comparison of objective indicators of training network results on MS-COCO, TNO and OSU datasets

QAB/FSCDFMIdctSSIMaMS-COCO0.48461.90370.41800.7504TNO0.48691.91290.41750.7476OSU0.46901.90770.40950.7450
從表6中,可以看出利用三種訓練集訓練得到的網絡模型進行融合,其客觀結果基本接近,說明我們構建的網絡模型對于訓練集有著很強的泛化能力,可以通過小數據集迅速調整網絡參數,提高訓練的效率.
本文針對紅外與可見光圖像融合中紋理信息保留不全的問題,基于CNN和自編碼結構的優點,提出了一種基于卷積自編碼融合網絡的紅外與可見光圖像融合方法.該方法首先利用訓練集訓練卷積自編碼網絡,然后利用等權重相加的融合策略對編碼網絡得到的特征圖進行融合,最后利用解碼網絡得到融合后的圖像.實驗證明,所提出網絡模型在不同大小的公共數據集上,網絡收斂較快,具有很強的泛化能力.該融合方法用于紅外與可見光圖像融合時,能同時保持紅外圖像的整體目標信息以及可見光圖像的紋理細節信息,融合后圖像能夠清晰地突出目標與豐富細節信息.本文同時使用主觀評價與客觀指標來評估提出的方法,與五種主流的融合方法進行了實驗對比,實驗表明本文的結果無論在視覺效果還是客觀指標上皆優于其它主流方法,并且無論從網絡訓練時間、測試時間上,其效率也都優于其它方法.
本文提出的CAEFuse網絡由于對數據集的低依賴性,同樣也是處理其它融合任務的通用框架,下一步將考慮將其應用在其它融合任務,希望同樣能夠得到好的融合性能.