錢坤,李湉雨,李喆,陳美杉
(1.海軍航空大學(xué) 岸防兵學(xué)院,山東 煙臺(tái) 264000;2.中國(guó)人民解放軍32127部隊(duì),遼寧 大連 116100)
近年來,紅外與可見光融合技術(shù)一直是研究的熱點(diǎn)領(lǐng)域。紅外成像是對(duì)景物的熱輻射成像,適宜在低光照、強(qiáng)閃光和濃霧煙幕等極端條件下使用,缺點(diǎn)是容易丟失圖像細(xì)節(jié)信息,成像不符合人眼視覺偏好等。可見光成像是對(duì)物體的反射成像,特點(diǎn)是具有豐富的色彩信息和大量的紋理細(xì)節(jié),符合人類視覺習(xí)慣,但成像質(zhì)量受制于光照和大氣條件。將紅外與可見光進(jìn)行融合可以充分發(fā)揮二者優(yōu)勢(shì),彌補(bǔ)單波段成像弊端,特別是在軍事領(lǐng)域,融合圖像對(duì)于分辨假目標(biāo)(誘餌),提升全天候作戰(zhàn)能力和提高精確打擊能力等有著重要意義。
在傳統(tǒng)的紅外與可見光融合算法中,比較有代表性的有:①基于多尺度變換(multi-scale transformation,MST)理論的算法,包括基于交叉雙邊濾波器算法(cross bilateral filter,CBF)[1]、各向異性融合算法(anisotropic diffusion fussion,ADF)[2]等;②基于梯度信息理論的算法,如梯度轉(zhuǎn)移融合算法(gradient transfer fusion,GTF)[3]、基于梯度結(jié)構(gòu)相似性的多模態(tài)圖像融合(GSF)[4]等;③基于顯著性理論的算法,如潛在低秩表示算法(latent low-rank representation,LatLRR)[5]等;④基于稀疏表示的算法,如文獻(xiàn)[6-7]所示等;⑤上述算法的組合算法,如多尺度分解算法(multi-scale decomposition,MSD)[8]等。
近年來,隨著深度學(xué)習(xí)算法的不斷發(fā)展,相關(guān)成果也應(yīng)用在了紅外和可見光圖像融合領(lǐng)域,取得了較好的效果。比較有代表性的有Prabhakar等[9]提出的基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的融合方法(deepfuse),其最終的融合圖像由一個(gè)3層的CNN解碼重建而來,能夠適應(yīng)多種融合任務(wù),但網(wǎng)絡(luò)結(jié)構(gòu)比較簡(jiǎn)單,難以充分保留源圖像中的信息,融合質(zhì)量一般。Zhang等[10]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的通用圖像融合框架(IFCNN),利用2個(gè)卷積層從多個(gè)輸入圖像中提取顯著的圖像特征,根據(jù)輸入圖像的類型選擇適當(dāng)規(guī)則進(jìn)行卷積特征融合,最后使用2個(gè)卷積層重構(gòu)融合特征,并生成融合圖像,其優(yōu)勢(shì)在于多任務(wù)通用,但對(duì)于特定任務(wù)融合效果并非最優(yōu)。Li等[11]提出了深度學(xué)習(xí)框架算法(deep learning framework,DLF),利用牛津大學(xué)計(jì)算機(jī)視覺組(visual geometry group,VGG)提出的VGG網(wǎng)絡(luò)進(jìn)行圖像融合,其中的VGG-19網(wǎng)絡(luò)在深度上勝過CNN,但融合方法相對(duì)簡(jiǎn)單,對(duì)于圖像的深度信息挖掘不夠,而且隨著網(wǎng)絡(luò)的加深,存在網(wǎng)絡(luò)退化的現(xiàn)象。隨后Li等[12]又提出了一種基于殘差網(wǎng)絡(luò)(residual network,ResNet)的紅外和可見光圖像融合框架,旨在改善深度網(wǎng)絡(luò)性能,提高對(duì)圖像細(xì)節(jié)信息的利用能力。文獻(xiàn)[13]提出了一種將多尺度局部極值分解與ResNet152殘差網(wǎng)絡(luò)相結(jié)合的融合方法,使用多尺度局部極值分解將源圖像分解為近似圖像和細(xì)節(jié)圖像,采用ResNet152網(wǎng)絡(luò)提取顯著性特征,設(shè)計(jì)了基于顯著特征圖和能量顯著圖加權(quán)的融合規(guī)則,取得較好效果,但算法復(fù)雜,時(shí)間開銷較大。
針對(duì)深層網(wǎng)絡(luò)退化與紅外和可見光圖像融合算法中的圖像信息保留不完整等問題,進(jìn)一步挖掘殘差網(wǎng)絡(luò)性能潛力和拓展應(yīng)用范圍,本文提出了一種基于拆分注意力殘差網(wǎng)絡(luò)(split-attention residual network,ResNeSt)[14]的紅外和可見光圖像融合算法,這是一種端到端的網(wǎng)絡(luò)模型,輸入紅外和可見光圖像,在特征提取、權(quán)重計(jì)算和圖像重建等過程后,直接輸出融合后的圖像。
基于ResNeSt的紅外和可見光圖像融合算法框架如圖1所示。將紅外圖像和可見光圖像分別送入訓(xùn)練過的ResNeSt-50網(wǎng)絡(luò)進(jìn)行特征提取,得到各自的特征圖;對(duì)特征圖使用零相位分量分析(zero-phase component analysis,ZAC)方法進(jìn)行數(shù)據(jù)白化,使其投影在同一子空間;利用L1范數(shù)獲得初始權(quán)重圖,然后使用雙三次插值算法進(jìn)行上采樣并使用softmax函數(shù)進(jìn)行權(quán)重歸一化,得到和原圖像大小一致的權(quán)重矩陣;運(yùn)用加權(quán)平均策略,對(duì)原始紅外和可見光圖像進(jìn)行加權(quán)平均,得到最終的融合圖像。

圖1 算法框架
在深度學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)的深度和寬度對(duì)于性能的影響非常明顯,但網(wǎng)絡(luò)的層級(jí)不能通過簡(jiǎn)單的堆疊進(jìn)行加深,原因是隨著網(wǎng)絡(luò)的加深會(huì)發(fā)生網(wǎng)絡(luò)退化的現(xiàn)象,為此He等[15]提出了ResNet,通過加入跳躍連接,保證網(wǎng)絡(luò)加深的最壞結(jié)果也不會(huì)比原網(wǎng)絡(luò)性能更差,這個(gè)過程不顯著增加計(jì)算負(fù)擔(dān),且網(wǎng)絡(luò)依然可以通過反向傳播進(jìn)行訓(xùn)練學(xué)習(xí),ResNet模塊結(jié)構(gòu)見圖2。通過對(duì)殘差模塊的反復(fù)堆疊,可以產(chǎn)生深層的、無退化現(xiàn)象的殘差網(wǎng)絡(luò),以便從輸入數(shù)據(jù)中提取更為豐富的特征。ResNet解決了網(wǎng)絡(luò)退化問題,但通過進(jìn)一步研究發(fā)現(xiàn),其性能依舊有提升的空間,ResNet主要存在的不足為:①感受野相對(duì)有限;②缺乏跨通道的信息融合,即缺少上下文之間的交流[16-17]。

圖2 殘差模塊
為此,本文使用ResNeSt對(duì)輸入的源圖像進(jìn)行特征提取,具體結(jié)構(gòu)見圖3。ResNeSt將特征圖劃分為K個(gè)基群(cardinal),基群內(nèi)分為更細(xì)粒度R個(gè)切片(split),并在基群內(nèi)加入拆分注意力模塊(split-attention block),結(jié)構(gòu)見圖4。每個(gè)基群的特征通過上下文信息確定的權(quán)重進(jìn)行組合。ResNeSt在分支網(wǎng)絡(luò)中使用了不同尺寸的卷積核,可提供不同尺度的感受野,拆分注意力模塊中的全局池化層能夠進(jìn)一步擴(kuò)展感受野,Dense模塊中的全連接層增加了計(jì)算的非線性,也能更好地?cái)M合跨通道的相關(guān)性。

圖3 拆分注意力殘差模塊

圖4 拆分注意力模塊


(1)
式中:k表示第k個(gè)基群,j表示第j個(gè)切片。
之后,通過跨空間維度的全局平均池化,獲得每個(gè)通道上的統(tǒng)計(jì)信息,作為全局上下文信息,記作sk,sk∈RC/K,第c個(gè)通道上的信息可以表示為公式(2)。

(2)


(3)


(4)

最后將所有基群輸出的特征進(jìn)行拼接,得到最后的特征V,V=Concat{V1,V2,…,VK},與ResNet中含有一個(gè)恒等映射相同,在ResNeSt的最終輸出里還包含了直接輸入x,所以最終輸出可以表示為Y=V+x。
本文所用的拆分注意力殘差網(wǎng)絡(luò)ResNeSt-50在結(jié)構(gòu)上與ResNet-50保持一致,共有50層卷積,分為16組殘差結(jié)構(gòu),見圖5。用拆分注意力殘差模塊替換原有殘差模塊,得到ResNeSt-50網(wǎng)絡(luò),網(wǎng)絡(luò)通過ImageNet 2012數(shù)據(jù)集[18]進(jìn)行預(yù)訓(xùn)練。

圖5 ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)
激活函數(shù)在神經(jīng)網(wǎng)絡(luò)有效性和訓(xùn)練過程中起到非常重要的作用,優(yōu)化激活函數(shù)可以顯著提升網(wǎng)絡(luò)的綜合性能。在ResNet-50網(wǎng)絡(luò)的殘差模塊中,前向神經(jīng)網(wǎng)絡(luò)與跳躍連接疊加后使用線性整流函數(shù)(rectified linear unit,ReLU)作為激活函數(shù),ReLU函數(shù)見公式(5)。ReLU函數(shù)優(yōu)勢(shì)在于簡(jiǎn)單易用,計(jì)算效率高,網(wǎng)絡(luò)收斂快,但弊端在于當(dāng)輸入趨近于零或者為負(fù)時(shí),函數(shù)梯度為零,網(wǎng)絡(luò)無法反向傳播,不能繼續(xù)“學(xué)習(xí)”。
fReLU(x)=max(0,x)
(5)
在優(yōu)化ReLU函數(shù)過程中,提出了多種激活函數(shù),如帶泄露線性整流函數(shù)(leaky ReLU)[19]、指數(shù)線性單元函數(shù)(exponential linear unit,ELU)[20]等,文獻(xiàn)[21]提出了一種平滑最大值單元函數(shù)(smooth maximum unit,SMU),能夠有效避免ReLU函數(shù)的缺陷,在分類、目標(biāo)檢測(cè)和語(yǔ)義分割等應(yīng)用領(lǐng)域被驗(yàn)證效果優(yōu)于ReLU。SMU函數(shù)見公式(6)。
fSMU(x,αx;μ)=

(6)
其中,erf(x)為高斯誤差函數(shù),見公式(7)

(7)
式中,α,μ為超參,本文中選取α=0.25,μ=0.5。
經(jīng)過ResNeSt網(wǎng)絡(luò)模型輸出的是多維特征向量,運(yùn)用ZCA方法可以將高維特征向量通過向量矩陣轉(zhuǎn)換后進(jìn)行去相關(guān)性操作[22],同時(shí),保留主要信息,忽略掉偏差大的信息。假設(shè)在ResNeSt網(wǎng)絡(luò)模型提取的是m條n維的向量數(shù)據(jù),將數(shù)據(jù)組成n行m列的矩陣Y,ZCA白化計(jì)算過程如下:
①計(jì)算矩陣Y的協(xié)方差矩陣Σ,如公式(8)

(8)
②對(duì)Σ進(jìn)行奇異值分解,得到向量U,計(jì)算得到UTy,即為數(shù)據(jù)經(jīng)過坐標(biāo)軸旋轉(zhuǎn)之后得到的矩陣Z,如公式(9)

(9)
③對(duì)Z進(jìn)行PCA白化,得到ZPCA,i

(10)
式中,λi是Z協(xié)方差矩陣對(duì)角元素的值。
④將ZPCA,i左乘U,得到經(jīng)過白化后的特征圖ZPCA。
將紅外和可見光圖像的特征圖ZPCA通過一個(gè)大小為1×1的卷積核,得到初始權(quán)重ωI(紅外圖像)和ωV(可見光圖像),這樣一方面可以實(shí)現(xiàn)數(shù)據(jù)降維,減少參數(shù)量,實(shí)現(xiàn)對(duì)不同尺度特征進(jìn)行尺寸的歸一化,另一方面也能起到跨通道特征融合的作用。

(11)
歸一化的特征圖通過雙三次插值算法縮放到與輸入圖像一致大小,并按照各自權(quán)重通過加權(quán)平均算法得到最終的融合圖像,如公式(12)所示。

(12)
在圖像融合研究中,需要使用經(jīng)過配準(zhǔn)后的紅外和可見光圖像作為輸入數(shù)據(jù),但公開并配準(zhǔn)的雙光數(shù)據(jù)集選擇非常有限,本文采用TNO[23]中的40對(duì)紅外和可見光圖像作為主觀視覺實(shí)驗(yàn)的輸入數(shù)據(jù),同時(shí),為檢驗(yàn)算法對(duì)于紅外和彩色可見光圖像的融合能力,還選取了部分紅外和彩色可見光圖像對(duì)進(jìn)行融合實(shí)驗(yàn)。在多指標(biāo)客觀評(píng)價(jià)中,選取文獻(xiàn)[24]的紅外和可見光圖像融合基準(zhǔn)(visible and infrared image fusion benchmark,VIFB)中的21對(duì)圖像進(jìn)行測(cè)試,其中TNO數(shù)據(jù)集示例見圖6,VIFB測(cè)試集示例見圖7。

圖6 TNO數(shù)據(jù)集示例 圖7 VIFB測(cè)試集示例
算法所用的ResNeSt-50網(wǎng)絡(luò)已在ImageNet 2012數(shù)據(jù)集上進(jìn)行了訓(xùn)練,但為進(jìn)一步優(yōu)化網(wǎng)絡(luò)性能,使其在圖像融合計(jì)算中更具針對(duì)性,還對(duì)ResNeSt-50進(jìn)行了遷移學(xué)習(xí),訓(xùn)練數(shù)據(jù)選自TNO數(shù)據(jù)集,按照3∶1的比例劃分訓(xùn)練集和測(cè)試集,由于訓(xùn)練數(shù)據(jù)數(shù)量較少,需要對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行數(shù)據(jù)增廣處理[25],訓(xùn)練集中圖像尺寸有280×280,360×270,595×328等多種,為避免裁剪過小導(dǎo)致訓(xùn)練出的模型對(duì)于大尺寸物體識(shí)別能力不足,統(tǒng)一按照180×180大小,步長(zhǎng)20進(jìn)行裁剪,經(jīng)人工篩選后最終得到圖像1 120對(duì)。遷移學(xué)習(xí)中使用Pytorch深度學(xué)習(xí)框架,使用Adam優(yōu)化器,學(xué)習(xí)速率為2×10-4,每批訓(xùn)練圖像為8幅,訓(xùn)練100輪。實(shí)驗(yàn)環(huán)境見表1。

表1 實(shí)驗(yàn)環(huán)境
將訓(xùn)練后的網(wǎng)絡(luò)在TNO數(shù)據(jù)集的測(cè)試圖像上進(jìn)行實(shí)驗(yàn),選取其中的6幅圖像進(jìn)行主觀視覺對(duì)比,對(duì)比對(duì)象分別是GSF算法[4]、IFCNN算法[10]、LatLRR算法[5]、VGG算法[22]、DLF算法[11]和ResNet算法[12]。輸入圖像和各算法融合后圖像見圖8。


圖8 紅外與可見光圖像融合主觀評(píng)價(jià)對(duì)比
如圖8c)所示,GSF算法在第4列中的交通標(biāo)志邊緣處融合失真,出現(xiàn)高亮光暈,標(biāo)志牌中央的橫杠幾乎不可見,第5列中對(duì)于紅外圖像信息利用不佳,煙幕中的射手未能有效融合;第6列中對(duì)于色彩的還原不準(zhǔn)確,整體偏灰白。如圖8d)所示,IFCNN算法在整體對(duì)比度上相對(duì)偏低,導(dǎo)致紋理細(xì)節(jié)還原質(zhì)量一般,在第1列灌木叢和第3列地形起伏處尤其明顯,第5列色彩還原不夠準(zhǔn)確,明顯偏灰。如圖8e)所示,LatLRR算法處理后的圖像整體過曝,第3列上表現(xiàn)尤其突出,第5列中煙幕遮擋下的射手未能有效融合顯示,丟失了紅外圖像的熱信息;在第6列上偽影明顯,觀感不自然。如圖8f)所示,VGG算法在第5列中,對(duì)于煙幕的融合效果不佳,畫面大面積過曝。如圖8g)~8h)所示,DLF算法和ResNet算法整體效果較好,圖像細(xì)節(jié)保留比較完整,從第4~5列中的樹木效果看,ResNet算法優(yōu)于DLF算法,其紋理更清晰,在彩色圖像融合上2幅圖像均有不同程度失真,DLF算法偏灰,ResNet算法顏色較深。在圖8i)所示,本文算法在圖像細(xì)節(jié)的提取和保留上表現(xiàn)最好,紋理邊緣清晰銳利,在第3列中地形起伏處表現(xiàn)最為明顯;在對(duì)煙幕的處理上,既保留了煙幕的輪廓,也清晰顯示了被煙幕遮擋的人;同時(shí),本文算法對(duì)于色彩的還原最為準(zhǔn)確,相較其他算法表現(xiàn)優(yōu)異。
客觀評(píng)價(jià)需要計(jì)算相關(guān)指標(biāo),旨在定量模擬人眼視覺對(duì)圖像質(zhì)量的感知。相關(guān)指標(biāo)種類繁多,本文選取比較有代表性的4種:①基于信息理論的峰值信噪比(peak signal-to-nosie ration,PSNR)[26],其值越大說明融合圖片和原始圖片之間差別就越小,細(xì)節(jié)保留越完整;②基于結(jié)構(gòu)相似性理論的結(jié)構(gòu)相似性指數(shù)度量(structural similarity index measure,SSIM)[27],SSIM數(shù)值在[0,1]之間,數(shù)值越大代表和原來2幅圖像越接近;③基于圖像特征的空間頻率(spatial frequency,SF)[28],空間頻率數(shù)值越大越好,越大圖像質(zhì)量越高,觀感更清晰;④基于梯度的融合性能(gradient-based fusion performance,QAB/F)[29],QAB/F值越大圖像質(zhì)量越高,保留的原始圖像的信息也就越多。
在4種常用指標(biāo)中,只有SF的計(jì)算不依賴原始輸入圖像,即只需計(jì)算融合圖像的SF后進(jìn)行比較即可,其他3種指標(biāo)都需要分別計(jì)算融合圖像與原始輸入的紅外圖像和可見光圖像的指標(biāo)數(shù)值,再將2個(gè)數(shù)值以適當(dāng)方式求和得到最終融合圖像的指標(biāo)數(shù)值,具體實(shí)驗(yàn)結(jié)果如圖9所示。

圖9 7種算法的4項(xiàng)客觀指標(biāo)對(duì)比
實(shí)驗(yàn)結(jié)果表明,在PSNR、SSIM和QAB/F3項(xiàng)評(píng)價(jià)指標(biāo)中,本文提出的基于ResNeSt的融合算法表現(xiàn)最優(yōu),對(duì)比其他6種算法分別至少提高了1.78%,2.00%和3.10%,在SF指標(biāo)中排名第二,僅落后LatLRR算法2.73%,但對(duì)比傳統(tǒng)ResNet算法,也有6.52%的提升。同時(shí),為衡量各算法的執(zhí)行效率,還將融合圖像時(shí)間開銷進(jìn)行了比較,本文算法繼承了傳統(tǒng)ResNet算法執(zhí)行效率高的優(yōu)勢(shì),在算法復(fù)雜度提高的情況下,平均每對(duì)圖像的融合時(shí)間相對(duì)ResNet算法小幅增加了4.5%,全部21組融合圖像客觀評(píng)價(jià)結(jié)果平均值如表2所示。

表2 21組融合圖像5項(xiàng)客觀評(píng)價(jià)結(jié)果平均定量值
為驗(yàn)證算法的合理性,設(shè)計(jì)了3組消融實(shí)驗(yàn),實(shí)驗(yàn)1是使用ResNeSt網(wǎng)絡(luò)進(jìn)行特征提取,內(nèi)部使用ReLU函數(shù)作為激活函數(shù);實(shí)驗(yàn)2使用傳統(tǒng)的ResNet網(wǎng)絡(luò)進(jìn)行特征提取,在其內(nèi)部使用SMU函數(shù)作為激活函數(shù);實(shí)驗(yàn)3使用ResNeSt網(wǎng)絡(luò)進(jìn)行特征提取,并在內(nèi)部使用SMU函數(shù)作為激活函數(shù),即本文完整算法。消融實(shí)驗(yàn)也分為主觀視覺評(píng)價(jià)和多指標(biāo)客觀評(píng)價(jià)兩部分,選取了測(cè)試集中最具代表性的一組圖像及其融合后圖像進(jìn)行具體說明,消融實(shí)驗(yàn)圖像融合結(jié)果見圖10。
圖10a)為輸入的紅外圖像,圖10b)為輸入的可見光圖像,圖10c)為實(shí)驗(yàn)1所得融合圖像,圖像保留了煙幕中的戰(zhàn)士,能夠呈現(xiàn)樹干的紋理細(xì)節(jié);圖10d)為實(shí)驗(yàn)2所得融合圖像,也較好地完成了融合任務(wù),細(xì)節(jié)同樣比較豐富,戰(zhàn)士的輪廓邊緣也更銳利;圖10e)為實(shí)驗(yàn)3所得融合圖像,效果最為理想,樹干的紋理清晰,樹叢細(xì)節(jié)保留更加豐富完整。表3為消融實(shí)驗(yàn)4項(xiàng)客觀評(píng)價(jià)指標(biāo)對(duì)比,4項(xiàng)指標(biāo)中實(shí)驗(yàn)3均優(yōu)于實(shí)驗(yàn)1和實(shí)驗(yàn)2,表明算法的多處改進(jìn)均能對(duì)最終結(jié)果產(chǎn)生正向優(yōu)化。

圖10 消融實(shí)驗(yàn)示例

表3 消融實(shí)驗(yàn)4項(xiàng)客觀評(píng)價(jià)指標(biāo)對(duì)比
本文充分利用深層網(wǎng)絡(luò)對(duì)于圖像特征提取的優(yōu)勢(shì),提出了基于拆分注意力殘差網(wǎng)絡(luò)的紅外和可見光圖像融合算法,算法利用帶有拆分注意力模塊的深層殘差網(wǎng)絡(luò)分別提取紅外和可見光圖像多尺度特征,通過后續(xù)的權(quán)重計(jì)算和圖像重建,得到融合后的圖像。與經(jīng)典的6種融合算法進(jìn)行主客觀對(duì)比,本算法融合圖像細(xì)節(jié)豐富,既體現(xiàn)了紅外圖像中的熱信息,又保留了可見光圖像的紋理細(xì)節(jié),在多項(xiàng)定量評(píng)價(jià)中表現(xiàn)突出。后續(xù)工作中,將繼續(xù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)及超參尋優(yōu),進(jìn)一步提升融合圖像質(zhì)量,同時(shí),針對(duì)配準(zhǔn)的雙光數(shù)據(jù)較少的實(shí)際,還將著手建立更為豐富的數(shù)據(jù)集,以方便開展后續(xù)研究工作。