薛 松,錢立志,楊傳棟
(1 陸軍炮兵防空兵學(xué)院兵器工程系,合肥 230031; 2 陸軍炮兵防空兵學(xué)院高過(guò)載彈藥制導(dǎo)控制與信息感知實(shí)驗(yàn)室,合肥 230031; 3 陸軍炮兵防空兵學(xué)院研究生隊(duì),合肥 230031)
在過(guò)去十幾年中,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)等網(wǎng)絡(luò)模型在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了成功應(yīng)用,解決了一系列復(fù)雜的問(wèn)題并實(shí)現(xiàn)了顯著的突破,具體表現(xiàn)在圖像分類[1-3]、目標(biāo)檢測(cè)[4-5]、語(yǔ)義分割[6]等方面。雖然這些網(wǎng)絡(luò)模型展現(xiàn)出了卓越的性能,但是由于缺乏可分解性,研究者們無(wú)法明確而直觀地理解和解釋其中的組成和功能[7]。因此又將這些深度網(wǎng)絡(luò)稱為 “黑盒”。
針對(duì)CNN難以理解的問(wèn)題,研究者們開(kāi)展了大量的工作,Zeiler和Fergus[8]開(kāi)創(chuàng)了理解CNN學(xué)習(xí)內(nèi)容的先河,但是該方法計(jì)算量大,過(guò)程復(fù)雜。此后,類激活映射(class activation mapping,CAM)系列方法嶄露頭角。 Zhou等[9]提出了CAM方法。CAM計(jì)算的結(jié)果為最后一個(gè)卷積層激活映射經(jīng)過(guò)全局平均池化(global average pooling,GAP)層,并對(duì)倒數(shù)第二層的結(jié)果特征圖進(jìn)行加權(quán)組合。
隨后Selvaraju等[7]提出了梯度加權(quán)類激活映射(gradient-weighted class activation mapping,Grad-CAM)的方法。Grad-CAM擴(kuò)展了CAM中權(quán)重函數(shù)的描述。該方法將像素空間梯度可視化同CAM方法相結(jié)合,突出圖像的細(xì)粒度細(xì)節(jié),使得基于CNN的模型更加透明。但是該方法顯著圖對(duì)目標(biāo)的捕獲效果不夠充分。
Chattopadhay等[10]為解決這一問(wèn)題提出了一種更為通用的用于解釋CNN決策的可視化技術(shù),稱為Grad-CAM++。該方法再次更改了權(quán)重函數(shù)的計(jì)算方法。此后研究者們深入研究,提出了多種CAM系列的改進(jìn)方法,如Ablation-CAM[11]、XGrad-CAM[12]等。
這些方法在自然場(chǎng)景類圖像上有著較為良好的效果,基本能夠通過(guò)顯著圖對(duì)圖像上目標(biāo)區(qū)域進(jìn)行較為準(zhǔn)確的定位,但是對(duì)于圖1(a)所示可見(jiàn)光-紅外彈載融合圖像的視覺(jué)解釋效果較差。一方面就彈載圖像本身而言,其導(dǎo)引頭在獲取圖像過(guò)程中易受外部條件干擾,成像環(huán)境復(fù)雜,降質(zhì)因素偶發(fā)性強(qiáng)[13]。另一方面對(duì)于其融合圖像,是一種既有可見(jiàn)光圖像的高分辨率細(xì)節(jié)信息,又能突出紅外目標(biāo)特征的信息互補(bǔ)圖像[14],其在視覺(jué)感知上要差于傳統(tǒng)自然場(chǎng)景圖像。因此對(duì)于視覺(jué)解釋,顯著圖往往存在噪聲干擾和定位偏差。從圖1可以看出Grad-CAM,Ablation-CAM,XGrad-CAM目標(biāo)顯著性表現(xiàn)不夠良好,目標(biāo)和背景的定位區(qū)分出現(xiàn)錯(cuò)誤;Grad-CAM++雖然能較為準(zhǔn)確區(qū)分目標(biāo)和背景,但是目標(biāo)的定位出現(xiàn)一定的偏差,有較多噪聲存在。

圖1 彈載融合圖像視覺(jué)可視化顯著圖
因此為解決可見(jiàn)光-紅外彈載融合圖像的視覺(jué)解釋效果較差的問(wèn)題,實(shí)現(xiàn)該類圖像目標(biāo)的精確定位,參考經(jīng)典理論及算法框架,提出了一種新的針對(duì)可見(jiàn)光-紅外彈載融合圖像的視覺(jué)解釋方法。方法重新定義了神經(jīng)網(wǎng)絡(luò)的梯度表示方法,引入置信度提升實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)重組梯度映射,最終通過(guò)權(quán)重參數(shù)和重組梯度映射的線性組合得到類激活映射。
文獻(xiàn)[7,9-10]通過(guò)使用最后一個(gè)卷積層的梯度信息來(lái)表示每個(gè)通道的激活映射。重新定義每個(gè)通道中的梯度信息。
定義具有偏差b∈RF的ReLU神經(jīng)網(wǎng)絡(luò):f:RD→R,R表示網(wǎng)絡(luò)單元,D表示維度。對(duì)于網(wǎng)絡(luò)輸入x∈RD,可得神經(jīng)網(wǎng)絡(luò)函數(shù):
(1)
式中:b∈RF為網(wǎng)絡(luò)中含有F個(gè)偏差b。研究表明該偏差由顯式偏差和隱式偏差組成,且隱式偏差通常比顯式偏差占比大得多[15]。因此對(duì)于x附近的第i個(gè)鄰域內(nèi)的隱式偏差進(jìn)行線性化處理,可得:
(2)


(3)


(4)

(5)
因此對(duì)于式(2)所表示的完整梯度,整個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)于類c的激活映射計(jì)算為:
(6)
式中:U[B(·)]表示對(duì)輸入梯度映射進(jìn)行雙線性差值后上采樣,使其與偏差梯度映射具有相同大小的尺寸空間。
為了表明算法的有效性,開(kāi)展多種不同的實(shí)驗(yàn)進(jìn)行算法驗(yàn)證。方法包括主觀可視化評(píng)估、客觀指標(biāo)評(píng)價(jià)、目標(biāo)定位。模型使用ResNet-50。
由于真實(shí)場(chǎng)景的可見(jiàn)光-紅外彈載圖像難以獲取,因此參考彈載圖像成像特點(diǎn),采用公開(kāi)的航拍圖像數(shù)據(jù)庫(kù)以及無(wú)人機(jī)彈載吊艙偽裝目標(biāo)實(shí)拍圖組成的彈載圖像數(shù)據(jù)集開(kāi)展實(shí)驗(yàn)。選擇6組不同場(chǎng)景的融合圖像進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)圖像如圖2所示,場(chǎng)景包含河道、道路、車場(chǎng)、機(jī)場(chǎng)、戰(zhàn)場(chǎng)1、戰(zhàn)場(chǎng)2。其中圖2(a)~圖2(d)為VEDAI數(shù)據(jù)集融合圖像,圖2(e)~圖2(f)為彈載吊艙實(shí)拍融合圖像。參考文獻(xiàn)[16]的方法將輸入圖像大小調(diào)整為224像素×224像素,并將其變換至范圍[0,1],然后使用均值向量[0.485,0.456,0.406]和標(biāo)準(zhǔn)差向量[0.229,0.224,0.225]進(jìn)行歸一化。

圖2 實(shí)驗(yàn)圖像
將文中方法與對(duì)比方法在圖2所示的實(shí)驗(yàn)圖像上進(jìn)行可視化對(duì)比測(cè)試,對(duì)比方法包括:Grad-CAM[7],Grad-CAM++[10],Score-CAM[16],XGrad-CAM[12],Ablation-CAM[11]。測(cè)試結(jié)果如圖3所示。

圖3 彈載融合圖像可視化顯著圖結(jié)果
從圖3可以看出,針對(duì)圖2中的6幅不同場(chǎng)景的融合圖像,文中方法和對(duì)比方法融合圖像的顯著圖都能夠針對(duì)融合圖像的目標(biāo)進(jìn)行定位,但相較于對(duì)比方法,文中方法在視覺(jué)上表現(xiàn)出了明顯的優(yōu)越性。對(duì)于圖2中VEDAI數(shù)據(jù)集融合圖像,大部分對(duì)比方法的顯著圖對(duì)圖2(a) 場(chǎng)景中的船只無(wú)法捕獲,Score-CAM顯著圖雖然準(zhǔn)確地標(biāo)記了船只,但由于周圍場(chǎng)景的干擾,存在錯(cuò)誤標(biāo)記現(xiàn)象,而文中方法顯著圖不僅能夠準(zhǔn)確地標(biāo)記船只,同時(shí)對(duì)錯(cuò)誤標(biāo)記能夠進(jìn)行抑制。圖2(b)和圖2(d)場(chǎng)景中的道路車輛和機(jī)場(chǎng)的飛機(jī),文中方法的顯著圖均能夠準(zhǔn)確標(biāo)記,而對(duì)比方法則存在漏標(biāo)、誤標(biāo),如圖3中(b),(c),(e),(f)列Grad-CAM,Grad-CAM++,XGrad-CAM和Ablation-CAM方法所示,甚至出現(xiàn)無(wú)法標(biāo)記的情況,如圖3(d)列Score-CAM方法所示。對(duì)于圖2中(e),(f),由于其為偽裝目標(biāo)實(shí)拍圖,圖像中目標(biāo)與周圍場(chǎng)景存在一定的相似性,因此采用對(duì)比算法獲得的可視化顯著圖存在目標(biāo)漏標(biāo)、誤標(biāo)、無(wú)法標(biāo)記現(xiàn)象。而文中方法可視化顯著圖則能夠準(zhǔn)確地標(biāo)記目標(biāo)區(qū)域,且周圍場(chǎng)景干擾現(xiàn)象較少,展現(xiàn)出了明顯的優(yōu)越性。
選擇兩類不同的指標(biāo)開(kāi)展客觀評(píng)價(jià),分別為平均下降(average drop,AD)和平均提升(average increase,AI)。這兩類指標(biāo)是一組互補(bǔ)指標(biāo),AD計(jì)算的是當(dāng)只有解釋映射作為輸入時(shí),圖像中特定類別的模型置信度的平均下降百分比,該值越小越好,表明分?jǐn)?shù)下降程度低;AI計(jì)算的是當(dāng)提供解釋映射區(qū)域作為輸入時(shí),模型置信度增加時(shí)的百分比,其值越大越好,表明分?jǐn)?shù)上升程度高。計(jì)算公式為:
(7)

表1為對(duì)彈載圖像數(shù)據(jù)集的融合圖像進(jìn)行兩類指標(biāo)的計(jì)算結(jié)果。從表1可以看出文中方法的指標(biāo)AD達(dá)到了37.6%,在指標(biāo)AI上達(dá)到了31.7%,這兩類指標(biāo)數(shù)值均優(yōu)于對(duì)比算法指標(biāo)測(cè)試結(jié)果。指標(biāo)數(shù)值結(jié)果表明文中方法構(gòu)建的模型在識(shí)別任務(wù)上具有良好的表現(xiàn),且能夠成功地捕獲目標(biāo)對(duì)象的可分辨區(qū)域。表1的客觀指標(biāo)評(píng)價(jià)結(jié)果與圖3所示的主觀可視化結(jié)果相一致,表明了文中方法能更為準(zhǔn)確真實(shí)地反映卷積神經(jīng)網(wǎng)絡(luò)模型的決策過(guò)程。

表1 客觀指標(biāo)評(píng)價(jià)對(duì)比測(cè)試結(jié)果
為了更為準(zhǔn)確全面地比較,對(duì)圖3中各方法獲得的顯著圖開(kāi)展了刪除和插入測(cè)試[17]。刪除指的是顯著圖中越來(lái)越多的與類別相關(guān)的像素刪除將導(dǎo)致分類分?jǐn)?shù)顯著下降,預(yù)測(cè)概率降低;而插入指的是從模糊的圖像開(kāi)始,逐漸重新引入像素,使得預(yù)測(cè)概率升高。具體來(lái)說(shuō),對(duì)于刪除測(cè)試,根據(jù)顯著性圖的值,每次逐漸用高度模糊的版本替換原始圖像中的3.6%像素,直到?jīng)]有剩余像素。與刪除測(cè)試相反,插入測(cè)試將模糊圖像的3.6%像素替換為原始像素,直到圖像完全恢復(fù)。將計(jì)算ROC曲線下的面積(area under ROC curve,AUC)作為定量指標(biāo)。較高的插入AUC和較低的刪除AUC表明模型具有較好的解釋能力。對(duì)比測(cè)試結(jié)果如圖4所示。

圖4 插入和刪除測(cè)試對(duì)比曲線
從圖4可以看出文中方法在刪除和插入測(cè)試上大都達(dá)到了最優(yōu),表明其對(duì)于彈載融合圖像具有較好的視覺(jué)解釋能力。同時(shí)該方法在刪除和插入測(cè)試上的數(shù)值表現(xiàn)都不夠良好,說(shuō)明其對(duì)融合類圖像的解釋能力還有待提高。
通過(guò)目標(biāo)定位評(píng)價(jià)可以衡量顯著圖的質(zhì)量。通常從顯著圖中提取最大點(diǎn)觀察該點(diǎn)是否落在目標(biāo)邊界框內(nèi)[18]。文中只提取最大點(diǎn)擴(kuò)展到整幅顯著圖,判斷該顯著圖有多少能落入目標(biāo)邊界框內(nèi)。具體來(lái)說(shuō),首先將圖像與目標(biāo)類別邊界框進(jìn)行二值化處理,其中內(nèi)部區(qū)域賦值為1,外部區(qū)域賦值為0,而后將其與生成的顯著性貼圖逐點(diǎn)相乘,求和得到目標(biāo)邊界框中的能量,計(jì)算公式為:
(8)
式中:bbox表示目標(biāo)邊界框;(i,j)為像素點(diǎn)坐標(biāo);n(i,j)∈bbox表示顯著區(qū)域落入目標(biāo)邊界框以內(nèi)的像素點(diǎn)數(shù)量;n(i,j)?bbox表示顯著區(qū)域落入目標(biāo)邊界框以外的像素點(diǎn)數(shù)量。SLoc值越大表示顯著圖的定位性能越好。測(cè)試結(jié)果如表2所示。

表2 目標(biāo)定位評(píng)價(jià)對(duì)比測(cè)試結(jié)果
針對(duì)傳統(tǒng)方法對(duì)彈載融合圖像視覺(jué)解釋效果較差、定位不準(zhǔn)的問(wèn)題,提出了一種神經(jīng)網(wǎng)絡(luò)視覺(jué)解釋方法。方法重新定義了神經(jīng)網(wǎng)絡(luò)梯度表示方法,對(duì)每個(gè)激活映射引入了置信度提升,結(jié)合權(quán)重參數(shù)對(duì)網(wǎng)絡(luò)梯度進(jìn)行重組獲得最終的類激活映射。實(shí)驗(yàn)結(jié)果表明文中方法在主觀可視化、客觀指標(biāo)以及目標(biāo)定位上均優(yōu)于經(jīng)典的視覺(jué)解釋方法,可滿足對(duì)彈載融合圖像的深度網(wǎng)絡(luò)視覺(jué)解釋。后續(xù)將重點(diǎn)在完善算法框架和優(yōu)化權(quán)重表示上加以研究,不斷提高方法對(duì)融合類圖像的解釋能力。