熊振宇,崔亞奇,董凱,李孟洋,熊偉
海軍航空大學 信息融合研究所,煙臺 264001
近年來,隨著天基海洋監視系統的大力發展,星載成像技術作為一種早期預警探測的重要手段受到廣泛關注[1]。考慮到海洋環境多變,艦船類型繁多,圖像背景信息繁雜,想要從大規模艦船數據庫中找到用戶感興趣的艦船目標圖像十分困難。除此之外,不同傳感器獲取的多源遙感目標信息類型多樣,如全色遙感圖像空間分辨率高,但光譜信息單一,多光譜遙感圖像光譜分辨率高,但空間分辨率低,同時利用多源遙感圖像能夠實現優勢互補。對于一張給定的艦船目標圖像,多源遙感艦船目標關聯模型能夠從多源數據庫中找到與其類別相同但源于不同類型傳感器的圖像,即相關聯的異源艦船目標圖像。因此構建一個高效的多源遙感艦船目標關聯模型是當前亟需解決的問題。
得益于深度神經網絡強大的特征表示能力,許多學者將深度學習用于解決遙感圖像艦船目標識別任務[2-4]。但是這些算法只能區分艦船有無或進行粗粒度的識別。當前的衛星成像技術能夠獲取到高分辨率遙感圖像以實現艦船目標的細粒度識別[5]。然而關聯任務與識別任務不同,網絡所學習到的特征不僅需要有足夠的判別性,還要在度量空間中有很好的可分性。除此之外,現有的算法只是用于解決同源艦船圖像的關聯任務,多源圖像間由于特征分布不同,存在“異構鴻溝”,使得傳統同源關聯算法無法適用于多源艦船圖像關聯任務。近年來有許多工作通過構建多源網絡將多源特征映射到共同的空間中進行度量[6-8]。但是這些算法都是用于處理多源遙感場景圖像,難以完成基于艦船目標的細粒度關聯任務,其主要挑戰在于構建的網絡需要辨別艦船目標的細微差異。為了讓網絡聚焦遙感圖像復雜場景下的顯著性區域,一些工作通過利用域自適應注意力網絡[9]、感受野增強模塊[10]、細粒度生成網絡[11]和視覺注意力模型[12]來提升模型的判別能力。但除了要求模型有足夠判別能力,可解釋性也是衡量模型優越性的關鍵因素。大部分現有深度學習算法只是一個“黑盒模型”,僅讓訓練的網絡能夠無限逼近或者擬合訓練數據的特征分布而無法為最終的輸出結果給出合理的解釋,使得用戶難以信任網絡的輸出結果,知其然而不知其所以然。如圖1 所示,利用DDN 網絡[7]對多光譜和全色艦船圖像進行關聯,并通過Grad-CAM 算法[13]對訓練好的網絡模型進行特征可視化,從激活圖像看出,網絡的顯示決策不完全依賴于目標的判別性區域。因此,對于關聯任務,模型無法解釋為什么圖1(b)與圖1(a)關聯而不與圖1(c)關聯。

圖1 輸入圖像和與之對應的激活圖像Fig.1 An input image and its corresponding activation image
為了解決上述問題,本文提出了一種基于屬性引導的可解釋融合網絡用于實現多光譜和全色艦船目標遙感圖像間關聯。該網絡主要分為全局關聯模塊和可解釋模塊2 大部分。在全局關聯模塊中,首先將利用深度神經網絡提取圖像的高層語義特征,然后設計跨模態度量損失函數對不同模態圖像的特征向量進行約束并映射到共同空間中進行度量。一方面采用模態間約束函數讓不同模態的同類圖像特征在度量空間中距離更近,異類圖像距離更遠,從而打破不同模態的異構鴻溝,解決不同模態特征難度量問題;另一方面采用模態內約束函數讓各自模態內部的同類圖像在特征空間中更加聚集,異類圖像更加分散,從而保留了各自模態內的判別性語義信息。考慮到諸如夾板、艦首、船尾等艦船目標屬性在語義上是人類可以理解的,所以在可解釋模塊中,首先采用多頭注意力模型,幫助網絡關注于艦船目標中多個顯著性區域,然后將輸出的多個注意力特征圖與全局模塊中的特征圖進行融合后轉換成融合特征,再利用屬性監督函數引導可解釋模塊訓練,幫助模型關注于艦船圖像中的判別性屬性特征,讓模型借助屬性標簽以量化的形式計算出每個屬性區域對最終關聯結果貢獻度,解析模型的關聯決策過程,最后采用知識蒸餾的思想構建蒸餾度量損失函數,減小全局關聯模塊和可解釋模塊輸出特征距離的差異,讓網絡實現可解釋性的同時不會降低關聯精度。考慮到當前沒有公開的基于艦船目標的多源遙感圖像數據集,本文構建了目前首個多源遙感圖像艦船目標數據集,其中包含了6 個艦船類別的全色和可見光遙感圖像。利用該數據集對本文算法模型進行有效性驗證,實驗結果表明本文算法在關聯準確率上明顯優于現有關聯算法,同時直觀的可視化量化結果進一步體現了模型強大判別力的同時兼備模型的可解釋性。
本節主要介紹了基于屬性引導的可解釋融合關聯網絡的具體結構,網絡主要包括全局關聯模塊和可解釋模塊2 部分,全局關聯模塊主要通過深層網絡提取特征后,利用跨模態度量損失函數將不同模態映射到共同的空間,拉近具有相同語義信息的艦船目標圖像在特征空間中的距離。在可解釋模塊中利用多頭注意力機制讓網絡關注艦船目標判別性區域,利用屬性標簽作為監督信息引導網絡學習具有艦船屬性含義的判別性特征。最后利用知識蒸餾的思想建立2 個模塊間的橋梁,使得提出的網絡模型同時兼備判別能力和模型可解釋性。算法的整體框架如圖2所示。
對于給定的多源艦船圖像數據集D={XP,XM},其中表示N張全色艦船目標圖像,表示N張多光譜艦船目標圖像。利用卷積神經網絡作為特征提取器分別提取多源圖像特征,最后一層卷積層(Conv5)輸出的特征圖分別表示為FP和FM。利用全局平均池化(Global Average Pooling,GAP)方式分別得到全色和多光譜模態特征向量為fP和fM。為了增加模型的判別性,本文提出了一種跨模態度量損失函數,一方面將不同模態的特征向量映射到共同空間中進行度量,另一方面拉近同類的艦船目標在特征空間中的距離,同時讓不同類別的艦船目標在特征空間中的距離更遠。跨模態度量損失函數的定義為
式中:Linter(fP,fM)表示模態間約束函數。其目的是讓不同模態的同類艦船圖像在特征空間中的距離更近,異類圖像距離更遠。模態間約束函數定義為
其中:τPP和τMM分別表示全色和多光譜模態的相似性系數;分別表示全色和多光譜模態內指示器,當與類別相同時,=1(i=1,2,…,N;j=1,2,…,N);當與類別不同時,=0(i=1,2,…,N;j=1,2,…,N)。的取值方式與相同。
當艦船目標圖像的特征向量在度量空間中距離越近,關聯程度越高;距離越遠,關聯程度越低。下面計算全局關聯模塊中特征向量在度量空間中的距離為
式中:D表示距離度量,本文采用歐式距離的度量方式。
解釋模塊主要包含多頭注意力模型和屬性監督函數。多頭注意力模型幫助網絡關注于艦船目標中多個顯著性區域,然后將輸出的多個注意力特征圖與全局模塊中的特征圖進行融合后轉換成融合特征;屬性監督函數引導可解釋模塊訓練,幫助模型關注于艦船圖像中的判別性屬性特征。具體結構如下:
1)多頭注意力模型

圖3 多頭注意力模型框架Fig.3 A framework of multi-head attention model
式中:M表示特征圖的數量;ΨM和ΨP分別表示多光譜和全色模態的二維卷積函數∈AM和∈AP分別表示網絡重點關注到多光譜和全色艦船圖像中的一個判別性區域。將特征圖和多頭注意力圖通過元素相乘的方式進行融合以得到細粒度區域特征圖
式中:φ表示全局平均池化函數;分別表示多光譜和全色模態的局部注意力特征。最后利用分類器對多頭注意力模型進行約束,分類器的損失函數采用交叉熵損失表示為Latt。
2)屬性監督函數
通過多頭注意力模型分別輸出多光譜和全色模態的M個局部特征圖。按照對應元素相乘的方式分別將rM與rP和全局關聯模塊中輸出的特征圖FP和FM進行融合
在多源艦船目標數據集中,對每一張艦船圖像添加了屬性標簽,屬性標簽采用二值編碼的向量表示,第i張圖像xi的屬性標簽可表示為向量,其中代表第k個屬性標簽,采用布爾數值表示,即=0 表示該艦船圖像中不包含該屬性=1 表示該艦船圖像中包含該屬性。R表示艦船目標圖像xi中屬性的數量。構建屬性監督損失函數,利用屬性標簽引導網絡關注艦船目標顯著性屬性信息,為最終網絡的關聯決策結果提供可解釋的判別依據。屬性監督損失函數定義為
式中:dij表示全局模塊中圖像特征向量的距離;表示可解釋模塊中圖像和特征向量的距離。通過優化蒸餾度量損失保證全局模塊和可解釋模塊間度量距離的一致性,讓網絡有足夠判別能力的同時具備強大的可解釋能力。
結合全局關聯模塊和可解釋模塊,綜合構建基于屬性引導的可解釋融合網絡總損失函數,其中包括跨模態度量損失函數Lmetric,注意力損失函數Latt,屬性監督損失函數Lattr和蒸餾度量損失函數Ldis。總損失函數定義為
式中:α、β和λ表示超參數,在訓練過程中用于平衡各損失函數在網絡中的權重。通過優化總損失函數,讓網絡能夠快速關注到艦船目標的顯著性區域,利用屬性信息對網絡進行約束,幫助網絡實現多源艦船目標間精準關聯,同時為關聯結果提供合理的可解釋判別依據。
隨著衛星成像技術的不斷發展,星載成像手段不斷進步,成像類型不斷增多,數據量不斷增大。為應對人工智能技術對海量數據的需求,目前一些研究者開源了遙感圖像數據集[14-16]。但這些數據都單模態遙感場景圖像數據,即獲取的圖像都在于相同的傳感器源。為填補多源遙感數據空白,Li 等[6]首次提出了面向遙感場景圖像的全色和多光譜數據集,Lu 等[17]提出了遙感圖像和文本跨模態開源數據集,Gou 等[18]開源發布了光學圖像和語音跨模態數據集。同時本團隊近年來構建了可見光和SAR 圖像跨模態數據集[19]。但這些數據集都是面向大規模遙感場景圖像,無法解決基于目標類的細粒度關聯問題。隨著衛星傳感器技術不斷進步,成像質量不斷提高,星載傳感器能夠獲取高分辨率遙感圖像,本團隊首次提出了基于屬性信息的可見光艦船目標細粒度識別遙感圖像數據集[20],但該數據集僅局限于同一種模態的艦船目標遙感圖像。
為有效應對當前日益復雜的海上戰場環境,本文結合現實需求,構建了目前首個多源艦船圖像數據集MRSSID。該數據集共有2 632 組圖像切片,每組圖像切片由同一時刻、同一區域拍攝的全色和多光譜艦船圖像組成,并且不同模態的相同艦船圖像是一一對應的。MRSSID 包含了6 個艦船類別,分別是驅逐艦、瀕海戰斗艦、戰斗艇、散貨船、集裝箱船和油船。如表1 所示,該數據集全色圖像的空間分辨率為1 m,多光譜圖像的空間分辨率為4 m,并且包含了紅、綠、藍和近紅外4 種波段。MRSSID 數據集的樣例圖像如圖4 所示。

表1 數據集描述Table 1 Description of dataset

圖4 MRSSID 數據集樣例Fig.4 Examples from proposed MRSSID
訓練階段,將MRSSID 數據集的80%圖像對作為訓練數據集,余下的20%圖像對作為測試集。考慮到訓練樣本不均衡,利用圖像翻轉、隨機剪裁和旋轉、改變圖像光照等級等策略對圖像數據樣本進行增強。在訓練前,采用補零法將所有圖像重新裁剪成224×224 大小。為了驗證本文算法的有效性和數據集的適用性,在特征提取骨干網絡選擇上,采用在ImageNet[21]上預訓練后的淺層網絡Resnet18[22]和深層網絡Resnet50[22]用于獲取輸入圖像的高級特征。Resnet 采用了跳躍連接的殘差模塊,有效解決了梯度爆炸和深層網絡中的退化問題,在當前眾多計算機視覺任務中表現出強大的特征提取能力。訓練時,首先利用訓練數據集對全局關聯模塊進行訓練,然后利用知識蒸餾的思想將其作參數固定后作為目標模型引導可解釋模塊進行訓練。對于訓練數據集中的圖像,利用其與之對應的屬性向量和全局關聯模塊中輸出的特征距離dij作為可解釋模塊訓練過程中的監督信息。訓練過程中,采用梯度下降的優化方式,初始學習率和模型訓練周期分別設置為0.001 和80,多頭注意力參數M設置為12,損失函數中的超參數α、β和λ分別設置為0.5,0,1 和1。
式中:sim(q,i)表示圖像有相同的標簽的數量。所有實驗都是在基于PyTorch 的深度學習框架上完成,實驗設備為Ubuntu 16.04,32 GB of RAM,8 Intel(R)Core(TM)i7-6770K CPU,搭載了NVIDIA RTX 2080Ti GPU。
2.3.1 消融實驗結果
為了驗證算法中各個模塊的有效性,利用Resnet50 作為骨干網絡提取圖像特征,采用P@k和mAP 這2 種性能度量指標計算關聯精度,實驗結果如表2 所示。其中PAN->MUL 表示利用已有的全色艦船目標圖像與數據庫中的多光譜艦船目標圖像進行關聯,找到與已有圖像相匹配的多光譜艦船目標圖像。MUL->PAN 表示利用已有的多光譜艦船目標圖像與數據庫中的全色艦船目標圖像進行關聯,找到與已有圖像相匹配的全色艦船目標圖像。從實驗結果可以看出,單純利用可解釋模塊算法精度較低,在加上多頭注意力模型后雖然關聯精度有所提升,但關聯效果依然不理想,這是因為多源圖像模態異構,不同模態擁有不同的特征分布,不同模態圖像間的類間距離小,類內距離大,直接對各自模態提取后的特征進行關聯,關聯精度低。全局關聯模塊利用跨模態度量損失函數將不同模態的特征映射到共同的空間中進行度量,提取更具判別性的跨模態特征。為了提取更多粒度艦船圖像特征同時增加關聯結果的可解釋性,本文算法利用知識蒸餾將全局關聯模塊和可解釋模塊相結合,進一步提升了多源遙感艦船目標圖像的關聯精度。

表2 所提算法中各個模塊有效性的關聯精度Table 2 Evaluation of association accuracy of each module in proposed method
2.3.2 算法判別性驗證
為了驗證本文算法的有效性,采用P@k和mAP 這2 種性能度量指標綜合衡量本文算法的判別能力,實驗結果如表3 所示。從實驗結果可以看出,在相同的關聯任務下,ResNet50 比ResNet18 效果更好。這表明特征網絡層數越深,關聯精度越高。在相同的骨干網絡和實驗設置下,PAN->MUL 任務的關聯精度略微高于MUL->PAN。這主要是因為全色圖像分辨率高于多光譜圖像,網絡從全色圖像中捕獲到更多細節信息,豐富的特征信息幫助網絡輸出更具判別性的特征向量。除此之外全局關聯模塊和可解釋模塊在各項指標下的關聯準確率非常接近,關聯精度相差不超過1%。這意味著本文所采用的蒸餾學習方法所造成信息間的損失很小,在追求模型可解釋性的同時,不會犧牲模型的判別能力。

表3 全局關聯模塊和可解釋模塊的關聯精度評估Table 3 Evaluation of association accuracy of global association module and interpretable module
為了更加直觀地表現出可解釋融合網絡的可分性和判別能力,采用t-分布隨機領域嵌入[23](t-distributed Stochastic Neighbor Embedding,t-SNE)得到高維特征向量的二維特征表示,其通過主成分分析法(Principal Component Analysis,PCA)將高維特征壓縮成二維。特征可視化的結果如圖5 所示,其中圖5(a)表示基線算法的特征可視化結果,即僅采用ResNet50 對圖像提取特征后進行距離度量,圖5(b)表示本文提出的可解釋融合網絡的特征可視化結果。不同顏色分別代表了不同的艦船圖像類別,形狀為“×”和“●”分別代表了多光譜和全色圖像。從試驗結果可以看出,相比于基線算法雜亂的特征表示,本文算法表現出良好的可分性和判別性。從全色和多光譜各自模態的分布中可以看出,同類圖像距離更近,異類圖像距離更遠,表明了圖像通過融合網路所輸出的特征表現出精準的類內緊致性和類間可分性。對于不同模態但具有相同類別的艦船圖像,其特征分布在度量空間中表現得更加聚集。對于不同模態不同類別的艦船圖像,其特征在度量空間中相距更遠。

圖5 特征可視化實驗結果Fig.5 Experimental results of feature visualization
2.3.3 算法可解釋驗證
為了進一步驗證本文算法的可解釋性,利用屬性引導的類激活注意力圖展示模型的可解釋實驗結果,實驗結果如圖6 所示。實驗結果分別展示了4 種不同類別關聯艦船圖像的可解釋結果,每個類別的第1 列表示了2 張不同模態的關聯圖像,余下3 列表示了它們各自排名前3 的屬性引導可視化類激活注意力圖。從實驗結果可以看出可解釋融合網絡能夠精準關注到對應的屬性區域。例如在圖6(a)的集裝箱船關聯結果中,網絡能夠有效關注到2 種不同模態的相同屬性區域,如屬性1 對應的集裝箱屬性,屬性2 對應的船尾屬性和屬性3 對應的船首屬性。除此之外,對于一些背景信息繁雜,艦船目標小,部分輪廓模糊的情況(圖6(c)),提出的可解釋融合網絡依然能夠關注到具有判別性的屬性區域,進一步驗證了本文算法優越的可解釋性能。

圖6 屬性特征類激活圖與量化可視化結果Fig.6 Attribute guided class activation maps and quantitative visualization results
除此之外,計算了每組關聯圖像的相似性分數,以量化的方式展示出排名前三的屬性對最終關聯結果的影響百分比,同時以餅圖的形式更加直觀的可視化了屬性對最終決策結果的貢獻度。實驗結果表明,4 個不同類別的量化結果都對網絡的關聯結果提供了清晰準確的模型解釋。
2.3.4 參數分析
多頭注意力模型中的參數M和損失函數中的超參數α、β和λ是可解釋融合關聯網絡中的重要參數,為評估網絡中設計的參數對最終關聯效果的影響,設計參數分析實驗如圖7 所示。圖7(a)反應了多頭注意力中注意力頭的數量M對關聯精度的影響,從圖中可以看出當M取值為12 時,關聯精度最高。圖7(b)反應了超參數α對關聯精度的影響,當α取值較小時,即多頭注意力模塊在總損失占比較小時,關聯精度較低,隨著α不斷增大,關聯精度不斷增加,當α設置為0.5 時達到最佳關聯效果。圖7(c)反映了超參數β對關聯精度的影響,從圖中可以看出隨著β的增加關聯準確率幾乎不變,即屬性監督函數在總損失函數中的占比對關聯結果影響較小,該損失主要引導網絡輸出可解釋的關聯結果。圖7(d)反映了超參數λ對關聯精度的影響,當λ取值為1 時,關聯精度最高。

圖7 參數不同取值下關聯精度的變化曲線Fig.7 Curves of retrieval accuracy with respect to different values of parameters
2.3.5 對比實驗
為了進一步驗證本文算法的優越性,表4 比較了現有關聯算法和本文算法的關聯精度。其中DCH[24]和SCM[25]算法為經典的多模態關聯算法,他們通過生成二值哈希編碼來表示不同模態數據的特征。然而,他們都是基于手工特征表示方法,在PAN->MUL 和MUL->PAN 跨模態關聯任務中關聯精度較差。這主要是因為基于手工特征的哈希表示方法無法有效保留不同模態的語義信息同時難以生成具有判別性的哈希編碼。表4 中的其他算法都是基于深度特征的關聯算法,從實驗結果可以看出他們的關聯精度明顯優越基于手工特征的關聯算法。然而DCMH[26]和DVSH[27]算法主要通過提取深度特征以生成哈希編碼來解決自然圖像和文本間的跨模態關聯任務,遙感圖像內容的復雜性限制了所生成深度哈希編碼的有效性。DCMHN_50[19]通過構建深度跨模態哈希網絡實現SAR 圖像和可見光圖像間的關聯,SIDHCNNs[6]和Distillation_50[7]通過構建共同語義空間完成了多光譜和全色圖像間的關聯。但這些工作主要是解決大規模遙感場景圖像之間的關聯任務,難以有效實現對高分辨率艦船目標的細粒度關聯。本文算法在2 個跨模態關聯任務中達到最佳關聯準確率,相較于Distillation_50 分別在PAN->MUL和MUL->PAN 這2 個關聯任務中分別高出了6.71%和5.38%。進一步驗證了本文算法相較于當前算法在艦船目標跨模態關聯任務中的優越性,體現了本文算法不僅能夠有很好的特征可解釋性,同時具備強大的判別能力。除此之外,相較于其他跨模態關聯算法,本文提出的可解釋融合關聯網絡具有很強的泛化能力,網絡中的可解釋模塊是即插即用模塊,能夠應用于圖像與音頻關聯、圖像描述和圖文關聯等跨模態任務中,便于提升模型的可解釋性。

表4 關聯精度對比實驗結果Table 4 Comparison of association accuracy of different methods
網絡的計算效率同樣是關聯任務中重要的度量標準,通過比較不同基線算法的訓練時間和測試時間來評估本文算法的計算復雜度,實驗結果如表5 所示。考慮到SCM 算法采用人工特征的表示方法,在2 個關聯任務中的耗費時間最長,效率最低,而其他3 種算法基于深度特征,關聯速度得到顯著提升。DVSH 算法采用哈希編碼的表示方法,關聯速度最快,但在表4 中,關聯精度較低。關聯精度提升往往導致更多的計算損耗,本文算法沒有復雜的網絡結構設計,能夠在達到很高的關聯準確率前提下將關聯時間控制在可以接受的范圍。

表5 關聯時間對比實驗結果Table 5 Comparison of association time of different methods
本文提出了一種基于屬性引導的可解釋融合網絡用于實現多光譜和全色艦船目標遙感圖像間關聯。該網絡通過設計跨模態度量損失函數對不同模態圖像的特征向量進行約束并映射到共同空間中進行度量;通過利用多頭注意力模型,幫助網絡關注于艦船目標中多個顯著性區域;利用屬性監督函數引導可解釋模塊訓練,幫助模型關注于艦船圖像中的判別性屬性特征,解析模型的關聯決策過程;構建蒸餾度量損失函數,讓網絡實現可解釋性的同時不會降低關聯精度。
實驗中,本文構建了目前首個多源遙感圖像艦船目標數據集。利用該數據集對本文算法模型進行有效性驗證,實驗結果表明本文算法在關聯準確率上明顯優于現有關聯算法,同時直觀的可視化量化結果進一步體現了模型強大判別力和可解釋性。在后續工作中,對本文提出的多源遙感圖像艦船目標數據集進一步擴充,同時對當前的可解釋關聯框架進一步優化,使其能夠完成2 種以上模態數據之間的可解釋關聯任務。