關 欣 國佳恩*② 盧 雨
①(海軍航空大學 煙臺 264001)
②(中國人民解放軍91422部隊 煙臺 265200)
當前對海洋態勢感知的迫切需求使得艦船監測數據在數量上呈現出爆炸性增長的態勢,在大規模艦船監測數據中檢索到感興趣的關鍵信息也就成為當前一個亟需解決的關鍵問題,具有廣泛的應用前景和較高的研究價值,一個良好的檢索算法能大大提升對監測大數據的管理能力[1,2]。
文獻[3]是對遙感場景圖像進行跨模態檢索的首次嘗試,作者基于深度學習架構設計了一組源不變深度哈希卷積神經網絡(Convolutional Neural Network, CNN)用于雙模態遙感圖像特征的并行提取,并在其構建的雙模態遙感圖像數據集(Dual-Source Remote Sensing Image Dataset, DSRSID)上驗證了所提算法的有效性;通過將識別引入跨模態檢索框架中,Xiong等人[4]基于循環生成對抗網絡[5](Cycle-Generative Adversarial Networks,Cycle-GAN)設計了一種循環-識別生成對抗網絡并將其用于跨模態配對樣本的生成,以源域-目標域圖像互相映射的思路解決了跨模態數據的特征漂移問題,在DSRSID上的平均準確率均值(mean Average Precision, mAP)[5]最高可達到97.55%;文獻[6]采用了知識蒸餾的思路來解決跨模態數據的“異構鴻溝”問題,通過將源域圖像信息進行跨模態蒸餾,在DSRSID上的mAP值最高達到了98.98%;Sun等人[7]同樣基于跨模態對抗網絡(Cross-modal Adversarial Network, GAN)設計了多光譜(Multi-Spectral, MS)圖像生成網絡進行跨模態視覺語義差異的消除;Hu等人[8]主要關注含噪聲標簽背景下的圖文跨模態檢索問題,基于魯棒聚類損失和多模態對比損失設計了一個通用的多模態魯棒學習框架,在4類廣泛使用的多模態數據集上驗證了所提框架的先進性;Xu等人[9]針對圖文檢索中源域和目標域類別不一致導致的不可擴展問題,提出了一種模態對抗性語義學習網絡來重建不同模態數據,對抗性學習機制的引入可以最小化跨模態類別差異,較好地解決了目標域存在“不可見”類時的跨模態檢索問題。文獻[9]采用的對抗思想最早由Wang等人[10]提出,讓不同模態特征相互對抗以實現混淆的目的,特征對抗的思想也被后來的許多多模態檢索研究所借鑒;文獻[11]基于模態對抗思想構建了跨模態檢索框架,并利用圖卷積神經網絡進行樣本表示的重構,以彌補單樣本信息表達的不足;文獻[12]提出了一種基于對抗引導的非對稱哈希方法,同樣基于對抗思想進行跨模態檢索框架的搭建,并且為了保留樣本的多標簽語義信息,設計了非對稱式的哈希生成方法來進行多標簽語義信息的映射。但是上述方法中特征對抗的實現均基于高維卷積特征,難以保證特征空間與度量空間相似性的完全過渡,在檢索精度上仍然有進一步的提升空間。
當前專門針對艦船圖像檢索的研究較少,Hu等人[13]基于視覺詞袋模型進行艦船圖像的視覺特征提取,并采用詞頻-逆文檔頻率對詞頻向量進行加權,實現艦船圖像檢索的同時提升了檢索的效率;另有Tian等人[14]利用VGG16網絡提取的卷積特征構造視覺詞袋,其檢索準確性要高于傳統尺度不變特征變換及加速穩健特征;鄒利華[15]則基于自適應短時傅里葉算法輔以主成分分析降維實現了艦船圖像的快速檢索。綜合當前研究成果來看,關于跨模態檢索的研究限于圖文及遙感場景圖像等對象,僅有的幾項針對艦船圖像檢索的研究仍然以傳統手工提取特征為主,且主要集中于同模態圖像的相互檢索,普遍存在特征提取困難,檢索效率低下等問題,針對艦船圖像的跨模態檢索研究幾乎沒有。
為了彌補艦船圖像跨模態檢索的相關研究空白,本文設計一種基于判別性對抗哈希變換器(Discriminant Adversarial Hashing Transformer,DAHT)的跨模態艦船圖像檢索框架予以解決。具體來說,DAHT在一個框架內融合了GAN及ViT (Vision Transformer)[16]兩種視覺生成及理解范式,識別-哈希變換器(Identity-Hash Transformer, IH-Transformer)用于艦船圖像微細節提取并在GAN中扮演生成器角色,CAN用于在哈希空間中消除由生成器輸出的跨模態配對哈希碼的模態差異。此外,本文還設計了一種基于歸一化折損累計增益(Normalized Discounted Cumulative Gain, NDCG)加權的判別性跨模5元組損失(NDCG Weighting based Discriminant Cross-modal Quintuplet Loss,NW-DCQL)以實現哈希空間中不同類別樣本的最優分布。
本文考慮有監督條件下雙模態艦船圖像的相互檢索,給定N組配對圖像集為與之對應的標簽向量,其中li=[li1,li2,...,lic]是第i組圖像對應的標簽向量,其中lij ∈[0,1],c為類別數。DAHT的整體框架由2.1節給出,其中包含兩個重要組件:用于語義嵌入及哈希生成的識別-哈希變換器及用于模態混淆的跨模態對抗網絡,用于指導網絡訓練的核心損失函數NW-DCQL將在2.4節進行具體介紹。
圖1是DAHT的基本框架,其整體以GAN結構進行搭建,并將模態對抗從特征空間轉移到哈希空間中,確保網絡的優化對象與最終用于檢索的特征向量相一致。生成器在DAHT中被替換為雙模態艦船圖像特征提取器IH-變換器,用于對輸入的雙模態配對艦船圖像進行判別性特征提取,并經過哈希生成后在哈希空間內進行2元博弈以欺騙判別器。當配對樣本生成的哈希碼能夠實現對判別器的有效“欺騙”時,認為實現模態混淆,模態邊界消失,艦船圖像的跨模態檢索問題轉化為單模態檢索問題,在一定程度上保證了檢索的準確性。如圖1,IH-ViT具有兩組輸出,可實現類別預測及哈希碼生成的雙重功能。其中哈希分支用于艦船圖像的哈希生成,可將多模態艦船圖像中包含的判別性信息集成到緊湊的二進制哈希碼中,以提升后續艦船圖像的跨模態檢索速度。識別分支輸出的類概率分布則用于提升哈希生成的質量,在交叉熵損失的約束下可對不同類別艦船圖像包含的潛在語義信息進行預先嵌入,使得生成的哈希碼在進入哈希空間之前能夠包含足夠的語義判別信息,以便后續交由NWDCQL進行進一步優化。
圖1 DAHT基本框架
針對常規CNN無法有效關注艦船圖像的細節信息,對全局特征建模能力不強等問題,本文將ViT作為特征提取器引入到檢索框架中,試圖更好地建模深淺層視覺特征之間的相似性以及圖像的空間信息,并提出一種可同時滿足分類及檢索雙重功能的視覺變換器,即IH-ViT,其結構如圖2所示。
如圖2,按照ViT的處理思路,尺寸為H×W×C的輸入圖像進入IH-ViT后首先被分割成若干大小為P×P×C的圖像切片,其中H×W為輸入圖像的分辨率,P×P為圖像切片的分辨率,C為圖像通道數。經過分割得到的圖像切片數為N=HW/P2。由于變換器只能處理序列數據,在完成圖像分割后需要將2維圖像切片拉平為1維圖像序列,并統一處理為相同維度D以便后續處理。式(1)表示圖像序列的預處理。其中,xi為展平后的圖像序列,E為用于維度轉換的變換矩陣,z0為最終輸入編碼器的序列組
原始ViT中一組可優化的序列xclass即Class Token可與其他圖像序列進行交互,自適應地從中提取有效判別性信息,并最終轉換為可用于分類的圖像表示。為了保持原始圖像塊的位置信息,一組1D位置編碼序列Epos參與到序列組z0的構造中,并滿足Epos∈R(N+1)×D。
ViT最初被設計用于解決圖像分類問題并通過Class Token輸出的類概率分布來實現。文獻[12]在Class Token之后附加了一組全連接層進行維度變換以獲取圖像的哈希表示,基于分類及檢索的差異性,這種直接嫁接的方式并不能獲得完全有效的哈希表示,且丟失了原始Class Token的類語義嵌入功能。為了保留Class Token分類功能的同時獲取高質量的圖像哈希表示,IH-ViT在原始ViT的基礎上設計了一組同樣可隨訓練進行優化的1維哈希序列Hash Token用于哈希生成,表示為xhash,并將其添加到圖像序列組中參與信息交互,捕獲用于滿足檢索任務的判別性信息,如式(2)所示。
此時位置編碼序列Epos與輸出序列組z0的維度也隨之發生改變并擴展到N+2維,即∈R(N+2)×D。
圖像預處理完成后,便可輸入變換器編碼器進行后續的處理。IH-ViT采用了與原ViT一致的編碼器結構進行圖像序列的處理。如圖2,圖像序列組進入編碼器后,首先依靠層歸一化(Layer Norm,LN)完成規范化處理,然后在多頭自注意力模塊和多層感知機(Multi Layer Perceptron, MLP)中進行進一步處理,并通過跨層連接的方式進一步增強特征表示,上述流程可總結為
其中,L為編碼器數量。多頭自注意力模塊的具體結構及原理本文不做贅述,在此只給出編碼器的具體構造,如圖2(b)所示。綜上,IH-ViT的最終輸出為xclass以及xhash兩部分,并通過兩組多層感知機(Identification Head及Hashing Head)分別輸出類概率分布y和實值哈希碼h
為了使生成的哈希碼具備足夠的判別性,IH-ViT基于y額外構造了分類任務,試圖通過分類對IHViT進行輔助優化,將潛在的類語義信息轉移到生成的哈希碼中,該過程通過交叉熵損失來實現
為了避免直接在特征空間中優化IH-ViT使得哈希碼的跨模態相似性無法有效保持的問題,本文將對抗思想引入哈希空間,嘗試在哈希空間中消除跨模態“異構鴻溝”,實現哈希碼的最近鄰匹配。具體來說,CAN僅采用了GAN中的判別器結構,而生成器被替換為雙流IH-ViT,并以其輸出的實值哈希碼作為CAN的輸入參與模態對抗。CAN的目的是對來自不同模態的哈希碼進行辨別,并將損失進行反向傳播,以此實現對自身參數及雙流IH-ViT的更新。其損失函數為
其中,hm,hn為雙模態哈希碼,?h為判別器參數,D表示判別器。
借助GAN的最大-最小的2元博弈結構,整個DAHT的參數都可以隨著CAN的輸出做動態調整優化,在這個過程中同類別樣本的跨模態差異性得以不斷縮小,當CAN無法對輸入進行辨別時,表明此時分屬不同模態的哈希碼在哈希空間實現了一致的分布,目標函數取得全局最優解。
表1給出了判別器的網絡結構,其中B表示哈希碼長,Tanh用于將輸出限幅為[0,1]。
表1 判別器結構組成
DAHT的輸入為配對的雙模態艦船圖像,即使考慮模態異構,雙模態艦船圖像仍然具有較高的相似性,而CAN只針對配對樣本之間的模態差異進行了優化,雖然保證了跨模態同類樣本具有一致的哈希分布,但沒有很好地考慮艦船圖像巨大的類內差異性和高度的類間相似性。3元組損失通過抽樣并構造Anchor-Positive-Negative的圖像3元組形式,可以較好地解決上述問題,但將其直接應用到跨模態檢索中又存在困難。3元組損失的核心在于3元組的構造,一般思路是選取難區分樣本組以增強網絡的泛化能力,從而使網絡學習到更好的表征。文獻[17]通過構造采樣器實現了基于難樣本挖掘的3元組損失,但十分消耗計算資源。為了保證網絡跨模態快速檢索的同時實現良好的正負樣本區分,本文摒棄了難樣本挖掘的傳統思路并提出一種帶反饋機制的判別性跨模5元組損失NW-DCQL予以解決。
3元組損失的基本思想是對于每一張參與訓練圖像即錨點圖像(Anchor)都從其對應的batch中選取1張正樣本(Positive)圖像即同類別圖像和1張負樣本(Negative)圖像組成3元組參與訓練,使得在特征空間中錨點圖像能夠和正樣本圖像接近而遠離負樣本圖像。其定義為
其中,d(·)表示距離,“+”表示正樣本,“-”表示負樣本,m為邊距控制系數,用于控制錨點圖像與正負樣本圖像之間的距離差。區別于常規3元組損失,NW-DCQL可同時進行模內及跨模采樣。如圖3所示,(m+,m-)為同模態采樣的正負樣本對,(n+,n-)則為跨模態采樣的正負樣本對。此外,NW-DCQL還將訓練過程的關聯結果反饋到5元組損失的計算中,并通過加權的方式優化正負樣本之間的距離,以此代替難樣本的挖掘過程。在介紹NW-DCQL之前,首先對加權5元組損失的原理進行介紹。如圖3,ω,μ為權重系數,并滿足ω >1,μ<1。不難得出,在權重系數的控制下,當l1, l2取值不變時,錨點圖像與正樣本圖像之間的距離變得更小而與負樣本圖像之間的距離增大,這無疑會使得網絡可以更好地對不同類別圖像進行區分辨別。結合上述分析首先給出加權跨模5元組損失的定義
圖3 加權5元組損失原理
其中,p,q為邊距控制系數。將權重ω,μ替換為NDCG,得到基于NDCG加權的判別性跨模5元組損失為
其中,NDCG[18]是一種用于評估推薦系統中排序返回結果的準確性的指標,排名越準確,其值越接近1。綜上,DAHT的損失函數共有LCAN, LIDE及LNW-DCQL3部分,首先對LIDE及LNW-DCQL進行組合并用于網絡的端到端優化,得到目標函數
其中,α, β為損失對應權重。
組合完畢采取交替策略后對整個DAHT進行優化。具體來說,首先固定DAHT中除CAN外的參數,并依靠LCAN進行反向傳播更新CAN參數;而后固定CAN中的參數,依靠L對網絡其余部分進行優化。
本文引入目前唯一公開的兩組雙模態艦船圖像數據集MPSC[19]及VAIS[20]進行DAHT跨模態檢索效果的檢驗。為了確保實驗對比的公平性,本節開展的艦船圖像跨模態檢索實驗均在官方測試集上開展,并采用與文獻[21]一致的計算平臺進行網絡的訓練及效果的測試。數據集的具體類別信息同樣已由文獻[21]給出,本文在此不做贅述。
由于目前沒有專門針對艦船圖像的跨模態檢索研究,為了全面地檢驗DAHT的艦船圖像檢索效果,本文從遙感場景圖像檢索及圖文檢索領域選取幾類先進的跨模態哈希檢索方法參與對比,分別為AGAH[12], DADH[22], DCMH[23], DCMHN[24];此外,本文額外引入DHN[25], DSH[26], DCH[27],DFH[28], DPN[29]等幾類表現良好的哈希檢索框架進行DAHT單模態艦船圖像檢索效果的對比檢驗。為了保證實驗對比的公平性,上述哈希方法的特征提取器均被替換為ResNet50。同時,實驗選取檢索任務中常用的mAP及PR(Precision-Recall)曲線[23]兩類指標進行檢索效果的評價。
α, β, p, q, B默認值為1.0, 0.1, 0.3, 0.3, 256,圖像尺寸預處理為2 2 4×2 2 4,圖像塊尺寸為16×16,編碼器個數為12,MSA頭數為12,維數D設定為768。采用Adam算法進行網絡優化,初始學習率設定為0.000 1,共訓練100輪次,每10輪衰減0.9倍。
表2給出了不同哈希碼長下不同哈希算法的跨模態檢索mAP值,其中,M2P表示用多光譜圖像檢索全色圖像,其余檢索任務采用相同的表示方法,加粗字體表示對應檢索任務的最優結果。分析表中結果可以發現,DAHT在4類不同的艦船圖像跨模態檢索任務中均實現了最高的mAP值。這是因為DAHT采用的IH-ViT是在ViT的基礎上進行搭建,ViT的引入首先保證了網絡可以有效關注艦船圖像中的細節信息,同時可有效建模艦船圖像的整體信息,相比幾類對比方法能夠有效捕獲多模態艦船圖像的判別性信息;其次,Hash Token結構的設計也使得DAHT可以更好地進行哈希生成,與Class Token互相配合可以幫助網絡有針對性地對類語義信息及哈希信息進行分別建模,生成的哈希碼也即更具判別性;此外,在3元組損失基礎上改進得到的NW-DCQL能夠同時進行樣本的模內及跨模采樣,對跨模態檢索具有更好的適應性,反饋加權機制的設計也能夠加速網絡的收斂,在隨機構造5元組的基礎上增強了對難樣本的區分性。
表2 不同哈希碼長度下跨模態檢索mAP值對比
繼續對DAHT的單模態艦船圖像檢索效果進行檢驗,結果如表3所示。從表3結果來看,DAHT在不同哈希碼長下相比幾類單模態哈希檢索算法仍然具有一定的檢索優勢,在P2P及I2I兩類檢索任務上相比其他算法有近20%的性能提升,在M2M及V2V中則略遜于DCH等對比算法。這是由于NWDCQL同時進行了模內及跨模的采樣,其優化方向不易把握,在實現跨模緊致性的同時無法保證同模態樣本的類內緊致性,因此在單模態艦船圖像檢索任務中缺乏一定的魯棒性。雖然DAHT在M2M及V2V兩類檢索任務中沒有實現最佳的檢索精度,但與最優結果相差并不大,總體來看仍然優于幾類對比方法。
表3 不同哈希碼長度下單模態檢索mAP值對比
圖4及圖5分別為哈希碼長為256 bit時的跨模態及單模態檢索PR曲線。圖4可以清晰地展示DAHT相比其他跨模態檢索方法的巨大優勢,在同樣的Recall值下,其Precision值要大幅高于其他算法。圖5同樣表明了DAHT在單模態檢索中要優于其他哈希方法。綜合表2及表3中的mAP結果可以驗證DAHT對艦船圖像檢索任務的有效性。
圖4 不同網絡跨模態檢索PR曲線對比(256 bit)
圖5 不同網絡單模態檢索PR曲線對比(256 bit)
為了進一步對DAHT中設計的不同模塊進行性能檢驗,設計以下5種形式的DAHT并開展消融實驗對DAHT進行評估,包含DAHT在內的7種網絡8類檢索任務的mAP值如表4所示。
表4 消融實驗mAP值
(1) DAHT-1:將跨模加權5元組損失替換為跨模3元組損失。
(2) DAHT-2:將跨模加權5元組損失替換為跨模5元組損失。
(3) DAHT-3:去除跨模態對抗網絡不進行模態混淆。
(4) DAHT-4:去除Hash Token,直接用Class Token進行哈希生成。
(5) DAHT-5:將IH-ViT替換為ResNet50。
(6) DAHT-6:在跨模5元組損失基礎上采用文獻[28]的難樣本挖掘策略。
綜合分析表4中結果可以發現,DAHT在8類檢索任務中均取得了最高的檢索mAP值。以P2M為例,DAHT相比其他6種形式的DAHT分別提升了2.3%, 6.9%, 2.5%, 3.5%, 8.3%及2.2%,證明DAHT中設計的幾種性能提升手段均能改善網絡的檢索準確性。NW-DCQL采用的跨模態采樣策略縮小了同類別樣本的模態差異,能有效改善跨模態檢索的準確性;NDCG的引入既實現了加權5元組損失對正負樣本對距離的良好控制,又可以將關聯結果反饋到網絡的優化過程中,相比常規3元組損失其對類別信息的判別性更強,能夠更加有效地指導DAHT的訓練,提升DAHT的判別性。CAN的設計可進一步提升跨模態配對哈希碼的相似性,使得同類別樣本的模態差異減小,更容易實現艦船圖像的準確檢索;DAHT-5的檢索結果則驗證了ViT相比CNN在艦船圖像特征提取上的優勢。
DAHT的檢索性能受目標函數的影響,式(10)中有效的超參數取值能幫助DAHT實現最佳的檢索效果。圖6給出了超參數α和β的不同取值在MPSC上的影響,其中數值結果表示DAHT在M2P及P2M兩類檢索任務上mAP的平均值。
從圖6可知,不同的超參數設置對檢索結果的影響較大。總體來看,DAHT對α的變化較為敏感,平均檢索mAP在不同α取值下具有較大的波動趨勢,且不同哈希碼長下的平均檢索mAP亦有較大差異。因此在不同碼長下,為了保證較好的檢索效果,DAHT可以進行參數尋優以取得較高的檢索準確率。同時可以看出當α和β均取0時,DAHT的跨模態檢索效果及單模態檢索效果均大幅下降,而當取其他值時,檢索效果變化不大,證明了式(10)中設計的兩類損失函數均能有效提升DAHT的艦船圖像檢索效果。
表5給出了不同方法在MPSC上單一輪次的平均訓練時間。為了保證對比的公平性,本節采用相同的運算平臺進行網絡的訓練,并且只對訓練時間進行統計,數據的預處理等過程消耗的時間不統計在內。根據表5結果,由于DAHT的參數量較大,相比其他算法在訓練時間上不具有顯著優勢,遜于幾類對比算法;同時,對比DAHT-6的訓練時間來看,DAHT采用的反饋加權策略既能實現檢索精度的提升,又不會增加運算量,證明了NW-DCQL在跨模態檢索任務中的有效性。
表5 不同方法訓練時間及參數量對比
針對當前無專門針對艦船圖像跨模態檢索研究,現有跨模態檢索方法對艦船圖像適應性不強的問題,本文提出一種基于判別性對抗哈希變換器的跨模態艦船圖像檢索方法。基于ViT構建哈希轉換器將艦船圖像的判別性細節特征轉換為高質量哈希碼,并通過對抗訓練消除模態差異性,保持配對樣本的語義結構。在此基礎上設計了一種跨模加權5元組損失實現在無難樣本挖掘的前提下對不同類別樣本的距離控制,有效提升哈希碼的跨模態相似性及異類語義區分性。實驗結果表明,本文所提方法能大幅提升艦船圖像的跨模態檢索準確性,同時兼具良好的單模態艦船圖像檢索效果,具有較高的實際應用價值;但同時ViT的引入也使得模型存在參數量較大以及圖像需預處理成相同尺寸等不足,后續將針對模型的輕量化展開進一步的研究。