周春花, 魏維偉, 張學成, 鄭 鑫, 程冕之
(1. 上海無線電設備研究所, 上海 201109; 2. 上海目標識別與環境感知工程技術研究中心, 上海 201109; 3. 中國航天科技集團交通感知雷達技術研發中心, 上海 201109; 4. 陸軍裝備部駐上海地區第三軍事代表室, 上海 200031; 5. 上海航天技術研究院, 上海 201109)
傳統機器學習任務依賴大量有良好標注的數據,并且在許多識別任務中都取得了重大進展。然而,傳統機器學習方法僅能識別與訓練類別相同的目標,當一個新的類別出現時,傳統模型無法識別出這一新的目標類型。逆合成孔徑雷達(inverse synthetic aperture imaging radar,ISAR)隱身目標的實際應用即面臨這一問題。一方面,直到目前為止,沒有公開、確鑿的隱身目標ISAR的數據支撐;另一方面,隱身目標的ISAR成像受目標位置、姿態、雷達照射角度和隱身目標的低可探測性影響,難以實現人工標注。由已有的先驗數據可知,隱身目標的視覺圖像信息和文本語義特征信息與ISAR成像信息相比較為充裕,由此提出ISAR隱身目標零樣本學習,通過借助文本語義描述信息,生成圖像特征信息,以支撐不可見未知的新目標識別。
文獻[1]將圖像小塊分割后引入多頭自監督的視覺注意力轉換機制以解決可鑒別屬性定位問題;文獻[2]基于二維視覺圖像和無紋理的三維模型訓練零樣本學習模型推理三維未知模型;文獻[3]提出了既可以處理分類,也可以泛化處理的語義分割零樣本學習模型;文獻[4]通過部組件識別重構圖像場景的主謂賓語義理解關系,從而實現場景生成模型的性能提升;文獻[5]提出意大利語的文本語義與圖像特征對零樣本學習模型;文獻[6]利用雙層注意模塊結合區域和場景上下文信息來豐富特征,以更好地實現多標簽的零樣本學習分類。
本文提出使用兩個生成模型分別處理隱身目標ISAR圖像信息和語義描述信息,通過學習具備模態不變特征的潛在變量來實現對于不可見類別的識別。使用所提模型在公開數據集和私有數據集均獲得了良好效果,其中對于隱身目標的識別率達到了75%。
零樣本學習指借助文本語義信息的輔助來實現對于不可見類型目標的識別。通常情況下,零樣本學習算法會首先利用可見類別目標的視覺圖像和對應的語義描述來訓練一個生成網絡,實現以輸入語義描述生成視覺圖像的生成過程。然后,使用該生成網絡和不可見類語義描述來生成與之對應的不可見類圖像,從而解決不可見類圖像的樣本缺失問題,借助常見的分類器網絡實現對于不可見類目標的識別。
本文首次在ISAR隱身目標零樣本識別問題中引入零樣本學習,采用的零樣本學習同樣遵循了生成式的方法,實現文本語義特征信息到雷達圖像特征生成遷移。所謂生成式指的是訓練一個生成網絡,該網絡能夠根據給出的語義描述生成對應的圖像特征。在生成式的零樣本學習研究中,有兩種典型的生成網絡,一種是生成式對抗網絡(generative adversarial network, GAN)[7],另一種是變分自編碼器(variational auto-encoder, VAE)[8]網絡。通過生成網絡,借助不可見類的文本語義描述信息,可以獲得對應的不可見類的圖像特征。采用生成的不可見類圖像特征來進行分類識別,當生成的圖像特征具備了真實目標特征時,就能夠實現對于真實不可見類目標的識別,從而實現利用文本語義信息輔助來實現對于不可見類目標的識別,能夠成功地分辨出各類型的實體。其中,GAN需要的計算資源豐富、訓練成本高、訓練時間更長,而VAE需要的計算資源較少、訓練時間較短,但存在一定程度的生成圖像失真問題。為了能夠實現高效網絡運行,本文采取VAE的結構。

Ez~qθ(z|x)[lnpφ(x|z)]-DKL(qθ(z|x)‖p(z))
(1)
式中:qθ(z|x) 表示參數為θ的編碼器;pφ(x|z)表示參數為φ的解碼器。式(1)中的第1項為自編碼器的重構誤差,第2項DKL(·)為KL散度(Kullback-Leibler divergence),這一項的作用是約束編碼器qθ(z|x)以更加接近符合高斯分布的前驗分布p(z)。
為了能夠充分利用語義描述和視覺圖像特征兩種模態的信息,設計了兩個用于生成的模型,一個用于進行語義描述信息的編碼和解碼過程,另一個用于進行視覺圖像信息的編碼和解碼過程。通過兩個模型來實現對于語義描述信息a和視覺圖像特征x的綜合利用,所采用網絡模型訓練的損失函數為

(2)
式中:前兩項表示用于進行視覺圖像特征編解碼的訓練損失函數;后兩項表示用語義描述信息進行編解碼器訓練的損失函數。式(2)中的z1和z2分別表示視覺圖像特征和語義描述信息的潛在變量,即視覺圖像特征和語義描述信息編碼器的輸出。
通過式(2)的約束,本文所設計的生成模型分別對視覺圖像特征和語義描述信息分別進行了自編碼處理。為融合利用兩種信息實現的零樣本目標的識別,視覺圖像特征自編碼器和語義描述信息自編碼器的潛在變量需要包含視覺特征和語義描述兩種模態的信息,因此針對表示視覺圖像特征和語義描述信息編碼器的輸出的潛在變量z1和z2施加互信息處理,通過互信息處理讓z1和z2包含的信息相互接近,從而實現兩種信息的融合。進行互信息操作的一般過程如下:
(3)
式中:X和Y表示任意的兩個變量。在本文中,采用增強同類別變量之間的互信息而減弱不同類別變量之間的互信息,因此最終對模型進行訓練的損失函數為
(4)

針對視覺圖像特征和語義描述信息編碼器輸出的潛在變量z1和z2施加互信息,實現了對來自視覺圖像和語義描述兩種模態信息的融合。在本文所設計的方法中,最終需要針對潛變量來完成分類識別任務,因此在保證來自同一類別的潛在變量z1和z2包含模態不變信息的同時,還應保證能夠充分學習兩個潛在變量的特征。因此,對兩個潛在變量z1和z2的聯合分布進行最大化熵的操作,該操作如下:

(5)
式中:z=(z1,z2)是潛在變量的聯合變量;H(z)表示計算聯合變量的熵;f(·)表示進行softmax操作;pz1z2表示潛在變量z1和z2的聯合分布。針對潛在變量施加互信息約束,通過最大化熵的操作,分類器在識別z1和z2時需要充分利用兩個潛在變量的信息,而不會僅利用部分特殊信息來分辨潛在變量。
在零樣本的學習任務中,處理了視覺圖像特征模態和語義描述兩種模態的數據,在涉及到多種模態處理的領域中,循環一致重構(cycle-consistent reconstruction,CCR)已被證實能夠有效處理多模態數據問題[9-11]。同時,利用CCR進一步確保了潛在變量包含足夠的模態不變信息。進行這一操作的過程如下:

|a-Ds(Ev(x))|]
(6)
式中:η>0是一個超參數。
在生成網絡基礎上,添加了互信息、最大化熵、CCR 3種技術手段來提升生成模型的表現。在進行模型訓練時,將式(2)、式(4)~式(6)同時添加到訓練損失中,得到的整體損失函數如下:

(7)

經過對生成模型的訓練之后,針對潛在變量z1和z2訓練一個softmax分類器,來執行零樣本目標的識別任務。
為了方便和其他方法比較,遵循其他方法的設定,在視覺圖像特征的自編碼器輸入端使用經過卷積神經網絡提取的圖像特征而非圖像本身。自編碼器中的編碼器和解碼器均由多層感知(multi-layer perception,MLP)機構成。
本文所使用算法的示意圖如圖1所示,本文所采用的編碼器和解碼器均為帶有一個隱藏層的MLP機。其中,用于處理視覺圖像信息的編碼器隱藏層包含1 560個單元,相應的解碼器隱藏層包含1 660個單元。用于處理語義描述信息的編碼器隱藏層有1 450個單元,解碼器的隱藏層有660個單元。

圖1 本文算法示意圖Fig.1 Schematic diagram of the proposed algorithm
模型進行訓練的過程如圖2所示,通過圖2的流程使用訓練數據進行模型的訓練,同時每完成一次訓練,使用驗證集來進行模型的測試,根據測試結果判斷是否繼續進行訓練。當驗證結果及測試結果均滿足預期要求時,停止訓練,并保存網絡模型參數。

圖2 模型訓練流程圖Fig.2 Flowchart of model training
為了對所提出的模型進行測試驗證,同時為了表明零樣本模型的真實能力,在公開動物屬性(animal with attributes, AWA)數據集AwA1[12]、 AwA2[13],以及加州理工學院鳥類(caltech-USCD birds,CUB)數據集[14],以及場景理解(scene understanding,SUN)數據集[15]上進行測試。其中,AwA1和AwA2數據集為動物的圖像數據集,包括50個類別的圖片,其中40個類別作為訓練集,10個類別作為測試集,每個類別的語義為85維。AwA1總共有30 475張圖片,AwA2總計有37 322張圖片。CUB全部都是鳥類的圖片,總共200類,150類為訓練集,50類為測試集,類別的語義為312維,有11 788張圖片。SUN數據集總共有717個類別,每個類別包含20張圖片,類別語義為102維,645個類別用于訓練,72個類別用于測試,總計14 340張圖片。上述的數據集是目前學術界進行零樣本研究的主要數據集,在該類型數據集取得的效果能夠證明算法模型的表現和性能。表1展示了綜合識別可見類與不可見類時的結果,表格中的結果表示為可見類與不可見類識別結果的調和平均值,即調和均值=(2×可見類結果×不可見類結果)/(可見類結果+不可見類結果)。本文在公開數據集對比的方法包含特征標簽嵌入(attribute label embedding,ALE)[14]、深度嵌入模型(deep embedding model, DEM)[16]、生成對抗零樣本方法(generative adversarial approach for zero-shot learning,GAZSL)[17]、合成示例方法(synthesized examples, SE)[18]和自適應置信平滑方法(adaptive confidence smoothing, COSMO)[19]。

表1 不同方法在公開數據集上的效果表現Table 1 Performance of different methods on public dataset
根據表1中的結果,該方法明顯優于之前的方法,在AwA1數據集上得到了4%的提升,在AwA2數據集上得到了5.4%的提升,在CUB數據集上得到了4.8%的提升,在SUN數據集上得到了0.4%的提升。
在進行零樣本目標識別時,由于文中待識別的目標為ISAR隱身目標,采取針對目標的光學和雷達雙模態識別,首先獲取光學圖像,然后仿真生成雷達圖像,最終達到的識別效果優于單一模態下的效果。此外,在實驗中可直接獲取的可見類圖像主要為光學圖像,因此在光學圖像場景下的數據分析能夠更加清晰地表明零樣本學習效果,同時更便于理解零樣本學習算法的實際作用。
本文的實驗驗證階段首先收集了18種不同型號飛機的光學圖像信息,表2詳細介紹了數據集中各類型飛機及其對應的數目。

表2 進行零樣本識別的飛機數據集Table 2 Aircraft dataset for zero-shot recognition

續表2Continued Table 2
針對文本語義描述信息,采用了基于目標屬性的方式進行語義描述信息的制作,對“機身長度”“翼展”“是否有翼尖小翼(0,1)”“尾翼(0,1)”“機翼面積(m2)”“高度”“展弦比”“發動機個數”“機翼形狀(后掠翼、三角翼、梯形翼、菱形翼)”“推進動力(螺旋槳,噴氣機等)”“機翼數量”“起落架數量”“主起落架輪子數”“垂直穩定器數量”“飛機類型” 等類型屬性進行標注。表3詳細介紹了進行零樣本識別時使用的語義描述信息。最終,將所有的屬性信息按照順序進行了排布,然后根據屬性的內容處理為浮點數值,將內容中為數值的內容轉換為浮點類型數據,將布爾值數據轉換為用“0”與“1”代表的數值數據,將比率數據直接轉化為以小數表示的浮點數據,將選項值數據按照選項個數進行編號,并以編號內容作為屬性值。通過數據化的操作,最終所有的語義標注信息轉變為一條由純數據構成的屬性向量。屬性向量的維度為17維,每一維度對應屬性中的每一個項目。

表3 進行零樣本識別的語義描述含義Table 3 Meaning of semantic description for zero-shot recognition

續表3Continued Table 3
針對飛行器數據集,采用15種類型的飛機來進行訓練,經過訓練和最終的測試,測試結果如圖3所示,該模型成功識別了不可見類飛行器(圖3所示A機型和B機型)并達到了75%的綜合識別效果,其中針對A機型的識別率更是達到了86%。

圖3 自制數據集零樣本識別效果Fig.3 Zero-shot sample recognition performance of customized data set
在針對飛機類型的測試中,該模型在識別B機型時識別成功率為63%,即在100份B機型的雷達圖像或光學圖像中,能夠識別出63%的目標并將其正確標記為B機型。在對A機型飛機進行識別時,該模型的成功率為86%,即在100份A機型的雷達圖像或光學圖像中,能夠識別出86%的目標并將其正確標記為A機型。針對兩者的綜合情況,采取對兩者的識別率計算綜合分類成功概率為(86%+63%)/2=75%,因此模型綜合識別兩種類型的不可見類目標的效果為75%。
此外,還針對不同的生成網絡生成樣本的情況進行了對比實驗,實驗最終結果如表4所示。
護理前兩組心理健康指標漢密爾頓相關指數接近,差異無統計學意義(P>0.05);護理后試驗組心理健康指標漢密爾頓相關指數的改善幅度更大,差異有統計學意義(P<0.05)。

表4 3種不同生成模型的識別結果Table 4 Recognition results of three different generative models
由表4可以發現,使用單個VAE和單個GAN生成模型獲得的最終識別率均低于本文所使用的方法,這也證明了本文所提算法與已有的成熟算法相比具備更高的生成效果,能夠實現更好的零樣本目標特征的生成。為了進一步證明本文所提算法的先進性,表4還報告了傳統的零樣本學習算法在飛行器數據集上的效果。需要注意的是,這里的傳統零樣本學習算法指的是非生成式方法。由于本文研究的是一個零樣本識別問題,非零樣本學習方法無法處理這一問題,所有非可見類目標都會被錯誤分到可見類目標中,使得非可見類目標的準確率為0。因此,本文只對零樣本學習方法進行對比。
最后,為了進一步分析特征數量對精度的影響,在圖4中報告了不同特征數量下精度的變化。

圖4 特征數量對識別率的影響Fig.4 Recognition rate results with different number of features
從圖4可以看出,隨著特征數量的增加,模型的精度呈現增長趨勢,證明了在零樣本數據集中選擇的特征均對最終識別精度有積極影響,沒有冗余特征。
本文提出了ISAR隱身目標零樣本學習方法的算法原理、實驗驗證過程及結果分析,依托不同飛機類目標細節屬性的文本語義特征表達,訓練零樣本學習模型完成可見的源目標圖像特征到具體類別的文本語義表達,不可見未知的新類別采用該語義生成不可見未知的新目標圖像特征信息,支撐不可見未知的新目標識別,統計未知的新類別識別正確率達75%以上。