王姍姍,王厚鈞,程石磊,楊海芬,王小青
(1.中國電子科技集團公司第三十研究所,四川 成都 610000;2.電子科技大學,四川 成都 610054)
個體識別技術又稱為輻射源“指紋”識別技術,是通過對接收到的信號進行特征提取,然后根據已有的先驗信息確定接收到的信號是由哪一個個體產生的。目前,個體識別技術主要有兩種——基于人工特征識別和基于神經網絡識別。基于人工特征識別主要是人為提取信號載頻、脈沖寬度以及雜散特征等人工特征來進行個體識別。這種方式對于不同的個體需要尋找特定的人為特征才能達到較好的準確率,泛化性差,效率較低。基于神經網絡識別是運用神經網絡自動提取特征并進行識別分類的過程,相比于人工特征,能通過不斷訓練提取樣本特征得到數據豐富的本質信息[1],擁有更好的泛化性和更高的準確率,因此在個體識別領域得到了廣泛應用。
神經網絡的訓練與學習需要大量有標簽數據,如大型數據集ImageNet[2]。但是,在實際應用中,獲得的數據集往往難以滿足要求,有標簽樣本數量較少,導致小樣本情況下深度神經網絡的訓練與更新效果不理想[3]。研究小樣本條件下的個體識別得到了越來越多研究者的關注,如文獻[4]比較了高階譜加主分量分析降維方法[5]、雜散成分方法[6]及高階譜稀疏表示方法[7]在小樣本情況下的表現,但均不能令人滿意。
特征融合能夠綜合利用多種特征,實現各個特征的優勢互補,以獲得更加魯棒與準確的識別結果[8]。文獻[9]將雙譜融合的準確率與不融合的準確率進行比較,發現融合后準確率有一定程度的提升。
在以上文獻研究的基礎上,本文將神經網絡學習得到的特征與人工提取的特征進行融合,將得到的新特征用于小樣本個體識別,并最終仿真驗證了提出算法的有效性。
本文研究的個體識別指通信輻射源個體識別。系統模型如圖1 所示。

圖1 個體識別系統模型
假定有N個個體,原始數據經過預處理提取特征后得到的訓練數據集為X={X1,X2,…,XN},其中Xi是指第i(i=1,2,…,N)類個體的訓練數據集。測試數據集為T={T1,T2,…,TN},其中Ti是指第i(i=1,2,…,N) 類個體的測試數據集。每一類個體均有標簽l(xij)=i,其中xij表示第i類個體的第j個數據。訓練時使用X訓練初始化的分類器,然后將測試集T輸入到訓練好的分類器模型中得到分類結果。
Alexnet 網絡的出現極大地推動了深度學習在各領域的應用[10-13],網絡結構如圖2 所示。Alexnet模型有8 層需要訓練參數,包括5 層卷積層和3 層全連接層。模型中,卷積層是網絡提取信號特征的關鍵結構。信號經過的卷積層越多,提取出的特征越復雜、越有效。全連接層的作用是將經過多層卷積層與池化層后得到的特征圖進行處理,將特征圖中的特征進行整合,映射成一個特征向量。這個特征向量包含了輸入特征的組合信息,保留了特征圖中最具有特點的特征。最后,輸出層使用softmax函數實現輸出。

圖2 Alexnet 網絡結構
Alexnet 模型擁有更多的卷積層與卷積核數量,能夠發現與提取數據更加細微的特征,更好地解釋數據,分類效果優于Lenet。同時,由于使用了多塊GPU 并行處理,Alexnet 在速度上明顯優于VGG[11]、GoogleNet[12]等模型。
分形理論具有統計意義上的自相似性,可以有效提取信號的細微特征,已經被廣泛應用于個體識別領域。分形維數是分形理論的中心概念,可以定量描述分行集的不規則度和復雜度[14],常用的有Hausdorff 維數、盒維數與信息維數等[15]。信息維數可以反映信號在平面空間上分布的疏密程度,且計算比較簡單。本文采用信息維數作為個體識別特征。
設X為Rn中任意一個集合,Xk(k=1,2,…,n)是集合X的一個有限ε方格覆蓋。Pk表示X中元素落入Xk中的概率,那么有:

式中,N(Xi)與N(X∩Ai)分別表示元素的個數。于是,信息熵為:

若信息熵滿足關系:

那么,信息維數可以表示為:

在實際操作中,采用如下步驟求解包絡信息 維數:
AMAROS試驗中將1 425例腫瘤直徑≤5 cm,且前哨淋巴結有1~2枚轉移的病人隨機分為行腋窩淋巴結清掃組和行腋窩放療組[10],結果發現,兩組間無病生存率及總生存率差異無統計學意義(P>0.05)。AMAROS試驗表明兩種治療策略均能夠提供很好的局部控制效果,但是并沒有指出哪部分前哨淋巴結陽性的患者需要進一步處理。
(1)提取通信信號的包絡并進行采樣,得到信號包絡序列s(t)(t=1,2,…,M),這里M為信號序列的長度;
(2)將包絡序列s(t)分段,每段長度為N,分別對每段求信息維數DI;
(3)將信號包絡序列按照以下方法進行重構,以減弱部分帶內噪聲的影響,同時便于計算信息 維數:

(4)利用重構后的信號包絡序列計算信息維數,令:

本文提出的基于特征融合的小樣本個體識別算法流程如圖3 所示。

圖3 小樣本個體識別算法流程
具體實現步驟如下。
(1)對采集的數據做下采樣,過濾掉數據中的空白部分。
(2)對得到的信號進行短時傅里葉變換(Short-Term Fourier Transform,STFT),得到信號的功率譜密度P與經過變換后的信號Y。
(3)對Y求希爾伯特變換得到包絡,然后根據式(5)~式(8)得到信號的信息維數矩陣D。
(4)從數據中隨機選取一部分作為小樣本數據集A,將A中數據對應的功率譜密度PA進行歸一化。
(5)將PA作為特征導入到Alexnet 模型中進行訓練,提取模型中第一個全連接層的輸出作為神經網絡特征MA。
(6)將A 對應的信息維數矩陣DA與式(5)中得到的MA進行拼接,得到新的特征矩陣Z。
(7)將新的特征矩陣Z歸一化后,導入到構建的神經網絡中進行分類。
構建的網絡模型Net1 結構如圖4 所示。Net1包括兩個二維卷積層,每個卷積層的卷積核尺寸均為(5,5),在每個卷積層后有一個最大池化層,池化核尺寸為(2,2)。每個池化層后有一個Dropout 層來減少過擬合,Dropout 率設為0.25。

圖4 Net1 結構
本文采用10 臺相同型號的輻射源來產生實驗數據,從實驗數據中分別隨機選取6&、8&、10&、20&、40&的數據作為小樣本數據集,并使用Alexnet 模型、使用信息維數以及本文提出的算法的準確率進行比較,比較結果如圖5 所示。

圖5 選取不同占比數據3 種方法準確率
通過圖5 可以看出,隨著選取數據占原數據比重的增大,Alexnet 算法與本文提出算法的識別準確率均逐漸增大,而信息維數算法則會產生波動。當只選取6&數據做樣本時,Alexnet 只有75.7&的準確率,而提出的算法能將準確率提升到84.1&。在小樣本情況下,只使用信息維數無法正確分類;只使用Alexnet 會導致網絡無法進行充分的訓練,且準確率不高。本文提出的算法相比Alexnet 至少能提高5&的準確率,相比只使用信息維數能提高50&,且在選取原數據20&的情況下準確率接近90&,選取原數據40&的時候準確率超過90&,能有效識別個體。
實驗過程中,當選取40&數據做小樣本集時出現了過擬合現象,混淆矩陣如圖6 所示。

圖6 40&數據的過擬合混淆矩陣
從圖6 中可以看出,至少有50&的第1 類與第8 類的個體被識別為第7 類,有22&的第9 類個體被識別為第10 類。這是由于第1 類、第7 類與第8 類的信號比較相像,第9 類與第10 類的信號比較相似。由于訓練數據不足,導致網絡在學習與訓練的過程中以犧牲第1 類、第8 類與第10 類的正確率為代價,提高第7 類與第10 類的準確率,產生了過擬合,平均正確率只有79&,相比于正常情況下降7&。
對于過擬合的情況,使用本文提出的算法得到的混淆矩陣如圖7 所示。

圖7 過擬合時采用本文提出算法的混淆矩陣
從圖7 可以看出,相比于圖6,本文提出的算法能將第1 類與第8 類的準確率提升50&以上,同時也能將第9 類的識別率提升至96&。10 項分類的平均準確率能達到87.9&,相比于Alexnet 能提升8.9&,說明本文提出的算法能有效恢復因為過擬合而下降的準確率。
針對小樣本情況下,采用神經網絡會因為訓練不足而導致準確率下降,且由于訓練數據不足可能導致過擬合問題,提出將神經網絡提取的特征與人工提取的特征進行融合,將得到的新特征導入構建的網絡中進行訓練與分類。仿真結果表明,在小樣本情況下,本文提出的算法相比只使用Alexnet 能至少提高5&準確率,且在因訓練數據不足發生過擬合時能將準確率恢復到未發生過擬合的情況,充分證明了本文所提算法在小樣本情況下的有效性。