王天池,俞 璐,赫德軍
(陸軍工程大學 通信工程學院,南京 210007)
在現代戰場上,作為“千里眼、順風耳”的通信偵察技術早已是各國爭相進行研究與攻關的關鍵領域,在實際通信對抗中,更是可以決定戰場勝負的關鍵環節。輻射源個體識別作為通信偵察的一種技術偵察手段,在通信偵察乃至整個戰場上發揮著至關重要的作用。輻射源個體識別技術在識別敵方設備、分析敵方目標個體、分析戰場電磁態勢、獲取有價值的情報等方面,均有著十分重要的應用,同時對提高己方戰備防御能力也非常關鍵。
不同輻射源個體之間,制造工藝、電子元件非線性的差異及信號調制方式的不同,導致了同一輻射源所發射信號的內在特征的不同。輻射源個體識別就是通過提取通信輻射源發出的信號中攜帶的個體細微特征信息,來識別不同的通信輻射源個體的方法[1-2]。隨著深度學習的不斷發展,輻射源個體識別技術由復雜繁瑣的人工提取特征逐漸向深度神經網絡提取特征發展,利用深度神經網絡的優勢提取區分不同輻射源個體的指紋特征,從而最終完成輻射源個體識別任務[3-4],相較于人工提取,往往精度更高速度更快。
由于傳統深度學習依賴先驗知識,而在戰場實際環境中針對性采集輻射源信號十分困難,這就造成了帶標簽樣本較少和無標簽樣本較為充足的現實困難,最終影響深度神經網絡模型的識別精度。半監督學習作為一種經典的機器學習方法,可以有效緩解標簽較少造成的識別精度問題。因此,也已被用來解決信號樣本標簽較少導致的輻射源個體識別精度下降問題[5-6],并取得了不錯的效果。但是,在實際場景中,待識別目標信號往往因為不同信道的干擾,信號數據發生不同方式和不同程度的畸變,導致與前期采集到的信號樣本數據分布發生不一致。因為傳統的深度學習方法要求訓練數據與測試數據分布一致,所以信號數據畸變的問題將最終導致由前期采集到的信號樣本訓練的神經網絡模型,在待識別目標信號上識別精度的大幅下降。域適應方法作為遷移學習[7]最近幾年的一個重點研究方向,提出了可以在具有分布差異的兩個不同的數據“域”之間尋找“域不變”特征的具體方法,以緩解因為訓練數據和測試數據分布不一致導致的模型精度下降,也就是最終實現數據“域”之間知識遷移。對于原采集信號和待識別信號之間數據分布不一致的問題,域適應方法理論上提供了一個可行的解決方案,并在通信輻射源個體識別任務上也有了相應的應用[8-9]。
綜上所述,在實際環境中,輻射源個體識別精度不高往往是由于標簽較少和信道變化這兩個具體原因造成的,因此本文從問題本身出發,著眼基于一致性正則的半監督學習和基于對抗的域適應學習兩個方向展開研究,并設計一種新的模型,同時解決上述兩個問題,增強輻射源個體識別模型魯棒性,從而最終提升輻射源個體識別精度。
半監督學習可以有效避免標簽樣本過少導致的模型過擬合的問題,基于一致性正則的半監督學習模型作為半監督學習的一個重要研究方向,已經出現很多成熟的具體模型。因此,本節主要介紹一致性正則以及3種基于一致性正則的半監督模型。
一致性正則是指模型對擾動的數據輸出的分布預測一致性,也就是最小化訓練過程中模型預測標簽和實際標簽之間的差異,通過縮小差異的過程讓模型更易學習到樣本內在的不變性[10]。一致性正則半監督模型對無標簽樣本進行多次預測,并最小化結果之間的差值,同時利用有標簽樣本有監督地訓練分類網絡,實現對于一個固定樣本的輸入,即使受到了噪聲的擾動,模型對其預測的結果趨于一致,從而提升預測準確率。基于一致性正則的半監督模型通用結構如圖1所示。

圖1 基于一致性正則的半監督模型通用結構
該模型通過均方誤差計算一致性損失Lconsistency,同時利用源域種有標簽的樣本監督訓練標簽分類器,得到標簽分類損失Llabel。該模型的目標是最小化一致性損失Lconsistency和標簽分類損失Llabel,模型總體損失函數為:
Loss=Lconsistency+ωLlabel
(1)
式中,ω是人工設置權重系數,平衡一致性損失和標簽分類損失的訓練權重。
本文主要介紹3種比較經典的一致性正則半監督模型:π模型、時序組合模型、師生模型。
π模型[11]是通過對同一個無標簽樣本分別進行兩次數據增強,在π模型每一輪訓練中,同一樣本向前傳播兩次,由于隨機擾動產生不同預測,通過最小化同一樣本的兩次預測差值,達到一致性正則的目標。π模型網絡結構如圖2所示。

圖2 π模型網絡結構

時序組合模型[12]在π模型基礎上進行了創新,在一個迭代周期中,π模型對同一無標簽樣本預測兩次,而在時序組合模型中,一個迭代周期只需要預測一次。時序組合模型引入EMA(exponential moving average,指數移動平均)將當前迭代周期之前的所有周期預測結果加權平均,并通過偏差校正提高較近迭代周期預測值比重,最終得到的預測結果與當前迭代周期預測結果計算一致性損失Lconsistency,有標簽樣本同樣被用作產生標簽分類損失Llabel。時序組合模型網絡結構如圖3所示。

圖3 時序組合模型網絡結構
π模型和時序組合模型使用單一網絡對無標簽樣本產生多個預測結果,與它們不同的是,師生模型[13]則是通過構建一個擁有兩個深度網絡的“教師-學生”模型,實現對無標簽樣本產生不同的預測結果,再結合一致性正則化,達到半監督訓練的目標,師生模型網絡結構如圖4所示。

圖4 師生模型網絡結構
師生模型的核心思想是學生網絡利用教師網絡產生的不同預測進行學習進而提高識別準確度,教師網絡不通過反向傳播進行參數更新,而是通過學生網絡之前迭代周期中的參數加權平均進行參數更新,整個模型形成一個師生知識傳遞和反饋的循環,最終提升分類準確率。
近些年來,GAN[14](generative adversarial network,生成對抗網絡)受到國內外研究人員廣泛關注并取得了很多有意義的成果。GAN由生成模型G和判別模型D構成,生成模型G提取數據特征并生成數據,判別模型D通過預測二分類標簽來區分樣本來自于生成模型G還是訓練數據集。GAN通過最小化生成模型G的對比損失,同時最大化判別模型D的判別損失來優化整個網絡,這種對抗思想在信號處理領域已有廣泛應用,比如孿生網絡[15]。
域適應方法是遷移學習的一個熱門方向,它的關鍵是從不同分布的源域和目標域數據樣本中學習到“域不變”也就是和“域”本身無關的特征表示,通過這些特征表示,最小化域間差異帶來的影響,使得即使是在源域數據樣本上訓練的分類器依然可以在不同分布的目標域數據樣本上使用。受到GAN中對抗思想的啟發,域適應方法結合GAN中域對抗的思想,通過最大化混淆域鑒別器的方式提取特征表示,目的是通過深度網絡提取的特征表示,無法根據其分清樣本來自于源域還是目標域,此時的特征表示與“域”本身的差異無關,也就是“域不變”特征,從而實現域適應。該類域適應方法結合GAN中對抗的思想,因此稱為基于對抗的域適應方法。
Ganin 等人[16]證明了在域適應過程中,若無法分辨由神經網絡提取的特征是源域樣本還是目標域樣本,那么該特征更能體現類別特征而不是域特征,即“域不變”特征的假設;其次提出了DANN(domain adversarial neural networks,基于對抗的深度遷移網絡)模型。該模型通過利用特征提取器對源域和目標域樣本進行特征提取,之后域鑒別器判斷經過特征提取的源域和目標域樣本特征到底是來自源域還是目標域,同時利用源域樣本有監督地訓練標簽分類器,模型結構如圖5所示。

圖5 基于對抗的深度遷移網絡
該模型通過域鑒別器計算域鑒別損失Ldomain,引入梯度反轉使得Ldomain向相反方向傳播,達到混淆域鑒別器的目的,同時通過標簽分類器對源域進行有監督的訓練,得到分類損失Llabel。該模型的訓練目標就是最大化域鑒別損失Ldomain和最小化標簽分類損失Llabel。模型總體損失函數為:
Loss=Llabel-λLdomain
(2)
(3)
式(3)中,參數γ為可人為調整,以控制訓練的傾向性,參數ρ為當前訓練輪數與訓練總輪數的比值。參數λ的目的是讓 DANN 在訓練初期將更多的注意力放到學習源域特征上,使模型更好地收斂。
DANN首次將域適應方法與GAN中對抗的思想相結合,作為基于對抗的域適應方法的開端,后續研究都是建立在該思想之上進行改進。Wang 等人[17]系統歸納了基于對抗的域適應方法,并根據是否使用生成器將基于對抗的域適應方法分為兩類:有生成模型、無生成模型,根據本文著眼解決的問題,主要關注的是無生成模型與一致性正則半監督模型的結合。
通過分析一致性正則半監督模型和基于對抗的域適應方法的原理,提出在一致性正則半監督模型的基礎上加入基于對抗的域適應方法的改進思想,并設計出適合本文場景下輻射源個體識別任務的基于對抗的一致性正則半監督模型。


(4)

(5)
f(x)和f′(x)是樣本x模型通過不同方式對樣本x的兩個預測值。

(6)

結合上述3個部分損失,定義模型總體損失函數:
Loss=Llabel+ωLconsistency-λLdomain
(7)
參數ω是人工設置權重系數,平衡一致性損失和標簽分類損失的訓練權重。參數λ的目的是讓模型在訓練初期將更多的注意力放到學習源域特征上,使模型對目標域也有一定的的識別精度,從而使模型更好地收斂,與式(3)定義相同。
根據3.1節對一致性半監督模型的改進,設計適合本文場景下輻射源個體識別任務的基于對抗的一致性正則半監督模型網絡結構如圖6所示。

圖6 基于對抗的一致性正則半監督模型
基于對抗的一致性正則半監督模型的訓練過程具體如下:
1)將源域中少量帶標簽信號樣本輸入到模型,得到預測標簽,利用交叉熵計算得到預測標簽和真實標簽的分類損失Llabel。
2)將源域中不帶標簽的信號樣本輸入到模型,通過經典的一致性正則半監督模型得到兩個預測標簽,利用均方誤差計算一致性損失Lconsistency。
3)將目標域中的信號樣本輸入到模型,經過特征提取器提取出目標域特征分布,結合(1)中對源域帶標簽信號樣本提取的源域特征分布,利用域鑒別器對兩部分特征分布進行域鑒別,通過交叉熵得到域對抗損失Ldomain。
4)將三部分損失通過系數加權求和,得到模型總體損失,梯度反向傳播更新網絡參數(若是改進的師生模型,則教師網絡不通過反向傳播進行參數更新,而是通過學生模型之前迭代周期中參數加權的平均進行參數更新)。
5)重復步驟1)~4),直至網絡訓練結束。
本章主要介紹實驗條件,包括數據集準備和深度模型訓練過程中參數的設置,通過實驗比較不同源域和目標域訓練集設置條件下的不同模型的性能,并分析實驗結果。本文實驗硬件配置CPU為Intel(R) Xeon(R) Silver 4210 CPU @2.20 GHz,GPU為Nvidia Geforce RTX 2080 Ti,內存為DDR48G×2,使用PyTorch(1.7.1)平臺和PyCharm開發軟件。
ORACLE射頻指紋數據集[18]被廣泛地作為輻射源識別研究的實驗數據[19-20],該數據集對16臺USRP X310無線電發射器的原始IQ樣本進行無線采集。16臺USRP X310無線電發射器發射的是MATLAB WLAN系統工具箱生成的符合IEEE 802.11a標準的幀。生成的數據幀包含隨機有效載荷但具有相同的地址字段,然后流向選定的SDR(Software Defined Radio,軟件定義無線電)進行無線傳輸。接收器SDR以5 MS/s的采樣速率對輸入信號進行采樣,Wi-Fi信號的中心頻率為2.45 GHz。
本文在ORACLE射頻指紋數據集中隨機選取10臺USRP X310無線電發射器產生的IQ數據進行處理,根據輻射源的個數對信號數據進行類別標號,設置10類標簽值。將信號數據按照一定比例分為源域和目標域,以及按照一定比例將源域分為有標簽樣本集及無標簽樣本集,并對目標域內信號數據添加高斯噪聲用于模擬信道環境,測試集與目標域數據同分布。
每個樣本由200個IQ兩路載波信號數據點構成,圖7所繪制的是一臺輻射源設備產生的一個樣本的數據波形圖,橫坐標為接收機采樣次數。

圖7 一臺輻射源設備產生的一個樣本的數據波形圖
源域中無標簽樣本在輸入模型前通過隨機的數值遮擋進行數據增強,圖8所繪制的是上文同一樣本經過數據增強后的數據波形圖。

圖8 同一樣本數據增強后的數據波形圖
最終根據實驗需要按照不同比例劃分,完成樣本數據集的建立。
本文所有實驗在深度網絡訓練過程中,統一設置迭代次數為1 000次、batch_size為1 000、Adam優化器學習率為0.000 1。
很多研究已經證明了師生模型在輻射源個體識別任務上的有效性[5],但其場景與本文場景有所不同,為了驗證改進后的師生模型在本文場景下更具有優勢,為后續實驗奠定基礎,本節將改進后的3種一致性正則半監督模型與全監督方法、改進前的一致性正則半監督模型進行對比。3種一致性正則半監督模型包括:π模型、時序組合模型、師生模型。
因為有標簽樣本和無標簽樣本的比例很大程度影響一致性正則半監督模型的性能,所以設置實驗環境為源域有標簽樣本和無標簽樣本3種不同比例條件下,源域包含10 000個帶標簽樣本以及若干無標簽樣本,目標域包含10 000個無標簽樣本,目標域信噪比為6 dB,測試集為與目標域同分布的2 000個樣本,實驗結果如圖9所示,其中帶*的為改進后的一致性正則半監督模型。

圖9 不同模型改進前后性能對比

圖10 全監督、師生模型以及本文模型輸出的混淆矩陣
從圖9可以看出,在3種源域有標簽樣本和無標簽樣本比例下,師生模型相較于其它兩種模型在輻射源個體識別任務上呈現更好的性能。經過改進后的π模型、時序組合模型、師生模型相較于改進之前的模型識別性能均得到了提升,且經過改進后師生模型性能最好。
圖10則給出了在源域有標簽樣本和無標簽樣本比例為1:1、目標域信噪比為6 dB的條件下,全監督模型、師生模型以及改進后的師生模型輸出的混淆矩陣。全監督模型以及師生模型的混淆矩陣存在比較明顯的錯誤,改進后的師生模型輸出的混淆矩陣明顯更加接近于單位矩陣,進一步直觀體現了本文提出的改進對分類結果帶來的明顯改善。
總結得到,師生模型在改進前后均實現了較好的性能。因此在后續實驗中,將改進后的師生模型作為本文提出的改進模型,簡稱本文模型,與全監督模型和改進前的師生模型,進行在目標域不同信噪比條件下的性能對比實驗。
為了觀察在目標域不同信噪比條件下全監督模型、師生模型和本文模型的模型性能,以及不同信噪比環境對模型性能的影響,設置實驗環境為源域包含10 000個帶標簽樣本和10 000個無標簽樣本,目標域包含10 000個無標簽樣本,依次給目標域樣本添加7種不同信噪比的高斯噪聲,測試集為與目標域同分布的2 000個樣本,做7組對比實驗,實驗結果如圖11所示。

圖11 目標域不同信噪比條件下模型性能
從圖11可以看出在不同信噪比條件下,本文模型相較于師生模型,識別性能均得到了提升。實驗得出,在目標域信噪比12 dB時,本文模型相較師生模型提升性能0.41%,隨著目標域信噪比的降低,模型性能逐漸提升,在信噪比0 dB條件下,本文模型性能相較于師生模型最高提升1.84%。因此,可以得出在目標域信噪比較低的環境下,本文模型相較于師生模型能夠取得更好的性能提升的結論。
本文主要從輻射源個體識別任務在實際場景中前期采集信號樣本標簽數量少以及待識別信號與前期采集信號信道不一致的兩個具體問題出發,分析了問題的根本原因,對相關領域展開研究,最終針對性的提出了解決方案。本文首先介紹了一致性正則的基本原理以及3種經典的一致性正則半監督模型,接著介紹了基于對抗的域適應方法的由來以及發展現狀,并創新性地在一致性正則半監督方法中引入了基于對抗的域適應方法的思想,提出了基于對抗的一致性正則半監督方法的構想,并最終設計出一種基于對抗的一致性正則半監督輻射源個體識別模型。
本文在ORACLE射頻指紋開源數據集上對模型的思想進行了充分的驗證,并展開了模型性能的實驗。通過在10臺USRP X310無線電發射器數據上的分類性能的對比分析,可以看出經過基于對抗的域適應思想改進后的一致性正則半監督模型分類性能相較于傳統方法有了明顯的提升,驗證了本文方法的有效性。接著,比較了在源域有標簽和無標簽樣本3種不同比例下模型識別精度的實驗結果,發現改進后的師生模型性能相較于該進前的傳統師生模型有顯著提升,證明了基于對抗的域適應思想對提升師生模型在輻射源個體識別性能的可行性。最后,分別在目標域不同信噪比條件下,模型分類性能的對比實驗。實驗結果表明,在目標域較低信噪比的環境下,本文模型可以獲得更好的性能提升。