徐雨芯, 顧楚梅, 曹建軍, 許金勇, 魏志虎
(1.南京信息工程大學 計算機與軟件學院, 江蘇 南京 210044; 2.國防科技大學第六十三研究所, 江蘇 南京 210007)
隨著國際關系的演變和各國軍事的發展,各種電臺、雷達是戰場環境中指揮、控制、通信、情報探測、電子監控等軍事活動的基礎前端和數據來源,具有舉足輕重的地位[1]。掌握軍事優勢的首要條件是及時獲取戰場信息,并據此做出正確的戰術預測,從而有效打擊對方的重要電子裝備和載體。從輻射源發射的信號中提取特征信息、識別信號、識別電臺是獲取戰場信息的重要技術手段之一。因此,世界上許多國家都將工作重點放到輻射源個體識別技術的研究上[2]。本文所提出的孿生輻射源指兩輻射源個體的工作性能參數、工作環境等條件高度一致甚至基本相同,針對這樣的輻射源個體識別定義為孿生輻射源個體識別。
輻射源個體識別也稱為特定輻射源識別(SEI),相關研究主要體現在兩個方面:一是從暫態信號(即輻射源非穩定狀態下的開機信號)中提取特征,實現輻射源個體識別方法;二是采用基于穩定特征分析的輻射源個體識別方法[3]。暫態信號持續時間較短,在實際環境下截獲難度較大,相比之下穩態信號更容易獲取,具備更強的操作性,因此基于穩態信號的輻射源信號識別在實際應用中有更強的適用性[3]。
近年來,有不少文獻使用基于深度神經網絡的端到端的SEI方法,將原始I/Q信號直接輸入神經網絡,完成端到端的SEI任務。文獻[4]將無線電信號識別問題轉化為圖像識別領域的目標檢測問題,提高無線電信號識別的智能化水平和復雜電磁環境下的識別能力;文獻[5]提出一種新的基于長短期記憶的遞歸神經網絡,用于射頻指紋識別;文獻[6]提出一種通信輻射源個體識別的自編碼器構造方法,提高了通信輻射源個體識別任務中自編碼器的性能;文獻[7]提出一種新的基于深度神經網絡的射頻指紋識別方案,用于硬件特征的自動識別和發射機的分類。這些方法整體性強,但過于依賴神經網絡的設計,并且針對不同的原始數據類型都要設計不同的神經網絡,可擴展性不強。另外,卷積神經網絡更擅長識別二維圖像數據,直接處理I/Q數據識別效果會有所降低。
因此,更有效和可靠的方案是將機器學習與信號處理技術相結合,將SEI任務分為兩步,一是數據的預處理和特征提取,二是分類器設計和訓練。在大多數輻射源信號的研究工作上,通常只使用一個特定分類器進行分類。文獻[8]使用支持向量機(SVM)進行分類;文獻[9]采用k-近鄰判別分類器等。以上方法均對高維特征通過Filter過濾式方法或Wrapper包裹式方法進行降維后[10],使用單一分類器進行分類。單一分類器難以充分利用特征集合,在低信噪比下準確率不太理想,文獻[11]提出一種設計組合分類器的算法,通過改變樣本的概率分布,調用子分類器對不同樣本分而治之,這種將分類性能彼此互補的子分類器組合或者融合構成新的分類器的思想又稱集成學習。集成學習的成功在于保證弱分類器的多樣性,弱學習器間的差異性會導致分類的邊界不同,將多個弱分類器合并,可以得到更合理的邊界,可進一步提高分類性能。
因此,為提高輻射源個體識別的準確率和可靠性,實現孿生輻射源個體識別,本文提出基于蟻群特征選擇的并行分類器設計模型。用子分類器輸出結果的分布矩陣度量子分類器間的差異性,將不同特征子集輸入到并行分類器的子分類器中,使各子分類器分類準確率最高、差異性最大且特征子集規模最小,模型通過蟻群算法進行求解。子分類器權重以其與模型其余子分類器的差異度和可靠度確定,差異度及可靠度越大,當前子分類器所占權重越大。根據不同權重的子分類器預測結果的加權和進行最終決策。實驗結果表明,在原始信號、施加10 dB噪聲及施加5 dB噪聲下,該并行分類器對孿生輻射源個體識別有良好的分類效果。
由于提升小波包變換具有優良的時頻分辨能力和高效的運算效率,因此采用該方法進行特征提取?;谔嵘〔ò儞Q的特征提取方法分為兩類:
1) 最優基小波包分解特征提取方法。在給定訓練樣本集下,依據某種準則選擇最優小波包基,特征提取在最優小波包基分解下進行。如文獻[12]提出的距離準則、散度準則,該方法判定準則是依據具體需提取的特征來完成的。因此適用于事先明確特征集(一般與小波包系數直接相關)的情況。
2) 約定小波包分解結構的特征提取方法[13]。依據信號特點約定小波包分解結構進行特征提取,該類方法有利于擴大特征集,為最終選取有效分類的特征提供更多選擇。
由于輻射源信號的復雜性,不能事先確定具體特征集,且為獲取輻射源信號更多的特征信息,故采用第2種方法進行特征提取。
在提升小波包分解系數上定義代價函數En,當分解系數的能量集中在少數幾個系數上,多數系數的絕對值很小,則認為對應的基比較好,此時的信息代價函數取值比較小;當分解系數的能量分布比較均勻時,則認為對應的基不好,此時的信息代價函數取值較大。對給定的信息代價函數,如果在所有提升小波包基中,信號在提升小波包基B下分解所得提升小波包系數具有最小的代價函數值,則稱小波包基B為信號x(t)相對于代價函數En的最佳提升小波包基。最佳基下的提升小波包分解,提供了一種具有更好能量集中的信號表達。

(1)
式中:j=0,1,2, …,CS,CS為分解層數;n=0,1,…,2j-1;L為信號長度。依據信息熵,可以求出具有最小熵的小波包系數,進而求出最佳小波包基。但一般而言求取具有最小熵的小波包系數不易計算,實際應用中通??紤]某個子空間上的小波包分解,即限定分解層數的分解,這種分解可以用一個滿二叉樹表示,二叉樹的所有節點構成了一個基庫,根據最小熵準則,從中選取一個滿足應用的次優基[14]。
本文采用先序分解后序搜索算法對次優基進行搜索。先序分解后序搜索算法具有與完全分解、自下而上搜索算法相同的時間復雜度,但其分解與搜索同步進行,能及時釋放小波包系數所占空間,只記錄當前發現較好基對應節點的提升小波包分解系數,空間效率更高。當CS=5時,空間效率提高一倍以上[14],因此設定CS=5。
利用提升小波包分解與重構進行特征提取。在不同的提升小波包變換域,對信號的不同成分提取12個統計特征參數[15],可以得到從不同角度描述信號的特征。統計特征參數分別為均值、平均幅值、方根振幅、標準差、有效值、峰- 峰值、波形指標、脈沖指標、峰值指標、偏斜度、峭度和峪度指標。特征提取算法步驟如下:
1)按先序分解后序搜索算法對數據進行分解,當分解至(4,0)節點時,將此節點系數置零(根據“零”熵最優,此節點不必繼續分解),轉到(4,1)節點繼續運算,直到完成搜索。在搜索過程中,當需刪除(4,0)節點的直系祖先節點的孩子節點時,應首先從最左葉子節點開始對該祖先節點系數進行完全提升小波包重構。
2)將信號進行兩層提升小波包分解,利用葉子節點系數,分別提取12個統計特征參數,并提取4個標準化相對能量;
3)分別利用第2層各節點進行單支重構,可以得到相應頻帶內的時域信號,攜帶的是相應頻帶內信號的時域特征,對4個單支重構信號分別提取的12個統計特征參數。
4)利用第2層節點對原信號重構,提取原時域信號的12個統計特征參數。
將原時域信號的12個統計特征參數(1~12),小波包分解的第2層4個節點系數各12個特征參數(13~60),4個單支重構信號的各12個統計特征參數(61~108),及4個標準化相對能量(109~112),共112個特征參數,依次編號命名。
SVM具有較高的精度和防止過擬合的理論保證,在引入適當的核函數后,可以處理原始特征空間中的線性不可分問題。目前已被應用到很多領域,例如文本分類、模式識別和圖像處理等[16]。SVM在解決小樣本、非線性和高維模式識別問題中有許多優勢[17],因此本文選用SVM作為子分類器。
對于非線性情況,SVM通過核函數將數據樣本從低維空間映射到高維特征空間,使其線性可分,然后在高維特征空間中找到最優分類超平面,使訓練樣本集中的點盡可能遠離最優超平面。常用的核函數有線性核函數、多項式核函數、徑向基核函數和Sigmoid核函數等[17]。
對給定訓練樣本集,以及功能類型和參數設置相同的二分類器,對于確定的特征子集St(即給定特征向量),通過特征向量構建新的訓練樣本并訓練分類器,然后用測試樣本評估分類器的分類性能,可以將特征子集St映射為一個確定的分類器ΛSt和一個分類器輸出分布矩陣P,如(2)式所示:
Λ(St)=(ΛSt,P)
(2)
P=[pii′],i,i′=1,2,…,M
(3)
(4)
輸出分布矩陣P中元素pii′為第i類樣本被錯誤分類為第i′類的概率,M=2,nii′表示第i類被錯誤分為i′類的樣本數,Nii′為參加測試的第i類樣本數。
分類器ΛSt的相似性可以由結果分布矩陣P的相似程度來度量。對分布矩陣的差異性常見的判別方法有皮爾森相關系數、歐氏距離、曼哈頓距離、切比雪夫距離等。本文采用如下歸一化的皮爾森相關系數度量兩分類器輸出分布矩陣的差異性:

(5)
(6)
(7)
P1=[p1,ii′],P2=[p2,ii′],i∈{1,2,…,M},i′∈{1,2,…,M′}
(8)

集成學習中的選擇性集成思想要求組合分類器中各子分類器有較高的準確率和子分類器之間具有高的差異性,即組合分類器中的各子分類器分類準確率越高,同時它們之間的輸出相似性越低,則此組合分類器的分類性能越好。具有此特性的組合分類器,可以確保只有少數子分類器對同一樣本同時分類錯誤。
文獻[11]提出一種設計組合分類器的算法,通過對訓練樣本集進行操作,選擇出不同的訓練樣本子集對分類器進行訓練設計分類器,可以得到適應不同樣本的分類器,本文利用蟻群算法進行特征選擇,從特征選擇的角度給出一種新的組合分類器設計算法?;谔卣鬟x擇的組合分類器設計模型如下:
對含M個(M∈N)分類器的組合分類器,記ρm為第m個分類器的分類準確率,Pj、Pm分別為第j、m個分類器的輸出分布矩陣,qm為第m個分類器輸入特征子集的基數,采用以下目標函數構造第m個分類器:
maxρm(subsetqm)
(9)
(10)
minqm
(11)
s.t. 1≤qm≤N, subsetqm={t1,t2,…,tqm}
(9)式表明希望所設計的第m個分類器,在當前的特征子集subsetqm下,具有最優的分類準確率;(10)式比較了當前分類器與前m-1個分類器的差異性,選擇使得第m個分類器與其他m-1個分類器之間具有最大差異性的特征子集,即互補特征子集,從而最大化分類器的多樣性;(11)式表明希望選擇基數最小的特征子集,其中N=15。
由于并行分類器由M個子分類器構成,因此需要確定各子分類器所占權重,并對其輸出結果進行集成。本文以子分類器的差異度和可靠度確定權重,各子分類器與模型中其余子分類器的差異度和可靠度越大,所占權重越大,根據不同權重的子分類器預測結果的加權和進行最終決策。

(12)
(13)
(14)
(15)

(16)
(17)
(18)

利用蟻群算法對并行分類器設計模型求解,分析如下:
1)在特征子集基數q確定的情況下,當求解第1個分類器模型時,(10)式并不存在,因此可以直接使用(9)式作為目標函數。當分類器個數大于1時,將(9)式和(10)式加權求和轉化為單目標優化函數,如(19)式所示。

(19)
式中:r3與r4是聚合參數,在設計第m個子分類器的過程中,通過聚合參數控制當前子分類器的分類性能與子分類器間多樣性之間的平衡。本節通過仿真實驗,參數取r3=0.8、r4=0.2時效果較為理想。
2) 對多類分類器而言,特征子集q在5~10之間具有較好的運算效率和分類精度[18-19],為了不丟失邊緣解,將q值的搜索范圍限定在1~15之間。
3)算法在當前的特征子集基數條件下迭代完成后,需要為當前分類器選擇較好的特征子集。設定轉換后的優化目標(19)式的優先級高于(11)式,特征子集基數q不同時,優先選擇使得目標(19)式的值較大的特征子集;當兩個特征子集的評估值相等時,選擇特征基數q較小的特征子集。
根據以上分析,第m個分類器優化設計的具體算法描述如下:
算法1分類器設計算法
輸入: 信息素重要程度值α,啟發式信息重要程度值β,當前螞蟻編號ant,每次迭代螞蟻個數N,蟻群算法當前迭代次數ite,最大迭代次數iter;
輸出:特征子集St
1.for 1≤qm≤15 do
2.初始化蟻群算法信息素矩陣、啟發式信息;
3.whileite 4.for 1≤ant≤Ndo 5.第ant只螞蟻搜索qm維特征子集; 6.end for 7.按分析1選擇特征子集Sqm 并更新信息素矩陣; 8.end while 9.按照分析3 更新當前最優特征子集St; 10.end for 第1行表示當前分類器的特征子集基數;第2~9行是在當前特征子集基數確定的條件下,通過單目標蟻群算法搜索滿足優化目標的特征子集;第3~8行是蟻群算法搜索過程;第4~6行是在一次循環中,螞蟻搜索特征子集的過程;第7行是根據分析1選擇較好特征子集并更新信息素矩陣;第9行是根據分析3更新當前分類器的特征子集。 蟻群算法詳細設計見文獻[20]。 從電臺1、2中采集信號,電臺1、2工作性能、采樣參數及各參數采樣點數均相同,如表1所示。 兩電臺采集樣本數共2×2 000組,每組信號數據分為幅值、I路、Q路3種形式,按1.2節特征提取算法對每種形式下的樣本進行特征提取,每組形式提取112個特征,均以12個統計特征參數,4×12個提升小波包二級特征參數,4×12個單分支重建信號特征參數和4個標準化相對能量為序,共提取336個特征。特征編號對應表如表2所示。 表1 電臺參數設置Table 1 Setting of station parameters 本文利用分類準確率作為分類結果的評定標準,將不同參數下采集75%的數據作為訓練集,剩余25%作為測試集。實驗均在PC機上完成,主機配置如下:CPU Intel(R) Core(TM)i7-4770 、3.4 GHz 4核處理器、內存8 GB、操作系統Windows7、編程環境MATLAB R2017a。 記并行分類器子成員為SVM1、SVM2、…、SVMn(n∈N,n>2),并聯構成的組合分類器記為SVM,各SVM子分類器寬度參數g=0.4、懲罰參數C=100。 為確定聚合參數r3、r4取何值時,各不同子分類器個數下的組合分類器能有較好的分類準確率,分 別在原始信號的4組不同聚合參數下進行對比實驗,分類結果如圖1所示。 表2 特征- 編號對應表Table 2 Features and numbering 圖1 不同聚合參數下各組合分類器準確率Fig.1 Accuracy of combined classifiers with different aggregation parameters 由圖1可以看出,當r3=0.8、r4=0.2時,子分類器個數分別為3和5的組合分類器分類準確率分別為87.50%和88.20%,均高于r3其余取值下的分類準確率。因此聚合參數取r3=0.8、r4=0.2。 同時,為尋找子分類器個數為何值時,模型分類準確率最高,進行了不同子分類器個數下的對比實驗,結果如圖2所示。 由圖2可知:在電臺采集的原始信號下的孿生輻射源個體識別,當子分類器個數為1時,分類準確率為86.10%,即傳統單一分類器對原始信號的識別率為86.10%;當子分類器個數為4時,并行分類器的分類準確率為88.70%;當子分類器個數分別為5、6、7時,SVM5、SVM6、SVM7的分類準確率為84.20%、84.40%、84.20%,對應的并行分類器準確率分別為88.20%、88.30%、88.10%。由圖2還可以看出,當子分類器個數為4時,分類準確率較單一分類器有一定的提高,表明并行分類器已經具有一定的多樣性。當分類器個數再增加時,后續的子分類器未在提高準確率的基礎上增加差異性,存在以降低分類準確率而增加差異性的情況,因此子分類器的準確率略微下降,從而導致并行分類器的分類準確率有些波動,又考慮到運行時間,故子分類器個數不再增加。因此在原始信號數據下并行分類器模型的子分類個數設定為4,并聯分類器的特征子集為subset37。 對于在原始信號中添加10 dB噪聲下的孿生輻射源個體識別,當子分類器個數大于4時,分類準確率未有明顯提升,同時考慮到模型運行時間,故模型分類器個數設定為4。此時,分類準確率為76.40%,并聯分類器的特征子集q=32。 圖2 不同信號下不同子分類器個數的識別效果對比Fig.2 Comparison of the recognition effects of different numbers of subcategories under different signals 類似地,對于在信噪比為5 dB環境下的孿生輻射源個體識別,在子分類器個數為4時,并行分類器的識別準確率更為理想。因此設定此時子分類器個數為4,分類準確率為64.80%,并聯分類器的特征子集數q=38。不同信號下的并行分類器模型中各子分類器的特征子集、目標函數等實驗結果如表3、表4、表5所示。 表3 并行分類器在原始信號下的分類結果Table 3 Classification results of parallel classifiers using the original signals 表4 并行分類器在加10 dB高斯白噪聲后的分類結果Table 4 Classification results of parallel classifiers using signals with 10 dB white Gaussian noise added 為驗證最少樣本量為何值時,該模型仍有較好的表現,按64%的比例對訓練樣本量進行遞減,分別在數據集大小為3 000、1 920、1 228、786、503、322、206、131、83時,做9組實驗,實驗結果如圖3所示。 由圖3可知,該模型在訓練集大小為786時,仍有較好的分類效果,此時分類準確率為85.52%,而當訓練集小于786時,模型的分類準確率有明顯的下降。 表5 并行分類器在加5 dB高斯白噪聲后的分類結果Table 5 Classification results of parallel classifiers using signals with 5 dB white Gaussian noise added 圖3 不同樣本量下的對比結果Fig.3 Comparison results with different sample sizes 同時,為驗證提出的模型中創新點的有效性和必要性,進行消融實驗。在電臺原始采集信號、添加10 dB噪聲、添加5 dB噪聲3組數據下,分別將本文方法與方法1、方法2、方法3的分類準確率進行對比。實驗結果如圖4所示。 方法1:未對原始336維特征集合進行特征選擇,僅使用單一SVM進行分類。 方法2:使用蟻群算法對特征集合進行選擇,但不使用并行分類器,僅用單一SVM進行分類。 方法3:使用文獻[21]提出的基于EMD的信號特征提取方法,并使用蟻群算法對特征集合進行選擇,在并行分類器下進行分類。 圖4 實驗結果對比Fig.4 Comparison of experimental results 由圖4可知:在3組不同數據下,方法1的分類準確率分別為81.10%、69.94%、59.60%;方法2的分類準確率分別為86.10%、74.70%、63.40%;方法3的分類準確率分別為80.30%、65.00%、58.90%;本文方法的分類準確率分別為88.70%、76.70%、64.80%,均高于其余方法。由此可以看出,本文所提取的特征集合更具完備性,在基于蟻群特征選擇的并行分類器集成學習模型中分類效果最好。 最后,由于本文從特征選擇和集成學習的角度展開研究,因此將本文提出的模型與文獻[11]中提出的Adaboost算法及文獻[22]中的隨機森林方法進行對比,對比結果如圖5所示。 圖5 不同方法的分類結果對比Fig.5 Comparison of different classification methods 由圖5可知,基于蟻群特征選擇的并行分類器的分類準確率明顯高于文獻[11]和單一分類器,雖在原始信號下準確率略低于隨機森林,但在信噪比為10 dB和5 dB的情況下,準確率明顯高于文獻[21]的方法,抗干擾性更好,更適合實際應用場景。 從上述對比實驗可以看出,基于蟻群特征選擇的并行分類器模型能充分挖掘特征參數體系的分類能力,在原始信號、添加10 dB噪聲、添加5 dB噪聲3組不同數據下,均有較好的分類結果。 在輻射源信號的二分類識別問題中,常提取到不相關和冗余的高維特征,導致分類器分類性能降低;且當識別的對象為工作性能和工作參數等條件高度一致甚至相似的孿生輻射源時,現有方法分類準確率較低、分類效果較差。本文針對這些問題,提出一種基于蟻群特征選擇的并行分類器設計模型,經多組對比實驗,該方法切實可行。得出主要結論如下: 1)針對兩個工作性能、采樣參數等條件均一致的軟件無線電電臺,首次定義并研究了孿生輻射源個體識別問題,提出了基于蟻群特征選擇并行分類集成學習的孿生輻射源個體識別方法。 2)通過最優基提升小波包分解與重構過程,對孿生輻射源按特征參數體系進行特征提取,并利用蟻群算法對高維特征進行特征選擇,減少特征冗余和不相關特征,以提高分類準確率。 3)結合集成學習中選擇性集成思想,將差異性和子分類器分類準確率作為目標函數,通過蟻群算法對目標函數進行求解,使得并行分類器模型中各子分類器分類準確率最高、差異性最大且特征子集規模最小,并以各子分類器的差異度和可靠度確定權重。子分類器與其余子分類器間的差異度和可靠度越大,所占權重越大,根據不同權重的子分類器預測結果的加權和進行最終決策,提高分類準確率。 目前提出的基于蟻群特征選擇的并行分類器設計模型是針對孿生輻射源個體的識別,即二類識別問題,后續研究可以由二分類擴展到多分類,提高模型的適用性。同時,現有的特征集合是按照特征參數體系對輻射源信號在時頻域上進行特征提取,下一步可以擴展特征參數體系,以提取更具分類能力的特征,提高分類準確率。最后,可以優化進化算法以提高運算速率等。3 實驗
3.1 實驗數據準備

3.2 實驗結果與分析









4 結論