顧楚梅,曹建軍,魏志虎,徐雨芯
(1. 南京信息工程大學計算機與軟件學院,江蘇 南京210044;2. 國防科技大學第六十三研究所,江蘇 南京210007)
輻射源個體識別(Specific Emitter Identification,SEI)利用輻射源信號中提取的有關各種設備的本質差異特征來實現對不同輻射源個體的識別。在無線通信安全領域,通信網絡非法攻擊的現象日益嚴重,通過預處理、提取入侵的輻射源特征并進行分類識別,為保證通信網絡安全提供了支持。在軍事應用上,為防止敵方的通信設備對我方進行干擾,可利用輻射源個體識別技術來識別敵方設備并進行一定干預,具有重要的戰略戰術意義[1]。
為識別輻射源個體,需要對來源于輻射源設備的信號進行預處理、特征提取和分類識別[2]。而通常特征提取后得到的輻射源信號特征維數較大,且常含有不相關或冗余特征,這將會降低分類器的分類性能。利用特征選擇(Feature Selection,FS)的降維功能可以很好地解決這一問題[3]。
特征選擇是一種數據預處理方法,使用某種評價標準從原始搜索空間中選擇特征子集。要求在特征子集盡可能小的情況下準確識別目標。
特征選擇模型通常采用兩類目標函數:某種集合距離函數和分類器的分類測試結果。集合距離函數計算復雜度較低但分類正確率也相對較低;分類器的分類測試結果針對性強,分類正確率較高但這種方法的計算復雜度也相對較高[4]。
特征選擇的主要困難為搜索空間隨特征數的增加呈現指數級增長,如何采取高效的搜索策略往往決定了特征選擇問題能否有效求解。傳統的特征子集搜索策略包括:順序向前搜索、順序向后搜索、順序向前浮動搜索和順序向后浮動搜索[5]。演化計算技術具有良好的全局搜索能力,與傳統的搜索策略相比,其主要優勢為不需要領域知識和對搜索空間做任何假設,除此以外,其基于種群機制的特點能夠在一次運行中產生多種結果,更適合用來進行特征選擇以確保能同時滿足較小特征子集個數和較大分類正確率的目標。一些基于演化計算的特征選擇算法有蟻群算法、粒子群算法和遺傳算法等[6]。
蟻群優化(Ant Colony Optimization,ACO)算法是受自然界螞蟻覓食行為啟發而廣泛應用的一種啟發式算法,該算法的優點主要是信息正反饋、較強魯棒性及并行分布式計算等[7]。最早被用于解決旅行商問題,隨后其它組合優化問題如背包問題和特征選擇問題也能運用蟻群算法得到解決[8]。文獻[9]提出了一種利用ACO求解特征子集的方法,利用特征向量圖來搜索特征子集。但該方法較易陷入局部最優解且穩定性不高。文獻[10]提出一種基于改進蟻群求解特征子集的入侵檢測方法,對進行預處理后的數據集根據信息熵理論初步提取特征,用改進蟻群算法進一步求解特征子集。但該算法的訓練時間并未顯著減少。文獻[11]提出了一種融合蟻群算法和隨機森林的特征選擇方法,將隨機森林的重要度評分作為蟻群算法的啟發式信息,但該算法僅對ACO的啟發式信息進行優化,創新性較低。文獻[12]提出了一種基于二元全連通圖的最小冗余最大相關蟻群算法,特征節點通過訪問概率隨機訪問,子節點通過先驗知識選擇,該方法能有效降低特征選擇的時間開銷。文獻[13]提出了一種基于圖的螞蟻系統(Graph-Based Ant System,GBAS),該算法基于構造圖提出了等效路徑的概念,將問題的無序信息和有向圖的路徑相結合,實現了將無序信息轉化為有序信息,該方法提高了蟻群算法的性能。
綜上,為解決輻射源信號維數較大問題,提出了一種基于蟻群優化特征選擇的輻射源個體識別方法。給出以最大分類正確率和最小特征子集規模為目標的特征選擇數學模型;特征選擇的目標函數使用分類器的分類正確率;搜索算法使用蟻群優化算法。實驗表明相比于傳統的特征子集搜索策略,提出的方法能在降低特征數目的同時提高輻射源信號的分類正確率。
為實現對不同輻射源個體的識別,首先利用相關信號分析技術[14],對采集信號進行預處理并從中提取出一定數量的特征,這些提取出的特征可以構造一個特征集set={t|t=1, 2,…,T,T∈N},set集中特征對應的特征向量記為V。現有W類的Y個特征向量樣本,記Vwyt,w=1, 2,…,W,y=1, 2,…,Y,t=1, 2,…,T,為第w類中第y個樣本向量的第t個特征值。
特征選擇的過程即根據上述特征向量樣本從集合set中選擇基數為q的一個特征子集subsetq,使該子集對應的特征向量樣本滿足某種目標函數。
根據所研究的問題即輻射源信號個體識別問題的本質是分類問題,特征選擇和分類器的性能相關聯。因此直接使用分類器的分類正確率作為特征選擇的目標函數。實驗部分中的數據集為從兩個電臺發出的輻射源信號數據,旨在通過輻射源個體識別技術識別兩個電臺進而分析電臺的性質、屬性和危險等級等,本質上是一個二分類問題,故可以采用支持向量機(Support Vector Machine,SVM)作為分類器。
對使用分類器的分類正確率作為目標函數的特征選擇算法,特征選擇問題可以描述為:從集合set中根據目標函數得到一個基數為q的特征子集subsetq,subsetq所含特征對應的特征向量樣本分類正確率P最高。數學模型為
(1)
minq
(2)
s.t.|subsetq|=q,1≤q (3) 2.2.1 蟻群優化 以最大分類正確率和最小特征子集規模作為優化目標,引用文獻[13]中的GBAS算法求解。 引入GBAS,根據輻射源信號特征選擇問題構造有向圖,如圖1所示。 圖1 子集問題構造圖的有向圖 上圖輻射源信號特征子集問題構造圖的有向圖中,有向圖的邊代表備選特征,路徑映射為一個求得的輻射源信號特征子集。節點dk(k=1, 2,…,q+1),在d1處人為設定螞蟻的數量為A,每只螞蟻根據有向圖邊上的信息素量和啟發式信息隨機獨立地選擇從某一個節點di走到下一個節點dj,此問題中,即隨機地選擇下一個信號數據。其中n為特征總數(特征提取后得到的輻射源信號特征總數),q為螞蟻在一次搜索過程中找到的解的個數,eij表示螞蟻在步驟j時選擇第i個特征。 引用路徑選擇概率公式來實現圖1中螞蟻的路徑構建,如(4)式所示。 (4) 式(4)中τij(s)為s(s=1, 2,…)時刻邊eij上的信息素量,初始化信息素量τij(0)=0;用禁忌表tabua(a=1, 2,…,A)記錄第a只螞蟻走過的邊;α,β分別為信息素量和啟發式因子的重要程度;ηi是啟發式因子且為內部信息,表示選擇第i個元素的期望程度,視情況而定具體表達式。 針對本文研究的信號數據的特點,啟發式因子ηi的公式如下。 (5) 信息素量隨迭代次數變化,一次迭代完成后,按照一定的規則對信息素進行更新,信息素更新公式如下 (6) 式中ρ為信息素揮發系數;tabus為s時刻選擇的特征路徑;φ’(tabus)為要進行信息素增強路徑的目標函數值,為信息素增量公式;Q為常數(根據ρ值確定,調節信息素增量的大小)。 2.2.2 蟻群算法流程圖 基于蟻群優化特征選擇的輻射源個體識別算法可以概括為:首先依據路徑轉移概率公式構建某條路徑;然后根據目標函數即分類器的分類正確率來判斷當前解是否為最優解,進而更新信息素。算法終止條件為達到設定的最大運行次數。 其流程圖如圖2所示。 圖2 蟻群算法特征選擇流程圖 3.1.1 數據準備 實驗在1臺i7-4770 3.40GHz 4核處理器、24GB內存的電腦上運行,開發環境為Matlab R2017a。實驗數據來源于兩個相同型號的輻射源電臺,采集環境為基本無噪聲的干凈環境,兩個電臺發出的信號數據分別在10種不同的采集狀態下獲得。10種采集狀態下信號具體參數如表1所示。 表1 信號參數 3.1.2 預處理 為統一數據樣本的數量級、增加可比性及加快算法收斂速度,采用Z-score標準歸一化對特征值進行標準化[15],公式如下。 (7) Z-score標準歸一化將原始的數據轉換到某個范圍,且不會改變原始數據排列順序。歸一化后,不同數量級的特征在數值上進行了統一,提高了分類器的正確率;最優解的尋優過程更為平緩,容易正確地收斂到最優解。 對原始I/Q采樣數據取模,可得到信號的頻域表達,信號I/Q兩路采樣可以降低采樣率且保留原始信號的信息。為保證信號數據的多樣性,現將實驗數據擴展,分別為:取模后的信號數據、I路信號數據和Q路信號數據。然后經過信號其它預處理過程及基于集成特征提取算法,依據信號時頻域的特點,對信號進行兩層提升小波包分解[14]。選取12個統計量(均值、平均幅值、方根幅值、標準差、有效值、峰-峰值、波形指標、脈沖指標、峰值指標、偏斜度、峭度和峪度指標)及各頻帶內能量。對于求幅值后的信號數據,按組(每組4096個數據)進行特征提取,得到重構原時域信號的12個統計特征參數(1-12)、小波包分解的第二層四個節點系數的各12個特征參數(13-60)、四個單支重構信號的各12個統計特征參數(61-108)和4個標準化相對能量(109-112)。對于I路信號數據,用相同的方法得到特征113-224,對于Q路信號,得到特征225-336。構建特征集set={t|t=1, 2,…, T, T=336}。每個電臺分別在每種采集狀態下選取200組數據(共得到2000組數據),得到兩臺電臺的2×2000個特征向量,選取總特征向量的3/4用來訓練,1/4用來測試。 上述實驗數據在無噪聲的干凈環境下采集得到,為模擬信號的普遍實際狀態,在實驗前可先將信噪比分別調整為10dB和5dB,特征提取分別得到特征集set={t|t=1, 2,…, T, T=336},再按提出的算法進行特征選擇并進行實驗。 將文獻[5]中基于類間類內距離比的向前搜索算法選擇特征子集與文中基于蟻群優化算法選擇特征子集的結果進行比較。 文獻[5]方法:基于類間類內距離比的向前搜索特征選擇算法分別計算每類第t個特征的類間平均距離和類內平均距離,并計算第t個特征的類間類內平均距離比rt,類間類內平均距離比rt反映了特征t分類的難易程度。按照rt對特征進行排序,選取前q個rt較大的特征作為分類器的輸入。用訓練樣本計算set中每一特征的類間類內平均距離比,得到的結果如圖3所示。 圖3 特征類間類內距離比 根據圖3,選取前20個rt較大的特征,圖中為虛線上方特征,按照rt對特征進行排序取q=1,2,3,…,20構成特征子集。分類器使用SVM(采用rbf核函數,gamma=0.4,C=100),分類正確率與特征子集基數q的關系如圖4所示。 圖4 特征選擇算法對比 本文方法:基于蟻群優化的特征選擇算法參數初始化:τij(0)=1,α=1,β=1,ρ=0.2,Q=0.02,螞蟻數A=45,最大迭代次數Nc=200。采用SVM分類器(采用rbf核函數,gamma=0.4,C=100)。分別取q=1,2,3,…,20,為降低蟻群優化算法螞蟻初始位置的隨機性對最終結果的影響,重復實驗10次取平均分類正確率,平均分類正確率與最優特征子集基數q的關系如圖4所示。 根據圖4,基于類間類內距離比的向前搜索算法得到的最優q值為17,分類正確率為77.2%;基于蟻群優化的輻射源信號特征選擇算法得到的最優q值為14,分類正確率為85%。 當q值相同時,明顯可以觀察出使用基于蟻群優化的輻射源信號特征選擇算法選出的特征子集比基于類間類內距離比的向前搜索算法選擇特征子集的分類正確率有較高提升,說明使用提出的算法選出的特征子集更能表示電臺的本質特性從而區分這兩個電臺,進而分析電臺的危險等級,在現代數字化信息戰場取得優勢;隨著q值的增加,使用蟻群優化算法選出的特征子集分類正確率總體上呈現出先增后減的趨勢,如圖中表明當q=14時,特征選擇的效果最好,這也滿足了算法的目標,即從規模和分類效果綜合衡量選取最好的特征子集。 實驗3.2中數據在基本干凈無噪聲的環境下采集得到,為模擬信號的實際狀態,現通過添加高斯白噪聲改變信噪比條件(10dB, 5dB),再進行特征提取分別得到特征集set={t|t=1, 2,…, T, T=336},分別取基數q=1,2,3,…, 20,分別使用基于類間類內距離比的向前搜索算法和基于蟻群優化的輻射源信號特征選擇算法得到最優特征子集,實驗結果如表2所示。 表2 不同信噪比下最大分類正確率 根據表2,當輸入經過高斯白噪聲處理更低信噪比數據時,提出方法的分類正確率仍普遍高于文獻[5]方法的分類正確率,進一步驗證了基于蟻群優化特征選擇的輻射源個體識別方法優于傳統的特征子集搜索方法。隨著信噪比的降低,輻射源信號的分類正確率呈下降趨勢,當信噪比為5dB時,分類正確率為63.4%,效果較差。在處理實際信號數據時,當噪聲嚴重影響分類結果時,需要對輻射源信號進行預處理如降噪等來提高分類識別的效果。 本文提出了基于蟻群優化特征選擇的輻射源個體識別方法,建立了輻射源信號特征選擇的數學模型,并用蟻群優化算法進行求解。 1)以分類器的分類正確率作為特征選擇的目標函數,同時滿足最大分類正確率和最小特征子集規模的要求,建立了特征選擇數學模型; 2)使用蟻群優化算法,基于子集問題的構造圖,采用路徑轉移概率公式進行路徑搜索,利用基于等效路徑增強的信息素更新策略公式,求解了輻射源信號特征選擇模型; 3)結果表明,相比基于類間類內距離比的向前搜索算法,提出的基于蟻群優化特征選擇的輻射源個體識別方法選出的特征子集分類正確率進一步提升,性能更優,為正確分類識別輻射源個體提供了新思路。2.2 求解模型的蟻群算法設計






3 實驗結果與分析
3.1 數據準備與預處理



3.2 特征選擇算法比較結果


3.3 不同信噪比下測試結果

4 結論