黃少馳,朱曉蕾
(1.中國人民解放軍91404部隊,河北 秦皇島 066001; 2.哈爾濱工程大學,黑龍江 哈爾濱 150001)
隨著無線通信和網絡技術的發展,無線網絡在人們的生活中扮演著越來越重要的角色。相對于傳統有線傳輸方式,無線網絡的開放性能夠為未認證設備提供更多的入侵機會,因此,無線移動網絡中的隱私性與安全性尤為重要。傳統的無線網絡安全方法通常是在OSI模型上通過數據鏈路層、網絡層等上的機制來實現的。但這種機制往往存在很多缺陷,設備標識很容易被復制,可以通過此種方法來獲得未經授權的網絡訪問。因此,近20 年來,基于物理層的安全機制得到了廣泛的研究,以提高無線網絡的安全性。在過去的十幾年中,無線通信設備的射頻指紋提取與識別在國內外都受到了廣泛的關注。它可以用于無線網絡中的接入控制,防止入侵設備克隆認證設備信息。無線設備通信信號的射頻指紋就像人的指紋一樣是獨一無二的,由于硬件的差異,不同的設備有著不同的指紋。這些硬件的差異將會表現在信號的幅度、相位以及頻率上。雖然這些差異是微小的,但對設備的認證是很有用的。無線設備的射頻指紋的提取與識別方法發生在物理層,所以是易于實現的,能夠提高無線網絡中的安全性。本文主要利用通信設備的射頻指紋對其識別,其中包括一些降維方法的比較,以及針對本文問題的分類器選取。通過實驗,驗證此方法能夠獲得較好的效果。
本文主要研究入侵檢測問題中無線通信設備的個體識別。圖1為信號采集及后續處理的一個框圖。首先,從接收機收集到信號,根據能量檢測方法提取出瞬時信號,為了模仿信道干擾, 加上了高斯白噪聲。在經過希爾伯特變換之后,利用降維方法來提取后續的射頻指紋特征。最后,分類器給出最終的分類結果。本文中所有的仿真均在MATLAB 2014a上完成。

圖1 通信個體識別系統總體框圖
待識別的信號采集自10個不同的無線通信設備。為確保收集到的信號無環境噪聲干擾,直接將無線設備與接收機用線連接。采集信號之后人為添加噪聲。
首先利用希爾伯特變換對信號進行初步特征提取。為了減少希爾伯特變換之后的冗余信息,利用降維方法來對初始特征進行進一步特征提取。本文選用三種降維方法進行比較與選擇。
1.2.1主成分分析法
主成分分析(PCA)算法是一種實現特征降維的方法。對于一個待測量矩陣M∈R(n1×n2),其中n1是樣本個數,n2是樣本維數(特征數),PCA借助于一個正交變換,將其分量相關的原隨機向量轉化成其分量不相關的新隨機向量,在幾何上表現為將原坐標系變換成新的正交坐標系,使之指向樣本點散布最開的若干個正交方向,然后對多維變量系統進行降維處理。在統計學中,PCA是一個線性變換。這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(稱為第一主分量)上,第二大方差在第二個坐標(第二主分量)上,依次類推。PCA經常用于減少數據集的維數,同時保持數據集的對方差貢獻最大的特征,這是通過保留低階主分量、忽略高階主分量做到的。
1.2.2魯棒主成分分析法
魯棒主成分分析(RPCA)算法的主要思想是將一個矩陣M∈R(n1×n2)分解成一個低秩矩陣L∈R(n1×n2)和一個稀疏矩陣S∈R(n1×n2),通過求解凸優化問題,問題可描述為:
式中,‖·‖*表示矩陣的范數,‖·‖1表示矩陣的L1范數,λ是調節參數。魯棒PCA算法直接在原始數據上進行操作,對任意足夠大的數據來說找到它的低秩估計。
無線電臺發出的瞬態信號具有特定的結構信息,由于樣本組成的矩陣行或列是線性相關的,可以假設這是一個低秩矩陣。而由于傳輸過程中噪聲的存在,噪聲是稀疏的,就可以假設噪聲是一個稀疏矩陣。通過RPCA,將樣本矩陣分解成低秩的信號矩陣和稀疏的噪聲矩陣,最后,利用傳統PCA對低秩矩陣進行降維。
1.2.3核主成分分析法
核主成分分析(KPCA)算法的基本思想是將輸入數據M通過一個非線性映射Φ映射到高維特征空間F,然后在空間F上做傳統PCA降維。
一般來講,PCA對線性數據能有實現很好的降維,但是當觀測數據是非線性的時候,PCA不一定能夠有較好的降維效果。這些數據可以被映射到更高的維度空間中,這種空間叫做特征空間(F)。KPCA通過簡單的內核函數找到一個計算上易于實現的解決方案,該函數本質上構建了從輸入空間到特征空間的非線性映射。因此,KPCA是在輸入空間中執行一種非線性的PCA。
機器學習在近幾年來蓬勃發展,而機器學習作為分類器也能夠很好地展現優異的性能。隨機森林(RF)是由Leo Breiman于2001年提出的一個分類器融合算法,可以很好地解決多分類問題。它的基本思想是基于統計學信息熵這一信息增益標準對信息進行劃分和學習,得到若干個樹形分類器,具有快速有效的優點。
隨機森林是由多個相互獨立的隨機決策樹組成的,期望得到一個最“公平”的集成學習方法。這些決策樹在得出自己的判斷之后,經過多數投票得到最終結果。構建隨機森林首先需要構建多個隨機決策樹,訓練每棵樹時的訓練集都是從總的訓練集中放回采樣出來的,這意味著,總的訓練集中的有些樣本可能多次出現在一棵樹的訓練集中,也可能從未出現在一棵樹的訓練集中。除此之外,每個決策樹在訓練的過程中,每個節點只針對其中部分特征維數進行訓練。
除了隨機森林之外,支持向量機(SVM)、人工神經網絡(ANN),以及灰色關聯分析(GRA)也是經過人們證實的具有不錯分類效果的分類器。
本文中的原始信號來自10臺設備發出的500次觀測信號,每臺設備在沒有噪聲的情況下觀測50次。將這500個觀測信號分成2部分,300個作為訓練樣本,200個作為測試樣本。訓練樣本集和測試樣本集均來自希爾伯特變換之后的信號,經希爾伯特變換之后每個樣本的維數都是3187。為了提高識別精度,為每個觀測量上多次加上了高斯白噪聲,信噪比變化范圍設定為0~20dB,訓練樣本集和測試樣本集均包含54000個樣本。
為了驗證利用對希爾伯特變換后的特征降維結果能夠提高個體識別的精度,首先利用RPCA降維方法和隨機森林分類器對其進行初步實驗。信噪比環境選擇10dB,因為此信噪比下的識別效果并不是十分卓越,對于比較結果能夠更加清晰地顯示。降維之后的維數隨機選為4。
圖2比較了是否以降維作為分類特征的識別結果,可以看出,降維之后的識別結果比不降維的識別準確率更高,在10臺設備的綜合識別率上,不降維時識別率為62.83%,RPCA降4維的識別率為95.47%。從理論上講,原始不降維的特征雖然有著完整的指紋信息,但同時也包含了很多冗余與噪聲信息,這可能對識別產生了干擾。另一方面,沒有降維的樣本之間也會存在著相關性,這也可能會對識別產生誤導。而RPCA將原始特征映射到彼此相互正交的新坐標系中,這樣就減少了特征間的相關性和冗余。同時,少的特征輸入也能簡化分類器的復雜程度,降低運算時間。
前面已經證明降維能夠提高識別精度,但哪種降維方法能夠表現最佳的降維性能是接下來要研究的內容。此處比較前面介紹的三種降維方法PCA、RPCA、和KPCA。
利用三種降維方法,對20dB下的訓練樣本集和測試樣本集進行降維處理,取剩余維數特征占總特征包含能量的比值處作為比較點,比較三種方法降到相同能量時所對應的維數。從表1可以看出,在四個能量占比之處,RPCA都降到了最少的維數,也就是說這種降維方法最有效。而從另一個角度想,就是當三種方法降到同一個維數的時候,RPCA會保留最多的能量信息。所以后續實驗采取RPCA降維方法進行特征提取處理。

表1 三種降維方法降維效果比較 維數
在信噪比為10dB(此信噪比下識別率不高,比較效果明顯)條件下進行分類器對比實驗。降維方法選擇RPCA,維數根據能量占比分別從3187維降到了2維、76維、300維和645維。隨機森林的參數設置同前面相同,創建1000個決策樹。BP神經網絡設置一個隱層,隱層節點數根據經驗公式稍加修改調整。圖3展示了四種分類器在不同位數下的分類結果比較,可以看到,當維數較高時,隨機森林分類器的識別率相比于其他三種最高,而在同種分類器的維數比較上,76維(能量保留到85%)時,識別效果最好。

圖3 利用四種分類器的通信個體識別結果
通過以上實驗結果,選擇隨機森林作為分類器,特征維數選擇為76來進行不同信噪比下的通信個體識別。圖4是利用RPCA降維作為特征輸入的識別結果,可以看到,當信噪比大于10dB時,系統的識別率已經大于90%,信噪比大于15dB時,識別率大于 98%,完全能夠保證實際情況的使用。

圖4 基于RPCA和隨機森林的通信個體識別結果
無線設備在商業和軍事基礎設施中的應用增加了提高保護的緊迫性。尤其是冒用授權設備的流氓設備的攻擊可能是毀滅性的。文中,射頻指紋用于識別被認證的設備,是入侵檢測的重要組成部分。本文的成果主要包括:1)三種維數降低方法的比較。通過保留相同能量下所對應的維數,選擇出最佳的降維方法RPCA。 2)比較四個分類器的識別結果。對于所有實驗,使用隨機森林作為分類器,當輸入特征為76維時,識別效果最好。而且在信噪比大于15dB時,識別率大于98%。總結來說,本文提出了一種最佳個體識別系統模型,能夠保證無線設備身份認證的安全性。■
[1] 羅軍舟, 楊明, 凌振, 等. 網絡空間安全體系與關鍵技術[J]. 中國科學: 信息科學, 2016, 46(8): 939-968.
[2] Maged Elkashlan, Wang LF, Duong TQ, et al. On the security of cognitive radio networks[J]. IEEE Trans. on Vehicular Technology, 2015, 64(8):3790-3795.
[3] Sharma RK, Rawat DB. Advances on security threats and countermeasures for cognitive radio networks: a survey[J]. IEEE Communications Surveys and Tutorials, 2015, 17(2):1023-1043.
[4] Polak AC, Goeckel DL. Identification of wireless devices of users who actively fake their RF fingerprints with artificial data distortion[J].IEEE Trans. on Wireless Communications, 2015,14(11):5889-5899.
[5] 張子平, 郭道省, 張亞軍. 無線通信物理層安全技術研究與展望[J]. 通信技術, 2016,49(6):649-655.
[6] Wang W, Sun Z, Piao S, et al. Wireless physical-layer identification: modeling and validation[J]. IEEE Trans. on Information Forensics & Security, 2015,11(9):2091-2106.
[7] 俞佳寶,胡愛群,朱長明,等.無線通信設備的射頻指紋提取與識別方法[J].密碼學報,2016,3(5):433-446.
[8] Ureten O,Sefinken N.Wireless security through RF fingerprinting[J].Canadian Journal of Electrical and Computer Engineering , 2007,32(1):27-33.
[9] 王文俊.基因表達數據的相似性度量和特征提取研究[D].西安:西安電子科技大學, 2011.