基于深度強化學習的物理層欺騙檢測方法

2022-07-18 08:57:54黃琪穎

無線電通信技術 2022年4期

黃琪穎，高寧，李瀟，金石

(東南大學移動通信國家重點實驗室，江蘇南京 210096)

0 引言

無線網絡的開放特性使其極易受到欺騙攻擊的威脅，當欺騙攻擊用戶通過偽造合法用戶身份，如偽造媒體訪問控制(Media Access Control，MAC)地址，獲取管理幀或控制幀消息時，會進一步發動其他惡意攻擊，如會話劫持、中間人攻擊[1-2]等，因此無線網絡安全問題亟需解決。傳統的高層認證技術如數字簽名[3]，其安全性主要依賴于構造認證加密算法的數學計算復雜性，但隨著計算機計算能力的日益提高，尤其是量子計算機的發展，該技術面臨被攻破的風險。同時，傳統認證技術需要依賴于復雜的加密和解密算法，不適用于部分能量受限的傳感網絡，具有較大的局限性。IMT-2030(6G)網絡技術組在2021年9月16日發布的《6G網絡架構愿景與關鍵技術展望》白皮書中提出建立“主動免疫、彈性自治”的物理層安全內生防護體系[4]，從通信底層加強網絡的安全性，將物理層安全和欺騙檢測深度結合，具有低復雜度、低延時和低開銷的特性，因此受到廣泛關注。相比于傳統的高層認證技術，物理層欺騙檢測機制利用無線信道或收發硬件固有的特征信息，提取對應的指紋特征，實時快速地認證發送用戶身份，其中常用的特征包括：物理層信道信息如接收信號強度指示 (Received Signal Strength Indicator，RSSI)、信道脈沖響應(Channel Impulse Response，CIR)[5-6]、信道狀態信息(Channel Statement Information，CSI)[7]、信道頻率響應(Channel Frequency Response，CFR)[8]，以及射頻信息如載波頻率偏移(Carrier Frequency Offset，CFO)[9-10]、輸入/輸出不平衡(I/Q imbalance，I/Q不平衡)[11]。研究表明：物理層欺騙檢測方法基于無線信道的時變性和收發硬件的隨機性[12]，理論上可以實現通信的絕對安全。

現有的物理層欺騙檢測方法中，主要包括基于傳統的固定檢測閾值和基于人工智能(Artificial Intelligence，AI)的動態檢測閾值兩種技術，文獻[13-14]指出物理層欺騙的檢測閾值對于認證的性能起到決定性的作用。固定檢測閾值方法在理論上可以達到最優的檢測性能，但是需要已知無線信道環境的先驗知識。然而，隨著無線通信朝著全覆蓋、巨連接等方向發展，無線環境變得動態復雜且未知，信道模型或參數很難獲取，準確地選擇固定檢測閾值存在困難。而基于AI算法的物理層欺騙檢測方法可以在通信環境未知情況下學習最優檢測閾值，提高檢測性能，因此更適用于未來無線通信的發展需求。文獻[15]提出一種基于無監督機器學習(Unsupervised Machine Learning，UML)的方案，對各個節點的特征信息進行自適應分類來防御欺騙攻擊。文獻[16]利用極限學習機(Extreme Learning Machine，ELM)提出一種基于CFR的方案，通過訓練模型進而在信息傳輸階段做出認證決定。文獻[17]提出基于Q學習和深度神經網絡為代表的深度強化學習(Deep Reinforcement Learning，DRL)算法，結合收發雙方的RSSI特征信息，以最大化貝葉斯風險效益值為目標進行檢測閾值學習，實現95%以上的檢測概率。為保障通信安全、鑒權接入用戶身份，需要對動態未知環境下的物理層欺騙攻擊檢測方法進行深入研究。然而基于DRL相關的欺騙攻擊檢測研究大多為離散檢測閾值分析，其會對欺騙檢測帶來一定的性能損失，少有文獻研究基于DRL的檢測閾值連續控制問題，相關檢測性能有待分析。

因此，針對動態未知的無線通信環境，本文提出一種基于深度強化學習的環境自適應物理層欺騙攻擊檢測方法，實現檢測閾值的動態連續選擇。首先，接收方接收未知發送者的數據包并獲取CFR表征物理層指紋特征；其次，依據物理層指紋特征、檢測閾值選擇、貝葉斯風險分別構建狀態集、行為集和瞬時效益函數，基于深度確定性策略梯度(Deep Deterministic Policy Gradient，DDPG)框架提出檢測閾值動態選擇算法；最后，所提算法通過選擇不同的檢測閾值進行反復的試錯實驗優化檢測閾值選擇策略，最大化貝葉斯風險的效益函數的期望累積效益。

1 模型構建

1.1 系統模型

欺騙攻擊場景示意圖如圖1所示，Alice和Bob是合法用戶，Alice是發送方，Bob是接收方，Eve是欺騙用戶。設Alice的天線數NA，Bob的天線數NB，Eve的天線數NE，散射體數Ns，通信中心頻率f0，信道帶寬W，子載波數Nf。設Eve與Alice和Bob之間的距離均大于半個波長(λ/2)，即非法信道與合法信道不相關。

圖1 欺騙攻擊場景示意圖

當Alice 向Bob發送數據包進行信道探測時，Bob的接收信號可表示為：

YAB=HABXA+NAB，

(1)

式中，XA表示Alice發送的信道探測信號，HAΒ表示Alice和Bob之間信號的信道頻率響應，NAB表示Alice和Bob之間信號的信道噪聲，YAB表示Bob接收到的來自Alice的信號。

當Eve偽造合法用戶Alice身份向Bob發送數據包時，Bob的接收信號可表示為：

YEB=HEBXE+NEB，

(2)

式中，XE表示Eve發送的信道探測信號，HEB表示Eve和Bob之間信號的信道頻率響應，NEB表示Eve和Bob之間信號的信道噪聲，YEB表示Bob接收到的來自Eve的信號。

假設Alice探測信道的頻率足夠快，且在Eve出現之前Bob已獲取合法的CFR信息并存儲為歷史CFR信息樣本。在此情況下，設CFR的采樣頻率為f∈(f0-W/2,f0+W/2)，則第m個采樣點的信道頻率響應可表示為：

Hm=H(f0-W/2+mΔf)m=(1,2,…,M)，

(3)

式中，Δf=W/M，M為采樣數。

1.2 假設檢驗

圖2 信道估計示意圖

(4)

(5)

式中，D0表示發送用戶為合法發送方的狀態，D1表示發送用戶為非法攻擊者的狀態。

因此，當前CFR信息和歷史CFR信息的歐式距離可表示為：

(6)

依據檢驗統計量L與檢測閾值k進行比較，如果L

(7)

檢測閾值k的大小直接影響Bob對于物理層欺騙攻擊檢測的性能。如果檢測閾值k過小，則容易將合法用戶誤認為是欺騙用戶；如果k過大，則容易將欺騙用戶漏檢。上述情況可以使用虛警概率和漏檢概率進行評估，其中，虛警概率為合法發送方的數據包被誤認為是非法攻擊方的數據包的概率，漏檢概率為非法攻擊方的數據包被誤認為是合法發送方的數據包的概率，二者可分別表示為：

pf=P(D1|D0)，

(8)

pm=P(D0|D1)，

(9)

式中，pf表示虛警概率，pm表示漏檢概率。

1.3 攻擊模型

無線信道的廣播特性使其容易遭受物理層欺騙攻擊，此欺騙攻擊示意圖如圖3所示。當Alice與Bob信道處于空閑時，欺騙用戶Eve通過偽造Alice的MAC地址冒充合法用戶與Bob通信，向Bob發送欺騙信號以獲得通信權限，并進一步發動其他惡意攻擊。

圖3 欺騙攻擊示意圖

設Eve冒充Alice向Bob發送欺騙信號的攻擊概率為y∈[0,YMAX)，其中最大攻擊概率YMAX<1，此概率取決于Bob接收到的欺騙數據包的數量。如果攻擊概率為0，則表示Eve未向Bob發送欺騙信號。

2 基于深度強化學習的檢測閾值選擇算法

考慮動態未知的無線環境，由于信道模型或參數很難獲取，接收方很難選擇合適的檢測閾值進行發送方身份鑒權。為了能夠環境自適應地進行物理層欺騙攻擊檢測，引入深度強化學習算法，在動態未知環境中利用當前感知信息進行試錯學習，依據反饋的效益進行動態連續的檢測閾值調整，獲得最佳檢測閾值選擇策略。基于此，本節根據DDPG算法框架，提出了檢測閾值動態選擇算法。

基于DDPG的算法框架設計狀態空間S、行為空間A以及環境反饋效益r。設狀態空間為S={s1,s2,…,st}，行為空間為A={k1,k2,…,kt}，其中st=[Ht]∈S表示Bob在時隙t的信道頻率響應采樣值；kt∈A表示Bob在時隙t選擇的檢測閾值。環境反饋效益r采用貝葉斯風險值[18]進行評估。設Bob接收合法發送用戶數據包的收益為G1，拒絕非法發送用戶數據包的收益是G0，接收非法發送用戶數據包的代價是C0，拒絕合法發送用戶數據包的代價是C1，結合攻擊模型，欺騙檢測的貝葉斯風險值可表示為：

r=(G1·(1-pf)-C1·pf)·(1-y)+

(G0·(1-pm)-C0·pm)·y，

(10)

式中，等號右邊第一項表示來自合法發送用戶數據包的回報，等號右邊第二項表示來自非法發送用戶數據包的回報。基于此，接收方的效益函數可表示為：

r=(G0-G1)·y-(G0+C0)·pm·y-

(G1+C1)·pf·(1-y)+G1，

(11)

進而，期望累積效益為現實critic網絡得到的Q值，算法的優化目標即為最大化接收用戶Bob的期望累積效益，學習最優檢測閾值選擇策略。

基于DDPG的物理層欺騙攻擊檢測閾值動態選擇算法框架如圖4所示，其訓練過程可描述如下：Bob通過和環境交互，存儲當前狀態、檢測閾值、環境反饋效益和下一時刻的狀態，組成四元組{st,at,rt,st+1}并作為訓練樣本數據放入經驗池。在訓練中，現實critic網絡批量取出NG組樣本{sj,aj,rj,sj+1}(j=1,…,NG)作為訓練數據集，目標Q值zj的表達式為：

圖4 基于DDPG的物理層欺騙攻擊檢測閾值動態選擇算法框架

(12)

其中，λ是折扣因子，rj為當前數據樣本的瞬時效益值，sj+1為下一個數據樣本的狀態，θμ′為目標actor網絡參數，θq′為目標critic網絡參數。現實critic網絡通過最小化損失函數更新參數：

(13)

(14)

其中，L(θq)為損失函數，θq為現實critic網絡參數，αq為現實critic網絡學習率。現實actor網絡通過梯度反向傳播進行參數更新，可表示為：

(15)

(16)

其中，J(θμ)為期望回報，θμ為現實actor網絡參數，αμ為現實actor網絡學習率。

此外，不同于傳統DQN算法采取的硬更新模式，即每隔一段時間將當前網絡的參數賦值給目標網絡，所提算法采取間隔一定時間對目標actor網絡參數和目標critic網絡參數進行軟更新，即利用當前網絡參數與目標網絡參數的凸組合進行更新，從而保證算法的自適應性并提高學習的穩定性。軟更新過程可表示為：

θq′=τθq+(1-τ)θq′，

(17)

θμ′=τθμ+(1-τ)θμ′，

(18)

其中，τ為軟更新系數，θq′和θμ′分別為目標critic網絡參數及目標actor網絡參數。所提算法1的具體流程表示如下。

算法1 基于DDPG的物理層欺騙攻擊檢測閾值動態選擇算法輸入:學習率αq和αμ;折扣系數λ;軟更新系數τ;經驗回放內存U,最大容量C;batch大小NG;初始化網絡參數包括現實critic網絡Q(s,a;θq)、現實actor網絡μ(s;θμ)、目標critic網絡Q'(s,a;θq')、目標actor網絡μ'(s;θμ')。輸出:最優檢測閾值選擇k*1:for t = 1,2,…do2: 獲取此時CFR信息并轉化為狀態st=[Ht]3: 與環境交互并結合行為噪聲I選擇檢測閾值kt=μ(st;θμ)+I4: 根據式(6)^(7)建立假設檢驗對數據包進行檢測5: 根據式(11)計算當前狀態的瞬時效益值rt6: 存儲樣本數據{st,at,rt,st+1}于經驗回放內存U7: 從U中采樣大小為NB的一批樣本數據{sj,aj,rj,sj+1}作為訓練數據集8: 根據式(13)^(14)計算目標Q值并通過式(14)更新現實critic網絡9: 根據式(15)^(16)使用梯度反向傳播方法更新現實actor網絡10: 根據式(17)^(18)對目標網絡參數進行軟更新11: 更新狀態st=st+112:end for

3 仿真結果和分析

本文仿真實驗基于IEEE802.11無線網絡通信標準，所提算法的具體仿真參數如表1所示。中心頻率f0= 5 GHz，信道帶寬W= 10 MHz，子載波數Nf= 512，散射簇無線信道的分布狀況未知。使用QuaDRiGa平臺仿真過程中，3個用戶設備的位置坐標為：合法發送用戶Alice的位置為[0 0 2]，非法用戶Eve的位置為[200 30 2]，合法接收用戶Bob的位置為[250 7 3]，以上三維坐標的單位均為m，Alice的天線數NA=64，Bob的天線數NB=64，Eve的天線數NE=64，散射體數Ns=5。設非法發送用戶的攻擊概率y= 0.4，接收用戶每次接收的數據個數為Nr=30。在提出的DRL框架中，所有的神經網絡都是三層深度神經網絡(Deep Neural Networks，DNN)，其中網絡的隱藏層包含256個神經元。現實actor網絡和現實critic網絡都使用Adam優化器進行參數更新。接收用戶的環境反饋效益函數中收益和代價參數的初始值分別設置為G1=6，G0=9，C0=6，C1=4。檢測算法的學習率為1×10-3，折扣因子為0.9，經驗回放內存最大容量為2×104，batch的大小為32，行為噪聲設置為0.05。狀態集為歸一化后的當前時隙接收到的數據包，維度為30；行為集為檢測閾值k的集合，取值范圍為[0,0.1]。在與環境的交互過程中，當樣本數達到經驗回放內存最大容量時，開始進行網絡學習，并且行為噪聲隨著訓練次數的增加逐漸降低。

表1 仿真參數取值及意義

為了驗證不同發送用戶CFR指紋與合法用戶CFR指紋之間的相關性，以二者的歐式距離為檢測統計量對數據進行了數值分析，圖5給出了合法用戶和非法用戶的檢測統計量的數值統計結果。

由圖5可知，對于用戶接收到的多組CFR指紋，檢測統計量的數值呈現波動狀態，其中，合法用戶之間CFR指紋的歐式距離的最大值為0.103 6，合法用戶與非法用戶之間的CFR指紋歐氏距離的最小值為接近于0.000 2，由此可知，需要將檢測閾值設置為0.103 6和0.000 2之間，并且根據統計可以得出在檢測閾值設置為0.07時，可以有效地檢測出絕大多數欺騙攻擊，虛警概率和漏檢概率均在0.1以下，檢測概率為95.3%。值得指出的是，在動態未知無線環境下，實際欺騙檢測無法確定上述優化的檢測閾值，因此在以下仿真中，將以優化的固定檢測閾值0.07時的欺騙檢測性能作為基準進行分析和討論。

圖5 物理層欺騙檢測的測試統計分析

圖6(a)是所提算法在檢測欺騙攻擊時，最優檢測閾值隨實驗迭代次數的變化情況，其中以固定檢測閾值0.07作為比較基準；圖6(b)是接收方獲得的相應效益，其中以固定檢測閾值的最大效益作為基準，其數值約為7.06。

(a) 欺騙檢測中的檢測閾值

由圖6(a)可知，智能體通過獲取環境反饋的效益改變檢測閾值選擇策略，所提算法可以實現檢測閾值的動態連續選擇。當迭代次數在168左右時檢測閾值逐漸收斂為0.082附近，數值高于固定檢測閾值；當迭代次數200次時改變了無線環境，此時檢測閾值開始波動，經過若干次迭代，在迭代次數為302次左右時，檢測閾值近似收斂到0.045附近，數值小于固定檢測閾值。其原因在于：通過不斷地探索無線環境，所提算法有機會學習到比固定檢測閾值更優的檢測閾值，進而提升檢測性能。由圖6(b)可知，在迭代次數200次前，接收方的效益大部分保持在6.0以上，最終效益可收斂到7.11左右，高于固定檢測閾值的效益。在迭代次數200次時改變無線環境，接收方的效益開始出現波動，隨后經過對新無線環境的學習，接收方效益進一步收斂到7.16左右，此時，所提算法的效益略高于固定檢測閾值方法。結果表明：所提算法可以在未知無線環境下實現檢測閾值的動態連續選擇，當無線環境發生改變時可以自適應地調整最優檢測閾值大小，具有環境自適應性；并且所提算法獲得的效益大于優化的固定檢測閾值方法的最大效益，具有較好的檢測性能。

為了更加直觀地分析所提算法的檢測性能，以虛警概率0.1作為性能基準，分析了所提算法的虛警概率和漏檢概率，結果如圖7所示。由圖7(a)可知，所提算法在迭代次數為146次左右開始，虛警概率迅速下降并逐漸收斂，最終虛警概率收斂于0.005附近，低于固定檢測閾值的虛警概率0.05；當在迭代次數200次無線環境發生改變，此時虛警概率逐漸開始波動，通過對新環境的學習，迭代次數在314次左右算法開始收斂，最終收斂于0.001附近。由此可知，所提算法的虛警概率遠小于0.1，可以達到欺騙攻擊檢測的性能要求。在圖7(b)的漏檢概率性能分析中，所提算法的漏檢概率經過有限次迭代后迅速下降，當迭代次數163左右時開始逐漸收斂，漏檢概率最終收斂于0.023附近；在迭代次數200時無線環境改變，此時經過對新環境的學習，漏檢概率最終收斂于0.008附近，低于固定檢測閾值的漏檢概率0.017。

(a) 虛警概率

綜上所述，與使用優化的固定檢測閾值的欺騙攻擊檢測相比，使用所提算法可以滿足在虛警概率小于0.1的情況下，獲得很好的檢測性能。

4 結論

針對物理層欺騙攻擊的安全威脅，本文提出了一種基于DDPG的欺騙檢測方法。具體地，在建立的被動攻擊經典模型的基礎上，基于DRL的DDPG算法框架構建了狀態集、行為集和效益函數，并給出了算法的詳細步驟。該方法使得接收端用戶可以在動態未知環境下自適應地選擇連續檢測閾值，準確地鑒權合法用戶和非法用戶。仿真結果表明：通過一定次數的訓練后，該算法通過不斷地探索無線環境，可以學習到比優化的固定檢測閾值更優的檢測閾值，進而有效提高了欺騙檢測的性能，檢測概率可以達到97%以上。