基于強化學習的信道碰撞對抗研究

2022-07-18 08:57:58謝海東陳遠清向雪霜

無線電通信技術 2022年4期

謝海東，陳遠清，向雪霜

(中國空間技術研究院錢學森空間技術實驗室，北京 100190)

0 引言

隨著5G、物聯網等技術的飛速發展，大規模機器類型通信(mMTC)[1]場景應用需求日益凸顯。此時，預計未來可能出現每平方公里高達百萬量級的連接需求，對大規模接入提出了巨大的挑戰。面向上述大規模高并發通信治理問題，目前存在諸如NB-IoT、eMTC、Bluetooth、WiFi、ZigBee等一系列通信協議[2-3]，每種協議在功耗、連接數量、通信時延、數據可靠性以及使用難易程度等方面有所不同。

在這些通信協議中，高效的信號防碰撞算法是體現其處理大規模高并發需求的核心能力之一[4]。防碰撞算法的核心目標是解決多個設備在共享信道中傳輸信號重合，導致的無效傳輸問題。過多的信號碰撞會導致信道利用效率急劇降低，嚴重時可能導致通信完全中斷。在典型的合作場景下，現有防碰撞方法在理論上可以實現優秀的通信效率。然而已有算法鮮有考慮在對抗場景下的防碰撞效能，本文就此基于強化學習研究了針對性的信道碰撞干擾方法，并數值驗證了干擾效果，為防碰撞算法后續安全與抗干擾研究提供了新思路。

1 典型防碰撞算法

在高并發數據傳輸過程中，為避免信號沖突導致無效傳輸，通信設備需要監聽共享信道是否處于空閑狀態，并在發生沖突后運用防碰撞算法來盡可能避免后續沖突。目前典型的防碰撞算法主要包括有線網絡的退避算法、無線網絡的Aloha概率性算法和基于樹的確定性算法等[4-6]。

1.1 退避算法

二進制指數退避(Binary Exponential Backoff，BEB)算法[7]最早被運用在載波偵聽多路訪問/沖突檢測(Carrier Sense Multiple Access/Collision Detection,CSMA/CD)協議中，可實現有線網絡的分布式防碰撞訪問控制。其核心思想是節點在遇到沖突時，廣播干擾信號，并在隨機的時延后重新嘗試；時延大小在逐步增加的二進制指數離散點內隨機選取。因此該算法有助于負荷的平滑過渡，避免沖突重復發生，但這個算法對于信道容量的利用效率不高。

當沖突發生時，基于二叉樹的改進算法在前者基礎上，按照網絡節點靜態的二叉樹映射，依次發送數據。這類方法可以有效避免沖突的重復，且可有效控制最大網絡延遲，但性能依賴于二叉樹映射，當設備或需求動態性較強時可能導致平均延遲增大。

基于交換機的解決方法，通過交換機進行多個節點信息的暫存與中轉，對于網內獨立通信可以劃分獨立沖突域實現全雙工通信，網絡服務質量得到保障,但成本較高。

通過修改網絡數據幀格式，根據優先級不同，采用不同長度的阻塞信號，降低沖突發生概率。阻塞信號長度越長，網絡優先級別越高。但這種方式依賴于網絡底層邏輯修改，任意性較強，容易造成長阻塞信號用戶大量占用網絡資源情況。

1.2 概率性算法

純Aloha算法[8-9]是最基本的防碰撞算法，固定數據幀長T并按需隨時發送。當多個節點發生碰撞時，由接收器告警并由發送端隨機延后重試，降低繼續碰撞的概率。這種算法實現簡單，但存在部分碰撞問題，有效碰撞時間為2T，最大吞吐率僅能達到18.4%，相對較低。

時隙Aloha(Slotted Aloha，SA)算法，把時間分成多個離散時隙，節點只在每個時隙的開始時刻才能發送數據。算法中節點成功識別或完全碰撞，避免了純Aloha算法中出現的部分碰撞問題，其最大吞吐率可達36.8%。但在發生碰撞時，節點延遲的隨機性范圍很大，影響了其平均響應速度。

幀時隙Aloha(Framed Slotted Aloha，FSA)算法，規定若干個時隙為一幀，節點選擇的隨機延遲必須是幀內的某個時隙。當幀長數目與節點數目相等時，達到最大吞吐率36.8%。對于不同需求，均存在最佳的幀長，使得網絡吞吐率最佳。

動態幀時隙Aloha (Dynamic Framed Slotted Aloha，DFSA)算法[10-11]考慮根據節點數量動態地調整幀長，即采用等于節點數量的最優幀長。在DFSA算法中，非常重要的一項工作就是節點數量的估計，大多數方法是根據上一幀的幀長、節點個數、沖突情況來估計當前幀中的節點數。

當節點數量較多時，可通過分組等方法將需求簡化。分群時隙Aloha算法，根據碰撞時隙在所分配時隙中所占的比例，確定是否分群，通過分群依次解決每個群內的數據傳輸需求。自適應的動態幀時隙Aloha算法，考慮應用中重復傳輸的要求，通過分配時隙號充分利用已識別節點的信息，按時隙號依次傳輸避免沖突。

為解決預測節點困難問題，使用Q值算法實時自適應地調整幀長。節點在Q值范圍內隨機生成對應傳輸順序的時隙位置，同時根據沖突情況調整Q值大小?；诜纸M的位隙Aloha算法，采用位隙Aloha算法中的128位預定序列，代表128個位隙。當節點數量為15時，位隙Aloha算法可獲得最大吞吐率88.38%，但隨著節點數量的增加，算法性能急劇下降。

1.3 確定性算法

確定性算法[12]主要包括樹分裂 (Tree Splitting,TS) 算法和查詢樹(Query Tree,QT)算法。TS算法[13]將發生沖突的節點分成兩個子集，第一子集在下一個時隙響應，若又發生沖突，則再次分裂，如此遞歸直到子集中只有1個節點為止。該算法要求節點具有隨機數生成器來實現子集分裂。

QT算法[14]不需要節點具備隨機數生成器和計數器，僅要求具有前綴匹配電路，降低了節點設計復雜度。接收端首先向所有節點廣播一個前綴，節點將其與自己ID比較，若匹配則進行響應，將ID號的未匹配部分發送。如果有多個節點響應出現沖突，則接收端在前綴后增加一位(0或1)生成新前綴，再次查詢，如此重復。

1.4 基于人工智能的算法

由于實際應用過程中設備數量與需求動態變化，因此事先制定的策略常常難以發揮預想的效果。隨著近幾年人工智能技術的發展[15]，基于智能技術的防碰撞方法取得了優異的效果。例如利用Q學習思想動態調整不同信道下的分配策略[16]，面對不同空間區域利用能量優化思想兼顧節能與防碰撞[17]，針對需求預測難的問題利用強化學習思想實現吞吐率最大化[18]。

2 自適應信道干擾方法

已有信道防碰撞算法雖然取得了不錯的性能，但均沒有考慮干擾存在的情況。近年來很多工作利用智能手段研究無線通信中的干擾對抗問題[19]，例如基于深度學習的無線信道干擾攻擊[20]，訓練智能模型實現傳輸干擾與抗干擾博弈。本文進而考慮運用智能手段干擾信道防碰撞算法，下面首先討論信道的數學建模，進而提出自適應信道干擾方法。

2.1 信道數學模型

退避算法和Aloha概率性算法可以總結為“先觀測、再傳輸、然后防碰撞”的模式。對于確定性的算法，其傳輸依賴于控制節點，不存在隨機性因素，本文不進行詳細討論。為了抽象方便，信道上借鑒性能優異的幀時隙Aloha算法，將時間劃分為若干離散的幀，幀長為T，每幀包含n個時隙。此時當幀長T為無窮大，退化為時隙Aloha算法的對應信道；當數據長度為若干時隙時，可以用于描述純Aloha算法對應信道。

傳輸節點的目標是基于某防碰撞算法，在信道模型框架下建立傳輸連接并完成傳輸。對于每一個節點，應該觀測歷史m幀的信道信息，并利用防碰撞算法進行行為控制，決定是否在下一幀某時隙進行嘗試。此時如果發射節點嘗試發射的同時干擾節點無動作，則認為發射成功。因此干擾節點的目標是使用盡可能小的平均發射功率，使得各個發射節點傳輸嘗試成功率盡可能低，即信道傳輸利用率盡可能小。顯然不同功率對應的干擾效果不同，因此在評價方面，每一個干擾方法應當有一條干擾功率-信道利用率曲線，本文通過曲線的比較與曲線中典型數據點的比較來評價干擾的好壞。

2.2 強化學習與自適應信道干擾方法

本文使用強化學習技術來智能學習最佳的干擾策略。強化學習符合馬爾可夫過程，無需預先采集數據，通過智能體以試錯的方式與環境進行交互獲得的獎賞指導行為，最終學習到最佳策略以獲得最大的獎賞[21]。智能體Agent根據當前環境狀態State選擇一個動作Action作用于環境，環境基于該動作進行演化，將一個獎懲信號Reward反饋給智能體，智能體根據獎懲信號和環境更新狀態選擇下一輪動作。其中動作的選擇原則是使得獎勵概率最大化，并最終引導智能體取得最佳決策。

基于上述強化學習，本文提出了自適應信道干擾方法(Adaptive Channel Jamming)，該方法可自主學習不同信道防碰撞算法下的最佳干擾策略。根據前文中的信道模型，具體方法的流程圖如圖1所示，其中關鍵要素列舉如下：

圖1 基于強化學習的自適應信道干擾方法流程圖

智能體Agent采用Deep Q-Network，神經網絡采用雙隱層全連接網絡，每層24個神經元。

觀測量State信道m幀n時隙共mn×3形式的矩陣，分別對應歷史m幀n時隙的節點傳輸狀態、干擾節點動作記錄和總信道狀態記錄。

動作Action可選擇干擾與不干擾兩種動作。

獎勵函數Reward干擾且傳輸-2分，干擾無傳輸-1分，無干擾有傳輸-1分，無干擾無傳輸2分。

3 基于強化學習的單目標干擾

3.1 實驗設計

單目標干擾考慮一個發射節點和一個干擾節點之間的博弈，因此為了簡化模型，去掉不必要的傳輸細節，僅考慮傳輸節點隨時具有通信需求的情況，分別對比如下防碰撞算法：

無防碰撞算法即節點有通信需求時即刻發送，不考慮是否碰撞與干擾。

最簡防碰撞算法即節點僅當上一時隙信道無干擾時嘗試發送。

概率防碰撞算法即節點按照一定概率p決定是否嘗試發送。

上述最簡和概率防碰撞算法是現有典型算法在單目標條件下的簡化，應測試如下干擾方法：

無干擾干擾節點不發出任何干擾信號。

隨機干擾干擾節點以概率p決定是否干擾。

跟蹤干擾干擾節點監測到傳輸后立即干擾。

自適應信道干擾本文提出的智能干擾。

3.2 單目標干擾仿真結果

表1給出了不同防碰撞策略面對不同干擾時的性能表現，分別展示信道利用率、傳輸成功率、干擾功率結果，其中信道利用率是指單位時間內，用于有效傳輸的時間占比；傳輸成功率是指無碰撞發射次數占總嘗試次數的比例；干擾功率是指單位時間內發射干擾信號的比例。

表1 不同防碰撞策略面對不同干擾時的性能

由表1數據可以發現，不同防碰撞策略與不同干擾方法之間的關系是比較復雜的。無論哪種干擾均產生了干擾效果，信道利用率相比無干擾均有明顯下降。在無防碰撞時，跟蹤干擾效果最強，此時發射機一直傳輸信號，干擾機一直發出干擾。在最簡防碰撞下，跟蹤干擾效能發揮不佳，原因是干擾與防碰撞均相隔一個時隙，二者恰好錯開。在隨機防碰撞時，無論哪種干擾在相同功率下效果相同，因為隨機發射不存在可尋找的規律。

進一步自適應信道干擾可根據防碰撞的不同自動學習到最佳的干擾策略，無論是有規律可循的還是無規律的防碰撞策略，均表現最佳。特別是對于最簡防碰撞策略，智能干擾與防碰撞恰好同步地進行發射與等待，導致以100%的干擾概率干擾了全部傳輸信號，充分體現了智能方法的優越性。同時對于隨機防碰撞，智能方法可通過改變獎勵函數來調整干擾功率與干擾效果的權衡(表格中僅展示了功率為0.5時的結果)。

為了更好地展示功率與效果的權衡，圖2展示了不同干擾方法干擾效果隨干擾功率的變化曲線，其中無干擾、隨機干擾、跟蹤干擾分別在圖中體現為單獨數據點。本文提出的自適應信道干擾可以通過調整獎勵函數Reward中的比例關系，實現權衡功率與干擾能力的目的。當功率為0，顯然退化到無干擾結果；同時當功率為1，對應不間斷干擾。

圖2 面對不同防碰撞時干擾效果隨干擾功率變化曲線

因此基于強化學習的自適應信道干擾技術，無論面對規律性還是隨機性的防碰撞算法，總是可以學習到最佳的干擾策略，同時通過獎勵函數的調整，可以權衡干擾功率與干擾效果。

4 基于強化學習的多目標干擾

4.1 實驗設計

為了仿真更加復雜的情況，本節考慮有多個發射節點的多目標干擾實驗。與單目標節點不同，多個節點存在時，需要考慮節點傳輸需求的動態變化，因此基于信道建模，考慮每一幀中時隙n=8的情況。如果時隙內僅有一個嘗試則傳輸成功，有多個嘗試則發生碰撞。此時根據幀時隙算法，同時存在8個傳輸需求時效率最高。因此假定系統中共有32個節點，采用幀時隙算法，理論信道利用率為0.37。分別考慮無記憶和有記憶兩種簡化幀時隙防碰撞策略：

無記憶幀時隙每個節點不考慮之前傳輸狀態，每一幀均有p的概率產生傳輸需求，并隨機選擇一個時隙嘗試傳輸。

記憶幀時隙每個節點在上一幀傳輸碰撞后，下一幀繼續嘗試，當上一幀傳輸成功或無需求時，下一幀有p的概率產生傳輸需求，并隨機選擇一個時隙嘗試傳輸。

系統中存在一個干擾節點，該節點的目標是以最小的功率代價，實現一段時間內最大可能的信道利用率干擾。下面分別測試無干擾、隨機干擾、跟蹤干擾與自適應信道干擾下的博弈結果。

4.2 多目標干擾仿真結果

表2展示了多目標系統中，不同防碰撞算法面對不同干擾時的性能表現。當采用無記憶幀時隙算法，在無干擾下信道利用率能夠達到理論最優值；在p=0.25的隨機干擾下，信道利用率降低至0.28，下降約25%。當采用記憶幀時隙且p=0.10時，信道利用率略微下降至0.33，但此時當給予p=0.25的隨機干擾時，信道利用率大幅度跌至0.11，表明其缺乏抗干擾能力。調整概率至p=0.07，此時在隨機干擾下信道利用率最大，引入干擾前后信道利用率變化不大，但傳輸成功率下降顯著。上述關系與理論公式估計一致，即引入干擾后等價可用時隙為n×(1-p干擾)，根據p需求可計算出每一幀平均需求節點數量，進而由文獻[18]中的公式估算信道利用率。

表2 多目標系統面對不同干擾時的性能

接下來關注智能方法的結果，在面對無記憶幀時隙算法時，由于不存在記憶，因此自適應信道干擾可以學習到與隨機干擾一致的最佳干擾策略。在面對記憶幀時隙算法時，自適應信道干擾學習到的策略好于隨機干擾，取得了更優秀的干擾效能。

4.3 信道阻塞分析與討論

為了更為清晰地展示自適應信道干擾優于隨機干擾的機理，圖3展示了隨著推演步數的增加，干擾行為與信道狀態的變化曲線。從策略上，很明顯不同于隨機干擾，智能方法采用類似周期性質的干擾策略；通過連續的高強度干擾，使得傳輸需求得不到釋放從而快速積累；然后當去除干擾后由于累計需求量很大，碰撞概率很高導致需求釋放仍然緩慢。智能方法通過類似的干擾→需求過載→高碰撞概率的方式，實現了相同平均干擾功率下，更有效的信道碰撞干擾。對于p=0.07的記憶幀時隙算法，可以實現相比隨機干擾強25%的干擾效能。

圖3 在記憶幀時隙p=0.07時施加自適應信道干擾，各項信道參數隨推演步數變化曲線(曲線經過平滑處理)

5 結束語

多樣化的防碰撞算法解決了未來大規模并發通信的信道防碰撞共享利用問題，但缺少對于抗干擾能力的考量。本文針對不同的防碰撞策略，測試了不同干擾策略的干擾效能，并基于強化學習思想提出了自適應信道干擾方法。數值實驗表明提出的方法不僅可以自主學習到最佳的信道干擾策略，還能在多目標的復雜場景下學習到非均勻的干擾策略，實現超過典型策略的干擾效能。

通過本文所發現的防碰撞算法抗干擾實驗結果，未來防碰撞算法應該向更加穩定與彈性方向發展。核心是指現有基于幀時隙思想的防碰撞算法雖然可以實現0.37的理論最大信道利用率，但當需求出現波動時算法性能不夠穩定，容易出現過載或閑置的情況，且恢復均衡所需時間很長。因此需要設計更加穩定的算法，確保需求偏離時能夠快速收斂。同時彈性是指防碰撞算法應當自主根據干擾情況進行調整，從而調整時隙數量滿足需求。