呂光輝
(航天恒星科技有限公司,北京 100095)
隨著無線通信技術的快速發展和廣泛應用,對通信系統的安全性和可靠性要求也日益增加[1-3]。同時,通信系統面臨著各種各樣的干擾攻擊,包括有意的攻擊和無意的干擾,如電磁輻射干擾、多徑效應等。
傳統的干擾技術通常采用單一的干擾方式,如使用高功率信號、增加噪聲等,但這些方法往往容易被現代通信系統的抗干擾技術所抵抗。為了提高干擾系統的干擾效果和適應性,研究人員開始嘗試使用機器學習技術來開發智能干擾系統[4-6]。機器學習技術可以為干擾系統提供強大的自適應能力和決策能力,并且可以根據實際情況進行實時調整,從而在各種復雜環境中實現最優的干擾效果[7-10]。因此,基于機器學習思想對通信干擾系統進行研究。
在通用軟件無線電外設可重構輸入/輸出(Universal Software Radio Peripheral Reconfigurable Input/Output,USRP RIO)軟件中設計一個無線通信干擾框架,其具體的結構可分為2 個部分,分別是干擾機和通信用戶。具體而言,在通信用戶功能實現方面可以看出,在發射機中,基本的通信任務由USRP RIO 實現,如通信數據的傳輸、視頻的在線播放等。同時,計算機負責處理數據以滿足傳輸前的幀結構,并根據需要調整參數。接收機負責信號接收、轉發和資源配置。此外,干擾機的基本功能和發射機一樣,都是在USRP RIO 和計算機的基礎上實現功能。
數據幀是一種通信用戶在通信過程中使用的數據結構,它的結構設計參考了長期演進(Long Term Evolution,LTE)幀,具體由4個部分組成,包括數據塊、長期訓練場(Long Training Field,LTF)序列、烏拉姆-沃伯頓(Ulam-Warburton,UW)序列以及同步信息組(Synchronization Information Group,SIG)序列。其中,數據塊用于存儲需要傳輸的數據;LTF 序列是對信道容量的估計,同時均衡信道的流量;UW 序列能夠緩解在通信干擾系統中由多徑影響產生的符號干擾,增強了系統的傳輸能力;SIG 序列是對調制方式進行設置,調制方式可選用正交相移鍵控(Quadrature Phase Shift Keying,QPSK)和64 位正交幅度調制(64 Quadrature Amplitude Modulation,64QAM)等。SIG 序列在接收機接收到信號后,可以得到信號的調制信息,然后對信號進行解調。發送機與接收機發送和接收信息的功能流程如圖1 和圖2 所示。在數據的傳輸過程中,設計可靠有效的收發功能策略可以使通信用戶實現高速的傳輸功能。

圖1 發送機的功能流程

圖2 接收機的功能流程
從圖1 中可以看出發送機的基本功能。系統的信息源經過正交幅度調制(Quadrature Amplitude Modulation,QAM)模塊調制以后,傳輸到插入UW,在這個模塊中,緩解了通信干擾系統由多徑影響產生的符號干擾,增強了系統的傳輸能力,然后信息傳輸到組幀中。此外,由LTF 序列和SIG 序列調制的信號通過反傅里葉變換(Inverse Fast Fourier Transform,IFFT)和二進制相移鍵控(Binary Phase Shift Keying,BPSK)調制模塊后,再通過插入UW 模塊傳輸到組幀模塊中。此時,組幀模塊中的信號傳輸到了射頻(Radio Frequency,RF)發送模塊,而在該模塊中,還接收了來自發射參數修改模塊的信號,其主要是對包括中心頻點、發射功率等通信參數進行配置。
圖2 表示的是接收機的基本流程。首先,當RF接收模塊收到來自接收參數修改模塊的信號后,將該信號傳輸到幀解析UW,經由該模塊將信號傳輸到快速傅里葉變換(Fast Fourier Transform,FFT)模塊。在FFT 模塊中,信號分為2 部分傳輸,一部分直接傳輸到頻域均衡器,另一部分進入通過LTF 序列進行信道估計,然后再進入頻域均衡器。其次,信號傳輸到IFFT 模塊,該模塊中信號的流向又分為了2 個部分,一部分直接傳遞到QAM 中進行解調,另一部分通過SIG 序列確認QAM 制式,再傳輸到QAM 進行解調。最后,信號進入信宿。
干擾機的功能也很簡單,其工作原理與發射機非常相似。信號源中的信號傳輸到QAM模塊進行調制,調制后的信號再傳遞到RF 發送模塊。同時,該模塊接收了來自具有隨機干擾和掃頻干擾的發射參數修改模塊的信號,然后RF 接收模塊中的相關參數被改變,最后通過天線傳送到無線信號。
該系統的組成包括了通信用戶、數據處理中心、干擾機以及認知引擎,并且存在多個感知節點。通信用戶中發射機和接收機之間的通信策略可以利用不同的信道進行相互切換。此外,通信用戶和干擾機在工作時的頻率一樣,因此這些頻率中的頻段被等寬的劃分為L個信道,其中信道集L1的表達式為L1={1,2,3,…,L}。在這些信道集中,干擾機和通信用戶在每一個時間間隙中都只使用一個信道。
在干擾系統中,其工作流程分為2 個部分,首先是完成頻譜感知,需要利用數據處理中心和感知節點來實現,從而得到在無線狀態下信道的相關信息,這部分叫做頻譜感知。根據得到的信道相關信息驅動認知引擎,使得其執行強化學習算法;強化學習算法可以學習發射機和接收機信號切換的規律,然后采取相應的干擾策略,這一部分叫做干擾決策。
在動態變化的通信用戶信道中,干擾機要執行有效的干擾任務,必須要先學習通信用戶的通信規范,然后再進行干擾。為了選擇合適的干擾信道,馬爾可夫決策過程(Markov Decision Process,MDP)可以被用來表示。MDP 具有4 大要素,分別是動作、狀態、獎勵以及轉移概率,具體表示如下。
(1)時隙i時,干擾機選擇的干擾動作表示為

式中:fi+1為i+1 時隙的干擾信道。
(2)時隙i時,系統狀態可表示為
式中:ji為干擾機當前的干擾信道;fi為當前通信用戶使用的通信信道。
(3)時隙i時,設ri表示干擾機在si狀態下選擇動作時ai獲得的獎勵。本文中獎勵具體定義為若干擾信道與通信信道一致,則ri=1,否則ri=0。
(4)時隙i時,轉移概率可表示為
其表示干擾機在si狀態下基于動作ai轉移到狀態si+1的概率。
Q 學習是一種無模型的強化學習方法,它的理論基礎是MDP,因此大部分情況下都被用來處理MDP 問題。引入Q 學習來選擇干擾信道,具體的更新公式為
式中:Q'(si,ai)為下一時刻的狀態和實際采取的行動對應的Q值;Q(si,ai)為當前時刻的狀態和實際采取的行動對應的Q值;α為學習率,用于控制每次更新的步長,取值范圍為[0,1];ri為在狀態si下執行動作ai后得到的即時獎勵;γ為折扣因子,用于衡量未來獎勵的重要性,取值范圍為[0,1];為在下一個狀態si+1時,選擇動作a'的最大Q值。
迭代步驟中的最優動作估計值ai可表示為
式中:A為當前狀態下可選擇動作的集合。
在頻譜感知中,其主要功能的實現是依靠系統中的數據處理中心和感知節點。其中,感知節點可以感知無線環境,然后接收頻譜信息,但并不會處理和分析數據,而是將在無線環境中得到的頻譜信息進行結合,再將數據包轉換成一致的格式,傳送到數據處理中心模塊進行處理。感知節點是基于USRP RIO 實現的,并基于通信用戶的接收機進行設計,對相應RF 接收模塊的參數進行修改,然后對一些不在同一頻段上的頻譜數據進行收集。
Q 學習是干擾決策的核心。在數據處理中心處理過的數據被傳輸到認知引擎,在認知引擎模塊中對Q學習進行訓練,生成Q 表。通過引入Q 學習來選擇干擾信道,最后再發送干擾信號干擾用戶的通信。具體的實現過程如下:(1)啟動發射機和接收機按照設定好的信道切換策略選擇信道并進行通信,發送數據;(2)感知節點使用頻譜感知技術,在預設掃描頻段內實時掃描監測當前的無線環境,獲取通信用戶頻譜數據信息,并將信息發送給數據處理中心;(3)數據處理中心收到數據后,對數據進行處理,獲取通信用戶的通信信道狀況,并將信息發送給認知引擎;(4)認知引擎根據接收到的信息執行Q 學習算法。干擾機根據當前狀態選擇下一個干擾信道并發送干擾信號,根據通信信道狀態計算獎勵值r并進行Q 表和狀態的更新。
USRP RIO 軟件無線電平臺的射頻頻譜范圍為1.2 ~6 GHz,這個范圍過大,不利于實驗測試。在實驗設置中選擇部分頻段用于測試,設置發射機、接收機以及干擾機的工作頻段為2.2 ~2.8 GHz,頻率間隔為100 MHz。
在發射機的初始設置中,將發射增益設置為0 dBm,中心頻點的初始值設置為2.5 GHz,本振頻率設置為-1 Hz。在接收機中,將中心頻點的初始值、本振頻率以及發射增益值設置與發射機相同。圖3 表示的是無干擾時,信號傳輸過程的星座。從圖3 中可以看出,映射點都集中在一起,這是利用BPSK 調制方式得到的結果。

圖3 無干擾時的星座
圖4 表示的是在有干擾的情況下,信號傳輸過程的星座。從圖4 中可以看出,實驗效果并不好,沒有達到期望的效果。

圖4 有干擾時的星座
介紹了基于機器學習的通信干擾系統的研究。該系統采用強化學習來預測通信干擾,并結合智能技術來提高干擾效果。在USRP RIO 軟件的基礎上,該系統實現了頻譜感知和干擾決策2 個主要功能,具有自適應能力和決策能力。該系統的優點是提高了干擾效果和適應性,并為未來的通信干擾技術研究提供了新思路及方法。