鄒雯雯
(河南農業大學 機電工程學院,河南 鄭州 450003)
在移動互聯網時代,無線通信成為日常工作和學習的重要工具。 但信號在傳輸過程中有可能被竊聽、截獲,甚至受到人為攻擊。 干擾機可向信號接收方發送干擾信號,進而引起較高的誤碼率,降低通信質量和用戶體驗。 傳統的跳頻抗干擾系統面臨較為嚴峻的技術挑戰,其主要問題在于缺乏主動規避干擾信號的能力,因此優化跳頻抗干擾系統的算法成為解決問題的關鍵。
跳頻抗干擾通信系統的應用場景可簡化為如圖1 所示,正常情況下由發射機向接收機發送無線通信信號,但干擾機也能接收同類信號,同時向接收方發送干擾信號,接收機獲取信號后需進行解碼處理,干擾信號會導致其誤碼率上升。 此處的干擾機用于代表各類人工干擾方式,如主動攻擊、竊聽等。

圖1 跳頻抗干擾系統的通信應用場景
1.2.1 通信模式
跳頻通信是指發射方和接收方按照相同的頻點序列發送和接收信息,頻點之間呈正交關系。 進入通信模式后,雙方必須同時選擇同一個頻點,經過時間τ 后,跳轉至另一個頻點(也可以繼續在原頻點通信)。 跳頻技術的應用顯著地提高了通信抗干擾能力,但這種通信技術不能完全避免外部干擾,仍然有部分干擾方式能夠對其發揮作用。
1.2.2 缺點分析
假設發射機和接收機在K 個頻點上進行跳頻通信,將頻點編號為0,1,2…(K-1)。 線性掃頻干擾方式能夠在0~(K-1)隨機選擇一個頻點實施干擾,每經過時長τ 后,增加一個新的干擾頻點,擴大干擾范圍,這一過程稱為線性掃頻。 隨機周期干擾也能影響跳頻通信技術的性能,這種干擾方式在K 個頻點范圍內隨機選擇G 個頻點(G 2.1.1 基于馬爾可夫性的強化學習模型基礎 馬爾可夫性在概率論中具有重要的應用,其含義為一個隨機過程在未來狀態的概率分布情況僅取決于當前狀態,隨機過程中已經產生的歷史狀態不影響未來的概率分布。 基于強化學習的跳頻抗干擾系統符合這一特點,將跳頻抗干擾模型的通信狀態表示為si,j,其中i 表示發射機和接收機的通信時隙,j 表示通信時的頻點,此時馬爾可夫性可表示為: 式中,St=si,j。 從表達式可知,概率分布P 與通信狀態St和St+1有關。 研究中提出的跳頻抗干擾模型基于馬爾可夫性原理進行通信決策,其中包括5 個參量,可記為M=R,A,P,S,γ,參量的含義按照M 中的順序分別為收益函數、選擇下一個通信頻點的決策行為、通信頻點發生遷移的概率、當前的通信狀態信息、衰減系數[2]。 2.1.2 強化學習的實現機制 強化學習的根本目標是解決傳統跳頻抗干擾通信模式缺乏干擾識別能力和應變能力的問題,因此其實現機制的核心工作是形成具有識別能力的跳頻通信決策(記為π),以當前的通信狀態s 為根據,在決策π 的作用下,產生通信決策行為a,這一過程可表示如下: 式中,s 和a 分別表示S 和A 在時刻t 的取值。顯然,a 和s 能夠顯著地影響決策π,可通過狀態值函數Vπ(S)和行為值函數Qπ(s,a)迭代計算π,s,a 之間的關系。 蒙特卡洛法利用統計學原理模擬復雜問題,其特點為通過反復抽樣,逐漸逼近實際情況,反映客觀規律。 該方法能夠提高跳頻抗干擾系統通信模型的精確度,在具體實施過程中對歷史通信數據進行采樣,再實施統計學模擬,最終形成通信軌跡,該軌跡反映了信息發射方、接收方在各個通信時隙的決策動作。蒙特卡洛法的實施不依賴通信模型,而是利用貝爾曼期望方程進行模擬和近似,進而實現通信決策的收益最大化。 2.2.1 蒙特卡洛法優化跳頻抗干擾系統的基本原理 當跳頻抗干擾系統采取決策π 時,當前時刻t 的狀態為s,將對應的期望回報記為Gt,狀態值函數Vπ(S)可描述這一過程。 同樣的,在決策π 背景下,行為值函數Qπ(s,a)表示狀態s 對應決策行為a 的期望回報。 式中,Gt表示期望回報。 蒙特卡洛法的主要作用是代替以上兩個函數中的期望計算過程,以大量的統計學模擬獲得各個通信狀態的平均值,形成多種通信軌跡。 在蒙特卡洛法的支持下,每個狀態對應的行為值函數均可計算出具體的結果,通過對比即可確定最優的通信策略。 為了達到全局層面的最優決策,就要使用強化學習,探索各種通信狀態。 此時,經過蒙特卡洛法優化的跳頻抗干擾決策可表示為: 式中,M 表示決策動作的數量,ε 代表選擇某個決策動作的概率。 2.2.2 基于蒙特卡洛法的兩種強化學習模型 基于蒙特卡洛法的強化學習對數據提出了較高的要求,根據數據的來源,可將強化學習分為在線和離線兩種模式。 (1)在線蒙特卡洛強化學習。 在線強化學習中,將干擾信號表示為時頻矩陣,記為J,以便開展數學運算;將通信狀態表示為集合S,決策動作形成的空間記為A。 對行為值函數和策略π 進行初始化,利用蒙特卡洛法實施迭代運算,策略π 每做出一次跳頻選擇,即可得到一個確定的決策動作,記為ai,所有動作形成決策軌跡T,則有T={a1,a2…aT}。在過程中對每個時隙τt對應的收益Gt、行為值函數Q(s,a)以及決策π進行同步更新,最終得到最優決策π?[3]。 在這種學習模式下,決策π負責在線數據采集,因而數據采集策略也同步得到更新。 (2)離線蒙特卡洛強化學習。 離線蒙特卡洛法的實施過程與在線法基本一致,主要區別為數據采集策略與算法中優化的決策π 不同。 這種學習模型為數據采集設計了專門的行為策略,而蒙特卡洛法持續優化的策略稱為原始策略,兩種策略可分別記為π 和π′。 相比于在線蒙特卡洛法,離線方式存在一定的性能優勢,降低了策略選擇的隨機性,其每次優化的決策π′都是對應狀態的最優策略。 2.3.1 不同強化學習方式的對比 為了獲得最佳的強化學習方法,研究中需對比不同學習路徑的優劣性。 除了利用蒙特卡洛法開展強化學習外,還可使用動態規劃法和時序差分法。 表1總結了3 種學習方法的特點,既有共性,也有差異,其根本原因在于3 種方法的值函數計算方式不同。 蒙特卡洛法在值函數原始定義的基礎上,通過大量的采樣和模擬進行更新,且只有采樣獲得完整的軌跡后才能更新。 動態規劃法和時序差分法在更新方式上類似,都采用了自舉。 另外,3 種學習算法對馬爾可夫性的適用性有所差異,蒙特卡洛法可用于處理無馬爾科夫特性的問題,另外兩種算法則適用于存在馬爾科夫特性的問題[4]。 表1 3 種強化學習算法的特點 2.3.2 基于在線時序差分法的強化學習 假設跳頻抗干擾系統當前的狀態為S,按照策略π 做出選擇,產生行為A,同時得到了狀態行為值Q(S,A)和收益R。 完成第一次選擇后狀態發生了變化,將新的狀態記為S′,繼續進行決策,于是產生了與S′對應的A′,R′及Q(S′,A′)。 基于在線時序差分法的強化學習能夠以較高的頻率更新策略,達到收斂的耗時比蒙特卡洛法更短。 該方法的優化路徑如下[5],在算法中輸入干擾時頻矩陣J、動作空間A 以及狀態集合S,對行為值函數Q(S,A)和原始策略π 進行初始化,利用在線時序差分法開展迭代計算,在策略π的作用下產生第一個動作a,形成行為狀態對(s,a),持續按照這一模式進行更新迭代,產生最優策略π?。 2.3.3 基于離線時序差分化的強化學習 離線時序差分法的實施步驟與在線時序差分法基本相同,區別在于狀態行為值函數的更新公式,Qlearning 算法可用于離線時序差分中的Q(st,at) 更新,該算法的公式如下: 式中,a′表示時刻t+1 時選擇的行為,其對應的策略為π′。 利用MATLAB 軟件模擬上文設計的強化學習算法模型,對跳頻抗干擾系統分別實施隨機干擾和線性掃頻干擾,如表2 所示為仿真模擬的數據。 在隨機干擾模式下,基于離線蒙特卡洛法的強化學習算法未能完成收斂,另外3 種學習算法均能完成收斂,在線蒙特卡洛法的收益最高,但3 種可收斂算法的收益較為接近,離線時序差分法達到收斂所需的迭代次數最少,明顯優于在線時序差分法和在線蒙特卡洛法,說明其在實際應用中具有更高的運行效率,有利于提高通信速度。 在線性掃頻干擾模式下,4 種算法都能實現收斂,從最佳收益來看,在線時序差分法效果最佳,但達到收斂所需的迭代次數也最高,剩余3 種算法的迭代次數較為接近,都在180 次左右。 表2 算法仿真結果 為了提高算法模擬的可靠性,多次開展試驗,將總迭代次數提升至8 萬次。 在隨機干擾模式下,離線時序差分法的平均收斂迭代次數為98 次,離線蒙特卡洛法為209 次,在線蒙特卡洛法為402 次,反映出離線時序差分法的效率優勢。 在線性掃描模式下,同樣開展多次仿真試驗,總迭代次數達到8 萬次,計算每種強化學習算法達到收斂的平均迭代次數,收斂最快的為離線蒙特卡洛法,迭代次數為204 次,剩余3 種算法的收斂迭代次數在400 次左右。 總體而言,利用蒙特卡洛法和時序拆分法能夠提升跳頻抗干擾系統的性能,使其能夠主動規避隨機干擾和線性掃描干擾。 在跳頻抗干擾系統中引入強化學習算法的目的是提高其對部分干擾信號的識別和規避能力,防范重點為隨機干擾、線性掃描干擾。 研究過程以蒙特卡洛法和時序差分法為基礎,分別構建在線蒙特卡洛強化學習算法、離線蒙特卡洛強化算法、在線時序差分強化學習算法以及離線時序差分強化學習算法。 對比分析4 種算法的特點,通過MATLAB 仿真試驗對其抗干擾性能進行檢驗。 結果顯示,在線性掃頻干擾模式下,算法均能完成收斂,在線時序差分法性能表現最佳。 在隨機干擾模式下,只有離線蒙特卡洛法未完成收斂,其余算法在性能上基本一致。 下一步需提高仿真檢驗的規模,取多次試驗的平均值,觀察算法性能表現上的差異性。2 基于強化學習的跳頻抗干擾系統優化設計方法
2.1 強化學習的理論基礎
2.2 蒙特卡洛法優化跳頻抗干擾系統
2.3 時序差分法優化跳頻抗干擾系統

2.4 仿真模擬

3 結語