基于遷移強化學習的無線傳感器網絡快速抗干擾方案

2023-12-11 10:04:26周權牛英滔

電波科學學報 2023年5期

關鍵詞：動作

周權牛英滔

（1.陸軍工程大學通信工程學院, 南京 210000；2.國防科技大學第六十三研究所, 南京 210000）

0 引言

無線傳感器網絡(wireless sensor network, WSN)是物聯網實現萬物互聯的關鍵底層網絡，由大量低成本、低功耗的傳感器節點組成，這些節點通常具有有限的計算、儲存和電力資源，能在短距離之間進行無線通信.由于WSN 采用無線通信，但通信鏈路不像有線網絡一樣可以做到私密可控，容易受到惡意干擾的影響；此外WSN 緊湊的網絡特性也使節點間容易產生相互影響，因此應用于很多關鍵領域(如軍事監視、醫療監控等)的WSN 對干擾環境下的可靠通信提出了更高的要求.

近年來，基于強化學習的抗干擾技術由于具備對未知干擾環境的探索能力[1]，成為抗干擾方法的熱點研究方向之一.現有的基于強化學習的抗干擾方法，廣泛采用無模型的Q 學習算法[2]，能實現未知干擾參數(如干擾信道、干擾功率)下的抗干擾通信.針對中繼通信系統，文獻[3]提出了一種基于Q 學習的抗干擾算法，針對頻率時變的干擾信號實時調整通信頻率，最大限度避開了干擾信號.文獻[4]針對小規模分布式無中心網絡，提出了一種基于多智能體Q 學習的抗干擾算法，能實現動態的抗干擾信道切換，有效避免干擾信道.但當問題模型具有較大的狀態-動作空間時，Q 學習算法收斂所需的迭代次數將呈指數型增長.因此，具有大量節點的WSN 很難應用Q 學習算法進行抗干擾通信.將神經網絡和強化學習相結合的深度強化學習技術能緩解強化學習面臨的“維數災難”問題[5]，實現復雜動態干擾環境下的抗干擾通信.如文獻[6]提出了一種基于深度強化學習的抗干擾算法，實現動態干擾環境下的抗干擾信道選擇.但深度強化學習通常需要較多的計算資源[7]，同樣不適用于算力有限的WSN.

受知識遷移在智能控制場景中能加快強化學習收斂速度的啟發[8]，本文提出一種基于值函數遷移和多智能體Q 學習的快速抗干擾算法(joint Q-learning based anti-jamming algorithm using value function transfer, JQA-VFT).先將多節點通信抗干擾問題建模為馬爾科夫博弈，度量不同狀態-動作之間的相似性；再在Q 學習算法每輪迭代時，根據相似性度量結果，將當前狀態-動作下更新的Q 值，遷移為其他等價狀態-動作的Q 值.仿真結果表明，在動態干擾環境下，所提算法能使各節點以極少的迭代次數逼近最優信道切換策略，有效解決基于Q 學習的抗干擾算法在大規模狀態-動作空間中難以收斂的問題，實現多節點在線抗干擾信道選擇.

1 系統模型和問題建模

1.1 通信抗干擾系統模型

通信抗干擾系統模型如圖1 所示，為便于研究，本文作出如下假設：

圖1 通信抗干擾系統模型Fig.1 Anti-jamming communication system model

1) 某監測區域內的WSN 由1 個學習節點和N對正在通信的傳感節點組成，為簡單起見，將一對收發節點構成的通信鏈路看作一個傳感節點，傳感節點集表示為N={1,2,···,N}；所有傳感節點共用M(M>N)個信道，信道集表示為M={1,2,···,M}.各傳感節點間相距較近，能直連通信，學習節點負責協調和分配傳感節點的傳輸信道.

2) 各傳感節點具備相同的寬帶頻譜感知能力，可感知惡意干擾所在信道.學習節點具備學習和決策的能力，能通過協議加固的低容量可靠控制信道與其他各節點交互信息，實現聯合抗干擾決策.所有節點均不具備關于惡意干擾的先驗知識.

3) 各節點嚴格按通信時隙同步.傳感節點的通信時隙分為感知子時隙和傳輸子時隙，分別用于干擾感知和數據傳輸，同一時刻各傳感節點同時進行感知或傳輸操作；學習節點的通信時隙分為決策子時隙和學習子時隙，前者用于傳輸決策并協調各用戶傳輸信道，后者用于執行學習算法.

4) 干擾機對所有傳感節點實施高功率的無差別干擾攻擊，換言之，各節點面臨相同的干擾環境，干擾信道按特定的時頻圖案不斷變換.不同傳感節點占用同一信道會產生相互干擾，若傳感節點感知傳輸信道內無惡意干擾，卻未曾收到確認字符(acknowledge character, ACK)確認消息，則可判斷存在相互干擾.

1.2 問題建模

基于多智能體強化學習的通信抗干擾問題通常可建模為馬爾科夫博弈[9-10].馬爾科夫博弈是馬爾科夫決策過程 (Markov decision process, MDP)[11]在多節點場景中的推廣，可表示為多元組〈N,S,A1,···,AN,f,r1,···,rN〉，其中N表示傳感節點數；S表示環境狀態空間；An(n=1,2,···,N)表示傳感節點n的動作空間；f是概率轉移函數，表示在給定傳感節點當前狀態和聯合動作時下一個狀態的概率分布；rn表示節點n的獎勵函數.

無線通信網絡的環境狀態取決于惡意干擾所在信道，因此環境狀態空間定義為

式中，狀態s表示傳感節點感知到的干擾所在信道.由于信道數為M，故環境狀態空間共有M+1 個狀態.此外，干擾感知可能因虛警或漏檢而出錯，節點對環境狀態的判斷也會因此出現偏差，影響學習進程和策略選擇，信道m上干擾感知的虛警率可表示為Pfa,m，漏檢率可表示為Pmd,m.

每個傳感節點的動作都是從M個信道中選擇傳輸信道，其獨立動作空間相同，因此傳感節點n的獨立動作空間可定義為

式中，an表示傳感節點n選擇的傳輸信道.所有傳感節點的聯合動作是所有獨立動作的組合，可表示為

因此聯合動作空間可表示為

式中， ?表示笛卡爾乘積運算.聯合動作空間內共有K=+N-1個聯合動作.

每個傳感節點的即時回報取決于所選傳輸信道是否被其他節點或干擾信號占用，因此傳感節點n在環境狀態s下執行動作an的即時回報定義為

所有傳感節點在環境狀態s下執行聯合動作a的全局即時獎勵可表示為

所有傳感節點聯合策略 Π(a|s) 定義為當前狀態s下選擇各種可能聯合動作a的概率分布.在上述馬爾科夫博弈中，所有傳感節點的目標都是尋找最優聯合策略 Π?(a|s) ，即節點n從任意時刻t的任意狀態s開始執行該策略，均能獲得最大的 γ折扣累積獎勵，可表示為最優值函數

式中，EΠ表示求數學期望； γ ∈[0,1)是反映長期回報重要程度的折扣因子；st表示t時刻的狀態s； τ表示從t時刻起的后續時間步數；Rt+τ表示在t+τ時刻執行聯合動作后所得全局即時獎勵.該目標可等價表示為最優狀態-動作值(Q 值)函數[12]

式中，at表示t時刻的聯合動作a.

若能求解出所有狀態-聯合動作組合對應的最優聯合Q 值，就可根據下式推出最優聯合策略 Π?(a|s)：

Q 學習算法是經典的強化學習算法，通過創建Q 表儲存所有狀態-動作對應的Q 值，并能通過簡單的迭代逐漸逼近最優Q 值.t時刻聯合Q 表中的所有聯合Q 值可按下式更新：

式中： αt∈[0,1)為學習速率因子；Rt為執行聯合動作at獲得的全局即時獎勵；s′表示在當前狀態s執行動作狀態s′對應的最大Q值.at后進入的下一個狀態；Q(s′,a′)表示當前Q 表中

2 狀態-動作對相似性度量

狀態-動作值(即Q 值)是Q 學習算法學到的最重要的知識，在遷移學習中常被作為可遷移的知識[13].現有關于遷移強化學習研究中通常根據不同狀態間的距離度量選擇性地遷移值函數[14]，常見的狀態距離度量方法有基于互模擬關系(Bisimulation)的狀態距離度量[15]和基于Kantorovich 距離的狀態距離度量[16].根據狀態距離進行Q 值遷移是將某一狀態下的所有Q 值整體遷移至等價或相似狀態[10].在通信抗干擾問題中，如果環境狀態復雜、節點數量巨大、節點動作多樣，則狀態-動作組合將多種多樣；每個單獨的節點如果環境狀態和傳輸動作確定，則只有被干擾和不被干擾兩種情況.即在通信抗干擾問題中，同一種情況(被干擾或不被干擾)下節點不同的狀態-動作對之間應該具有更微觀的相似性.由此可見，若能建立狀態-動作對之間的相似性度量，則能在等價或相似性滿足設定閾值的狀態-動作對之間進行值函數遷移，以減少算法探索狀態-動作空間所需時間，從而提高抗干擾算法的收斂速度.

為便于描述，本文定義狀態-動作空間為

式中，x表示狀態-動作對.由于狀態空間和聯合動作空間分別有M+1 和K個元素，故狀態-動作空間內共有(M+1)·K個狀態-動作對.

參考數學中度量的定義[17]，本文給出狀態-動作對度量的定義：

定義1(度量) 在狀態-動作空間X上的半度量d是一個映射d：X×X→[0,∞)，若 ?x′,x′′,x′′′∈X，則該映射滿足如下性質：1)非負性，d(x′,x′′)≥0，當且僅當x′=x′′時，等號成立；2)對稱性，d(x′,x′′)=d(x′′,x′)；3)三角不等式，d(x′,x′′)+d(x′′,x′′′)≥d(x′,x′′′).

由1.2 節可知，馬爾科夫博弈模型由狀態s、聯合動作a、全局即時回報R和狀態轉移函數f四要素構成，其中R、f是以狀態s和聯合動作a為自變量的函數.參考基于互模擬的狀態距離度量[16]，如圖2 所示，度量狀態-動作對x′=(s′,a′)與x′′=(s′′,a′′)之間的相似性，可分別考察x′與x′′對應的回報R和概率轉移函數f之間的關系.若R(s′,a′) 等價或相似于R(s′′,a′′)，且(s′′′) 等價或相似于(s′′′)(s′′′∈S/(s′,s′′)) ，則x′與x′′等價或相似.

圖2 狀態-動作對相似性度量分析Fig.2 State-action pair similarity measurement analysis

定義2(互模擬關系) 若關系E?X×X滿足互模

擬關系，則對于任意x′,x′′∈X，x′Ex′′滿足下列性質：1)R(s′,a′)=R(s′′,a′′)； 2)?xf∈X～E，滿足其中X～E表示狀態-動作空間X滿足E的等價狀態-動作對集合，xf表示X～E內的任意狀態-動作對，sf表示xf中的狀態.

互模擬關系E也是一種度量，滿足定義1 中度量的三個性質[18-19]，可實現不同狀態-動作對的相似性度量.基于互模擬關系的狀態-動作對相似性度量算法具體流程如算法1 所示.

算法1 狀態-動作對相似性度量算法

輸入：多智能體抗干擾問題的馬爾科夫博弈模型〈N,S,A1,···,AN,f,r1,···,rN〉.

輸出：D={d(x′,x′′)：x′∈X,x′′∈X}；/*D為相似性度量值集合*/.

1) 初始化：D←0.

2) for eachx′∈X&x′′∈X(x′≠x′′).

3)根據定義2 判斷x′與x′′是否滿足互模擬關系.

4)如果x′與x′′的互模擬關系成立，則d(x′,x′′)=0；否則d(x′,x′′)=1.

5) end for.

3 基于值函數遷移的多智能體Q 學習快速抗干擾算法

3.1 算法詳述

當問題模型具有較大的狀態-動作空間時，為實現快速收斂的多節點在線抗干擾決策，本文提出了JQA-VFT 算法，將強化學習和遷移學習相結合，縮減各節點逼近最優信道切換策略(完全避免惡意干擾和相互干擾)所需迭代次數，加快收斂速度.

如圖3 所示，學習節點和傳感節點按通信時隙同步，學習節點通信時隙分為決策子時隙和學習子時隙，前者用于傳輸決策并協調各節點傳輸信道，后者用于執行學習算法；傳感節點通信時隙分為感知子時隙和傳輸子時隙，分別用于干擾感知和信息傳輸.

圖3 時隙結構Fig.3 Time-slot structure

JQA-VFT 由學習節點和各傳感節點聯合執行，每個通信時隙對應算法的一次迭代.各子時隙具體操作如下：

感知子時隙：各傳感節點在感知子時隙感知干擾信道得到當前環境狀態，并將當前環境狀態st和上一時隙用戶傳輸的即時獎勵 γtn-1一并傳回學習節點.如果因虛警或漏檢導致各節點對環境狀態判斷不一致，學習節點則按“少數服從多數”的原則判定當前環境狀態；如果不同狀態的判定節點數量相等，學習節點隨機選擇一種狀態為當前環境狀態.

決策子時隙：學習節點根據上一時隙傳回的環境狀態st-1采用Softmax 算法選擇聯合動作at-1，并根據聯合動作向各用戶下達獨立動作指令用于當前傳輸子時隙的信道分配.換言之，JQA-VFT 能根據當前的干擾環境狀態對下一步的傳輸動作進行前瞻性的決策.此外，基于Softmax 算法的聯合動作選擇策略可表示如下：

式中，參數 ξ >0 稱為“溫度”.ξ越小，Q 值越大的動作被選擇的概率越大， ξ趨于0 時，策略選擇趨于“僅利用”；反之， ξ趨于無窮大時，策略選擇趨于“僅探索”.對于通信抗干擾問題而言，節點在獲得足夠的決策知識后，需要建立穩定的抗干擾通信，而采用固定溫度 ξ不利于抗干擾策略的穩定收斂.為此，溫度 ξ按以下規則更新：

式中，初始溫度 ξ0與算法初始階段的“探索”能力呈正相關.參數 υ>0能使溫度 ξ隨算法迭代逐漸趨于0，從而實現“探索”到“利用”的平滑過渡.溫度閾值ξfinal是“探索”的終止條件.

傳輸子時隙：各傳感節點根據學習節點指令執行各自的獨立動作，即分別在分配的信道中進行數據傳輸.

在傳輸終止前，學習節點和傳感節點將在各通信時隙重復上述步驟，逐漸逼近最優信道切換策略.算法偽代碼如算法2 所示.

算法2 基于值函數遷移的多智能體聯合Q 學習抗干擾算法

輸入：相似性度量值集合D，探索因子ε，速率因子 α，折扣因子 γ，Softmax 算法相關參數 ξ0和 υ.

1) 初始化：Q←0,Qn←0；

2) fort=1,2,···,T；

3) 各傳感節點感知惡意干擾所在信道，保存當前環境狀態st并傳回學習節點；

4) 學習節點按式(12)選擇聯合動作，根據聯合動作得到各節點的獨立動作，并通過控制信道向各節點發出動作指令；

5) 學習節點根據式(13)更新參數ξ；

7) 各傳感節點按式(6)計算出全局獎勵，并傳回學習節點；

8) 學習節點按式(10)更新聯合Q 值；

9) 學習節點根據算法1 所得狀態-動作對的相似性度量結果進行Q 值遷移，即

11) end for

3.2 算法復雜度、收斂性和信令開銷分析

3.2.1 時間復雜度分析

算法1 的時間復雜度主要在第4 和5 兩步，由于狀態-動作空間X包含M·K個狀態-動作對，因此4 和5 兩步的迭代次數為 (M·K)2.故算法1 的時間復雜度可表示為

顯然，算法1 為多項式時間復雜度算法.算法2 的時間復雜度主要在第9 步，由于算法2 的迭代次數即為通信時隙數T，因此第9 步的迭代次數為T·M·K，由于M，K均為常數，故算法2 的時間復雜度可表示為

算法2 同樣為多項式時間復雜度算法.故采用JQAVFT 進行抗干擾決策的總時間復雜度可表示為

若基于多智能體Q 學習的抗干擾算法不采用值函數遷移，即只執行算法2 且跳過其中第9 步，此時JQA 算法的時間復雜度可表示為

由第4 節仿真結果可知，達到最優抗干擾性能時JQA-VFT 算法所需迭代次數T1遠小于JQA 算法T2，故C?C′.換言之，在相同的干擾環境下，為達到最優的抗干擾效果，JQA-VFT 算法的時間復雜度遠低于JQA 算法.

3.2.2 算法收斂性分析

Watkins 等[2]證明了當Q 值更新公式中的速率因子 αt為非負定值，且滿足：

采用貪心策略的Q 學習算法能在有限次迭代后充分遍歷所有狀態，并收斂于最優策略.在所提JQAVFT 算法中，一方面，Satinader 等[20]證明了在有限次迭代中，若溫度 ξ足夠大，則Softmax 算法執行的是貪心策略；另一方面，算法在每一步Q 值更新后，都在等價的狀態-動作對之間遷移Q 值，相當于將具有較大狀態-動作空間的問題模型轉化為較小規模的問題模型，故不影響Q 學習的收斂性.綜上所述，所提JQA-VFT 算法可以收斂于最優策略.

3.2.3 信令開銷分析

由于JQA-VFT 算法每次迭代的第3 步、第4 步、第7 步中，傳感節點與學習節點間都存在信息交互，因此需要考慮由此帶來的信令開銷.此外，信令開銷完全由JQA-VFT 算法采用的聯合Q 學習產生，而值函數遷移是學習節點內部執行操作，并不產生額外的信令開銷.所有傳感節點在每個通信時隙都向學習節點回傳狀態感知信息和本地更新的獨立Q 值，并接收來自基站的動作指令.如果分別用IQ，IS，IA表示狀態感知信息、獨立Q 值和動作指令所包含的信息量，則各傳感節點單位時間的信令開銷可表示為 (IQ+IS+IA)/Ts，其中Ts表示通信時隙時長.學習節點的信令開銷可表示為N·(IQ+IS+IA)/Ts.

4 仿真分析

仿真實驗中設置傳感節點數N=3，信道數M=10，此時狀態-動作空間內共有M·+N-1=2 200個狀態-動作對，規模較大，其他參數設置如表1 所示.為便于分析干擾感知虛警率和漏檢率對算法抗干擾性能的影響，假設虛警率滿足Pfa,1=Pfa,2=···=Pfa,M=Pfa，漏檢率滿足Pmd,1=Pmd,2=...=Pmd,M=Pmd.

表1 仿真參數設置Tab.1 Parameter settings

本文分別在線性掃頻干擾和隨機掃頻干擾環境下進行仿真實驗，結果如圖4 所示.圖4(a)中，線性掃頻干擾采用窄帶干擾信號對目標頻段內的各信道依次作周期性線性掃描，干擾效率高且產生簡單，在實際中被干擾方廣泛采用；圖4(b)中，隨機掃頻干擾是對線性掃頻干擾的改進，在每個干擾周期按固定的干擾概率矩陣隨機生成掃頻圖案，每個時隙都阻塞一個信道，且一個干擾周期內不對同一信道干擾兩次.隨機掃頻的干擾信道沒有明顯的時頻規律，相比線性掃頻干擾更難被檢測和消除.

圖4 掃頻干擾示例Fig.4 Example of frequency jamming

為有效評估所提算法的收斂速度和抗干擾性能，定義統計平均接收率為

式中：N表示節點數量；D表示統計的傳感節點n所發送的數據幀數；Dn表示在統計的D個數據幀中成功被對端接收的數量.本文仿真中，每個通信時隙計算一次 ρavg，且D按以下規則取值：

式中：Dcomm表示自傳輸開始節點所發送的總數據幀數；Dmax為設置的最大數據幀統計值，本文設置Dmax=20.即在算法起始階段，Dcomm

本文將所提JQA-VFT 算法與以下4 種算法作仿真對比：

1) 聯合Q 學習(joint Q-learning, JQA)：類似于JQA-VFT 算法，采用聯合Q 學習進行在線信道選擇，區別在于學習過程中不進行值函數遷移.

2) 獨立Q 學習(independent Q-learning, IQA)：各節點分別執行獨立的Q 學習算法，且能通過干擾感知判斷是否遭受惡意干擾，與JQA 算法的區別在于節點之間不進行Q 值交換，各節點的傳輸策略完全基于本地學習結果.

3) 正交跳頻(orthogonal frequency hopping, OFH)：各節點按固定且彼此正交的跳頻圖案選擇傳輸信道，可確保不發生相互干擾.

4) 隨機跳頻(random frequency hopping, RFH)：所有節點隨機選擇傳輸信道.

基于Q 學習的抗干擾算法都需要完成從“探索”到“利用”的過渡，當“探索”不充分時，算法的收斂策略可能并非最優策略；當“探索”過度時，算法將不能及時收斂.Softmax 算法中參數 υ直接影響過渡時間的長短，因此仿真須考慮參數 υ對算法的ρavg性能及收斂速度的影響.

圖5 展示了 υ=1時線性掃頻干擾和隨機掃頻干擾下前兩個掃頻周期JQA-VFT 算法的時頻狀態，圖中不同色塊分別表示各節點和干擾信號，多色塊的疊加表示節點信號遭遇惡意或相互干擾.兩種干擾環境下，節點都只在算法起始時有限的幾個通信時隙內遭遇干擾.換言之，JQA-VFT 算法能在極短的時間內收斂，并得到能使節點完全避免相互干擾和惡意干擾的最優信道切換策略.

圖5 掃頻干擾下JQA-VFT 時頻狀態圖Fig.5 Time-frequency state diagram of JQA-VFT under sweep jamming

圖6 為隨機掃頻干擾環境下不同算法的 ρavg性能，其中JQA-VFT、JQA 和IQA 算法的參數 υ=1，以保證三種算法從“探索”到“利用”的過渡時間相當.可以看出，JQA-VFT 算法的統計平均接收率 ρavg能在20 次迭代內收斂至1，即算法能快速收斂且所得信道切換策略能使節點完全避免惡意干擾和相互干擾.OFH 算法采用正交跳頻圖案，能完全避免相互干擾，但無法避免惡意干擾，其 ρavg約為0.9，性能次于JQAVFT 算法.相比于JQA-VFT 算法，JQA 和IQA 算法在有限的“探索”時間內顯然未能得到最優的信道切換策略，對應的 ρavg性能均低于OFH，其中JQA 由于采用了聯合學習機制，性能略高于IQA.RFH 算法采取了完全隨機的信道切換策略，故性能最差.上述結論在線性掃頻干擾下同樣成立.

圖6 隨機跳頻干擾下各算法抗干擾性能對比Fig.6 Anti-jamming performance comparison of different algorithms under random frequency jamming

圖7 所示為隨機跳頻干擾下各算法收斂性能對比.可以看出，在隨機掃頻干擾環境下，參數 υ越小，JQA 算法收斂速度越慢，但 ρavg收斂值越接近最優值.當參數 υ ≤0.006，算法進行1 000 次迭代以上的“探索”時， ρavg收斂至1，即算法能穩定地收斂至最優信道切換策略.參數 υ越小，IQA 算法“探索”時間越長，但 ρavg收斂值無明顯提高，原因在于IQA 算法的狀態-動作空間較小，算法只需較短的“探索”時間便能收斂至所能獲得的最好策略，但該策略的性能依然較差.相比于以上兩種算法，由于引入了值函數遷移，JQA-VFT 算法的學習效率得到顯著提升，僅以20 次迭代的“探索”就可獲得最優抗干擾策略，該策略能使網內節點完全避免惡意干擾和相互干擾.

圖7 隨機跳頻干擾下各算法收斂性對比Fig.7 Convergence comparison of different algorithms under random frequency jamming

圖8 展示了漏檢率和虛警率對JQA-VFT 算法ρavg性能的影響.圖8(a)中，漏檢率越高，JQA-VFT 算法的 ρavg收斂值越低，原因在于漏檢率越高，節點越有可能誤判信道狀態而采取無效的傳輸動作；圖8(b)中，虛警率越高，JQA-VFT 算法的 ρavg收斂值越低，原因在于虛警率越高，信道浪費越嚴重，并使節點更難習得干擾規律.

圖8 漏檢率和虛警率對JQA-VFT 算法抗干擾性能的影響Fig.8 Effect of false alarm rate on anti-jamming performance of JQA-VFT

5 結論

本文針對通信抗干擾問題中廣泛采用的Q 學習算法在具有較大維度狀態-動作空間的抗干擾問題中收斂速度緩慢的問題，提出了一種改進的JQAVFT 算法.在多節點抗干擾場景具有較大規模狀態-動作空間的馬爾科夫博弈框架中，該算法運用互模擬關系度量不同狀態-動作對之間的相似性，在算法每一步迭代時，將當前狀態-動作對的歷史最優Q 值遷移至滿足一定相似度的其他狀態-動作對，減少算法收斂所需的探索次數，提高算法的收斂效率.本文所提JQA-VFT 算法在線性掃頻干擾和隨機掃頻干擾環境下，均能快速逼近最優信道切換策略.仿真結果表明，JQA-VFT 算法相比于OFH、RFH、IQA 和JQA 具有較快的收斂速度和較優的統計平均接收率性能.

未來將進一步研究多域抗干擾場景、復雜動態干擾環境、智能化干擾環境下利用通信抗干擾問題內在相似性提升強化學習收斂速度的可行性，以及利用相似性提升深度強化學習收斂速度的可行性.