宋秉璽,肖 毅,楊鴻杰,杜宇峰
(1.中國電子科技集團公司第五十四研究所,河北 石家莊050081;2.中國人民解放軍31618部隊,福建 福州350003)
自20世紀60年代人工智能被提出以來,它已應用于模式識別、語言處理和圖像識別等各種領域,人工智能應用于通信對抗也已經成為國際的前沿研究方向[1]。在電子對抗方向上,美國國防高級研究計劃局(DAPRA)近年來使用新一代人工智能技術重點發展自適應電子戰行為學習及自適應雷達對抗等認知電子戰項目[2-3],并將電子戰系統的智能化水平提到前所未有的高度。2018年,美國國防部啟動了聯合人工智能中心(JAIC),預計投資16億美元,探索人工智能在電子對抗領域的應用。中國船舶工業總公司的楊春華等人做了Agent理論和技術在電子戰中應用的研究,主要應用于雷達對抗[4],本文將主要通過仿真手段來研究多Agent在通信對抗中的應用實現。通過建立仿真模型,來模擬通信對抗過程,進而完成智能決策算法的學習與驗證,可以有效提升通信對抗能力。
本文主要目的是研究群體通信對抗的自動化協作決策問題,針對該問題提出模型開展仿真,找出最優方案。要構建決策對象模型,此對象模型應可以客觀表征群體通信對抗作戰的特點,能夠進行博弈、有勝負,應用于決策技術的訓練,可以展示作戰過程,并且可以人機對抗演示。由此仿真模型的基本元素構想如下:
① 紅藍雙方:進行博弈的2個作戰方;
② 通信單元:負責進行通信的單元;
③ 干擾單元:負責進行干擾對方通信單元;
④ 干擾區域:干擾單元可以干擾到的范圍;
⑤ 策略:對應作戰單元的移動方式;
⑥ 行動方式:紅藍雙方每次可以移動的作戰單元數目,有步進方式和整體方式2種,其中步進方式表示紅藍雙方每次只動一個仿真單元,整體模式則表示紅藍雙方每次可動多個仿真單元;
⑦ 數量規模:仿真單元數量;
⑧ 對戰策略:對戰的方式,人機對戰和機器對戰;
⑨ 地圖大?。浩灞P大小,代表作戰單元可移動的位置范圍;
⑩ 勝負判別:多輪后累計被干擾的通信單元總數少的一方獲勝。
由此設計的仿真模型基本處理流程如圖1所示,可視化對抗仿真主界面如圖2所示。

圖1 仿真模型基本處理流程

圖2 可視化對抗仿真主界面
根據基本設計元素和流程設計博弈戰場環境基本的配置界面主要通過在交互界面上點擊下拉框選擇相應的配置參數。這些參數配置信息常駐內存,在仿真的每一個回合博弈的過程中是不可重入的,在每一個回合博弈開始時是可重入的。
根據仿真配置界面數據生成通信對抗主場景,實時可視化展示當前仿真對抗的相關信息,如圖2所示。頁面展示的內容包含當前戰場和仿真單元的位置和干擾區域等信息,顯示當前回合和平均上紅藍雙方的正常通信數量和干擾通信數量,顯示出仿真過程。
2.1.1 環境定義
首先對強化學習中的環境進行定義,包括狀態空間、動作空間和獎賞函數。
(1)狀態表示
整個對戰棋局的狀態使用28*28*6的數據結構進行表示,具體每一通道所代表的含義如圖3所示。
(2)動作和獎勵
動作:本方所有移動單元的動作(50*5*10);
獎勵:∑(本方通信單元數目+干擾對方通信單元數量)的變化值。

圖3 棋局狀態表示
2.1.2 算法介紹
① 初始化狀態價值網絡V(S);
② 獲取當前的戰場狀態;
③ 通過環境模型獲取所有可能的動作所到達的下一個狀態;
④ 將所有可能到達的下一個狀態輸入至狀態價值網絡中,獲取對應的V值;
⑤ 通過評估所有可能的V值獲取當前的策略,即選擇最大的V值所對應的動作;
⑥ 通過執行動作,獲取Reward,更新當前的V值,更新方法為:V(S)=r+γV(S′)。
算法描述如圖4所示。
網絡的輸入即之前定義的狀態,是一個三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數量為64個,最終的全連接層的單元數為256,接最終的輸出,即輸入狀態對應的V值。在本網絡中的損失函數使用的是均方誤差MSE,可以類比于回歸任務。優化器用的是Adam。

圖4 基于After-State強化學習算法示意圖
通過對該場景進行分析認為:干擾兵必須到達地理上的可干擾區域,才能夠通過控制頻段實現干擾;而通信兵只有在保證較大程度地遠離對方干擾兵,到達安全距離的條件下,才能最大程度保持跟隊友的頻段一致。因此,最核心的控制部分在于位置的控制,在該方法中將動作的控制與頻段的選擇進行了分離。位置的控制采用了強化學習的算法,位置確定之后頻段采用基于全局的控制方法。環境定義和狀態表示與基于After-State強化學習算法類此,算法的基本步驟如下:
① 初始化狀態動作價值網絡Q(s,a);
② 在本方所有的Agent中進行循環,依次選擇;
③ 根據選擇出的Agent,確定該Agent的視野,進而確定其對應的狀態;
④ 將該狀態輸入至Q網絡中,獲取所有動作對應的Q值;
⑤ 在環境中對該Agent執行最大Q值所對應的動作,并獲取所對應的Reward;
⑥ 通過該Reward使用TD-ERROR更新Q網絡;
⑦ 通過全局控制的頻段選擇方法對頻段進行選擇;
⑧ 執行下一個Agent一直到該回合結束。
算法描述如圖5所示。

圖5 基于多Agent的集中式控制圖
網絡的輸入即之前定義的狀態,是一個三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數量為64個,最終的全連接層的單元數為256,接最終的輸出,即輸入狀態對應的所有動作的Q值。在本網絡中的損失函數使用的是均方誤差MSE,可以類比于回歸任務。優化器用的是Adam。
通過對基于多Agent的集中式控制算法場景進行分析,在此基礎上提出再利用平均場論來理解大規模多智能體交互,極大地簡化了交互模式,提高多智能體強化學習算法的能力。應用平均場論后,學習在2個智能體之間是相互促進的:單個智能體最優策略的學習是基于智能體群體的動態;同時,集體的動態也根據個體的策略進行更新。環境定義和狀態表示與基于After-State強化學習算法類此,算法的基本步驟如下:
① 初始化狀態動作價值網絡Q(s,a);
② 在本方所有的Agent中進行循環,依次選擇;
③ 根據選擇出的Agent,確定該Agent的視野,進而確定其對應的狀態;
④ 計算每一個Agent的所有鄰居Agent的平均行為;
⑤ 將第③步和第④步計算出的結果合并;
⑥ 將第⑤步的結果輸入到該狀態輸入至Q網絡中,獲取所有動作對應的Q值;
⑦ 在環境中對該Agent執行最大Q值所對應的動作,并獲取所對應的Reward;
⑧ 通過該Reward使用TD-ERROR更新Q網絡;
⑨ 通過全局控制的頻段選擇方法對頻段進行選擇;
⑩ 執行下一個Agent一直到該回合結束。
基于平均場的多Agent強化學習描述如圖6所示。

圖6 基于平均場的多Agent強化學習圖
網絡的輸入即之前定義的狀態,是一個三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數量為64個,最終的全連接層的單元數為256,接最終的輸出,即輸入狀態對應的所有動作的Q值。在本網絡中的損失函數使用的是均方誤差MSE,可以類比于回歸任務。優化器用的是Adam。最后在選擇最大的V值對應的動作之后,本文再基于貪心策略選擇頻段,如果當前的Agent被干擾則更換頻段,使得不被干擾;否則頻段不變。
在雙Ti1080GPU下,用Python平臺經過3小時訓練后,通信子與干擾子初步具備了對抗能力。對抗的干擾子和通信子具備了追擊和躲避功能,干擾兵會向前移動去干擾對方的通信兵,而通信兵則向后移動躲避對方干擾兵的干擾。干擾子在進入通信子可干擾范圍后,可以自動選擇和通信方一致的干擾頻段進行干擾,如圖7所示,紅干擾單元成功干擾藍方通信兵,使其不能通信。

圖7 紅干擾單元成功干擾藍方通信兵
當通信方被干擾后,應當自動逃離干擾子,通過訓練學習后,通信子具備了此項能力,在被干擾后通信子優先選擇了距離遠離,并沒有優先選擇改變頻段策略,只有無法移動后,才選擇改變頻段,如圖8所示,藍方被干擾通信兵陳工逃離紅方干擾單元的干擾。

圖8 藍方被干擾通信兵陳工逃離紅方干擾單元的干擾
經過計算機3天的增強學習訓練,各干擾節點可以簡單配合對通信節點進行聯合干擾。近距離干擾節點可以組成一個小組進行協作,對敵方多子進行干擾,如圖9所示。

圖9 近距離干擾兵作為一個小組進行合作
本文對分布式通信對抗作戰進行了模型建立和仿真運行,設計了紅藍雙方多智能體、雙兵種的作戰模式,分別仿真了機器自主對戰和人機對戰的不同模式,在此基礎上利用基于平均場的強化學習算法,實現了在分布式通信對抗環境下的智能對抗系統,并對敵方系統采用隨機策略、貪心策略以及人工策略的多種情況進行了仿真。事實證明,該智能對抗系統能夠贏過隨機策略及貪心策略,且能夠在對抗人工策略時達到百分之五十的勝率。本文的方法為智能對抗系統的進一步研究提供了新的思路,可以為智能對抗系統的發展提供參考。