999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分布式通信對抗智能決策仿真系統

2019-08-30 03:31:58宋秉璽楊鴻杰杜宇峰
無線電通信技術 2019年5期
關鍵詞:動作智能策略

宋秉璽,肖 毅,楊鴻杰,杜宇峰

(1.中國電子科技集團公司第五十四研究所,河北 石家莊050081;2.中國人民解放軍31618部隊,福建 福州350003)

0 引言

自20世紀60年代人工智能被提出以來,它已應用于模式識別、語言處理和圖像識別等各種領域,人工智能應用于通信對抗也已經成為國際的前沿研究方向[1]。在電子對抗方向上,美國國防高級研究計劃局(DAPRA)近年來使用新一代人工智能技術重點發展自適應電子戰行為學習及自適應雷達對抗等認知電子戰項目[2-3],并將電子戰系統的智能化水平提到前所未有的高度。2018年,美國國防部啟動了聯合人工智能中心(JAIC),預計投資16億美元,探索人工智能在電子對抗領域的應用。中國船舶工業總公司的楊春華等人做了Agent理論和技術在電子戰中應用的研究,主要應用于雷達對抗[4],本文將主要通過仿真手段來研究多Agent在通信對抗中的應用實現。通過建立仿真模型,來模擬通信對抗過程,進而完成智能決策算法的學習與驗證,可以有效提升通信對抗能力。

1 對抗模型設計

本文主要目的是研究群體通信對抗的自動化協作決策問題,針對該問題提出模型開展仿真,找出最優方案。要構建決策對象模型,此對象模型應可以客觀表征群體通信對抗作戰的特點,能夠進行博弈、有勝負,應用于決策技術的訓練,可以展示作戰過程,并且可以人機對抗演示。由此仿真模型的基本元素構想如下:

① 紅藍雙方:進行博弈的2個作戰方;

② 通信單元:負責進行通信的單元;

③ 干擾單元:負責進行干擾對方通信單元;

④ 干擾區域:干擾單元可以干擾到的范圍;

⑤ 策略:對應作戰單元的移動方式;

⑥ 行動方式:紅藍雙方每次可以移動的作戰單元數目,有步進方式和整體方式2種,其中步進方式表示紅藍雙方每次只動一個仿真單元,整體模式則表示紅藍雙方每次可動多個仿真單元;

⑦ 數量規模:仿真單元數量;

⑧ 對戰策略:對戰的方式,人機對戰和機器對戰;

⑨ 地圖大?。浩灞P大小,代表作戰單元可移動的位置范圍;

⑩ 勝負判別:多輪后累計被干擾的通信單元總數少的一方獲勝。

由此設計的仿真模型基本處理流程如圖1所示,可視化對抗仿真主界面如圖2所示。

圖1 仿真模型基本處理流程

圖2 可視化對抗仿真主界面

根據基本設計元素和流程設計博弈戰場環境基本的配置界面主要通過在交互界面上點擊下拉框選擇相應的配置參數。這些參數配置信息常駐內存,在仿真的每一個回合博弈的過程中是不可重入的,在每一個回合博弈開始時是可重入的。

根據仿真配置界面數據生成通信對抗主場景,實時可視化展示當前仿真對抗的相關信息,如圖2所示。頁面展示的內容包含當前戰場和仿真單元的位置和干擾區域等信息,顯示當前回合和平均上紅藍雙方的正常通信數量和干擾通信數量,顯示出仿真過程。

2 智能仿真體決策關鍵技術

2.1 基于After-State強化學習搜索算法

2.1.1 環境定義

首先對強化學習中的環境進行定義,包括狀態空間、動作空間和獎賞函數。

(1)狀態表示

整個對戰棋局的狀態使用28*28*6的數據結構進行表示,具體每一通道所代表的含義如圖3所示。

(2)動作和獎勵

動作:本方所有移動單元的動作(50*5*10);

獎勵:∑(本方通信單元數目+干擾對方通信單元數量)的變化值。

圖3 棋局狀態表示

2.1.2 算法介紹

① 初始化狀態價值網絡V(S);

② 獲取當前的戰場狀態;

③ 通過環境模型獲取所有可能的動作所到達的下一個狀態;

④ 將所有可能到達的下一個狀態輸入至狀態價值網絡中,獲取對應的V值;

⑤ 通過評估所有可能的V值獲取當前的策略,即選擇最大的V值所對應的動作;

⑥ 通過執行動作,獲取Reward,更新當前的V值,更新方法為:V(S)=r+γV(S′)。

算法描述如圖4所示。

網絡的輸入即之前定義的狀態,是一個三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數量為64個,最終的全連接層的單元數為256,接最終的輸出,即輸入狀態對應的V值。在本網絡中的損失函數使用的是均方誤差MSE,可以類比于回歸任務。優化器用的是Adam。

圖4 基于After-State強化學習算法示意圖

2.2 基于多Agent的集中式控制算法

通過對該場景進行分析認為:干擾兵必須到達地理上的可干擾區域,才能夠通過控制頻段實現干擾;而通信兵只有在保證較大程度地遠離對方干擾兵,到達安全距離的條件下,才能最大程度保持跟隊友的頻段一致。因此,最核心的控制部分在于位置的控制,在該方法中將動作的控制與頻段的選擇進行了分離。位置的控制采用了強化學習的算法,位置確定之后頻段采用基于全局的控制方法。環境定義和狀態表示與基于After-State強化學習算法類此,算法的基本步驟如下:

① 初始化狀態動作價值網絡Q(s,a);

② 在本方所有的Agent中進行循環,依次選擇;

③ 根據選擇出的Agent,確定該Agent的視野,進而確定其對應的狀態;

④ 將該狀態輸入至Q網絡中,獲取所有動作對應的Q值;

⑤ 在環境中對該Agent執行最大Q值所對應的動作,并獲取所對應的Reward;

⑥ 通過該Reward使用TD-ERROR更新Q網絡;

⑦ 通過全局控制的頻段選擇方法對頻段進行選擇;

⑧ 執行下一個Agent一直到該回合結束。

算法描述如圖5所示。

圖5 基于多Agent的集中式控制圖

網絡的輸入即之前定義的狀態,是一個三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數量為64個,最終的全連接層的單元數為256,接最終的輸出,即輸入狀態對應的所有動作的Q值。在本網絡中的損失函數使用的是均方誤差MSE,可以類比于回歸任務。優化器用的是Adam。

2.3 基于平均場的多Agent強化學習算法

通過對基于多Agent的集中式控制算法場景進行分析,在此基礎上提出再利用平均場論來理解大規模多智能體交互,極大地簡化了交互模式,提高多智能體強化學習算法的能力。應用平均場論后,學習在2個智能體之間是相互促進的:單個智能體最優策略的學習是基于智能體群體的動態;同時,集體的動態也根據個體的策略進行更新。環境定義和狀態表示與基于After-State強化學習算法類此,算法的基本步驟如下:

① 初始化狀態動作價值網絡Q(s,a);

② 在本方所有的Agent中進行循環,依次選擇;

③ 根據選擇出的Agent,確定該Agent的視野,進而確定其對應的狀態;

④ 計算每一個Agent的所有鄰居Agent的平均行為;

⑤ 將第③步和第④步計算出的結果合并;

⑥ 將第⑤步的結果輸入到該狀態輸入至Q網絡中,獲取所有動作對應的Q值;

⑦ 在環境中對該Agent執行最大Q值所對應的動作,并獲取所對應的Reward;

⑧ 通過該Reward使用TD-ERROR更新Q網絡;

⑨ 通過全局控制的頻段選擇方法對頻段進行選擇;

⑩ 執行下一個Agent一直到該回合結束。

基于平均場的多Agent強化學習描述如圖6所示。

圖6 基于平均場的多Agent強化學習圖

網絡的輸入即之前定義的狀態,是一個三維的張量,中間的卷積層本文定義了3層,卷積核的大小為3*3,卷積核的數量為64個,最終的全連接層的單元數為256,接最終的輸出,即輸入狀態對應的所有動作的Q值。在本網絡中的損失函數使用的是均方誤差MSE,可以類比于回歸任務。優化器用的是Adam。最后在選擇最大的V值對應的動作之后,本文再基于貪心策略選擇頻段,如果當前的Agent被干擾則更換頻段,使得不被干擾;否則頻段不變。

3 終端對抗學習仿真過程

在雙Ti1080GPU下,用Python平臺經過3小時訓練后,通信子與干擾子初步具備了對抗能力。對抗的干擾子和通信子具備了追擊和躲避功能,干擾兵會向前移動去干擾對方的通信兵,而通信兵則向后移動躲避對方干擾兵的干擾。干擾子在進入通信子可干擾范圍后,可以自動選擇和通信方一致的干擾頻段進行干擾,如圖7所示,紅干擾單元成功干擾藍方通信兵,使其不能通信。

圖7 紅干擾單元成功干擾藍方通信兵

當通信方被干擾后,應當自動逃離干擾子,通過訓練學習后,通信子具備了此項能力,在被干擾后通信子優先選擇了距離遠離,并沒有優先選擇改變頻段策略,只有無法移動后,才選擇改變頻段,如圖8所示,藍方被干擾通信兵陳工逃離紅方干擾單元的干擾。

圖8 藍方被干擾通信兵陳工逃離紅方干擾單元的干擾

經過計算機3天的增強學習訓練,各干擾節點可以簡單配合對通信節點進行聯合干擾。近距離干擾節點可以組成一個小組進行協作,對敵方多子進行干擾,如圖9所示。

圖9 近距離干擾兵作為一個小組進行合作

4 結束語

本文對分布式通信對抗作戰進行了模型建立和仿真運行,設計了紅藍雙方多智能體、雙兵種的作戰模式,分別仿真了機器自主對戰和人機對戰的不同模式,在此基礎上利用基于平均場的強化學習算法,實現了在分布式通信對抗環境下的智能對抗系統,并對敵方系統采用隨機策略、貪心策略以及人工策略的多種情況進行了仿真。事實證明,該智能對抗系統能夠贏過隨機策略及貪心策略,且能夠在對抗人工策略時達到百分之五十的勝率。本文的方法為智能對抗系統的進一步研究提供了新的思路,可以為智能對抗系統的發展提供參考。

猜你喜歡
動作智能策略
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
主站蜘蛛池模板: 色噜噜狠狠色综合网图区| 国产香蕉国产精品偷在线观看| 99这里只有精品免费视频| 手机在线看片不卡中文字幕| 91精品人妻一区二区| 亚洲精品视频网| 亚洲人妖在线| www.99精品视频在线播放| 亚洲国内精品自在自线官| 欧美综合在线观看| 日本免费新一区视频| 在线精品亚洲国产| 亚洲综合婷婷激情| 成人毛片免费在线观看| 国产精品自拍露脸视频| 国产精品成| 欧美人在线一区二区三区| 亚洲综合18p| 一区二区午夜| 欧美专区日韩专区| 中文字幕 日韩 欧美| 亚洲欧美极品| 欧美日韩亚洲国产| 97久久人人超碰国产精品| 亚洲欧美一区在线| 色偷偷一区二区三区| 国产AV毛片| 天天色天天操综合网| 好紧太爽了视频免费无码| 欧美日韩中文国产va另类| 日韩欧美综合在线制服| 久久婷婷国产综合尤物精品| 久久久久免费看成人影片| 99精品高清在线播放| 亚洲无码免费黄色网址| 亚洲Av综合日韩精品久久久| 久久青草精品一区二区三区| 色哟哟国产精品一区二区| 国产精品乱偷免费视频| 亚洲午夜片| 日韩国产精品无码一区二区三区| 中文字幕有乳无码| 午夜a视频| 欧美国产日本高清不卡| 欧美乱妇高清无乱码免费| 亚洲综合欧美在线一区在线播放| 97视频免费在线观看| 精品国产自在现线看久久| 国产成人高清精品免费| 最新痴汉在线无码AV| 99在线国产| 欧美日韩亚洲综合在线观看| 九九九精品成人免费视频7| 香蕉视频国产精品人| 欧美国产在线看| 蜜桃视频一区二区三区| 亚洲第一视频网| 亚洲欧洲日韩综合色天使| 伊人久综合| 青青草原国产一区二区| 亚洲va精品中文字幕| 麻豆精品视频在线原创| 无码粉嫩虎白一线天在线观看| 久久国产精品电影| 免费亚洲成人| 亚洲天堂久久久| 在线a网站| 免费不卡视频| 国产特级毛片| 永久在线精品免费视频观看| 91精品国产自产91精品资源| 激情午夜婷婷| 伦精品一区二区三区视频| 亚洲第一区欧美国产综合| 亚洲国产日韩视频观看| 久久国产高清视频| 毛片a级毛片免费观看免下载| 久久综合色天堂av| 国产美女叼嘿视频免费看| 精品福利一区二区免费视频| 午夜精品久久久久久久无码软件 | 欧洲精品视频在线观看|