999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的作戰輔助決策建模研究*

2021-08-12 09:02:28朱寧龍佟驍冶
艦船電子工程 2021年7期
關鍵詞:動作實驗方法

朱寧龍 佟驍冶

(1.91404部隊92分隊 秦皇島 066000)(2.中國船舶集團有限公司第七〇九研究所 武漢 430205)

1 引言

目前,指控系統中的輔助決策知識主要通過人工制定,這種方法低效而又充滿主觀性。在大數據和智能化背景下,可以利用虛擬環境下的作戰數據輔助生成決策,利用CGF(Computer Generated Force,計算機生成兵力)幫助指揮員進行決策訓練與分析。傳統CGF的行為決策按照預設規則制定,基于“IF…THEN”指令形式的知識,進行產生式推理,智能化程度不夠高,而對于軍事領域來說,一般的機器學習方法又缺乏可靠性與可解釋性。同時具備嚴謹的知識結構和高效的學習能力,是實現輔助決策智能化生成的關鍵。

考慮到軍事領域的特殊性,在學習方法的構建中,既需要遵循專家領域知識,體現規則的約束力,又要通過自學習,自動尋找最優解。目前有很多研究將狀態機等知識表示工具與神經網絡等機器學習工具相結合,訓練出理想的行為決策[1]。而對于輔助決策場景來說,需要選擇具有嚴謹的知識表示形式的模型構建方法,而不是通過純粹的概率計算或算法求解實現推理的方法。并且,學習的過程必須有可解釋性,才能有可信度,也方便指揮員等對模型的訓練結果進行信息提取,分析,得出想要的結論。

強化學習方法是目前規則學習的重要手段,通過不斷交互的方式獲取學習數據,從而得出策略。同時,強化學習屬于人工智能中的行為主義流派,其學習過程符合人類行為決策的生成過程,從基本原理上具備一定的可解釋性。強化學習的學習模式,即“狀態空間—行為空間—回報值”,也非常符合人類行為與認知的規律。Rahul Dey和Chris Child的研究[2]使得智能體同時具備固定知識與學習能力,他們將行為樹與Q學習算法相結合,設計了可以自學習的行為樹結構,取得了不錯的效果,體現了過程建模和強化學習相結合的思想。另外也有研究將此方法應用于CGF行為優化[3]。在此基礎上,本文提出了將CGF的行為決策知識以Pe?tri網的方式存儲,并以Q學習更新Petri網結構的方法,使知識模型具備自學習能力。

2 模型結構與學習方法

決策行為過程具有馬爾科夫特性,即當前狀態向下一個狀態轉移的概率和后果只取決于當前狀態和當前發生的行為,與之前狀態無關。決策行為的自學習可以依據馬爾科夫過程分步實現,對當前狀態做出反應,然后獲取系統的反饋,再得出當前步驟的學習結論。根據這一特性,鏈狀或者網狀模型最適合對此類過程進行建模,并通過強化學習的方式進行模型更新[4~5]。

為了解決行為樹的本身存在結構不靈活,要素過多需要循環檢測機制驅動,造成重復遍歷的缺點,本文采用Petri網表達模型結構,既解決了自動機面對復雜環境時的狀態空間爆炸問題,并且具備了并行過程表達能力。Petri網對狀態機最重要的繼承是“狀態”這一概念,不需要循環檢測機制就可以觸發動作,減少了重復遍歷。另外,Petri網中元素種類比較少,只有“庫所”、“變遷”兩種類型的節點,“增刪改”相對行為樹更加靈活。比行為樹更具有優勢的地方在于:Petri網是一種系統的數學和圖形分析工具,可以清楚地描述模型中各個元素的相互關系和動態行為,既具有工作流[6]的特征,又有成熟的數學分析方法。

對于強化學習來說,狀態既可以來自于系統變量,也可以來自于模型本身。Petri網可以讀取狀態,也可以改變狀態。環境狀態體現狀態空間中的元素,邏輯狀態體現決策進行的階段,分別用兩種庫所表示。將動作用變遷表示,當前置庫所均滿足條件,即可觸發動作[7~8]。形式如圖1所示。

圖1 決策行為表示

在傳統Petri網中,變遷的觸發取決于前置庫所中的托肯值和輸入弧的權重。為了訓練網模型,對傳統網模型進行結構改造,賦予變遷額外的參數Q值,用來表示當前動作的優先程度。根據Q值將平行變遷(擁有相同前置庫所的變遷)進行排序,把每輪訓練結果中Q值最大的變遷賦予最高優先級,如圖2所示。

圖2 Petri網中引入Q值

同時,將此最大Q值賦予上游變遷,即當前輸入庫所的輸入變遷,使得上級平行變遷獲得排序,作為上級決策的執行依據,以此類推,層層傳遞。Q值傳遞方式如圖3所示。

圖3 Q值的傳遞

由此方式訓練的結果是從初始狀態節點開始,根據當前最大Q值選擇觸發候選動作,并以同樣的方式選擇后續動作節點。訓練結束后,剔除低順位變遷以及相關庫所,最終決策方案得以確定。

3 實驗設計

在某型指控系統平臺中,建立虛擬環境,設置兩組智能體(A組、B組),對其行為分別以狀態機(A組)和Petri網(B組)的形式進行建模,并在其中一組實驗中,在對戰過程中對B組智能體進行強化學習訓練。

3.1 網模型的表示方法

采用PNML標準制定Petri網模型標記語言,pnml標簽表示PNML文件,net標簽表示網絡,庫所、變遷和弧分別用place標簽、transition標簽和arc標簽表示[9~10],其文件基本結構如下所示。

其中,庫所的初始托肯值用“initialMarking”屬性表示,庫所名稱用“Pname”屬性表示,其結構如下。

變遷的名稱用“Tname”屬性表示,其相應的Q值用“Qvalue”屬性表示,其結構如下。

Petri網中的弧分為兩種,即“庫所-變遷”和“變遷-庫所”,分別以兩種方式表示,結構如下。

PNML表達了網絡中各個元素之間的關系,系統運行時,只需通過對PNML文件的讀取和操作,生成關聯矩陣臨時數據和元素實體,并在模型訓練過程中修改PNML文件,表達為新的決策模型[11]。

3.2 狀態設置

確立了五個狀態元素,為了減小狀態空間,提升學習速度。對環境中的狀態數據進行模糊化和離散化的預處理,選取相關的狀態和動作。

1)健康狀態H(None,Low,Medium,High);

2)彈藥儲備A(None,Low,Medium,High);

3)敵人距離D(Near,Medium,Far);

4)受到攻擊U(Yes,No)。

3.3 行為設置

Agent的行為并不是單一動作,而是一系列動作組成的高層次行為組合。包括以下四種。

1)巡邏patrol;

2)防御defend;

3)攻擊attack;

4)逃避dodge。

由于仿真環境中,行為是持續性的,存在一個運行周期,Petri網的并行特性允許各個行為同步發生,完成實時仿真和實時學習。

3.4 獎勵函數設置

首先設置基本獎勵函數機制,將戰損、被消滅的戰果給與懲罰,將重創、擊毀的戰果給與獎勵。為了加快算法的收斂速度,防止從“零”開始學習引起的低效。將專家經驗作為先驗知識,與基本獎勵機制加權后相結合,組成綜合獎勵函數,綜合獎勵函數R表達式為

R=ω1R1+ω2R2

其中,ω1、ω2分別為先驗知識權重和基本獎勵函數權重,R1、R2分別為先驗知識獎勵函數和基本獎勵函數。

本實驗的先驗知識獎勵函數部分展示在表1中。

3.5 模型訓練

Q-Learning算法,是一種異策略控制(Off-poli?cy)的采用時序差分法的強化學習方法,使用兩個控制策略,一個用于選擇新的動作,另一個用于更新價值函數。

使用bellman方程對馬爾科夫過程求最優策略,其算法流程如下:1)初始化Q(s,a);2)根據當前Q值,選擇當前狀態s下的一個動作a(可使用ε-greedy搜索策略),輸出動作a后,觀察輸出的狀態s'和獎勵r,依據公式更新Q值:Q(S,A)=Q(S,A)+α(R+γmaxaQ(S',a)?Q(S,A)),更新策略:π(a|s)=argmaxQa(s,a);3)重復“步驟2)”,直到Q值收斂。其中,π是當前策略,γ是衰減因子。

為了避免陷入局部最優,兼顧當前最優解之外的可能性,也為了解決冷啟動問題,采用ε-greedy算法為動作選取策略。設置一個概率值ε、隨機數rand和參數t,算法每步都有一定的概率ε在可選動作集A中選擇探索,也有一定的概率1-ε進行采樣。搜索策略表示為[12~13]

學習后期,agent對Q值的學習方向越來越明朗,可以適當減小ε值,直至取消搜索。

截取某一邏輯節點的情況下,對于特定狀態S2(健康狀態:Low、彈藥儲備:Low、敵人距離:Medi?um、受到攻擊:Yes),其初始模型如圖4所示,此情況下智能體隨機采取四種策略。

圖4 初始模型

設置學習效率α=0.8,折扣因子γ=0.6,初始概率ε=0.25。經學習收斂后4個動作的Q值分別為Q(patrol)=1、Q(defend)=5、Q(attack)=9、Q(dodge)=15,經過低順位動作剔除,最終形成的決策模型如圖5所示。

圖5 訓練后模型

對所有的邏輯節點下的狀態采取同樣方式訓練,以圖3所示的方法進行Q值傳遞,最終產生完整的決策網絡。

4 實驗結果

將A組和B組設為完全相同的簡單的初始決策。令兩組智能體進行“5V5對抗”,記錄每一局的存活數。每次實驗總局數為50,每局時間限制在1min。

實驗分為兩部分,首先:使未經學習的B組與A組進行對抗,此時A、B兩組具有相同的決策,A、B兩組的對抗實驗結果如圖6所示。

圖6 對戰存活單位數量對比圖(實驗一)

其中,橫軸表示對抗次數,豎軸表示存活數量。對抗實驗結果表明同樣的行為決策下,擁有相同決策的兩組智能體的成績相似。

在第二次實驗中,B組的Petri網模型加入Q學習更新機制,自第二輪對抗開始,B組每輪對抗中使用的策略都是上一輪學習后的結果。訓練分為50個周期,截取每個周期的最后一局結果,實驗結果如圖7所示。

圖7 對戰存活單位數量對比圖(實驗二)

從結果來看,兩次實驗有明顯差異。在第二次實驗中,在前期對戰,由于A組和B組都按照相同或相似的策略行動,結果互有勝負,勝負主要取決于隨機因素,雙方戰力比較均衡。前中期,因為隨機搜索機制的影響,B組可能會選擇錯誤的決策行為,戰績不太穩定。但是隨著強化學習的進程,搜索范圍逐步收窄,B組戰績開始提升,并且越來越穩定。

實驗結果表明,用Petri網建模方法的智能體具有與狀態機相似的決策能力,經過強化學習的Petri網決策模型有一定的成長性,可以一定程度上規避局部最優的困境,并且學習效率比較可觀。

5 結語

本文提出的基于Petri網建模和強化學習的指控系統輔助決策生成方法,可以由計算機生成兵力訓練決策方案,將最優解提供給指揮員。在建模的便捷性、可解釋性和成長性方面都取得了不錯的效果。使用此方法一定程度上彌補了人為設置決策模型的缺陷,可輔助決策行為知識建模。目前此方法還沒有將更復雜的狀態空間以及行為空間引入,如何更好地處理模糊類型的變量和連續變量,以及如何更加合理地動態調節搜索力度,平衡算法運行的速度和容錯率,是下一步要研究的工作。

猜你喜歡
動作實驗方法
記一次有趣的實驗
做個怪怪長實驗
動作描寫要具體
畫動作
動作描寫不可少
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
非同一般的吃飯動作
主站蜘蛛池模板: 91成人免费观看在线观看| 免费A级毛片无码免费视频| 日韩乱码免费一区二区三区| 国产亚洲精品va在线| 成人福利在线观看| 成人无码一区二区三区视频在线观看| 国产尤物视频在线| 91精品伊人久久大香线蕉| 亚洲第一色网站| 国产剧情国内精品原创| 中文字幕丝袜一区二区| 久久国产精品嫖妓| 亚洲大学生视频在线播放 | 韩国v欧美v亚洲v日本v| 欧美成人怡春院在线激情| 国产永久在线观看| 国产精品无码作爱| 国产欧美在线观看精品一区污| 国产一区二区免费播放| 欧美三级自拍| 91色国产在线| 偷拍久久网| 久爱午夜精品免费视频| 国模极品一区二区三区| 国产丝袜无码精品| 日韩无码一二三区| 久久久久久高潮白浆| 亚洲娇小与黑人巨大交| 911亚洲精品| 亚洲成a人片在线观看88| 色135综合网| 亚洲福利视频网址| 成人综合久久综合| 伊人久久久久久久久久| 亚洲av无码人妻| 亚洲欧美精品在线| 夜夜高潮夜夜爽国产伦精品| 国产精品自在在线午夜区app| 久久中文字幕不卡一二区| 国产97公开成人免费视频| 无码乱人伦一区二区亚洲一| 亚洲精品成人片在线观看| 9啪在线视频| a级毛片毛片免费观看久潮| 欧美在线观看不卡| 国产综合亚洲欧洲区精品无码| 999国内精品久久免费视频| 国产精品欧美在线观看| 日韩精品无码一级毛片免费| 日本精品视频| 亚洲伦理一区二区| 日韩精品无码不卡无码| 欧美日韩高清| 国产丝袜第一页| 四虎影视无码永久免费观看| 国产乱人伦精品一区二区| 国产福利在线免费| 成人福利在线看| 久久人人97超碰人人澡爱香蕉| 国产日本视频91| 一本久道久久综合多人| 国产亚洲欧美日本一二三本道| 国产va在线观看| 日韩免费毛片| 国产一区二区三区免费观看| 最新国产高清在线| 久久综合国产乱子免费| 538精品在线观看| 国产v精品成人免费视频71pao| 99er精品视频| 亚洲国产中文欧美在线人成大黄瓜 | 2022国产91精品久久久久久| 2020国产精品视频| 青青操国产| 国产香蕉在线| 91在线日韩在线播放| 伊人色在线视频| 日韩中文欧美| 久久综合色视频| 国产毛片片精品天天看视频| 无码国产伊人| 亚洲欧美另类中文字幕|