999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的體系對抗仿真戰役層次指控算法

2018-08-23 03:08:04閆雪飛李新明劉德生
計算機工程與科學 2018年8期
關鍵詞:體系研究

閆雪飛,李新明,劉 東,劉德生,李 強

(裝備學院復雜電子系統仿真實驗室,北京 101416)

1 引言

海灣戰爭以來,體系SoS(System-of Systems)作戰成為主要的作戰方式,武器裝備體系WSoS(Weapon equipment SoS)[1,2]成為各國軍隊發展的主要立足點,尤其是網絡信息體系頂層架構的提出,進一步表明了體系支撐作戰的重要性。然而,作為一個典型的復雜系統,WSoS的不確定性、復雜性以及巨量性使得作戰仿真研究面臨巨大的挑戰,目前,針對WSoS的作戰仿真研究[3,4]還遠未達到成熟的地步。

指揮與控制C2(Command and Control)是作戰仿真研究的一項核心技術,也是影響戰爭勝負的重要因素。傳統的C2研究主要集中于戰術層次,屬于微觀層面,這是由于戰術層次的實體行為模型較易建立,武器平臺的運用規則相對簡單,不確定性相對較小,流程相對固定[5]。而戰役層次的C2研究則很少見諸文獻,這是由于戰役層次的C2行為屬于宏觀層次,考慮的對象不再是單個作戰實體,而是多個作戰單元,不僅要考慮我方兵力分布,還要考慮敵方態勢信息,既跨物理域,又跨信息域、認知域,涉及的范圍更廣、考慮的因素更多,一直以來都是作戰仿真研究領域的難點。

人工智能的迅猛發展,尤其是令人矚目的谷歌AlphaGo在圍棋領域取得的重要突破,表明了基于機器學習的C2建模的可行性。AlphaGo推動了兩項與人工智能相關的技術:神經網絡技術以及強化學習RL(Reinforcement Learning)技術。神經網絡是一種有效的復雜問題離散表示方法[6,7],而RL則相當于不確定性環境中的訓練樣本,兩者結合具有巨大的發展潛力,是作戰仿真C2研究的主要發展趨勢。為此,針對WSoS作戰仿真具有的不確定性、復雜性特點,以及戰役層次C2認知行為的實際條件,本文以GRBF(Gauss Radial Basis Function)神經網絡作為指揮Agent認知域的離散模型,基于RL技術驅動神經網絡的進化,提出了基于RL的SoS對抗仿真戰役層次C2算法,并對算法的可行性以及性能進行了作戰仿真研究,以期為WSoS戰役層次的認知決策技術提供一種有效的解決途徑,也為未來WSoS的智能化C2研究進行一定的初步探索。

2 相關研究

目前,常用的針對作戰Agent認知決策的主要技術包括三種方法:一種是個性優化;另一種是Rule-based算法,對應于反應型Agent;第三種是基于BDI(Belief Desire Intention)的認知型Agent,如表1所示。可以看出,由于WSoS的Agent數目更多、組成要素與內部結構更加復雜、不確定性更高,使得傳統的決策算法已經不能有效適用于復雜WSoS的認知決策研究。RL作為一種無師在線決策技術,在無需任何先驗知識的情況下即可實現對未知環境的學習,對不確定環境具有自適應能力,因此被廣泛用于復雜環境的作戰Agent自主決策研究[8]。楊萍等[9]將強化學習引入智能體模糊戰術機動決策模型中,有效地解決了馬爾科夫決策過程狀態轉移規律難以獲得時的模型求解問題;馬耀飛等[6]基于強化學習對戰術層面仿真航空兵的空戰機動決策問題進行了研究;徐安等[7]基于RBF(Radial Basis Function)神經網絡和Q-learning算法對飛行器三維空間的隱蔽接敵策略進行了學習研究。上述研究為RL在體系對抗仿真中的應用提供了一個良好的開端,但也存在一些明顯不足:大部分研究針對的并非是體系對抗情形,且以戰術層次為主;部分針對對抗決策的情景比較簡單,與實際戰爭中的多回合連續對抗樣式區別較大。

Table 1 Traditional cognition and decision algorithms for the battle Agent

鑒于RL算法對未知空間的自適應優勢,本文提出一種基于改進Q-learning的面向體系對抗的戰役層次認知決策算法,基于跨步差分學習解決單步差分學習用于時間離散指控Agent認知時序存在的兩個顯著問題。此外,為了解決指揮Agent的不確定性問題,傳統的RL認知決策算法的做法是在整個作戰回合結束后再進行Q函數的信度分配,效率較低。例如,楊克巍等[10]對基于半自治作戰Agent的Profit-sharing增強學習進行的實驗研究。因此,跨步差分的另一個優點是將整個作戰回合分為多個有效的學習階段,當滿足一定的條件后,即進行Q函數的差分學習,進而提高了學習效率。

Figure 1 UML framework of the WSoS architecture based on AOP圖1 基于AOP的WSoS UML結構框架

3 問題描述

3.1 武器裝備體系組成架構

目前針對體系的相關實驗研究均以自行組合構造為主[11],在對文獻[12]體系架構發展的基礎上,設計的基于AOP(Agent Oriented Programming)的WSoS UML框圖如圖1所示。其中箭頭上面的數字含義表示所指Agent的數目,1代表1個,1..*代表1個或者多個,0..*代表0個或者多個,例如1個武器裝備體系由多個Agent組成。該框架設計的基本初衷一方面是為了盡可能囊括現實世界中各種類型的裝備,另一方面是為了給武器裝備體系的復雜特征[11]提供一個衍生基礎,例如修復Agent和補給Agent對于體系的演化性具有重要的影響。

此外,該框架與最新提出的網絡信息體系NISoS(Network Information SoS)架構相契合,其中,通信Agent(CCAgent)可組成NISoS中的基礎網,感知Agent(SCAgent)可組成NISoS中的感知網,打擊Agent(ATAgent)可組成NISoS中的火力網,補給Agent(SUAgent)以及修復Agent(RPAgent)可組成NISoS中的保障網,指揮Agent(CMAgent)可組成NISoS中的決策網,進而可為NISoS的作戰仿真研究提供一個實驗參考。

3.2 作戰仿真原型系統及作戰想定

為了實現WSoS的作戰仿真研究,基于Java語言自主開發了一款作戰仿真原型系統,并為不同種類的Agent構建了3D幾何模型用于可視化分析。原型系統采用分布式進程調度架構,離散時間仿真協議進行設計開發,共包含6種類型的Agent,對應于WSoS的結構框架,其中CCAgent、SCAgent、ATAgent、SUAgent、RPAgent通過系統提供的項目編輯界面進行參數的編輯并添加到仿真體系,而CMAgent根據體系的層次結構由系統自動添加,其依據是為每個編隊設計一個CMAgent。原型系統的物理作戰空間是按照Java 3D標準定制的100×100(m2)的三維幾何地圖,在作戰開始時,紅藍雙方的兵力被分別自動部署在地圖的左右兩側,當仿真開始后,雙方會相向運動,直到在中間區域遭遇并展開對抗。其中,戰術層次的決策行為相對簡單,可采用有限狀態機實現。而CMAgent隸屬于戰役層次,負責對所屬Agent的宏觀指揮與控制,決策行為比較復雜,是論文研究的重點。

3.3 指揮Agent的認知域描述

由于系統基于時間離散模型進行調度,因此CMAgent的決策行為是以仿真時鐘為單位進行的,其主要目的是在當前感知態勢的基礎上進行決策,其認知域描述如表2所示,考慮到RPAgent的量少(通常紅藍雙方各有一個),故忽略其影響。圖2為CMAgent的決策行動原理示意圖,其中的Agent代表的是紅方的一個編隊,只有一個CMAgent,而其他類型的Agent則不止一個,這些戰術層Agent會始終與CMAgent分別保持在一個固定的距離之內。可以看出,前進行動的原理比較直觀,對于進攻行動,作戰Agent會根據CMAgent發送的優先打擊目標執行相應的逼近行動;而對于撤退行動,CMAgent會首先根據敵我數目對比計算出前、后、左、右四個方向的敵軍力量,例如OL-EL=-10代表左方敵軍比友軍多10個,最終,根據計算結果,CMAgent會決定向右方移動。

圖2中,O為友軍Agent數目,E為敵軍Agent數目,L代表左方,R代表右方,F代表前方,B代表后方。

3.4 指揮Agent認知行為假設

如果將CMAgent的態勢信息作為狀態空間S={s1,s2,…,sn},將可采取的決策指令作為行為集合A={a1,a2,…,am},則CMAgent的認知可以視為從S到A的一個映射,即f(s)→a,其中s∈S,a∈A,在RL領域中,通常將其稱為一個策略π,而最合理的映射即對應于RL領域中的最優策略為π*。由于仿真進程是以仿真時鐘為單位向前推進的,因此CMAgent的認知行為也是以仿真時鐘為單位,即在每一個仿真時鐘步t,CMAgent都會根據當前狀態st選擇一個合理的行為at,進而完成一次決策。在WSoS框架基礎上,結合RL算法的概念以及作戰實際情形,對CMAgent認知行為的六條假設如表3所示。

Table 3 Hypothesis of the cognition anddecision actions for the CMAgent

Table 2 Description of the cognition domain of the CMAgent

Figure 2 Principle diagram of the decision actions for the CMAgent圖2 指揮Agent的決策行動原理示意圖

可以看出,CMAgent認知過程的不確定性、隨機性和未知性均要高于其他應用領域,僅能根據自身的有限信息進行策略的學習。

4 跨步差分Q-leaning認知決策算法

4.1 參數的歸一化

為了壓縮參數空間,也為了使學習成果更具一般性,需要首先對用到的學習參數進行歸一化,其意義類似于流體力學中的無量綱化,這對實驗結果至關重要。主要包括狀態空間參數的歸一化以及獎賞參數的歸一化。狀態空間的歸一化公式如下所示:

(1)

其中,δ是一個極小值,其意義是避免除零,根據歸一化公式,CMAgent的狀態空間可由四維參數向量(Nc,Nsc,Nsu,Na)表示。獎賞信息的歸一化公式為:

.5∈(-0.5,0.5)

(2)

其中,KE為殺死敵軍數目,KO為死亡友軍數目,δ的意義同前。可以看出,當r>0時,CMAgent得到的是正獎賞,當r<0時,CMAgent得到的是負獎賞,獎賞的好壞一目了然。通過以上對學習參數的歸一化處理,使得學習數據更具普遍性和可比性。

4.2 基于GRBF神經網絡的狀態空間離散

傳統的Q函數采用表格進行狀態空間的離散,然而,當狀態空間是連續的且維數較多時,表格離散法會面臨“分割難題”,并且學習效率較低。考慮到GRBF神經網絡的離散性能以及泛化能力,可以采用GRBF神經網絡對Q函數進行離散[6,7]。所謂泛化能力是指即使某個樣本沒有學習,GRBF神經網絡也能估計其輸出,而這是表格離散法不能做到的,其網絡結構如圖3所示。由圖3可知,GRBF神經網絡由四層組成,第一層為輸入層,第二層為離散層,第三層為隱含層,第四層為輸出層。其中,離散層的等寬離散公式如下所示:

(3)

Figure 3 Discretization of the Q table based on the GRBF neural network圖3 基于GRBF神經網絡的Q離散

可以算出,輸入狀態空間的樣本數目最大為54=625個,可以想象采用傳統離散方法的復雜性,其輸出層輸出的是對應動作的Q值,共有7個動作,其計算公式為:

(4)

(5)

其中,徑向基函數bi(s)的計算公式如下所示:

,i=1,2,…,m

(6)

其中,ci是第i個基函數的中心,與s具有相同的維度,σi是第i個基函數的寬度,m是隱含層的個數,‖s-ci‖為輸入狀態與基函數中心的歐氏距離。

4.3 基于TD公式的跨步差分迭代

Q-learning利用時間差分TD(Temporal Difference)公式直接估計狀態-動作(s-a)對的期望值,采用Q*(s,a)表示,對應于行為選擇策略π*。假設Q*(s,a)的當前估計值用Q(s,a)表示,下一時刻的值用Vt(s)來表示,根據TD公式有:

Qt(s,a)=Qt-1(s,a)+αtVt(s)-Qt-1(s,a)

(7)

Qt(s,a)=Qt-1(s,a)+

(8)

其中t表示當前仿真時鐘步,αt表示學習速率。可以看出,Q-learning的迭代公式采用的是單步差分公式,即在每個時間步都進行Q表(狀態-動作對表格)的學習。而實際上,對于基于WSoS對抗仿真的戰役層次指揮Agent認知決策問題,有兩個顯著的特點:一是指揮Agent的狀態并非在每個時間步都會發生變遷,往往連續多個仿真時鐘步都是同一個狀態,即st=st-m;二是單步獎賞值rt非常小甚至趨于零,即Agent在st時采取一個動作at后沒有收到任何回報,因此也就無法對Qt(s,a)的好壞進行評價。可通過某次仿真的某指揮Agent認知過程時序圖進一步印證這兩個特點,如圖4所示,其中X軸為仿真時刻,Y軸為狀態編號,Z軸為獎賞值。

Figure 4 Time sequence change of the cognition domain of the CMAgent for a battle simulation圖4 某次作戰仿真的CMAgent認知域時序變化圖

由圖4可以看出,狀態不變或者單步獎賞值為零的時刻居多,并且狀態與獎賞值變化之間沒有絕對關聯,狀態變化獎賞值不一定變化,獎賞值變化狀態不一定變化。考慮到這兩種特殊情況,一是狀態未改變,二是獎賞值為零,均不適合進行差分學習,反而會造成計算資源的浪費,為此,提出跨步時間差分STD(Stride Temporal Difference)的Q-leaning迭代公式,即用于Q值更新的獎賞值不是單步獎賞,而是未來N步的累積獎賞值R,相應地,Q表不會立即更新,而是當R大于一定的閾值R′或者狀態發生改變后再進行更新。采用STD-Q不僅能夠解決上述問題,而且能夠提高仿真效率,同時能夠增強學習信號,使針對Q(s,a)的估計也更加準確,尤其是對于不確定性極高的體系對抗環境。

假設Vt-m(st-m)是t-m時刻狀態st-m對應的新的Q*值,根據TD公式,可得Q函數在t時刻的更新公式如下所示:

Qt(st,a)=Qt-m(st-m,a)+

αtVt-m(st-m)-Qt-m(st-m,a)

(9)

又由于在Q表更新之前:

Vt-m(st-m)=rt-m+γVt-m+1(st-m+1)

Vt-m+1(st-m+1)=rt-m+1+γVt-m+2(st-m+2)

?

Vt-1(st-1)=rt-1+γVt(st)

則有:

Vt-m(st-m)=rt-m+γVt-m+1(st-m+1)=

rt-m+γ[rt-m+1+γVt-m+2(st-m+2)]=

rt-m+γrt-m+1+γ2Vt-m+2(st-m+2)=

rt-m+γrt-m+1+γ2[rt-m+2+γVt-m+3(st-m+3)]=

rt-m+γrt-m+1+γ2rt-m+2+γ3Vt-m+3(st-m+3)=…=

rt-m+γrt-m+1+γ2rt-m+2+…+γm-1rt-1+

γmVt(st)=rt-m+γrt-m+1+γ2rt-m+2+…+

(10)

將式(10)代入式(9)得到最終的STD-Q函數更新公式如下所示:

(11)

Figure 5 Cognition and learning framework of the CMAgent based on STD-Q圖5 基于STD-Q的CMAgent認知學習框架

4.4 GRBF網絡結構的參數訓練

(12)

4.5 學習過程

學習過程以周期計數,當一個回合的作戰結束時視為一個學習周期的結束,其學習框架如圖5所示。基于STD-Q的WSoS戰役層次CMAgent的決策過程如下:

步驟1初始化CMAgent的GRBF神經網絡,通過k-means聚類設置GRBF的中心和寬度,設定最大學習周期數K,令k=1;

步驟5執行決策指令at,轉到新的狀態st+1;

步驟6如果仿真沒有分出勝負或者t小于最大仿真步數,返回步驟3;

步驟8k=k+1,如果k>K則結束學習,否則轉步驟2。

5 作戰仿真及結果分析

5.1 實驗設置與兵力部署

5.2 實驗結果及分析

5.2.1 不同隱含層節點數的效能分析

得到的體系對抗結果如圖6所示,為不同隱含層節點數目對應的STD-Q算法作戰效能(由勝率和總獎賞共同評估),其中m∈{2,10,20,30,…,610,620}(m最小不能小于2,最大不大于625),勝率W由獲勝次數除以學習周期計算(當對方兵力完全被消滅或者將一定會被完全消滅時視為獲勝),總獎賞RALL的計算公式為:

Table 4 Decision rule of theCMAgent based on rule-based

RALL=((KBI-KBE)+δ)/((KBI-KBE)+δ+(KRI-KRE)+δ)-0.5

(13)

其中,KBI為開始時敵軍總數,KBE為周期結束時敵軍總數,KRI為開始時友軍總數,KRE為周期結束時友軍總數。由圖6可知,藍方W以及RALL要優于紅方,當m∈{2,10,20,30,…,200}時,藍方占有絕對優勢,勝率幾乎為1,但當200

Figure 6 Operational effectiveness changes of the red and blue camp varied with number of nodes of the hidden layer圖6 紅藍雙方作戰效能隨隱含層節點數目的變化

圖7為總用時隨m的變化,可以看出隨著m的增大,總用時總體保持增加的趨勢,但當m∈{100,110,…,200}時出現了一個波峰,這是由誤差導致的,通過多次仿真取均值或增大最大仿真步長可以有效消除其影響。根據以上的分析,m在{2,10,20,…,100}之內選擇最佳。

Figure 7 Total time consumption changes with the number of nodes of the hidden layer 圖7 總用時隨隱含層節點數目的變化

5.2.2 算法的收斂性分析

Figure 8 Development of the total repay value of the red and blue camps changes with learning cycles 圖8 紅藍雙方總獎賞值隨學習周期的演化

5.2.3 可視化仿真回溯分析

為了探索算法的優勢根源,選擇算法收斂時的一組對抗數據進行可視化仿真回溯分析,圖9為不同階段下紅藍雙方可視化對抗情景。其中,圖9a表示對抗開始時雙方尋敵作戰情景,圖9b是雙方在中間發生遭遇后開始作戰,圖9c是雙方激戰階段,從圖9d時刻開始,藍方開始占據優勢,之后,紅方依據撤退規則開始執行撤退行為,如圖9e所示,而藍方則一直在追擊并打掉了紅方的大本營(RPAgent),由于此時紅方已經無處可退,且有生兵力已經全部陣亡,獲勝概率為零,被系統判定為負,使得對抗過程提前結束,最終,采用STD-Q的藍方獲得最后勝利,如圖9f所示。

Figure 9 Typical visualization scene of the red-blue confrontation process圖9 典型的紅藍雙方對抗可視化情景(N為兵力數目)

進一步對雙方的對抗情景進行多次反復可視化回溯分析,發現藍方勝利的直接因素主要表現在兩方面:一是與藍方優先選擇空中目標進行攻擊有一定的關聯,并且藍方的火力打擊更加協調;二是藍方地面兵力一直在進行小范圍機動,這使得紅方的炮彈存在大量的落空,避免了藍方地面兵力的大量傷亡,而激戰過程中的紅方地面兵力則一直保持靜止,使得藍方炮彈“彈無虛發”,致使紅方的傷亡十分嚴重,最終不敵藍方潰敗。以上只是對雙方對抗過程的一種粗略的可視化分析,實際的對抗過程十分復雜,具有更多的復雜因素有待挖掘。

6 結束語

考慮到RL在復雜環境、不確定性環境以及未知環境中的求解優勢,本文提出了基于跨步差分Q-leaning的體系對抗智能認知決策算法,并通過武器裝備體系對抗仿真實驗進行了驗證,表明了算法的有效性;同時表明,基于GRBF神經網絡的狀態空間離散方法能夠有效應對體系對抗環境下指揮Agent認知域狀態連續多維的分割難題,并且以較少的隱層節點數即可獲得優異的決策效能。研究對于體系對抗仿真環境下戰役層次指揮Agent認知決策以及信息化對抗環境下輔助指揮員進行決策具有一定的參考價值。

猜你喜歡
體系研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
構建體系,舉一反三
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
探索自由貿易賬戶體系創新應用
中國外匯(2019年17期)2019-11-16 09:31:14
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
如何建立長期有效的培訓體系
現代企業(2015年1期)2015-02-28 18:43:18
“曲線運動”知識體系和方法指導
主站蜘蛛池模板: 伊人福利视频| 伊人久久精品亚洲午夜| 超级碰免费视频91| 沈阳少妇高潮在线| 免费 国产 无码久久久| 99re精彩视频| 欧美国产精品不卡在线观看| 九九九精品成人免费视频7| 亚洲一区网站| 亚洲天堂精品视频| 99热国产这里只有精品9九| 九九热精品视频在线| 老司机aⅴ在线精品导航| 日韩欧美中文字幕一本| 黄色网站不卡无码| 久久熟女AV| 久久久久夜色精品波多野结衣| 亚洲色图综合在线| 国产日韩欧美中文| 日韩精品无码一级毛片免费| 久久综合五月| 国产99免费视频| 久久精品人人做人人综合试看| 69视频国产| 国产精品精品视频| 天天做天天爱夜夜爽毛片毛片| 青草免费在线观看| 美女黄网十八禁免费看| 在线播放精品一区二区啪视频| 国产另类视频| 成年女人a毛片免费视频| 日韩A∨精品日韩精品无码| 97国产成人无码精品久久久| 99热这里只有精品免费国产| 亚亚洲乱码一二三四区| 亚洲国产成人自拍| 婷婷亚洲最大| 亚洲精品第一页不卡| 中文字幕在线看视频一区二区三区| 国产精品久线在线观看| 99久久99这里只有免费的精品| 国产福利一区视频| 波多野结衣在线一区二区| 18禁影院亚洲专区| 91免费精品国偷自产在线在线| 91精品免费高清在线| 中文字幕丝袜一区二区| 国产免费a级片| a欧美在线| 亚洲天堂网2014| jizz国产在线| 亚洲男人的天堂在线| 国产乱子伦一区二区=| 亚洲嫩模喷白浆| 亚洲有无码中文网| 国产在线98福利播放视频免费| 狼友av永久网站免费观看| 日韩黄色在线| 亚洲一级色| 色婷婷成人| 亚洲精品无码成人片在线观看| 中文字幕人妻无码系列第三区| 人妻少妇久久久久久97人妻| 日韩国产黄色网站| 网友自拍视频精品区| 国产91蝌蚪窝| 免费啪啪网址| 欧美97欧美综合色伦图| 日韩性网站| 欧美国产成人在线| 国产精品开放后亚洲| 免费在线色| 狠狠干欧美| 97久久免费视频| 国产91精品调教在线播放| 国产一级二级在线观看| 欧美精品另类| 婷婷色婷婷| 国产91视频观看| 54pao国产成人免费视频| 久久久久国产一区二区| 国产在线精彩视频二区|