復雜任務下的多智能體協同進化算法

2021-04-13 08:43:38劉家義岳韶華姚小強

系統工程與電子技術 2021年4期

劉家義, 岳韶華, 王剛, 姚小強, 張杰,*

(1.空軍工程大學防空反導學院, 陜西西安 710054; 2.空軍工程大學研究生院, 陜西西安 710054)

0 引言

多智能體系統建模以圖論相關知識為基礎,利用點狀態與邊狀態之間的關系對多智能體之間的信息關系與交互博弈進行描述,當前主要針對多智能體系統的一致性與降階問題進行研究探討[1]。文獻[2]利用基于事件的控制策略,研究了具有時滯的線性有向多智能體系統的一致性問題。為了避免智能體間通信的連續性和控制器更新的頻繁性,提出了一種基于事件觸發函數的控制策略,該函數由測量誤差和基于鄰居離散狀態的閾值組成。同時,在事件觸發函數中引入時變偏移量,以排除接近一致的潛在吊詭行為與減小的理論閾值。文獻[3]針對一類高階非線性多智能體系統,結合回溯技術,提出了一種基于觀測器的自適應一致跟蹤控制策略。該方法通過對每個跟蹤器建立基于神經網絡的狀態觀測器,解決了高階非線性多智能體系統的不可測狀態問題。文獻[4]研究了異構線性多智能體系統的最優一致跟蹤問題。通過引入跟蹤誤差動力學,將最優跟蹤問題重新表述為求解多智能體博弈的納什均衡解與關聯耦合哈密頓-雅可比方程。設計了一種基于數據的誤差估計器,用于實現多智能體系統基于數據的控制。利用二次函數逼近每個智能體的值函數以及利用最小二乘意義上的迭代技術,學習算法通過輸入-輸出得到最優協同控制。該理論不依賴于多智能體系統的模型,而是利用實測的輸入輸出信息來解決多智能體系統的最優一致問題。文獻[5]研究了分數階多智能體系統通過采樣數據事件觸發控制的一致性。首先,利用采樣狀態定義事件觸發算法,可以避免Zeno行為。在此基礎上,提出了一種分布式控制協議,保證了分數階多代理系統的一致性,以確保多代理系統中的所有代理都達到指定的參考狀態。利用線性矩陣不等式,獲得保證分數階多智能體系統一致性的充分條件。

本文基于學者已發表文獻的基礎上,就已經構建好的智能體系統內部博弈模型與分布式多智能體指揮控制系統的基礎上,討論在多智能體系統處理復雜任務時的協同算法設計。針對多智能體系統的協同優化問題,提出了復雜任務下的多智能體協同進化算法,算法主要應用于多智能體協同處理的復雜任務上,從復雜任務的角度研究多智能體系統的協同優化問題。

本文主要研究內容有:首先提出復雜任務下的多智能體系統協同優化問題并建立數學模型,基于問題提出解決方法與基礎算法;接著針對算法設計基本流程,根據適應度函數選取、確定學習步長、狀態轉移方向確定、智能體狀態更新、多智能體系統群進化操作這些步驟對算法進行具體描述;最后針對已經提出的算法進行仿真實現,以全局收益作為分析對象,分析算法模型的有效性并加以證明。

1 復雜任務下的多智能體系統協同優化問題

1.1 問題提出

多智能體系統具有優越的自主性和不可預測性,在處理復雜問題方面具有解算能力強、收斂速度快、魯棒性強等優勢[6],但是由于多智能體系統內部各智能體的自利性與多智能體系統的能力調度問題過于復雜[7],導致該問題至今還沒有一個合適的算法模型進行合適的求解。文獻[8]通過分析飛行器航線規劃的技術特點,結合多智能體系統的分布式背景,引入協同進化機制,提出了基于多智能體協同進化的飛行器航路規劃算法。文獻[9]提出當前Markov決策存在隨機不確定性與態勢信息不完全,通過模仿生物間共生互利的特點為多智能體協同提出了新的思路,用一個神經網絡表示一個智能體獲得的態勢信息映射,通過協同進化神經元方法進化單個智能體,為多智能體系統的協同機制提供了新的思路。

由于戰場態勢變化復雜且信息量巨大,本文將基于現有的理論基礎,針對該特點設計了復雜任務下的多智能體協同進化算法,目的是提高多智能體系統解決復雜任務的速率并降低系統復雜度,消除多智能體系統在處理復雜問題的短板。算法期望是在一定時間內,利用計算能力較強的多智能體系統快速獲取全局最優解,實現戰術目標。以多智能體系統的損失值為對象,通過分析損失值的迭代遞減特性,證明了算法的有效性。針對防空反導領域的分布式協同作戰指控問題,結合強化學習開發架構,設計開發了多智能體指控系統,并針對強化學習網絡進行具體分析,對系統進行體系架構分析,并對迭代訓練后的多智能體指控系統進行數據演示。

1.2 數學方法與模型

1.2.1 智能體狀態轉移模型

在本節中,將對多智能體系統處理復雜任務過程中通過智能體的狀態轉移進行模型構建,研究利用多個智能體的協同狀態轉移問題。

(1)

(2)

式中,假設ηi j(t)滿足sup|η(k)(t)|≤ρk,ρk(k=0,1,2,…)為正實數序列。

1.2.2 多目標優化方法

由于各個目標之間可能存在沖突或者制約關系,且多目標優化問題不存在唯一解,而是存在最優解集,多智能體系統中的多目標問題主要求解方法如下[11]。

(1)線性權重加和法

該問題的求解難度在于權重如何分配,具體如下:

(3)

(2)獎懲函數方法

使用獎懲函數作為優化問題的求解方法,其設計思想來源于單智能體系統與桿平衡系統,桿平衡系統的獎懲函數設計方式過于單一,主要為在智能體轉移狀態后,失敗的獎罰值為-1,成果的獎罰值為0。該系統存在幾個明顯的缺陷:① 智能體執行任務過程中無法定義其狀態轉移是否為最終的收益做出貢獻,且無法確定具體的貢獻有多大。② 獎懲函數的基本設計原則是智能體在最大化收益的同時完成任務目標,設計獎懲函數是給定任務目標,而不是指揮智能體一步步完成任務目標,如果按照狀態轉移的步驟給予獎賞,則智能體很有可能偏離方向,片面地朝著獎賞方向發展,不利于任務目標的實現。修改后的獎懲函數具體如下:

(4)

本文將基于原有的獎懲函數進行優化設計,增大全局收益最大化對于智能體收益影響的效果,盡可能減弱智能體的自利性[13]。

2 多智能體協同進化算法

2.1 算法基本原理

本文基于差分進化(differential evolution, DE)算法進行算法[14-16]優化,設計出多智能體協同進化算法(multi-agent co-evolutionary algorithm,MCA),主要分為兩個階段。

第一個階段借鑒了人類在全局搜索中的學習行為,結合啟發式搜索算法[17-18]的理念,在優化問題求解中融入智能搜索行為,其主要思想為:以一個優化解為基礎,在該解的附近領域內可能存在更優解,所以當搜索到更優解的時候,則進行迭代繼續搜索更優解,當不存在更優解的時候,則停止搜索,完成狀態更新,獲得優化問題的第一階段求解[19-20]。

MCA算法第一階段基于模擬人類的搜索行為,主要由自利行為、全局收益最大化、不確定性推理等組成:① 自利行為[21]。智能體系統通過協同機制完成復雜任務,其協同方式是基于自身利益進行狀態的改變,根據歷史經驗向最佳位置移動。② 全局收益最大化。全局收益最大化可以促進個體與全局之間的協同,通過態勢共享、信息交互、歷史經驗交互、基于一個共同的全局收益不斷優化自身的行動[22]。③ 未知行為推理。針對最優解獲取問題,常采取集中搜索,即縮小較優鄰域,繼而采用自適應機制搜索領域內的最優解。在這種不確定性問題求解中,一般人類的思維是構建模糊系統,基于這一特點,利用人類對于行為控制和語言描述的模糊性特點構建模糊系統,同時制定模糊推理規則[23-24]。

MCA算法第二階段基于第一階段對多智能體系統進行迭代優化后,進一步提升優化效果。對系統內智能體參數進行比較,適當修改智能體的個別或者部分參數,對智能體采取變異操作,觀測變異后的智能體能力是否有所提高,如果有所提高則保留修改,反之能更換參數進行修改,繼而增強全局搜索能力。當智能體系統能力趨于收斂時,則將智能體系統重新迭代會至第一階段,如此反復,直至智能體系統能力趨于平穩,從而獲得多智能體協同優化問題的全局最優解[25-26]。

接下來將對MCA算法進行基本流程的表述,進一步清晰地構建算法模型。

2.2 算法基本流程

MCA[27]以自身為中心采取全局利益最大化行為,必要時犧牲自身利益,從而確定下一狀態。當獲取局部最優狀態后,以此時的多智能體系統作為初代群,按照一定的概率對智能體內部的參數進行修改,完成變異操作,根據貪婪準則進行淘汰與保留,實現群進化。進化后重新進行狀態轉移,如此反復趨于收斂,直至獲得全局最優解。

2.2.1 適應度函數的選取

MCA算法在搜索進化過程中僅僅以適應度作為指標參數評價智能體個體的能力強弱,并作為智能體狀態轉移的重要依據之一,使得解逐步靠近最優解。定義誤差的絕對值作為最小目標函數,引入控制變量防止解空間過大導致過擬合,則目標函數為

(5)

式中,e(t)為誤差項;w1、和w2分別為權值常數,取值范圍為[0,1];u(t)為輸出項。

2.2.2 學習步長確定

MCA的不確定推理采用正態分布表示學習步長的模糊變量:

uA=e-(x-u)/2δ2xuδ

(6)

式中,uA為基于高斯的隸屬函數度;x為輸入變量;u和δ為隸屬函數參數。根據線性隸屬函數,使隸屬度與目標函數值成正比,定義umax=1;umin=0.003,則當u<1時,其不確定推理可表示為

ui j=rand(ui, 1)

(7)

式中,ui j是j維空間基于目標函數值i的隸屬度;ui是基于目標函數值i的隸屬度。根據行為預測推理可得步長:

(8)

式中,ai j是j維學習空間的學習步長,此時求解δi j高斯隸屬函數參數如下:

(9)

式中, iter和itermax分別是當前迭代次數和最大迭代次數;xmax、xmin分別是多智能體系統中的極大極小函數值;w是慣性權值。

2.2.3 狀態轉移方向確定

通過對智能體的自利行為、全局收益最大化、不確定性推理的分析與建模,可以得到第i個智能體的自利方向di,ego(t)、全局收益最大化方向di,alt(t)和不確定性推理方向di,pro(t),具體表示如下:

(10)

對上述3個因素進行隨機加權,最終可得狀態轉移方向:

di, j(t)=sign(ωdi,ego(t)+φ1di,alt(t)+φ2di,pro(t))

(11)

式中,xi(t1)和xi(t2)分別是{xi(t-2),xi(t-1),xi(t)}中的最優狀態函數值。

2.2.4 智能體狀態更新

確定學習步長與狀態轉移方向后,對智能體進行狀態更新:

(12)

2.2.5 多智能體系統群進化

(1)變異

(13)

(2)交叉

即利用交叉算子生成新的智能體作為候選項與初代進行比較,其二項式表達為

(14)

(3)選擇

本章的選擇操作基于貪婪準則,根據目標函數的適應度作為參考指標,并將適應度更優的智能體替換原有的智能體并迭代到新的智能體系統中。具體數學表示如下:

(15)

式中,f(·)為適應度函數,一般將所要優化的目標函數為適應度函數。

2.3 MCA算法流程設計

MCA算法通過獲取社會經驗和個體認知經驗,并結合群智能體的自組織行為將分布式協同作戰環境下的多智能體系統[28]作為初代群,計算群內每個個體的適應度函數,確定其學習步長,通過對智能體的自利行為、全局收益最大化、不確定性推理的分析與建模確定其轉移方向之后再更新智能體狀態,再對初代群進行變異操作之后,將多個初代智能體按照一定的規則進行交叉重組生成新的智能體,實現群進化。再如此反復循環,直至獲得全局最優解。具體流程圖如圖1所示。

圖1 MAC算法流程圖

MAC算法的基本步驟如下。

步驟 1根據數學模型,確定智能體系統的適應度函數,即目標函數。

步驟 2初始化MAC算法的基本參數,即智能體系統中智能體的個數、角色、能力、約束限制、空間維數、群規模NP、縮放因子F、變異因子CR、空間維數N等。

步驟 3令t=0初始種群,隨機定義s個初始坐標:

{xi(t)|xi(t)=(xi1,xi2,…,xi j,…,xiM)}

(16)

式中,i=1,2,…,s;j=1,2,…,M;M是解的維數。

步驟 4評估并確定狀態轉移策略:計算每個智能體i的目標函數值與其在維度j的狀態轉移方向di, j(t)及學習步長αi, j(t)值。

步驟 5狀態轉移:令t=t+1,按照公式計算更新智能體狀態。

步驟 6根據適應度函數判斷是否停止智能體狀態更新,當適應度函數趨于平穩時,則對多智能體系統進行進化操作。

步驟 9終止算法判定:當進化后的多智能體系統適應度函數值達到最優且趨于平穩則轉至步驟3,直至全局適應度趨于平穩,停止算法,輸出結果。

其中,每次狀態轉移的步長t分別計算每個智能體i在j的轉移方向di j(t)和學習步長αi j(t),且αi j(t)≥0,di j(t)∈{1,0,-1},i=1,2,…,s;j=1,2,…,M。按照公式進行狀態更新,通過不斷更新智能體狀態,獲得更好的狀態函數值。接著對智能體系統采取變異進化操作,如此反復迭代,直到達到算法終止條件,得到較好的結果。

2.4 MCA算法實現

基于前文對算法原理的分析,本論文采用MCA算法對指揮控制系統進行多智能體協同優化模型進行求解。在對多平臺協同問題進行求解的基礎上,通過對每個目標進行優化、變異、交叉、選擇等步驟建立最優解集,最后生成決策方案。

MCA流程如圖2所示,將每一個作戰單元視為一個智能體,通過計算個體自利行為、全局收益最大化等更新計算個體,使得種群最優個體隨著迭代次數更新保存下來。具體求解步驟如下。

圖2 算法實現過程

步驟 1初始化算法參數。即智能體系統中智能體的個數、角色、能力、約束限制等。

步驟 2計算每個智能體個體在每個維度的搜索方向與學習步長。

步驟 3個體更新。

步驟 4初始化種群。在可行解域內隨機產生s個初始位置,每個智能體種群個體為

{xi(t)|xi(t)=(xi1,xi2,…,xi j,…,xiM)}

(17)

步驟 5變異操作。對初始化智能體種群進行變異操作,得到變異智能體與候選智能體。

步驟 6交叉操作。對變異智能體進行交叉,從父代智能體與變異智能體中選出最優的遺傳到下一代的基因。

步驟 7選擇操作。對當代個體的適應度進行選擇。

步驟 8當進化后的多智能體系統適應度函數值直至全局適應度趨于平穩,停止算法,否則返回步驟3。

步驟 9生成并判斷選擇最優解集合。

3 多智能體指控系統的訓練網絡

3.1 訓練網絡結構

本節將介紹多智能體指控系統的強化學習訓練網絡設計,主要分為對訓練網絡結構與其中部分重點問題的解析,以及對多智能體系統的協同演化訓練算法的設計。針對其中的博弈決策、協同進化算法進行介紹,后文將對該部分內容進行優化與深入研究,使本文設計的多智能體指控系統可以更符合分布式協同作戰環境。

其中多智能體指控模型的神經網絡結構如圖3所示。網絡結構可以劃分為3部分:態勢輸入,決策計算,決策輸出。態勢輸入數據分為4類:第一類為紅方要地的狀態,包括要地基本信息,要地正在受攻擊的狀況;第二類為紅方防空營的狀態,包括防空營當前的配置情況,雷達的工作狀態,發射車的工作狀態,雷達受攻擊的狀況,防空營能夠打擊的敵方單位信息;第三類為敵方單位的狀態,包括敵方單位基本信息,被紅方導彈攻擊的狀況;第四類為可被攻擊的敵方單位的狀態,包括可被紅方防空營打擊的狀況。每類數據的單位數量不固定,隨著戰場形勢而變化。決策計算部分:每類態勢數據各自經過兩層全連接網絡提取出態勢特征,然后全部組合連接起來組成全局態勢特征,再經過一層全連接網絡進行決策推理,再經過一個門控循環單元(gated recurrent unit, GRU)層保留需要記憶的數據。

圖3 訓練網絡結構

決策輸出部分:GRU層一方面輸出動作謂語,另一方面與備選敵方單位計算attention分數,輸出動作賓語。

3.1.1 門控循環單元網絡

門控循環單元網絡是循環神經網絡中的一種。在原有基礎上,引入門機制作為信息更新的方式。在雙向循環神經網絡中,輸入門和遺忘門是互補關系,用兩個門的比值作為冗余。GRU將輸入門與和遺忘門結合生成新的門機制:更新門。同時,GRU直接定義當前狀態ht和歷史狀態ht-1之間存在線性依賴關系。

(18)

GRU網絡的隱狀態ht更新方式為

(19)

式中,z∈[0,1],定義為更新門,用來判斷當前狀態是否保留上一狀態的部分信息,以及是否更新候選狀態信息,且Zt=σ(Wzxt+Uzht-1+bz)。

當zt=0時,當前狀態ht和上一狀態ht-1之間不存在線性關系。若同時存在zt=0,r=1時,GRU網絡退化為普通的循環網絡;若同時存在zt=0,r=0時,當前狀態ht只和當前輸入xt相關,和上一狀態ht-1無關。圖4是GRU循環單元結構。

圖4 GRU單元

3.1.2 狀態數據的標準化與過濾

狀態數據標準化是輸入網絡之前的一個必要步驟。狀態的原始數據包含各類數據:例如雷達車位置、飛機速度、飛機載彈量、敵方單位的威脅度等。此類數據的單位和量級各不相同,在輸入神經網絡之前,必須進行歸一化處理。戰斗過程中,某些作戰單位后來加入戰局中,某些單位被打掉,其數據就沒有了,神經網絡需要兼容這些情況。

不同單位在不同時間點有不同的狀態,因此決策選擇某些單位執行某項任務時,需要剔除那些在此時間點上不能執行此項任務的參戰單元。例如,導彈發射車兩次發射導彈之間必須有一定的時間間隔,導彈車必須連接上雷達車才能發射導彈。

3.1.3 偏好度機制與目標選擇

偏好度機制是一種讓智能體在某個時間點重點關注某些信息,忽略其他信息的機制,它能夠讓智能體在局部區域更快速更精確的做出更優的決策。

當神經網絡面臨大量輸入的態勢信息時,也可以借鑒人類的注意力機制,只選擇一些關鍵的信息進行處理,偏好度機制也可稱為注意力網絡。模型中,我們可以將最大匯聚、門控機制來近似地模擬,看作是自下而上的基于顯著性的注意力機制。除此之外,自上而下的會聚式注意力也是一種有效的信息選擇方式。以輸入大篇文字為例,給定一篇文章,然后對其內容進行提取并假設一定數量的問題,提出的問題只和文中部分內容相關,與其余部分無關。為降低解算壓力,僅需要把挑選相關內容讓神經網絡進行處理。

定義X=[x1,x2,…,xN]為N個輸入信息,首先計算在給定q和X下,選擇第i個輸入信息的概率ai,則定義ai為

(20)

式中,ai為注意力分布;s(xi,q)為注意力打分函數,計算模型如下:

(1)加性模型:s(xi,q)=vTtanh(Wxi+Uq);

(21)

此公式稱為軟性注意力機制,圖5給出軟性注意力機制的示例。在防空反導紅藍對抗的場景下,計算動作中的主語和賓語均可以采用注意力機制。例如在計算賓語時,輸入數據x為當前可選的所有敵方目標,而q為網絡前面部分輸出的查詢向量。

圖5 偏好度機制

3.2 多智能體指控系統的協同訓練算法

3.2.1 就近策略優化算法

就近策略優化(proximal policy optimization,PPO)屬于Actor-Critic強化學習優化算法中的一類[29],其與Q-Learning等value-based方法不同,它是直接通過優化策略函數,計算累積期望回報的策略梯度,從而求解出使得回報整體最大化的策略參數。

定義PPO的累積期望回報的目標函數為

(22)

式中,

(23)

At為優勢估計函數:

s.t.δt=rt+γV(st+1)-V(st)

(24)

算法1 PPO算法描述初始化策略參數θ,θold重復每輪更新重復每個Actor重復T步每步使用舊的策略參數θold產生決策計算每一步中的優勢估計A迭代K步求解累積期望回報函數的策略梯度,每次使用小批量數據用策略梯度更新θ策略參數更新新的策略參數至θold

算法1中的θold與θ分別指的是策略近似函數的舊參數與新參數,也可描述為更新前的策略函數與當前新的策略函數,PPO的主要思想是在舊策略函數的基礎上進行多次更新,但又不讓更新后的策略偏離原來的策略函數過大。

在每次迭代中,算法并行運行N個Actor,每個Actor運行T步,共收集NT步的數據,在每一步中會計算優勢估計A1…AT。在完成數據的獲取后,將會用來更新策略參數,其中累積期望回報的目標函數如上面的L(θ)。在每輪中更新時迭代K次,每次選擇小批量的數據集,M≤NT。

3.2.2 協同行為的馬爾可夫決策過程

傳統的多智能體協同決策研究[30]主要集中在基于模型的研究上,即理性智能體研究。傳統的研究存在過于依賴背后模型準確度等缺點,只關注從模型到執行器的設計,而不關注模型的產生過程。智能對抗環境中,智能體種類多樣,對于多智能體難以獲得精準的決策模型,且復雜的任務環境和態勢擾動,環境模型呈現一定的隨機性和時變性,這些都需要研究智能體模型在信息缺失下的控制方法(見圖6)。

圖6 多智能體協同行為決策模型研究框架

此研究框架中,其實質是在轉移概率模型未知的條件下求解馬爾可夫決策過程(Markov decision process, MDP)[31]問題。

設MDP四元素(S,A,r,p):狀態(S),動作(A),獎勵函數(r),轉移概率(p);馬爾可夫性:p(st+1|s0,a0,…,st,at)=p(st+1|st,at);策略函數π:S→A或π:S×A→[0,1];

優化目標:求解最優的策略函數π*,最大化期望累積獎勵值:

s.t.st+1～p(·|st,at),at～π(·|st),t=0,…,T-1

(25)

其方法是利用強化學習算法在p(st+1|st,at)未知情況下求解MDP,核心思路是采用時間差分算法估計動作-值函數:

(26)

Qπ(st,at)←Qπ(st,at)+

α[r(st,at)+γmaxaQπ(st+1,a)-Qπ(st,at)]

(27)

π′(s)=argmaxaQπ(s,a)

(28)

在該研究框架下,對于智能體狀態進行了設計,滿足合理性、完整性等條件。合理性要求物理意義相近的狀態在數值上差異也較小,以發射車的發射角度θ為例,由于θ是周期性變量,直接將θ作為狀態的一部分存在數值不合理性,應將發射角θ→[cosθ,sinθ]。

完整性要求狀態包含了智能體決策需要的所有信息,比如智能體的軌跡追蹤問題中,需要加入目標軌跡的趨勢信息,但是如果這一信息無法觀測,則需要擴充狀態包含歷史的觀測值,如艦船的觀測尾跡。

對于智能體行為決策的獎勵函數進行了設計,根據實際任務中不同的控制目標進行設計,如最高精度、最小損傷、最短反應時間、攔截與條件限制等。

如某智能體獎勵函數:

ρ3w2(攔截概率限制)+ρ4q2(其他條件約束)+

uTRu(最大生存概率)]

(29)

對于智能體的動作進行了設計,根據施加控制量的數值特點設計離散或連續的動作值。

3.2.3 協同行為決策中的策略梯度

建立協同行為MDP決策模型,定義了MDP中的狀態、動作、獎勵函數之后,多智能體的控制問題就轉化成求解一個MDP過程,即尋找最優的策略π*。

由于智能體的運動通常采用連續的物理變量描述,因此建模的MDP也是狀態連續,動作連續的,此類問題適合采用策略梯度求解。

連續動作空間情況下,假設一個參數化的策略函數πθ(a|s),沿著優化目標的梯度更新θ,保證每步迭代獲得一個“更好”的策略,傳統的策略提升步驟效率很低。

隨機策略梯度理論中策略函數形式滿足隨機分布的形式πθ(a|s),其優點是采用隨機的策略函數形式自帶探索機制,不容易陷入局部最優,但是策略函數的形式一般受限。確定策略梯度理論的策略函數形式為確定的函數a=μθ(s),其優點是策略梯度形式簡單,確定的函數形式更靈活,易與神經網絡結合,缺點是需要人工添加噪聲來提供探索機制。

兩種策略函數形式的策略梯度均滿足某個分布的期望形式—隨機逼近。策略梯度轉化為如何沿著實驗軌跡采樣獲得{s_1,a_1,s_2,a_2,…s_N,a_N}的問題。采樣過程中,樣本不獨立,存在時序相關性。采用不獨立樣本估計的期望可能不是無偏的。可以設計一個經驗池R存儲每次實驗采集的轉移數據,計算策略梯度時從經驗池中隨機抽取N組樣本。

當前深度強化學習算法基于actor-critic策略,構建迭代更新的(環境、動作、反饋、策略),重點解決反饋函數的構建、策略更新機制。當前滿足實踐檢驗的智能體策略演進機理分為多智能體深度Q值網絡(multi-agent deep Q network, MADQN)、智能體深度確定策略梯度(multi-agent deep deterministic policy gradient, MADDPG)以及智能體近似策略優化(multi-agent proximal policy optimization, MAPPO)3類算法。

4 算法一體化應用

4.1 測試函數與參數設定

本章選定RosenBrock函數作為測試MCA的標準測試函數,函數如表1所示。

表1 無約束優化測試函數

4.2 結果分析

本文選取的實驗數據是公共數據集中的部分算例,參數設定為:初始種群個數為500,交叉概率為0.8,變異概率為0.1。圖7是MCA算法的收斂趨勢函數。從圖7可以看出,當迭代到4×103左右時,種群多樣性短暫平穩,迭代到10×103左右時,多樣性函數進行平穩狀態,迭代10×103～30×103,函數值存在短暫振蕩,但是大體平穩,但是當迭代到30×103時,算法函數值下降至7.7左右,并趨向于平穩。MCA算法能夠有效的維持種群的多樣性,避免了算法早熟收斂,極大程度提高了算法的搜索性能。接下來將以損失值作為研究對象,通過分析損失值的變化特性驗證算法的可靠性,具體如圖8所示。

圖7 MCA收斂趨勢

圖8 算法損失值迭代分析

通過分析可知:隨著迭代次數增加,損失值呈跌宕遞減,但是總體平均值呈遞減趨勢,當迭代到1 500×103左右時,損失值開始趨于平穩。由此可以證明算法的可靠性,提高了原有多智能體系統處理復雜任務的效率。

5 指控系統仿真

5.1 仿真戰場環境

智能體在訓練過程中需要與環境交互,這也是限制軍事智能發展的主要原因。因此,必須將物理環境較好地映射到虛擬環境中,針對性的打造數字戰場,提供仿真訓練的基礎保障,本文空地對抗數字戰場要素設置如下。

5.1.1 紅方兵力設置及能力指標

(1)保衛要地2個:指揮所、機場;

(2)預警機1架:探測范圍400 km;

(3)遠程火力單元組成:1輛遠程火控雷達車(可同時跟蹤8個藍方目標,制導16枚防空導彈,最大探測距離200 km,扇區120°)、8輛遠程導彈發射車(可兼容遠程/進程防空導彈,每輛發射車裝載3枚遠程防空導彈和4枚近程防空導彈);

(4)近程火力單元組成:1輛近程火控雷達車(可同時跟蹤4個敵方目標,制導8枚防空導彈,最大探測距離60 km,扇區360°)、3輛近程導彈發射車(每輛發射車裝載4枚近程防空導彈)。

若火控雷達被摧毀,該火力單元失去作戰能力;制導過程雷達需要全程開機;開機時會輻射電磁波,從而被對手捕捉,暴露自身位置;火控雷達受地球曲率及地物遮蔽等物理限制,存在盲區。

防空導彈飛行軌跡為最佳能量彈道,攔截遠界為160 km(遠程)、40 km(近程)。針對無人機、戰斗機、轟炸機、反輻射導彈、空對地導彈在殺傷區的高殺傷概率為75%,低殺傷概率為55%,針對巡航導彈在殺傷區的高殺傷概率為45%,低殺傷概率為35%。

由4個遠程火力單元加3個近程火力單元扇形部署保衛紅方指揮所,由2個遠程火力單元加3個近程火力單元扇形部署保衛紅方機場。共12個火力單元,144枚遠程導彈,264枚近程導彈。

5.1.2 藍方兵力設置及能力指標

(1)巡航導彈:18枚;

(2)無人機:20架,每架攜帶2枚反輻射導彈和1枚空對地導彈;

(3)戰斗機:12架,每架攜帶6枚反輻射導彈和2枚空對地導彈;

(4)轟炸機:4架;

(5)反輻射導彈射程110 km,命中率80%;空對地導彈射程60 km,命中率80%;

(6)干擾機:2架,進行防區外遠距離支援干擾,干擾扇區15°,紅方雷達受到干擾后,降低一半殺傷概率。

5.1.3 對抗過程

藍方共展開3個波次的進攻,第一個波次由18枚巡航導彈分為兩條突防路線攻擊指揮所及機場,巡航彈飛行高度100 m進行超低空突防,受地球曲率影響,紅方火控雷達截獲目標的距離僅有40 km左右。因此,需要紅方合理規劃資源,在保證攔截的同時,盡可能減小彈藥消耗。巡航導彈超低空突防如圖9所示。

圖9 巡航導彈超低空突防

第二波次為20架無人機掩護下12架戰斗機超低空突防攻擊要地,同時摧毀暴露的防空陣地。如圖10和圖11所示。

圖10 無人機突防

圖11 發射反輻射導彈

對于更具有對抗性第二個波次進攻,將增強藍方的對抗性。如圖11所示,戰斗機在無人機的掩護下突防。無人機飛行高度在2 000～3 000 m之間,誘使紅方火控雷達開機,戰斗機在100～150 m的超低空突防(受地球曲率保護,在火控雷達盲區安全飛行)。如圖12所示,當紅方火控雷達開機后,戰斗機爬升到達擊區域,與紅方火控雷達形成通視,發射反輻射彈攻擊;攻擊之后下降高度機動逃逸,進入游獵狀態,組織再次攻擊。對于紅方而言,防御壓力很大,既要攔截無人機和戰斗機,也要攔截所有作戰飛機發射的大量空對地導彈和反輻射彈。由于紅方火控雷達跟蹤目標數量及制導導彈數量受限制,資源很容易進入飽和狀態。這時,第三波次的4架轟炸機緊隨其后,突防轟炸保衛要地。如圖13所示。

圖12 機動逃逸

圖13 轟炸機突防

5.2 系統訓練數據演示

本節將從強化學習網絡、全局收益函數、全局損失函數3個方面對系統進行演示分析,當迭代次數為2 500～3 000×103之間,基本達到全局收益最大值,并趨于平穩。由圖14可得出結論,隨著訓練迭代進行,全局收益由一個低水平持續一段時間后逐漸遞增,期間存在小范圍的跌宕,最后達到全局收益最優點,并趨于收斂。具體如圖14所示。

圖14 全局收益函數

圖15為強化學習網絡的圖形化展示,對強化學習網絡進行三維的坐標系建立,圖中每個點都代表智能體的一個性能指標,所處位置則代表該指標的具體參數值,代表此時智能體的狀態函數。隨著迭代次數增加,智能體進行狀態轉移,點的坐標信息也會隨之發生變化,本文指控系統中針對多智能體系統共定義兩千余參數,具體由圖15所示。

圖15 訓練學習網絡

隨著迭代次數增加,全局收益增加,隨著對應的全局損失值逐漸減小,當算法趨于全局最優時,損失函數趨于平穩,存在小范圍浮動,函數變化軌跡與圖14相對應,以保證戰場態勢總量不變。具體損失值函數如圖16所示。

圖16 全局損失函數

由圖16可以得出,迭代初始,損失值呈快速下降的趨勢,當迭代到500～1 000×103時,損失值開始小幅度跌宕,但是平均值緩速下降,當迭代到1 500×103左右時,損失值開始趨于平穩,達到全局損失函數最小值。

6 結論

本文基于分布式協同作戰的復雜任務處理過程中效率過低的問題,對多智能體系統設計了協同進化算法,構建了對應的狀態轉移方程并確定了學習步長,最后對算法模型進行了損失值的仿真實驗,證明了算法的可靠性,并將此算法作為指控模型仿真中的核心算法之一。