基于強化學習的集群多目標分配與智能決策方法

2021-11-01 09:32:58朱建文趙長見李小平包為民

兵工學報 2021年9期

朱建文，趙長見，李小平，包為民,3

(1.西安電子科技大學空間科學與技術學院，陜西西安 710126; 2.中國運載火箭技術研究院，北京 100076；3.中國航天科技集團有限公司，北京 100048)

0 引言

隨著導彈信息化與體系化能力的提升，其攻擊模式由單一攻防作戰(zhàn)拓展到多對多的群體協(xié)同對抗與博弈。多彈協(xié)同攻擊能夠充分利用分散的作戰(zhàn)資源以及信息共享，是提升打擊能力與突防能力的有效途徑。針對多目標的分配與決策直接決定著體系的攻防性能，是協(xié)同攻擊的關鍵技術之一[1]。

多目標決策與分配需要根據實時的攻防態(tài)勢，對集群中的每個成員參與攻擊與否進行決斷，并分配合理的待攻擊目標。攻防性能評估是目標分配的基礎條件，可利用彈目相對運動信息來評估制導的難易程度以及攻擊性能，而目標的威脅度可基于自身價值與運動特性來評估[2-3]。集群決策與分配是一個以攻防性能評估結果為模型、以攻防性能最大為性能指標的尋優(yōu)過程[3]。傾向性和主觀性是集群攻防性評估不可避免的因素，為此劉樹衎等[4]綜合利用專家系統(tǒng)與神經網絡構建行為決策基礎模型，進而建立智能指揮系統(tǒng)以優(yōu)化目標分配。另一種典型方法是將分配問題轉換為數學規(guī)劃問題，進而利用枚舉法、分支界定法或整數規(guī)劃來求解[5-6]。然而，隨著攻防雙方規(guī)模的增加，尋優(yōu)的復雜度會急劇增大，導致計算耗時呈指數型增長[7]。因此，具有靈活性、自適應能力強以及計算相對簡單的智能優(yōu)化方法，在求解復雜多目標決策與分配中具有較大的優(yōu)勢，遺傳算法與粒子群優(yōu)化(PSO)算法為其典型代表[8]。PSO算法利用種群中個體運動位置和整體最優(yōu)位置的記憶與學習，在解空間中朝著最優(yōu)的方向運動，該算法相對于遺傳算法具有更高的計算效率，但其精細程度與全局搜索能力不足[9-10]。

高動態(tài)的集群攻防為決策的最優(yōu)性與實效性提出了極高的需求，其復雜多變的攻防態(tài)勢需要進行多次在線決策與分配。上述優(yōu)化方法在計算效率、全局最優(yōu)性以及多次決策的繼承性上存在不足。集群決策與目標分配中能夠影響攻防性能的分配矩陣是離散的，而且多目標決策與分配滿足馬爾可夫決策過程[9]。本文利用強化學習對集群攻擊的導彈選取以及目標分配矩陣進行決策判斷，具體包含攻防性能評估、非線性攻防效費比指標構建、強化學習框架的搭建、離散化動作空間、狀態(tài)空間以及獎勵函數的設計。

1 綜合攻擊性能評估

以多發(fā)導彈對地球表面運動的目標群進行協(xié)同攻擊為背景，對其攻擊性能進行評估。多對多的攻防態(tài)勢包括導彈自身的攻擊優(yōu)勢度以及目標的威脅度[3]。在攻擊優(yōu)勢度中，主要考慮彈目相對角度、距離以及速度的優(yōu)勢模型；目標的威脅度可基于固有特性與運動信息來評估。

1.1 基于相對運動信息的攻擊優(yōu)勢度評估

1.1.1 攻擊角度優(yōu)勢度評估

由于導彈在攻擊目標時需要滿足速度傾角約束并消除航向誤差，攻擊角度優(yōu)勢度評估需要綜合考慮速度傾角與方位角。在縱向通道，當實時速度傾角與終端約束相等時，制導越容易實現，意味著攻擊優(yōu)勢度隨角度差的減小而增大。在側向通道，導彈制導的主要目標為消除航向誤差Δσ，因此該誤差的絕對值越大，制導任務越艱巨。相反地，若Δσ=0，則導彈對該目標的優(yōu)勢最大。因此，可構造角度優(yōu)勢模型為

(1)

式中：θ為速度傾角；θf為終端速度傾角約束；σ為速度方位角；σLOS為視線方位角；SMθ與SMσ分別為基于速度傾角θ與方位角σ的攻擊優(yōu)勢度。

1.1.2 相對距離優(yōu)勢度評估

導彈與目標之間的距離必然影響制導指令的生成與打擊目標的實現，當距離過近時導彈的反應時間太短，為制導指令的執(zhí)行帶來了巨大壓力。相反，當距離太遠時導彈的探測精度受到不良影響，并且過大的能量損耗也將影響打擊任務的完成。因此，相對距離的優(yōu)勢模型可構造為

(2)

式中：SMr為基于彈目距離的攻擊優(yōu)勢度；r為彈目距離；R0為綜合考慮探測能力與機動能力而確定的距離。(2)式中基于距離優(yōu)勢度評估的物理意義為：當導彈與目標的距離為R0時優(yōu)勢最強；彈目距離與R0相差越大，則優(yōu)勢越弱。

1.1.3 攻擊過載優(yōu)勢度評估

由于導彈的機動與控制能力直接體現在可用過載上，并且過載能夠同時包含彈目相對角度、距離以及速度大小。因此，本文進一步引入過載為變量，以表征導彈對不同目標的優(yōu)勢度。具體方法如下：基于導彈當前的飛行狀態(tài)與目標信息，采用最優(yōu)制導方法計算導彈在側向的需要過載指令。過載指令越大，意味著待飛時間越短、打擊任務更加艱巨，過大的過載指令將超過導彈的控制能力，導致打擊任務失敗。越小的過載指令意味著越小的控制能力需求以及更加平直的彈道，但是平直的彈道將降低突防性能。因此，基于過載的優(yōu)勢模型為

(3)

式中：SMn為基于過載的攻擊優(yōu)勢度；n為過載；n0為基于控制能力確定的過載基準量，n0>0g.

1.2 基于目標固有信息的威脅度評估

目標群中不同目標具有不同的戰(zhàn)略價值與威脅程度，對于重要目標應當分配更多的導彈進行打擊，以增強打擊效果。本文考慮了易于獲取的目標體積信息與速度信息作為威脅度評估的標準，體積代表彈載量與威脅度，速度表示目標的動力與機動性能，進一步將二者加權平均以綜合評估目標威脅度，用于后續(xù)的目標分配。

1.2.1 目標體積威脅度評估

不同體積的目標具有不同的作戰(zhàn)性能以及威脅程度，目標體積越大，則受威脅程度越大。因此，基于體積信息的目標威脅模型可構建為

(4)

式中：SΓt為基于體積的目標威脅度；Γtj為第j個目標的體積大小；Nt為目標的數量。目標體積威脅模型(4)式的物理意義為：獲取所有目標的體積，則第j個目標的威脅度可用其在整個目標群中的體積占比來表述。

1.2.2 目標速度威脅度評估

目標的航行速度對其威脅程度存在較大影響。目標的機動性能隨速度的增大而增大，但由于目標動力性能的限制，過大的速度意味著目標在體積與質量上存在不足。因此基于速度信息的威脅模型為

(5)

式中：Svt為基于速度的目標威脅度；vt為目標的實際航行速度；vt0為預先設定的速度。目標速度威脅模型(5)式的物理意義為：當目標速度為vt0時，越具有威脅性，過大或過小的速度都將降低威脅度。

1.3 綜合攻擊優(yōu)勢度評估

基于攻擊優(yōu)勢模型與目標威脅模型，可建立用于目標分配的綜合攻擊優(yōu)勢度模型如下：

S=Sa+St，

(6)

式中：Sa為攻擊優(yōu)勢度模型，

(7)

kθ、kσ、kr、kn為加權系數，不同參數設置對應不同的重要程度；St為基于目標體積與速度的威脅度模型，

(8)

kΓ、kv分別為體積與速度的加權系數。針對上述模型，需要給出以下3點說明：

1)不同加權系數意味著不同的關注度，可根據具體攻擊任務進行設計；

2)針對不同目標需要考慮的因素存在差異，該模型主要針對地球表面航行的大型目標群；

3)除上述威脅模型外，還可根據需要考慮目標電磁輻射情況、預設目標的重要程度以及其他能夠反映目標特性的重要因素。

2 攻防一體性能指標構建

多目標分配與決策需要以綜合攻擊優(yōu)勢度S為基礎，通過優(yōu)化方法獲得分配矩陣X，實現攻擊性能的最大化。首先，只考慮導彈運動信息與目標固有信息建立如下線性攻擊性能指標：

(9)

式中：Jl,a為攻擊性能指標；NM與NT為導彈與目標的數量；Sij為導彈i對目標j的量化綜合攻擊優(yōu)勢度；Xij為導彈群對目標群分配矩陣中的元素。評估模型(6)式與性能指標(9)式構成了典型的整數規(guī)劃問題，可利用內點法等方法進行尋優(yōu)求解[6]。

進一步考慮導彈的突防概率，建立目標的毀傷性能指標：

(10)

式中：Jo,d為毀傷性能指標；Stj為第j個目標的價值；Pij為導彈i對目標j的突防概率(0～1之間取值)。另外，導彈攻擊必然造成導彈的消耗，因此導彈協(xié)同攻擊的成本指標為

(11)

式中：Jc為導彈消耗指標；ci為導彈i的成本。綜合考慮Jl,a、Jo,d以及Jc，則可得協(xié)同攻擊的綜合效費性能指標為

maxJt=[Jl,a,Jo,d,Jc].

(12)

指標(12)式的目的是獲得最大的效費比，但其中包含兩個相互矛盾的性能指標：Jl,a與Jo,d的目標是獲得最大的攻擊與毀傷性能，Jc的目標是獲得最小的攻擊成本。因此，進一步引入效費比來描述單一導彈的效能，將(12)式中的兩個性能指標進行整合，進而利用整合之后的單一性能指標進行優(yōu)化設計。其中：

攻擊效費比指標Ja為

(13)

毀傷效費比指標Jd為

(14)

攻防效費比指標Jt為

(15)

性能指標(15)式的物理意義為：基于矩陣形式的綜合攻擊優(yōu)勢度S、突防概率Pij以及導彈的成本ci，確定相同維度的分配矩陣X，使得性能指標(15)式即攻防效費比最大。在協(xié)同攻擊的多目標分配與決策過程中，必須滿足的約束模型為

(16)

約束模型(16)式的物理意義為：目標分配結果以分配矩陣的形式表征，被攻擊的目標標記為1，否則標記為0，即目標分配矩陣X的元素只能夠是{0,1}中的某一值。由于每一發(fā)導彈最多只能攻擊一個目標，矩陣中的每一行元素數值之和必為1.另外，需要保證每一個目標至少分配1發(fā)導彈進行攻擊，并且目標分配矩陣中每一列元素之和不小于1，且分配至某一目標的導彈數量最多為Tj.

3 基于強化學習的多目標分配

性能指標(15)式是嚴格的非線性方程，本文利用強化學習方法實現多目標的智能分配。強化學習又稱再勵學習、評價學習或增強學習，該方法需要智能體與環(huán)境進行反復信息交互，通過學習策略或規(guī)則實現回報或指標的最優(yōu)化[11]。

3.1 強化學習與Q-Learning邏輯

強化學習是一種試探、評價與更新的過程，智能體選擇一個動作作用于環(huán)境，環(huán)境在執(zhí)行完動作之后產生回報(獎勵)信號發(fā)送至智能體，該信號包含對動作的定量評價；不同的動作對應不同的獎勵值，智能體在接收回報信號之后，選擇下一動作以獲得更大的獎勵[12]。

強化學習是迭代優(yōu)化的過程，包含值迭代與策略迭代。Q-Learning是強化學習最常用的值函數迭代更新方法，設Q(s,a)為狀態(tài)行為值函數，其物理意義為在當前策略π下，當前狀態(tài)s與動作a對應值函數的具體取值[13]。若狀態(tài)集合為p維、動作集合為q維，則Q(s,a)為p×q維表格，因此可稱之為Q表。Q-Learning中值函數的更新方法[14]為

(17)

式中：α為值函數迭代的校正系數；γ為折扣系數；R與s′分別為執(zhí)行當前動作獲得的回報值與下一時刻的狀態(tài)。

具體的Q-Learning方法步驟[15]如下：

步驟1人為初始化Q(s,a)表格。

步驟2對于每次學習訓練，給定一個初始狀態(tài)s.

步驟3執(zhí)行以下操作：

①利用當前的Q值，依據策略π，確定當前的行為a；

②執(zhí)行當前的行為a，獲得量化的回報R與下一狀態(tài)s′；

③根據(17)式更新Q表；

④更新當前的狀態(tài)s←s′；

⑤當狀態(tài)滿足終止狀態(tài)時，結束當前回合的學習。

步驟4基于已更新的Q表，重復執(zhí)行步驟3，直至滿足學習次數。

3.2 基于Q-Learning的多目標分配

在多目標分配與決策中，不同形式的0-1分配矩陣對應不同的攻防效費比。由于攻防性能只與當前和未來分配矩陣相關，而與過去的信息無關，因此集群決策與分配矩陣的確定符合馬爾可夫決策過程。根據強化學習與Q-Learning方法的需求，需要根據實際優(yōu)化任務對搭建智能分配模型，設計狀態(tài)與動作空間以及回報函數，并利用典型的ε-greedy學習策略以探索更多的動作[16]?；赒-Learning算法的多目標智能分配流程如圖1所示。

圖1 Q-Learning智能決策迭代計算流程Fig.1 Iterative calculation of intelligent decision by Q-Learning method

圖1給出了多目標智能分配的流程，其核心步驟為行為策略、動作空間、狀態(tài)空間以及獎勵函數的設計。

3.2.1 行為策略設計

采用ε-greedy策略實現多目標分配。為了充分發(fā)揮強化學習的探索和尋優(yōu)能力，利用隨機方法對Q表進行初始化，在學習前期ε可選擇較大，以探索更多的狀態(tài)與動作；在學習后期ε逐漸減小，以使得目標分配在已有經驗基礎上做出正確的動作。

3.2.2 動作空間設計

根據強化學習中對動作空間的定義，動作需要對上述狀態(tài)產生影響。過于復雜的動作空間將增大動作的搜索空間，進而影響學習效率。針對該問題，設計動作為能夠直接影響飛攻防性能的目標分配情況，本文稱為分配向量。分配向量中，某一個具體動作ai表示導彈選擇目標i，即行向量表示的動作ai中，第i個元素為1，其余都為0.若存在NT個目標，則存在NT個具體動作，意味著動作空間為NT維。

(18)式給出了NT維的動作空間，選擇第1個目標的動作1為a1=[1 0 … 0]，相應地選擇第2個目標的動作2為a2=[0 1 … 0]，以此類推。

(18)

3.2.3 狀態(tài)空間設計

狀態(tài)空間是強化學習中必不可少的部分，是反映當前狀態(tài)或者終端狀態(tài)的數據集合，并且必須包含所有可能的狀態(tài)參數取值。本文設計狀態(tài)空間為量化攻防效費比評估值組成的數據集合，基于性能指標(15)式構建攻防效費比函數為

(19)

(20)

進一步將狀態(tài)范圍(20)式離散為等間隔的狀態(tài)空間，進而獲得目標分配的狀態(tài)空間。

3.2.4 回報函數設計

量化的回報函數用來判斷動作的性能，是強化學習的核心。在目標分配中，利用強化學習方法確定分配矩陣以獲得最優(yōu)的攻防性能。因此根據分配需求，設計回報函數如下：

(21)

(21)式中回報函數的物理意義是：當某一動作即目標分配矩陣滿足所有攻擊約束時，回報函數值為實際攻防量化值與最大值1.2倍的差。當不滿足攻擊約束即某一導彈分配了多個目標，或者某一目標未分配到導彈時，給予-5的回報值。

4 多目標決策仿真驗證

采用數值仿真的方法對多目標智能分配與決策進行驗證。在攻擊優(yōu)勢度評估中，設置距離優(yōu)勢模型中的R0=100 km，過載優(yōu)勢模型中的n0=1g，各項的加權系數分別為：kθ=0.2，kσ=0.2，kr=0.2，kn=0.4.在目標威脅建模中，設置(5)式中的vt0=20 m/s，3個目標的速度分別為vtA=25 m/s、vtB=22 m/s 和vtC=20 m/s，歸一化后的體積分別為ΓtA=1、ΓtA=1.2和ΓtA=1.5，加權系數為kΓ=0.6、kv=0.4.各發(fā)導彈屬于同一類型，即c=1.

在強化學習中γ=0.2，采用ε-greedy策略實現決策目標，學習次數NQ-Learning的范圍為1～1 000，時變參數ε=exp(-NQ-Learning/100)。參數ε設置的目的是：在學習前期更大地探索新的動作，在后期則保證學習的最優(yōu)性。

4.1 導彈數量固定的智能分配

設置6發(fā)導彈攻擊3個目標，各導彈對目標的量化綜合攻擊優(yōu)勢度以及突防概率如表1所示。從表1中可見，第1發(fā)導彈M1對目標B最具有優(yōu)勢，對目標C最無優(yōu)勢。

表1 各導彈對目標的量化綜合攻擊優(yōu)勢度與突防概率

選擇表1中前4發(fā)導彈M1、M2、M3、M4攻擊3個目標，利用本文研究的強化學習方法實現目標分配，目標分配矩陣為

(22)

由(22)式可知，慢速航行的大目標C具有較大的威脅度，因此分配矩陣中X12=1,X23=1,X33=1,X41=1，即導彈M2與M3都用于攻擊目標C，以增強整體攻防性能。隨著導彈的飛行，每間隔1 s，共進行10次目標分配，以充分驗證智能方法的有效性，其中第1次與第2次分配的Q-Learning主要結果如圖2、圖3所示。由仿真結果可知，由于第1次學習采用隨機方法對動作以及Q表進行初始化，因此迭代次數較多，在大約600次學習之后才得以收斂，綜合效費比指標Jt為1.735 6. 第2次學習繼承了上一次學習獲得的Q表，該表已經包含了優(yōu)良動的動作信息與回報值，因此迭代次數與收斂速率都有大幅度改進。在經過上百次學習迭代后，Q-Learning能夠精確收斂。

圖2 前兩次分配的累計回報值Fig.2 Cumulative reward values of the first two assignments

圖3 前兩次分配的迭代次數Fig.3 Iteration steps of the first two assignments

在導彈飛行過程中，每間隔1 s，分別采用強化學習與PSO算法實現多目標分配，兩種方法的耗時與指標結果如表2所示(i7 8550處理器，1.99 GHz, MATLAB 2016b仿真環(huán)境)。由表2可知，強化學習與PSO算法都可實現多目標的自主分配，最終的綜合效費比指標完全相同。然而，兩種方法在計算耗時上存在一定差異，初次分配時強化學習方法耗時較長，而后續(xù)分配PSO算法耗時較長。對于初次分配，強化學習方法采用隨機方法進行初始化并探索更多的動作，因此耗時較長。在后續(xù)分配過程中，強化學習能夠繼承初次分配的結果，而PSO算法都需要由相同的初始狀態(tài)出發(fā)進行尋優(yōu)，因此強化學習耗時更短，效率更高。

表2 強化學習方法與PSO算法性能對比

4.2 導彈數量可變的智能決策

表3 協(xié)同攻擊方案與分組

表3中42種攻擊分組情況下的攻防性能指標與效費比指標如圖4～圖9所示。由圖4可知，當不考慮攻擊成本時，攻擊導彈越多，則攻擊與毀傷性能越強。當考慮攻擊成本時效費比性能存在較大差異：圖5中攻擊效費比Ja在第38號編組時達到最大，此時分配5發(fā)導彈M1、M2、M3、M4、M6攻擊3個目標；圖7中毀傷效費比Jd總體上隨著數量的增多而減小；圖9中，綜合考慮攻擊與毀傷性能的攻防效費比Jt在第23號編組時達到最大，此時需要分配導彈M1、M2、M3、M6攻擊目標，相應的目標分配矩陣為

(23)

(23)式中X12=1,X23=1,X33=1,X61=1，其余元素均為0，對應的物理意義是：導彈M1攻擊目標B，M2與M3都用于攻擊目標C，M6攻擊目標A，量化攻防效費比指標為1.756.

圖4 攻擊性能指標Jl,aFig.4 Attack performance index J l,a

圖5 攻擊效費比指標JaFig.5 Attack cost-effectiveness ratio index Ja

圖6 毀傷性能指標Jo,dFig.6 Damage performance index Jo,d

圖7 毀傷效費比指標JdFig.7 Damage cost-effectiveness ratio index Jd

圖8 攻防性能指標Jl,a+Jo,dFig.8 Attack-defense performance index Jl,a+Jo,d

圖9 攻防效費比指標JtFig.9 Attack-defense cost-effectiveness ratio index Jt

5 結論

本文采用強化學習方法研究了復雜多變且高動態(tài)環(huán)境下多目標協(xié)同攻擊智能決策方法，建立了攻防性能評估準則，包括基于相對運動信息的攻擊優(yōu)勢度評估以及基于目標固有信息的威脅度評估。綜合攻擊性能、毀傷性能以及攻擊消耗，設計了攻防效費比性能指標。構建了基于強化學習的多目標決策架構，設計了目標分配的動作空間與狀態(tài)空間，利用Q-Learning方法對協(xié)同攻擊方案，包括導彈的數量、分組選取以及目標分配進行了智能決策。得出以下主要結論：

1)基于相對運動信息與目標固有信息，可實現對攻擊優(yōu)勢度與目標威脅度的評估，結合突防概率模型，可構建攻防效費比指標模型。

2)多目標協(xié)同攻擊的目標是使得攻防性能最優(yōu)化，攻擊導彈的選取以及目標分配的決策結果與性能指標以及決策模型密切相關。

3)強化學習能夠用于協(xié)同攻擊中多目標的在線決策與分配，與PSO算法相比，其計算效率在非初次決策中具有更明顯的優(yōu)勢。

本文研究的是一種基于強化學習的基礎性、通用性的目標分配與智能決策方法。只需要建立矩陣形式的分配模型，便可利用該方法進行分配與決策。