謝俊偉 方 峰* 彭冬亮 任金磊 王昌平
①(杭州電子科技大學自動化學院 杭州 310018)
②(中國運載火箭技術研究院 北京 100076)
為了應對彈道導彈和高超聲速飛行器等目標的威脅,各國相繼發展了由預警探測系統、導彈攔截系統、指揮控制作戰管理系統組成的全球一體化反導防御體系。武器-目標分配(Weapon-Target Assignment, WTA)是導彈防御系統中的核心決策內容,決策人員根據來襲導彈目標的威脅程度和防御系統的攔截彈資源配置情況,按照特定的火力打擊策略,生成火力分配方案,最大限度上發揮防御系統的作戰性能[1]。
WTA問題可以分解為WTA模型構建和WTA優化方法兩部分。由于攔截空域會出現多個來襲目標,因此在建立WTA模型時,首先需要評估來襲目標的威脅程度,確定攔截優先級,并基于此設計多約束條件下的火力分配準則函數。目前,已有的威脅評估方法主要包括層次分析(Analytic Hierarchy Process, AHP)方法[2]、優劣解距離(Technique for Order Preference by Similarity to an Ideal Solution, TOPSIS)方法[3]、貝葉斯網絡方法[4]、粗糙集方法[5]等。其中,AHP方法在構建指標權重判別矩陣時較為依賴主觀經驗;TOPSIS方法的指標信息熵計算對數據噪聲較為敏感,從而影響評估準確性;貝葉斯網絡模型結構的確定缺乏客觀設計標準;基于粗糙集理論的方法當歷史數據集規模較小時,存在評估規則難以準確提取的問題。由此,本文針對AHP方法計算指標權重較為主觀的問題,引入了表征目標特性信息的熵值法來增加準則層指標權重確定的客觀性,從而提升目標威脅評估的準確性。改進的AHP方法計算量小,實時性好,便于工程上實現。
WTA優化方法是指在WTA模型基礎上建立快速高效的優化搜索算法,給出最優或者次優的火力分配方案。WTA優化問題實質上是一類整數型非線性組合優化問題,屬于NP完全(NP-Complete)問題[6]。目前,已有的WTA優化方法包括分支定界法[7]、動態規劃[8]、遺傳算法[9]和粒子群算法[10]等,但是,上述方法在面對中大規模WTA問題時求解效率較低。分支定界和動態規劃存在搜索空間維數爆炸問題,啟發式算法搜索速度慢且容易陷入局部最優。基于強化學習的決策方法可避免以上問題,近年來已被廣泛應用在棋類博弈[11]、機器人路徑規劃[12]及自主空戰決策[13]等場景中。本文將強化學習方法引入到火力分配問題中,把WTA問題轉化為一個多步決策問題。文獻[14]采用強化學習算法解決反艦導彈火力分配問題,但僅將單步決策帶來的毀傷概率增量作為獎勵函數,火力分配決策的全局最優性很難保證,求解方案不夠理想。另外,文獻[14]的狀態向量和動作向量設計不夠靈活,使得訓練所得的智能體難以應對場景參數變化的情況。本文在深度Q網絡(Deep Q-Network, DQN)框架下建立了高效的火力分配方法:基于最大毀傷概率準則設計了兼顧快速收斂和全局收益的獎勵函數,構建了火力單元狀態集、目標庫和經驗池,并引入了公平采樣策略,確保等概率學習各目標分配經驗。大量仿真結果表明,本文所提改進AHP方法通過目標屬性值分布差異可以更加客觀地評估目標威脅度,DQN火力分配方法則可以根據目標導彈的威脅度和攔截彈的毀傷能力,快速求解中大規模WTA問題的攔截彈-目標分配方案,實現最大概率毀傷來襲目標群;同時,本文訓練得到的DQN智能火力分配模型對包括目標-火力單元類型和數量、攔截彈毀傷概率等WTA場景參數變化具有一定的魯棒性。
本文分別圍繞目標威脅評估和WTA優化這兩部分開展WTA問題研究。目標威脅評估指的是導彈防御系統對來襲目標進行預警探測、識別與跟蹤,確定來襲目標的數量、種類以及相應的運動狀態信息,并應用上述目標信息評估目標威脅度。其中,需要提取能反映目標特性差異的關鍵因素作為威脅度評估指標集,由此計算來襲目標的威脅度。對于導彈防御系統而言,不同目標的威脅度會引起攔截優先級的差異,且是WTA模型的關鍵參數,對于后續火力分配決策起著決定性的作用。

其中,vj為由威脅評估方法得到的目標威脅值,pij為第i個火力單元對j個目標的毀傷概率,不等式約束則分別表示每個火力單元最多只能分配1個目標,每個目標可以分配多個火力單元。等影響力由上級指揮專家打分給出,對應的威脅度值可以量化為

本文考慮4類典型目標,分別為近、中、遠程彈道導彈和高超聲速飛行器,導彈防御系統則考慮低、中和高層3類典型攔截彈,如分別由美國的愛國者攔截彈(Patriot Advanced Capability-3, PAC-3)、海基攔截彈(Standard Missile, SM-3)和陸基攔截彈(Ground-Based Interceptor, GBI)構成的低中高層導彈防御系統。根據彈道導彈和高超聲速飛行器等目標的運動特性和固有屬性,構造如下威脅評估指標:來襲目標攻擊區域重要程度、目標剩余飛行時間、目標最大飛行高度、目標關機點速度和雷達反射面積(Radar Cross-Section, RCS)。其中,目標打擊區域重要程度根據該區域的軍事、政治、經濟其中,Ij為整數,代表第j個目標攻擊區域的重要程度。目標剩余飛行時間越小,留給防御系統的反應時間越短,對應的威脅度越大。本文涉及的彈道導彈和高超聲速飛行器的最大飛行高度區間差別較大,分別為200~1400 km和20~80 km(臨近空間),在相應的高度范圍內,最大飛行高度越大則威脅程度越大。目標的關機點速度決定了目標的再入速度和攻擊威力,關機點速度越大,則攔截窗口時間越短,較難攔截,目標的威脅程度也越大。目標的雷達反射面積越小,防御系統也越難跟蹤,其威脅程度越大。結合上述分析,可分別建立各威脅指標對應的分段量化函數,以最大高度為例,其威脅指標量化函數可以描述為

綜上,根據威脅指標量化函數,可以得到各來襲導彈目標的威脅因子評估向量。
AHP將復雜的評估系統模型層次化,通過逐層比較各種評估因素的重要性進行評估分析[2]。在導彈威脅評估問題中,目標層為目標威脅評估值,準則層為威脅評估因素,方案層為待評估的目標彈。本文在準則層中引入熵值法,通過評估目標(來襲導彈)的指標屬性信息熵來修正準則層指標權重的計算,提升指標權重判定的客觀性。引入熵值法的改進AHP方法整體框架如圖1所示,具體執行步驟如下:

圖1 改進AHP法框架示意圖
步驟1 應用AHP方法計算準則層的指標權重。根據專家意見采用1~9標度法構建準則層(各威脅評估因素)的判別矩陣A,則AHP方法下的指標權重向量wAHP可計算為

其中,λmax為判別矩陣A的最大特征值,wmax為對應的特征向量,wmax,j為特征向量wmax中的第j個元素,wjAHP為權重向量中的第j個元素。
步驟2 應用熵值法計算準則層的指標權重。熵值法認為若某個指標下各目標屬性值的分布較為接近,則該指標對于目標威脅評估的價值較低,其對應的指標權重較小;反之,若各目標屬性值分布較為離散,則該指標對威脅評估的價值較高,其對應的指標權重也更大[15]。基于熵值法的指標權重計算過程如下:
首先,將根據3.1節計算得到的各目標威脅因素量化值進行歸一化為

其中,ωij為第i個目標對于第j個威脅指標因素的量化值,zij為歸一化的指標屬性值。
其次,應用歸一化的指標屬性值信息,各指標的信息熵為

其中,ej為第j個指標的信息熵。
最后,各評估指標在信息熵語義下的指標權重可以計算為

步驟3 利用熵值法計算得到的指標權重對AHP準則層中指標權重進行修正

其中,wj為準則層中第j個指標的最終權重。
步驟4 計算方案層中各目標相對于準則層的指標權重。利用目標威脅因子向量構造方案層相對于準則層的重要性判別矩陣。令方案層各來襲目標導彈相對于準則層中第j個威脅評估指標的判別矩陣為,該判別矩陣元素計算為

步驟5 計算目標的綜合威脅度。結合準則層各指標修正后的權重和方案層各目標相對于準則層指標的層次排序結果,各目標的綜合威脅度計算式為

其中,vi為第i個目標的綜合威脅度。
基于DQN的WTA決策模型整體架構如圖2所示,將火力分配過程看作一個多段決策過程,單步決策通過優化決策獎勵值,實現對單個攔截彈的目標分配,通過依次對攔截彈進行分配決策,從而完成整個WTA過程。當完成一輪火力分配后,計算全局決策收益,并更新到臨時記憶庫中。DQN根據“均勻采樣”策略利用臨時記憶庫中的分配經驗(狀態轉移4元組)進行訓練,不斷完善Q網絡,從而達到基于DQN的火力分配智能體可快速高效求解中大規模WTA問題的目的。

圖2 基于DQN的WTA決策模型
根據WTA問題特點,以火力單元數量的編號順序作為決策時序,第i步決策表示對第i個攔截彈進行目標分配,即確定xij=1時j的取值。定義第i步決策的狀態轉移4元組為si,ai,ri,ai+1>,其中si為火力單元當前狀態向量,包含第i步決策時的火力單元剩余量和當前火力單元的類型;ai為當前動作向量,表示將第i個攔截彈分配給指定的目標,包含第i步決策時選擇的被分配目標編號和類型,及該目標已被分配的攔截彈數量;ri為獎勵函數,即采取相應動作所產生的獎勵;si+1為基于當前決策的下一步火力單元狀態向量,即第i+1步決策時的火力單元剩余量和火力單元類型。
4.1.1 狀態向量si定義
根據藍方反導攔截系統的攔截彈資源配置和部署情況,構造合適的狀態向量si。由于不同類型的攔截火力單元對同一目標的毀傷概率存在差異,例如,美國的GBI和SM-3適用于攔截中高層目標,而PAC-3則擅長攔截低空大氣層內的目標。因此,狀態向量需包含火力單元的類型信息,同時也需要包含火力資源的剩余情況。由此,定義第i個火力單元分配時的狀態為

其中,mcost為已分配的攔截彈數量;(i=1,2,···,l)為第i類攔截彈已分配的數量;mi_type為該攔截彈的類型獨熱編碼。類似地,當執行完第i個火力單元分配后,更新狀態信息,可得第i+1步決策時的狀態量si+1。值得注意的是,當i=m時,不存在si+1。
4.1.2 動作向量ai定義
在對攔截彈進行目標分配時,需要考慮目標的威脅度。目標威脅度越高,對應的打擊優先級越高。當一個目標已被多個火力單元分配時,該目標的毀傷概率可以得到較好的保障,此時考慮給其分配火力單元的優先級隨之下降。因此,在設計DQN的動作向量時,需要綜合考慮目標威脅度、目標彈已被分配的情況。此外,由于同一攔截彈對不同類型的目標的毀傷概率各不相同,動作向量還需包括目標的類型信息。因此,假設第i步決策時,將攔截彈分配給第j個目標,可定義ai動作向量的一個決策動作aij為

4.1.3 獎勵函數ri定義

其中,Ji為第i步決策完成后的對敵方目標的整體毀傷概率,計算公式如式(1)所示。
若DQN只學習到上述單步決策獎勵會導致DQN決策時出現“短視”現象,具體可描述為:在一輪火力分配的初期,DQN為了最大化單步決策獎勵,會做出不利于最大毀傷概率的目標分配選擇。假設有兩個威脅度相同的目標,分別為目標1和目標2,攔截彈1和攔截彈2對目標1,2的毀傷概率分別為[0.86, 0.84]和[0.84, 0.75]。在基于DQN的WTA分段決策中,單步獎勵最大化下的決策是將攔截彈1分配給目標1,攔截彈2分配給目標2,但按照最大化整體毀傷概率準則的分配結果是將攔截彈1分配給目標2,攔截彈2分配給目標1。造成這種沖突現象的原因在于DQN做當前決策時僅注重了單步決策獎勵,忽視了全局收益,即并未考慮單步決策對后續攔截彈的分配決策帶來的影響。由此,造成了本文所謂的“短視現象”。
為了改善上述這種現象,考慮單步決策對后續決策的影響,將代表一輪分配完成后的目標最終整體毀傷概率引入到單步決策的獎勵函數中,兼顧火力分配的單步決策收益和全局收益,由此修正第i步決策的獎勵函數為

其中,αi為 權重系數,rg=J(xij)為目標整體毀傷概率。此外,將上式與僅考慮全局收益的獎勵函數相比,可知由于引入了單步決策增益獎勵,可以在一定程度上引導決策空間的探索,表現在能夠使得搜索沿著在單步增益較大的空間內開展,提高搜索效率。因此,式(14)綜合考慮單步和全局收益的獎勵函數能夠使得DQN兼顧優化解的全局性和搜索的快速性。
在火力分配初始階段更容易發生“短視現象”,需要更加重視全局收益的影響,因此關于全局收益的權重系數需要設置的較大。當火力分配進入后期階段時,由于大部分攔截彈已分配完成,最大化單步決策獎勵下的決策逐步與最大化整體毀傷概率下的決策趨于一致,此時關于全局收益的權重系數可以適當減小,從而引導DQN進行快速探索。綜上分析,本文采用動態權重的方法來實現上述目的,變權重系數的表達式為

在完成所有火力單元的目標分配后,可通過火力分配決策矩陣按式(1)計算該輪火力分配的整體毀傷概率,并將其更新到該輪的各狀態轉移4元組中。由于不同類型的目標數量相差較大,導致對應各類目標的分配經驗數量之間存在差異。若直接使用隨機采樣策略抽取樣本進行訓練,則會導致低數量類型的目標被抽取的概率較低,從而對該類目標的分配訓練效果不佳。由此,本文采用根據目標類型進行抽取的“均勻采樣”策略,將一輪火力分配完成后產生的分配經驗按照目標類型分別進行存儲,訓練時從各類型目標對應的子經驗池中等量隨機抽取一批經驗,保證DQN能夠等頻率地學習到各類目標下的分配經驗。
對所有的m個攔截彈完成目標分配即完成了一輪的火力分配任務,因此定義本文火力分配場景中Q函數的最優貝爾曼方程為

其中,rk為第k步分配決策的獎勵。
由式(16)可得Q函數的更新規則為

其中,α為學習率,0α<1。
為使DQN訓練更加穩定,構造目標網絡θ和預測網絡θ′,兩個網絡的結構相同,初始權重相同[16]。利用式(18)和反向傳播算法更新θ,θ′滯后若干決策步以后從θ復制節點權重進行更新

利用ε- greedy算法使DQN在決策空間探索和訓練效率之間取得平衡。
綜上,DQN訓練流程主要包括:初始化訓練配置參數;在ε- greedy機制下利用DQN模型選取最優攔截彈-目標對,并計算單步局部獎勵;一輪火力分配結束后計算目標群整體毀傷概率并根據式(14)更新該輪經驗池的所有單步決策回報值;按照均勻采樣策略等量抽取各目標類型的子經驗池,進行目標網絡訓練,并按照預設間隔步數更新預測網絡,對網絡不斷訓練直至滿足結束條件。
假定有10個來襲目標,其中目標1,2,5為近程彈道導彈,目標3,4,6為中程彈道導彈,目標7和8為遠程彈道導彈,目標9和10為高超聲速飛行器,各目標屬性值如表1所示。
根據表1中數據,利用本文所提改進AHP方法計算評估指標權重,并與傳統AHP方法的指標權重作對比,結果如表2所示。分析表1和表2結果可知,各目標彈的攻擊地重要度指標分布較為分散,對攔截優先級判斷的影響較大,因此,相較于傳統的AHP方法,引入熵值法的改進AHP法對該指標因素給定的權重較大。相反,各目標彈的RCS值分布較為接近,對攔截優先級判斷的影響較小,由改進AHP法計算得到的權重較小。因此,改進AHP方法可根據目標各威脅要素的量化指標分布情況,合理地調整指標權重,使得在威脅評估時突出不同目標間的差異性。

表2 傳統和改進AHP方法的評估指標權重計算結果對比
利用改進AHP法和傳統AHP法對表1中各來襲目標彈進行綜合威脅度計算,結果如表3所示,其中遠程彈道導彈目標8的攻擊地重要度最高,關機點速度大,因此兩種方法都認為該目標的綜合威脅度最高;而近程彈道導彈目標2的攻擊地重要度和關機點速度最低,最大飛行高度低,因此兩種方法計算該目標的綜合威脅度都為最低。需要注意,相較于傳統AHP方法,改進AHP方法認為高超聲速目標9和10的目標威脅度更高,尤其是目標9的威脅度排序更加靠前。在實際戰場中,高超聲速目標通常殺傷力較大且難以攔截,威脅程度較高,改進AHP方法對高超聲速飛行器的威脅評估結果更加符合實際。由此,可以說明本文提出的改進AHP威脅評估方法的評價結果與實際情況更符合,具有較高的合理性。

表1 目標屬性值

表3 改進AHP與傳統AHP法的目標威脅度評估結果
5.2.1 固定場景下的DQN火力分配測試與分析
針對表1中各來襲目標,利用本文所提DQN方法優化分配策略,DQN的訓練參數設置為:學習率等于0.001,衰減率等于0.8,隱藏層數量為3,每層各100個節點,訓練數據的批大小(batch_size)為32,預測網絡的更新步長為50,共訓練2000輪。設定攔截彈總量為20,低層、中層以及高層攔截彈的數量分別為11:6:3。其中,高層攔截彈對于遠程目標的毀傷概率最大,為85%;對于中程目標的毀傷概率為40%。中層攔截彈對于中程目標的毀傷概率最大,為85%;而對于遠程目標的毀傷概率為55%。低層攔截彈對于近程目標和高超聲速目標具有較高的毀傷概率,分別為90%和55%。
經過2000輪的訓練后,得到的DQN學習曲線如圖3所示。由圖3可知,在訓練初期,由于ε值較小,DQN對決策空間進行隨機探索,分配結果不穩定,隨著訓練回合數的增加,利用學習完善的DQN進行決策,整體毀傷概率逐漸上升并趨于穩定,最終穩定在0.91左右。火力分配結果如圖4所示,該火力分配的整體毀傷概率為0.9128,由圖3可知,對于威脅度最高的遠程目標彈8,DQN分配了兩枚針對性最強的高層攔截彈以及一枚近程攔截彈進行攔截,很大程度上確保毀傷該目標;對于威脅度較高的高超聲速目標彈9,DQN則針對性地分配了3枚低層攔截彈,使該目標的毀傷概率達到90%以上;而對于威脅度最低的近程彈2,5,1,DQN則各分配了1枚低層攔截彈,既保證了目標的毀傷概率,也為攔截其他重要目標留出了較多的可支配火力資源。由此,說明DQN能夠綜合考慮目標威脅度、攔截彈-目標毀傷概率、火力資源配置情況,做出合理的火力分配決策。

圖3 固定場景下DQN訓練效果

圖4 固定場景下DQN火力分配方案
此外,在上述場景下,對僅考慮全局收益的DQN火力分配模型進行訓練,整體毀傷概率收斂曲線如圖5所示。對比圖3可知,當DQN僅考慮全局收益獎勵時,DQN訓練效率降低,收斂效果較差,從而使得最終的火力分配方案不佳。利用圖5訓練得到的DQN火力分配模型進行仿真測試,分配結果的整體毀傷概率較低,僅為0.678,火力分配結果不太理想。綜上對比分析驗證了式(14)綜合考慮單步和全局收益的獎勵函數設計可帶來的訓練效率和決策性能的提升。

圖5 固定場景下僅考慮全局收益的DQN訓練效果
5.2.2 隨機場景下的DQN火力分配測試與分析
考慮實際作戰場景中,目標規模通常難以準確預測,可用火力資源數量和配置也會隨戰場態勢動態變化。因此,需要火力分配方法對WTA場景要素的變化具有較好的魯棒性。考慮目標-攔截彈數量變化,毀傷概率和目標威脅度在小范圍內浮動的WTA隨機場景下,對DQN火力分配模型進行訓練。每一輪的訓練場景中,目標數量和攔截彈數量分別為[20, 30]和[30, 60]之間的隨機整數,其中近、中和遠程目標數量分別占目標總量的20%~40%,20%~40%, 10%~20%,其余為高超聲速目標。低、中層攔截彈配比范圍均為30%~40%,剩余為高層攔截彈。
為體現DQN在隨機場景下的訓練效果,對訓練過程進行1000次蒙特卡羅仿真,得到的DQN平均學習收斂曲線如圖6所示。從圖中可以看出,DQN能夠在場景要素變化的情況下進行有效訓練,隨著訓練的進行,平均整體毀傷概率逐步提高并最終收斂于0.9左右。該結果可以說明本文所提DQN方法在WTA要素變化的場景下具備良好且穩定的訓練效果。

圖6 1000次蒙特卡羅仿真訓練
為了驗證本文所提基于DQN的火力分配算法的性能,利用上述訓練得到的DQN火力分配模型與文獻[10]中的基于改進粒子群算法(Particle Swarm Optimization, PSO)的WTA優化方法,以及基于目標威脅度的隨機分配法進行比較。其中,PSO方法的種群規模設為60,迭代次數為5000;隨機法可描述為針對第j個可用火力單元,產生[0,1]之間的隨機數,若滿足

則將該火力單元分配給第i+1個目標,其中ωi為歸一化的目標威脅度。該分配方法使得火力單元有更大的概率分配給威脅度較高的目標。
設置如表4所示的3個測試用例,測試時的毀傷概率各類型目標數量占比和各類型攔截彈數量占比的設定與訓練場景保持一致。在訓練場景中,目標數量和攔截彈數量分別在[20,30]和[30,60]之間隨機取值,測試用例1是一個較小規模的WTA場景,目標和攔截彈數量分別為15和25,目標和攔截彈的數量規模均低于DQN模型訓練時的各自最小規模;用例3是一個較大規模的WTA場景,目標、攔截彈數量分別為35和50,其目標數量規模大于DQN模型訓練時的最大規模。

表4 測試用例參數
3種方法在不同測試場景下產生的目標群整體毀傷概率和運行時間如表5所示,隨著WTA規模的增大,基于改進PSO方法的搜索空間規模爆炸式增長,受限于種群規模和迭代次數,所得解的質量不斷下降,尤其在用例3中,由于搜索空間的急劇增大,該方法求解得到的整體毀傷概率下降到了0.75左右,且耗時很長,難以滿足高動態場景下火力分配決策的快速性需求。而基于DQN的火力分配模型得益于充分的訓練,基于良好的網絡參數,能夠適應目標和火力資源配置動態變化的情況,在3個測試用例下都能保持較好的求解質量,尤其是在用例3,較大規模的火力分配問題中也能保持0.85以上的毀傷概率,且能夠滿足決策快速性需求。此外,用例1和用例3的測試結果表明,模型能夠適應超出訓練場景參數范圍的WTA場景,因此,基于訓練得到的DQN模型對于非預期內的場景參數變化情況,包括目標和攔截彈數量、毀傷概率等變化情況,具有一定的魯棒性,可適用于戰場中的突發動態情況下的火力分配應用。

表5 3種場景測試結果
本文考慮由不同性能攔截彈組成的一體化導彈防御系統對不同類型的來襲目標群實施火力分配的問題,提出了一種融合改進AHP和DQN的WTA優化方法。首先,應用基于熵值法的改進AHP方法評估來襲目標威脅度,本文方法由于引入了目標威脅指標量化數據的分布差異,相較于典型的AHP方法能夠較好地突出區分目標威脅差異,結果具有良好的合理性。接著,針對基于傳統啟發式方法求解中大規模WTA問題效率低、優化解質量不高的問題,本文在DQN框架下將WTA過程看作一個多段決策過程,通過設置可綜合兼顧訓練效率和決策性能的獎勵函數,引入公平采樣策略等手段,建立了基于DQN的火力分配方法。大量仿真結果表明,在固定和隨機的WTA場景下,本文提出的基于DQN的WTA優化方法均能在較少的訓練次數下快速收斂,針對不同的測試用例均能給出較優的火力分配方案,且對于WTA場景參數動態變化具有一定的適應性,具備對戰場環境動態變化的適應能力。同時,相較于經典的PSO算法,本文算法在處理中大規模WTA問題時優勢明顯,具備決策的快速性和準確性。