史繼筠 張 馳 連賀揚 陳杰浩 張美慧
(1.北京理工大學計算機學院 北京 100081)(2.中國工業(yè)互聯網研究院 北京 100016)
隨著信息化技術的快速發(fā)展,未來戰(zhàn)爭的作戰(zhàn)形式將會發(fā)生巨大變革。單一作戰(zhàn)已經無法適用復雜多變戰(zhàn)場態(tài)勢,多軍兵種聯合作戰(zhàn)將成為未來戰(zhàn)場的主要作戰(zhàn)形式[1]。為了達成聯合作戰(zhàn)目標,需要根據戰(zhàn)場態(tài)勢對武器裝備進行實時協同規(guī)劃。武器裝備協同規(guī)劃是指根據戰(zhàn)場環(huán)境、武器及作戰(zhàn)平臺狀態(tài)等多種限制元素,將指揮系統(tǒng)下達的作戰(zhàn)任務通過智能決策分解至各個可調配的任務執(zhí)行單元,依據火力卡片為各發(fā)射平臺及保障資源制定任務準備-機動-待機隱蔽-發(fā)射-波次轉換等全流程的行動規(guī)劃,縮短作戰(zhàn)單元暴露時間,降低敵方探測和打擊風險。當前如遺傳算法[2]、蟻群算法[3]、整數規(guī)劃[4]等傳統(tǒng)算法已經廣泛應用于武器裝備協同規(guī)劃任務中,但是存在一定缺陷和不足。例如,遺傳算法運行時間過長、容易陷入局部最優(yōu)解;整數規(guī)劃只能處理小規(guī)模問題;傳統(tǒng)神經網絡算法依賴于訓練數據,容易受到噪聲和干擾的影響,導致預測結果不準確。
隨著強化學習[5]的飛速發(fā)展與應用,為武器裝備的協同規(guī)劃問題提出了新的解決方案。強化學習相比于傳統(tǒng)算法更具有自主學習能力和適應性,通過選擇動作與環(huán)境進行交互獲得反饋,以最小化誤差和代價函數為目標從而實現更加高效的決策制定。綜上所述,針對當前武器裝備領域協同規(guī)劃問題現存缺陷,提出了一套基于強化學習的多要素多目標武器裝備協同規(guī)劃方案,通過基于深度強化學習的武器裝備調度算法和基于注意力機制的多車輛全局路徑規(guī)劃算法,實現導彈發(fā)射場景下的武器裝備協同控制。
以導彈裝備的部署發(fā)射作為主要的實驗場景,導彈裝備在進行發(fā)射任務之前,都會在各自的戰(zhàn)略隱蔽點進行待命準備,當指揮系統(tǒng)收到導彈發(fā)射的任務和指令之后,指揮系統(tǒng)會根據任務需要的導彈種類、導彈數量、任務優(yōu)先級等要素信息,對整個戰(zhàn)區(qū)的戰(zhàn)備導彈進行全局調度,趕往任務地點進行導彈發(fā)射。在這個過程中我們需要盡可能地縮短暴露時間,減少路徑沖突,因此要對作戰(zhàn)單元進行全方位的協同規(guī)劃。因為整個作戰(zhàn)場景過于復雜,優(yōu)化目標多樣,直接對整個問題進行建模和最優(yōu)方案求解,往往使得算法無法很好收斂。因此我們對整個場景進行兩階段求解,先根據預儲的導彈資源,戰(zhàn)備位置,任務需求等要素,對戰(zhàn)備導彈資源和導彈發(fā)射任務進行全局分配調度,再根據整體的分配情況,對所有車輛進行一個全局路徑規(guī)劃減少路徑沖突,進而形成一整套的協同規(guī)劃方案。
本章將重點介紹武器裝備調度分配階段的算法內容。詳細介紹了強化學習中狀態(tài)空間、動作空間、獎勵函數、決策網絡模型以及算法訓練過程等重要內容。
3.1.1 狀態(tài)空間
在基于SAC(Soft Actor Critic)[9]的集中式武器裝備調度算法中,由于將整個中央決策中心當作一個智能體進行訓練,因此觀測到的狀態(tài)空間應該是包括全局所有武器裝備狀態(tài)以及目標任務等狀態(tài)的空間。那么通過上文問題定義可以確定,整個狀態(tài)空間由三部分組成其中,Otc表示所有武器裝備的相關狀態(tài)信息,Otr表示所有目標任務的相關狀態(tài)信息,Ot d表示所以資源補給點的相關狀態(tài)信息。對于單個武器裝備所具有的屬性包括:經度屬性,維度屬性,攜帶資源分布屬性,發(fā)射成功率屬性,剩余油儲量;對于單個目標任務所具有的屬性包括:經度屬性,維度屬性,需求資源分布屬性,任務的重要程度;最后是資源補給點的相關屬性主要包括經度屬性和維度屬性。
3.1.2 動作空間
首先,對于一個武器裝備執(zhí)行單元來說,能夠進行方案選擇有:任務出派、隱蔽待敵、資源補給。而任務出派的目標則有m個任務目標可以選擇,資源補給也有k個資源補給點可以選擇,再加上原地隱蔽待敵,因此總共有m+k+1 中選擇,因此對于一個武器裝備來說其動作空間是一個大小為m+k+1 的離散動作空間。其次,由于本算法是將整個中央決策系統(tǒng)當作一整個智能體,其輸出應該是全局武器裝備的整體決策方案,因此對于N個武器裝備來說,中央決策中心智能體的動作選擇空間應該是一個多維離散動作空間,其表示如式(1)所示:
3.1.3 獎勵函數

最后一部分是方案分配的最大距離懲罰q如式(4)所示,表示的是方案分配中最遠的武器裝備到目標地點的距離,這個指標影響著整個方案的最終響應時間。
因此,最終的一個單步獎勵rt如式(5)所示,其中α,ω為超參數,用于平衡各個獎勵目標和懲罰目標之間的權重。
該算法的神經網絡結構主要有兩個分別是Q-Critic網絡和Actor策略網絡。在該網絡結構中,Actor 網絡和Q-Critic 網路共用一個狀態(tài)特征提取層。特征提取層操作很簡單,將執(zhí)行單元和任務單元分別進行一個線性變化獲得基礎編碼,再將整個狀態(tài)編碼展開為一個一維向量,在多要素多目標武器裝備調度問題中,其輸出是一個15360 維的一維向量。整體結構如下圖1所示。

圖1 網絡結構圖
SAC 算法訓練過程中,首先初始化并設置策略網絡、Q 網絡和目標函數網絡參數。為了增強訓練效果,引入熵[10]正則化項鼓勵策略保持多樣性,避免局部最優(yōu)問題,同時使用自適應溫度參數平衡探索和利用。在收集樣本階段,使用當前策略從環(huán)境中收集經驗樣本,并存儲到回放緩沖器中。在訓練過程中,隨機抽取并重要性采樣樣本來更新策略網絡和Q網絡,并可以動態(tài)調整學習率。策略遷移可在學習到的策略網絡上探索新狀態(tài)并繼續(xù)訓練。訓練會在達到預設的停止條件時停止。
本章介紹了基于注意力機制[6]的全局路徑規(guī)劃算法的設計過程,包括獎勵函數、多頭注意力模型、貪婪滾動基線訓練等各個強化學習訓練模塊。
4.1.1 狀態(tài)空間
在這個全局路徑規(guī)劃問題中,狀態(tài)空間由三部分組成:全局節(jié)點集合狀態(tài)、多車輛初始節(jié)點狀態(tài)、當前所在節(jié)點狀態(tài)、目標節(jié)點狀態(tài)。具體表現如式(6)所示,其中vN={v1,v2,v3…,vN}表示整個戰(zhàn)場道路網絡分布及路口車流量特征,vM={v1,v2,v3…,vM}表示所以執(zhí)行單元初始位置分布特征,vi表示當前規(guī)劃路徑的車輛起始節(jié)點i,vj表示當前規(guī)劃路徑的車輛目標地節(jié)點j。
4.1.2 動作空間
在路徑規(guī)劃問題中常用地圖節(jié)點集合當作動作空間,這種方式被稱為節(jié)點選擇問題。這種節(jié)點選擇問題的動作空間,因為節(jié)點的數量很大,在進行動作選擇時,通過還需要屏蔽機制(Mask),限制節(jié)點的數量,以確保智能體只能選擇與當前節(jié)點存在地圖道路的下一個節(jié)點。通過不斷地選擇下一個節(jié)點,最終就能形成由一組地圖節(jié)點所組成的行駛路徑。
4.1.3 獎勵函數
獎勵函數用于評估代理執(zhí)行一個動作的好壞。在路徑規(guī)劃問題中,為了找到最短路徑,可以定義獎勵函數為選擇的節(jié)點到當前節(jié)點路徑長度的相反數。同時通過設置一個懲罰因子,對智能體選擇過于擁擠的節(jié)點進行懲罰,來指導智能體做出更好的決策。具體的獎勵函數表示如式(8)所示:
rt=-path_length-penalty*invalid_action(8)
其中,pat?_lengt? 表示路徑長度,penalty是一個懲罰因子,用于懲罰智能體選擇擁擠的節(jié)點,懲罰因子的大小隨著擁擠程度的提升而提升,而invalid_action是一個指示函數,如果智能體選擇的節(jié)點不符合要求,則為1,否則為0。
本章方法的模型結構源于傳統(tǒng)的Encoder-Decoder 結構。在這個路勁規(guī)劃問題中,每一個輸入Xi都是一個維度為2 的向量。編碼器首先會通過一個線性變化將每個xi編碼為維度是128 的特征向量(node embeding),表示為?0i。接著會經過一個循環(huán)N層的網絡結構,每一層里面都由一個多頭注意力機制層(multi-head attention)和一個前饋反饋層(feed forward)兩個子層組成,每一個子層會經過一個殘差網絡[7]進行傳播,其結構如圖2所示。

圖2 編碼器結構
解碼器結構主要由兩個部分組成,一部分同樣是一個多頭注意力機制,用于將解碼器輸出的圖特征編碼以及其他特征進行融合,變成一個整體上下文特征編碼。接著是另一部分,是一個基于單注意力機制的概率計算層,通過計算每個節(jié)點對上一層輸出的上下文特征編碼的重要程度,再將其轉化為概率值。根據概率值,就可以根據不同的策略來選取下一個節(jié)點,重復多次這個過程,就可以得到智能體的路徑規(guī)劃。具體的解碼器結構如圖3所示。

圖3 解碼器結構
模型采用REINFORCE[8]算法訓練,同時采用貪戀基線進行更新。該思想參考了DQN 算法中Target 網絡的思想。創(chuàng)建兩個結構完全一樣的網絡,一套擁有最新的參數,一套則固定為老的參數。在每個epoch 結束后,對比兩個當前策略和基線策略的結果,如果當前策略的累計獎勵期望比基線策略有顯著的提升時,將當前策略參數復制給基線策略,以此不斷提升當前策略網絡的效果。
為了驗證算法的有效性和先進性,我們進行了以下三個方面的實驗設置:環(huán)境設置、武器裝備調度實驗、全局路徑規(guī)劃實驗。
5.1.1 實驗環(huán)境
本課題采用PyCharm 作為開發(fā)工具,使用的語言為python3.9,采用了pytorch 深度學習框架構建深度強化學習網絡。實驗的運行環(huán)境及軟硬件配置如表1所示。

表1 實驗運行環(huán)境及軟硬件設置
5.1.2 仿真環(huán)境
本節(jié)針對武器裝備調度問題和多車輛路徑規(guī)劃問題,構建戰(zhàn)場仿真環(huán)境以便訓練DRL 算法。整個仿真環(huán)境是城市地理環(huán)境,以廣州大學為中心,作戰(zhàn)區(qū)域為8000km2,其中北緯23.0985 以北為備戰(zhàn)區(qū)域,北緯22.0575 以南為發(fā)射區(qū)域。本實驗包含三個不同規(guī)模的仿真環(huán)境:env20、env50、env100。env20 為20 個執(zhí)行單元和4 個任務單元,env50為50個執(zhí)行單元和10個任務單元,env100為100 個執(zhí)行單元和20 個任務單元。其他仿真環(huán)境的參數如表2所示。

表2 仿真環(huán)境參數設置
5.2.1 評價指標
本小節(jié)重點介紹在多要素多目標武器裝備調度實驗中用到的性能評價指標如表3 所示。這些指標由合作單位某航天研究院提供,通過任務完成度表示戰(zhàn)備資源分配效果;最大行駛距離和平均行駛距離表示部隊響應速度;算法時間復雜度表示部隊調度的實時性和敏捷性。

表3 武器裝備調度實驗評價指標
5.2.2 收斂性實驗
本節(jié)所有的實驗結果是基于上一小節(jié)中env100的環(huán)境進行訓練,具體的累計獎勵曲線和損失曲線如圖4 所示。從累計獎勵曲線可以看出算法在60000 步的時候開始進入穩(wěn)定期,算法開始收斂,最終每輪訓練的平均累計獎勵穩(wěn)定在80 上下(理論累計獎勵最大值為200)。這些實驗結果說明該算法最終都能夠成功收斂。

圖4 基于SAC的武器裝備調度算法結果圖
5.2.3 對比試驗
對于多要素多目標武器裝備調度問題,其主要的評價指標有四個,分別是:任務完成度、最大行駛距離、平均行駛距離和以及算法時間復雜度。進行對比的算法有四種:隨機選擇、貪心算法、最優(yōu)強化學習算法、遺傳算法。其中隨機選擇算法通過完全隨機的方式生成決策方案,這個算法作為基礎參照指標。貪心算法則是對任務進行重要程度排序,優(yōu)先完成重要程度高的任務,同時對執(zhí)行單元的距離進行排序,優(yōu)先調度最近的執(zhí)行單元前去完成任務。最優(yōu)強化學習算法,則是調度算法經過調參訓練后的最優(yōu)模型。遺傳算法則是根據遺傳規(guī)律,以啟發(fā)式搜索的形式在解空間中搜索出一個相對最優(yōu)解。最終這四種算法關于四個指標在不同規(guī)模數據集上的表現如圖5 所示。從結果可以看出,隨著問題規(guī)模的增加,該調度算法在任務完成度、算法時間復雜度上的優(yōu)勢越來越明顯。同時在最長行駛距離和平均行駛距離與貪心算法的差距也在不斷變小。

圖5 多種武器裝備調度算法對比結果圖
在任務完成度方面,因為在問題規(guī)模較小的時候,遺傳搜索算法能夠在較小的解空間中找出優(yōu)秀的解,但隨著問題規(guī)模增大,在有限時間內搜索出一個優(yōu)秀解就越來越困難,而強化學習基于概率的特性在數據規(guī)模大的時候就逐漸顯現出優(yōu)勢。在路徑長度方面,貪心算法以最短路徑為貪心目標,所以在路徑方面具備優(yōu)勢,強化學習算法則更具綜合優(yōu)勢。在算法時間復雜度,其他算法隨著問題規(guī)模的增長而增長,但強化學習則基本穩(wěn)定不變。
5.3.1 評價指標
本節(jié)重點介紹在多車輛全局路徑規(guī)劃實驗中用到的性能評價指標。路徑沖突次數、最大行駛時間、平均行駛時間、算法時間復雜度指標將在對比試驗作為主要的對比指標,證明所提出算法的先進性。這些指標同樣由合作單位給出,路徑沖突次數表示全局規(guī)劃的平衡性;最大行駛時間和平均行駛時間表示路徑規(guī)劃的先進性;算法時間復雜度表示規(guī)劃的實時性和敏捷性。具體介紹如表4所示。

表4 全局路徑規(guī)劃實驗評價指標
5.3.2 收斂性實驗
本節(jié)所有的實驗結果是基于上一小節(jié)中env100的環(huán)境進行訓練,具體的累計獎勵曲線和損失曲線如圖6 所示。因為路徑規(guī)劃中獎勵函數都是懲罰機制,最終的結果是最小化懲罰,所以平均累計獎勵為負值。從實驗結果可以看到最終在500000 步的時候,累計獎勵穩(wěn)定到了-60 的位置,證明了該算法最終可以成功收斂。

圖6 基于注意力機制的全局路徑規(guī)劃算法結果圖
5.3.3 對比試驗
對于全局多車輛路徑規(guī)劃問題,其主要的評價指標有四個,分別是:平均行駛時間、最長行駛時間按、路徑沖突次數、算法時間復雜度。進行對比的算法有兩種:注意力模型、Dijkstra。其中注意力模型算法是基于注意力模型的路徑規(guī)劃算法;Dijkstra 是單源最短路徑算法。最終這兩種算法關于四個指標在不同規(guī)模數據集上的表現如圖7 所示。整體來看,隨著問題規(guī)模的增加,Dijkstra 算法的路徑沖突次數急劇上升,導致,進而導致行駛時間急劇上升,表現越來越差。而基于注意力機制的路徑規(guī)劃算法則表現越來越好,且在算法時間復雜度上,也優(yōu)于傳統(tǒng)算法。

圖7 多種全局路徑規(guī)劃算法對比結果圖
該研究通過強化學習的方法設計了一套多要素多目標武器裝備協同規(guī)劃算法。希望通過協同規(guī)劃算法能夠輔助我軍指揮官更好的進行科學有效的規(guī)劃決策,適應信息化聯合作戰(zhàn)趨勢。研究將該問題分解為了兩個子問題:多要素多目標武器裝備調度問題和多車輛全局路徑規(guī)劃問題。并針對兩個階段的問題分別提出了基于SAC 的武器裝備調度算法和基于注意力機制的全局路徑規(guī)劃算法。最后通過和傳統(tǒng)算法的對比試驗,證明了提出方法的有效性和先進性。這項研究為武器裝備協同規(guī)劃問題提供了新的思路和解決方案,也為算法的優(yōu)化和改進提供了有益的參考。相信這些算法的思路有很大的潛力在未來的應用中會繼續(xù)得到完善和發(fā)展。