999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多智能體強化學習的協(xié)同目標分配

2023-09-05 00:34:08悅,琳,
關(guān)鍵詞:分配策略模型

馬 悅, 吳 琳, 許 霄

(1. 國防大學研究生院, 北京 100091; 2. 中國人民解放軍 31002部隊, 北京 100091;3. 國防大學聯(lián)合作戰(zhàn)學院, 北京 100091)

0 引 言

協(xié)同目標分配,決定了兵力運用的科學性和合理性,是將作戰(zhàn)意圖落地為作戰(zhàn)行動的關(guān)鍵環(huán)節(jié)[1]。在同一時間或空間范圍內(nèi),多個作戰(zhàn)單元為完成同一項作戰(zhàn)任務(wù)或相互之間存在邏輯關(guān)系的多個作戰(zhàn)任務(wù)時,需從時間、空間和效果等角度考慮,進行目標或火力的合理分配,以最大作戰(zhàn)效費比和最小作戰(zhàn)風險獲得最優(yōu)打擊效果。

協(xié)同目標分配是一種典型的非線性多項式完全問題,決策空間隨問題規(guī)模(即作戰(zhàn)單元數(shù)目和作戰(zhàn)目標數(shù)目)增大呈指數(shù)級增長,求解結(jié)果的的實時性、準確性和有效性將直接影響軍事對抗中能否取得最佳作戰(zhàn)效果。在軍事運籌領(lǐng)域,協(xié)同目標分配通常被規(guī)約為兵力分配、火力分配或武器目標分配(weapon target assignment, WTA)等問題[2-3],常用求解方法可分為傳統(tǒng)規(guī)劃方法[4]、模擬退火(simulated annealing, SA)算法[5-6]、蟻群優(yōu)化(ant colony optimization, ACO)算法[7]、粒子群優(yōu)化(partical swarm optimization, PSO)算法[8-11]、進化算法(evolutionary algorithm, EA)[12-15]和合同網(wǎng)協(xié)議(contract net protocol, CNP)[16]。現(xiàn)有研究雖從不同角度對各種算法進行了改進,并成功應(yīng)用于不同場景,但關(guān)于動態(tài)不確定環(huán)境下的協(xié)同目標分配研究較少,且難以保證大規(guī)模目標分配問題的求解效率。

在分布式作戰(zhàn)自同步理論中[17],協(xié)同關(guān)系體現(xiàn)為作戰(zhàn)單元“自底向上組織復(fù)雜戰(zhàn)爭的行為”。將作戰(zhàn)單元構(gòu)建為智能體,協(xié)同目標分配問題便轉(zhuǎn)化為多智能體協(xié)作(multi-agent cooperation, MAC)問題,多智能體強化學習(multi-agent reinforcement learning, MARL)[18]在解決類似協(xié)作問題上有著廣泛應(yīng)用[19-23]。據(jù)此,通過分析協(xié)同目標分配的軍事內(nèi)涵,構(gòu)建了基于MARL的協(xié)同目標分配模型,采用局部策略評分和集中式策略推理,利用Advantage Actor-Critic算法進行策略學習,以期能夠?qū)崿F(xiàn)簡單場景中訓練好的模型直接泛化應(yīng)用到復(fù)雜場景,從而有效實現(xiàn)大規(guī)模目標分配。

1 協(xié)同目標分配數(shù)學模型

1.1 相關(guān)概念

為在統(tǒng)一語義框架下描述協(xié)同目標分配問題,定義以下相關(guān)概念。

作戰(zhàn)單元,指能夠獨立遂行作戰(zhàn)任務(wù)的基本作戰(zhàn)單位,為執(zhí)行作戰(zhàn)任務(wù)提供作戰(zhàn)資源。在協(xié)同目標分配中,作戰(zhàn)單元是不可再分割的基本作戰(zhàn)單位或作戰(zhàn)平臺。

作戰(zhàn)目標,指戰(zhàn)場上存在且具有一定軍事價值的客觀實體,是作戰(zhàn)單元執(zhí)行作戰(zhàn)任務(wù)時所作用的客觀對象。

作戰(zhàn)協(xié)同關(guān)系,指多個作戰(zhàn)單元在同一時空范圍內(nèi)執(zhí)行同一作戰(zhàn)任務(wù)或具有邏輯關(guān)系的不同作戰(zhàn)任務(wù)時,在空間部署、時間銜接、目標分配、火力分配和效果達成等方面,所形成的相互照應(yīng)、相互配合和優(yōu)劣互補的關(guān)系。

1.2 符號定義

協(xié)同目標分配描述過程中,定義以下符號。

(1) Tg={tg1,tg2,…,tgN}:打擊目標清單列表,N為打擊目標總數(shù)。

(2)U={u1,u2,…,uM}:進攻方可用作戰(zhàn)單元列表,M為作戰(zhàn)單元總數(shù)。

(3)W={w1,w2,…,wL}:進攻方可用彈藥類型列表,L為彈藥類型總數(shù)。

(4) Vtg={vtg1,vtg2,…,vtgN}:各作戰(zhàn)目標被摧毀后的收益價值列表。vtgi為打擊目標tgi被摧毀后的收益價值,i∈{1,2,…,N}。

(5) Vu={vu1,vu2,…,vuM}:各作戰(zhàn)單元被摧毀后的損失價值列表。vuj為作戰(zhàn)單元uj被摧毀后的損失價值,j∈{1,2,…,M}。

(6) Vw={vw1,vw2,…,vwL}:各類型彈藥消耗單位數(shù)量后的損失價值列表。vwl為wl類型彈藥消耗單位數(shù)量后的損失價值,l∈{1,2,…,L}。

(7) Tglt=(tglt,1,tglt,2,…,tglt,N):執(zhí)行第t次分配方案時被摧毀目標清單。tglt,i表示目標tgi是否被摧毀,tglt,i=1表示被摧毀,否則tglt,i=0。

(8) Ult=(ult,1,ult,2,…,ult,M):執(zhí)行第t次目標分配方案時被摧毀單元清單。ult,j表示單元uj是否被摧毀,ult,j=1表示被摧毀,否則ult,j=0。

(9) Wlt=(wlt,1,wlt,2,…,wlt,L):執(zhí)行第t次目標分配方案時進攻方的彈藥消耗清單。wlt,l表示wl類型彈藥的消耗數(shù)量。

(10) Vlsumt:執(zhí)行第t次目標分配方案時防守方的彈藥消耗價值總量。

(11) Wut,j=(wt,j,1,wt,j,2,…,wt,j,L):執(zhí)行第t次目標分配方案時進攻方作戰(zhàn)單元uj的掛載。wj,l為作戰(zhàn)單元uj掛載的wl類型彈藥的數(shù)目。

(12)RPro=[rprol,i]L×N:進攻方各類彈藥對不同作戰(zhàn)目標的命中毀傷概率矩陣。rprol,i為wl類型彈藥對作戰(zhàn)目標tgi的命中毀傷概率。

(13)BPro=(bpro1,bpro2,…,bproM):防守方一體化聯(lián)合防空反導(dǎo)對進攻方各作戰(zhàn)單元的綜合命中毀傷概率矩陣。bproj為對作戰(zhàn)單元uj的綜合命中毀傷概率。

1.3 數(shù)學模型

考慮使命任務(wù)、彈目匹配以及作戰(zhàn)效費比等因素建立數(shù)學模型,如下所示:

(1)

(1) 模型變量

令變量xi,j,t表示在第t次作戰(zhàn)目標分配時,是否指派作戰(zhàn)單元uj打擊作戰(zhàn)目標tgi。當指派單元uj打擊目標tgi時,xi,j,t=1,否則xi,j,t=0。因此,模型變量為

X=[xi,j,t]N×M×T

(2)

式中:T為作戰(zhàn)過程中進行目標分配的總次數(shù);模型變量規(guī)模為N×M×T,在相同問題背景下,隨著決策次數(shù)T的增大呈線性增長。

(2) 目標函數(shù)

模型目標函數(shù),衡量了作戰(zhàn)效果的大小。參數(shù)α和β,用于平衡兩部分計算結(jié)果對目標函數(shù)值的影響;F1(X)表示任務(wù)使命完成度,計算方法如下所示:

(3)

式中:Rle和Ble分別表示作戰(zhàn)結(jié)束后作戰(zhàn)單元和作戰(zhàn)目標的剩余率。

F2(X)/F3(X)表示作戰(zhàn)效費比;F2(X)表示作戰(zhàn)過程中摧毀敵方作戰(zhàn)目標和消耗敵方彈藥所產(chǎn)生的總收益;F3(X)表示作戰(zhàn)過程中自身作戰(zhàn)單元被摧毀和彈藥消耗所產(chǎn)生的總損失,計算方法如下所示:

(4)

(3) 約束條件

1)Φ(t)表示執(zhí)行第t次目標分配方案所產(chǎn)生的結(jié)果。根據(jù)各方彈目匹配關(guān)系及命中毀傷概率(BPro與RPro),執(zhí)行作戰(zhàn)目標分配方案Xt,得到進攻方作戰(zhàn)單元損失情況Ult和彈藥消耗情況Wlt、敵方作戰(zhàn)目標被摧毀情況Tglt和彈藥消耗總價值Vlsumt。

(5)

2 協(xié)同目標分配求解方法

MAC問題的聯(lián)合狀態(tài)動作空間,隨著智能體與任務(wù)數(shù)目的增多呈指數(shù)級增長。大規(guī)模作戰(zhàn)場景下的協(xié)同策略訓練,對訓練時間和計算能力具有更高要求。因此,如何能夠?qū)崿F(xiàn)簡單場景中訓練好的模型直接泛化應(yīng)用到復(fù)雜場景,是有效解決大規(guī)模協(xié)同目標分配問題的關(guān)鍵。諸多學者針對上述類似問題,或利用空間近鄰性構(gòu)建獎勵函數(shù)和任務(wù)分配策略以期實現(xiàn)可泛化應(yīng)用模型[24-25],或使用集中式評價方法以期解決分散策略學習問題[26-27]。而Carion提出了一種學習預(yù)測模型及訓練方法[28],為解決本文問題提供了很好的借鑒。

考慮遠期決策對當前收益影響的衰減,動作價值函數(shù)如下所示:

qπ(St,At)=E(Rt+1+γqπ(St+1,At+1)|St,At)

(6)

式中:St為時刻t作戰(zhàn)單元和作戰(zhàn)目標的聯(lián)合狀態(tài);E(·)為求解期望值的函數(shù)。

問題目標是通過學習獲取一個最優(yōu)協(xié)同目標分配策略,保證所有作戰(zhàn)單元的協(xié)同打擊行動能夠使獎勵函數(shù)在長期內(nèi)達到最大化,如下所示:

(7)

2.1 模型訓練及應(yīng)用框架

在此,構(gòu)建基于MARL的協(xié)同目標分配模型訓練及應(yīng)用框架,如圖1所示,具體流程如下。

圖1 基于MARL的協(xié)同目標分配模型訓練與應(yīng)用Fig.1 Training and application of cooperative targets assignment model based on MARL

步驟 1基于深度強化學習優(yōu)化協(xié)同目標分配策略。在此,“智能體”是進攻方的各作戰(zhàn)單元,“動作”是作戰(zhàn)單元選擇打擊哪個作戰(zhàn)目標,“環(huán)境”是本文實驗平臺-計算機兵棋推演系統(tǒng)的模擬仿真環(huán)境,“狀態(tài)”為所有作戰(zhàn)單元和作戰(zhàn)目標的聯(lián)合狀態(tài)。在每一步學習中,采用“集中式策略推理模型”獲取目標分配方案,各作戰(zhàn)單元根據(jù)分配方案和固定行動規(guī)則對作戰(zhàn)目標進行打擊,兵棋系統(tǒng)會實時返回各棋子狀態(tài)和交戰(zhàn)結(jié)果。而后,依據(jù)系統(tǒng)環(huán)境返回的收益值信息,利用基于多層神經(jīng)網(wǎng)絡(luò)的“評分模型”對該步目標分配方案進行優(yōu)劣評價,評價值用于優(yōu)化策略。

步驟 2最優(yōu)協(xié)同目標分配策略的模擬執(zhí)行。在利用計算機兵棋系統(tǒng)對某次聯(lián)合火力打擊進行模擬仿真時,每隔一段時間Δt,依據(jù)最優(yōu)協(xié)同目標分配策略生成目標分配方案,各作戰(zhàn)單元依據(jù)當前方案實時調(diào)整打擊對象。當完成打擊任務(wù)后,將得到一個隨時間變化的“作戰(zhàn)目標分配方案序列”。作戰(zhàn)單元在各目標分配方案中分配得到的作戰(zhàn)目標,組成了該作戰(zhàn)單元的打擊目標序列;作戰(zhàn)目標在各目標分配方案中是否被打擊,形成了不同作戰(zhàn)目標之間的先后打擊順序。

2.1.1 協(xié)同目標分配方案表示

在決策時刻t,一個確定的策略π會根據(jù)所有作戰(zhàn)單元和作戰(zhàn)目標的聯(lián)合狀態(tài)〈S1,t,S2,t〉,給出能夠獲取最大回報的聯(lián)合動作At=maxπ(S1,t,S2,t,t)。At實質(zhì)就是時刻t的協(xié)同目標分配方案,可用分配矩陣Bt等價表示,如下所示:

(8)

式中:bi,j表示作戰(zhàn)單元uj是否打擊作戰(zhàn)目標tgi,如果打擊則bi,j=1,否則bi,j=0。

若每隔時間Δt生成一次作戰(zhàn)目標分配方案,當完成打擊任務(wù)后,將會得到該作戰(zhàn)場景下的一個作戰(zhàn)目標分配方案序列,如下所示:

B=[B1,B2,…,Bt,…,BT]

(9)

2.1.2 底層固定行動規(guī)則

當給定分配矩陣Bt后,各作戰(zhàn)單元將會按照固定行動規(guī)則對指派的作戰(zhàn)目標進行打擊。作戰(zhàn)單元的行動規(guī)則包括:作戰(zhàn)單元自動規(guī)劃打擊目標的最短路徑;作戰(zhàn)目標進入射程范圍后,作戰(zhàn)單元將根據(jù)自身掛載的命中毀傷概率,計算彈藥發(fā)射數(shù)量;作戰(zhàn)單元消耗完自身彈藥或油料后將自動退出作戰(zhàn)。上述行動規(guī)劃均由計算機兵棋系統(tǒng)自動完成,符合軍事規(guī)范并在長期應(yīng)用中得到驗證。因此,學習任務(wù)將聚焦于分配策略π的學習,而作戰(zhàn)單元對作戰(zhàn)目標的具體打擊行為不需要進行訓練。

2.1.3 獎勵函數(shù)

根據(jù)協(xié)同目標分配模型的目標函數(shù),構(gòu)建強化學習的單步獎勵函數(shù),計算方法如下所示:

(10)

式中:Rt表示在第t步得到的單步獎勵值;bvs和blst表示防守方作戰(zhàn)目標及彈藥的總價值與第t步時被摧毀/消耗后的總收益;rvs和rlst表示進攻方作戰(zhàn)單元及彈藥的總價值與第t步時被摧毀/消耗后的總損失;d標識作戰(zhàn)過程是否結(jié)束,若結(jié)束則d=1,否則d=0;r_d為作戰(zhàn)結(jié)束時的獎勵值;Rle和Ble分別表示作戰(zhàn)過程結(jié)束后作戰(zhàn)單元和作戰(zhàn)目標的剩余率。

2.2 協(xié)同策略評分模型

評分模型根據(jù)作戰(zhàn)單元和作戰(zhàn)目標的狀態(tài),評價當前策略的優(yōu)劣。在此,采用多層神經(jīng)網(wǎng)絡(luò)構(gòu)建局部評分模型,通過不斷學習優(yōu)化模型參數(shù)來提高模型評分的精確度,可用h(s1,i,s2,j,θ1)和g(s1,i,s1,k,θ2)表示。其中,h(·)對作戰(zhàn)單元與作戰(zhàn)目標的分配關(guān)系進行評分,反映了指派作戰(zhàn)單元uj打擊作戰(zhàn)目標tgi的優(yōu)劣;g(·)對作戰(zhàn)目標之間的打擊順序進行評分,反映了作戰(zhàn)目標tgi與tgk先后打擊順序的優(yōu)劣;s2,j表示作戰(zhàn)單元uj的狀態(tài);s1,i和s1,k分別表示作戰(zhàn)目標tgi與tgk的狀態(tài);θ1和θ2分別為兩個神經(jīng)網(wǎng)絡(luò)的參數(shù)。

在某一決策時刻,經(jīng)過評分后可得到兩個評分矩陣H和G,分別如下所示:

(11)

(12)

式中:hθ1(i,j)表示對作戰(zhàn)單元uj打擊作戰(zhàn)目標tgi的評分;gθ2(i,k)表示對作戰(zhàn)目標tgi與tgk打擊順序的評分。

評分模型h(·)和g(·)分別采用結(jié)構(gòu)相同但參數(shù)不同的神經(jīng)網(wǎng)絡(luò),如圖2所示。h(·)的輸入數(shù)據(jù)為評分對象“作戰(zhàn)單元和作戰(zhàn)目標”的聯(lián)合狀態(tài)向量;g(·)的輸入數(shù)據(jù)為評分對象“作戰(zhàn)目標和作戰(zhàn)目標”的聯(lián)合狀態(tài)向量。作戰(zhàn)單元和作戰(zhàn)目標的特征狀態(tài),包括類型、位置、自身價值、彈藥攜帶量和彈藥單位價值。輸入數(shù)據(jù)經(jīng)過批標準化層和4個全連接層后,輸出評分數(shù)值。

圖2 評分模型神經(jīng)網(wǎng)絡(luò)Fig.2 Scoring model neural network

2.3 協(xié)同策略推理模型

協(xié)同策略推理模型主要負責根據(jù)評分矩陣H和G確定能夠獲取最大評分總數(shù)的分配矩陣Bt。在協(xié)同目標分配策略π為確定性策略時,分配矩陣Bt只與當前t時刻各作戰(zhàn)單元和作戰(zhàn)目標的聯(lián)合狀態(tài)有關(guān)。在學習過程中,分配矩陣Bt還取決于評分模型的網(wǎng)絡(luò)參數(shù)θ1和θ2。因此,可使用參數(shù)化Bt(S1,S2,θ1,θ2)表示分配矩陣。

一種貪婪的策略推理,是將作戰(zhàn)單元指派給h(·)分數(shù)最高的作戰(zhàn)目標。但貪婪地選擇分數(shù)最大的作戰(zhàn)單元打擊作戰(zhàn)目標,實質(zhì)是默認打擊目標的效益與指派打擊該目標的作戰(zhàn)單元數(shù)目呈正比例關(guān)系。然而,當作戰(zhàn)單元和作戰(zhàn)目標數(shù)目較多時,打擊某一作戰(zhàn)目標的總收益,會隨著指派作戰(zhàn)單元的數(shù)目增大而趨于飽和,從而導(dǎo)致嚴重的資源浪費。因此,需要限制打擊同一作戰(zhàn)目標的作戰(zhàn)單元數(shù)量。

此外,還需要考慮不同作戰(zhàn)目標的先后打擊順序。當考慮作戰(zhàn)目標之間的約束關(guān)系時,可能會出現(xiàn)兩種極端情況:一種情況是作戰(zhàn)目標之間的相關(guān)關(guān)系較弱,則作戰(zhàn)單元會被“分散”指派給各個作戰(zhàn)目標并同時執(zhí)行打擊任務(wù);另一種情況是作戰(zhàn)目標之間存在較強的相關(guān)關(guān)系,則作戰(zhàn)單元會被“集中”指派去打擊重要性較大的作戰(zhàn)目標,而后按照重要性順序依次打擊其他作戰(zhàn)目標。在實際作戰(zhàn)中,作戰(zhàn)目標之間的重要性對比關(guān)系,應(yīng)處于上述兩種極端情況之間。

協(xié)同策略推理過程,可表示為

(13)

式中,bi,j為分配矩陣Bt(S1,S2,θ1,θ2)中第i行第j列的元素,表示作戰(zhàn)單元uj是否打擊作戰(zhàn)目標tgi;h(i,j,θ1)為評分矩陣H中第i行第j列的元素,表示指派作戰(zhàn)單元uj打擊作戰(zhàn)目標tgi的優(yōu)劣程度;g(i,k,θ2)為評分矩陣G中第i行第k列的元素,表示對作戰(zhàn)目標tgi與tgk的打擊順序的評分;約束條件∑bi,j≤1,表示指派作戰(zhàn)單元uj打擊的作戰(zhàn)目標數(shù)目最多為1;φi(si)表示打擊作戰(zhàn)目標tgi的最大彈藥需求量,使用φi,j(si,sj)表示作戰(zhàn)單元uj打擊作戰(zhàn)目標tgi的打擊效果;約束條件∑φi,j(si,sj)bi,j≤φi(si)表示指派打擊作戰(zhàn)目標tgi的作戰(zhàn)單元的打擊效果之和不能超出該作戰(zhàn)目標的打擊需求。

2.4 協(xié)同策略學習算法

協(xié)同目標分配策略的優(yōu)化,需要通過學習算法實現(xiàn)。在此,將“評分”視為一個負責頂層決策的虛擬中心智能體的“動作”,將“評分模型”作為需要學習的“策略”,將協(xié)同策略推理過程和仿真模擬環(huán)境統(tǒng)一看作為學習“環(huán)境”,通過A2C (advantage actor-critic)算法[29-30]進行策略優(yōu)化。策略網(wǎng)絡(luò)Actor用于逼近“評分模型”,評價網(wǎng)絡(luò)Critic用于逼近整個“環(huán)境”運行產(chǎn)生的累計回報。學習優(yōu)化的基本過程,如圖3所示,具體步驟如下。

圖3 基于A2C算法的學習過程Fig.3 Learning process based on A2C

步驟 1策略網(wǎng)絡(luò)Actor為第2.2節(jié)中所構(gòu)建的評分模型。神經(jīng)網(wǎng)絡(luò)接收當前作戰(zhàn)單元和作戰(zhàn)目標的空間分布狀態(tài),通過網(wǎng)絡(luò)前向傳播計算評分矩陣H和G。然后,將H和G作為“動作”輸出給協(xié)同策略推理模型。

步驟 2協(xié)同策略推理模型根據(jù)評分矩陣H和G,通過策略推理制定協(xié)同目標分配方案,具體方法如第2.3節(jié)所述。然后,將協(xié)同目標分配方案下達給各作戰(zhàn)單元,各作戰(zhàn)單元按照底層固定的行動策略執(zhí)行目標打擊任務(wù)。

步驟 3評價網(wǎng)絡(luò)Critic接收目標分配方案單步執(zhí)行后產(chǎn)生的獎勵值,單步獎勵值的計算方法如式(11)所示。然后,通過神經(jīng)網(wǎng)絡(luò)的前向傳播計算執(zhí)行“動作”H和G所產(chǎn)生的評價值,并更新優(yōu)化網(wǎng)絡(luò)參數(shù)。最后,將計算得到的關(guān)于收益的TD-error輸出給策略網(wǎng)絡(luò)Actor。

步驟 4策略網(wǎng)絡(luò)Actor接收TD-error后,更新優(yōu)化評分模型的網(wǎng)絡(luò)參數(shù)θ1和θ2。

步驟 5迭代上述過程,直至學習結(jié)束。

3 實驗驗證

在某型計算機兵棋系統(tǒng)上,以聯(lián)合火力打擊為例,驗證本文協(xié)同目標分配方法。

(1) 實驗設(shè)計與數(shù)據(jù)

實驗背景:為保證聯(lián)合任務(wù)部隊能夠順利渡海登陸,現(xiàn)對敵沿岸雷達陣地、防空陣地、機場和指揮所進行聯(lián)合火力打擊。

實驗思路:構(gòu)建兩個不同復(fù)雜度的實驗場景,如表1所示;在小場景中進行模型訓練,而后在相同場景下,應(yīng)用訓練好的模型進行仿真模擬,驗證模型構(gòu)建和訓練的合理性;最后,將訓練好的模型直接泛化應(yīng)用的大場景中,驗證解決大規(guī)模問題的有效性。實驗數(shù)據(jù):敵我雙方武器平臺、作戰(zhàn)目標及彈藥的價值系數(shù),是綜合造價和影響己方作戰(zhàn)程度而計算的評價值。敵方一體化防空反導(dǎo),彈藥類型以W表示,其價值系數(shù)為0.05。綜合考慮武器平臺性能及掛載類型、作戰(zhàn)目標性質(zhì)以及彈目匹配關(guān)系,敵我雙方的“武器-目標”命中毀傷概率,如表2所示。

表1 武器平臺和作戰(zhàn)目標信息Table 1 The data of platform and operational targets

表2 武器-目標命中毀傷概率Table 2 Hit and kill probability of weapon-target

(2) 小場景下模型訓練與驗證

由于“武器-目標”命中毀傷概率小于1,即便訓練得到的策略最優(yōu),也會出現(xiàn)收益值很差的情況。在此,將每一輪訓練的總回報,設(shè)置為本次訓練總回報與前一輪訓練總回報的綜合值,計算方法如下所示:

(14)

根據(jù)本文方法構(gòu)建評分模型、推理模型和學習模型,利用計算機兵棋系統(tǒng)進行1 050輪學習訓練。訓練過程中,綜合回報值隨訓練次數(shù)的變化曲線,如圖4所示。可見,基于A2C算法的策略優(yōu)化方法能夠保證策略回報值趨于收斂,從而得到最優(yōu)協(xié)同目標分配策略。

圖4 仿真實驗結(jié)果Fig.4 Results of simulation experiment

在相同場景下,使用訓練好的模型和策略,進行70次模擬仿真驗證,統(tǒng)計以下信息:模擬仿真回報值,如圖5(a)所示;任務(wù)完成度(作戰(zhàn)目標的摧毀數(shù)目與初始數(shù)目之比)和進攻方作戰(zhàn)單元剩余率,如圖5(b)所示。

圖5 小場景下模型驗證結(jié)果Fig.5 Results of model verification in small scenes

(3) 大場景下模型泛化應(yīng)用

在大場景下,不進行任何學習訓練,直接使用小場景中訓練好的模型和策略,進行70次模擬仿真泛化應(yīng)用驗證,統(tǒng)計信息如圖6所示。

圖6 大場景下模型泛化應(yīng)用結(jié)果Fig.6 Results of model generalization application in large scenes

(4) 實驗結(jié)果分析

1)在小場景驗證實驗中,綜合回報值落在區(qū)間[50,200]的模擬次數(shù)占總次數(shù)的77%;能夠百分之百完成打擊任務(wù)的模擬次數(shù)占總次數(shù)的78.6%,而能夠保證自身損失不超過50%的模擬次數(shù)占總次數(shù)的48.6%。雖然存在我方損失很大而敵方損失較小的情況,但非協(xié)同分配策略導(dǎo)致,而是由于敵我雙方命中毀傷概率小于1產(chǎn)生的小概率隨機結(jié)果。因此,訓練優(yōu)化的策略能夠保證進攻方以較小損失完成聯(lián)合火力打擊任務(wù)。

2) 在大場景泛化應(yīng)用實驗中,綜合回報值落在區(qū)間[50,200]的模擬次數(shù)占總次數(shù)的62.9%;能夠百分之百完成打擊任務(wù)的模擬次數(shù)占總次數(shù)的71.4%。相比小場景實驗,進攻方的作戰(zhàn)單元損失較大且收益平均值較小。主要原因是大場景下作戰(zhàn)目標是小場景的2.75倍,而武器平臺只是小場景的1.9倍,因此進攻方會產(chǎn)生更大的損失。但訓練優(yōu)化的策略,依舊能夠保證進攻方以較大概率完成聯(lián)合火力打擊任務(wù)。

4 結(jié) 論

本文針對傳統(tǒng)方法難以實現(xiàn)動態(tài)不確定環(huán)境下的大規(guī)模協(xié)同目標分配問題,提出了基于MARL的協(xié)同目標分配方法。通過策略分層將學習任務(wù)聚焦于頂層分配策略的學習,構(gòu)建了策略評分模型和策略推理模型,并基于A2C算法進行策略的優(yōu)化學習。實驗結(jié)果表明,基于多智能體系統(tǒng)對作戰(zhàn)單元協(xié)同作戰(zhàn)行為進行建模,能夠形象地刻畫協(xié)同作戰(zhàn)的演化內(nèi)因;基于A2C算法的策略優(yōu)化方法,能夠確保最優(yōu)協(xié)同目標分配策略的有效生成;而生成的最優(yōu)目標分配策略,能夠在執(zhí)行時以較好的效果完成聯(lián)合火力打擊任務(wù)。

猜你喜歡
分配策略模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
例談未知角三角函數(shù)值的求解策略
應(yīng)答器THR和TFFR分配及SIL等級探討
我說你做講策略
遺產(chǎn)的分配
一種分配十分不均的財富
績效考核分配的實踐與思考
高中數(shù)學復(fù)習的具體策略
主站蜘蛛池模板: 亚洲男人的天堂久久精品| 国产一二视频| 精品一區二區久久久久久久網站| 欧美精品xx| 欧美日韩北条麻妃一区二区| 日韩无码黄色| 91口爆吞精国产对白第三集| 国产成人无码播放| 91精品国产自产91精品资源| 少妇高潮惨叫久久久久久| 国产永久无码观看在线| 毛片久久久| 美女国产在线| 不卡视频国产| 自慰高潮喷白浆在线观看| 国产精品人人做人人爽人人添| 无码国产伊人| 婷婷五月在线| 国产精品女熟高潮视频| 亚洲Va中文字幕久久一区 | 一区二区理伦视频| 99视频在线观看免费| 日韩资源站| 午夜成人在线视频| 国产精品视频公开费视频| 国产亚洲欧美日韩在线观看一区二区| 亚洲性视频网站| 亚洲浓毛av| 激情五月婷婷综合网| 99久久精品久久久久久婷婷| 91丝袜在线观看| 日韩久久精品无码aV| 亚洲va在线∨a天堂va欧美va| 国产情侣一区二区三区| 国产欧美高清| 欧美在线黄| 日韩 欧美 国产 精品 综合| 国产精品成人第一区| 亚洲成年人网| 亚洲女同一区二区| 久久这里只有精品国产99| 国产农村妇女精品一二区| 久久影院一区二区h| 国内精自线i品一区202| 国产高清自拍视频| 欧美 亚洲 日韩 国产| 谁有在线观看日韩亚洲最新视频| 国产午夜小视频| 2020国产精品视频| 亚洲床戏一区| 午夜精品一区二区蜜桃| 日韩精品无码免费专网站| 国产成人欧美| 欧美伊人色综合久久天天| 日韩美一区二区| 久久精品中文字幕少妇| 成人精品亚洲| 亚洲欧洲自拍拍偷午夜色无码| 五月天香蕉视频国产亚| 57pao国产成视频免费播放| 人妻无码中文字幕一区二区三区| 久久久久国产精品熟女影院| 国产一级α片| 日韩欧美91| 国产精品任我爽爆在线播放6080| 国内黄色精品| 国产男人天堂| 美女一区二区在线观看| 国产午夜精品一区二区三| 免费国产高清精品一区在线| 一本综合久久| 久久永久精品免费视频| 在线亚洲天堂| 日韩精品毛片| 一级毛片不卡片免费观看| 欧美在线综合视频| 国产欧美性爱网| 国产美女无遮挡免费视频| 在线观看欧美精品二区| 久久综合色视频| 国产精品免费露脸视频| 91久久天天躁狠狠躁夜夜|