999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于任務評估反饋的異構無人機動態任務分配

2024-02-22 00:00:00張友安何子琦李博宸宋磊
航空兵器 2024年6期
關鍵詞:無人機

摘 要:""""" 異構無人機在動態戰場環境下的任務分配是實現無人機快速戰斗力生成的關鍵技術之一。 針對現有異構無人機的任務分配方法難以響應戰場不確定性帶來的任務需求變化和潛在的求解可行性問題, 提出一種基于任務評估反饋的動態任務分配方法。 通過設計任務評估反饋模塊實現對無人機任務執行效能的實時監控, 并利用事件觸發機制響應動態環境中變化的任務需求, 基于深度Q網絡實現異構無人機分配, 利用任務分配和執行解耦以及動作過濾機制緩解傳統強化學習稀疏獎勵導致訓練難以收斂的問題, 形成動態快速的任務實時響應方案。 仿真結果表明, 提出方法可有效應對不確定戰場環境帶來的任務失效, 最終實現比現有方法更優的任務完成率。

關鍵詞:"""" 無人機; 任務分配; 戰場不確定性; 任務評估; 稀疏獎勵; 深度Q網絡; 強化學習

中圖分類號:""""" TJ760.1; V43

文獻標識碼:""" A

文章編號:"""" 1673-5048(2024)06-0078-08

DOI: 10.12132/ISSN.1673-5048.2024.0027

0 引" 言

無人機因其功能種類豐富, 適用場景廣泛, 控制自由度高等特性, 在未來軍事領域的應用中被各國政府寄予厚望[1-3。 當前, 搭載各類載荷、 機動能力不一的多型異構無人機已列裝或具備大規模使用條件, 異構無人機的作戰運用已成為亟待解決的熱點問題。 以任務為牽引, 組建符合任務需求的無人編組, 從而快速形成戰斗力施用于實際戰場環境, 是解決無人機應用的關鍵技術之一。 通過匹配無人機能力屬性與任務需求, 實現對無人機的任務分配, 是組建無人編組的可行技術路線[4-6。 與常規商業用途不同, 戰場環境更加復雜多變, 突發事件以及天氣等不可控因素更多, 給無人編組的實際任務收益帶來了較大的不確定性[7-8。 因此針對戰場環境下的異構無人機任務分配問題, 不僅要求給出滿足任務需求的任務分配方案, 同時需要能夠根據戰場態勢的變化以及已分配任務執行狀態的反饋, 及時對分配方案進行調整, 以保證無人編組能夠順利實現預定的作戰目標。

針對無人編組的任務分配問題, 較為傳統的方法大多基于優化算法以及智能搜索算法進行求解。 文獻[9]針對傳統目標優化算法難以解決混合變量和多個復雜約束的問題, 提出了一種基于拐點的協同多目標粒子群優化算法。 文獻[10]考慮不確定性因素對任務分配結果的影響, 基于模糊可信性理論提出了一種模糊機會約束規劃模型, 并采用自適應參數調整策略等多種方法對模型進行了優化, 使得模型在不確定性環境下的表現有所提升。 文獻[11]提出一種基于合同網的分布式多無人機任務分配方法, 解決了通信約束下的異構無人機察打任務分配問題。 上述傳統的優化算法, 大多未考慮任務執行過程的不確定性, 或者在處理環境不確定性時引入人為的主觀因素, 難以實現戰場環境下的動態任務調度。 在動態戰場環境下, 傳統的優化方法在資源能力和復雜環境不確定性的雙重影響下, 容易出現實時求解不可行的問題。

近年來, 深度強化學習技術的不斷發展為動態不確定環境下的任務分配問題求解提供了新的解決思路。 文獻[12]將任務分配問題建模為馬爾可夫決策過程, 提出了一種基于強化學習的任務分配方法, 能夠在考慮環境不確定性的情況下進行任務分配, 與搜索優化算法相比取得了更優的求解效率。 文獻[13]針對集群在線任務分配存在的環境不確定、 耗時過長等問題提出了一種基于分區間強化學習的快速任務分配算法。 與傳統優化算法相比, 上述方法在解決不確定性問題方面具有一定的優勢, 然而仍局限于靜態問題, 通常假設在任務分配開始前就已經獲得所有任務的全部信息, 任務執行過程的實際狀態并未得到充分考慮。 在戰場對抗環境中, 實際任務需求往往難以獲得精確估計。 如擊毀某目標建筑物所需自殺式無人機數目通常難以預知, 需要根據任務執行過程進行無人機動態調度和編組調整。 上述靜態任務分配缺乏對于任務執行過程中突發事件的響應能力, 而利用多智能體強化學習進行任務需求到無人機動作的端到端生成往往存在稀疏獎勵的問題, 導致訓練難以收斂[14。 針對以上問題, 基于分層解耦的方法可實現動態環境下的有效任務響應[15-16。 如文獻[17]提出了一種根據任務執行效能反饋對任務進行優化再分配的架構, 在具有較強外部擾動環境下, 實現了彈性任務分配。

為了實現任務動態響應, 同時緩解強化學習訓練過程存在的稀疏獎勵問題, 本文提出了一種具有分層反饋結構的任務分配框架, 通過任務評估模塊構建任務執行到任務分配的反饋機制, 根據實際任務效果動態調整任務分配結果, 從而應對實際戰場環境帶來的不確定性。 基于深度Q網絡求解任務分配問題, 利用任務評估模塊實時反饋當前時步任務信息, 以緩解僅考慮任務完成結果導致的稀疏獎勵, 并設計動作過濾機制提升訓練的收斂速率。 當任務執行受阻時, 該框架可根據任務執行反饋的數據重新評估任務需求, 并更新任務分配方案, 直至總體目標達成。 相比于文獻[9-13], 本文提出方法的優勢可總結如下:

(1)" 通過任務執行反饋信息及時對無人編組構成進行調整, 充分考慮了環境不確定性對任務分配結果的影響, 實現對戰場態勢的快速動態響應, 同時避免了傳統優化方法存在的求解可行性問題。

(2)" 采用計算解耦的思想, 緩解了強化學習算法中稀疏獎勵導致訓練難收斂的問題, 在深度Q網絡的基礎上, 引入了動作過濾機制, 提升了模型的訓練速度和訓練效果。

1 無人編組動態任務分配模型

本文主要考慮戰場不確定性環境下的無人編組任務分配問題, 即在給定異構無人機能力情況和初始任務部分信息的條件下, 生成任務分配方案從而組建無人編組執行指定任務, 同時能夠根據無人編組的任務執行效果動態調整任務分配方案以滿足實際任務需求。 其中任務分配指根據已知信息按照優先級順序為每個任務構建無人編組, 使得任務能夠完成且執行成本最低。 由于在任務開始前, 難以獲得關于任務的完整信息, 且環境條件使得無人編組實際執行效能具有不確定性, 因此需要在任務執行過程中, 通過任務執行評估模塊根據執行狀況對前期估計的任務需求進行調整, 并適時調整分配方案以動態應對未知或突發狀況。

1.1 任務分配

假設共有Nk種類型的無人機可供調用, 設i種類型的無人機可供調用的數量為Nui。 不同類型的無人機具有不同的若干種能力屬性, 如隱身能力、 偵察能力等。 設Nk種類型的無人機共有Nc種能力, 由矩陣 Fu∈瘙綆Nk×Nc表示。 其中Fuij 表示第i種類型的無人機第j種能力屬性的大小。 假設無人機的能力屬性受到天氣等環境因素的影響。 給定任務周邊環境條件Env(Tk)下, 第j種能力屬性的實際效能服從高斯分布N(μjk, σjk), 其中μjk, σjk為給定的經驗值。

設當前戰場上有Nt個需要監視、 攻擊或驅趕的目標, 因此需要對每個目標執行特定戰術任務。 設任務間不存在相互依賴, 每個任務Tm需要由一組具有相應能力的無人機協作完成, 如完成近距離偵察任務的一組無人機需要具備隱身、 偵察和信息傳輸的能力。 完成任務所需的能力使用任務能力需求矩陣Ft∈瘙綆Nt×Nc表示。 當分配的一組無人機能夠提供任務所要求的全部能力時, 認為該任務能夠順利執行。 考慮資源有限條件下, 可能存在有任務無法被立即完成的情況, 因此根據任務緊迫性與重要程度, 對任務優先級進行評估, 優先確保重要任務能夠完成。 設任務集合T表示當前戰場中存在的所有作戰任務, 則T={T1, T2, …, TNt}, 其中下標表示該任務的優先級。

任務分配問題, 即為每個任務Tm分配一組滿足約束的無人機, 使得任務能夠完成且執行成本最低。 由此, 構建任務m的代價函數:

Rm(dm, δ+m)=-wmdm+dm∑Ncj=1δ+m, j (1)

代價函數由任務完成情況和資源冗余兩部分組成。 式中: wm表示任務m的優先級權重; dm為0, 1變量, 表示任務m是否滿足其全部能力需求; δ+m, j表示任務m中能力j超出需求的程度。 考慮任務需求與環境因素影響, 建立任務分配的混合整數線性規劃問題模型:

mina, δ+m, j, δ-m, j, b, dJ=∑Ntm=1Rm(dm, δ+m)

s.t.

am, -fa(Fu|Env(Tm))-, j=Ftm, j+δ+m, j-δ-m, j

am, -fa(Fu|Env(Tm))-Ftm, j≥-M(1-bm, j)

bm, -C-, m≥-M(1-dm)

a-, j1≤Nui

δ+m, j≥0, δ-m, j≥0, j∈{1, …, Nk}

ami∈

i∈{1, …, Nk},

j∈{1, …, Nc}, m∈{1, …, Nt}" (2)

式中: a∈t×Nk表示任務分配結果矩陣, am, -表示矩陣的第m行, 即任務m的分配結果; δ-m, j表示任務m的能力j不滿足需求的程度; bm, j為0, 1變量, 若任務m的能力j滿足約束要求, 則bm, j=1," 未被滿足則為0。 fa(Fu|Env(Tm))表示無人機在任務地點附近環境條件Env(Tm)下實際具備的能力; M為無限大正數, 1為全1向量。 C∈Nt為任務能力特征矩陣:

C-, m=(Ft)T·diag1vm-, m(3)

式中: vm為(Ft)T第m列的元素之和, 即矩陣C的每一列元素之和為1。

在上述模型中, 優化目標為盡可能使優先級較高的任務需求得到滿足, 并減少資源冗余。 式(2)中第一條約束中松弛量δ+m, j, δ-m, j分別表示任務m所需能力j冗余和未被滿足的部分, 通過在目標函數中極小化分配成功的任務的能力冗余量實現資源的合理分配。 式(2)中第二條約束通過引入變量bm, j對任務中單項能力是否滿足進行標記。 約束3通過任務能力特征矩陣C判斷該任務所需能力是否得到滿足, 并通過變量dm表示, 通過在目標函數中對dm進行加權, 使得優先級較高的任務需求能夠優先被滿足。 約束4保證分配方案具有可行性。

1.2 任務評估反饋

考慮在戰場不確定性環境中, 通常難以在任務開始前獲得關于任務的全部準確信息, 因此為了能夠順利完成任務, 以及應對執行過程中的突發狀況, 需要通過任務執行狀態對預先估計的任務需求進行不斷調整。

假設所有參與任務的無人機都能夠與指控中心通信。 在任務開始前根據已知情報, 評估各任務需求并給出Ft。 設無人機系統理論狀態滿足:

x·sim=f(xsim)+g(xsim)u(4)

式中: xsim為無人機理論狀態; u為無人機控制輸入。 考慮到突發的惡劣天氣以及對方陣地未知的對空防御力量等狀況可能會導致無人機偏離預定理論軌跡, 無人機任務實際執行狀態定義為xact, 并與任務實際情況Tr有關:

xact=J(xsim, u, Tr)(5)

式中: Tr為未知常量。 狀態評估反饋問題可表述為, 給出無人機實際執行狀態, 通過評估函數更新任務估計需求Te:

Te←E(xsim, xact, Te) (6)

使得Te逐漸接近任務真實情況Tr。

2 基于分層反饋的任務分配問題求解

針對上述問題, 本文提出了一個基于分層反饋結構的任務規劃框架," 如圖1所示。"" 任務分配算法基于DQN(Deep Q-Learning Network), 并利用任務執行效能形成反饋機制。 任務評估模塊通過接受執行層反饋的無人機狀態數據, 對當前任務的狀態進行評估, 當預期執行結果與實際執行結果出現偏差時, 重新估計任務實際能力需求, 同時對任務分配約束進行修正并重新分配。 2.1 任務分配算法

2.1.1 強化學習方法與基本要素

強化學習方法通過智能體與環境的不斷交互, 對策略進行不斷優化, 通常使用馬爾可夫決策過程(MDP)對其進行描述。 MDP可由五元組{S, A, P, R, γ}進行表示, 其中S表示狀態空間, A表示動作空間, P表示狀態轉移概率, R表示智能體在狀態s下采取動作a獲得的瞬時獎勵, γ表示折扣因子, 用于計算累計回報。 在MDP中, 智能體觀察環境狀態s并根據策略π選擇動作a, 環境按照轉移概率過渡到下一狀態s′, 并給出獎勵R。

在深度強化學習算法中, DQN是一類較為常見的算法。 DQN算法使用深度網絡對狀態動作價值函數Q(s, a)進行估計, 訓練完成后利用Q(s, a)實現決策; 通常使用經驗回放和target網絡更新其網絡參數, 其模型參數θ的更新方法如下:

θ←θ+α[R+γmaxa′Q(s′, a′; θ-)-

Q(s, a; θ)]Q(s, a; θ) (7)

式中: α為學習率; (s, a)為當前狀態動作對; (s′, a′)為下一時刻的狀態動作對; θ-為target網絡的參數。

2.1.2 任務分配問題的馬爾可夫決策過程

將1.1節中所述的任務分配問題建模為MDP, 其中各元素定義如下:

(1) 狀態空間: 狀態空間表示了當前任務分配的狀況, 針對任務分配問題, 設計狀態s為

sTm=[n1, …, nNk, FTm1, …, FTmNf, Env(Tm)](8)

式中: Tm表示當前正在進行分配的任務; ni表示第i種無人機當前可供分配的數量; FTmj表示任務Tm對于第j種能力的需求在當前分配狀態下仍未被滿足的部分; Env(Tm)表示任務所處的環境狀態。

(2) 動作空間: 指控中心在一次動作中, 選擇一架無人機a并分配給任務Tm:

a∈A=[1, …, Nk](9)

(3) 獎勵函數: 獎勵函數是智能體進行學習的重要引導。 考慮式(2)中提出的任務約束, 根據約束滿足的不同情況, 給予該輪分配相應的獎勵:

R=r1-k·w(αm, -, fa, FTm, -), w≥0

r2·(Fua)Tsgn(FTm, -), wlt;0" (10)

w(am, -, fa, FTm, -)=am, -fa(Fu|Env(Tm))-FTm, -am, -fa(Fu|Env(Tm))

式中: r1, r2, k為給定的常數, 且r2lt;r1。 w(αi, -, Fa, FTi, -)表示當前能力與任務需求之間的相對關系, 當前分配的無人編組能夠提供的能力大于任務需求時, 該值為正, w表示當前能力冗余的比例; 若當前分配的無人編組能夠提供的能力小于任務需求, 該值表示能力欠缺的程度。 上述獎勵函數的含義為, 當分配結果能夠滿足任務需求時, 即任務分配完成時, 給予一個較大的獎勵, 且獎勵數值與冗余程度呈負相關; 當任務分配尚未完成時, 則計算當前動作在需求能力和冗余能力兩個方向的增量并給予較小獎勵。 對于當前分配所能提供的能力值尚未滿足任務需求的能力種類, 稱其為需求能力; 冗余能力則指當前能力已經超過任務需求的能力種類。 若當前動作對于任務的需求能力增加量大于冗余能力增加量時, 給予微小獎勵, 否則給予微小懲罰。

(4) 狀態轉移: 經過一次分配動作后, 任務Tm被分配了一架a型號的無人機, 相應的可供分配的a類型的無人機數量減少, 同時任務需求相應減少:

na←na-1

[FTm1, …, FTmNf]←[FTm1, …, FTmNf]-

[0, …, 1, 0, …, 0]fa(Fu|Env(Tm))(11)

當i∈[1, Nc], FTmi≤0時, 本輪分配結束。

2.1.3 動作過濾機制

針對帶有約束的優化問題, 本文引入了一種動作過濾機制。 通過該機制將全部動作空間中違反約束或在目標方向上增量為0的動作剔除, 生成可行動作空間, 進而加快Q網絡的訓練速度, 同時, 保證輸出結果始終為可行解。

設計二進制掩碼矩陣:

M=[m1, m2, …, mNk], mi∈{0, 1}(12)

式中: mi=1表示在該輪迭代中, ai為可用動作, 否則, 表示動作ai違反約束或不可能獲得獎勵, 為不可用動作。 得到可行動作空間為

Aa={ai|mi=1}(13)

針對可用無人機數量的約束, 構造掩碼M1:

M1=kron1([N1, …, NNk]-[n1, …, nnk])(14)

式中: kronn為克羅內克脈沖函數, 其定義為

kronn(x)=1, x=n0, x≠n (15)

進一步, 也可以使用掩碼去除與完成該項任務無關的無人機。 構造掩碼M2:

M2=H(Ftm, -Fu)(16)

式中: H(x)為單位階躍函數。 綜合M1, M2得M:

mi=m1i*m2i (17)

2.1.4 基于DQN的任務分配算法

基于DQN算法, 本文采用了全連接神經網絡對Q函數進行擬合。 在訓練初期, 智能體隨機選擇動作, 并獲得獎勵, 生成的動作記錄進入經驗池中用于后續的學習。 為了提高網絡訓練的穩定性和收斂性, Q網絡的參數按照固定時間間隔進行更新。 同時為了提高經驗池中具有較高經驗價值數據的利用效率, 采用優先經驗回放的方式對經驗池中的數據進行管理和采樣。 圖2簡要描述了本文所使用的Q網絡的訓練方法。

通過訓練得到Q網絡的一組權值后, 基于Q函數給出的狀態動作對價值, 針對每一個狀態s, 選擇當前狀態

算法1: Q網絡訓練

輸入: 采樣數量E, 目標網絡更新頻率C, 最大訓練輪數M, 學習率α等網絡參數

輸出: Q網絡Q(·, w)

1.初始化經驗回放池D

2使用隨機權重初始化網絡Q

3.生成與Q網絡相同的target Q網絡

4.當訓練輪數小于M時:

5.初始化環境狀態s

6.判斷當前任務是否分配完成, 若未完成:

7.計算可行動作空間Aa

8.若訓練步數小于K:

9.在可行動作空間中隨機選擇動作a

10.否則:

11.在可行動作空間中選擇Q值最大的動作

12.計算獎勵值R并更新環境狀態為s′

13.將動作記錄(s, a, r, s′)存放至經驗池中, 并更新經驗池

權重

14.從經驗池中根據權重大小抽取E條數據

15.更新Q網絡權值

16.每C步, 將Q網絡的參數同步至target Q網絡

17.返回Q網絡及其權重參數

下可行動作空間中價值最高的動作a。 根據任務優先級由高至低為每個任務分配無人機, 當任務約束條件滿足, 則判定該任務分配完成, 開始為下一項任務分配無人機。 直至所有任務約束條件滿足, 或所有無人機被分配完畢。 算法流程如圖3所示。

算法2: 基于DQN的任務分配算法

輸入: 算法1中訓練得到的Q網絡

輸出: 將無人機分配至任務集合T的一組分配方案a

1.根據任務T1初始化狀態s

2.當仍有無人機未分配且仍有任務尚未滿足約束時:

3.根據當前狀態s, 計算所有動作的狀態動作價值函數Q(s, a, w)

4.根據當前狀態s, 計算掩碼M, 以及可行動作空間Aa

5.從可行動作空間Aa中選擇Q值最高的動作

6.若當前任務未分配完畢:

則根據狀態轉移規則更新當前狀態

7.否則:

根據下一項任務初始化狀態s

8.返回當前狀態, 即任務分配結果

2.2 任務評估反饋

為了應對未知環境, 本文在框架中建立了任務評估模塊, 并通過該模塊建立任務執行與任務分配之間的反饋, 通過觀測無人機在實際任務過程中的表現, 對預先估計的任務需求進行修正, 進而調整無人機任務分配方案, 從而實現對戰場態勢的動態響應。

設無人機在無外界干擾的情況下, 始終按照給定控制量運動。 基于此假設, 可以通過測量無人機實際狀態與預期狀態之間的差異, 來評估任務執行的程度。

設系統狀態滿足:

x·=f(x)+g(x)u(18)

則給定控制量u, 系統理論狀態為

xtsim=xt-1act+(f(xt-1act)+g(xt-1act)u)Δt(19)

然而, 當無人機集群的能力不足以克服外界擾動完成任務時, 則無人機無法完全按照給出的控制信號行進。 如當無人機接近任務位置時, 若當前能力無法突破對方防御, 則無人機將難以按照預定計劃繼續推進。 記此時無人機實際狀態為xtact:

xtact=xt-1act+(f(xt-1act)+g(xt-1act)u)Δt+

D(xt-1act, Ftm, -, a) (20)

式中: D(xt-1act, Ftm, -, a)為環境擾動。 記t時刻無人機的執行性能Pu為實際狀態變化量在理論狀態變化量方向的投影, 即

Pu=projx·simx·act=

(f(xt-1act)+g(xt-1act)u)Δt-xt-1act·xtact-xt-1act·cosθ (21)

在此基礎上, 定義任務T的總體執行效能Pt為該任務編隊中所有無人機執行性能的均值:

Pt=1Ntm∑Ntmi=1Pu(22)

當任務執行效能出現下降時, 采集任務中所有無人機的實際運行狀態xact, 通過最小化誤差平方和對實際任務需求Ftm, -進行估計并更新:

Ftm, -←argminFtm, -∑Ntmi=1(xtact-(xt-1act+(f(xt-1act)+

g(xt-1act)u)Δt+D(xt-1act, Ftm, -, a)))2(23)

當任務需求發生變化時, 觸發任務重分配機制, 利用2.1.4節中所述基于DQN的任務分配算法重新生成分配方案。

3 仿真實驗

3.1 仿真設定

設定仿真任務區域為10 km×10 km的正方形區域[18, 仿真步長為0.1 s。 該區域內共有三個待執行任務, 各任務實際所需的能力種類以及數值如表1所示。

表1中不同能力的量綱不同, 能力1表示光電感知能力, 能力數值取決于無人機的光電傳感器感知范圍; 能力2表示雷達感知能力, 能力數值取決于無人機的雷達感知范圍; 能力3表示電磁干擾能力, 能力數值取決于無人機的電磁干擾的頻段和功率大??; 能力4表示火力打擊能力, 能力數值取決于無人機搭載的彈藥數和彈藥毀傷能力。 任務1為偵察任務, 任務2和任務3均為察打任務。 其中, 由于敵方在任務過程中突然增加防守兵力, 任務3所需三種能力數值在t=4.5 s時均增加為25。 假設初始時刻指控中心已知任務需要的能力種類但未知實際能力需求數值, 設置任務所有能力數值初始估計為10, 并在任務執行過程中不斷對任務能力估計值進行修正。

初始時, 所有無人機位于同一初始位置區域, 共有4種, 每種各15架無人機可供調用。 各無人機具有的能力屬性如表2所示。 無人機類型主要取決于其具備的能力屬性, 如類型1無人機為搭載光電傳感器和電磁干擾裝置的偵察無人機, 類型2無人機為搭載雷達的偵察無人機, 類型3無人機為搭載光電傳感器、 電磁干擾裝置和導彈的察打無人機, 類型4無人機為搭載雷達和導彈的察打無人機。

各類能力屬性, 在不同天氣狀況下的實際表現出的能力與標稱能力的比值近似服從均值為σwhe, j、 方差為0.05的高斯分布, 不同能力屬性受不同天氣情況的影響情況如表3所示。

派遣執行任務的無人機在接到分配指令后從初始位置出發前往任務地點執行任務。 設無人機的最大速度為100 m/s, 當到達任務點的無人機能力總和達到任務能力需求時, 認為該任務能夠順利執行完畢。

3.2 任務分配算法訓練結果

實驗設定的超參數如表4所示。

根據表4所示參數, 對含動作過濾機制和不含動作過濾機制的算法分別進行60 000輪訓練, 每200個回合計算一次單回合的平均獎勵, 訓練過程中平均獎勵的變化曲線如圖4所示。

由上圖可知, 算法在約25 000回合后達到收斂。 相比于無動作過濾機制的算法, 有動作過濾機制的算法在訓練過程中獎勵收益更為平穩, 平均值也更高。

3.3 算法性能分析

為了對本文所提出算法的性能進行分析, 利用訓練后得到的模型驅動無人機執行任務, 測試場景設置與3.1節保持一致。 所有無人機假設均從固定初始位置起飛, 任務執行過程的關鍵時間節點截圖如圖5所示。

圖5中L1、 L2、 L3和L4分別代表類型1、 類型2、 類型3和類型4的無人機, 無人機軌跡顏色與其類型對應, 藍色圓形代表三個任務T1、 T2和T3。 以無人機為圓心的圓表示其感知范圍, 與任務過程對應的三個任務的任務效能評估結果以及任務需求滿足情況如圖6~8所示。

由圖5(a)可知, t=0.6 s時, 三架1型無人機、 一架2型無人機和兩架4型無人機被分配給T1; 一架2型無人機和兩架4型無人機被分配給T2; 兩架1型無人機、" 一架3型無人機和兩架4型無人機被分配給T3。 此時的分配基于估計的任務需求而非實際的任務需求, 因此在圖6~8中, 在初始階段三個任務的實際需求都未被分配的無人機能力滿足。 圖6(a)中, t=2.1 s時, 分配給T1的無人編組受到環境影響導致估計的任務性能發生顯著下降, 此時算法對任務需求進行重估計, 并對無人機進行重分配。 由圖5(b)可知, 增加三架1型無人機、 一架2型無人機和一架4型無人機執行任務T1。 圖6(b)中, t=2.2 s時, 新增的無人機形成的新的無人編組已經達到任務T1的實際需求。 圖5(c)中, 已到達T1任務位置的無人機感知范圍無法完全覆蓋目標區域, 而在圖5(d)中, 后續分配的無人機具備更大的感知范圍, 整個無人機編組最終成功實現對目標區域的全覆蓋。 類似地, 圖7(a)中, t=2.9 s時, 分配給T2的無人編組任務進程受阻, 重分配后增加一架2型無人機和兩架4型無人機執行T2。 圖7(b)中, 負責任務T2的編組在t=3.2 s后能力已超過實際任務需求。 因此, 執行T2的無人編組滿足任務需求, 在圖5(d)中, 該編組發現目標且對目標形成了打擊(無人機和目標距離小于彈藥打擊范圍)。 由圖8(b)可知, 除環境干擾導致的任務性能受阻外, t=4.5 s時, 原有任務需求由10增長為25。 盡管無人編組經過重分配在t=4.5 s之前已經滿足了原有任務需求, 但是由于需求的變化, 無人編組的能力已不足以完成原有任務。 圖8(a)中, 分配給T3的無人編組任務進程受阻, 重分配后增加一架1型無人機、 一架3型無人機和一架4型無人機執行T3, 對應可視化界面見圖5(d)。 由圖8(b)可知, t=6.3 s之后, 新增的任務需求再次被滿足, 任務T3也可被順利完成。 當算法不具備反饋機制時, 其任務執行情況如圖9~11所示, 在任務效能出現下降后由于未能及時調整分配做出響應, 導致任務效能迅速下降, 最終任務未能執行成功。

4 結" 論

針對動態戰場環境下異構無人機的任務分配問題, 在考慮任務執行過程和任務需求的不確定性的基礎上, 設計了一種基于任務評估反饋的異構無人機動態任務分配方法, 利用全連接神經網絡對Q函數進行擬合生成任務分配方案, 并通過任務分配執行解耦設計避免稀疏獎勵對訓練過程收斂速度的影響。 仿真實驗結果表明, 該方法能夠較為有效地應對外界因素導致無人機執行任務效能下降的情況, 通過反饋機制實現任務重分配, 從而根據任務實際需求調整任務編成, 最終實現較高的任務完成率。

本文的工作基于集中式任務分配與調度, 對通信網絡的依賴程度較高。 當任務環境較為惡劣時, 無人機與指控中心的通信穩定性往往難以保證, 任務評估反饋的結果可能難以實時回傳至指控中心。 在這種情況下, 本文提出的方法在任務響應方面可能會存在較大的延時。 未來將研究分布式、 自組織的任務分配方法, 利用歷史任務數據構建典型任務場景庫, 結合模仿學習等方法訓練無人編組的動態組織與分配調整策略, 并嘗試利用較少的通信次數實現有效任務協同。

參考文獻:

[1] 李鵬舉, 毛鵬軍, 耿乾, 等. 無人機集群技術研究現狀與趨勢[J]. 航空兵器, 2020, 27(4): 25-32.

Li Pengju, Mao Pengjun, Geng Qian, et al. Research Status and Trend of UAV Swarm Technology[J]. Aero Weaponry, 2020, 27(4): 25-32.(in Chinese)

[2] 李博宸, 牛雙誠, 丁璐, 等. 面向海上目標打擊的無人編組彈性運動規劃[J/OL]. 航空學報,doi: 10.7527/S1000-6893.2023.29455.

Li Bochen, Niu Shuangcheng, Ding Lu, et al. Unmanned Group Resilient Motion Planning for Attacking Surface Targets[J/OL]. Acta Aeronautica et Astronautica Sinica, doi: 10.7527/S1000-6893.2023.29455.(in Chinese)

[3] Notomista G, Mayya S, Hutchinson S, et al. An Optimal Task Allocation Strategy for Heterogeneous Multi-Robot Systems[C]∥18th European Control Conference (ECC) , 2019: 2071-2076.

[4] 嚴飛, 祝小平, 周洲, 等. 考慮同時攻擊約束的多異構無人機實時任務分配[J]. 中國科學: 信息科學, 2019, 49(5): 555-569.

Yan Fei, Zhu Xiaoping, Zhou Zhou, et al. Real-Time Task Allocation for a Heterogeneous Multi-UAV Simultaneous Attack[J]. Scien-tia Sinica (Informationis), 2019, 49(5): 555-569.(in Chinese)

[5] 鄒智偉, 鄒強, 尹肖云, 等. 基于時間協同的異型反艦導彈集群作戰目標分配策略研究[J]. 航空兵器, 2023, 30(1): 19-24.

Zou Zhiwei, Zou Qiang, Yin Xiaoyun, et al. Research on Allocation Strategy of Special-Shaped Anti-Ship Missile Cluster Combat Target Based on Time Coordination[J]. Aero Weaponry, 2023, 30(1): 19-24.(in Chinese)

[6] 鄭習羽, 徐梓毓, 王京華. 基于聚類分組的異構多機器人任務分配算法研究[J]. 航空兵器, 2022, 29(4): 100-109.

Zheng Xiyu, Xu Ziyu, Wang Jinghua. Research on Task Allocation of Heterogeneous Multi-Robot Based on Cluster Grouping Algorithm[J]. Aero Weaponry, 2022, 29(4): 100-109.(in Chinese)

[7] Neville G, Chernova S, Ravichandar H. D-ITAGS: A Dynamic Interleaved Approach to Resilient Task Allocation, Scheduling, and Motion Planning[J]. IEEE Robotics and Automation Letters, 2023, 8(2): 1037-1044.

[8] Zhen Z Y, Chen Y, Wen L D, et al. An Intelligent Cooperative Mission Planning Scheme of UAV Swarm in Uncertain Dynamic Environment[J]. Aerospace Science and Technology, 2020, 100: 105826.

[9] 王峰, 黃子路, 韓孟臣, 等. 基于KnCMPSO算法的異構無人機協同多任務分配[J]. 自動化學報, 2023, 49(2): 399-414.

Wang Feng, Huang Zilu, Han Mengchen, et al. A Knee Point Based Coevolution Multi-Objective Particle Swarm Optimization Algorithm for Heterogeneous UAV Cooperative Multi-Task Allocation[J]. Acta Automatica Sinica, 2023, 49(2): 399-414.(in Chinese)

[10] 張安, 楊咪, 畢文豪, 等. 基于多策略GWO算法的不確定環境下異構多無人機任務分配[J]. 航空學報, 2023, 44(8): 327115.

Zhang An, Yang Mi, Bi Wenhao, et al. Task Allocation of Hetero-geneous Multi-UAVs in Uncertain Environment Based on Multi-Strategy Integrated GWO[J]. Acta Aeronautica et Astronautica Sinica, 2023, 44(8): 327115.(in Chinese)

[11] 陳璞, 嚴飛, 劉釗, 等. 通信約束下異構多無人機任務分配方法[J]. 航空學報, 2021, 42(8): 525844.

Chen Pu, Yan Fei, Liu Zhao, et al. Communication-Constrained Task Allocation of Heterogeneous UAVs[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(8): 525844.(in Chinese)

[12] Zhao X Y, Zong Q, Tian B L, et al. Fast Task Allocation for He-terogeneous Unmanned Aerial Vehicles through Reinforcement Learning[J]. Aerospace Science and Technology, 2019, 92: 588-594.

[13] 黃卓, 徐振, 郭健, 等. 基于分區間強化學習的集群導彈快速任務分配[J]. 控制理論與應用, 2023, 40(6): 1129-1139.

Huang Zhuo, Xu Zhen, Guo Jian, et al. Fast Task Allocation for Missile Swarm Based on Sectioned Reinforcement Learning[J]. Control Theory amp; Applications, 2023, 40(6): 1129-1139.(in Chinese)

[14] Pope A P, Ide J S, Mic′ovic′ D, et al. Hierarchical Reinforcement Learning for Air Combat at DARPA’s AlphaDogfight Trials[J]. IEEE Transactions on Artificial Intelligence, 2023, 4(6): 1371-1385.

[15] Pope A P, Ide J S, Mic′ovic′ D, et al. Hierarchical Reinforcement Learning for Air-to-Air Combat[C]∥International Conference on Unmanned Aircraft Systems (ICUAS), 2021: 275-284.

[16] Seraj E, Chen L T, Gombolay M C. A Hierarchical Coordination Framework for Joint Perception-Action Tasks in Composite Robot Teams[J]. IEEE Transactions on Robotics, 2022, 38(1): 139-158.

[17] Mayya S, D’antonio D S, Saldaa D, et al. Resilient Task Allocation in Heterogeneous Multi-Robot Systems[J]. IEEE Robotics and Automation Letters, 2021, 6(2): 1327-1334.

[18] 王爽宇, 申慶茂, 孫銘陽, 等. 基于改進NSGA-Ⅲ算法的多無人機協同目標分配[J/OL]. 航空兵器, doi: 10.12132/ISSN.1673-5048.2023.0222.

Wang Shuangyu, Shen Qingmao, Sun Mingyang, et al. Multi-UAV Cooperative Target Assignment Based on Improved NSGA-Ⅲ Algorithm[J/OL]. Aero Weaponry, doi: 10.12132/ISSN.1673-5048.2023.0222.(in Chinese)

Dynamic Task Allocation for Heterogeneous UAVs

Based on Task Evaluation Feedback

Zhang Youan1, 2, He Ziqi2, Li Bochen2, Song Lei2*

(1. College of Intelligent Science and Engineering, Yantai Nanshan University, Yantai 265713, China;

2. School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)

Abstract: Task allocation for heterogeneous UAVs in a dynamic battlefield environment is one of the critical techniques for rapid combat capability generation of UAVs. A dynamic task allocation method based on task execution feedback is proposed to address the challenges of task demand changes and potential feasibility issues caused by battlefield uncertainty which have not been well-solved by existing studies. By designing a task evaluation feedback module, real-time monitoring of the UAVs’ task performance is achieved, and an event triggered mechanism is utilized to respond to changing task requirements in a dynamic environment. Heterogeneous UAVs allocation is implemented based on the deep Q-learning network. By the utilizing the decoupling of task allocation and execution as well as a designed action filtering mechanism, the difficulty of training convergence caused by sparse rewards in traditional reinforcement learning is overcome, which forms a dynamic and fast real-time task response scheme. The simulation results show that the proposed method can effectively deal with task failures caused by uncertain battlefield environments, and ultimately achieve a better task completion rate than existing methods.

Key words:" UAVs;" task allocation; battlefield uncertainty; task evaluation;" sparse rewards; deep Q-learning network;" reinforcement learning

猜你喜歡
無人機
基于蟻群算法的一種無人機二維航跡規劃方法研究
無人機動態跟蹤展示系統設計
無人機配送的障礙性因素分析
無人機在海上人命救助中的應用
植保無人機操作規程及注意事項
高職院校新開設無人機專業的探討
人間(2016年26期)2016-11-03 17:52:40
利用無人機進行航測工作的方式方法
一種適用于輸電線路跨線牽引無人機的飛行方案設計
科技視界(2016年22期)2016-10-18 14:30:27
淺析無人機技術在我國的發展前景
企業導報(2016年9期)2016-05-26 20:58:26
主站蜘蛛池模板: 自偷自拍三级全三级视频 | 免费看黄片一区二区三区| 欧日韩在线不卡视频| 国产欧美性爱网| 这里只有精品免费视频| 日韩麻豆小视频| 亚洲国产91人成在线| 中文字幕 91| 香蕉久久国产超碰青草| 亚洲无线国产观看| 亚洲av综合网| 国产亚洲欧美日韩在线一区| 久无码久无码av无码| 人妻中文字幕无码久久一区| 欧美伊人色综合久久天天| 怡春院欧美一区二区三区免费| 亚洲中文字幕久久精品无码一区| 色有码无码视频| 国产青青草视频| 天天躁夜夜躁狠狠躁图片| 久久 午夜福利 张柏芝| 美女扒开下面流白浆在线试听| 1024你懂的国产精品| 国产又爽又黄无遮挡免费观看| 欧美精品成人一区二区在线观看| 无码免费视频| 国产香蕉在线视频| 五月婷婷亚洲综合| 欧美在线观看不卡| 国产久操视频| 亚洲成人77777| 宅男噜噜噜66国产在线观看| 国语少妇高潮| 漂亮人妻被中出中文字幕久久| 少妇高潮惨叫久久久久久| 高清欧美性猛交XXXX黑人猛交 | AV不卡在线永久免费观看| 精品视频第一页| 中文字幕天无码久久精品视频免费| 欧美一区二区自偷自拍视频| 国产欧美日韩免费| 国产91av在线| 亚洲毛片一级带毛片基地| 2019国产在线| 性激烈欧美三级在线播放| 中文字幕伦视频| 久久久精品无码一二三区| 欧美日韩亚洲综合在线观看| 欧美精品v欧洲精品| 国产极品美女在线播放| 国产chinese男男gay视频网| 亚洲一级无毛片无码在线免费视频| 国内精品自在欧美一区| 免费一级α片在线观看| 午夜视频www| 久久性妇女精品免费| 久久国产精品电影| 国产综合精品日本亚洲777| 亚洲国内精品自在自线官| 巨熟乳波霸若妻中文观看免费| 欧美一级视频免费| 午夜老司机永久免费看片| 色天堂无毒不卡| 国产欧美又粗又猛又爽老| 亚洲国产成人综合精品2020| 91色综合综合热五月激情| 亚洲免费毛片| 日韩精品无码不卡无码| 国产精品亚洲片在线va| 精品国产中文一级毛片在线看 | 国产小视频在线高清播放 | av在线人妻熟妇| 2021国产精品自产拍在线| 亚洲AⅤ无码国产精品| 久久精品国产91久久综合麻豆自制| 无码国产伊人| 97视频免费在线观看| 免费高清a毛片| 亚洲第一黄片大全| 伊人久久大线影院首页| 伊人国产无码高清视频| 波多野结衣久久高清免费|