999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

無(wú)人機(jī)集群對(duì)抗決策算法研究綜述

2024-10-19 00:00:00李濰黃詩(shī)怡劉宏明孫張俊
航空科學(xué)技術(shù) 2024年4期

摘 要:無(wú)人機(jī)集群博弈對(duì)抗已經(jīng)成為未來(lái)戰(zhàn)爭(zhēng)的發(fā)展趨勢(shì),無(wú)人機(jī)對(duì)抗決策算法的選擇對(duì)提升無(wú)人機(jī)集群作戰(zhàn)能力至關(guān)重要。本文深入探討了基于規(guī)則的、基于博弈論的和基于神經(jīng)網(wǎng)絡(luò)的三大類(lèi)無(wú)人機(jī)集群博弈對(duì)抗決策算法,并對(duì)它們的優(yōu)勢(shì)和局限性進(jìn)行了全面分析與總結(jié)。在此基礎(chǔ)上,提出將“基于多智能體強(qiáng)化學(xué)習(xí)的信用分配模型”和“基于角色的多智能體強(qiáng)化學(xué)習(xí)模型”應(yīng)用于無(wú)人機(jī)集群博弈對(duì)抗的研究思路。最后,強(qiáng)調(diào)了選擇適當(dāng)?shù)臎Q策算法對(duì)于提高無(wú)人機(jī)集群作戰(zhàn)效能的重要性,并為未來(lái)無(wú)人機(jī)對(duì)抗決策的發(fā)展提出了有益的建議,為相關(guān)領(lǐng)域的研究和應(yīng)用提供了深入見(jiàn)解。

關(guān)鍵詞:無(wú)人機(jī)集群; 博弈對(duì)抗; 專(zhuān)家系統(tǒng); 博弈論; 多智能體強(qiáng)化學(xué)習(xí)

中圖分類(lèi)號(hào):V279 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.19452/j.issn1007-5453.2024.04.002

基金項(xiàng)目: 航空科學(xué)基金(20200058069001)

現(xiàn)代戰(zhàn)爭(zhēng)形式呈現(xiàn)多樣化特征,各種武器裝備層出不窮,作為一種替代人類(lèi)執(zhí)行高風(fēng)險(xiǎn)、高難度任務(wù)的工具,無(wú)人機(jī)具備廣泛的應(yīng)用前景[1-2]。然而,獨(dú)立行動(dòng)的無(wú)人機(jī)面臨載荷能力有限、戰(zhàn)術(shù)預(yù)測(cè)性不足等問(wèn)題。在這一背景下,無(wú)人機(jī)集群作戰(zhàn)模式以其獨(dú)特的規(guī)模大、分散度高、作戰(zhàn)能力強(qiáng)、戰(zhàn)術(shù)決策水平高等特點(diǎn),逐漸成為一種新興的作戰(zhàn)形式。通過(guò)充分發(fā)揮無(wú)人機(jī)集群的規(guī)模和分散度,可以實(shí)現(xiàn)內(nèi)部的快速大量信息傳輸和共享,從而顯著提高無(wú)人機(jī)集群的對(duì)抗博弈能力。在無(wú)人機(jī)集群作戰(zhàn)中,決策算法直接決定了無(wú)人機(jī)集群的作戰(zhàn)能力。因此,無(wú)人機(jī)決策算法的研究至關(guān)重要。

本文旨在全面總結(jié)目前主流的無(wú)人機(jī)集群對(duì)抗決策算法,涵蓋了基于規(guī)則、博弈論和神經(jīng)網(wǎng)絡(luò)的對(duì)抗決策算法。通過(guò)深入分析這些算法的適用場(chǎng)景和局限性,揭示了它們?cè)诮鉀Q復(fù)雜軍事問(wèn)題上的差異和局限。針對(duì)基于強(qiáng)化學(xué)習(xí)的對(duì)抗決策算法中存在的信用分配和角色同質(zhì)化問(wèn)題,本文提出了兩種創(chuàng)新性的基于強(qiáng)化學(xué)習(xí)的對(duì)抗決策算法。最后,結(jié)合當(dāng)前研究現(xiàn)狀,本文強(qiáng)調(diào)了選擇適當(dāng)?shù)臎Q策算法對(duì)于提高無(wú)人機(jī)集群作戰(zhàn)效能的緊迫性,并為未來(lái)無(wú)人機(jī)對(duì)抗決策算法的發(fā)展指明了可行的研究方向,為相關(guān)領(lǐng)域的研究和實(shí)際應(yīng)用提供啟示。

1 基于規(guī)則的無(wú)人機(jī)對(duì)抗決策算法

基于規(guī)則的無(wú)人機(jī)對(duì)抗決策算法通過(guò)設(shè)置規(guī)則來(lái)指導(dǎo)無(wú)人機(jī)在對(duì)抗環(huán)境中做出決策。首先出現(xiàn)的是基于專(zhuān)家知識(shí)的對(duì)抗決策算法,這類(lèi)算法通過(guò)大量的先驗(yàn)專(zhuān)家知識(shí)來(lái)構(gòu)建規(guī)則,無(wú)人機(jī)在實(shí)際作戰(zhàn)中將戰(zhàn)場(chǎng)態(tài)勢(shì)與規(guī)則進(jìn)行匹配來(lái)做出決策。基于專(zhuān)家知識(shí)的算法具有決策速度快的優(yōu)點(diǎn),但是對(duì)未知情況的適應(yīng)性差,隨后出現(xiàn)了基于貝葉斯網(wǎng)絡(luò)的對(duì)抗決策算法,這類(lèi)方法通過(guò)貝葉斯網(wǎng)絡(luò)構(gòu)建各因素之間的依賴(lài)關(guān)系,對(duì)未知情況有較好的適應(yīng)能力。

1.1 基于專(zhuān)家系統(tǒng)的方法

如圖1所示,基于專(zhuān)家系統(tǒng)的無(wú)人機(jī)對(duì)抗決策算法將專(zhuān)家知識(shí)構(gòu)建為規(guī)則庫(kù)和綜合數(shù)據(jù)庫(kù),在實(shí)際作戰(zhàn)中將當(dāng)前輸入的戰(zhàn)場(chǎng)態(tài)勢(shì)等信息與專(zhuān)家系統(tǒng)中的規(guī)則進(jìn)行匹配,進(jìn)而做出決策[3]。

1975年,美國(guó)國(guó)家航空航天局(NASA)開(kāi)發(fā)了自適應(yīng)機(jī)動(dòng)邏輯(AML),首次使用專(zhuān)家系統(tǒng)進(jìn)行機(jī)動(dòng)決策[4]。在面對(duì)形式瞬息萬(wàn)變的戰(zhàn)場(chǎng)態(tài)勢(shì)時(shí),基于專(zhuān)家系統(tǒng)的方法能夠快速準(zhǔn)確地進(jìn)行決策。這一特點(diǎn)使得基于專(zhuān)家系統(tǒng)的方法得到了充分發(fā)展和廣泛應(yīng)用。目前基于專(zhuān)家系統(tǒng)的方法已經(jīng)成為無(wú)人機(jī)博弈對(duì)抗領(lǐng)域發(fā)展最成熟的技術(shù)之一。

趙威等[3]利用專(zhuān)家系統(tǒng)來(lái)判斷敵機(jī)的威脅等級(jí)并對(duì)攻擊目標(biāo)進(jìn)行排序,提出了基于空戰(zhàn)任務(wù)和目標(biāo)編隊(duì)組合的協(xié)同攻擊排序方法。隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的專(zhuān)家系統(tǒng)已經(jīng)涌現(xiàn)出來(lái),這類(lèi)方法采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行決策,能夠處理更加復(fù)雜的情況,并且能夠通過(guò)學(xué)習(xí)自主提取特征。Mao Yiming等[5]采用基于深度學(xué)習(xí)的方法來(lái)構(gòu)建專(zhuān)家系統(tǒng),利用Transformer網(wǎng)絡(luò)提出了一種能夠從歷史數(shù)據(jù)中學(xué)習(xí)知識(shí)的戰(zhàn)術(shù)狀態(tài)決策過(guò)程建模方法。該方法能夠隨著實(shí)戰(zhàn)經(jīng)驗(yàn)的增加自動(dòng)更新專(zhuān)家系統(tǒng)以適應(yīng)不斷變化的戰(zhàn)斗場(chǎng)景。

快速?zèng)Q策的特點(diǎn)使得基于專(zhuān)家系統(tǒng)的方法得到了廣泛應(yīng)用。但同時(shí),專(zhuān)家系統(tǒng)也受限于知識(shí)庫(kù)和推理機(jī)制的局限性,針對(duì)未知情況可能表現(xiàn)不佳。將專(zhuān)家系統(tǒng)與其他方法(如貝葉斯網(wǎng)絡(luò)、深度學(xué)習(xí))結(jié)合實(shí)現(xiàn)共同決策,以彌補(bǔ)其局限性是未來(lái)基于專(zhuān)家系統(tǒng)的無(wú)人機(jī)決策方法的發(fā)展趨勢(shì)。

1.2 基于貝葉斯網(wǎng)絡(luò)的方法

孟光磊等[6]構(gòu)建了一個(gè)4層動(dòng)態(tài)貝葉斯模型,能根據(jù)不確定信息來(lái)推理敵方軌跡和戰(zhàn)略意圖,并利用從飛行員經(jīng)驗(yàn)中獲取的先驗(yàn)知識(shí)確定對(duì)抗策略,能較好地適應(yīng)戰(zhàn)場(chǎng)的形勢(shì)變化。Ren Zhi等[7]提出了一種基于不完全信息動(dòng)態(tài)博弈的協(xié)同決策方法,使用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)來(lái)推斷敵方無(wú)人機(jī)的戰(zhàn)術(shù)意圖,最后結(jié)合強(qiáng)化學(xué)習(xí)框架來(lái)求解空戰(zhàn)博弈模型。針對(duì)無(wú)人機(jī)空戰(zhàn)適應(yīng)性差、決策模式不合理等問(wèn)題,Meng Guanglei等[8]提出了一種基于目標(biāo)軌跡預(yù)測(cè)的最優(yōu)空戰(zhàn)決策方法。首先根據(jù)空戰(zhàn)情況,設(shè)置不同的性能指標(biāo)函數(shù),然后利用貝葉斯網(wǎng)絡(luò)識(shí)別敵方意圖,根據(jù)實(shí)時(shí)情況分析結(jié)果,選擇不同的性能指標(biāo)函數(shù)進(jìn)行最優(yōu)控制。

通過(guò)概率分布,貝葉斯網(wǎng)絡(luò)可以量化不確定性,并提供對(duì)不確定性的推理能力,這使得其在面對(duì)不完整數(shù)據(jù)時(shí)具有魯棒性。但目前基于貝葉斯網(wǎng)絡(luò)的方法通常需要與其他方法結(jié)合來(lái)選擇對(duì)抗策略。

2 基于博弈論的無(wú)人機(jī)集群博弈對(duì)抗決策算法

博弈論研究博弈雙方如何基于對(duì)方的策略來(lái)優(yōu)化自己的策略,基于博弈論的方法也就是研究雙方無(wú)人機(jī)集群之間策略交互的方法[9]。不同于依賴(lài)大量先驗(yàn)知識(shí)庫(kù)的方法,基于博弈論的策略交互方法通過(guò)逐步自學(xué)習(xí)達(dá)到最優(yōu)策略。在應(yīng)對(duì)無(wú)人機(jī)集群空戰(zhàn)的強(qiáng)對(duì)抗性和強(qiáng)動(dòng)態(tài)性方面,博弈論的應(yīng)用能夠生成更適用于實(shí)戰(zhàn)的決策計(jì)劃。本節(jié)聚焦于博弈論在無(wú)人機(jī)集群博弈對(duì)抗中的應(yīng)用,首先介紹博弈對(duì)抗決策模型,包括確定策略集合、態(tài)勢(shì)優(yōu)勢(shì)函數(shù)以及求解納什均衡的過(guò)程。隨后,探討博弈對(duì)抗決策與控制方法,包括粒子群算法、蟻群算法、人工魚(yú)群算法和狼群算法等不同群體智能算法的應(yīng)用。

2.1 博弈對(duì)抗決策模型

基于納什均衡的決策模型在無(wú)人機(jī)集群博弈對(duì)抗中被廣泛研究[9-10]。該方法首先需要確定對(duì)抗雙方無(wú)人機(jī)的策略集合和態(tài)勢(shì)優(yōu)勢(shì)函數(shù),然后求解納什均衡。

影響無(wú)人機(jī)態(tài)勢(shì)優(yōu)勢(shì)函數(shù)的因素主要由雙方對(duì)抗關(guān)系得到,如圖3所示。由圖3可知,影響因素可包括雙方無(wú)人機(jī)之間的角度、速度、距離等。vA和vB分別表示無(wú)人機(jī)A和B的速度,αA和αB分別表示無(wú)人機(jī)A和B的方位角,dAB表示無(wú)人機(jī)A和B之間的距離。綜合多種優(yōu)勢(shì)函數(shù),根據(jù)權(quán)重不同,可以得到無(wú)人機(jī)間總的態(tài)勢(shì)優(yōu)勢(shì)函數(shù)[11]。

在確定對(duì)抗雙方的策略集合和態(tài)勢(shì)優(yōu)勢(shì)函數(shù)后,進(jìn)一步結(jié)合集群中每個(gè)無(wú)人機(jī)的態(tài)勢(shì)優(yōu)勢(shì),得到對(duì)抗雙方各自的總體態(tài)勢(shì)優(yōu)勢(shì)函數(shù)矩陣,并根據(jù)具體場(chǎng)景中的收益函數(shù),得到雙方各自的收益矩陣?;谟呻p方策略集合組成的混合策略以及雙方的收益矩陣,可定義博弈對(duì)抗策略模型?;旌喜呗缘募{什均衡解即為無(wú)人機(jī)集群的最優(yōu)策略。為了求得納什均衡解,常將最優(yōu)策略的約束轉(zhuǎn)化為優(yōu)化問(wèn)題,最優(yōu)值對(duì)應(yīng)的混合策略就是博弈問(wèn)題的納什均衡點(diǎn)[12]。

上述過(guò)程給出了單位時(shí)間內(nèi)對(duì)抗雙方最優(yōu)策略的求解方法,由于無(wú)人機(jī)集群的對(duì)抗過(guò)程是動(dòng)態(tài)的,因此需要將上述過(guò)程應(yīng)用于博弈對(duì)抗時(shí)間段內(nèi)的每個(gè)時(shí)間點(diǎn)。也就是從初始時(shí)間起,在每個(gè)單點(diǎn)時(shí)間內(nèi),雙方無(wú)人機(jī)集群根據(jù)求得的最優(yōu)策略,得出下一時(shí)刻的狀態(tài),包括無(wú)人機(jī)姿態(tài)和位置等,從而進(jìn)行下一步的最優(yōu)策略求解。

姚宗信等[10]將對(duì)抗雙方可能的互相攻擊方式作為策略集合,根據(jù)雙方的攻擊有效性和攻擊代價(jià)建立優(yōu)勢(shì)態(tài)勢(shì)函數(shù)和收益矩陣,并基于過(guò)往戰(zhàn)術(shù)經(jīng)驗(yàn)和模擬仿真結(jié)果對(duì)混合策略的分布進(jìn)行預(yù)測(cè)。盛磊等[11]為對(duì)抗的攻守雙方建立了各自的動(dòng)態(tài)攻防場(chǎng)景和策略,根據(jù)攻守方的不同假設(shè)構(gòu)建收益矩陣。

部分研究通過(guò)構(gòu)建除納什均衡模型外的其他模型來(lái)對(duì)無(wú)人機(jī)集群對(duì)抗問(wèn)題進(jìn)行建模,其中也包括對(duì)納什均衡模型的變體。惠一楠等[13]提出,在實(shí)際空戰(zhàn)場(chǎng)景中,無(wú)人機(jī)之間只能知道他人的決策分布,而難以觀察到他人的真實(shí)決策,所以無(wú)人機(jī)集群的博弈對(duì)抗并不是完全信息博弈,而是非完全信息博弈。因此,他們基于非完全信息動(dòng)態(tài)博弈理論,構(gòu)建貝葉斯納什均衡模型并求解。黃宇銘等[14]提出只研究納什均衡條件意味著模型只有單步預(yù)見(jiàn)的能力,因此他們綜合考慮了包括納什穩(wěn)定性、一般元理性、對(duì)稱(chēng)元理性和序貫穩(wěn)定性在內(nèi)的4種穩(wěn)定性,使所得決策擁有更高的預(yù)見(jiàn)水平。陳俠等[15]提出在實(shí)際空戰(zhàn)環(huán)境中,由于各種因素的干擾(如傳感器精度和環(huán)境干擾等),無(wú)人機(jī)所能獲得的信息往往不是精確的,因此他們建立了模糊信息下的態(tài)勢(shì)優(yōu)勢(shì)函數(shù),并構(gòu)建了基于模糊信息的收益矩陣,提出了模糊信息下的博弈對(duì)抗決策模型。

2.2 博弈對(duì)抗決策與控制方法

基于2.1節(jié)提出的博弈對(duì)抗決策模型,無(wú)人機(jī)集群通過(guò)控制個(gè)體無(wú)人機(jī)決策,在群體水平上表現(xiàn)出復(fù)雜行為,來(lái)達(dá)到不同的作戰(zhàn)能力。在這一過(guò)程中,模擬自然界各種群體行為而產(chǎn)生的群體智能算法,因?yàn)榫哂休^好的可擴(kuò)展性、并行性、實(shí)現(xiàn)簡(jiǎn)單等特點(diǎn),被廣泛應(yīng)用于無(wú)人機(jī)集群博弈對(duì)抗的決策。

粒子群算法是一種模擬鳥(niǎo)群行為的隨機(jī)搜索算法,具有能夠在保持多樣性的同時(shí)快速收斂的特點(diǎn),其基本思想如圖4所示。圖4中,A為粒子的當(dāng)前位置,B為粒子的個(gè)體極值位置,C為群體的全局最優(yōu)位置。綠色為個(gè)體當(dāng)前速度(矢量),藍(lán)色為向個(gè)體極值位置的速度(矢量),紅色為向全局最優(yōu)位置的速度(矢量),黃色為基于粒子群算法得到的目標(biāo)速度(矢量),受算法參數(shù)影響。粒子群算法首先初始化一群粒子表示可行的解,每個(gè)粒子具有位置、速度、適應(yīng)度三個(gè)特征。隨后粒子在問(wèn)題的搜索空間中運(yùn)動(dòng),其運(yùn)動(dòng)方向同時(shí)跟蹤該粒子的個(gè)體極值位置和群體的全局最優(yōu)位置。粒子每運(yùn)動(dòng)一次,即每更新一次位置,就計(jì)算一次適應(yīng)度值,并與自己的個(gè)體極值和全體的全局最優(yōu)值比較,從而更新各自極值位置和群體最優(yōu)位置。粒子群算法的標(biāo)準(zhǔn)形式如式(2)所示

陳俠等[16]將粒子群算法和區(qū)間數(shù)多屬性方案排序方法相結(jié)合,求解不完全信息下無(wú)人機(jī)攻防博弈中的納什均衡問(wèn)題。Duan Haibin等[17]引入生物界的捕食者-獵物機(jī)制,提出混合捕食者-獵物粒子群算法,緩解了粒子群算法容易陷入局部最優(yōu)的問(wèn)題,在無(wú)人機(jī)博弈對(duì)抗的任務(wù)分配中得到有效應(yīng)用。該方法通過(guò)將任務(wù)分配方案表示為雙方的可選策略集,將粒子群算法應(yīng)用于無(wú)人飛行器的任務(wù)分配問(wèn)題,并通過(guò)使用粒子群算法求解混合納什均衡來(lái)獲得博弈雙方的協(xié)同任務(wù)分配結(jié)果。在每個(gè)決策步驟,針對(duì)敵方?jīng)Q策,捕食者-獵物粒子群算法通過(guò)計(jì)算矩陣對(duì)策的混合納什均衡來(lái)最大化其自身收益。在此過(guò)程中,通過(guò)將粒子分為捕食者和獵物兩類(lèi),并相應(yīng)地調(diào)整它們的速度,捕食者-獵物算法獲得了較高的尋優(yōu)性能。多種粒子群算法變體也被提出來(lái)求解納什均衡。

Zhen Ziyang等[19]針對(duì)無(wú)人機(jī)集群的協(xié)同搜索和攻擊任務(wù)規(guī)劃問(wèn)題,提出改進(jìn)的分布式蟻群算法對(duì)無(wú)人機(jī)進(jìn)行任務(wù)分配。Yang Fan等[20]針對(duì)無(wú)人機(jī)策略中完全未知的搜索空間,提出了改進(jìn)的蟻群算法行為準(zhǔn)則和信息素圖的更新原則,達(dá)到了更高的覆蓋率和搜索效率。

人工魚(yú)群算法利用魚(yú)群典型的覓食行為、聚群行為、追尾行為和隨機(jī)游動(dòng)行為,解決復(fù)雜非線(xiàn)性?xún)?yōu)化問(wèn)題[21],如圖6所示。Li Zhanwu等[22]提出改進(jìn)的魚(yú)群算法,以保證無(wú)人機(jī)生存能力和最小化武器消耗為目標(biāo),應(yīng)用于無(wú)人機(jī)集群空戰(zhàn)中的武器分配問(wèn)題。Jiang Haobo等[23]針對(duì)無(wú)人機(jī)協(xié)同作戰(zhàn)的目標(biāo)分配問(wèn)題,將蟻群算法中的擁擠度引入魚(yú)群算法,所得到的混合算法在搜索前期不易陷入局部最優(yōu),在搜索后期收斂速度快。

狼群算法模擬狼群的社會(huì)等級(jí)層次和群體捕食行為來(lái)達(dá)到優(yōu)化的目的,并平衡局部搜索和全局搜索[24]。Hua Xiang等[25]將無(wú)人機(jī)集群視為多個(gè)并行的狼群,提出具有多種群機(jī)制的狼群算法,通過(guò)采用多層優(yōu)化策略,有效地解決集群對(duì)抗中的多目標(biāo)分配問(wèn)題。

綜上所述,博弈論在無(wú)人機(jī)集群博弈對(duì)抗中提供了一種框架,用于研究無(wú)人機(jī)之間的策略交互和最優(yōu)決策計(jì)劃,能夠確定對(duì)抗雙方無(wú)人機(jī)的策略集合,構(gòu)建態(tài)勢(shì)優(yōu)勢(shì)函數(shù),并求解納什均衡。而群體智能算法在無(wú)人機(jī)集群博弈對(duì)抗中可以幫助實(shí)現(xiàn)復(fù)雜的群體行為和優(yōu)化目標(biāo),這類(lèi)具有可拓展性和并行性特點(diǎn)的算法可用于控制個(gè)體無(wú)人機(jī)的決策,使無(wú)人機(jī)集群在博弈對(duì)抗中表現(xiàn)出協(xié)同性和適應(yīng)性,從而提高無(wú)人機(jī)集群的性能,幫助其應(yīng)對(duì)動(dòng)態(tài)和復(fù)雜的對(duì)抗環(huán)境。

3 基于神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)集群對(duì)抗決策算法

基于神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)對(duì)抗決策算法通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)對(duì)對(duì)抗態(tài)勢(shì)的感知并做出決策,能動(dòng)態(tài)適應(yīng)戰(zhàn)場(chǎng)態(tài)勢(shì)的變化。由于訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù),而實(shí)戰(zhàn)數(shù)據(jù)較難獲取,所以目前訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)大多來(lái)自仿真平臺(tái)。根據(jù)訓(xùn)練方式的不同,可以分為基于強(qiáng)化學(xué)習(xí)和基于深度學(xué)習(xí)的算法,基于強(qiáng)化學(xué)習(xí)的方法通過(guò)與仿真環(huán)境的交互來(lái)不斷地直接優(yōu)化策略網(wǎng)絡(luò),而基于深度學(xué)習(xí)的方法往往關(guān)注如何通過(guò)神經(jīng)網(wǎng)絡(luò)提取戰(zhàn)場(chǎng)態(tài)勢(shì)信息,從而做出決策。本節(jié)首先介紹這兩類(lèi)方法的工作方式,然后介紹該方向的代表性工作,最后總結(jié)這類(lèi)方法的使用場(chǎng)景和限制。

3.1 基于強(qiáng)化學(xué)習(xí)的對(duì)抗決策算法

強(qiáng)化學(xué)習(xí)無(wú)須依賴(lài)模型或先驗(yàn)信息,而是通過(guò)不斷試錯(cuò),根據(jù)從環(huán)境中得到的獎(jiǎng)勵(lì)來(lái)優(yōu)化自身策略。如圖7所示,強(qiáng)化學(xué)習(xí)包含智能體、環(huán)境、狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)5個(gè)主要組成部分。當(dāng)智能體執(zhí)行動(dòng)作時(shí),環(huán)境進(jìn)入一個(gè)新的狀態(tài),并發(fā)出相應(yīng)的正獎(jiǎng)勵(lì)信號(hào)或負(fù)獎(jiǎng)勵(lì)信號(hào)。在接收到這些信息后,智能體會(huì)根據(jù)策略選擇新的動(dòng)作以適應(yīng)新的狀態(tài)和獎(jiǎng)勵(lì)信號(hào)。

深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合后,智能體可以在仿真環(huán)境中迭代優(yōu)化無(wú)人機(jī)集群對(duì)抗算法, 適用于解決那些建模困難、決策復(fù)雜且多變的無(wú)人機(jī)集群決策控制問(wèn)題。

王爾申等[26]從無(wú)人機(jī)集群實(shí)戰(zhàn)特性入手,通過(guò)對(duì)多智能體的獎(jiǎng)勵(lì)函數(shù)進(jìn)行創(chuàng)新,來(lái)搭建基于非完全信息的多智能體柔性行動(dòng)器-評(píng)判器(MASAC),并通過(guò)試驗(yàn)證明該方法可以在無(wú)人機(jī)集群對(duì)抗博弈的場(chǎng)景取得很好的性能。但該方法還不能很好地應(yīng)用于存在異質(zhì)無(wú)人機(jī)集群的對(duì)抗博弈中。符小衛(wèi)等[27]針對(duì)主流算法多智能體深度確定性策略梯度(MADDPG)中存在的值函數(shù)高估問(wèn)題,引入TD3算法并將其擴(kuò)展到多智能體領(lǐng)域中,提出了優(yōu)先經(jīng)驗(yàn)回放多智能體雙延遲深度確定性策略算法(PERMATD3),該算法采用優(yōu)先經(jīng)驗(yàn)回放機(jī)制,提高了算法的收斂速度和穩(wěn)定性,并在障礙物隨機(jī)分布的復(fù)雜環(huán)境下取得了很好的對(duì)抗效果。文永明等[28]針對(duì)復(fù)雜場(chǎng)景中無(wú)人機(jī)集群對(duì)抗的突防軌跡和目標(biāo)分配等決策問(wèn)題,提出了集群對(duì)抗多耦合任務(wù)智能決策方法。該方法解決了無(wú)人機(jī)對(duì)抗中決策空間大、場(chǎng)景不確定和在線(xiàn)決策耦合任務(wù)多的問(wèn)題,并在多種隨機(jī)場(chǎng)景的紅藍(lán)博弈中驗(yàn)證了該方法的有效性和先進(jìn)性。

基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群對(duì)抗決策算法適用于建模困難的集群對(duì)抗環(huán)境,但是基于強(qiáng)化學(xué)習(xí)的方法需要在試錯(cuò)的基礎(chǔ)上優(yōu)化自身,因此往往需要先在仿真環(huán)境下訓(xùn)練再投入實(shí)際戰(zhàn)場(chǎng)環(huán)境。此外,獎(jiǎng)勵(lì)函數(shù)直接決定了強(qiáng)化學(xué)習(xí)算法的性能,如何設(shè)置獎(jiǎng)勵(lì)函數(shù)也是基于強(qiáng)化學(xué)習(xí)的方法當(dāng)前面臨的重要問(wèn)題。

針對(duì)多智能體強(qiáng)化學(xué)習(xí)中的信用分配問(wèn)題,李濰團(tuán)隊(duì)[29]提出了“基于多智能體強(qiáng)化學(xué)習(xí)的信用分配模型”,并在此基礎(chǔ)上設(shè)計(jì)了“基于注意力機(jī)制的內(nèi)部獎(jiǎng)勵(lì)網(wǎng)絡(luò)”用于提高智能體之間團(tuán)隊(duì)協(xié)作的有效性,以及“內(nèi)部獎(jiǎng)勵(lì)和外部獎(jiǎng)勵(lì)混合網(wǎng)絡(luò)”使得網(wǎng)絡(luò)輸出的總獎(jiǎng)勵(lì)值更加適應(yīng)環(huán)境的變化。該模型從建立精準(zhǔn)內(nèi)部獎(jiǎng)勵(lì)的角度,根據(jù)每個(gè)智能體在團(tuán)隊(duì)協(xié)作任務(wù)中的貢獻(xiàn)度,生成對(duì)應(yīng)的內(nèi)部獎(jiǎng)勵(lì),并動(dòng)態(tài)結(jié)合來(lái)自多智能體環(huán)境中的全局獎(jiǎng)勵(lì)。針對(duì)無(wú)人機(jī)集群博弈對(duì)抗場(chǎng)景,相較于現(xiàn)有代表性算法,該模型有望實(shí)現(xiàn)更快收斂速度和更高獲勝率。

針對(duì)多智能體強(qiáng)化學(xué)習(xí)算法中的策略同質(zhì)化問(wèn)題,李濰團(tuán)隊(duì)[30]提出了“基于角色的多智能體強(qiáng)化學(xué)習(xí)模型”。該模型包含了一種新的角色定義方法以及角色分配策略,使得智能體能夠根據(jù)實(shí)際環(huán)境依照動(dòng)態(tài)的角色分配從不同的角度做出決策,避免了決策的狹隘性。同時(shí),為了解決引入角色選擇模塊所導(dǎo)致的動(dòng)作價(jià)值估計(jì)效率低下問(wèn)題,該模型在雙流估計(jì)架構(gòu)的基礎(chǔ)上,采用了一種新的動(dòng)作價(jià)值估計(jì)雙流架構(gòu)。針對(duì)無(wú)人機(jī)集群博弈對(duì)抗場(chǎng)景,相較于現(xiàn)有代表性算法,該模型有望達(dá)到更快收斂速度、更佳魯棒性及更高獲勝率。

3.2 基于深度學(xué)習(xí)的對(duì)抗決策算法

深度神經(jīng)網(wǎng)絡(luò)是模仿生物神經(jīng)系統(tǒng)的計(jì)算模型,具有強(qiáng)大的非線(xiàn)性擬合能力和自學(xué)習(xí)能力,可以適應(yīng)無(wú)人機(jī)集群對(duì)抗決策中的環(huán)境變化和目標(biāo)變化。

Schvaneveldt等[31]根據(jù)在模擬空戰(zhàn)中測(cè)量的各種參數(shù)的值,用人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)交戰(zhàn)結(jié)果。證實(shí)了人工神經(jīng)網(wǎng)絡(luò)模型在空戰(zhàn)機(jī)動(dòng)決策領(lǐng)域的可行性和有效性,并實(shí)現(xiàn)了具有強(qiáng)魯棒性的自適應(yīng)無(wú)人機(jī)決策控制方法。張宏鵬等[32]利用含有36種機(jī)動(dòng)動(dòng)作的飛行仿真數(shù)據(jù)構(gòu)建樣本,并利用該樣本訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),對(duì)所有動(dòng)作所對(duì)應(yīng)的未來(lái)態(tài)勢(shì)進(jìn)行預(yù)測(cè),使無(wú)人機(jī)可以在較短的時(shí)間內(nèi)做出更具優(yōu)勢(shì)的決策。

為了進(jìn)一步改善決策算法的不足,目前很多研究聚焦于改進(jìn)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)或?qū)⑵渌麤Q策算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合,來(lái)提升無(wú)人機(jī)對(duì)抗決策性能。李鋒等[33]提出了一種利用模糊神經(jīng)網(wǎng)絡(luò)進(jìn)行決策的方法,將超視距空戰(zhàn)分為進(jìn)入、攻擊和脫離三個(gè)階段,并根據(jù)不同階段的特點(diǎn),設(shè)計(jì)了相應(yīng)的模糊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和規(guī)則庫(kù),實(shí)現(xiàn)了對(duì)空戰(zhàn)態(tài)勢(shì)信息和目標(biāo)預(yù)測(cè)信息的快速處理和決策輸出。Li Bo等[34]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的智能機(jī)動(dòng)決策模型。將空戰(zhàn)態(tài)勢(shì)數(shù)據(jù)輸入CNN中,得到機(jī)動(dòng)決策變量,然后依照仿真實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)調(diào)整CNN的參數(shù)和結(jié)構(gòu)。結(jié)果表明該方法比基于人工神經(jīng)網(wǎng)絡(luò)的方法具有更好的決策性能。

利用深度神經(jīng)網(wǎng)絡(luò),可以有效地處理空戰(zhàn)中的不確定性和非線(xiàn)性性,充分地對(duì)數(shù)據(jù)特征和知識(shí)進(jìn)行自動(dòng)提取和表達(dá),實(shí)現(xiàn)對(duì)空戰(zhàn)態(tài)勢(shì)的快速判斷和適應(yīng)性決策。但基于深度神經(jīng)網(wǎng)絡(luò)的方法需要大量的訓(xùn)練數(shù)據(jù)和合理的網(wǎng)絡(luò)結(jié)構(gòu),并且缺乏可解釋性。

4 結(jié)論與展望

無(wú)人機(jī)集群已成為未來(lái)戰(zhàn)爭(zhēng)中的重要一環(huán)。無(wú)人機(jī)集群對(duì)抗決策技術(shù)對(duì)無(wú)人機(jī)集群的智能化至關(guān)重要,本文通過(guò)梳理現(xiàn)有文獻(xiàn),對(duì)無(wú)人機(jī)集群對(duì)抗決策方法及各方法的優(yōu)勢(shì)和適用場(chǎng)景進(jìn)行歸納總結(jié),包含了基于規(guī)則的方法、基于博弈論的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。三種方法各有優(yōu)勢(shì),適應(yīng)不同的應(yīng)用場(chǎng)景。基于規(guī)則的方法在可解釋性上表現(xiàn)出色,但在處理復(fù)雜和動(dòng)態(tài)的對(duì)抗態(tài)勢(shì)時(shí),可能無(wú)法靈活適應(yīng)快速變化的戰(zhàn)場(chǎng)環(huán)境。基于博弈論的方法在理論建模和策略?xún)?yōu)化上具有優(yōu)勢(shì),但在處理實(shí)際對(duì)抗環(huán)境時(shí)受制于對(duì)完全信息的依賴(lài),對(duì)于不完全信息和快速變化的戰(zhàn)局表現(xiàn)不佳?;谏窠?jīng)網(wǎng)絡(luò)的方法在處理非線(xiàn)性和不確定性方面表現(xiàn)出色,但需要大量實(shí)戰(zhàn)數(shù)據(jù)進(jìn)行訓(xùn)練,且其性能受訓(xùn)練數(shù)據(jù)質(zhì)量和獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的影響較大。

綜合當(dāng)前的研究現(xiàn)狀,認(rèn)為無(wú)人機(jī)集群對(duì)抗決策領(lǐng)域以下幾個(gè)問(wèn)題值得深入研究。

(1)單一種類(lèi)的決策算法的限制

無(wú)人機(jī)集群對(duì)抗中,采用單一種類(lèi)的決策算法會(huì)受到一定限制。例如,基于規(guī)則的方法在未知場(chǎng)景下決策可信度較低;基于博弈論的方法對(duì)環(huán)境建模要求較高;基于神經(jīng)網(wǎng)絡(luò)的方法需大量數(shù)據(jù)進(jìn)行訓(xùn)練。未來(lái)決策算法的發(fā)展趨勢(shì)是將不同方法相互結(jié)合,突破單一方法的限制,提高決策的準(zhǔn)確性和可靠性。

(2)深度學(xué)習(xí)缺乏可解釋性

當(dāng)前許多無(wú)人機(jī)決策算法借助深度學(xué)習(xí)來(lái)提高模型的表征能力。但由于無(wú)人機(jī)集群對(duì)抗系統(tǒng)面對(duì)的是嚴(yán)肅殘酷的戰(zhàn)場(chǎng)環(huán)境,對(duì)于可靠性要求極高。一旦出現(xiàn)難以預(yù)測(cè)的錯(cuò)誤,或由于無(wú)法解釋決策而產(chǎn)生戰(zhàn)術(shù)配合失誤,將會(huì)造成巨大損失。因此決策算法的發(fā)展依賴(lài)于深度學(xué)習(xí)的理論突破。

(3)仿真與實(shí)際作戰(zhàn)環(huán)境差距大

由于實(shí)際作戰(zhàn)環(huán)境中各種因素錯(cuò)綜復(fù)雜,在仿真環(huán)境中能順利完成任務(wù)的算法不一定能適應(yīng)實(shí)際作戰(zhàn)環(huán)境。一方面,完善仿真平臺(tái),使其能更好地模擬實(shí)際戰(zhàn)場(chǎng);另一方面,提高決策算法對(duì)不確定性的適應(yīng)能力,是未來(lái)無(wú)人機(jī)決策的重要發(fā)展方向。

參考文獻(xiàn)

[1]張炯,牛歡,陳雪.基于多傳感器融合的無(wú)人機(jī)應(yīng)急著陸功能研究[J].航空科學(xué)技術(shù),2022,33(11):11-20. Zhang Jiong, Niu Huan, Chen Xue. Research on UAV emergency landing function based on multi-sensor fusion[J]. Aeronautical Science Technology, 2022, 33(11): 11-20. (in Chinese)

[2]郭強(qiáng),何勝杰,程家林,等.一種無(wú)人機(jī)自主規(guī)避導(dǎo)彈的威脅度評(píng)估方法[J].航空科學(xué)技術(shù),2022,33(7):8-14. Guo Qiang, He Shengjie, Cheng Jialin, et al. A threat evaluation method of autonomous UAV avoidance missile[J]. Aeronautical Science Technology, 2022, 33(7): 8-14. (in Chinese)

[3]趙威. 基于專(zhuān)家系統(tǒng)的雙機(jī)協(xié)同攻擊決策技術(shù)研究[D]. 西安: 西北工業(yè)大學(xué), 2007. Zhao Wei. Research on decision making technique of twomachine cooperative attack based on expert system[D]. Xi’an: Northwestern Polytechnical University, 2007.(in Chinese)

[4]Burgin G H, Fogel L J, Phelps J P. An adaptive maneuvering logic computer program for the simulation of one-on-one air-toair combat: General description[R]. NASA-CR- 2582, 1975.

[5]Mao Yiming, Xia Zhijie, Li Qingwei, et al. Accurate decisionmaking method for air combat pilots based on data-driven[C]. International Conference on Data Mining and Big Data, 2022: 439-448.

[6]孟光磊,劉德見(jiàn),周銘哲,等.近距空戰(zhàn)訓(xùn)練中的智能虛擬對(duì)手決策與導(dǎo)引方法[J]. 北京航空航天大學(xué)學(xué)報(bào), 2022, 48(6): 937-949. Meng Guanglei, Liu Dejian, Zhou Mingzhe, et al. Intelligent virtual opponent decision making and guidance method in short-range air combat training[J]. Journal of Beijing University of Aeronautics and Astronautics, 2022, 48(6): 937-949.(in Chinese)

[7]Ren Zhi, Zhang Dong, Tang Shuo, et al. Cooperative maneuver decision making for multi-UAV air combat based on incomplete information dynamic game[J]. Defence Technology, 2022, 27:308-317.

[8]Meng Guanglei, Zhang Cheng, Liu Shouye, et al. UAV Attack and defense optimization guidance method based on target trajectory prediction[C]. 2019 IEEE International Conferences on Ubiquitous Computing Communications (IUCC) and Data Science and Computational Intelligence (DSCI) and Smart Computing, Networking and Services (SmartCNS). IEEE, 2019: 495-499.

[9]Omidshafiei S, Tuyls K, Czarnecki W M, et al. Navigating the landscape of multiplayer games[J]. Nature Communications, 2020, 11(1): 5603.

[10]姚宗信,李明,陳宗基. 基于博弈論模型的多機(jī)協(xié)同對(duì)抗多目標(biāo)任務(wù)決策方法[J]. 航空計(jì)算技術(shù), 2007(3): 7-11. Yao Zongxin, Li Ming, Chen Zongji. Mission decision-making method of multi-aircraft cooperative attack multi-object based on game theory model[J]. Aeronautical Computing Technique, 2007(3): 7-11.(in Chinese)

[11]盛磊,時(shí)滿(mǎn)紅,亓迎川,等. 基于態(tài)勢(shì)演化博弈的無(wú)人機(jī)集群動(dòng)態(tài)攻防[EB/OL]. (2023-06-21). http://kns. cnki. net/kcms/ detail/11.2422.TN.20230619.1902.004.html. Sheng Lei, Shi Manhong, Qi Yingchuan, et al. Dynamic offense and defense of UAV swarm based on situation evolution game[EB/OL]. (2023-06-21). http://kns. cnki. net/ kcms/detail/11.2422.TN.20230619.1902.004.html.(in Chinese)

[12]Yan Ming, Yuan Huimin, Xu Jie, et al. Task allocation and route planning of multiple UAVs in a marine environment based on an improved particle swarm optimization algorithm[J]. EURASIP Journal on Advances in Signal Processing, 2021, 94: 1-23.

[13]惠一楠,朱華勇,沈林成. 無(wú)人機(jī)攻防對(duì)抗不完全信息動(dòng)態(tài)博弈方法研究[J]. 兵工自動(dòng)化, 2009, 28(1): 4-7. Hui Yinan, Zhu Huayong, Shen Lincheng. Study on dynamic game method with incomplete information in UAV attackdefends campain[J]. Ordnance Industry Automation, 2009, 28(1): 4-7.(in Chinese)

[14]黃宇銘,葛冰峰,侯澤強(qiáng),等. 基于沖突分析圖模型的多無(wú)人機(jī)協(xié)同空戰(zhàn)博弈[J]. 系統(tǒng)工程理論與實(shí)踐,2023(9):2714-2725. Huang Yuming, Ge Bingfeng, Hou Zeqiang, et al. Multiunmanned aerial vehicle cooperative air combat gaming based on graph model for conflict resolution[J].Systems EngineeringTheory Practice, 2023(9): 2714-2725.(in Chinese)

[15]陳俠,趙明明,徐光延. 基于模糊動(dòng)態(tài)博弈的多無(wú)人機(jī)空戰(zhàn)策略研究[J]. 電光與控制, 2014, 21(6): 19-23+34. Chen Xia, Zhao Mingming, Xu Guangyan. Fuzzy dynamic game based operation strategy for multiple UAVs[J]. Electronics Optics Control, 2014, 21(6): 19-23+34. (in Chinese)

[16]陳俠,劉敏,胡永新. 基于不確定信息的無(wú)人機(jī)攻防博弈策略研究[J]. 兵工學(xué)報(bào), 2012, 33(12): 1510-1515. Chen Xia, Liu Min, Hu Yongxin. Study on UAV offensive/ defensive game strategy based on uncertain information[J]. Acta Armamentarii, 2012, 33(12): 1510-1515.(in Chinese)

[17]Duan Haibin, Li Pei, Yu Yaxiang. A predator-prey particle swarm optimization approach to multiple UCAV air combat modeled by dynamic game theory[J]. IEEE/CAA Journal of Automatica Sinica, 2015, 2(1): 11-18.

[18]Pendharkar P C. An ant colony optimization heuristic for constrained task allocation problem[J]. Journal of Computational Science, 2015, 7: 37-47.

[19]Zhen Ziyang, Xing Dongjing, Gao Chen. Cooperative searchattack mission planning for multi-UAV based on intelligent self-organized algorithm[J]. Aerospace Science and Technolo‐gy, 2018, 76: 402-411.

[20]Yang Fan, Ji Xiuling, Yang Chengwei, et al. Cooperative search of UAV swarm based on improved ant colony algorithm in uncertain environment[C].2017 IEEE International Confer‐ence on Unmanned Systems (ICUS). IEEE, 2017: 231-236.

[21]Pourpanah F, Wang Ran, Lim C P, et al. A review of artificial fish swarm algorithms: Recent advances and applications[J]. Artificial Intelligence Review, 2023, 56(3): 1867-1903.

[22]Li Zhanwu, Chang Yizhe, Kou Yingxin, et al. Approach to WTA in air combat using IAFSA-IHS algorithm[J]. Journal of Systems Engineering and Electronics, 2018, 29(3): 519-529.

[23]Jiang Haobo, Li Song, Lin Chi, et al. Research on target assignment method based on ant colony-fish group algorithm[J]. Journal of Physics: Conference Series. IOP Publishing, 2019, 1419(1): 012002.

[24]Mirjalili S, Mirjalili S M, Lewis A. Grey wolf optimizer[J]. Advances in Engineering Software, 2014, 69: 46-61.

[25]Hua Xiang, Wang Zhao, Yao Hongjuan, et al. Research on many-to-many target assignment for unmanned aerial vehicle swarm in three-dimensional scenarios[J]. Computers Electrical Engineering, 2021, 91: 107067.

[26]王爾申,劉帆,宏晨,等.基于MASAC的無(wú)人機(jī)集群對(duì)抗博弈方法[J].中國(guó)科學(xué): 信息科學(xué), 2022, 52(12):2254-2269. Wang Ershen, Liu Fan, Hong Chen, et al. A MASAC-based adversarial game approach for UAV clusters[J]. China Science: Information Science, 2022, 52(12): 2254-2269. (in Chinese)

[27]符小衛(wèi),徐哲,朱金冬,等.基于PER-MATD3的多無(wú)人機(jī)攻防對(duì)抗機(jī)動(dòng)決策[J].航空學(xué)報(bào),2023,44(7):196-209. Fu Xiaowei, Xu Zhe, Zhu Jindong, et al. Multi-UAV attackdefense countermeasure maneuver decision based on PERMATD3[J]. Acta Aeronautica et Astronautica Sinica, 2023, 44(7):196-209. (in Chinese)

[28]文永明,石曉榮,黃雪梅,等.一種無(wú)人機(jī)集群對(duì)抗多耦合任務(wù)智能決策方法[J].宇航學(xué)報(bào), 2021, 42(4): 504-512. Wen Yongming, Shi Xiaorong, Huang Xuemei, et al. An intelligent decision-making method for UAV cluster countermeasures with multiple coupled tasks[J]. Journal of Astronautics, 2021, 42(4):504-512.(in Chinese)

[29]Li Wei, Liu Weiyan, Shao Shitong, et al. Attention-based intrin‐sic reward mixing network for credit assignment in multi-agent reinforcement learning[J/OL]. IEEE Transactions on Games:1-13. (2023-03-29). https://doi.org/10.1109/TG.2023.3263013.

[30]Li Wei, Qiu Ziming, Shao Shitong, et al. MDDP: Making deci‐sions from different perspectives in multi-agent reinforcement learning[J/OL]. IEEE Transactions on Games:1-14. (2023-11-01). https://doi.org/10.1109/TG.2023.3329376.

[31]Schvaneveldt R W, Goldsmith T E, Benson A E, et al. Neural network models of air combat maneuvering[R]. Armstrong Laboratory, 1992.

[32]張宏鵬,黃長(zhǎng)強(qiáng),軒永波,等.基于深度神經(jīng)網(wǎng)絡(luò)的無(wú)人作戰(zhàn)飛機(jī)自主空戰(zhàn)機(jī)動(dòng)決策[J]. 兵工學(xué)報(bào), 2020, 41(8):1613-1622. Zhang Hongpeng, Huang Changqiang, Xuan Yongbo, et al. Maneuver decision of autonomous air combat of unmanned combat aerial vehicle based on deep neural network[J]. Acta Armamentarii, 2020, 41(8):1613-1622.(in Chinese)

[33]李鋒,孫隆和,佟明安.基于模糊神經(jīng)網(wǎng)絡(luò)的超視距空戰(zhàn)戰(zhàn)術(shù)決策研究[J]. 西北工業(yè)大學(xué)學(xué)報(bào), 2001, 19(2):317-322. Li Feng, Sun Longhe, Tong Ming’an. A tactical decision support system for bvr air combat based on neural network[J]. Journal of Northw estern Polytechnical University, 2001, 19(2): 317-322.(in Chinese)

[34]Li Bo, Liang Shiyang, Tian Linyu, et al. Intelligent aircraft maneuvering decision based on CNN[C]// Proceedings of the 3rd International Conference on Computer Science and Application Engineering, 2019: 1-5.

Review of UAV Swarm Air-combat Decision-making Algorithms

Li Wei1, Huang Shiyi1, Liu Hongming1, Sun Zhangjun2

1. Southeast University, Nanjing 210096, China

2. AVIC Xi’an Flight Automatic Control Research Institute, Xi’an 710076, China

Abstract: UAV swarm air-combat has become the development trend of future warfare, and the selection of UAV swarm air-combat decision-making algorithms is crucial for improving the UAV swarm combat ability. This paper delve into three types of UAV swarm air-combat decision-making algorithms based on rules, game theory, and neural networks, and comprehensively analyze and summarize their advantages and limitations. On this basis, this paper propose to apply the multi-agent reinforcement learning based credit assignment model and role-based malti-agent reinforcement learning model and design for UAV swarm air-combat. Finally, it emphasize the importance of selecting appropriate decision algorithms to improve the combat effectiveness of UAV clusters, and provide useful suggestions for the development of UAV countermeasures decision-making in the future, providing in-depth insights for research and application in related fields.

Key Words: UAV swarm; air-combat; expert system; game theory; multi-agent reinforcement learning

主站蜘蛛池模板: 伊人91视频| 色综合激情网| 国产成人在线无码免费视频| 无码丝袜人妻| 国产91蝌蚪窝| 国产成a人片在线播放| 午夜少妇精品视频小电影| 夜夜爽免费视频| 久久久精品国产SM调教网站| 毛片在线播放a| 美美女高清毛片视频免费观看| 亚洲精品va| 无码人妻免费| 欧美亚洲国产日韩电影在线| 99在线免费播放| 日韩高清欧美| 国产门事件在线| 国产在线一区视频| 精品日韩亚洲欧美高清a| 欧美日韩在线国产| 国产在线无码av完整版在线观看| 国产免费看久久久| 国产精品亚洲а∨天堂免下载| 波多野结衣在线se| 日本精品中文字幕在线不卡| 午夜精品福利影院| 毛片大全免费观看| 小说 亚洲 无码 精品| 成年人福利视频| 本亚洲精品网站| 特级精品毛片免费观看| 亚洲第一黄色网址| 99热这里只有精品免费| 成人日韩视频| 欧美性天天| 亚洲,国产,日韩,综合一区| 高清无码手机在线观看| 亚洲va在线∨a天堂va欧美va| 中文天堂在线视频| 天天色天天操综合网| 精品国产自在在线在线观看| 日本精品αv中文字幕| 又黄又湿又爽的视频| 九色视频在线免费观看| 欧美日韩va| 久久香蕉欧美精品| 日本免费一级视频| 国产午夜福利亚洲第一| 少妇人妻无码首页| 人妻无码一区二区视频| 亚洲欧美国产高清va在线播放| 欧美一区精品| 国产成人91精品免费网址在线| 高清免费毛片| 亚洲日韩AV无码一区二区三区人| 伊人久久精品无码麻豆精品| 久久精品国产91久久综合麻豆自制| 永久天堂网Av| 国产精品不卡片视频免费观看| 国产在线拍偷自揄拍精品| 97无码免费人妻超级碰碰碰| 久爱午夜精品免费视频| 亚洲色大成网站www国产| 久久久久亚洲AV成人人电影软件| 国产精品男人的天堂| 中文字幕首页系列人妻| 2021天堂在线亚洲精品专区| 亚洲精品爱草草视频在线| 欧美三級片黃色三級片黃色1| 国产主播在线一区| 免费在线一区| 波多野结衣AV无码久久一区| 免费看一级毛片波多结衣| 国产91蝌蚪窝| 91最新精品视频发布页| 日本不卡在线播放| 日韩欧美中文字幕在线韩免费 | 国产人碰人摸人爱免费视频| a国产精品| 国产欧美精品专区一区二区| 国产99在线| 亚洲天堂日韩av电影|