基于MIX-MAPPO算法的多無(wú)人機(jī)編隊(duì)控制

2025-03-09 00:00:00康家境吳杰宏

計(jì)算機(jī)應(yīng)用研究 2025年1期

摘要：?jiǎn)我粺o(wú)人機(jī)無(wú)法有效處理復(fù)雜的多任務(wù)場(chǎng)景，而無(wú)人機(jī)編隊(duì)解決這方面問(wèn)題具有顯著優(yōu)勢(shì)。為了滿足多任務(wù)場(chǎng)景和面向任務(wù)的編隊(duì)聚集以及運(yùn)行中編隊(duì)隊(duì)形保持的需求，設(shè)計(jì)了一種基于門(mén)格海綿分形的無(wú)人機(jī)編隊(duì)模型。同時(shí)，采用多智能體近端策略?xún)?yōu)化算法（MAPPO）、近端策略?xún)?yōu)化算法（PPO）和注意力機(jī)制來(lái)訓(xùn)練編隊(duì)控制策略，簡(jiǎn)化無(wú)人機(jī)編隊(duì)模型的建立，根據(jù)無(wú)人機(jī)對(duì)其他無(wú)人機(jī)的關(guān)注為所有輸入分配權(quán)重，增強(qiáng)其在動(dòng)態(tài)環(huán)境中的適應(yīng)性。針對(duì)MAPPO算法收斂速度慢和對(duì)多個(gè)智能體適應(yīng)性有限的問(wèn)題，提出了一種基于門(mén)格海綿分形結(jié)構(gòu)的MIX-MAPPO算法。實(shí)驗(yàn)結(jié)果表明，與DDPG、PPO、MADDPG和MAPPO等算法相比，該方法不但成功地實(shí)現(xiàn)了穩(wěn)定的編隊(duì)，而且具有明顯更快的收斂速度和更高的獎(jiǎng)勵(lì)值，說(shuō)明了MIX-MAPPO算法在編隊(duì)集群控制領(lǐng)域的優(yōu)越性。

關(guān)鍵詞：無(wú)人機(jī)編隊(duì)；門(mén)格海綿結(jié)構(gòu)；注意力機(jī)制；集群控制；編隊(duì)保持

中圖分類(lèi)號(hào)：TP301"" 文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-3695（2025）01-031-0231-05

doi：10.19734/j.issn.1001-3695.2024.07.0207

Multiple UAVs formation control based on MIX-MAPPO

Abstract：Single unmanned aerial vehicles （UAVs） struggle to effectively handle complex multi-task scenarios，whereas UAV swarms exhibit significant advantages in addressing such challenges.This paper proposed a drone swarm model based on the Menger sponge fractal to meet the needs of multi-task scenarios and maintaining formation during swarm operation.The model employed multi-agent proximal policy optimization （MAPPO），proximal policy optimization （PPO），and attention mechanism to train the formation control strategy.The approach simplified the establishment of the drone swarm model by assigning weights to all inputs based on each drone’s attention to other drones，which enhanced adaptability in dynamic environments.To address the slow convergence and limited adaptability of the MAPPO algorithm with multiple agents，the paper introduced a Menger sponge fractal-based MIX-MAPPO algorithm.Experimental results demonstrate that this method not only achieves stable formations successfully，but also has significantly faster convergence speed and higher reward values compared to algorithms such as DDPG，PPO，MADDPG，and MAPPO.The MIX-MAPPO algorithm thus proves to be superior in the field of swarm control.

Key words：multi-unmanned aerial vehicle formation； Menger sponge structure；attention mechanism；cluster control；formation keeping

0 引言

無(wú)人機(jī)（UAVs）因其相對(duì)于傳統(tǒng)飛行器的多功能性而受到了廣泛關(guān)注［1，2］。盡管具有諸多優(yōu)勢(shì)，但由于硬件和軟件限制，單個(gè)無(wú)人機(jī)往往難以勝任復(fù)雜任務(wù)，所以人們?cè)絹?lái)越多地關(guān)注多無(wú)人機(jī)編隊(duì)的研究。通過(guò)自組織，多個(gè)無(wú)人機(jī)可以實(shí)現(xiàn)自主合作，它們能夠有效地利用合作信息交換來(lái)增強(qiáng)整體性能［3～6］，執(zhí)行搜索救援、監(jiān)視和跟蹤等任務(wù)。對(duì)多無(wú)人機(jī)協(xié)作編隊(duì)控制的研究主要集中在移動(dòng)過(guò)程中編隊(duì)的聚集、建立和維持。目前，最常用的編隊(duì)方法包括領(lǐng)航者-跟隨者方法［7］、虛擬結(jié)構(gòu)方法［8］、一致性理論方法［9］、逆控制方法（BSC）［10］等。這些經(jīng)典技術(shù)在編隊(duì)的精確控制方面效果顯著，但隨著無(wú)人機(jī)數(shù)量的增加而帶來(lái)的復(fù)雜性和計(jì)算需求的增加，無(wú)人機(jī)編隊(duì)的可擴(kuò)展性受到限制。

受自然生態(tài)系統(tǒng)啟發(fā)，自組織的大型無(wú)人機(jī)群控制方法利用分離、聚集和速度匹配原理［11］，使每架無(wú)人機(jī)都充當(dāng)智能實(shí)體，自發(fā)保持距離以避免碰撞，并根據(jù)需要進(jìn)行聚集［12］。該類(lèi)方法實(shí)現(xiàn)了協(xié)調(diào)移動(dòng)，使群體之間保持一致的速度和方向。同時(shí)，利用多智能體強(qiáng)化學(xué)習(xí)方法控制無(wú)人機(jī)編隊(duì)系統(tǒng)可以簡(jiǎn)化復(fù)雜的集群系統(tǒng)建模的需求［13～16］，可以訓(xùn)練系統(tǒng)以提供控制輸入，然后在測(cè)試和應(yīng)用階段應(yīng)用已學(xué)習(xí)的策略。然而，將傳統(tǒng)多智能體強(qiáng)化學(xué)習(xí)算法擴(kuò)展到更大規(guī)模的無(wú)人機(jī)群時(shí)會(huì)面臨收斂性方面的挑戰(zhàn)。

基于上述問(wèn)題，本文提出了基于門(mén)格海綿分形的編隊(duì)結(jié)構(gòu)，利用分形結(jié)構(gòu)的自相似特性和局部與整體的相似性，簡(jiǎn)化隊(duì)形構(gòu)造過(guò)程。在形成一級(jí)編隊(duì)后，利用一級(jí)編隊(duì)的自相似特性可以聚集成更高層次的編隊(duì)，并依此類(lèi)推到n級(jí)編隊(duì)，使編隊(duì)具有可拓展性。對(duì)于MAPPO收斂較慢以及隨著智能體數(shù)量增多導(dǎo)致學(xué)習(xí)效果變差的問(wèn)題，本文將無(wú)人機(jī)抽象為深度強(qiáng)化學(xué)習(xí)中的智能體（質(zhì)點(diǎn)），結(jié)合門(mén)格海綿分形結(jié)構(gòu)的自相似特性，基于多智能體近端策略?xún)?yōu)化算法（MAPPO）［17］和近端策略?xún)?yōu)化算法（PPO）［18］開(kāi)發(fā)了控制算法，并在跟隨者無(wú)人機(jī)的評(píng)論家網(wǎng)絡(luò)中集成了注意力機(jī)制，設(shè)計(jì)了一種分組的MIX-MAPPO方法，賦予無(wú)人機(jī)自主學(xué)習(xí)的能力，減少了神經(jīng)網(wǎng)絡(luò)的輸入維數(shù)，簡(jiǎn)化了控制模型的建立過(guò)程，減小了訓(xùn)練時(shí)網(wǎng)絡(luò)計(jì)算的難度，加快了收斂速度，并提高聚集的成功率。在編隊(duì)訓(xùn)練中加入異構(gòu)信息，使集群可以應(yīng)對(duì)更為復(fù)雜的問(wèn)題。

1 門(mén)格海綿結(jié)構(gòu)編隊(duì)模型建模

本章概述了無(wú)人機(jī)的運(yùn)動(dòng)模型和編隊(duì)集群結(jié)構(gòu)。研究專(zhuān)注于多級(jí)無(wú)人機(jī)編隊(duì)結(jié)構(gòu)，旨在充分利用門(mén)格海綿結(jié)構(gòu)的分形自相似特性，實(shí)現(xiàn)對(duì)大規(guī)模無(wú)人機(jī)集群的高效控制。在無(wú)人機(jī)編隊(duì)集群控制領(lǐng)域，傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)算法在應(yīng)對(duì)龐大無(wú)人機(jī)數(shù)量和復(fù)雜任務(wù)的挑戰(zhàn)方面面臨學(xué)習(xí)效率差、收斂速度慢等問(wèn)題。為解決這些問(wèn)題，引入了具有自相似特性的門(mén)格海綿結(jié)構(gòu)，簡(jiǎn)化構(gòu)建隊(duì)形。將整個(gè)無(wú)人機(jī)集群抽象為一個(gè)正方形，而集群中的子編隊(duì)則對(duì)應(yīng)于該結(jié)構(gòu)中的子正方形，這種設(shè)計(jì)能夠使無(wú)人機(jī)編隊(duì)高效地執(zhí)行復(fù)雜任務(wù)。

1.1 運(yùn)動(dòng)模型

本文主要研究無(wú)人機(jī)編隊(duì)的控制問(wèn)題，強(qiáng)調(diào)編隊(duì)間的協(xié)同，不考慮單個(gè)無(wú)人機(jī)的特性，因此本文可以簡(jiǎn)化問(wèn)題，將無(wú)人機(jī)抽象為質(zhì)點(diǎn)。首先，定義一個(gè)向量集［p1，p2，…，pn］，這個(gè)向量集是指集群內(nèi)所有無(wú)人機(jī)在笛卡爾坐標(biāo)系中的坐標(biāo)。描述單個(gè)無(wú)人機(jī)的運(yùn)動(dòng)，可以使用式（1）表示。

其中：νi為無(wú)人機(jī)i的飛行速度；φi為UAVi的俯仰航向角，假設(shè)無(wú)人機(jī)在同一高度飛行，則在z軸方向的高度保持不變，即ζ。在無(wú)人機(jī)飛行過(guò)程中，通過(guò)施加控制輸入來(lái)引導(dǎo)無(wú)人機(jī)的飛行。控制輸入公式如下：

其中：pi和Vi分別是UAVi的位置和速度；ui=［uxi，uyi］是X和Y方向的控制輸入，可以通過(guò)ui的控制輸入來(lái)改變無(wú)人機(jī)的速度和角度等參數(shù)。

1.2 隊(duì)形設(shè)計(jì)

本文編隊(duì)隊(duì)形設(shè)計(jì)將門(mén)格海綿分形結(jié)構(gòu)與無(wú)人機(jī)集群編隊(duì)相結(jié)合。分形結(jié)構(gòu)的特點(diǎn)是自相似性，其中部分與整體表現(xiàn)出相似性。利用局部與整體的相似性，可以簡(jiǎn)化隊(duì)形構(gòu)造過(guò)程。在形成一級(jí)編隊(duì)后，利用一級(jí)編隊(duì)的自相似特性可以聚集成更高層次的編隊(duì)，并依此類(lèi)推，使編隊(duì)具有可拓展性。

一級(jí)編隊(duì)由5架無(wú)人機(jī)組成，包括1架處于中間位置的領(lǐng)導(dǎo)者無(wú)人機(jī)和4架均勻分布在其周?chē)母S者無(wú)人機(jī)。該編隊(duì)可以更好地將領(lǐng)導(dǎo)者無(wú)人機(jī)保護(hù)在安全位置，防止外部惡意無(wú)人機(jī)的入侵和攻擊。一級(jí)編隊(duì)中的通信只存在于領(lǐng)導(dǎo)者和跟隨者之間，是一種集中控制方式。

一級(jí)編隊(duì)以領(lǐng)導(dǎo)者無(wú)人機(jī)為中心，半徑為跟隨者無(wú)人機(jī)與領(lǐng)導(dǎo)者無(wú)人機(jī)的整體距離dij，每個(gè)子編隊(duì)為最小任務(wù)執(zhí)行單元，領(lǐng)導(dǎo)者無(wú)人機(jī)確定編隊(duì)速度和位置，安全范圍基于跟隨者無(wú)人機(jī)的安全范圍dsafe，具體結(jié)構(gòu)如圖1所示。

一級(jí)編隊(duì)中的拉普拉斯矩陣L為

其中：D為度矩陣；A為鄰接矩陣。拉普拉斯矩陣的秩為4，代表一級(jí)編隊(duì)五架無(wú)人機(jī)之間可進(jìn)行相互通信。

基于門(mén)格海綿分形結(jié)構(gòu)具有自相似特性，可以讓各級(jí)編隊(duì)都能形成門(mén)格海綿結(jié)構(gòu)分形，使無(wú)人機(jī)集群編隊(duì)擁有了極大的可擴(kuò)展性。在移動(dòng)過(guò)程中，領(lǐng)導(dǎo)者無(wú)人機(jī)根據(jù)任務(wù)規(guī)劃航跡。將一級(jí)編隊(duì)設(shè)為一個(gè)整體，表示如下：

其中：R為一級(jí)編隊(duì)形成一個(gè)質(zhì)點(diǎn)的半徑大小；v為一級(jí)編隊(duì)形成一個(gè)質(zhì)點(diǎn)的速度；p為一級(jí)編隊(duì)形成一個(gè)質(zhì)點(diǎn)在空間中的位置坐標(biāo)。

根據(jù)門(mén)格海綿分形結(jié)構(gòu)的自相似特性，本文可以將四個(gè)一級(jí)編隊(duì)采用相同的聚集策略構(gòu)建為二級(jí)編隊(duì)。由此產(chǎn)生的編隊(duì)結(jié)構(gòu)也遵循門(mén)格海綿分形結(jié)構(gòu)，多級(jí)編隊(duì)可以迭代進(jìn)行。二級(jí)編隊(duì)結(jié)構(gòu)如圖2所示。

二級(jí)編隊(duì)在保留一級(jí)編隊(duì)內(nèi)部原有通信聯(lián)系的同時(shí)，每個(gè)一級(jí)編隊(duì)內(nèi)的領(lǐng)導(dǎo)者之間也可以進(jìn)行溝通和協(xié)作，以建立第二級(jí)編隊(duì)。領(lǐng)導(dǎo)者之間同級(jí)，使多級(jí)編隊(duì)可以進(jìn)行小規(guī)模集中式控制和大規(guī)模分布式編隊(duì)控制。

2 門(mén)格海綿結(jié)構(gòu)編隊(duì)集群實(shí)現(xiàn)

本章基于MAPPO算法，提出MIX-MAPPO算法。該算法結(jié)合門(mén)格海綿分形結(jié)構(gòu)和注意力機(jī)制框架以及混合評(píng)論家網(wǎng)絡(luò)，可以降低評(píng)論家網(wǎng)絡(luò)的輸入維數(shù)，減少評(píng)論家網(wǎng)絡(luò)的復(fù)雜度，賦予無(wú)人機(jī)自主學(xué)習(xí)和獲取聚合策略的能力，使無(wú)人機(jī)群可以自主執(zhí)行任務(wù)。

2.1 MIX-MAPPO算法

MAPPO算法通過(guò)將所有智能體的狀態(tài)和動(dòng)作值反饋到批評(píng)網(wǎng)絡(luò)來(lái)解決復(fù)雜多任務(wù)場(chǎng)景問(wèn)題。然而，這也帶來(lái)了學(xué)習(xí)和收斂方面的挑戰(zhàn)。狀態(tài)空間隨著智能體數(shù)量的增加而線性增長(zhǎng)，使得算法的收斂難以實(shí)現(xiàn)。為了解決這個(gè)問(wèn)題，本文算法利用了門(mén)格海綿分形結(jié)構(gòu)的自相似特征，在聚類(lèi)過(guò)程中，所有無(wú)人機(jī)被劃分成正方形的編隊(duì)，由領(lǐng)導(dǎo)者無(wú)人機(jī)進(jìn)行這些子編隊(duì)之間的互聯(lián)。

基于圖2所示的編隊(duì)設(shè)計(jì)，每個(gè)一級(jí)編隊(duì)都被視為一個(gè)完整的實(shí)體。在這一框架下，制定了跟隨無(wú)人機(jī)的網(wǎng)絡(luò)架構(gòu)。該架構(gòu)以MAPPO算法的評(píng)論家網(wǎng)絡(luò)為基礎(chǔ)，在前面集成了注意力機(jī)制，可以根據(jù)跟隨無(wú)人機(jī)對(duì)編隊(duì)內(nèi)其他無(wú)人機(jī)的不同注意力水平為所有輸入分配權(quán)重。這一優(yōu)化提高了跟隨者無(wú)人機(jī)從其他無(wú)人機(jī)收集狀態(tài)和行動(dòng)信息的能力，提高了算法訓(xùn)練效率。跟隨者的評(píng)論家網(wǎng)絡(luò)的輸入包括子編隊(duì)內(nèi)所有無(wú)人機(jī)t時(shí)刻的聚合函數(shù)值，并按t時(shí)刻動(dòng)作值（a1，a2，…，an）和狀態(tài)觀測(cè)值（o1，o2，…，on）加權(quán)。通過(guò)這種輸入方法，每個(gè)跟隨無(wú)人機(jī)都可以學(xué)習(xí)子編隊(duì)中其他無(wú)人機(jī)的狀態(tài)，并相應(yīng)地執(zhí)行下一個(gè)動(dòng)作（a1，a2，…，an+1），以達(dá)到聚集到相應(yīng)位置并避免碰撞的效果。這里，n代表跟隨者的數(shù)量，而n+1表示整個(gè)一級(jí)編隊(duì)中的無(wú)人機(jī)總數(shù)。

此外，假設(shè)集群收斂于一個(gè)固定的集合點(diǎn)，集合過(guò)程要求領(lǐng)導(dǎo)者和跟隨者都迅速采取行動(dòng)。領(lǐng)導(dǎo)者的任務(wù)是迅速前進(jìn)到集合點(diǎn)，而跟隨者則需要接近各自的領(lǐng)導(dǎo)者和指定的集合點(diǎn)。為了加快領(lǐng)導(dǎo)者向集合點(diǎn)的移動(dòng)，本文利用PPO評(píng)論家網(wǎng)絡(luò)簡(jiǎn)化領(lǐng)導(dǎo)者評(píng)論家網(wǎng)絡(luò)的輸入。具體來(lái)說(shuō)，領(lǐng)導(dǎo)者評(píng)論網(wǎng)絡(luò)的輸入僅包括其自身的動(dòng)作值at和狀態(tài)值ot，而不考慮其他無(wú)人機(jī)的狀態(tài)，每個(gè)隊(duì)形內(nèi)的協(xié)調(diào)方面將反映在環(huán)境獎(jiǎng)勵(lì)成分中。該改進(jìn)可以減少智能體的網(wǎng)絡(luò)輸入，降低學(xué)習(xí)難度，從而加快收斂速度，最終達(dá)到預(yù)期效果，評(píng)論家網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

損失值函數(shù)如下：

通過(guò)分組，緩解了無(wú)人機(jī)數(shù)量增加導(dǎo)致輸入線性增長(zhǎng)的問(wèn)題。該方法可以?xún)?yōu)化臨界網(wǎng)絡(luò)，加快收斂速度。具體過(guò)程如算法1所示。

算法1 MIX-MAPPO算法

2.2 獎(jiǎng)勵(lì)設(shè)置

利用強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)無(wú)人機(jī)控制策略，最重要的部分是通過(guò)設(shè)置獎(jiǎng)勵(lì)函數(shù)來(lái)訓(xùn)練無(wú)人機(jī)，實(shí)現(xiàn)集群策略學(xué)習(xí)并完成集群形成。本文中的無(wú)人機(jī)從優(yōu)先級(jí)的角度可以分為領(lǐng)導(dǎo)者無(wú)人機(jī)和跟隨者無(wú)人機(jī)兩類(lèi)。在集群的任務(wù)場(chǎng)景中設(shè)置虛擬集合點(diǎn)，并對(duì)領(lǐng)導(dǎo)者和跟隨者無(wú)人機(jī)設(shè)置不同的獎(jiǎng)勵(lì)函數(shù)。

領(lǐng)導(dǎo)者獎(jiǎng)勵(lì)：由于領(lǐng)導(dǎo)者無(wú)人機(jī)需要盡快到達(dá)目標(biāo)位置，它們通過(guò)最小化到各自目標(biāo)位置的距離來(lái)獲得獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)設(shè)置如下：

rlea=-min‖plea-ptar‖2（9）

其中：plea為領(lǐng)導(dǎo)者的當(dāng)前位置；ptar為領(lǐng)導(dǎo)者相對(duì)于目標(biāo)點(diǎn)的預(yù)期位置。

跟隨者獎(jiǎng)勵(lì)：跟隨者無(wú)人機(jī)在動(dòng)態(tài)變化中跟隨領(lǐng)導(dǎo)者無(wú)人機(jī)，通過(guò)減少領(lǐng)導(dǎo)者無(wú)人機(jī)的相對(duì)位置來(lái)達(dá)到跟隨效果，考慮到子編隊(duì)的形狀，本文設(shè)置了一個(gè)虛擬的方形結(jié)構(gòu)，讓無(wú)人機(jī)跟隨虛擬的隊(duì)形，達(dá)到保持隊(duì)形的目的。設(shè)每架無(wú)人機(jī)有一個(gè)大于無(wú)人機(jī)大小的圓形期望位置區(qū)域（Epa），且對(duì)應(yīng)的無(wú)人機(jī)在期望位置范圍內(nèi)處于穩(wěn)定狀態(tài)，則認(rèn)為編隊(duì)相對(duì)穩(wěn)定，如圖4所示。

如果跟隨無(wú)人機(jī)在對(duì)應(yīng)的期望位置區(qū)域內(nèi)，則認(rèn)為其處于穩(wěn)定狀態(tài)并獲得正獎(jiǎng)勵(lì)，反之則根據(jù)其與對(duì)應(yīng)的領(lǐng)導(dǎo)者無(wú)人機(jī)的相對(duì)位置距離進(jìn)行負(fù)懲罰，距離越遠(yuǎn)，懲罰越大，獎(jiǎng)勵(lì)函數(shù)設(shè)置如下：

rf=-min‖pf-pl‖2（10）

其中：pf為跟隨者的當(dāng)前位置；pl為領(lǐng)導(dǎo)者的當(dāng)前位置。

避撞獎(jiǎng)勵(lì)：無(wú)人機(jī)集群過(guò)程需要避免無(wú)人機(jī)之間的碰撞，可以通過(guò)設(shè)置相應(yīng)的獎(jiǎng)勵(lì)函數(shù)來(lái)實(shí)現(xiàn)。在無(wú)碰撞情況下，設(shè)置安全距離，當(dāng)兩架無(wú)人機(jī)之間的距離大于安全距離時(shí)，無(wú)人機(jī)處于安全狀態(tài)，無(wú)人機(jī)不會(huì)因避碰而受到獎(jiǎng)勵(lì)。當(dāng)兩架無(wú)人機(jī)之間的距離等于安全距離時(shí)，無(wú)人機(jī)處于危險(xiǎn)狀態(tài)的臨界區(qū)域。當(dāng)兩架無(wú)人機(jī)之間的距離小于安全距離時(shí)，無(wú)人機(jī)處于危險(xiǎn)狀態(tài)。無(wú)人機(jī)避碰情況如圖5所示。獎(jiǎng)勵(lì)設(shè)置如下：

其中：dsafe為安全距離；dij為兩架無(wú)人機(jī)的相對(duì)距離。

環(huán)境獎(jiǎng)勵(lì)：在真實(shí)的無(wú)人機(jī)集群場(chǎng)景中，各種環(huán)境因素都會(huì)對(duì)無(wú)人機(jī)集群的控制產(chǎn)生影響。為了模擬環(huán)境因素對(duì)無(wú)人機(jī)集群的不利影響，本文引入了一種會(huì)將無(wú)人機(jī)吸引到坐標(biāo)原點(diǎn)的獎(jiǎng)勵(lì)機(jī)制。具體而言，本文基于每個(gè)無(wú)人機(jī)與坐標(biāo)原點(diǎn)之間的相對(duì)距離實(shí)施獎(jiǎng)勵(lì)，距離越小，獎(jiǎng)勵(lì)越大。獎(jiǎng)勵(lì)函數(shù)定義如下：

renv=-min 0.1×‖plea-p0‖2（12）

其中：plea為無(wú)人機(jī)位置；p0為原點(diǎn)位置。

3 實(shí)驗(yàn)結(jié)果

本章的訓(xùn)練平臺(tái)基于OpenAI的MPE開(kāi)源庫(kù)搭建，實(shí)驗(yàn)的硬件配置是Xeno E5-2620 @2.10 GHz CPU、32 GB RAM、NVIDIA 2070 super GPU。首先在模型訓(xùn)練階段與深度確定性策略梯度算法（DDPG）［19］、PPO、多智能體深度確定性策略梯度算法（MADDPG）［20］和MAPPO等算法相比，MIX-MAPPO算法不但成功地實(shí)現(xiàn)了穩(wěn)定的編隊(duì)，而且具有明顯更快的收斂速度和更高的獎(jiǎng)勵(lì)值。實(shí)驗(yàn)參數(shù)設(shè)置如表1所示。

3.1 實(shí)驗(yàn)獎(jiǎng)勵(lì)對(duì)比

從圖6和7中可以看出，對(duì)比DDPG和PPO等單智能體強(qiáng)化學(xué)習(xí)方法，多智能體深度強(qiáng)化學(xué)習(xí)方法的無(wú)人機(jī)編隊(duì)控制性能更優(yōu)秀。比較MIX-MAPPO、MADDPG和MAPPO三種算法，可以清楚地看到MIX-MAPPO優(yōu)于MAPPO和MADDPG，MAPPO也表現(xiàn)出優(yōu)于MADDPG的性能。這種優(yōu)勢(shì)源于前兩個(gè)算法是on-policy類(lèi)型算法，與off-policy類(lèi)型算法MADDPG相比，在更新方法、樣本利用效率等方面都有優(yōu)勢(shì)。此外，MIX-MAPPO優(yōu)于MAPPO是因?yàn)槠浞纸M機(jī)制，允許無(wú)人機(jī)選擇性地只從各自編隊(duì)內(nèi)的其他無(wú)人機(jī)收集狀態(tài)。領(lǐng)導(dǎo)者和跟隨者使用獨(dú)立的評(píng)論網(wǎng)絡(luò)，跟隨者的評(píng)論網(wǎng)絡(luò)中集成了注意力機(jī)制，根據(jù)跟隨者對(duì)其他無(wú)人機(jī)的注意力水平對(duì)輸入賦予權(quán)重，降低了評(píng)論網(wǎng)絡(luò)的輸入維度，優(yōu)化了無(wú)人機(jī)獲取其他無(wú)人機(jī)狀態(tài)和動(dòng)作信息的效率。

3.2 訓(xùn)練時(shí)間對(duì)比

如表2所示，這部分主要是對(duì)五種方法在同一訓(xùn)練中經(jīng)過(guò)相同輪訓(xùn)練的時(shí)間比較。表2列出了幾種方法的時(shí)間表，可以看出MADDP和MAPPO需要的時(shí)間更長(zhǎng)，其次是DDPG和PPO，而MIX-MAPPO需要的時(shí)間最短。

首先，對(duì)于DDPG和PPO算法，無(wú)人機(jī)評(píng)論家網(wǎng)絡(luò)僅從自身智能體獲取狀態(tài)信息，與MADDPG和MAPPO算法相比計(jì)算復(fù)雜度更低，從而使訓(xùn)練時(shí)間快于后者。而MIX-MAPPO具有最短的訓(xùn)練時(shí)間，則是因?yàn)镸IX-MAPPO訓(xùn)練無(wú)人機(jī)有側(cè)重地從各自編隊(duì)內(nèi)的無(wú)人機(jī)中收集信息，領(lǐng)導(dǎo)者和跟隨者采用獨(dú)立的批評(píng)網(wǎng)絡(luò)，并將注意力機(jī)制融入到跟隨者的批評(píng)網(wǎng)絡(luò)中，這可以根據(jù)追隨者對(duì)其他無(wú)人機(jī)的關(guān)注程度為所有輸入分配權(quán)重。該方法降低了批評(píng)網(wǎng)絡(luò)的輸入維度，優(yōu)化了無(wú)人機(jī)獲取其他無(wú)人機(jī)狀態(tài)和動(dòng)作信息的效率。而且由于加入了分組信息和注意力機(jī)制進(jìn)行信息權(quán)重分配，G-MIXDDPG下無(wú)人機(jī)可以更快地達(dá)到預(yù)設(shè)隊(duì)形的目標(biāo)點(diǎn)，DDPG和PPO中的無(wú)人機(jī)卻更加盲目。在單輪訓(xùn)練中，MIX-MAPPO可以在一輪訓(xùn)練結(jié)束時(shí)達(dá)到預(yù)設(shè)目標(biāo)，比DDPG和PPO的訓(xùn)練時(shí)間快，因此最終的訓(xùn)練時(shí)間小于DDPG和PPO。

3.3 編隊(duì)完成率

在評(píng)估不同方法的實(shí)驗(yàn)效果時(shí)，設(shè)定無(wú)人機(jī)到達(dá)其預(yù)設(shè)的期望位置即視為對(duì)應(yīng)任務(wù)的完成，當(dāng)集群中的所有無(wú)人機(jī)都成功到達(dá)各自的期望位置時(shí)，則整個(gè)集群任務(wù)完成。在設(shè)定了虛擬聚集點(diǎn)后，無(wú)人機(jī)編隊(duì)在向該聚集點(diǎn)移動(dòng)的過(guò)程中，每架無(wú)人機(jī)的期望位置都是相對(duì)于該聚集點(diǎn)的固定點(diǎn)。因此，可以通過(guò)確定虛擬聚集點(diǎn)的位置來(lái)明確所有無(wú)人機(jī)的期望位置。定義編隊(duì)的完成率（completion rate，CR）為

CR=m/n（13）

其中：m為到達(dá)預(yù)定位置的UAV數(shù)量；n為總的UAV數(shù)量。獲取100輪實(shí)驗(yàn)中的完成率，并取平均值，結(jié)果如表3所示。

實(shí)驗(yàn)結(jié)果表明，在涉及多個(gè)無(wú)人機(jī)協(xié)同任務(wù)的多智能體場(chǎng)景中，傳統(tǒng)的單智能體DDPG算法和PPO算法因僅依賴(lài)自身狀態(tài)信息，而與其他多智能體算法相比，表現(xiàn)出較差的適應(yīng)性和完成率。MIX-MAPPO優(yōu)于MADDPG和MAPPO，是因?yàn)镚-MADDPG通過(guò)引入分組機(jī)制減少了評(píng)論家網(wǎng)絡(luò)的信息輸入量，以及引入注意力機(jī)制進(jìn)行信息權(quán)重分配，顯著提升了任務(wù)的完成效率，驗(yàn)證了分組策略在優(yōu)化多智能體協(xié)作中的必要性和有效性。

3.4 動(dòng)捕實(shí)驗(yàn)

動(dòng)捕實(shí)驗(yàn)是為了驗(yàn)證算法訓(xùn)練出的策略的有效性，即將策略輸出的路徑用真實(shí)場(chǎng)景實(shí)現(xiàn)，以直觀表達(dá)算法的可行性。

從圖8可以看出，通過(guò)MIX-MAPPO的優(yōu)化和精確控制，訓(xùn)練出的策略可以完美控制五架無(wú)人機(jī)進(jìn)行從隨機(jī)停放到形成編到保持隊(duì)形移動(dòng)到落地全過(guò)程。這充分驗(yàn)證了MIX-MAPPO在實(shí)際無(wú)人機(jī)編隊(duì)控制問(wèn)題中的可行性。

最初，跟隨者無(wú)人機(jī)與領(lǐng)導(dǎo)者無(wú)人機(jī)的位置和距離不斷變化，隨后四架跟隨者無(wú)人機(jī)與領(lǐng)導(dǎo)者無(wú)人機(jī)之間的距離幾乎同時(shí)穩(wěn)定在相同距離，并在后續(xù)時(shí)間一直保持穩(wěn)定，這說(shuō)明經(jīng)過(guò)MIX-MAPPO訓(xùn)練形成的成熟策略，可以保證一級(jí)編隊(duì)順利聚集和保持。

4 結(jié)束語(yǔ)

本文基于門(mén)格海綿分形結(jié)構(gòu)設(shè)計(jì)了一種無(wú)人機(jī)編隊(duì)，研究無(wú)人機(jī)的聚集和分離問(wèn)題，并采用多智能體深度強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)控制策略。這使得多個(gè)無(wú)人機(jī)能夠自主聚類(lèi)并形成特定的編隊(duì)結(jié)構(gòu)，以滿足快速形成編隊(duì)的要求，簡(jiǎn)化了集群控制策略的設(shè)計(jì)，降低了數(shù)學(xué)模型的復(fù)雜性。通過(guò)結(jié)合門(mén)格海綿分形結(jié)構(gòu)的特點(diǎn)，在集群內(nèi)塑造無(wú)人機(jī)編隊(duì)，以簡(jiǎn)化關(guān)鍵網(wǎng)絡(luò)并提高學(xué)習(xí)效率。最終的實(shí)驗(yàn)結(jié)果表明，與DDPG、PPO、MADDPG和MAPPO相比，改進(jìn)的MIX-MAPPO算法具有更快的收斂速度和更好的收斂性能。

未來(lái)將基于自相似特性探索三維空間無(wú)人機(jī)編隊(duì)的實(shí)現(xiàn)。同時(shí)在實(shí)際場(chǎng)景中將用更多架無(wú)人機(jī)驗(yàn)證本文算法。在算法改進(jìn)方面，將進(jìn)一步探索更精細(xì)的分組策略和更高效的信息共享機(jī)制，以應(yīng)對(duì)更復(fù)雜多變的多智能體協(xié)同任務(wù)。

參考文獻(xiàn)：

［1］Zhu Xiaoning.Analysis of military application of UAV swarm tech-nology［C］//Proc of the 3rd International Conference on Unmanned Systems.Piscataway，NJ：IEEE Press，2020：1200-1204.

［2］Lu Yafei，Chen Qingyang，Jia Gaowei，et al.Development and experiment of elastic-rope launcher for small fixed-wing UAVs［C］//Proc of the 3rd World Conference on Mechanical Engineering and Intelligent Manufacturing.Piscataway，NJ：IEEE Press，2020：654-658.

［3］Ribeiro R G，Cota L P，Euzebio T A M，et al.Guimaraes unmanned-aerial vehicle routing problem with mobile charging stations for assisting search and rescue missions in post disaster scenarios［J］.IEEE Trans on Systems，Man，and Cybernetics：Systems，2022，52（11）：6682-6696.

［4］Dang Tung，Mascarich F，Khattak S，et al.Autonomous search for underground mine rescue using aerial robots［C］//Proc of IEEE Aerospace Conference.Piscataway，NJ：IEEE Press，2020：1-8.

［5］Meng Wei，He Zhirong，Su Rong，et al.Decentralized multi-UAV flight autonomy for moving convoys search and track［J］.IEEE Trans on Control Systems Technology，2017，25（4）：1480-1487.

［6］Javaid S，Saeed N，Qadi Z，et al.Communication and control in colla-borative UAVs：recent advances and future trends［J］.IEEE Trans on Intelligent Transportation Systems，2023，24（6）：5719-5739.

［7］Cao Lei，Liu Guoping，Zhang Dawei，et al.A leader-follower formation strategy for networked multi-agent systems based on the PI predictive control method［C］//Proc of the 40th Chinese Control Conference.Piscataway，NJ：IEEE Press，2021：4763-4768.

［8］Chen Qingyang，Wang Yujie，Lu Yafei.Formation control for UAVs based on the virtual structure idea and nonlinear guidance logic［C］//Proc of the 6th International Conference on Automation，Control and Robotics Engineering.Piscataway，NJ：IEEE Press，2021：135-139.

［9］Wang Anxu，Jing Fuqi，Huang Xiaowei，et al.Structure keeping control for heterogeneous formations based on consistency theory and graph theory［C］//Proc of the 9th International Conference on Mechatronics and Robotics Engineering.Piscataway，NJ：IEEE Press，2023：139-145.

［10］Ma Haoxiang，Chen Mou，Wu Qingxian.Disturbance observer based inverse optimal tracking control of the unmanned aerial helicopter［C］//Proc of the 8th Data Driven Control and Learning Systems Conference.Piscataway，NJ：IEEE Press，2019：448-452.

［11］Kouzeghar M，Song Y，Meghjani M，et al.Multi-target pursuit by a decentralized heterogeneous UAV swarm using deep multi-agent reinforcement learning［C］//Proc of IEEE ICRA.Piscataway，NJ：IEEE Press，2023：3289-3295.

［12］Niu Zijia，Jia Xiaohu，Yao Wang.Communication-free MPC-based neighbors trajectory prediction for distributed multi-UAV motion planning［J］.IEEE Access，2022，10：13481-13489.

［13］Wang Chao，Wang Jian，Zhang Xudong.A deep reinforcement learning approach to flocking and navigation of UAVs in large-scale complex environments［C］//Proc of IEEE GlobalSIP.Piscataway，NJ：IEEE Press，2018：1228-1232.

［14］Salimi M，Pasquier P.Deep reinforcement learning for flocking control of UAVs in complex environments［C］//Proc of the 6th International Conference on Robotics and Automation Engineering.Piscataway，NJ：IEEE Press，2021：344-352.

［15］Yan Chao，Wang Chang，Xiang Xiaojia，et al.Deep reinforcement learning of collision-free flocking policies for multiple fixed-wing UAVs using local situation maps［J］.IEEE Trans on Industrial Informatics，2022，18（2）：1260-1270.

［16］Wu Jiehong，Yu Yuanzhe，Ma Jian，et al.Autonomous cooperative flocking for heterogeneous unmanned aerial vehicle group［J］.IEEE Trans on Vehicular Technology，2021，70（4）：12477-12490.

［17］Lyu Gengcheng，Li Meng.Multi-agent cooperative control in neural MMO environment based on mappo algorithm［C］//Proc of the 5th International Conference on Artificial Intelligence Circuits and Systems.Piscataway，NJ：IEEE Press，2023：1-4.

［18］Liu Shuai.Research on manipulator control strategy based on PPO algorithm［C］//Proc of GCITC.Piscataway，NJ：IEEE Press，2023：1-4.

［19］Xiang Yao，Wen Jiayan，Luo Wenguang，et al. Research on collision-free control and simulation of single-agent based on an improved DDPG algorithm［C］//Proc of the 35th Youth Academic Annual Conference of Chinese Association of Automation.Piscataway，NJ：IEEE Press，2020：552-556.

［20］Zhao Maomao，Zhang Shaojie，Jiang Bin.Multi-agent cooperative attacker-defender-target task decision based on PF-MADDPG［C］//Proc of the 6th International Symposium on Autonomous Systems.Piscataway，NJ：IEEE Press，2023：1-6.

計(jì)算機(jī)應(yīng)用研究2025年1期

計(jì)算機(jī)應(yīng)用研究的其它文章: 小數(shù)據(jù)集上基于語(yǔ)義的局部注意視覺(jué)Transformer方法; 一種基于旋轉(zhuǎn)-平移解耦優(yōu)化的在線稠密重建算法; 單目RGB穿衣人體的手部精細(xì)化重建; 基于視角統(tǒng)一的手姿態(tài)估計(jì)優(yōu)化方法; 基于互相關(guān)和旋轉(zhuǎn)約束的視覺(jué)慣性里程計(jì)在線時(shí)間校準(zhǔn)算法; 適用于智能醫(yī)療的匿名基于身份的認(rèn)證密鑰協(xié)商協(xié)議