999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進型DDPG算法的多智能體編隊控制與仿真

2023-07-17 21:45:11景永年耿雙雙向瑤文家燕
廣西科技大學學報 2023年3期
關鍵詞:深度學習

景永年 耿雙雙 向瑤 文家燕

摘 要:針對多智能體系統編隊在路徑規劃過程中隊形不穩定、獲取路徑時間較慢以及在避障過程中存在與障礙物距離較近的問題,本文采用角度距離度量的方式對多智能體進行編隊,通過改變傳統的由起始點到達終點避障過程所形成的路徑規劃方法,弱化起始點和終點概念,添加路徑中點的方式,使智能體同時從起點以及終點向中點移動,形成由起點指向中點、終點指向中點的2條路徑。將獎勵函數設計為同號智能體相碰為正向獎勵,異號智能體相碰以及智能體(同號智能體和異號智能體)與障礙物之間相碰均為負向獎勵。在搭建的靜態和動態障礙物2種仿真環境下分別進行可變容量體驗池深度確定性策略梯度算法(deep deterministic policy gradient -variable capacity experience pool, DDPG-vcep)驗證,并對比不同訓練次數下的獎賞值。仿真結果表明,改進后的DDPG編隊算法較傳統DDPG算法節約了路徑獲取時間,編隊避障的效果更加明顯。

關鍵詞:深度學習;強化學習;深度確定性策略梯度算法(DDPG算法);多智能體;編隊控制;避障

中圖分類號:TP273 DOI:10.16375/j.cnki.cn45-1395/t.2023.03.009

0 引言

隨著多智能體系統在軍事和民用領域上的應用越來越廣泛,其中多智能體系統之間的協作或協調問題受到了越來越多的關注,在衛星群協同控制、無人機編隊控制、多機器人系統分布式優化、自動化公路系統調度等領域有著廣泛的應用[1-4]。

在多智能體群體中,編隊控制是最基本、最重要的研究課題之一,它要求一組智能體保持預定的隊形在期望的軌跡上運動,也可以看作是所有的自治智能體通過協作來完成共同的任務。因此,多智能體編隊可以廣泛應用于航空航天、工業、娛樂等領域[5-7]。隨著理論研究的深入和現實應用需求的增加,圍繞多智能體編隊控制的研究越來越結合實際工況約束?,F有的編隊控制方法主要是針對確定性多智能體系統,不考慮任何隨機干擾。然而多智能體通信中經常受到各種隨機噪聲的干擾,如熱噪聲、信道衰落和編解碼過程中的量化效應[8-12],因此,隨機動態模型比確定性模型更能準確地描述實際的多智能體系統。為確定性系統開發的許多控制技術已成功地擴展到隨機動態系統,但由于高維度問題[13],這些技術無法直接應用于多智能體系統控制中。近年來,隨著深度強化學習方法在多智能體系統編隊控制的深入研究,為解決維度高的問題提供了新思路。

深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法是一種只適用于連續動作空間的off-policy算法,是深度Q-Learning算法在連續動作空間中的擴展。本文在傳統的DDPG算法的基礎上進行改進,在多智能體編隊避障過程出現“局部困擾”和獲得避障路徑效率低的情況下,結合雙向搜索以及改進獎勵函數解決多智能體編隊避障控制問題。

1 整體框架

在傳統的深度強化學習算法DDPG基礎上研究多智能體系統編隊整體框架,如圖1所示,主要由4個模塊構成。

1) 環境建模模塊:設置智能體需要訓練的環境,包括多智能體的起始點位置、中點位置、障礙物位置等。

2) 多智能體系統模塊:由多個智能體構成,本實驗設置的是4個智能體。多智能體系統設置的是智能體本身的一些參數,包括轉角、移動速度等。

3) 基于改進的DDPG算法的多智能體系統編隊控制算法模塊:該模塊中涉及到的改進算法是在DDPG算法基礎上作了獎勵函數以及智能體編隊方式、智能體起點中點設置的改進。

4) 任務分配(編隊)模塊:每個智能體在保持自身與其他智能體相對位置的情況下,構建成菱形編隊到達中點位置,遇到障礙物會切換隊形,并重新設置智能體之間的相對距離,形成一字型繞過障礙物。

1.1 環境建模

多智能體避障所構建的環境如圖2所示,環境地圖較為簡單。所建環境大小為10×10,其中地圖中的數字由小到大分別對應的是智能體可行使區域、障礙物位置、智能體所在位置、中點位置。在二維坐標平面分別在(1,2)、(1,3)、(2,2)、(2,3)位置處設立智能體的初始位置;在二維坐標平面(5,5)、(5,6)、(6,5)、(6,6)位置處建立第一次由起始位置所到達的中點位置;在二維坐標平面(8,7)、(8,8)、(9,7)、(9,8)位置處建立4個智能體的第二次起點位置;重點設立的障礙物在二維平面坐標的中點位置附近,目的是干擾智能體到達中點,驗證改進算法的可行性。

1.2 任務分配

任務分配是多智能體系統編隊中必須應用到的。本文研究的多智能體編隊控制的任務分配問題是:在環境中有4個智能體,每個智能體對應的任務分配為從起點以一定的隊形到達對應的目標點,此為任務分配一;對于任務分配二,要求4個智能體從目標點出發按照相同的隊形到達起點,在遇到障礙物時變換隊形越過障礙物,最終實現任務一與任務二的統一,在中點處重合,形成一條完整的避障路徑,以達到獲取避障路徑效率最快的目的。

1.3 多Agent編隊控制算法

本文采用的多智能體系統編隊控制方法是多智能體首先在障礙物環境中有一個起始位置,然后按照智能體之間設置的安全距離進行菱形編隊,向著中點方向進行移動,在移動過程中若遇到障礙物則進行編隊重構,形成一字型,繞過障礙物,之后恢復菱形編隊到達中點。與同類型編隊算法不同的是,本文算法新添加了一重反方向的編隊,中點位置沒有發生改變,從第一次多智能體到達的目標點為起點向著中點進行編隊前行。最終二者會形成一條完整的避障路徑,會在避障效率上大大減少訓練時間。

1.3.1 菱形編隊

多智能體采用菱形編隊的示意圖如圖3所示。其中黑色方塊代表的是智能體[P1]、[P2]、[P3]、[P4],對應位置坐標分別為[(x1,y1)]、[(x2,y2)]、[(x3,y3)]、[(x4,y4)]。智能體[P1]、[P2]之間的夾角為[θ1],智能體[P2]、[P3]之間的夾角為[θ2],智能體[P3]、[P4]之間的夾角為[θ3]。通過采用角度距離的測量方式保持智能體間的相對距離,形成菱形編隊。

角度距離度量的是智能體之間的方向,角度度量的距離更多的是衡量在各個維度上的比例差異,和絕對距離數值關系不大。其中一個特點是在智能體與原點連線上的角度距離不變,因此單獨2個智能體避障時不宜采用角度距離的方式限制它們之間的相對位置。但本文采用4個智能體進行編隊,角度距離度量可以使智能體之間產生菱形編隊。由于直接計算智能體之間的夾角比較困難,可采用[arccosθ]來代替[θ]角的計算,具體計算公式如式(1)—式(4)所示:

研究表明[17],如果獎賞值設置過小,會導致智能體在訓練過程中所得到的獎勵變化不大,使得智能體在到達目標點的過程中效率變低;如果獎賞值設置過大,而對應懲罰太小,則會導致智能體在進行避障探索中出現無作為的現象,即無法獲得大的獎勵,智能體將會在原位置保持不動,使整個路徑規劃緩慢?;谖墨I[17],將式(9)、式(10)中的數值設置為100。將改進后的獎賞函數值設置為100的目的有二:其一為與對比仿真算法保持一致;其二是使獎賞值與懲罰保持在合理區間,使得智能體快速到達目標點。

3 數值仿真分析

為了使算法學習到的策略更吻合真實環境下多智能體系統編隊避障,使用Python語言與pyglet數據庫搭建了仿真環境模型,最大程度地還原真實環境信息。本文仿真環境模型搭建以及算法實驗驗證所使用的計算機配置為:編程語言Python3.6.0,深度學習框架Tensorflow2.0.0,pyglet、numpy、matplotlib等數據庫。

3.1 靜態障礙物環境下仿真

圖8為驗證改進算法的多智能體系統避障環境。設置環境地圖大小為[400×400]的二維空間,采用柵格法模擬環境。黑色的圓形部分代表障礙物,其大小不一;4個綠色的三角構成的是同構智能體,其大小設置為每個邊長為[L=5],速度設置為[v=1];紅色的三角位置分別代表每個智能體需要到達的中點位置,其坐標由起點和終點的位置決定,其中橫縱坐標僅表示智能體和障礙物的相對位置信息,計算公式為[xend-xstart/2,] [yend-ystart/2]。

仿真實驗以4個智能體為例,仿真結果如圖9所示。

圖9所示為多智能體系統采用改進的DDPG算法與編隊隊形切換方法結合后在靜態障礙物環境下的避障仿真圖。從圖9(a)—(f)中可以看出,多智能體的起始位置隨機變化,將智能體以菱形隊形編隊并設置其初始位置,設置移動速度[v=1]向中點移動,在移動的過程中遇到障礙物時,為保障智能體能安全繞過障礙物,并縮小智能體間的相對空間,以“一”字隊形繞開障礙物,然后恢復到菱形編隊到達中點位置。從圖9(g)—(l)中可以看出,多智能體設置移動速度[v=-1]向中點移動,其移動過程為鏡像下的起點向中點移動。當智能體同時進行如圖9(a)—(f)和圖9(g)—(l)所示的訓練時,所獲得的多智能體編隊避障路徑時間將減少近50%。為驗證改進的DDPG算法以及編隊算法的通用性,設置了多智能體在動態障礙物環境下的仿真實驗。

3.2 動態障礙物環境下仿真

在圖8搭建的靜態障礙物環境基礎上,添加了2個動態障礙物,其在不同時刻下的狀態圖如圖10所示。動態障礙物以[v=1]的速度分別在[X=150]處和[X=300]處向豎直方向上下移動,其移動規則設置為:在設置的平面內進行移動時不與靜態障礙物發生碰撞,這樣可以維持整個搭建環境的穩定性。

多智能體系統采用改進的DDPG算法與編隊隊形切換方法結合后在動態障礙物環境下的避障仿真圖如圖11所示。

從圖11(a)—(f)中可以看出,將智能體以菱形隊形編隊并設置其初始位置,設置移動速度[v=1]向中點移動,在移動的過程中遇到動態障礙物時,為保障智能體能安全繞過障礙物,縮小智能體間的相對空間,以“一”字隊形繞開障礙物,然后恢復到菱形編隊到達中點位置。從圖11(g)—(l)中可以看出,多智能體設置移動速度為[v=-1]向中點移動,其移動過程與鏡像下的多智能體起點向中點移動不同,當遇到在[X=300]位置處上下移動的動態障礙物時,多智能體會通過隊形切換方式轉換成“一”字形隊形,繞開障礙物,之后恢復菱形隊形向中點移動。當智能體同時進行如圖11(a)—(f)和圖11(g)—(l)所示的訓練時,所獲得的多智能體編隊避障路徑時間將會減少。結合靜態障礙物環境以及動態障礙物環境下的仿真驗證的結果,可以得出:改進的DDPG算法在結合編隊隊形切換方法使用時,具有通用性以及在獲取避障路徑時的高效性。

4 對比實驗與分析

為了驗證改進DDPG算法的有效性,以本文構建的路徑規劃仿真環境為實驗平臺,通過對改進的DDPG算法與其他同類型的智能避障算法在不同訓練次數下的比較來驗證改進算法在編隊避障過程中的高效性。仿真結果如圖12所示,其中縱坐標表示智能體在避障環境中獲得的獎賞值,[memory_][size=2 000],[r=0.9]。

圖12(a)—(e)為算法DDPG-nature、DDPG-other以及本文的改進DDPG算法(DDPG-vcep)在不同訓練次數時的獎賞對比,其中DDPG-nature[18]指傳統的深度確定性策略梯度算法,DDPG-other為Zong等[19]提出的DDPG改進算法,DDPG-vcep是本文提出的對DDPG算法中的獎勵函數采用稀疏函數設計的方法,vcep是可變容量體驗池(variable capacity experience pool)。由圖12可以得出如下結論:

1)從整個訓練過程可以看出,采用本文改進算法的智能體在避障環境中獲得的獎賞值均處于領先地位,較其他同類型的智能避障算法的優勢明顯。

2)在前期訓練過程中可以看出,在訓練步數較少的情況下所獲得的獎勵較小,說明多智能體系統編隊的避障效果不理想。但隨著訓練步數的不斷增多,訓練效果越來越突出,編隊避障效果越來越好。

3)從整個訓練步數可以看出,在步數為2 000步之后,使用改進的算法訓練智能體,獎勵將不發生變化,而使用其他同類型的算法,獎勵卻依然增加,說明改進后的編隊避障算法收斂速度更快,獲得的避障路徑效率更高。

5 結論

本文以傳統的DDPG算法為基礎,分別對多智能體編隊方式和算法獎勵函數以及多智能體編隊算法進行改進,通過對多智能體模型進行起始點同色編號,對DDPG算法中的獎勵函數采用稀疏函數設計的方法,提出一種改進的DDPG算法;通過采用角度度量的方式,使多智能體編隊時的穩定性更高;在本文建立的障礙物環境中將該算法與其他典型算法進行對比實驗,得到驗證結果。實驗結果表明,與其他同類型的智能避障算法相比,改進后的算法在訓練步數較少時獲得獎勵較小,但隨著訓練步數的增加,獎勵會逐漸增加,且訓練步數在到達一定數量之后將不再變化,說明其收斂速度更快,獲得避障的路徑效率更高。但本研究僅涉及二維地圖環境中的多智能體系統編隊避障控制,缺乏三維立體的算法驗證,下一步將拓展研究范圍,建立復雜的三維立體仿真環境,進一步研究該避障算法的適用性。

參考文獻

[1] 顧大強,鄭文鋼.多移動機器人協同搬運技術綜述[J].智能系統學報,2019,14(1):20-27.

[2] 劉延棟.基于DDPG強化學習的移動機器人路徑規劃[D].呼和浩特:內蒙古工業大學,2019.

[3] 楊帆.多移動機器人編隊控制與協作運輸研究[D].上海:華東理工大學,2011.

[4] 班林林.多移動機器人群體協同編隊與路徑規劃[D].北京:北京交通大學,2018.

[5] KARTAL Y,SUBBARAO K,GANS N R, et al. Distributed backstepping based control of multiple UAV formation flight subject to time delays[J]. IET Control Theory and Applications,2020,14(12):1628-1638.

[6] 霍祥.基于自適應控制的機器人軌跡跟蹤算法研究[D].哈爾濱:哈爾濱工業大學,2019.

[7] ZHANG W X,MA L,LI X N.Multi-agent reinforcement learning based on local communication[J].Cluster Computing,2019,22(6):15357-15366.

[8] 楊繼明,朱先睿.一類非線性最優控制問題的間斷有限元方法[J].湖南工程學院學報(自然科學版),2017,27(3):37-39.

[9] 徐鵬,謝廣明,文家燕,等.事件驅動的強化學習多智能體編隊控制[J].智能系統學報,2019,14(1):93-98.

[10] 王文欣,葉洪濤,羅文廣,等.事件觸發機制下多智能體系統的非對稱二分一致性[J].廣西科技大學學報,2021,32(4):28-34.

[11] 唐博文,王智文,胡振寰.基于事件驅動的無人機強化學習避障研究[J].廣西科技大學學報,2019,30(1):96-102,117.

[12] 賈丙佳,李平.復雜環境下移動機器人路徑規劃算法[J].華僑大學學報(自然科學版),2021,42(1):103-112.

[13] 鄧小豪,侯進,譚光鴻,等.基于強化學習的多目標車輛跟隨決策算法[J].控制與決策,2021,36(10):2497-2503.

[14] 李文超.移動機器人環境建模與路徑規劃方法研究[D].邯鄲:河北工程大學,2019.

[15] JOHNSON J D,LI J H,CHEN Z S.Reinforcement learning:an introduction[J].Neurocomputing,2000,35(1-4):205-206.

[16] SILVER D,LEVER G,HEESS N,et al.Deterministic policy gradient algorithms[C]//International Conference on Machine Learning,2014:387-395.

[17] PROENCA H,NEVES J C.Deep-PRWIS:periocular recognition without the iris and sclera using deep learning frameworks[J]. IEEE Transactions on Information Forensics and Security,2018,13(4):888-896.

[18] XING X R,DING H W,LIANG Z G,et al.Robot path planner based on deep reinforcement learning and the seeker optimization algorithm[J].Mechatronics,2022,88:102918.

[19] ZONG X P,XU G Y,YU G Z,et al.Obstacle avoidance for self-driving vehicle with reinforcement learning[J].SAE International Journal of Passenger Cars-Electronic and Electrical Systems,2017,11(1):30-39.

Multi-agent formation control and simulation based on improved DDPG algorithm

JING Yongnian1,2, GENG Shuangshuang1,3, XIANG Yao1,3, WEN Jiayan*1,3,4

(1. School of Automation, Guangxi University of Science and Technology, Liuzhou 545616, China;

2. Black Sesame Technologies Company Limited, Shenzhen 518055, China;

3. Research Center for Intelligent Cooperation and Cross-application,Guangxi University of Science and Technology, Liuzhou 545616, China;

4. Guangxi Key Laboratory of Automobile Components and Vehicle Technology, Guangxi University of Science and Technology, Liuzhou 545616, China)

Abstract: In view of the problems of unstable formation in the path planning process, slow time to obtain path, and close distance to obstacles in the process of obstacle avoidance, in this paper, the method of angular distance measurement is used to form multiple agents, and by changing the traditional path planning method formed by the obstacle avoidance process from the start point to the end point, weakening the concept of start point and end point, and adding the path midpoint, the agent moves from the start point and the end point to the midpoint at the same time, forming two paths from the start point to the midpoint and the end point to the midpoint. The reward function is designed to meet agents of the same number as a positive reward, and the collision of different agents and the collision between agents(agents of the same number and different agents)and obstacles are all negative rewards. The deep deterministic policy gradient-variable capacity experience pool(DDPG-vcep)algorithm is verified respectively in the static and dynamic obstacle simulation environments, and the reward values under different training times are compared. The simulation results show that compared with the traditional DDPG algorithm, the improved DDPG formation algorithm saves the path acquisition time and has a more obvious obstacle avoidance effect.

Key words: deep learning; reinforcement learning; deep deterministic policy gradient algorithm(DDPG algorithm); multi-agent; formation control; obstacle avoidance

(責任編輯:黎 婭)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 亚洲精品第一在线观看视频| 在线网站18禁| 国产成人高清精品免费| 好吊色妇女免费视频免费| 一区二区欧美日韩高清免费| 国产精品欧美亚洲韩国日本不卡| 欧美日韩国产成人高清视频| 性69交片免费看| 久久精品丝袜| 欧美日韩国产综合视频在线观看| 亚洲成a人片77777在线播放| 五月天福利视频| 国产成人啪视频一区二区三区| 国产成人喷潮在线观看| 欧美国产视频| 丁香五月亚洲综合在线| 国产91小视频在线观看| 国产一区二区精品福利| 国产精品天干天干在线观看| 婷婷激情亚洲| 亚洲无码在线午夜电影| 搞黄网站免费观看| 2020国产精品视频| 国产免费精彩视频| 波多野结衣亚洲一区| 青青青国产视频手机| 99国产精品国产高清一区二区| 午夜视频免费一区二区在线看| 在线欧美一区| 天天摸天天操免费播放小视频| 女同国产精品一区二区| 亚洲国产看片基地久久1024| 四虎精品国产永久在线观看| 国产精品视频观看裸模| 国产无码制服丝袜| 在线国产综合一区二区三区| 国产无码性爱一区二区三区| 成人毛片免费观看| 男女猛烈无遮挡午夜视频| 青青极品在线| 亚洲一区二区精品无码久久久| 国产美女在线观看| 国产精品丝袜视频| 亚洲乱码在线播放| 欧美性天天| 超碰91免费人妻| 欧美中文字幕一区| 香蕉eeww99国产在线观看| 精品在线免费播放| 亚洲国产综合精品一区| 免费无遮挡AV| 国产精品亚洲精品爽爽| 国产成人啪视频一区二区三区| 亚洲第一区在线| 欧美精品H在线播放| 亚洲大尺码专区影院| 国产美女在线免费观看| 精品国产Av电影无码久久久| 人妻丰满熟妇AV无码区| 九色91在线视频| 在线观看国产一区二区三区99| 久久综合五月| 综合人妻久久一区二区精品| 国产亚洲成AⅤ人片在线观看| 40岁成熟女人牲交片免费| 亚洲成aⅴ人在线观看| 色综合久久久久8天国| 高潮爽到爆的喷水女主播视频| 欧洲一区二区三区无码| 福利在线一区| 成人免费网站在线观看| 国产免费人成视频网| 国产理论最新国产精品视频| 欧美日韩理论| 黄色成年视频| 美女裸体18禁网站| 91香蕉视频下载网站| 国产在线观看精品| 国产精品视频猛进猛出| 色亚洲成人| 一级毛片免费观看久| 国产综合精品一区二区|