韓藝琳 王麗麗 楊洪勇 范之琳



摘要: 針對機器人對未知目標的編隊跟蹤問題,建立機器人運動控制模型,提出了基于強化學習的目標跟蹤與環圍控制策略。在強化學習策略驅動下,機器人探索發現目標點位置并展開跟蹤,使用環圍編隊運動模型對機器人跟蹤策略進行實時優化,實現對逃逸目標點的動態跟蹤與環圍控制。搭建了多機器人運動測試環境,實驗表明結合強化學習的方法能夠縮短多機器人編隊調節時間,驗證了多機器人環圍編隊控制策略的有效性。
關鍵詞: 運動控制;強化學習;目標跟蹤;環圍控制
中圖分類號: TP273+.5文獻標識碼: A
Ring-around Formation Control of Multi-robot Systems Based on Reinforcement Learning
HAN Yilin, WANG Lili, YANG Hongyong, FAN Zhilin
Abstract:For the robot formation tracking problem of unknown target, a robot motion control model is established, and a target tracking and ring-around control strategy based on Reinforcement Learning(RL) is proposed to solve the problem. Driven by RL, the robot explore the location of the target point and initiate tracking. The robot tracking strategy is optimized in real time using the ring-around formation motion model to achieve dynamic tracking and ring-around control of the fleeing target point. A multi-robot motion control environment is established, and the experiments indicate that the combined RL can accelerate the multi-robot formation adjustment time and prove the efficiency of the multi-robot ring-around formation control strategy.
Key words: motion control; reinforcement learning; target tracking; ring-around formation control
0 引言
近年來,多機器人系統以其執行效率高、功能多樣、任務分配合理[1]等特點受到越來越多學者的重視,通過在系統內部建立多機器人之間合理的約束控制與協同策略,使多機器人系統能夠處理大部分單機器人難以應對的復雜問題。比如在協同探索[2]和軌跡跟蹤[3]等領域中,采用多機器人編隊協作、運動學控制等方法能夠實現對系統的一致性控制。因此,編隊和運動學[4]約束組成的協同控制方法,成為解決復雜情況下多機器人系統問題的重要研究方向。
針對多機器人編隊系統,常用方法有模糊PID法[5]、神經網絡[6]、強化學習[7]等。其中,神經網絡將關注點放在處理機器人與目標點的跟蹤訓練與路徑規劃方面,對控制算法要求較高,且訓練時間長,不適用于動態未知環境;模糊PID法對環境依賴較小,但缺乏對系統整體的規則設定,難以得到整體的決策。為提高機器人對環境的適應度,Yu等[8]結合模糊控制與神經網絡,提出一種容錯控制策略,實現在復雜環境下的同步跟蹤控制,Zhang等[9]提出一種基于自適應差分的多無人機編隊預測控制算法,實現對運動軌跡的自適應調整。為避免機器人的路徑軌跡與任務目標不匹配[10]情況,Loris等[11]提出結合迭代學習和強化學習的方法,實現學習算法控制器參數的在線調整與軌跡跟蹤控制。相比其他方法,強化學習善于在線處理環境信息,能夠搭載其他路徑規劃算法,更有利于實現多機器人編隊尋找最優路徑。
目標環圍控制是多機器人系統對目標點進行編隊包圍的一種特殊狀態,主要利用了多機器人系統的路徑規劃、協同編隊和跟蹤控制等相關控制技術,完成機器人規劃最優路線、切換環形編隊、對逃逸目標點以環圍編隊形式進行追蹤等任務。對于目標信息不確定的環境,Gao等[12]提出了一種基于向量場的分布式控制策略,使用分布式控制率進行目標狀態估計,實現了多機器人系統的期望運動;Chou等[13]將目標搜索算法與PID控制結合,實現機器人在未知環境中的自主避障與導航。對于帶有逃逸功能的目標點,可以利用機器人速度和運動學的差異彌補間距[14]上的不足,Yao等[15]提出了一種用于主動目標跟蹤的隨機非線性模型預測控制(SNMPC)算法,實現多機器人對目標的環航控制;Lu等[16]提出了基于激光測距儀的目標檢測和跟蹤算法,實現移動機器人對運動目標的實時跟蹤。
現有研究多數僅討論了多機器人對逃逸目標點的合作控制[17],缺少對多機器人協同編隊和避碰的考慮。基于此,本文擬研究基于強化學習的多機器人系統的環圍編隊控制,利用分布式思想為機器人協作提供通信支持,機器人在強化學習算法訓練下探索接近目標點的最優軌跡,結合運動學模型用于控制多機器人環形編隊。除此之外,在環形編隊控制器基礎上,基于強化學習的多機器人系統要實現對目標點的環圍控制,為多機器人系統設計合理的目標追蹤策略,以及處理追蹤和編隊過程中各個機器人之間路徑沖突和避碰的策略。
1 研究目標
本文主要利用強化學習方法解決多機器人系統的環圍編隊控制問題,針對此類問題可分解為兩個步驟:目標跟蹤和目標環圍。一是建立環境勢場,機器人對目標進行識別跟蹤,逐步進入環形編隊狀態;二是目標點逃逸時,多機器人的運動控制與強化學習訓練相結合進行協作圍捕,直至達成合理的集體決策[18]。
假設多機器人系統中的各機器人與坐標中心的連線為軸線,為保持相鄰軸線之間的角度穩定,通過調整每個機器人的位置,保證軸線之間恒等的角度。多機器人系統環形編隊控制如圖1所示。
其中,五星區域表示多機器人系統坐標中心點,ω為編隊穩定時鄰居機器人軸線之間的期望夾角,當多機器人之間保持大小為ω的夾角并均勻分布在環形軌跡上,表示多機器人系統實現環圍編隊控制,在有N個機器人的編隊系統中,ω數值計算為
(1)
2 基于強化學習的多機器人編隊目標環圍算法設計
2.1 多機器人系統的強化學習
強化學習以馬爾科夫過程為理論研究基礎,馬爾科夫決策過程可以被看做一個五元組〈S,A,R,P,γ〉,其中,S為系統狀態空間,A為系統動作空間,P為狀態轉換概率,R為狀態回報,γ為學習過程折扣因子,該過程指的是在與環境進行交互后,得到不同的回報并評估當前采取的動作,形成自身的經驗策略π。
一般情況下,強化學習中的回報以累積經驗的方式表示:
(2)
其中,r為瞬時回報,t為運動時刻,j為執行步數。
對于多機器人系統的強化學習過程,當系統處于狀態st={s0,s1…,sN},聯合策略可以表示為π(st|ut)。為使多機器人系統采取的聯合策略接近于最優策略π(st|u′),使用強化學習方法中的經典算法Q-Learning算法進行策略優化。計算每個機器人在動作策略ut下的狀態-動作值函數為
3 實驗驗證
為驗證基于強化學習的多機器人系統的環圍編隊控制算法的有效性,設定多組不同的起始點和目標機動環境,對具有逃逸能力的目標點進行自由追蹤,設定初始逃逸速度vg=0.3,隨著環圍編隊的穩定,目標點由于受到阻力而被逼停,最終vg=0。多機器人起始速度分別設置為:v1=0.6,v2=0.5,v3=0.4,v4=0.3。
假設多機器人系統在靜態和動態環境下移動,多機器人系統運動后留下的曲線軌跡分別如圖2和圖3所示,多機器人速度和轉動量變化分別如圖4和圖5所示,多機器人系統的收斂速率如圖6所示。
靜態環圍控制軌跡如圖2所示,機器人在與環境的交互過程中,考慮周圍鄰居的狀態和速度信息,實時調整自身的動作避免發生碰撞,使接近目標點的路線為最優路徑,實驗結果證明了改進強化學習算法可以實現多機器人對靜態目標的圍捕。
在動態環境中,多機器人在接近目標點的最小安全范圍內進行動態環圍,由于環航編隊前期,機器人需要考慮包括鄰居機器人和目標點在內的斥力,以及目標追蹤階段中指向目標點進行環航編隊的引力,因而該過程中存在軌跡波動,形成編隊隊列的難度較大,如圖3所示。當目標點發生不確定方向位移時,多個機器人使用強化學習方法在線調整速度控制器,使編隊系統能夠在運動學模型控制下進行跟蹤控制,并根據轉向角度和速度調整編隊距離,由于環航編隊的特性,此時速度收斂較慢。當多機器人系統形成較為穩定的編隊后,機器人所受到的勢場力逐漸減小到0,得到穩定的編隊環圍策略。
圖4所示為多機器人系統環圍動態目標點的速度變化過程,為機器人設計帶有加速度的控制器,當機器人接近目標點的安全距離時,進入環航編隊并與鄰居機器人獲得通信,對逃逸目標點展開追蹤。圖5表示多機器人系統環圍動態目標點的轉動量變化過程,隨著多機器人完成跟蹤目標點進入環圍階段,多個機器人的轉動量逐漸收斂并達到一致。當機器人在強化學習與動力學模型的交互作用下,找到滿足編隊約束的動作策略后,與鄰居機器人進行通信并調整自身速度與轉動量,因此當多機器人在環圍軌跡上學習到最優速度和角度轉動量時,多機器人系統達到最優,多機器人可保持在最優軌跡上環圍。
圖6展示了多機器人系統中每個機器人隨Q值訓練步數的變化,在目標跟蹤階段采取人工勢場法作為目標導向,機器人探索路徑過程中耗費代價小,機器人策略生成速度加快。隨多機器人系統迭代訓練步數的增加,機器人累積獎賞增多,當訓練經過350步后,多機器人系統基本達到環圍狀態,此時系統內部相對穩定。當多機器人系統學習到穩定的策略時,受勢場影響小,機器人Q值達到最大,多機器人系統實現對目標點的環圍編隊控制。綜上所述,本文使用控制器對強化學習過程進行改進,機器人能夠快速學習到跟蹤與環圍策略,并維持系統穩定。
4 結論
本文基于強化學習設計了多機器人環圍編隊控制系統,采用分布式設計思想降低系統內的通信損耗,編隊中的機器人只能接收到鄰居機器人的信息。同時,將強化學習算法中訓練與尋優的性能與機器人運動學模型相結合,編隊和環圍軌跡不再依賴訓練后得到的策略,利用結合強化學習的速度控制器規劃最優軌跡,從而在較短時間內達到期望的環圍效果,不需通過反復多次的實驗訓練,仍能收斂到速度一致狀態。
雖然機器人環圍編隊控制系統能夠實現路徑收斂,但是當目標點數量增加時,需要將多個機器人進行合理分組跟蹤,分組機器人之間可能存在協作與競爭的關系,都會影響算法的收斂速度。因此,接下來將針對不確定環境下的多機器人分組一致性進行研究。
參考文獻:
[1]YAN Z, JOUANDEAU N, CHERIF A A. A survey and analysis of multi-robot coordination[J]. International Journal of Advanced Robotic Systems, 2013, 10(12):399.
[2]QU Y, SUN Y, WANG K, et al. Multi-UAV Cooperative Search method for a Moving Target on the Ground or Sea[C]//2019 Chinese Control Conference (CCC). GuangZhou,? China: IEEE, 2019: 4049-4054.
[3]KAMALAPURKAR R, ANDREWS L, WALTERS P, et al. Model-based reinforcement learning for infinite-horizon approximate optimal tracking[J]. IEEE transactions on neural networks and learning systems, 2016, 28(3): 753-758.
[4]路蘭,殷水英. 基于空間交互作用的中國省際人口流動模型研究[DB/OL]. (2023-08-08)[2023-08-15].https://link.cnki.net/urlid/11.1115.F.20230808.1339.004.
LU L, YIN S Y. Study on the model of inter-provincial population flow in China based on spatial interaction[DB/OL]. https://link.cnki.net/urlid/11.1115.F.20230808.1339.004.
[5]MOHAN B M, SINHA A. The simplest fuzzy PID controllers: mathematical models and stability analysis[J]. Soft Computing, 2006, 10(10): 961-975.
[6]于欣波,賀威,薛程謙,等.基于擾動觀測器的機器人自適應神經網絡跟蹤控制研究[J].自動化學報, 2019, 45(7):1307-1324.
YU X B, HE W, XUE C J, et al. Research on robot adaptive neural network tracking control based on disturbance observer [J]. Journal of Automation, 2019,45(7):1307-1324.
[7]徐鵬,謝廣明,文家燕,等.事件驅動的強化學習多智能體編隊控制[J].智能系統學報, 2019,14(1):93-98.
XU P, XIE G M, WEN J Y, et al. Event driven reinforcement learning multi-agent formation control [J]. Journal of Intelligent Systems, 2019,14(1):93-98.
[8]YU Z, ZHANG Y, LIU Z, et al. Distributed adaptive fractional-order fault-tolerant cooperative control of networked unmanned aerial vehicles via fuzzy neural networks[J]. IET Control Theory & Applications, 2019, 13(17): 2917-2929.
[9]ZHANG B, SUN X, LIU S, et al. Adaptive differential evolution-based distributed model predictive control for multi-UAV formation flight[J]. International Journal of Aeronautical and Space Sciences, 2020: 21(2):538-548.
[10] YIN S, XIAO B. Tracking control of surface ships with disturbance and uncertainties rejection capability[J]. IEEE/ASME Transactions on Mechatronics, 2016, 22(3): 1154-1162.
[11] ROVEDA L, PALLUCCA G, PEDROCCHI N, et al. Iterative learning procedure with reinforcement for high-accuracy force tracking in robotized tasks[J]. IEEE Transactions on Industrial Informatics, 2017, 14(4): 1753-1763.
[12] GAO S, SONG R, LI Y. Cooperative control of multiple nonholonomic robots for escorting and patrolling mission based on vector field[J]. IEEE Access, 2018, 6: 41883-41891.
[13] CHOU C Y, JUANG C F. Navigation of an autonomous wheeled robot in unknown environments based on evolutionary fuzzy control[J]. Inventions, 2018, 3(1): 3.
[14] WANG M, LUO J, YUAN J, et al. Detumbling strategy and coordination control of kinematically redundant space robot after capturing a tumbling target[J]. Nonlinear Dynamics, 2018, 92(3): 1023-1043.
[15] YAO W, LU H, ZENG Z, et al. Distributed static and dynamic circumnavigation control with arbitrary spacings for a heterogeneous multi-robot system[J]. Journal of Intelligent & Robotic Systems, 2019, 94(3): 883-905.
[16] LU C, WANG J, CUI X. Moving Target Tracking with Robot Based on Laser Range Finder[C]//2020 5th International Conference on Automation, Control and Robotics Engineering (CACRE). Dalian, China: IEEE, 2020: 21-25.
[17] WANG Y, LU D, SUN C Y. Cooperative control for multi-player pursuit-evasion games with reinforcement learning[J]. Neurocomputing, 2020,412:101-114
[18] GE H, SONG Y, WU C, et al. Cooperative deep Q-learning with Q-value transfer for multi-intersection signal control[J]. IEEE Access, 2019, 7: 40797-40809.
[19] SAMPEDRO C, BAVLE H, Rodriguez-Ramos A, et al. Laser-Based Reactive Navigation for Multirotor Aerial Robots using Deep Reinforcement Learning[C]// 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid, Spain: IEEE, 2018.
[20] NOGUCHI Y, MAKI T. Path Planning Method Based on Artificial Potential Field and Reinforcement Learning for Intervention AUVs[C]// 2019 IEEE Symposium on? Underwater Technology (UT). Taiwan, China: IEEE, 2019:1-6.
(責任編輯 耿金花)
收稿日期: 2021-03-12;修回日期:2022-04-10
基金項目: 國家自然科學基金(61673200)
第一作者: 韓藝琳(1997-),女,山東淄博人,碩士研究生,主要研究方向為移動多機器人編隊控制。
通信作者: 楊洪勇(1967-),男,山東德州人,博士,教授,主要研究方向為移動多機器人編隊控制。