999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于魚群涌現行為啟發的集群機器人硬注意力強化模型

2024-11-04 00:00:00劉磊葛振業林杰陶宇孫俊杰
計算機應用研究 2024年9期

摘 要:生物集群運動模型能使集群機器人涌現秩序,但是所形成的機器人自然集群秩序難以有效地被人工控制,為此提出魚群硬注意力模型來解析實驗魚群數據中的交互行為。該模型通過編碼器網絡、圖注意力網絡、信息聚合網絡、預解碼網絡以及最終解碼網絡等結構來獲取焦點單體的重要鄰居;再利用深度確定性策略梯度技術設計軌道強化網絡與安全強化網絡,以實現集群的人工控制。多智能體仿真與集群機器人實驗結果表明:所提方法能夠實現集群的人工軌道、安全控制,重要鄰居信息為解決集群運動的強化學習難題提供了新思路,所提控制模型在無人機群空中協作、智慧農機集群作業、物流倉儲多體搬運等領域具有較大的應用潛力。

關鍵詞:自然秩序人工控制;集群硬注意力機制;多智能體運動強化學習;集群機器人任務控制

中圖分類號:TP242.6 文獻標志碼:A 文章編號:1001-3695(2024)09-024-2737-08

doi:10.19734/j.issn.1001-3695.2023.12.0625

Hard attention reinforcement model for swarm robotics

inspired by fish school emergence behavior

Liu Leia,b,Ge Zhenyeb,Lin Jiea,Tao Yub,Sun Junjiea

(a.School of Management,b.School of Optoelectronics,University of Shanghai for Science & Technology,Shanghai 200093,China)

Abstract:The biological swarm motion model enables the emergence of order in robot collectives,but controlling the natural swarm order formed by robots is challenging.To address this issue,this paper proposed the fish school hard attention model to analyze interaction behaviors in experimental fish school data.This model utilized structures such as an encoder network,graph attention network,information aggregation network,pre-decoding network and a final decoding network to capture crucial information about the focal individual’s important neighbors.Subsequently,it emploied deep deterministic policy gradient techniques to design trajectory reinforcement networks and safety reinforcement networks to achieve artificial control of the swarm.Results from multi-agent simulations and experiments with swarm robotics demonstrate that the proposed method can realize artificial trajectory and safety control of collectives.The utilization of high-attention neighborhood information for resolving reinforcement learning challenges in collective motion provides a novel approach.The proposed control model exhibits substantial potential applications in areas such as collaborative aerial operations of drone swarms,intelligent agricultural machinery operations,and multi-robot material handling in logistics and warehousing.

Key words:natural order artificial control;collective hard attention mechanism;multi-agents motion reinforcement learning;swarm robotics task control

0 引言

自然生態系統存在大量的集群行為,如蟻群、鳥群、魚群、獸群等,這些群落通過個體之間的社會性交互來協同運動,從而能在復雜環境中涌現宏觀結構與功能來適應環境[1]。這種自組織生成的秩序對種群生存、繁衍至關重要,同時也能啟發人工集群的分布式控制[2],因此吸引了大量學者從事該領域的探索。在過去的數十年中,多種數學、物理、經驗模型被提出來用于解釋、模擬生物集群行為,從Reynolds[3]提出的Boids模型開始,先后出現了Vicsek[4]、Couzin[5]、Calovi模型[6]等經典集群理論。上述研究總結了集群行為的基本原則:即單體通過社會性交互可以涌現集群秩序,并給出了信息交互的具體數學表達。交互模型為集群機器人的分布式控制提供了有力支撐,借鑒生物模型的集群機器人行為具有較高的運動魯棒性[7],以及較強的規模適應性[8],從而使生物啟發的多智能體分布式控制成為助推人工集群應用的重要方法,為集群機器人在工農生產、軍事輔助、交通智能、生態探索等領域發展提供支持。

集群機器人研究始于20世紀90年代初,并在接下來的十年中逐漸嶄露頭角。2004年Dorigo等人[9]成功實現了多達20臺的自裝配機器人的協同任務,如定向移動、集群避障、合作搬運等;哈佛大學自組織研究實驗室設計的Kilobots機器人可在微型尺度下移動、通信、交互形成宏觀圖樣[10]。然而,面對復雜群內環境,傳統自控方法已難以應對單體機器人的自組織控制[11]。

當前人工智能飛速發展,使得人工智能技術應用于集群秩序涌現逐漸成為可能:如機器學習控制無人機群[12],強化學習應用于多智能體[13]和真實機器人的路徑規劃[14]以及協同計算[15],神經網絡控制集群機器人合作搬運[16];深度學習訓練多智能體通信[17]。在集群機器人控制方面,文獻[18]報道微型無人機集群采用最優控制可以達到較好的集群運動效果,但優化控制需要同時獲取較多單體的信息進行集中計算,算力要求較高,并且控制不具備集群的魯棒靈活性,利用多智能體深度強化學習是實現集群機器人控制的重要方法,如無人艇集群可以在海上圍捕逃逸目標[19],但是該研究的無人艇群運動空間較大,不會產生集群阻塞的情況。文獻[20]表明單獨使用多智能體強化學習,難以在緊湊空間實現機器人的集群運動,為此首次使用了最大視覺DNN集群強化修正生物模型的方法,獲得了較好的集群運動效果,但該研究所使用的最大視覺DNN模型具有較強的主觀性,其與魚群實驗數據的匹配程度不高。研究人員利用魚群實驗數據進行深度學習、強化學習來對集群系統進行控制研究[20~22],研究結果表明:生物模型難以直接控制緊湊空間的集群機器人[23],需要借助強化學習才能實現模型遷移,但是所提最大視覺鄰居方法[20,23]具有較強的主觀性,同時不同目標修正下的生物模型表現還不明確。綜合上述分析:利用生物集群模型的涌現特性來實現集群機器人的協同運動有助于整體行為的魯棒靈活性,因此本文擬利用硬注意力機制來建立生物集群模型,期望獲取關鍵鄰居信息,并在此基礎上進行強化學習以規避單體強化數據池過大的難題,同時提升關鍵鄰居挑選的客觀性,所提魚群硬注意力模型及其強化修正方法有望為集群機器人的人工協同控制提供新的思路。

為解決生物模型遷移控制難題,擬設計用5條魚的運動數據訓練硬注意力模型,并嵌入到多智能體強化學習框架中,以實現集群機器人的宏觀目標可控涌現,從而提升生物模型的宏觀任務性能。本文貢獻在于:a)利用硬注意力機制提升生物模型的稀疏信息交互客觀性;b)利用集群強化學習提升生物模型的任務可控性;c)分析不同人工強化目標對生物模型的匹配程度,為探索自由生物模型啟發人工集群系統調控的可能性,進而推動人工復雜系統的任務應用提供支持。

1 魚群硬注意力模型及其強化修正方法

紅鼻剪刀魚群游能力出色,研究發現該魚種具有間歇性游動特性,即單體會突然改變方向并同時提升速度,接著直線減速滑行[6],這種運動模式有利于將魚群游動軌跡分解成一系列的折線段,適于使用數據驅動建模技術。選用文獻[20~23]的5魚運動數據,該數據采集自實驗邊界半徑為25 cm的塑料圓環內的5魚自由運動,實驗設施頂部安裝有攝像機錄制魚群運動,并使用idTracker軟件[24]對魚群錄像進行識別、追蹤,再提取魚群所有單體的位姿數據,經對稱、濾波、篩選處理[23]用于訓練深度硬注意力模型,為將該模型遷移控制集群機器人,需要設計專門的多智能體強化修正方法。

2 硬注意力強化模型的訓練與仿真

使用機器人實體在小空間中直接進行強化訓練不具備可行性,因為模型不成熟極易造成阻塞,自動復位系統并重新更新DDPG記憶池存在困難,需要外界機械臂輔助疏散才有可能實現機器人實體集群強化訓練,為此使用仿真環境來對所設計的強化模型進行訓練。

2.1 軌道與安全強化網絡的獎勵函數設計

強化模型的仿真訓練程序由LabVIEW編寫的仿真環境和Python編寫的強化網絡兩部分組成,兩程序通過使用JSON格式打包數據的自制協議通信,實現仿真環境與網絡訓練程序的同步運行。仿真環境以40 ms的采樣周期更新多智能體的運動狀態,其中焦點單體i在決策時刻的位姿為[xi,yi,i],根據式(1)~(5)計算焦點單體觀測的仿真環境[rwi,θwi]與虛擬鄰居[dij,ψij,△ij],j∈Ni。將上述信息打包成JSON格式發送到Python網絡訓練程序,計算經過硬注意力模型后輸出轉角決策δHi與直行距離lHi。再將環境信息與高注意力鄰居狀態作為軌道強化網絡與安全強化網絡的輸入,邊訓練邊輸出轉角決策修正δDDPGi和直行距離修正lDDPGi。最后Python程序將運動決策通過JSON數據格式發送仿真環境,仿真環境再根據運動決策更新焦點單體i的運動狀態,直到焦點單體運行到下一決策時刻,再將新狀態上傳強化網絡訓練程序,仿真程序異步上傳多智能體信息獲得模型決策,最終在集群運動穩定后停止訓練,強化網絡的訓練參數如表1所示。

2.2 魚群硬注意力模型的強化修正仿真

與硬注意力模型訓練數據采用5魚實驗一致,通過5智能體的硬注意力強化仿真來驗證生物模型強化控制的可行性。首先以5智能體硬注意力模型的自由運動仿真為基準,分別采用不同的期望軌道距離rwe進行軌道強化修正網絡訓練,其中期望軌道距離分別設定成80 mm、120 mm、160 mm。在軌道網絡訓練穩定后,接著實驗不同的期望安全比率rse來訓練安全強化網絡,rse分別取0.5倍、1倍、1.5倍和2倍,所有強化網絡訓練完畢后,采用訓練后的模型各仿真運行1 h,統計集群運動軌跡數據,結果如表2所示,其中軌道強化和安全強化均標識“無強化”的代表純硬注意力模型仿真。由于仿真軟件環境可同時允許真實機器人進行硬件在環仿真,所以仿真程序具有機器人的安全運動機制,即當焦點智能體質心外圍100 mm的安全圓與邊界碰撞時,或者決策目標連線有其他智能體侵入,會重新啟動決策,新決策會傾向邊界內側避障,從而導致較大的對墻距離rw和直游距離l。穩定地對墻角度絕對值θ+w和較穩定的轉角決策絕對值δ+表明仿真體平行邊界運動。

軌道強化網絡修正后,模型輸出轉角決策δ+相對于第一行無強化數據的生物模型輸出具有曲率可控性,尤其在沒有安全強化的情況下,不同的軌道期望強化會得出不同的曲率,顯示出了轉角決策的可控性。隨著軌道期望距離的增加,軌道強化網絡的修正轉角δ+逐漸擴大,使得集群運動的曲率增加,最終體現在對墻距離rw的增加,表明強化網絡通過修正轉角決策δ可以實現對目標軌道的跟蹤控制。受硬注意力模型影響,隨著對墻距離rw的增加,導致焦點單體的運行自由空間加大,所以直游距離l會逐漸增加。整個軌道期望測試范圍的對墻角度絕對值θ+w穩定,表明強化修正的沿墻運動特性較好,較高的群體極性P和緊湊的群體大小C表明集群硬注意力模型自治具有強魯棒性,可以包容人為期望的外控干擾。

加入安全強化網絡后,多數仿真集群仍能保持較為穩定的對墻角度絕對值θ+w、較高的群體極性P和緊湊的群體大小C,說明強化網絡修正在一定范圍內可以不破壞生物硬注意力模型的自組織秩序。然而隨著安全強化的期望比率增大,仿真集群的大小C值逐漸擴大,群體極性P值逐漸減小,說明生物集群的秩序正在瓦解,集群行為開始變得復雜,導致仿真安全機制得以頻繁觸發。直觀表現在直游距離l逐漸減小,隨之仿真體的對墻距離rw增大,這使得軌道跟蹤的任務性能逐漸變差。在極端情況下,例如160 mm軌道期望與2倍期望安全比率情況,原有的生物集群運動秩序已經無法有效維持,表現為較大的數據方差。

圖4展示了120 mm期望軌道距離,不同期望安全距離比率的強化對比,利用高斯擬合使各參數的概率密度曲線平滑化以方便觀察,其中圖4(a)顯示了對墻距離rw的概率密度曲線,黑色曲線為單純使用魚群硬注意力模型仿真的數據統計。實驗表明:在不加入安全強化的前提下,僅使用軌道強化可以明顯拉近集群的對墻距離,統計峰值在期望距離120 mm附近,說明通過集群強化修正確實可以將人工目標嵌入到自由生物模型中,并達到較好的控制效果,隨著不同期望安全比率的強化網絡加入,集群由于安全裕度的擴大導致距墻距離逐漸拉大,符合安全強化設計。圖4(b)統計了不同實驗下的集群對墻角度絕對值的概率密度曲線,其中黑色線為單純使用魚群硬注意力模型仿真的數據統計。仿真結果表明:θ+w在不同控制目標下的仿真集群與自然模型運動具有較一致的環境角度,且峰值約為90°,即平行于邊界運動,其中單獨軌道強化會極大提升集群運動軌道的確定性,如圖4(b)紅色曲線所示,形成較為確定的運動集群來跟蹤設定軌道。圖4(c)(d)的集群極性、大小的紅色曲線也表明:單獨軌道強化的集群運動確定性更高(見電子版)。隨著安全強化的加入,軌道強化的確定性被逐漸消減,當加入1.5倍安全期望比率強化后,θ+w的組織性已經衰減,低于純硬注意力的運動模型,圖4(c)的集群極性P分布也表明了這一點,當設定大于1.5倍期望安全比率后,集群極性相對于生物模型已較大衰減。同時圖4(d)的集群大小也表明:從1.5倍比率強化開始集群逐漸發散,雖然1.5倍比率還具有較松散的集群組織,運動間隙加大,碰撞減小形成較為安全的集群運動態勢,但是加入2.0倍期望安全比率強化修正將完全破壞集群的自組織性,如圖4(c)(d)所示,由于相對間距擴大,集群極性已十分微弱。

3 硬注意力強化模型的集群機器人實驗

3.1 集群機器人實驗平臺

作為多智能體仿真環境的硬件在環擴展,集群機器人實驗平臺同樣由集群機器人硬件平臺與嵌入仿真環境(參考第2章)的LabVIEW控制軟件兩部分組成,其中機器人硬件平臺如圖5所示,采用的微型集群機器人為自主研發的Cuboids機器人系統[28],運行環境為直徑1 m的圓形空間,上方裝有工業相機,LabVIEW控制軟件與實驗相機相連,以200 ms周期進行圖像采集、模式識別機器人,然后使用40 ms周期的卡爾曼濾波器跟蹤機器人單體,最終獲得每臺機器人的位置與朝向。焦點機器人在決策時刻獲取自身圖像數據[xi,yi,i]與鄰居位姿,然后根據式(1)~(5)將上述信息換算為機載傳感的環境信息[rwi,θwi,0]與鄰居信息[dij,ψij,△ij],再利用與上節仿真程序一致的過程向Python服務器請求魚群硬注意力強化網絡決策,輸出[δHi+δDDPGi,lHi+lDDPGi]后則回傳給LabVIEW控制軟件。然后利用無線路由器,將具體的運動指令傳輸給Cuboids機器人。物理實現網絡決策:首先機器人會旋轉角度δHi+δDDPGi,然后再按照指定距離lHi+lDDPGi進行直線運動,如果成功到達指定位置則會觸發下一輪決策,如果運動前方出現環境障礙或鄰居闖入,則焦點機器人會停下請求新的決策,機器人安全決策過程可以參考文獻[23]。

3.2 機器人硬注意力強化運動分析

由于機器人與魚類之間的性能、外形差異,較多機器人直接進行硬注意力模型遷移控制會形成阻塞。鑒于上述物理、性能、動態環境方面的約束,為驗證所提方法連續實驗的控制有效性,降低集群的復雜度,采用三Cuboids機器人在80 mm軌道強化下加入不同期望安全比率的集群運動實驗。實驗結果與單純使用硬注意力模型控制的機器人進行運動數據對比,如表3所示。

由于機器人具有剛性物理外形,無法像仿真實驗一樣緊密運動,所以在軌道強化網絡修正下,機器人以近似前后排列的方式沿邊界運動。這種秩序已經修改了生物集群模型的單體交替領頭的自組織模式,即跟隨者較少內圈超越領導者,因此機器人對邊界距離rw值較80 mm軌道期望偏小,而群體大小C值較大,對墻角度絕對值θ+w穩定在90°左右,具有較高的群體極性,表明強化修正后并未破壞硬注意力模型的運動秩序,僅改變了集群的運動形式,使其更符合機器人任務的特點。集群領域專家Theraulaz Guy在文獻[29]中提到:集群機器人需要生物啟發,但是絕對不能依賴生物啟發,需要根據自身任務對生物集群運動進行調整,所提硬注意力模型的人工目標強化為該論斷提供了一種可行路徑。

在加入安全強化修正后,當期望安全比率為0.5時,機器人的運動效果與單純80 mm軌道強化相似,跟隨者受目標軌道束縛,并進一步減小了前后鄰居距離,導致群體大小C值較單純軌道強化小。當期望安全比率為1時,發生了自組織形式的改變,多余的安全裕度使機器人逐漸展現出魚群模型的靈活性,具體表現在機器跟隨者能夠從內圈超越領導者,形成典型的集群反旋[23]。這種反旋組織特性的出現,使群體大小C進一步減小,群體從線形轉變為塊形,群體中心被迫遠離邊界,導致形成較大的運行曲率,實現對墻距離rw的增大;當期望安全比率大于1,機器人開始逐漸分散,群體大小C值增大,機器人的內圈超越變得更加頻繁,相鄰兩機器人的間距也在增加,對墻距離rw也需要增加以容納更松散的集群形態。相對穩定的對墻角度θ+w和較高的群體極性P表明:強化網絡修正魚群模型的方式能有效在集群機器人自組織運動的基礎上引入人工控制,使其兼具生物模型的魯棒、靈活性和工程應用的可控、安全性。2倍安全比率的集群運動穩定性減弱,集群極性P與集群大小C忽大忽小,說明人工控制正在瓦解生物模型的組織性,1.5倍安全比率靠近自然集群秩序的臨界邊緣。

圖6展示了表3強化學習控制策略下的集群機器人實驗運動軌跡。圖6(a)為80 mm期望軌道強化下的運動軌跡,受機器人物理約束和軌道強化網絡修正的影響,機器人群展現出前后線形的排列方式,并緊靠邊界軌道運行,跟隨者被軌道約束,無法超越領導者。圖6(b)~(e)分別展示了集群機器人在80 mm軌道強化基礎上加入不同安全比率期望的強化運動軌跡。圖6(b)展示的0.5倍期望安全比率控制下的緊湊機器人集群,緊湊激發了魚群模型的排斥作用,使得有些單體雖然線形排列,但也偶爾發生內圈超越的現象,表明生物模型的內在安全機制[23]可以被隨時觸發。隨著采用1倍期望安全比率控制,圖6(c)機器人之間已經存在了較大的間隙,使得跟隨者具有足夠的能動性從內圈超越領導者,形成了類魚群的反旋運動。但是圖6(d)~(e)表明:隨著繼續人為加大期望安全比率,機器人的群體大小逐漸增大,群運動秩序逐漸減弱,甚至出現瀕臨崩潰的趨勢。

4 結束語

通過研究在魚群硬注意力模型的基礎上對集群運行軌道與安全間隙進行多智能體強化的控制方法,探索了如何在不可控的生物啟發模型下加載人工控制,從而有利于集群機器人開展預定任務。

對比經典Vicsek模型[4]、最強視覺DNN模型[22]、最大影響力模型[23]以及IAT模型[21],分別進行5智能體1 h仿真實驗來觀察所提人工控制方法對自然集群秩序的影響。實驗結果如表4所示,雖然傳統Vicsek模型的墻角度θ+w數據非常接近于90°,但該模型僅適于集群系統的連續控制,對決策——運動模式的群體控制策略難以涌現秩序,具體表現為極性P值過小,群體大小C值過大;最強視覺DNN模型雖能形成較好的自然運動秩序,但是群體大小C值相對于所提方法同軌道強化(120 mm)的數值,極性P值略小,表明基于視覺的集群涌現方法需要保證一定的鄰居空間才有利于交互模型的收斂。而最大影響力模型的訓練數據來自2魚實驗數據,所以在5智能體仿真的場景下,其軌道距離過大,與所提方法同尺度軌道強化(160 mm)的數據相比,集群比較松散,運動方向的統一性還有不足,自由度過高導致難以用于實際機器人控制;IAT模型采用了軟注意力模型,即焦點單體需要與所有鄰居進行交互,與所提硬注意力模型相比,模型的計算復雜度更高,雖然集群極性P值較好,但與相似軌道(160 mm)強化下的群體大小C值相比還不夠緊湊。相比于最大視覺DNN強化模型,所提模型的群體極性P值較好,同時具有更緊湊的集群大小C,且對墻角度θ+w更加地接近于90°,運動秩序性更好;最大視覺DNN模型控制的集群會形成蛇形隊列,集群分布較散,受干擾容易發生集群斷裂。綜上分析:所提模型利用深度強化方法為自然集群秩序注入更明確的人工目標,具有更強的集群控制力,有利于真實機器人系統在復雜環境下的任務自組織。

研究發現:單純依賴強化控制模型在小空間范圍內直接訓練集群機器人達到運動有序不具可行性[25],究其原因在于單體所處的復雜內環境需要大規模記憶池進行強化訓練,還較難保證模型訓練收斂,所以必須借助生物模型的自組織能力,使集群運動產生典型運動模式,在此基礎上進行集群強化才具有訓練可行性;同時,硬注意力模型的稀疏信息交互機制有助于焦點單體選出重要鄰居,為后續多智能體強化的信息輸入降低了復雜性,極大地壓縮了DDPG記憶池的空間維度,為多智能體強化網絡的穩定訓練提供了自然秩序保障。仿真和機器人實驗結果均表明,人工控制目標必須與自然模型相匹配才能表現出色的控制性能,既能保留生物集群的魯棒靈活性,又能實現集群機器人的任務可控性,而一旦人工期望超出特定邊界,集群的自組織秩序就會出現崩潰,難以維持復雜系統的功能秩序,所以后續工作需要更深入地探尋生物模型與人工干預的有效界面,實現兩種控制的合理匹配。與傳統的魚群涌現模型相比,所提方法能夠在硬注意力模型的涌現機制下實現人工目標控制,有利于機器集群的可控運動。

本文方法為解決復雜人工系統的自然集群運動控制提供了有益嘗試,所提模型是實現集群機器人頂層任務的基礎,通過人工可控涌現,能實現集群的圓心軌道集結,以及通過安全強化改變集群覆蓋的大小。下階段也可將圓形軌道變為直線軌道,實現集群的可控直線遷移,這些功能為無人機群空中協作、智慧農業集體作業、物流倉儲多機搬運等應用提供了基礎運動方案。將這一方法應用到具體實際場景,有望為集群機器人大規模應用創造更廣闊的應用前景,從而提高社會信息物理系統的智能性和自主性,實現更高水平的任務協同自動化。

參考文獻:

[1]Berdahl A M,Kao A B,Flack A,et al.Collective animal navigation and migratory culture:from theoretical models to empirical evidence[J].Philosophical Transactions of the Royal Society B:Biological Sciences,2018,373(1746):20170009.

[2]Hamann H,Khaluf Y,Botev J,et al.Hybrid societies:challenges and perspectives in the design of collective behavior in self-organizing systems[J].Frontiers in Robotics and AI,2016,3:article No.14.

[3]Reynolds C W.Flocks,herds and schools:a distributed behavioral model[J].ACM SIGGRAPH Computer Graphics,1987,21(4):25-34.

[4]Vicsek T,Czirók A,Ben-Jacob E,et al.Novel type of phase transition in a system of self-driven particles[J].Physical Review Letters,1995,75(6):1226-1229.

[5]Couzin I D,Krause J,James R,et al.Collective memory and spatial sorting in animal groups[J].Journal of Theoretical Biology,2002,218(1):1-11.

[6]Calovi D S,Litchinko A,Lecheval V,et al.Disentangling and mode-ling interactions in fish with burst-and-coast swimming reveal distinct alignment and attraction behaviors[J].PLoS Computational Biology,2018,14(1):e1005933.

[7]Harrison D,Rorot W,Laukaityte U.Mind the matter:active matter,soft robotics,and the making of bio-inspired artificial intelligence[J].Frontiers in Neurorobotics,2022,16:880724.

[8]Selvaraj S,Choi E.Swarm intelligence algorithms in text document clustering with various benchmarks[J].Sensors,2021,21(9):3196.

[9]Dorigo M,Trianni V,ahin E,et al.Evolving self-organizing behaviors for a swarm-bot[J].Autonomous Robots,2004,17(2-3):223-245.

[10]Rubenstein M,Ahler C,Nagpal R.Kilobot:a low cost scalable robot system for collective behaviors[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2012:3293-3298.

[11]Araujo A F R,Barreto G A.Context in temporal sequence processing:a self-organizing approach and its application to robotics[J].IEEE Trans on Neural Networks,2002,13(1):45-57.

[12]Wang J J,Ma J,Hou J,et al.Operational effectiveness evaluation of UAV cluster based on Bayesian networks[J].Journal of Physics:Conference Series,2022,2282(1):012001.

[13]鄒長杰,鄭皎凌,張中雷.基于GAED-MADDPG多智能體強化學習的協作策略研究[J].計算機應用研究,2020,37(12):3656-3661.(Zou Changjie,Zheng Jiaoling,Zhang Zhonglei.Research on collaborative strategy based on GAED-MADDPG multi-agent reinforcement learning[J].Application Research of Computers,2020,37(12):3656-3661.)

[14]趙增旭,劉向陽,任彬.基于方向指引的蟻群算法機器人路徑規劃[J].計算機應用研究,2023,40(3):786-788,793.(Zhao Zengxu,Liu Xiangyang,Ren Bin.Ant colony algorithm for robot path planning based on direction guidance[J].Application Research of Compu-ters,2023,40(3):786-788,793.)

[15]李少波,劉意楊.基于改進深度強化學習的動態移動機器人協同計算卸載[J].計算機應用研究,2022,39(7):2087-2090,2103.(Li Shaobo,Liu Yiyang.Dynamic mobile robot collaborative computing offloading based on improved deep reinforcement learning[J].Application Research of Computers,2022,39(7):2087-2090,2103.)

[16]Vorobyev G,Vardy A,Banzhaf W.Supervised learning in robotic swarms:from training samples to emergent behavior[M]//Ani Hsieh M,Chirikjian G.Distributed Autonomous Robotic Systems.Berlin:Springer,2014:435-448.

[17]Foerster J,Assael I A,De Freitas N,et al.Learning to communicate with deep multi-agent reinforcement learning[C]//Proc of the 30th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2016:2145-2153.

[18]Zhou Xin,Wen Xiangyong,Wang Zhepei,et al.Swarm of micro flying robots in the wild[J].Science Robotics,2022,7(66):eabm5954.

[19]夏家偉,朱旭芳,張建強,等.基于多智能體強化學習的無人艇協同圍捕方法[J].控制與決策,2023,38(5):1438-1447.(Xia Jiawei,Zhu Xufang,Zhang Jianqiang,et al.Research on cooperative hunting method of unmanned surface vehicle based on multi-agent reinforcement learning[J].Control and Decision,2023,38(5):1438-1447.)

[20]劉磊,張浩翔,陳若妍,等.魚群涌現機制下集群機器人運動強化的遷移控制[J].控制與決策,2023,38(3):621-630.(Liu Lei,Zhang Haoxiang,Chen Ruoyan,et al.The transfer control of swarm robotics motion reinforcement employing fish schooling emergency me-chanism[J].Control and Decision,2023,38(3):621-630.)

[21]劉磊,黃景然,趙佳佳,等.揭示生物集群系統內部信息耦合機制的深度網絡模型[J].控制與決策,2023,38(5):1403-1411.(Liu Lei,Huang Jingran,Zhao Jiajia,et al.Analysis model for revealing mechanism of internal information coupling in biological collective systems based on deep network[J].Control and Decision,2023,38(5):1403-1411.)

[22]劉磊,孫卓文,陳令儀,等.基于深度學習的仿生集群運動智能控制[J].控制與決策,2021,36(9):2195-2202.(Liu Lei,Sun Zhuowen,Chen Lingyi,et al.Intelligent control of bionic collective motion based on deep learning[J].Control and Decision,2021,36(9):2195-2202.)

[23]Lei L,Escobedo R,Sire C,et al.Computational and robotic modeling reveal parsimonious combinations of interactions between individuals in schooling fish[J].PLoS Computational Biology,2020,16(3):e1007194.

[24]劉磊,陶杰,尹鐘.微型機器人以及群機器人系統:中國,CN201710441229.2[P].2017-06-13.(Liu Lei,Tao jie,Yin Zhang.Microrobots and searm robot system:China,CN201710441229.2[P].2017-06-13.)

[25]Hansen E,Brunton S L,Song Zhuoyuan.Swarm modeling with dyna-mic mode decomposition[J].IEEE Access,2022,10:59508-59521.

[26]Zhou Xiao,Zhou Song,Mou Xingang,et al.Multirobot collaborative pursuit target robot by improved MADDPG[J/OL].Computational Intelligence and Neuroscience.(2022-01-01).https://doi.org/10.1155/2022/4757394.

[27]Han Chenchen,Yao Haipeng,Mai Tianle,et al.QMIX aided routing in social-based delay-tolerant networks[J].IEEE Trans on Vehicular Technology,2021,71(2):1952-1963.

[28]梁星星,馮旸赫,馬揚.多agent深度強化學習綜述[J].自動化學報,2020,46(12):2537-2557.(Liang Xingxing,Feng Yanghe,Ma Yang.Deep multi-agent reinforcement learning:a survey[J].Acta Automatica Sinica,2020,46(12):2537-2557.)

[29]Dorigo M,Theraulaz G,Trianni V,et al.Swarm robotics:past,present,and future[J].Proceedings of the IEEE,2021,109(7):1152-1165.

[30]Pérez-Escudero A,Vicente-Page J,Hinz R C,et al.idTracker:tracking individuals in a group by automatic identification of unmarked animals[J].Nature Methods,2014,11(7):743-748.

收稿日期:2023-12-27

修回日期:2024-03-06

基金項目:上海市自然科學基金資助項目(22ZR1443300)

作者簡介:劉磊(1982—),男(通信作者),甘肅張掖人,副教授,碩導,博士,CCF會員,主要研究方向為集群智能與復雜系統控制(liulei@usst.edu.cn);葛振業(1999—),男,江蘇鹽城人,碩士研究生,主要研究方向為集群智能;林杰(1998—),男,湖北武穴人,碩士研究生,主要研究方向為復雜系統、可解釋學習;陶宇(1997—)男,江蘇淮安人,碩士,主要研究方向為集群智能、深度學習;孫俊杰(2002—),男,上海人,主要研究方向為數據挖掘.

主站蜘蛛池模板: 亚洲欧美自拍视频| 久久综合亚洲色一区二区三区| 波多野结衣一区二区三区88| 青青操视频在线| 日韩国产一区二区三区无码| 欧美国产在线看| 99re在线免费视频| 色婷婷在线影院| 色综合五月| 欧美无遮挡国产欧美另类| 在线欧美一区| 亚洲中文在线视频| 看看一级毛片| 日韩区欧美区| 亚洲丝袜中文字幕| 国产在线98福利播放视频免费| 国产网站黄| 欧美日韩国产高清一区二区三区| 欧美中文字幕在线二区| 国产免费怡红院视频| 3344在线观看无码| 国产黄色视频综合| 国模沟沟一区二区三区 | 91探花国产综合在线精品| 久久人人爽人人爽人人片aV东京热| swag国产精品| 久久久久青草线综合超碰| 亚洲欧美日韩中文字幕一区二区三区| 国产欧美日韩18| 99久久人妻精品免费二区| 素人激情视频福利| 天天综合天天综合| 二级特黄绝大片免费视频大片| 国产91特黄特色A级毛片| 午夜日本永久乱码免费播放片| 亚洲综合色在线| 国产网友愉拍精品视频| 国产欧美日韩另类| 久久综合九色综合97婷婷| 国产乱人乱偷精品视频a人人澡| 成人午夜网址| 成人在线亚洲| 国产18在线播放| 福利视频一区| 国产毛片网站| 国产精品内射视频| 亚洲精品中文字幕无乱码| 国产超碰在线观看| 国产偷国产偷在线高清| 色哟哟国产成人精品| 色网站在线免费观看| 热久久综合这里只有精品电影| 视频二区中文无码| 国产精品99一区不卡| 91伊人国产| 欧美色亚洲| 国产又大又粗又猛又爽的视频| 日韩 欧美 小说 综合网 另类 | 亚洲狼网站狼狼鲁亚洲下载| 亚洲经典在线中文字幕| 国产精品永久在线| 伊人久久久久久久久久| 四虎影视8848永久精品| 国产小视频免费| 在线观看无码av免费不卡网站| 亚洲日韩久久综合中文字幕| 欧美自慰一级看片免费| 成年人国产网站| 欧美日韩v| 国产精品综合久久久| 九九视频免费在线观看| 亚洲中文字幕无码mv| 日本一区二区三区精品视频| 久久综合五月| 性视频久久| 超清无码熟妇人妻AV在线绿巨人| 欧美成人日韩| 在线观看国产小视频| 色播五月婷婷| 国产视频你懂得| 国产91透明丝袜美腿在线| 免费国产小视频在线观看|