摘 要:Robocup中型組機器人足球比賽中,采用動態角色分配系統的隊伍在進行角色分配時產生系統振蕩、時間滯后和系統反應不靈敏等問題。改進后的動態角色分配系統引入角色跟隨反饋系統,選取機器人超調參數利用Frank-Wolfe算法進行最優化計算以及確定影響機器人獲取球的時間因素和各影響因子的權值后采用簡化的模糊控制模型確定機器人對角色的隸屬度關系,機器人則根據隸屬度關系進行角色分配。實驗和仿真結果表明這種設計的可行性、穩定性和快速性。
關鍵詞:最優化計算;角色分配;模糊控制
中圖分類號:TP242.6 文獻標識碼:A
Dynamic Role Assignment of Robocup Midsize Group Based on Fuzzy Logic and Optimization Calculation
DENG Benzai,ZHANG Zhongjing,WANG Jiangyin
(Chansha University of Science and Technology Institute of Electrical and Information Engineering,Changsha 410114,China)
Abstract:In the Robocup Mid-size Group competition, teams select the dynamic role assignment will produces system oscillation, time lag and system low sensitivity and others. Improvement of the dynamic role assignment system introduces the introduction of the role of feedback system and using the FrankWolfe arithmetic optimization calculate parameter of overshoot, Select key factor most superior influence time which robot gained ball. Role assignment system define degree of membership relations of robot to the role which use the reduced fuzzy control model after determines the weight of each influence factor, robots are assigned role for degree of membership. Simulation and experiment result has indicated the feasibility, the stability and the rapidity of this design.
Key words:optimization calculation;role assignment; fuzzy control
1 引 言
Robocup是目前世界上規模最大、影響最廣泛的機器人足球比賽,是以人工智能[1]為依托以智能機器人為平臺的一個典型的多智能體系統[2],是機器人領域研究熱點之一。Robocup中型組機器人包括:車體系統、視覺系統、決策系統和無線通訊系統以及底層控制系統。決策系統是一個多智能體的協調控制系統[3-5],在動態、不可預知的環境中對整隊機器人的行為進行決策。
目前機器人足球賽隊員的角色分配方法主要有兩種:一種是固定角色方式;另一種就是動態分配角色方式。前者是為每個機器人分配固定的角色(如:前鋒),這種方式優點是隊員分工明確,但在很大程度上限制了隊伍的靈活應變能力。如:球在非進攻隊員附近,而進攻隊員相距較遠趕不來時,非進攻隊員也不會去搶球而錯失進攻、射門機會。動態角色分配就是根據場上情況,動態確定各個球員的角色,具有良好的靈活性和高效性。
2 場上形勢分析
決策系統是整個足球機器人系統的中心樞紐[6],它的效率和優劣直接影響比賽的成敗。決策因素選取過少不能正確反映決策目標;決策因素選取過多會使策略子系統所處理的信息冗余。機器人足球的場上環境是連續、動態的[7],在當前比賽現場,可供選擇的主要決策因素有:球的位置、球的運動方向、球的運動速率、雙方球員的位置、雙方球員的運動方向、雙方球員的運動速率、雙方球員的正面朝向等。決策因素的多樣性決定建模時要選取能夠影響、反映局勢的主要決策因素;以此得出我方機器人對當前待分配角色的適合程度排序向量,選擇適合度最大的機器人充當此角色。
機器人球員角色分配的決策因素如圖1所示,圖中dH、dO和dib為球與我方球門、球與對方球門的距離和待分配i號機器人與球的距離;vi和vb為待分配i號機器人速度和球運動速度;αi為待分配i號機器人運動方向與球運動方向的夾角;βi為i號機器人運動方向與球和i號機器人中心連線的夾角。機器球員角色分配主要考慮球的位置和運動方向,機器人與對方球員的競爭因素以及機器人與隊友的協作因素。
圖1 場上形式分析
3 角色分配設計
角色分配作為決策系統的一部分主要完成從機器人的角色空間到機器人空間的映射[8],在任意時刻將各個角色分配到具體的機器人后更新角色分配系統,完成特定的戰術動作[9-11]。
3.1 主要影響因子算法
由于場上形勢的復雜性、機器人運動靈活性和快速性,如果忽略機器人本體的超調量僅僅考慮機器人到球的距離不能正確得出獲取球的時間,而且超調量具有不可預見性和波動性,因此建立如下機器人超調量數學模型:
min f(xi)=2×(xi1-vi0xi2)x2i2
s.t.0.5≤xi1,xi2≤3
xi1-v0xi2≤0(1)
其中xi1為第i號機器人超調距離;xi2為第i號機器人超調時間;vi0為第i號機器人初始速度。
FrankWolfe算法步驟:
步0 取初始點 x(0)∈DL,精度Ε>0。令k:=0。
步1 求解線性規劃問題
3.2 簡化的模糊控制模型
集合ROBOT={robot1,robot2,…,robotn}表示球場上除守門員以外所有球員的集合;ROLE={role1,role2,…,rolen}表示待分配角色集合;ST={st1,st2,…,stn}表示機器人當前狀態信息集合。
圖2 影響因子的選取
狀態信息集合ST={st1,st2,…,stn}確定如圖2所示,Si和t'i2為i號機器人距離球的距離和i號機器人超調時間;αi為待分配i號機器人運動方向與球運動方向的夾角;βi為i號機器人運動方向與球和i號機器人中心連線的夾角。
通過每一周期從賽場上獲取的狀態信息,確定狀態信息集合ST={Si,Ti2,αi,βi}并得出模糊隸屬度矩陣S=(sij)n×m=ST1,ST2,…,STnT(其中n為機器人數量,m為狀態信息量)。其中STn的確定如下:
μSi1=Simax (S1,S2,…Si) ,
Si≠max (S1,S2,…Si) (5)
μTi2=min (ti2,t'i2)ti2(6)
μαi=180-αi180,αi∈0,180 (7)
μαi=180-βi180,βi∈0,180 (8)
其中ti2為機器人當前狀態下超調時間。
對狀態信息進行分析,依據專家意見或者實際設計經驗評估狀態信息集合中各因子對角色的影響大小,建立各個因子間的權重關系,計算各個因子對角色分配的貢獻,即確定模糊隸屬度矩陣對角色分配的權值ωk(k=1,2,…,m)。稱W={ω1,ω2,…ωm}為權重分配陣,其滿足∑mk=1ωk=1。
根據上述計算待分配角色機器人對角色適合度的優化值:
Fi=(sij)n×m×Wn×1=[f11f21…fi1]T (9)
然后按照fi1的大小排序來對應角色,fi1值越大說明越適合前鋒角色,并以此完成對其他角色的分配,實現集合ROBOT→ROLE的映射。
3.3 角色跟隨反饋系統
為保證角色分配的穩定性和防止誤分配,在進行角色分配前引入跟隨誤差反饋模型:
|fi1-f'i1=ε|>ξ(10)
其中f'i1為前一周期下角色適合度的優化值,fi1為當前周期下角色適合度的優化值,ξ為進行角色分配的閾值。
式(10)知當跟隨反饋誤差達到一定閾值時角色系統才進行角色分配,有效防止角色重復分配和錯誤分配。
4 仿真與實驗
4.1 角色跟隨反饋仿真
仿真選取主防角色轉變為主攻角色階段的角色跟隨誤差,跟隨時間持續10秒。由于跟隨誤差受到角色、分配權值、場地大小等因素的限制,所以各個角色的角色分配的閾值均不相同,仿真初始數據為場地12×8M;權值分配陣W={25,1340,740,110};主攻ξ=0.08;協攻ξ=0.06;主防ξ=0.06;協防ξ=0.03,仿真結果如圖3所示。
由仿真結果可知在0~1s時間內主防角色的跟隨誤差多次大于設定的主防閾值ξ=0.06,系統進行角色分配,機器人角色由主防分配為主攻;在1~10s時間內主攻角色的跟隨誤差在設定的主攻閾值ξ=0.08內,系統未進行角色分配。
圖3 角色跟隨誤差
4.2 場地實驗
實驗利用四臺機器人在12×8M的小場地進行,人為控制足球運動模擬場上形勢變化,查看機器人在人可預見形勢下的分配結果。機器人集合ROBOT={robot1,robot2,…,robotn}中取n=4;角色集合設置為ROLE={主攻,協攻,主防,協防};狀態信息集合ST={st1,st2,…,stn}中取n=4;權值分配陣W={25,1340,740,110}。初始角色映射設置為ROBOT→ROLE={robot1,robot2,robot3,robot4}→{主攻,協攻,主防,協防}。由式(5)知距離球最遠的機器人不進行角色適合度的優化值計算,而是直接分配此機器人為協防角色。
角色分配后機器人本體世界坐標及球的世界坐標位置為:
[ROBOTBALL]T=(-2.957,2.325)(-1.824,0.458)(-0.624,-0.458)(-3.224,-1.158)(1.478,0.824) (11)
角色分配后教練機上顯示的場地形勢如圖4所示:
圖4 角色分配后的場地形勢
利用簡化的模糊控制模型進行角色分配后的映射為:
ROBOT→ROLE={robot3,robot2,robot1,robot4}→{主攻,協攻,主防,協防}
由實驗可知,當2臺機器人距離球的距離相近時,分配主要依據機器人的超調量,因此根據機器人特性,場地環境,定位精確度等因素選取權重分配陣W可以增大分配的準確度。
5 結束語
采用Frank-Wolfe算法進行最優化計算并結合簡化模糊控制的角色分配系統在系統調用分配策略前已經利用最優化計算出相關參數,配合簡化后的模糊控制模型減少了大量的實時計算,提高了分配速度,使機器人更好適應場上形勢變化,提高了球隊的靈活性;引入角色跟隨反饋系統后減少了分配次數、防止了系統錯誤分配,提高了系統穩定性。
參考文獻
[1] JAMES B, MICHAEL B, BRETTB, et al. Multirobot team response to a multirobot opponent team[C]//Proceedings 0f ICRA03, the 2003 IEEE International Conference on Robotics and Automation. Taiwan, 2003.
[2] ANDREA M,ANDREAS D L,Ubbo Visser,et al.Dynamic-preserving qualitative motion description for intelligent vehicles[C]//Proceedings of the IEEE Intelligent Vehicles Symposium(Ⅳ 04).Parma Italy, 2004: 642-646.
[3] PETER S.Layered Learning in Multiagent Systems: A Winning Approach to Robotic Soccer[M].The MIT Press,2000.
[4] TEWS A, WYETH G F.MAPS:A system for multi-agent coordination advanced robotics[J].VSP/Robotics Society of Japan,1999,14(1):37-50.
[5] 楚要欽,李孝安,蒲勇.多智能體足球機器人系統的協作控制[J].哈爾濱工業大學學報,2004,36(7):911-913.
[6] 段勇,崔寶俠,徐心和.多智能體強化學習及其在足球機器人角色分配中的應用[J].控制理論與應用,2009,26(4):371-376.
[7] 符海東,雷大江.基于模糊一致關系的機器人足球角色分配[J].計算機應用,2006,26(2):502-504.
[8] 李鵬.基于路徑開銷的機器人足球角色分配設計[J].計算機與現代化,2009,08(34):123-125.
[9] 韓學東,洪炳熔,盂偉.機器人足球射門算法研究[J].哈爾濱工業大學學報,2003,35(9):1064—1066.
[10]HOFFIMANN F.s computing techniques for the design of mobile robot behaviors[J].Information Sciences,2000,122(2-4):241-258.
[11] 徐靈敏,李祖樞,曹長修,等.基于預測的足球機器人截球動作的實現[J].控制理論與應用,2O04,21(4):93-96.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文