廣東工業大學自動化學院 彭澤榮 張學習 王建樺
基于極限學習機的仿真機器魚動作策略
廣東工業大學自動化學院 彭澤榮 張學習 王建樺
針對URWPGSim2D仿真平臺,為實現機器魚快速、準確的調整,本文將機器魚的狀態定義為“調整”和“推球”,并提出基于極限學習機的動作決策模型,利用此模型自主選擇相應的動作策略。動作決策模型根據當前時刻周圍的環境信息,利用極限學習機確定機器魚的狀態,自主選擇當前時刻的最優擊球點,并確定機器魚速度和角速度檔位的最優組合。經URWPGSim2D仿真平臺驗證結果表明:機器魚可根據策略調整路徑,選擇合適的動作策略,以更少的時間代價完成比賽。這說明基于極限學習機的動作決策策略能充分考慮機器魚和水球的實時信息,在不同情況下選擇不同的策略,具有很強的適應能力,滿足仿真機器魚對于動作決策的要求。
URWPGSim2D仿真;機器魚;極限學習機;動作決策
隨著海洋科技的長足發展,水中機器人的應用變得越來越廣泛,關于仿真水中機器人的研究也成為該領域的研究熱點之一[1]。近年來,國內外爭相舉辦各類機器人大賽,以期在比賽中交流機器人研究領域的新思想和新進展,其中,北京大學聯合多所高校和科研所建立的URWPGSim2D仿真平臺就是一個很好的水中機器人研究平臺。該平臺以魚作為仿真對象,以充滿擾動的仿生水作為仿真環境,提供了一種仿真水中機器人水球比賽實時仿真系統,旨在通過各種比賽項目[2],研究多仿真體的協作性和智能性[3]。
為了使機器魚在動態變化環境中完成指定的任務,必須讓機器魚精確地運動到指定位置,換句話說,點對點控制效果決定了機器魚的控制效果。機器魚點對點(PTP)控制算法是喻俊志、陳爾奎等人提出來的,該算法的目的是消除機器魚在初始方向、位置與目標點之間的方向誤差和距離誤差[4]。由于機器魚所處環境因素的不確定性,以及機器魚在游動的過程中水對機器魚的干擾,導致機器魚點對點控制效果不理想。
針對上述不足,本文提出了基于極限學習機的動作控制算法,根據實驗數據設計控制模型。實驗結果表明,基于極限學習機的動作控制算法能優化機器魚的游動路徑,提高機器魚的控制效果。
本文將基于該平臺,針對“水中搬運”項目,對其比賽策略進行研究。
在2006年,黃廣斌教授提出了前饋神經網絡的極限學習概念,并詳細介紹了基本原理[5]。極限學習機(Extreme Learning Machine,ELM)是一種特殊類型的單隱藏層前饋神經網絡,它僅有一個隱藏節點層。后來將它擴展到通用的單隱藏層前饋神經網絡,它的隱結點類似神經元[6]。極限學習機的基本組成如下:

圖1 極限學習機網絡結構圖
通常,描述標準的SLFNs模型能夠零誤差地逼近上述N個樣本,表示的是:

即存在w、β和b,使得:

利用矩陣表示時,(2)可以緊湊地寫成:

當w和b固定時,等價于求線性系統(3)的最小二乘解,即:

得到:

其中H?是H的Moore-Penrose廣義逆[8]。而最小范數的最小平方解具有唯一性,使其訓練誤差達到最小。也就是說,對于隨機賦值的輸入權值和偏置向量,只要設置合適的隱含層神經元個數,可以通過求取線性方程的最小二乘解來得到隱含層的權值。
3.1 擊球點的確定
本文根據機器魚當前時刻周圍的環境信息來選擇擊球點,并采取相應的動作策略。如圖2所示,連接地標中心點與水球球心,連線交水球遠端處為P點,過水球球心作此連線的垂線,此時將場地劃分為I、II、III、IV四個區域;然后以P點為圓心,水球直徑為半徑作圓,此圓與垂線相交于A、B兩點。則:若機器魚處于I區域,以A點為擊球點;若機器魚處于II區域,以B點為擊球點;若機器魚處于III、IV區域,以P點為擊球點。這樣做的好處是,當機器魚處于“調整”狀態時,通過A點(或者B點)不僅可以達到調整的目的,而且能夠保證機器魚在整個調整過程中盡量靠近水球,從而縮短進入“推球”狀態時機器魚與水球的距離。

圖2 擊球點確定示意圖
3.2 機器魚位置的確定


圖3 機器魚位置確定示意圖
利用θ和D確定機器魚位置的過程如下:
通過抽象出θ和D,不僅能更精確的描述機器魚的位置,而且只有兩個特征參數,降低了計算復雜度,減少了運算時間。
本文基于URWPGSim2D平臺,針對“水中搬運”項目,分別建立了基于BP神經網絡和基于極限學習機的仿真機器魚動作決策模型,并討論這兩個模型的優劣。
本文通過MATLAB仿真實驗來獲取機器魚動作控制模型中極限學習機和單隱含層BP神經網絡的最優隱含層神經元個數。實驗中使用500個訓練樣本數據,100個測試數據,測試的隱結點個數分別為100、150、200、250、300、350、400,測試結果如圖4所示。最終得到:當極限學習機的隱含層神經元個數為250,單隱含層BP神經網絡的隱含層神經元個數為160時,兩種模型的學習精度比較高,能夠準確定位機器魚,為機器魚的動作決策提供良好的基礎。

圖4 隱結點個數測試結果
綜合上述分析,分別對BP神經網絡、極限學習機進行建模。兩個模型均采用三層拓撲結構,輸入層的神經元個數為2,隱藏層的神經元個數分別為160、250,輸出層神經元個數為1。所得結果見表1:

表1 兩種算法的性能比較
從表1可以看出,BP算法搜索最優解的偏差過大,而極限學習機能以更短的時間,以及更高的精確度對全局最優解進行搜索,換言之,極限學習機在時間和精度方面都要優于BP算法。實驗結果表明,極限學習機具有更好的性能。
基于極限學習機的仿真機器魚策略綜合考慮了水下環境的復雜性及機器魚自身結構和運動的特點,首次提出以地標為坐標原心,通過水球、機器魚的斜率θ與距離D來判斷三者的相對位置,從而正確的確定機器魚的狀態。并根據機器魚在頂球過程中的連貫性,利用極限學習機讓機器魚自主選擇擊球點,使得頂球更加平穩快速。經過在URWPGSim2D平臺上運行該算法編寫的程序,效果明顯。由實驗結果可知:該優化策略能夠很好地完成比賽,不但提高了策略的穩定性,而且具有很強的適應能力,滿足仿真機器魚對于動作決策的要求,說明這種方法是可靠、可行的。
[1]謝廣明.機器人水球比賽項目推介書[M].北京:北京大學工學院,2009:1-5.
[2]黃永安,馬路,劉惠敏.Matlab7.0/simulink 6.0建模仿真開發與高級工程應用[M].北京:清華大學出版社,2007:1-75.
[3]喻俊志,陳爾奎,王碩,等.仿生機器魚研究的進展與分析[J].控制理論與應用,2003,4(4):485-491.
[4]J.Liu,I.Dukes,and H.Hu.Novel mechatronics design for a robotic fish.In Proc.IEEE/RSJ International Conference on Intelligent Robots and Systems,pages 2077-2082,2005
[5]G.B.Huang,Q.Y.Zhu,C.K.Siew.Extreme learning machine:theory and applications[J].Neurocom-puting,2006,70:489-501.
[6]G.B.Huang,L.Chen.Convex incremental extreme learning niachine[J].Neurocomputing,2007,70:3056-3062.
[7]P.L.Bartlett.The sample complexity of patteni classification with neural networks;the size of the weights is more important than the size of the network[J].IEEE Transactions on Information Theory,1998,44:525-536.
[8]K.S.Baneijee.Generalized inverse of matrices and its applications[J].Technometrics,1973,15:197-202.
The Simulation Robotic Fish Action Strategy Based on Extreme Learning Machine
Peng Zerong Zhang Xuexi Wang Jianhua
Aiming at URWPGSim2D simulation platform,in order to realize rapid and accurate adjustment of simulation robotic fsh,this paper defned the state of robotic fsh for"adjustment"and"push ball",and action decision model based on extreme learning machine is put forward.By using this model,the corresponding action strategies are selected.In the action decision model,according to the current environment information around the robotic fsh,the state of the robotic fsh is determined by the extreme learning machine.Then the fsh can independently choose the optimal hitting point of the current time,and determine the optimal combination of velocity and angular velocity.Verifed by URWPGSim2D simulation platform show that:the robotic fsh can choose the appropriate action strategy to adjust its path by using the action decision model,and complete the competition with less time.This shows that action decision-making strategy based on extreme learning machine can fully consider the real-time information of robotic fsh and water polo,choose a different strategy in different cases,have a strong ability to adapt,meet the requirements of simulation robotic fsh for the action decisions.
URWPGSim2D;robotic fsh;extreme learning machine;action decision-making
國家自然科學基金(61573108)。
彭澤榮,男,廣東汕頭人,研究生,主要研究方向:智能控制與信息處理技術。
張學習,男,江蘇徐州人,博士,副教授,主要研究方向:智能控制與信息處理技術。