余麗娟 傅匯喬 胡勇 謝曉軒



摘 要
本文將非結構環境抽象為梅花樁,開展六足機器人行走梅花樁的步態研究。以三足步態為基礎,選擇六足機器人行走梅花樁的最佳策略。本文利用深度學習對梅花樁進行識別,再利用強化訓練獲取機器人機體質心從起點到終點的運動軌跡。采用馬爾科夫決策過程進行步態設計,最終完成機器人在梅花樁上行走的運動規劃。
關鍵詞
六足機器人;深度學習;梅花樁;步態設計
中圖分類號: TP242 ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A
DOI:10.19694/j.cnki.issn2095-2457 . 2020 . 08 . 18
0 引言
具有冗余自由度等眾多優勢使六足機器人成為當下研究的熱點。早在上個世紀,國外就已經產生了一批技術成熟的六足機器人。而我國相對于國外對六足機器人的研究起步較晚,但是其技術也逐漸變得成熟,越來越完善[1]。
近幾年,智能機器人掀起了一股熱潮。機器人技術迅速發展,機器人被大量用于搶險救災、勘察軍情、農田灌溉、高危環境作業等,機器人能夠在非結構環境中更高效地作業是如今各界研究的重點以及難點[2-3]。因此,本文進行了六足機器人在梅花樁上行走的步態設計研究。
1 基于深度學習的識別
自從深度學習作為機器人研究的新方向之后,其在智能機器人領域顯出了重要性[4]。近幾年來,在目標檢測和識別等任務中用深度學習相關算法顯著提升了精確度,所以以深度學習為主流的算法得到外界的廣泛應用[5]。
在對象識別任務來看,深度學習的方法頗受歡迎,而在現實應用中也收獲了重大的突破。剛開始卷積神經網絡CNN會對對象的突出部分進行收集,再對既定目標進行定位和識別。卷積神經網絡在用于手寫體識別之后,迅速被業界所接受[6]。第一個卷積神經網絡是1987年由Alexander Waibel等提出的時間延遲網絡(Time Delay Neural Network, TDNN)[7]。再之后深層次的AlexNet網絡[8]取得更加優秀的成績,成為了卷積神經網絡猛速發展的奠基石。
2 梅花樁行走步態規劃
對于二維和三維梅花樁這兩種對象地形,通過研究當中已知的梅花樁地形環境信息,根據六足機器人足端作業范圍對梅花樁進行判定,挑選出其足端可安全穩定行走的區域。然后對六足機器人行走梅花樁進行強化訓練,得出從起點到終點的全部可行路線和區域。
六足機器人在進行搶險救災、勘察軍情、農田灌溉、高危環境作業等任務時,其所在的作業環境大多數是溝壑、丘陵、山地、叢林等一些非結構地形。因此,為了讓六足機器人能夠順利適應在各種非結構環境中的作業,則需要適當分析其在行走過程中遇到的各種非結構環境的特點信息,從而設計出六足機器人適應不一樣的非結構環境的最佳步態。
本文針對具有錯綜復雜的地貌地形特點的自然環境,將六足機器人在非結構環境中有效落點形成的非連續區域近似抽象為分布不均勻的梅花樁地形,六足機器人足端的一個可落區域就是各個梅花樁的頂端表面。
根據六足機器人在梅花樁上前行時的平穩度標準,提出三角形的最優內切圓半徑方法來選取足端落點。支撐三角形變小,六足機器人在行進過程中的平穩度就會相對變小,支撐三角形變大,六足機器人在行進過程中的平穩度就會相對變大[9]。
馬爾科夫決策過程意指當對著一些可以隨時,一些能夠由負責人決定的事情中,如何采取方法抉擇的過程[10]。負責人通過間接性地或連續地查探動態網絡,依據所察看到的動態網絡實時狀態,最后選擇一個可使用的動作進行實現。
因為三足步態是六足機器人行進最經常使用,而且速度最快、效率最好的步態,所以以三足步態為基礎對六足機器人開展算法流程分析。按照六足機器人以三足步態行進時的步態交換情況,定義開始的狀態下六條腿的位置狀態為S0,接下來的狀態下六足機器人六條腿的位置狀態為S1,最后的狀態下六條腿的位置狀態為St,因此對六足機器人做如下定義:
控制開始時,六足機器人復原到最初狀態,然后輸出一個動態,然后增加命令,依據坐標計算六足機器人質量中心的行動區域,得到其質量中心對著一個方向平行移動到最大距離。如果大于目標邊緣,則命令當時質量中心與前一個坐標一樣,授予合適的負值,重新定義。如果與終點的間距小于適應值,授予正值。接著開始下一個環節。在500個訓練回合后,六足機器人從起點到終點的總步數收斂到30步左右。
3 結論
本文將非結構環境抽象為梅花樁,再經過對梅花樁地形的實驗分析,建立了深度學習、強化訓練的外框,針對六足機器人在梅花樁上前行提出了足端落點三角形的方法,依據其方法來選取六足機器人前行時的適當足端落點。然后根據已經了解到的非結構地形,創建合適六足機器人前行約束的梅花樁環境,然后采取深度學習和強化訓練的方式取得了六足機器人在梅花樁上前行時的質量中心的最佳路線,最后利用馬爾科夫決策過程選取六足機器人足端落點,完善六足機器人在梅花樁上前行時的步態設計。
參考文獻
[1]王偉,儲澤楠.六足機器人的步態規劃研究[J].計算機時代,2019(12):8-11.
[2]李滿宏,張明路,張建華,田穎,馬艷悅.基于增強學習的六足機器人自由步態規劃[J].機械工程學報,2019.55(5):36-44.
[3]雪鋒,郭振武,王斌銳,王凌,金英連.基于帶反饋Hopf振蕩器的六足機器人斜坡步態發生器設計[J].機械工程學報,2018.54(21):41-48.
[4]羅海波,許凌云,惠斌,常錚.基于深度學習的目標跟蹤方法研究現狀與展望[J].紅外與激光工程,2017,46(05):14-20.
[5]李旭冬,葉茂,李濤.基于卷積神經網絡的目標檢測研究綜述[J].計算機應用研究, 2017, 34(10):2881-2886.
[6]李滿宏,張明路,張建華,et al.基于增強學習的六足機器人自由步態規劃[J].機械工程學報, 2019,55(5):36-44.
[7]Waibel, A., 1987. Phoneme recognition using time-delay neural networks. Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan.
[8] Kume A, Matsumoto E , Takahashi K , et al. Map-based Multi-Policy Reinforcement Learning: Enhancing Adaptability of Robots by Deep Reinforcement Learning[J]. 2017.
[9]趙龍海.六足步行機器人自然地形下全方位運動規劃策略研究[D],2013.
[10](加),霍華德,M.等.多智能體機器學習:強化學習方法[M].機械工業出版社,2017.