王旭升



摘要:機器人通過強化學習能夠和環境進行交互,并通過交互內容不斷對自身性能和工作方式進行改變,進而適應復雜條件的作業任務,已經成為了機器學習重要技術。但是強化學習的時間卻并不受到控制,并和機器人數量有著一定的關系,數量增多其交互更加復雜,這就給機器學習帶來了一定的難度。因此需要群體智能算法對多機器人協作控制提供更為優秀的改進,幫助機器人更好的完成群體任務。
關鍵詞:強化學習;多機器人;協作控制
前言
人工智能的發展使機器人能夠實現自主強化學習,但是在實際操作中,多機器人協作控制并不是特別容易實現,隨著機器人數量的增加,交互過程更急復雜,學習效率更為低下。這就導致機器人在行為上的不可預測性。蟻群算法則是可以通過尋找最優路徑的概率算法,可以被應用到增強學習中去。本文對基于強化學習的多機器人協作控制進行了簡單概述,提出了區別于傳統強化學習方案的算法,并結合仿真實驗結果,對相關技術特點進行了研究。提供了良好的解決方案。
1 基于強化學習的多機器人協作控制的簡單概述
機器人學的發展,使分布式人工智能和系統的研發工作成為了可能,這些機器人在實際工作中有著十分寬廣的使用領域,較為低廉的成本,在機器人研究中成為了熱點,但是由于受到技術條件的限制,在進行對機器人系統的研究中,個體機器人通過協作完成復雜條件下的工作任務,并通過學習對環境進行適應,還需要感知度環境的動態變化,提升任務處理能力。因此強化學習作為一種能夠不斷適應新情況的模式,能夠實現高度反應性和自適應性。從而對于機器人的工作能力有所提高。但是,在實際的將技術層面需要對多個機器人的協作能力進行調整,使其適應復雜的工作環境。單機器人的強化學習已經取得一定的成功。但是在向多機器人協作進行遷移的過程中,卻存在著諸多不可控因素,如出現新的交互,學習速度慢等,在實際應用中表現不盡如人意。而機器人足球,作為多機器人協作的重要組成部分,能夠為強化學習提供重要的實驗素材[1]。
2 多機器人合作學習研究
在進行機器人學習研究中,機器人數目一旦增多,對其學習決策行為的變化,也會有著不穩定因素。如在學習早期階段,機器人的動作都是隨機的,在機器人數目增多的過程中,其隨機性變化呈現指數級增加。因此這個階段的機器學習,存在著不可預知的后果,影響著機器學習成功性。針對如何決定機器人的學習次序,可以通過人工勢場法的方式引入學習優先級。在學習階段確定其中優先級較大部分進行學習,該機器人作為整個機器人團隊的核心成員,暫定為決策機器人。使其他機器人能夠按照上個周期學習過的策略進行動作學習。要求對已經學習過的動作進行執行學習策略。對應學習過的動作值為Q,然后進入下一個學習周期,之后的機器人可以采用同樣的方法進行學習,使其處于固有的學習策略的階段,并且由優先級排在后面的機器人完成相應的學習任務,對學習過程進行循環,直到完成相關學習。
在強化學習階段,需要每個機器人能夠根據對每個局部的感知,進行局部場勢的計算,結合LPL參數進行排序。并由LPL值最大的機器人根據學習算法,并首先對上個周期學習的策略進行學習。其他機器人隨后在此機器人的配合下,完成相應的學習狀態。并根據上個周期的策略進行執行下一個動作。機器人n對更新的策略進行動作反應,其他機器人也進行動作更新。依次進行重復,確保機器人的強化學習算法能夠更好的完成[2]。
3 仿真實驗
對機器人的動作效果進行評價,并設立短期獎勵函數,具體公式如下:
其中P指的是執行學習的機器人,s環境狀態用s表示,t表示學習時間,閾值C則展現對該函數的判斷家里效果。以足球機器人為例,如果進球則獎勵為1,丟球則標示為-1,如果在指定的時間內沒有獲得進球,則可以判定獎勵為0。取值范圍應在[-1,1]之間。本測試需要劃分機器人的活動場地,其中M代表了整支隊伍。
4 仿真結果分析
對測試文本算法進行校正,經過反復訓練和傳統的算法進行比較,其中在仿真訓練階段,進行了500場訓練,仿真周期為1500,每隔10場進行一次仿真訓練。并在學習訓練中,對比賽結果則需要由獨立訓練過程進行重組,如果比賽有一方結束進球,完成一次訓練周期。如規定時間內沒有進球,則判定為平局。在測試中,將機器人分成兩組進行訓練,其中一支為傳統學習算法。另一支則是以本算法進行仿真實驗。對比兩種算法,本算法學習效率等方面明顯優于傳統算法,在學習時間上以及學習效果上都得到較為良好的效果。這就說明了本算法能夠對輸入狀態空間進行改變,減少不必要的算法冗余,提升了機器人的學習速度[3]。
總結
總之,在進行多機器人協作研究中,通過以足球機器人研究發現,其中并不需要復雜的算法,只需要通過設置機器人學習的優先級,并以此為基礎進行依次學習,并配合蟻群算法,智能涌現等先進的技術,通過強化學習算法,對多機器人的協作能力給予一定的幫助,進而完成相關研究工作。為今后的多機器人協作提供算法支持。
參考文獻
[1]高慧. 基于強化學習的移動機器人路徑規劃研究[D]. 2016(22):52-53.
[2]丁明剛. 基于多智能體強化學習的足球機器人決策策略研究[D]. 2017(15):41-42.
[3]任紅格, 向迎帆, 李福進. 基于內在動機的智能機器人自主發育算法[J]. 計算機應用, 2015, 35(9):2602-2605.