999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的多機器人協作控制方法分析

2020-06-29 09:44:45王旭升
大眾科學·中旬 2020年6期

王旭升

摘要:機器人通過強化學習能夠和環境進行交互,并通過交互內容不斷對自身性能和工作方式進行改變,進而適應復雜條件的作業任務,已經成為了機器學習重要技術。但是強化學習的時間卻并不受到控制,并和機器人數量有著一定的關系,數量增多其交互更加復雜,這就給機器學習帶來了一定的難度。因此需要群體智能算法對多機器人協作控制提供更為優秀的改進,幫助機器人更好的完成群體任務。

關鍵詞:強化學習;多機器人;協作控制

前言

人工智能的發展使機器人能夠實現自主強化學習,但是在實際操作中,多機器人協作控制并不是特別容易實現,隨著機器人數量的增加,交互過程更急復雜,學習效率更為低下。這就導致機器人在行為上的不可預測性。蟻群算法則是可以通過尋找最優路徑的概率算法,可以被應用到增強學習中去。本文對基于強化學習的多機器人協作控制進行了簡單概述,提出了區別于傳統強化學習方案的算法,并結合仿真實驗結果,對相關技術特點進行了研究。提供了良好的解決方案。

1 基于強化學習的多機器人協作控制的簡單概述

機器人學的發展,使分布式人工智能和系統的研發工作成為了可能,這些機器人在實際工作中有著十分寬廣的使用領域,較為低廉的成本,在機器人研究中成為了熱點,但是由于受到技術條件的限制,在進行對機器人系統的研究中,個體機器人通過協作完成復雜條件下的工作任務,并通過學習對環境進行適應,還需要感知度環境的動態變化,提升任務處理能力。因此強化學習作為一種能夠不斷適應新情況的模式,能夠實現高度反應性和自適應性。從而對于機器人的工作能力有所提高。但是,在實際的將技術層面需要對多個機器人的協作能力進行調整,使其適應復雜的工作環境。單機器人的強化學習已經取得一定的成功。但是在向多機器人協作進行遷移的過程中,卻存在著諸多不可控因素,如出現新的交互,學習速度慢等,在實際應用中表現不盡如人意。而機器人足球,作為多機器人協作的重要組成部分,能夠為強化學習提供重要的實驗素材[1]。

2 多機器人合作學習研究

在進行機器人學習研究中,機器人數目一旦增多,對其學習決策行為的變化,也會有著不穩定因素。如在學習早期階段,機器人的動作都是隨機的,在機器人數目增多的過程中,其隨機性變化呈現指數級增加。因此這個階段的機器學習,存在著不可預知的后果,影響著機器學習成功性。針對如何決定機器人的學習次序,可以通過人工勢場法的方式引入學習優先級。在學習階段確定其中優先級較大部分進行學習,該機器人作為整個機器人團隊的核心成員,暫定為決策機器人。使其他機器人能夠按照上個周期學習過的策略進行動作學習。要求對已經學習過的動作進行執行學習策略。對應學習過的動作值為Q,然后進入下一個學習周期,之后的機器人可以采用同樣的方法進行學習,使其處于固有的學習策略的階段,并且由優先級排在后面的機器人完成相應的學習任務,對學習過程進行循環,直到完成相關學習。

在強化學習階段,需要每個機器人能夠根據對每個局部的感知,進行局部場勢的計算,結合LPL參數進行排序。并由LPL值最大的機器人根據學習算法,并首先對上個周期學習的策略進行學習。其他機器人隨后在此機器人的配合下,完成相應的學習狀態。并根據上個周期的策略進行執行下一個動作。機器人n對更新的策略進行動作反應,其他機器人也進行動作更新。依次進行重復,確保機器人的強化學習算法能夠更好的完成[2]。

3 仿真實驗

對機器人的動作效果進行評價,并設立短期獎勵函數,具體公式如下:

其中P指的是執行學習的機器人,s環境狀態用s表示,t表示學習時間,閾值C則展現對該函數的判斷家里效果。以足球機器人為例,如果進球則獎勵為1,丟球則標示為-1,如果在指定的時間內沒有獲得進球,則可以判定獎勵為0。取值范圍應在[-1,1]之間。本測試需要劃分機器人的活動場地,其中M代表了整支隊伍。

4 仿真結果分析

對測試文本算法進行校正,經過反復訓練和傳統的算法進行比較,其中在仿真訓練階段,進行了500場訓練,仿真周期為1500,每隔10場進行一次仿真訓練。并在學習訓練中,對比賽結果則需要由獨立訓練過程進行重組,如果比賽有一方結束進球,完成一次訓練周期。如規定時間內沒有進球,則判定為平局。在測試中,將機器人分成兩組進行訓練,其中一支為傳統學習算法。另一支則是以本算法進行仿真實驗。對比兩種算法,本算法學習效率等方面明顯優于傳統算法,在學習時間上以及學習效果上都得到較為良好的效果。這就說明了本算法能夠對輸入狀態空間進行改變,減少不必要的算法冗余,提升了機器人的學習速度[3]。

總結

總之,在進行多機器人協作研究中,通過以足球機器人研究發現,其中并不需要復雜的算法,只需要通過設置機器人學習的優先級,并以此為基礎進行依次學習,并配合蟻群算法,智能涌現等先進的技術,通過強化學習算法,對多機器人的協作能力給予一定的幫助,進而完成相關研究工作。為今后的多機器人協作提供算法支持。

參考文獻

[1]高慧. 基于強化學習的移動機器人路徑規劃研究[D]. 2016(22):52-53.

[2]丁明剛. 基于多智能體強化學習的足球機器人決策策略研究[D]. 2017(15):41-42.

[3]任紅格, 向迎帆, 李福進. 基于內在動機的智能機器人自主發育算法[J]. 計算機應用, 2015, 35(9):2602-2605.

主站蜘蛛池模板: 国产精品免费电影| 青草娱乐极品免费视频| 中文字幕无码av专区久久| 亚洲国产精品日韩欧美一区| 亚洲美女高潮久久久久久久| 91蜜芽尤物福利在线观看| 亚洲美女操| 欧美日韩91| 国产香蕉在线| 在线视频一区二区三区不卡| 久久国产高清视频| 亚洲三级a| 久青草网站| 色偷偷男人的天堂亚洲av| 国产欧美日韩va另类在线播放 | 久爱午夜精品免费视频| 亚洲国产看片基地久久1024| 国产欧美视频在线| 国产免费怡红院视频| 精品国产美女福到在线不卡f| 男女猛烈无遮挡午夜视频| 久久99精品国产麻豆宅宅| 国产午夜一级毛片| 午夜不卡视频| 久久国产乱子| a级毛片免费播放| 久久久久久久久18禁秘| 91系列在线观看| 亚洲国产中文欧美在线人成大黄瓜| 成人在线视频一区| 伊人天堂网| 四虎AV麻豆| 日韩小视频在线观看| 日韩一区二区三免费高清| 国产91特黄特色A级毛片| 日本国产精品| 久久99精品久久久久纯品| 亚洲精品桃花岛av在线| 人妻丰满熟妇av五码区| 国内精品免费| 亚洲性日韩精品一区二区| 亚洲视频在线观看免费视频| 国产自产视频一区二区三区| 99一级毛片| 中文字幕丝袜一区二区| 国产精鲁鲁网在线视频| 欧美激情首页| 日韩高清欧美| 超碰精品无码一区二区| 国产成年女人特黄特色毛片免| 欧洲欧美人成免费全部视频| 亚洲色欲色欲www在线观看| 一区二区三区毛片无码| 国产在线自揄拍揄视频网站| 秋霞一区二区三区| 国产尤物视频网址导航| 97se亚洲综合在线| 国产va免费精品| 精品小视频在线观看| 亚洲人成电影在线播放| 91日本在线观看亚洲精品| 亚洲色图欧美在线| 国产亚洲美日韩AV中文字幕无码成人| 一区二区欧美日韩高清免费 | 玖玖精品视频在线观看| 精品少妇人妻av无码久久| 日韩欧美亚洲国产成人综合| 国产亚洲视频中文字幕视频| 996免费视频国产在线播放| 国产欧美日韩18| 国产AV无码专区亚洲A∨毛片| 99热免费在线| 亚洲成AV人手机在线观看网站| 国产成人乱无码视频| 欧美高清国产| 伊人狠狠丁香婷婷综合色| 欧美国产菊爆免费观看| 女人毛片a级大学毛片免费 | 激情网址在线观看| 夜夜爽免费视频| 亚洲精品成人7777在线观看| 欧美不卡视频一区发布|