999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

模糊學習算法機器人相互協作模型研究

2012-08-26 08:05:38吳永琢
制造業自動化 2012年18期
關鍵詞:規則動作策略

吳永琢

WU Yong-zhuo

(青島酒店管理職業技術學院,青島 266100)

0 引言

在多機器人系統中逐漸采用多智能體技術,例如足球機器人就是其典型。它要求在復雜環境下,實現機器人的控制和相互協作。行為學習能夠有效提高機器人的適應能力,傳統的方式得到的信號并不理想。決策體系結構是整個系統的關鍵,本文選擇了強化學習算法,同時引入了具有專家經驗的模糊推理來彌補Q學習收斂性較差的缺點。通過建立模糊規則庫,并且根據狀態和動作不斷調整Q學習參數,提高決策系統的自適應能力和速度。通過仿真實驗,證明模糊Q學習算法的效果。

1 決策結構模型

決策系統通過感知器接收視覺系統收集的賽場的綜合信息,并分析信息、建立規則庫、Q學習、決定策略,最后將它們發送給通信系統。機器人的決策系統結構如圖1所示,包括:模糊化模塊、模糊規則庫、Q學習單元、行為融合等。它主要負責決策進攻、防守,分析實時的現場環境、對方策略,利用模糊的Q學習算法對決策模塊進行優化,然后將指令發送給機器人,控制它們的行動方式是進攻或避障。

圖1 決策模型結構圖

2 Q學習算法

強化學習是一種機器學習方法,是從環境到行為的映射學習,在機器人、智能控制等領域有許多應用。強化學習通過動作-評價獲取知識,不斷改進方案來適應周圍環境。Q學習算法是強化學習中的一種,它和模型無關。

Q 學習方法的待學習目標函數用Q(s, a)表示,計算公式為:

其中0≤g≤1,r(s, a)表示立即回報,V×(s)是最優策略值。

在 Q學習中選擇動作采用概率方法,選擇動作ai的概率表示為:

將評估函數推導后得到:

進入老齡化社會以來,福利國家的經驗促使中國政府也認識到國家必須為日益增多的老年人提供適當的生活保障,承擔起必要的照顧和幫助老年人的責任。2000年開始采取一系列措施解決老年人的養老問題,其中最重要的就是調動和引導社會力量提供老年服務。而這個階段與改革開放初期福利化改革的根本區別在于強化國家責任和推進社會化進程的并行及有效平衡。養老服務業管理體制的核心是理順和規范政府和社會的關系,既要充分發揮政府的主導作用,又要充分發揮社會力量的主體作用;政府部門職責權限邊界明確,社會力量權利義務具體清晰。

當Agent 應用在空間連續的環境,Q學習算法在連續的狀態空間和動作空間的離散化, 效率低、收斂慢,因此本文提出基于模糊的Q學習算法來處理例如足球機器人比賽等多人相互協作的狀態。

3 模糊Q學習算法和實現

足球賽場情況瞬息萬變,因此狀態空間數據量龐大,用Q學習算法會需要比較長的學習過程,因此本文在Q學習算法上將其優化,通過建立一個模糊規則庫,將龐大的實際狀態轉化成為數不多的模糊狀態,大大降低了狀態空間數據的大小,從而提升學習速度。

3.1 算法設計

采用IF_THEN的模糊規則,在agent受到狀態向量x后,利用模糊推理方法計算輸出空間的每一分量權值:

mi(x)表示IF_THEN規則里x的隸屬度。動作選擇采用模糊推理的方法,實行利用策略。當動作由agent執行以后,環境會給agent提供獎懲信號。假設收到獎勵信號r,那么模糊規則的權值表示:

其中r表示受到的獎勵,wmax是wk的最大值,a'jk表示自適應學習率。

建立的模糊規則表如表1所示。

3.2 算法的執行

Q學習的過程為:

1)觀察目前的狀態s;

2)通過計算狀態被選中的概率,選擇確定并且執行一個動作a;

公式中,T表示溫度,其值的大小表示隨機程度,值越大表示隨機性就大。初始學習時,T值偏大,隨著學習的深入,T值就逐漸降低來保證學習的良好效果。

3)觀察下一個新狀態s';

4)從環境中收到一個回報、強化的信號r;

5)根據狀態和動作相應的調整Q值;

a表示狀態動作被選頻率,系數g=0.9。根據Q值來調整行為融合的加權值l。等到學習結束以后,l就按照貪婪策略來取值,Q值最大的就是對應l的加權值。

6)新狀態滿足條件,則結束本次學習;否則返回第2步執行。

4 仿真實驗及結果

該方法的實驗是在機器人足球仿真平臺Robot Soccer上。在實驗時的主要參數設為:學習率初始設為0.8,折扣因子0.9,選擇動作時按照隨機策略。

圖2 Q學習曲線圖

表1 模糊規則表

圖3 凈勝球統計對比圖

圖2表示的是機器人的進攻策略Q值,可以發現學習步數的增加,Q值迅速上升,到300步左右時,Q值就基本穩定在0.35。可見,模糊Q學習效果好、速度快。

接著分別采用傳統的經驗策略和模糊Q學習算法策略兩種方式進行凈勝球比賽統計,結果如圖3所示。

在圖3中進行了500場次的比賽,統計結果表明,傳統的按照專家經驗的凈勝球明顯沒有優勢和規律性,基本上在0上下震蕩。而模糊Q學習模型就呈上升趨勢,剛開始學習的階段,輸的比較多,沒有經驗的策略來得好。這說明系統還在學習,但隨著比賽場次的增加,Q學習的不斷改進開始逐漸顯示其優勢了,曲線明顯上升,凈勝球開始變成正值。到后來曲線走向開始變得平緩,是因為采用模糊Q學習方法后已經學到了比賽對方的大部分策略。實驗結果表明,模糊Q學習策略很有效。

5 結束語

多機器人相互協作問題是機器人技術中的重要課題,本人設計了一個決策系統模型,首先分析了傳統Q學習算法并指出其學習速度慢、收斂性差的不足,提出了模糊Q學習算法,建立了模糊規則庫,將眾多的實際狀態映射成不多的模糊狀態,減小了狀態空間又提高了速度;然后設計了算法的學習過程等;最后通過仿真平臺Robot Soccer將傳統的經驗策略和模糊Q學習策略比較,實驗結果表明模糊Q學習算法的速度比較快、效果更好。

[1]張汝波, 楊廣銘. Q學習及其在智能機器人局部路徑規劃中的應用研究[J]. 計算機研究與發展, 1999, 36(12):1430-1436.

[2]劉金餛. 機器人控制系統的設計與Matlab仿真[M]. 北京:清華大學出版社, 2008.

[3]vincente Feliu, Jose A.Somolinos, Andres Garcia.Inverse Dynamics Based ControI System for a Three-Degree-of-reedom Flexible Arm[J]. IEEE Trans.on Robotics and Auomation. 2003. 12(6): 1007-1014.

[4]Chang Deng. Meng Joo Er. Automatic generation of fuzzy inference systems by dynamic fuzzy Q-learning[C].Systems, Man and Cybernetics,2003. IEEE International Conference on, Volume:4, Oct. 5-8, 2003, 3206-321.

猜你喜歡
規則動作策略
撐竿跳規則的制定
數獨的規則和演變
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
畫動作
動作描寫不可少
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 白浆免费视频国产精品视频| 国产日韩欧美在线视频免费观看| 亚洲日韩第九十九页| 一区二区三区四区日韩| 都市激情亚洲综合久久| 亚洲第一极品精品无码| 国产精品刺激对白在线| 久久99国产视频| 浮力影院国产第一页| 国产毛片高清一级国语 | 热这里只有精品国产热门精品| 国产偷国产偷在线高清| 久久久精品无码一区二区三区| 色偷偷一区二区三区| 欧美日韩国产在线观看一区二区三区 | 99九九成人免费视频精品 | 亚洲日本在线免费观看| h网址在线观看| 国产制服丝袜无码视频| 午夜国产小视频| 亚洲色图欧美视频| 呦女亚洲一区精品| 青青草国产一区二区三区| 欧美一区二区福利视频| 欧美日韩福利| 久久香蕉国产线看观看亚洲片| 亚洲欧美国产高清va在线播放| a级毛片网| 91丝袜美腿高跟国产极品老师| 精品视频在线一区| 亚洲成网站| 夜色爽爽影院18禁妓女影院| 亚洲有无码中文网| 中文字幕免费播放| 思思99热精品在线| 免费看a级毛片| 中文一区二区视频| 国产a v无码专区亚洲av| 午夜欧美在线| 看国产一级毛片| 2020极品精品国产| 玖玖精品视频在线观看| 波多野结衣爽到高潮漏水大喷| 亚洲一欧洲中文字幕在线| 国产97视频在线| 成人中文在线| 国产超碰一区二区三区| 一级毛片在线播放免费| 国产96在线 | 伊人大杳蕉中文无码| 国产99精品视频| 一级毛片基地| 午夜国产精品视频| 精品视频一区在线观看| 国产99免费视频| 亚洲午夜福利精品无码| 美女无遮挡免费网站| 欧美色综合网站| 日韩大片免费观看视频播放| 热思思久久免费视频| 欧美五月婷婷| 国产乱子精品一区二区在线观看| 欧美中文字幕在线视频| 在线观看欧美精品二区| 韩国v欧美v亚洲v日本v| 中文字幕 91| 精品国产网| 国产一级视频久久| 日本日韩欧美| 亚洲一级毛片免费观看| 日本人又色又爽的视频| 污网站免费在线观看| 国产在线八区| 久久一日本道色综合久久| 18禁黄无遮挡免费动漫网站| 国产白浆在线| 亚洲愉拍一区二区精品| 狠狠色综合网| 777国产精品永久免费观看| 91久久青青草原精品国产| 91在线播放免费不卡无毒| 色综合五月|