999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

動態(tài)不確定環(huán)境下一種移動 機器人路徑規(guī)劃方法

2010-05-26 10:48:32
電氣技術(shù) 2010年1期
關(guān)鍵詞:移動機器人分配環(huán)境

王 帥

(煤炭科學(xué)研究總院沈陽研究院,遼寧 撫順 113001)

1 引言

動態(tài)不確定環(huán)境下的路徑規(guī)劃是移動機器人研究的一個重要問題,一直是一個沒能妥善解決的難題。所謂動態(tài)不確定環(huán)境,是指移動機器人只能通過傳感器探測其周圍有限范圍內(nèi)的環(huán)境信息,或者雖然有前驗的全局環(huán)境信息,但環(huán)境中的障礙物是動態(tài)變化的。在這種不確定環(huán)境下,移動機器人的路徑規(guī)劃大都采用局部路徑規(guī)劃方法,又稱動態(tài)或在線路徑規(guī)劃。

局部路徑規(guī)劃方法主要有:人工勢場法[1]、遺傳算法[2]和模糊邏輯算法[3]等。人工勢場法結(jié)構(gòu)簡單,存在局部極小值問題和抖動問題。遺傳算法使用點群進行尋優(yōu),在種群數(shù)目有限,計算量不大的情況下可以滿足實時性的要求。模糊邏輯算法的實時性很好,但是人的經(jīng)驗不一定完備,當(dāng)輸入量增多時,推理規(guī)則或模糊表會急劇膨脹。此外還有適用于環(huán)境信息完全未知時的滾動窗口法[4],有效地解決了動態(tài)障礙物環(huán)境下的機器人運動過程中的避障問題,該方法對障礙物的大小和形狀有一定限制。

環(huán)境是動態(tài)變化的,路徑規(guī)劃方法一定要有學(xué)習(xí)的能力才能適應(yīng)環(huán)境變化,提高移動機器人的自適應(yīng)性和智能性。強化學(xué)習(xí)[5]是一種無監(jiān)督的在線學(xué)習(xí)方法,由于其不需要知道環(huán)境精確模型,具有實時性和自適應(yīng)性,因而適應(yīng)解決動態(tài)環(huán)境下的移動機器人路徑規(guī)劃問題。采用強化學(xué)習(xí)算法中的Sarsa學(xué)習(xí)算法來實現(xiàn)移動機器人在動態(tài)未知環(huán)境下的路徑規(guī)劃。Sarsa算法適應(yīng)動態(tài)環(huán)境下的學(xué)習(xí),但其學(xué)習(xí)速度較慢,基于上述考慮,在Sarsa算法的基礎(chǔ)上,引入信度分配函數(shù),提出了信度分配Sarsa算法(Credit Assignment Sarsa,CAS),提高算法的學(xué)習(xí)速度和自適應(yīng)能力,可以在動態(tài)不確定環(huán)境下快速有效地實現(xiàn)路徑規(guī)劃。

2 信度分配Sarsa(CAS)學(xué)習(xí)算法

2.1 Sarsa學(xué)習(xí)算法

Sarsa算法是Rummery和Niranjan在1994年提出的[6],最初被稱為改進的Q-learning算法,它仍然采用Q值迭代,Sarsa算法通過反復(fù)的實驗去學(xué)習(xí)狀態(tài)動作對的值函數(shù),一步Sarsa算法可用下式表示

Sarsa與Q-learning的最大差別在于Q-learning采用的是值函數(shù)的最大值進行迭代,而Sarsa采用的是實際的Q值進行迭代,此外,Sarsa學(xué)習(xí)在每個學(xué)習(xí)步,智能體依據(jù)當(dāng)前Q值確定下一狀態(tài)時的動作,而Q-learning依據(jù)修改后的Q值確定動作,因此Sarsa是一種在策略TD學(xué)習(xí)。

2.2 信度分配Sarsa(CAS)學(xué)習(xí)算法

為了提高智能體強化學(xué)習(xí)的效率和速度,在Sarsa算法中引入信度分配函數(shù)[7],信度分配函用來在各行動規(guī)則之間分配報酬,在此算法中,在智能體每次學(xué)習(xí)中把強化信號分配到為達到某些狀態(tài)所采取的每一步行動上,根據(jù)到目標(biāo)的距離不同,而分配不同的報酬,信度分配函數(shù)的原理如圖1所示。

圖1 信度分配函數(shù)示意圖

引入信度分配函數(shù)后的Sarsa算法(CAS)的Q值更新規(guī)則如下:

當(dāng)智能體在某一時間段T內(nèi)經(jīng)歷多步動作后,智能體獲得強化信號為R,通過下式來重新修改Q值表:

可以保證此學(xué)習(xí)算法的收斂。

3 基于CAS學(xué)習(xí)算法的路徑規(guī)劃

采用CAS算法實現(xiàn)在動態(tài)環(huán)境下的移動機器人路徑規(guī)劃。強化信號是對學(xué)習(xí)系統(tǒng)性能的一種評價,用于改善系統(tǒng)的性能。在動態(tài)環(huán)境下的路徑規(guī)劃的學(xué)習(xí)中,其目的就是使移動機器人避開動靜態(tài)障礙物,并以盡可能少的步數(shù)到達目標(biāo)點。CAS算法的核心就是利用Sarsa算法適應(yīng)動態(tài)環(huán)境下學(xué)習(xí)的特性,并引入信度分配函數(shù)把強化信號分配給機器人為達到某些狀態(tài)所采取的每一步行動上,根據(jù)到目標(biāo)的距離不同分配不同的強化信號,來修改Q值,進而修改動作選擇策略,實現(xiàn)路徑規(guī)劃。將移動機器人的行為分為4種:到達目標(biāo)點,漫游尋找目標(biāo)點,動態(tài)障礙物避障,靜態(tài)障礙物避障。在學(xué)習(xí)過程中,考慮動作對這4種行為的影響,使這4種行為互相協(xié)調(diào)融合。

3.1 學(xué)習(xí)系統(tǒng)對環(huán)境的感知

為了實時而準(zhǔn)確獲得機器人所處環(huán)境的信息,解決靜態(tài)障礙物和動態(tài)障礙物的避障問題,機器人必須通過一定數(shù)量的傳感器來感知局部環(huán)境。假定機器人配置有8個測距傳感器,傳感器分別探測8個不同的方向,這8個方向平分圓周,同時機器人還有1個可以進行360度感知動態(tài)障礙物的圖像傳感器。根據(jù)機器人動態(tài)路徑規(guī)劃特點,假定機器人在任何時刻都能通過這些傳感器感知8個方向上一定距離之內(nèi)是否存在動態(tài)或靜態(tài)的障礙物,可以通過傳感信息測定機器人與動態(tài)和靜態(tài)障礙物之間的距離、動態(tài)障礙物的運動速度和運動方向,并假定機器人與動靜態(tài)障礙物之間的安全距離為D,當(dāng)距離小于D時,則會發(fā)生碰撞。

3.2 學(xué)習(xí)系統(tǒng)的狀態(tài)空間和動作空間

環(huán)境狀態(tài)用動態(tài)環(huán)境中各物體的位置坐標(biāo)、速度大小和運動方向等參數(shù)來描述。這里機器人所處環(huán)境的狀態(tài)空間可以表示為S={sid ,ad,av,aθ}。

機器人的動作空間為在傳感器所指的8個方向上{N,S,W,E,NE,SE,NW,SW}前進一定的距離。

3.3 基于CAS學(xué)習(xí)算法的路徑規(guī)劃算法流程

step1:任意初始化 (,)Qsa;

step2:初始化環(huán)境狀態(tài)s;

step3:獲得此時環(huán)境狀態(tài) ts;

step4:根據(jù)Q值表和貪婪策略,獲得機器人在ts時的動作 ta;

step5:執(zhí)行動作 ta,獲得下一個狀態(tài) 1ts+;

step6:根據(jù)Q值表和貪婪策略,選擇動作 1ta+;

step8:收到強化信號R,按時間信度分配策略分配強化信號 (,)fRt,重新更新Q值表:

①如果步數(shù)過界,總步數(shù)加1,回到初始位置,轉(zhuǎn)step9;②如果到達目標(biāo)點,回到初始位置,成功幕數(shù)加1,總步數(shù)加1,轉(zhuǎn)step9,否則轉(zhuǎn)step2。

step9:如果學(xué)習(xí)滿足預(yù)定的結(jié)束條件,學(xué)習(xí)結(jié)束,否則轉(zhuǎn)step2。

機器人在動態(tài)未知環(huán)境中通過傳感器感知局部環(huán)境信息,做出判斷并執(zhí)行動作,環(huán)境給出即時強化信號,機器人根據(jù)強化信號來調(diào)整動作。在每個時間段,信度分配函數(shù)重新分配獎懲的強化信號給這一時間段內(nèi)所采取的每一步行動上,因為這每一步動作都對最終結(jié)果的產(chǎn)生負有責(zé)任。當(dāng)機器人碰撞到障礙物后不返回初始點,在原地尋找其他可行路徑,保證能夠?qū)ふ业侥繕?biāo)點。一個學(xué)習(xí)周期是由若干個學(xué)習(xí)步驟組成的序列,當(dāng)滿足:①到達目標(biāo)②達到預(yù)定最大步數(shù)兩個條件中的任何一個時,結(jié)束一個周期的學(xué)習(xí),如此反復(fù)直到規(guī)劃出最優(yōu)路徑。

4 仿真實驗及結(jié)果分析

在仿真試驗中,移動機器人工作空間為離散化的柵格,每個柵格代表機器人的一種狀態(tài)。在其中設(shè)置靜態(tài)和動態(tài)的障礙物。系統(tǒng)的任務(wù)是從任何一個初始位置開始以盡可能少的步數(shù)到達目標(biāo)位置,并且不能和動靜態(tài)的障礙物發(fā)生碰撞,做如下假設(shè):

(1)移動機器人在二維空間內(nèi)運動。

(2)機器人可以通過傳感器系統(tǒng)探測周圍一定范圍內(nèi)的環(huán)境。

(3)機器人把除了目標(biāo)點外所有被觀測到的對象當(dāng)作障礙物。

(4)機器人事先不知道動態(tài)障礙物的運動特性。

仿真場景如圖2所示,環(huán)境為20×20的柵格。仿真場景中的黑色區(qū)域為靜態(tài)障礙物,其中十字型黑色區(qū)域為動態(tài)隨機運動的障礙物,其在一定區(qū)域內(nèi)在前后左右4個方向上隨機運動,速度恒定且小于機器人運動速度,即環(huán)境是動態(tài)的。S點為初始點,G為目標(biāo)點,其每次走過的軌跡被顯示出來,每個柵格對應(yīng)于機器人走過的每一步。環(huán)境中的目標(biāo)是靜態(tài)的,對于移動機器人而言,環(huán)境(即障礙物、邊界以及目標(biāo)的位置)是未知的。以機器人為中心的二維空間內(nèi)平均分布8個運動方向,代表它的8個可選動作。

圖2 仿真場景

對于機器人的學(xué)習(xí)系統(tǒng)來說,學(xué)習(xí)的目標(biāo)有3個:成功避開靜態(tài)障礙物,成功避開動態(tài)障礙物,以最少步數(shù)到達目標(biāo)點。因此機器人強化信號包括三個方面:sR={-10,20,-100,0},對應(yīng)條件為{接近靜態(tài)障礙物,遠離靜態(tài)障礙物,與靜態(tài)障礙物碰撞,其他};gR={100,0},對應(yīng)條件為{到達目標(biāo)點,漫游尋找目標(biāo)點};aR={-10,20,-100,0},對應(yīng)條件為{接近動態(tài)障礙物,遠離動態(tài)障礙物,與動態(tài)障礙物碰撞,其他}。

在仿真中取α=0.01,γ=0.95,β=0.4,K=2。仿真結(jié)果如圖3和4示,可以看出Sarsa算法和CAS算法在動態(tài)環(huán)境下都能學(xué)習(xí)到無避碰的成功步數(shù)最少的路徑,Sarsa算法的學(xué)習(xí)速度較慢,而CAS算法學(xué)習(xí)速度明顯優(yōu)于Sarsa算法的學(xué)習(xí)速度。成功步數(shù)最后在23步和24步兩個值之間交替變化,這體現(xiàn)出動態(tài)障礙物對學(xué)習(xí)算法的影響。如果環(huán)境是靜態(tài)的,最優(yōu)步數(shù)應(yīng)是23步,由于動態(tài)障礙物的隨機運動,其在某一時刻會阻擋機器人沿著23步最短路徑移動,此時機器人就會尋找到其他的無碰撞的最短路徑,這就是步數(shù)為24步的路徑,這條路徑也是當(dāng)前環(huán)境狀態(tài)下最優(yōu)的,隨著環(huán)境的不同可選擇的其他路徑數(shù)目也會不同。

圖3 Sarsa算法成功步數(shù)曲線

圖4 CAS算法成功步數(shù)曲線

成功幕數(shù)(episode)是指移動機器人從初始位置開始,通過學(xué)習(xí)成功到達目標(biāo)點的一個學(xué)習(xí)周期,成功步數(shù)是指每一幕中機器人成功學(xué)習(xí)的步數(shù),成功步數(shù)越少,說明機器人的行動策略越來越優(yōu),路徑規(guī)劃的效率也越來越高。隨著學(xué)習(xí)的不斷進行,機器人對動態(tài)環(huán)境逐漸適應(yīng),機器人的行動越來越有效率,避障能力越來越高,成功幕數(shù)快速增加,每次成功學(xué)習(xí)步數(shù)呈減小趨勢,最終學(xué)習(xí)到最優(yōu)路徑,這個路徑能保證機器人從初始點任一時刻出發(fā)都能避開動靜態(tài)的障礙物,并在當(dāng)前環(huán)境下以最少的步數(shù)到達目標(biāo)點。大量仿真實驗都表明,當(dāng)環(huán)境變得較為復(fù)雜時,CAS算法的規(guī)劃效果也很好,這說明算法的自適應(yīng)性較強。

5 結(jié)論

本文提出了一種基于信度分配的Sarsa學(xué)習(xí)算法。通過信度分配函數(shù)的引入來有效分配強化信號,進而修正動作選擇策略,有效地提高了Sarsa算法的學(xué)習(xí)效率和速度,節(jié)省了學(xué)習(xí)時間,實現(xiàn)了在動態(tài)不確定環(huán)境下的移動機器人路徑規(guī)劃,仿真試驗說明該方法的有效性和可行性。接下來的主要工作是如何在環(huán)境特別復(fù)雜、路徑規(guī)劃的學(xué)習(xí)空間很大情況下,有效提高算法的學(xué)習(xí)效率和收斂速度。

[1] Khatib O.Real-time obstacle avoidance for manipulators and mobile robot [J].The International Journal of Robotic Research,1986,5(1):90-98.

[2] M Gemeinder,M Gerke.GA-based Path Planning for Robot System Employing an Active Search Algorithm [J].Applied Soft Computing,2003(3):149-158.

[3] 莊曉東,孟慶春,殷波等.動態(tài)環(huán)境中基于模糊概念的機器人路徑搜索方法[J].機器人,2001,23(5):397-399.

[4] 張純剛,席裕庚.動態(tài)未知環(huán)境中移動機器人的滾動路徑規(guī)劃及安全性分析[J].控制理論與應(yīng)用,2003,20 (1):37-44.

[5] Sutton R S,Barto A G.Reinforcement Learning:An Introduction [M].Cambridge,MA:MIT Press,1998.

[6] Rummery G,Niranjan M.On-line Q-learning using connectionist system.Technical Report CUED/FINFENG/ T-R166,Cambridge University EngineerIng Department,1994.

[7] 吳繼偉,蕭蘊詩,許維勝.基于信度分配的Agent強化學(xué)習(xí)算法[J].同濟大學(xué)學(xué)報,2003,31(8):947-950.

[8] Miyazaki K,Yamamura M,Kobayashi S.On the rationality of profit sharing in reinforcement learning [A].Proc of the 3rd International Conference on Fuzzy Logic Neural Net and Soft computing,1994:285-288.

猜你喜歡
移動機器人分配環(huán)境
移動機器人自主動態(tài)避障方法
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
應(yīng)答器THR和TFFR分配及SIL等級探討
孕期遠離容易致畸的環(huán)境
遺產(chǎn)的分配
一種分配十分不均的財富
環(huán)境
績效考核分配的實踐與思考
基于Twincat的移動機器人制孔系統(tǒng)
主站蜘蛛池模板: 国产乱子伦无码精品小说| 免费a在线观看播放| 国产欧美日韩综合在线第一| 波多野结衣一区二区三视频 | 亚洲精品无码抽插日韩| 欧美无专区| 国产女人在线视频| 国产人免费人成免费视频| 一区二区偷拍美女撒尿视频| 国产人成在线观看| 天堂网亚洲系列亚洲系列| 国产打屁股免费区网站| 丁香五月婷婷激情基地| 91黄色在线观看| 无码中文字幕精品推荐| 婷婷色丁香综合激情| 五月天久久综合| 91久久精品国产| 日韩国产一区二区三区无码| 亚洲V日韩V无码一区二区 | 国产精品一老牛影视频| 波多野结衣久久精品| 无码高潮喷水专区久久| 久久性妇女精品免费| 国产欧美成人不卡视频| 2020精品极品国产色在线观看 | 日本一区中文字幕最新在线| 老色鬼欧美精品| 亚洲美女高潮久久久久久久| 91精品国产自产在线老师啪l| 青青草国产免费国产| 亚洲AV人人澡人人双人| 欧美一级99在线观看国产| 国产在线91在线电影| 夜夜操国产| 国产美女叼嘿视频免费看| 国产激爽爽爽大片在线观看| 国产精品污视频| 免费网站成人亚洲| 99精品在线看| 真实国产乱子伦高清| 亚洲精品色AV无码看| 在线免费看片a| 国产精品大尺度尺度视频| 亚洲中文字幕97久久精品少妇| 国产一区二区三区在线观看视频| 中文字幕乱码中文乱码51精品| 国内精品一区二区在线观看| 成人亚洲天堂| 人妻无码AⅤ中文字| 岛国精品一区免费视频在线观看 | 国产农村精品一级毛片视频| 日韩欧美国产中文| 91精品啪在线观看国产| 二级特黄绝大片免费视频大片| 国产精品亚洲片在线va| 亚洲第一网站男人都懂| 亚洲成A人V欧美综合天堂| 少妇人妻无码首页| 国产乱论视频| 欧美日韩午夜| 欧洲高清无码在线| 欧美有码在线观看| 精品视频福利| 最新亚洲人成网站在线观看| 婷婷伊人久久| 久久夜色撩人精品国产| 欧美性猛交一区二区三区| 国产精品私拍在线爆乳| 国产精品成人不卡在线观看 | 亚洲人精品亚洲人成在线| 伊人精品视频免费在线| 久久无码免费束人妻| 久久99这里精品8国产| 国产午夜福利在线小视频| 免费中文字幕一级毛片| 国产精品大白天新婚身材| 国产激情无码一区二区APP| 青草视频在线观看国产| 亚洲精品日产AⅤ| 欧类av怡春院| 国产迷奸在线看|