999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于滾動 Q 學習的機器人路徑規(guī)劃算法

2019-12-20 03:02:11張婷宇鄭寶娟
科教導刊·電子版 2019年29期

張婷宇 鄭寶娟

摘 要 采用滾動Q學習的方法解決大規(guī)模環(huán)境下機器人視野域范圍有限,同時有效改善因 Q 學習的狀態(tài)空間增大而產(chǎn)生的維數(shù)災難等問題。仿真實驗結果表明,應用該算法機器人可在復雜的未知環(huán)境中快速地規(guī)劃出一條從起點到終點的優(yōu)化避障路徑, 效果令人滿意。

關鍵詞 路徑規(guī)劃 滾動學習 Q學習 智能算法

中圖分類號:TP242文獻標識碼:A

0引言

目前,大多數(shù)自主移動機器人均是在高度結構化的環(huán)境中執(zhí)行預先規(guī)定的動作序列,但在新的環(huán)境下或遇到意外情況時,卻不能很好地完成指定任務,其主要原因是當機器人面對非結構化且存在不確定性的實際環(huán)境時沒有主動學習和自適應的能力。自適應路徑規(guī)劃可以部分解決這一問題,即機器人在與環(huán)境的不斷交互過程中,規(guī)劃出一條從指定的起始點到目標點,并且滿足一定優(yōu)化標準的、安全避障的路徑。該算法是機器人應用研究的一個重要方面,屬于NP-hard問題。針對上述研究現(xiàn)狀及不足,本文提出了滾動Q學習機器人路徑規(guī)劃算法,以滾動學習算法來解決Q學習可能發(fā)生的維數(shù)災難問題。

1基于滾動的 Q 學習算法

算法的基本思想是充分利用機器人實時探測到的局部環(huán)境信息,以滾動方式分別在各個規(guī)模較小的視野域內進行 Q 學習,并得到一條該視野域內的局部最優(yōu)路徑。機器人沿該路徑前進一段距離后 (該距離長度記為 ),在新的視野域內重新獲取動作-狀態(tài)對進行 Q 學習, 并規(guī)劃當前路徑。這樣,在一條條局部最優(yōu)路徑的導航下,機器人最終沿著一條全局優(yōu)化的避碰路徑到達終點。

在視野域內障礙物較少時,機器人走1/3長的局部路徑后才在新的視野域內繼續(xù)規(guī)劃新路徑;在障礙較多時,每走2步再重新規(guī)劃新路徑;只有在障礙物很多時,機器人走1步后即重新規(guī)劃。 的取值很難有一個嚴格的最優(yōu)界定,它只能是根據(jù)實驗結果抽象出比較保守的值,其取值原則是必須能保證各個局部路徑疊加后仍能使全局路徑最優(yōu)或近似最優(yōu)。此外,算法得到的路徑是否近似最優(yōu),會受到視野域尺寸大小的影響。若將視野域半徑設置過小,則機器人獲得的環(huán)境信息將過于局部化,規(guī)劃過程容易陷入局部最小;若將視野域半徑設置過大,則又使狀態(tài)-動作對大增,降低算法的收斂速度。因此本實驗中對于算法中的視野域半徑參數(shù)是根據(jù)大量實驗的經(jīng)驗來設定的。大量的實驗結果表明,一般視野域半徑范圍取整個工作環(huán)境半徑的 1/10 左右為適。

Step 1:設置起點gstart和終點gend,并初始化工作環(huán)境WS,機器人的視野半徑r,以及保守閾值n1和n2;

Step 2:若機器人在當前視野域內探測到gend,則用新算法規(guī)劃出一條從機器人當前位置到gend的優(yōu)化路徑,規(guī)劃算法終止;

Step 3:產(chǎn)生gsub,機器人以PR為出發(fā)點,gsub為終點,用滾動Q學習算法規(guī)劃出一條局部優(yōu)化路徑,并記錄下該路徑長度local_pathlen;

Step 4:計算Pobstacle、 ,機器人沿局部規(guī)劃路徑行進;

Step 5:根據(jù)機器人當前位置PR和視野半徑r更新視野域,并對視野域內環(huán)境作柵格化處理,轉至Step 2。

2仿真實驗

通過仿真實驗來驗證本文提出算法的有效性和先進性。實驗環(huán)境為 Windows XP, Intel(R) Core(TM)2Duo CPU T6400 2.00 GHz, 2G 內存,編譯工具為VC++6.0。

為了驗證在較大規(guī)模環(huán)境下全局滾動 Q 學習算法的效果,在 50 ?50 的未知環(huán)境下做了大量的實驗,效果令人滿意。以半徑為r = 5的機器人為例,即 實時地進行動態(tài)調整。根據(jù)大量實驗總結的經(jīng)驗,設置 n1= 0.3,n2= 0.7。在第1個視野域內,機器人用滾動算法規(guī)劃出一條局部路徑記為 l1,并計算出 Pobstacle= 0.25 < n1,所以機器人將 設為l1長度的1 /3 (即 = 3);然后沿l1前進3步后,再根據(jù)新的 視野域重新映射子目標并規(guī)劃路徑,重新計算 ;重復上述過程;直到探測到 gend并規(guī)劃完最后一段路徑為止。

3結論

在未知環(huán)境下采用標準的Q學習算法進行機器人路徑規(guī)劃時,由于缺乏對環(huán)境的先驗知識,使得算法速度緩慢,特別是隨著環(huán)境規(guī)模增大,學習狀態(tài)空間增大,甚至會發(fā)生維數(shù)災難。為此,本文提出了滾動Q學習算法,該算法在未知較大規(guī)模環(huán)境下進行滾動學習,采取這些措施后,大幅提高了算法的收斂速度和環(huán)境適應能力。仿真實驗結果表明該算法的效果令人滿意,具有算法簡單、速度快、環(huán)境適應性強等特點。特別是當機器人對復雜環(huán)境中障礙物信息一無所知以及環(huán)境規(guī)模較大時,更能體現(xiàn)該算法的優(yōu)越性。該算法具有自學習和自適應能力,是一種很有發(fā)展前景的算法。

參考文獻

[1] Ahuh,D,J&J.H.Park.Path planning and navigationfor autonomous mobile robot[C].IEEE 28th the AnnualConf of the Industrial Electronics Society. Seville: IEEEPress,2002:1538-1542.

[2] Vladimiro Miranda, Nuno Fonseca. EPSO-evolutionaryparticle swarm optimization, a new algorithm withapplication in power systems[C]. Transmission andDistributionConf and Exhibition.Yokohama,2002:745-750.

[3] 宋清昆,胡子嬰.基于經(jīng)驗知識的 Q-學習算法[J].自動化技術與應用,2006,25(11):10-12.

主站蜘蛛池模板: 中文字幕久久波多野结衣| h视频在线播放| 欧美亚洲欧美| 毛片免费在线| 亚洲久悠悠色悠在线播放| 免费人成视网站在线不卡| 日本在线亚洲| 日本尹人综合香蕉在线观看| 国产在线视频欧美亚综合| 亚洲人成成无码网WWW| Jizz国产色系免费| 无码啪啪精品天堂浪潮av| 亚洲乱亚洲乱妇24p| 亚洲AV色香蕉一区二区| 中文字幕啪啪| 最新国产午夜精品视频成人| 91精品综合| 亚洲欧洲日韩综合色天使| 久久久久国产精品嫩草影院| 爆乳熟妇一区二区三区| 乱人伦中文视频在线观看免费| 亚洲高清资源| 伊人天堂网| 成人av手机在线观看| 国产精品午夜电影| 手机精品福利在线观看| 精品剧情v国产在线观看| 国产成熟女人性满足视频| 毛片免费试看| 久久人搡人人玩人妻精品| 日本亚洲成高清一区二区三区| 国产三区二区| 伊大人香蕉久久网欧美| 亚洲国产欧美中日韩成人综合视频| 国产91丝袜| 午夜电影在线观看国产1区| 国产一区二区三区精品欧美日韩| 国模极品一区二区三区| 国产在线精彩视频二区| 天堂在线www网亚洲| 国产一级裸网站| 在线无码九区| 久久国产亚洲偷自| 2020久久国产综合精品swag| 在线观看91香蕉国产免费| 国产精品伦视频观看免费| 99九九成人免费视频精品 | 亚洲视频一区在线| 久久亚洲精少妇毛片午夜无码| 毛片视频网址| 欧美黄网站免费观看| 国产91线观看| 99久久精品免费看国产电影| 亚洲一道AV无码午夜福利| 日本伊人色综合网| 欧美精品xx| 成人精品在线观看| 午夜一区二区三区| 精品成人一区二区| 91精品亚洲| 亚洲综合九九| 中文字幕永久视频| 国产精品深爱在线| 中文字幕丝袜一区二区| 久久96热在精品国产高清| 久久男人资源站| 婷婷色婷婷| 久久精品人人做人人综合试看| 国产91透明丝袜美腿在线| 综合亚洲网| 久久青草视频| 九月婷婷亚洲综合在线| 中文字幕 91| 精品视频第一页| 欧美成人第一页| 精品国产毛片| 国产内射在线观看| 国产一区二区人大臿蕉香蕉| 国产导航在线| 国产高清在线精品一区二区三区| 亚洲二区视频| 第一区免费在线观看|