999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進Q-learning 算法的移動機器人路徑規劃

2024-04-16 12:18:52井征淼劉宏杰周永錄
火力與指揮控制 2024年3期
關鍵詞:移動機器人規劃

井征淼,劉宏杰,周永錄

(云南大學信息學院,昆明 650504)

0 引言

隨著計算機技術的高速發展,人工智能應用在近年來已成為研究熱點,而其中備受關注的就是移動機器人應用。在對移動機器人的研究里,路徑規劃是極其重要的核心部分,能夠直接反映出移動機器人的智能程度[1]。路徑規劃是指在給定的區域范圍內,讓移動機器人在不碰到障礙物的情況下,發現起點與終點之間的一條無碰撞的通路[2]。根據障礙物的類別,可將其分為靜態障礙物與動態障礙物,本文將重點探尋靜態障礙物環境下移動機器人的路徑規劃問題。

現今的路徑規劃算法按照特點可以分為基于傳統方式的方法和基于人工智能的方法,基于傳統方式的方法包括A*算法、遺傳算法、粒子群算法、人工勢場法等,基于人工智能的方法包括Q-learning 算法、Sarsa 算法等[3-5]。作為機器學習算法的分支,Q-learning 算法在移動機器人路徑規劃領域有了十分顯著的成果[6,10],但是該算法在應用中仍然存在許多問題,如算法收斂速度慢、學習時間長、花費代價高等。因此,如何解決這些問題,是當前人工智能領域里學者重點關注的內容。徐曉蘇等在Q 值初始化的過程中引入了人工勢場法中的引力勢場,從而使收斂速度加快,再通過在狀態集中增加了方向因素,使規劃路線的精度得以提高[6]。楊秀霞等在環境建模時設置每個階段的搜索步長,設置獎勵池與獎勵閾值,使路徑規劃為全局最優路徑[7]。毛國君等引入了動態搜索因子,根據環境的反饋來動態調整貪婪因子,降低了算法搜索代價[8]。王付宇等利用螢火蟲算法初始化Q 值,設計了貪婪搜索和玻爾茲曼搜索結合的混合選擇搜索,使算法學習時間減少,且在路徑平滑度等方面有了進一步提升[9]。由此可見,雖然Q-learning 算法在路徑規劃領域已研究許久,但如何加快收斂速度、減少學習時間、降低花費代價等依然是目前移動機器人路徑規劃研究的重點和熱點問題[10-11]。

1 Q-learning 算法

作為機器學習領域的一種極其重要的學習方法,強化學習在移動機器人進行路徑規劃的領域受到了更多的關注和應用[12],主要是針對機器人進行的研究,以解決機器人在環境中不斷學習后,能得出一個合理決策,即獲得最大獎勵的問題。

1.1 馬爾科夫決策過程

馬爾科夫決策過程多數應用于一定量的動作和不同模式的決策分析模型中,MDP 模型即具有決策狀態的馬爾可夫獎勵過程。而馬爾可夫決策過程定義為MDP={S,A,P,R,γ},其中:S 為所用可行狀態的空間,A 為所有可行動作的空間,P 為預判可能動作的概率矩陣,R 為獲得的正負向獎勵,γ 為折扣系數。馬爾可夫屬性表示下一狀態的內容只取決于當前狀態的決策而不受之前狀態決策的影響。

1.2 傳統Q-learning 算法

Q-learning 算法是強化學習中較為經典的算法之一,其特性是value-based 的算法,也是一種時間差分更新方法[5]。它的基本內容包括機器人、動作、狀態、獎勵、環境。Q-learning 算法將機器人與環境之間的交互過程看成是一個馬爾科夫決策過程。Q-learning 的學習過程為:機器人在當前狀態s 下,選擇某一策略進行動作的選擇,該策略通常為ε-greedy 策略,在可行動作空間中選擇動作a 去執行,再根據此動作后獲得的獎勵以及新狀態s'對Q表進行更新,更新公式為:

式中,α 表示學習率,γ 表示折扣系數,α 與γ 的取值范圍在(0,1)之間。ε-greedy 策略是一種貪心選擇策略,ε 表示貪心度,取值范圍在(0,1)之間,表示系統有ε 的概率在可行動作空間中選擇Q 值最大的動作執行,有1-ε 的概率在可行動作空間內任意地選擇一個動作執行。

2 人工勢場法

人工勢場法的基本原理為構造出一個虛擬的類似于物理學中電磁場的一個勢場[13],該勢場包括兩部分:1)在障礙物附近構造斥力勢場,2)在目標點附近構建引力勢場,而機器人則在這兩種勢場作用下去探索一條無碰撞的運動路徑。

2.1 引力函數

引力場應滿足隨著距離目標點越近而呈現單調遞增的性質。

2.2 斥力函數

斥力場應滿足隨著距離障礙物越遠而呈現單調遞減的性質。

式中,η 為斥力增益系數,ρ(q-q0)表示當前點和機器人附件障礙物區域中離機器人較近的點q0之間的距離,ρ0表示在機器人周圍障礙物區域對機器人產生的最大距離。

3 改進Q-learning 算法

傳統的Q-learning 算法對于在柵格地圖中的路徑規劃是把每一個柵格歸于可行狀態空間中,每個狀態的可行動作空間為上、下、左、右,并且每個動作的步長為一個柵格的大小。其在柵格地圖路徑規劃中存在收斂速度慢、花費代價高、運行時間長的缺陷。

針對這些缺陷,本文在傳統Q-learning 算法的基礎上結合人工勢場法對其進行了一些改進,主要思想是引入人工勢場法的引力函數與斥力函數。首先用引力函數對獎勵函數進行改進,從而起到啟發式作用,明確機器人前進的方向。其次用斥力函數創造一個值對Q 表的更新公式進行改進,使機器人運動時會選擇向離障礙物更遠的位置移動。

3.1 動態選擇獎勵值

檢查目前狀態是否為終點狀態或障礙物狀態,若為否,則計算目前狀態的引力函數Uatt與前一狀態的引力函數Uatt',判斷Uatt、Uatt'之間的大小關系,如果目前狀態的引力函數大于前一狀態的引力函數,說明移動機器人在進行狀態改變之后距離終點狀態越來越遠。根據目前狀態的引力函數與前一狀態的引力函數的對比,動態地選擇獎勵值,這就使移動機器人在前進時可以保持向終點方向,達到具有目的性地去選擇下一個狀態的位置,從而避免了盲目地去探索每個位置。為使機器人能盡快學會避開障礙物和到達終點,故對到達終點取較高獎勵值,對到達障礙物取較低獎勵值。根據上述的獎勵值函數為:

3.2 計算值后更新Q 值

檢查目前狀態是否為終點狀態或障礙物狀態,若為否,則計算目前狀態的斥力函數Urep與前一狀態的斥力函數Urep',判斷Urep、Urep'的大小關系以及目前狀態的斥力函數是否大于設定值1,如果當前狀態的斥力函數大于前一狀態的斥力函數,說明移動機器人在進行狀態改變之后距離障礙物越來越遠。而目前狀態的斥力函數小于1,則表示移動機器人的位置距離障礙物較遠,值較小,可以忽略不計。所以當目前狀態的斥力函數大于前一狀態的斥力函數,且目前狀態的斥力函數大于設定值1 時,動態計算值,并將值代入Q 表更新公式中,使移動機器人在Q 表更新后更傾向于選擇距離障礙物更遠的狀態位置,從而在很大程度上提升機器人避開障礙物的能力。計算值的公式如下:

改進后的Q 表更新公式:

3.3 改進Q-learning 算法的步驟

根據上述內容,給出改進Q-learning 算法的詳細步驟如下:

Step 1 初始化環境、參數。確定柵格環境的大小,確定起點位置、終點位置、障礙物位置確定起點位置、終點位置、障礙物位置,選擇合適的學習率α,折扣系數γ,選擇合適的ε-greedy 策略中的epsilon值,以及設置最大迭代次數episode。

Step 2 對Q 表進行初始化。令Q(s,a)=0。

Step 3 初始化狀態s。回到起點位置,初始化狀態s。

Step 4 判斷是否為終點。若為是,選擇獎勵值,更新Q 值,Q(s,a)更新為然后執行Step 10;若為否,則執行Step 5。

Step 5 選擇動作a。機器人在目前狀態s 下使用ε-greedy 策略進行動作選擇并執行,根據動作a更新狀態s 為s'。

Step 6 判斷s'是否為障礙物狀態。若為是,更新Q 值,Q(s,a)更新為返回上一步狀態s,執行Step 5;若為否,執行Step 7。

Step 7 計算引力函數數值,動態選擇獎勵值。對狀態s'進行檢查,判斷s'的狀態,若s'不為障礙物狀態,則計算上一個狀態的引力函數Uatt及更新后狀態的引力函數Uatt',對比兩個引力函數數值,動態選擇獎勵值。

Step 9 計算Q 值,更新Q 表。Q(s,a)更新為,后執行Step 4。

Step 10 判斷迭代次數episode 是否達到設置的最大迭代次數,若判斷結果為是,則結束整個學習過程,若為否,則回到Step 3。

根據上述算法過程,可得改進Q-learning 算法的流程圖如圖1 所示。

圖1 改進Q-learning 算法流程圖Fig.1 Flow chart of improved Q-learning algorithm

4 實驗仿真

4.1 仿真條件

仿真實驗在Pycharm2022.1.3 的環境下進行。操作系統為windows11 x64,使用的編譯工具包為python3.10.5,設備參數為Intel i7-12700H、DDR5 16GB和RTX 3060。

4.2 仿真參數

使用如圖2 所示Pycharm 構造的20×20 柵格地圖下進行仿真實驗,紅色的格子代表移動機器人所在的起點位置,黃色的格子代表移動機器人的目標終點位置,黑色的圖形代表障礙物,移動機器人的可行動作空間包括:上、下、左、右4 個動作。

圖2 路徑規劃柵格地圖示意圖IFig.2 Schematic diagram I of path planning grid map

在仿真實驗中,3 種算法所使用的實驗參數如表1 所示。

表1 算法實驗參數Table 1 Experimental parameters of the algorithm

4.3 仿真實驗驗證及分析

根據上述的實驗環境和實驗參數,在圖2 所示的柵格地圖下進行傳統Q-learning 算法、引入引力場的算法與本文算法的實驗仿真。將3 種算法分別進行了連續150 次迭代實驗,實驗結果如下頁圖3~圖8 及第140 頁表2 所示。由圖3 可得,傳統Q-learning 算法在迭代次數為101 次時趨于收斂,由圖4 可得,引入引力場的算法在迭代次數為60 次時趨于收斂,由圖5 可得,本研究的改進Q-learning 算法在迭代次數為21 次時趨于收斂。對比圖3~圖5 可以看出,在收斂之前,傳統Q-learning 算法和引入引力場的算法使用了較多的步數去探索,而本文改進Q-learning 算法使用的步數很少,證明了在相同的仿真環境情況下,本研究改進的Q-learning 算法在探索期間具有更強的目的性找到下一位置,從而使探索的步數大為降低,且能更快地達到收斂。

表2 3 種算法仿真數據ITable 2 Simulation data 1 of three kinds of algorithms

圖3 傳統Q learning 算法迭代收斂圖IFig.3 Iterative convergence diagram of traditional Q learning algorithm I

圖4 引入引力場算法IFig.4 Algorithm I for introduction of gravitational field

圖5 本文算法迭代收斂圖IFig.5 Iterative convergence diagram I of the studied algorithm

圖6~圖8 為3 種算法在柵格地圖示意圖1 中所得到的路徑規劃路線圖,紅色為起點位置,黃色是終點位置,灰色為移動機器人的避障路徑。

圖6 傳統Q-learning 算法路徑規劃路線圖IFig.6 Path planning roadmap I with traditional Q-learning algorithm

圖8 改進Q-learning 算法路徑規劃路線圖IFig.8 Path planning roadmap I with Improved Q-learning algorithm

下頁表2 是3 種算法在進行了150 次迭代的仿真數據對比。根據圖6~圖8 及表2 可以看出,本文算法較之其他算法具有更高的效率,并且能花更少的代價完成學習,以及更不易與障礙物相撞,能夠快速地使移動機器人找到一條無碰撞的通路。

接下來在障礙物擺放更為復雜的環境中對3種算法進行仿真實驗驗證,實驗參數與上相同,環境柵格地圖如圖9 所示。

圖9 路徑規劃柵格地圖示意圖IIFig.9 Schematic diagram II of path planning grid map

在圖9 的柵格地圖中進行實驗仿真,仿真結果如圖10~圖12、圖13~圖15 和表3 所示。

表3 3 種算法仿真數據ⅡTable 3 Simulation data II of three kinds of algorithms

圖10 傳統Q-learning 算法收斂圖ⅡFig.10 Convergence diagram II of traditional Q-learning algorithm

圖11 引入引力場算法ⅡFig.11 Introduction of gravity field algorithm II

圖12 本研究算法收斂圖ⅡFig.12 Convergence diagram II of the studied algorithm

圖13 傳統Q-learning 算法路徑規劃路線圖ⅡFig.13 Path planning roadmap II with traditional Q-learning algorithm

圖14 引入引力場算法路徑規劃路線圖ⅡFig.14 Path planning roadmap II WithiIntroduction of gravitational field algorithm

圖15 改進Q-learning 算法路徑規劃路線圖ⅡFig.15 Path planning roadmap II with improved Q-learning algorithm

圖13~圖15 為3 種算法在柵格地圖示意圖2中所得到的路徑規劃路線圖。

根據以上的仿真結果可得,本研究的改進Q-learning 算法在障礙物更復雜的環境中,依然具有較少的探索步數和較快收斂的能力,并且撞到障礙物的概率較之其他算法更低。

5 結論

針對傳統的Q-learning 算法在移動機器人路徑規劃時存在收斂速度慢、花費代價高、運行時間長的缺陷,本文提出了將人工勢場法與傳統Q-learning算法結合的一種改進Q-learning 算法,利用引力函數來動態地選擇獎勵值,使移動機器人在探索時就明確了方向,避免了盲目探索;利用斥力函數來動態地更新Q 值,達到遠離障礙物的目的,從而能夠更快速、更準確地到達終點位置。實驗表明,改進后的Q-learning 算法收斂速度明顯加快,所需代價降低,運行效率提高,并且更加不易與障礙物相撞,更有利于移動機器人在路徑規劃方面的實際應用。

猜你喜歡
移動機器人規劃
移動機器人自主動態避障方法
移動機器人VSLAM和VISLAM技術綜述
發揮人大在五年規劃編制中的積極作用
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
基于Twincat的移動機器人制孔系統
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
十三五規劃
華東科技(2016年10期)2016-11-11 06:17:41
迎接“十三五”規劃
室內環境下移動機器人三維視覺SLAM
主站蜘蛛池模板: 日本成人福利视频| 亚洲啪啪网| 无码精品国产dvd在线观看9久| 性色一区| 免费可以看的无遮挡av无码| 99久久国产综合精品女同| 国内精品久久人妻无码大片高| 91精品啪在线观看国产91| 欧美成人精品在线| 97人妻精品专区久久久久| 91小视频在线播放| 日本一区高清| 日本人妻一区二区三区不卡影院 | 亚洲乱码视频| 国产精品久线在线观看| 国产精品爽爽va在线无码观看| 国产香蕉在线视频| 欧美福利在线观看| 国产亚洲精| 国产主播一区二区三区| 国产精品三级专区| 国产成人AV男人的天堂| 无码AV日韩一二三区| 有专无码视频| 亚洲成a人片| 999国产精品| 中文字幕永久视频| 青青操视频免费观看| 在线视频一区二区三区不卡| 自慰高潮喷白浆在线观看| a级高清毛片| 亚洲第一在线播放| 欧美精品啪啪| 免费在线看黄网址| 亚洲Av激情网五月天| 91成人精品视频| 国产成人免费手机在线观看视频| 国产三级毛片| 久爱午夜精品免费视频| 香蕉久久国产超碰青草| 久久精品人人做人人| 99这里只有精品6| 亚洲久悠悠色悠在线播放| a毛片基地免费大全| 欧美色亚洲| 日韩人妻无码制服丝袜视频| 日本午夜视频在线观看| 国产精品亚欧美一区二区三区| 亚洲天堂自拍| 午夜小视频在线| 5555国产在线观看| 九九热视频精品在线| 亚洲第一黄色网址| 久久先锋资源| 免费三A级毛片视频| 伊人久综合| 亚洲欧美自拍中文| 亚洲色图欧美视频| 国产91小视频| 国产9191精品免费观看| 国产午夜精品一区二区三| 中文无码伦av中文字幕| 老司机久久99久久精品播放 | a级毛片网| 青青草国产免费国产| 欧洲高清无码在线| 中文字幕无码中文字幕有码在线| 亚洲午夜18| 婷五月综合| 91偷拍一区| 老司机精品一区在线视频| 成人综合网址| 国产欧美精品一区二区| 国产夜色视频| 99精品欧美一区| 国产自在线播放| AV不卡在线永久免费观看| 欧美日韩理论| 成人免费午夜视频| 亚洲日韩精品欧美中文字幕| 午夜毛片免费观看视频 | 青青草国产精品久久久久|