999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的路徑規劃技術綜述

2021-10-15 10:07:46閆皎潔張鍥石胡希平
計算機工程 2021年10期
關鍵詞:深度規劃動作

閆皎潔,張鍥石,胡希平

(1.中國科學院深圳先進技術研究院,廣東 深圳 518055;2.中國科學院大學 深圳先進技術學院,廣東 深圳 518055)

0 概述

隨著計算機技術、人工智能技術及自動化控制技術的發展,移動機器人的智能化程度不斷提高,路徑規劃作為實現機器人自主導航的核心技術受到廣泛關注[1-2]。路徑規劃就是使目標對象在最小的時間或距離代價下,在規定區域范圍內找到一條從起點到終點的安全無碰撞路徑。目前,路徑規劃的核心方法[3-4]按其特點及關鍵技術可分為常規方法與強化學習(Reinforcement Learning,RL)方法兩類。常規方法可分為傳統方法、圖形學方法及智能仿生學方法。近年來,又由強化學習方法衍生出深度強化學習方法,深入研究強化學習方法及其衍生方法對路徑規劃技術的發展有重要的意義。本文簡述基于常規方法的路徑規劃技術,重點分析基于強化學習的路徑規劃技術并將其分為基于值和基于策略兩類,再由強化學習引出基于深度強化學習的路徑規劃技術,同時對強化學習代表方法的原理、特點、優缺點、適用場合及改進策略進行深入探討。

1 基于常規方法的路徑規劃技術

常規方法分為傳統方法、圖形學方法、智能仿生學方法等3 類:

1)傳統方法主要包括模擬退火法[5]、人工勢場法[6]和模糊邏輯法[7]。這類方法最早應用于路徑規劃技術,具有描述簡單、易于實現的特點,但不能充分利用先驗知識和全局信息,求解時容易陷入局部最優解或遇到目標不可達的問題。

2)圖形學方法主要包括A*算法[8]、柵格法[9]等。這類方法可提供建模方法,解決了傳統方法建模難的問題,但由于搜索效率低下,導致其難以應用在實際系統中。

3)智能仿生學方法主要包括遺傳算法[10]、人工神經網絡算法[11]、蟻群算法[12]、粒子群優化(Particle Swarm Optimization,PSO)算法[13]等。這類方法的原理與自然生物的性質或生態機制非常接近,如模仿生物遺傳進化、人體神經網絡系統、螞蟻覓食等行為,故統稱為智能仿生學方法。由于仿生特點,這類方法更加智能、效率更高,但在路徑規劃應用中存在容易陷入局部最優解、收斂速度慢等問題。

為更加清晰直觀地對比各類各種常規方法,表1給出了各種常規方法的優劣勢對比結果。

表1 應用于路徑規劃技術的常規方法優劣勢對比Table 1 Comparison of advantages and disadvantages of conventional approaches applied to path planning techniques

2 基于強化學習的路徑規劃技術

2.1 強化學習基本原理與研究歷程

強化學習[14-15]的基本原理為智能體在環境反饋獎勵或懲罰的刺激下持續學習,根據反饋不斷調整策略,最終達成獎勵最大化或實現特定目標。強化學習方法主要包括狀態、策略、行動、獎勵等4 個要素。智能體在狀態st下,根據策略π選擇動作at,并從狀態st轉移到新的狀態st+1,同時獲得環境反饋的獎勵r,根據獲得的獎勵r獲得最優策略π*。

其中:γ?(0,1)為折扣率。

強化學習思想最早可追溯到行為心理學研究。1911年THORNDIKE 提出效果律(Law of Effect):一定情景下讓動物感到舒服的行為,就會與此情景增強聯系(強化),當此情景再現時,動物的這種行為也更易再現;反之則相反。20 世紀50 年代中期,最優控制理論被提出,基本原理為從控制方案中尋找最佳方案。1956 年BELLMAN[16]提出動態規劃方法,1977 年WERBOS[17]提出自適應動態規劃方法。直到20世紀80年代末90年代初,人工智能、機器學習等技術開始得到廣泛應用,強化學習開始受到關注。1988 年SUTTON 等[14]提出時序差分(Temporal Difference,TD)算法,1992 年WATKINS 等[18]提 出Q-Learning 算 法,1994 年RUMMERY等[19]提出SARAS算法,1995年BERSEKAS等[20]提出解決隨機過程中優化控制的神經動態規劃方法,2006 年KOCSIS 等[21]提出置信上限樹算法,2009 年LEWIS等[22]提出反饋控制自適應動態規劃算法,2014年SILVER 等[23]提出確定性策略梯度(Deterministic Policy Gradient,DPG)算法,2016 年Google DeepMind[24]提出A3C 方法。

2.2 強化學習方法分類

求解強化學習問題的方法分為基于值、基于策略以及基于值與基于策略相結合的方法。基于值的方法定義了值函數,根據值函數的大小選擇動作;基于策略的方法將策略進行參數化,通過優化參數使策略的累計回報最大。

當移動機器人在復雜未知環境下進行路徑規劃時,由于初期探索策略存在盲目性,導致強化學習存在收斂速度慢的問題,在機器人訓練過程中需要花費大量時間。此外,隨著環境復雜度和系統狀態維度的增加,需要訓練的參數呈指數級增長,因此會消耗大量訓練時間和存儲空間,最終導致維數災難[25]。此外,強化學習的可移植性和通用性差,訓練過的機器人無法直接在新的環境中按照期望規劃移動。

2.2.1 基于值的強化學習方法

基于值的方法主要適用于離散動作空間,目標是通過最大化每個狀態的值函數來得到最優策略。值函數用來衡量當前狀態下機器人選擇策略的優劣程度。根據自變量的不同,值函數可以分為狀態值函數V(s)和狀態-動作對值函數Q(s,a),如式(2)和式(3)所示:

從式(2)和式(3)可知:狀態值函數是某狀態下的獎勵反饋值,狀態-動作對值函數是狀態-動作對下的獎勵反饋值,因此只需最大化值函數就可達成最終獎勵最大化。基于值的方法主要包括TD[14]、Q-Learning[18]、SARSA[19]、Dyna[26]等方法。

1)TD 算法

TD 算法是一類無模型的強化學習算法,從環境中取樣并學習當前值函數的估計過程,原理為通過借助時間的差分誤差來更新值函數,誤差計算公式和值函數更新公式分別如式(4)和式(5)所示:

其中:α為學習率。

TD 算法基于蒙特卡羅思想和動態規劃思想,可直接學習初始體驗,無需環境動態模型,同時基于學習更新,需等待最終學習結果。NAIR 等[27]提出一種針對靜態障礙物路徑規劃和避障的修正時序差分算法,降低了TD 算法的計算復雜度。MARTIN 等[28]將時序差分算法的更新過程簡化為高斯回歸過程,提高了機器人在海洋環境的路徑規劃中的數據處理效率。

2)Q-Learning 算法

在TD 算法的基礎上,WATKINS 等[18]提 出QLearning 算法。Q-Learning 算法是強化學習發展的里程碑,是基于值的強化學習算法中應用最廣泛的算法,也是目前應用于移動機器人路徑規劃最有效的算法之一。Q-Learning 算法屬于在線強化學習算法,基本思想為定義一個狀態-動作對值函數Q(s,a),將某時刻的數據代入式(6)和式(7)中更新值函數Q(s,a)。

其中:at為學習率;δt為誤差;a′為狀態st+1執行的動作。

Q-Learning 算法采用離線策略(off-policy)來產生動作,根據該動作與環境的交互得到的下一個狀態及獎勵來學習得到另一個最優的Q(s,a)。目前,關于Q-Learning 算法的改進是學者們研究的重點方向,主要包括以下4 個方面:

(1)引入啟發式思想。啟發式思想通常是對某一訓練環節進行趨勢性啟發以提高學習效率。啟發式搜索策略具有較強的搜索能力,LI 等[29]在改進的Q-Learning 算法中引入了啟發式搜索策略來加快學習過程,通過限制方向角的變化范圍,縮小搜索空間。劉智斌等[30]利用shaping 函數參與Q 表的更新,對Q-Learning 的趨勢性進行啟發,大幅提高收斂效率。JIANG 等[31]提出一種基于經驗重放和啟發式知識的深度Q-Learning 算法來實現智能機器人的路徑規劃。一方面,啟發式知識可以指導機器人的動作選擇,減少智能機器人系統中的隨機性;另一方面,啟發式知識提高了神經網絡的訓練效率,使其可以更快地收斂到最優的行動策略。

(2)引入分層思想。分層強化學習[32]致力于將一個大規模問題分解為若干個子問題,以分而治之的思想逐個解決,分層思想可以很好地解決傳統強化學習中的維數災難問題。劉智斌等[30]提出的基于BP 神經網絡的雙層啟發式強化學習算法,引入了雙層強化學習模型:第一層為定量層,通過Q-Learning算法訓練得到精確結果;第二層為定性層,具有較好的泛化能力,提供大方向上的預見。BUITRAGOMARTINEZ 等[33]提出一種基于選擇的雙層QLearning 學習方法:第一層用來訓練機器人的基本行為且每一種行為在訓練階段相互獨立;第二層通過訓練機器人并協調這些基本行為來解決路徑規劃問題。劉志榮等[34]建立雙層網絡結構,使用Q-target神經網絡來計算目標Q 值,減少了目標狀態對當前狀態的依賴,大幅提高了收斂效率。

(3)引入模糊邏輯思想[35]。在生活中的許多概念都具有模糊性,如遠和近、快和慢等,模糊邏輯用隸屬度取代布爾數值來標識程度,在人工智能領域起到了重要的作用。LUVIANO 等[36]將模糊邏輯應用于連續時間的多智能機器人路徑規劃中進行以下改進:①模糊量化狀態空間;②將模糊邏輯與WoLFPHC[37]算法結合,使Q 函數通過模糊狀態空間進行分離;③將模糊Q-Iteration 模型用于智能體的次優策略,解決了傳統Q-Learning 算法的維數災難問題。WEN 等[38]在優化的Q-Learning 算法基礎上提出模糊Q-Learning(Fuzzy Q-Learning,FQL)算法并將其應用于路徑規劃的避障問題,進一步提高了訓練的收斂速度。葛媛等[39]提出一種基于模糊RBF 網絡的Q-Learning 算法,使模糊神經系統具有自適應性,對未知動態環境中移動機器人的自主路徑規劃具有一定的應用價值。

(4)多算法結合思想。一個單獨的路徑規劃算法在實際應用中或多或少都存在一定的缺陷,設計新的算法難度大,因此可通過多種算法的結合來解決問題。除上述三大類的改進思路外,學者們還將Q-Learning與其他類型的算法相結合進行優化。樸松昊等[40]用遺傳算法初步規劃出全局最優路徑,并結合Q-Learning算法實現機器人的避障行為,兩種算法取長補短,滿足了路徑規劃的高實時性要求。MEERZA 等[41]提出一種基于Q-Learning 和粒子群優化的路徑規劃算法,利用PSO 改進Q 表的迭代,在速度和精度上相比單獨使用這兩種算法性能更優。SHI 等[42]將Q-Learning 算法與蟻群算法中的信息素機制進行融合,機器人之間通過信息素進行信息交換,解決了多智能體路徑規劃中的信息共享問題,并且在Q 值的作用下,機器人做出狀態更新和決策選擇。YAO 等[43]在Q-Learning 算法的基礎上,結合人工勢場法,以黑洞勢場為環境,使機器人在沒有先驗知識的情況下可跳出局部最優解。LIU等[44]將RRT 與Q-Learning 算法進行結合,提出一種基于Q-Learning的分區啟發式RRT算法,利用Q-Learning改進獎勵函數,獲得全局最優路徑,此算法可以獲得更平滑的結果,并且提高了搜索和避障的能力。為解決Q-Learning 獎勵函數定義寬泛導致學習效率低下的問題,王子強等[45]提出一種基于詳細回報分類的Q-Learning算法,根據移動機器人與障礙物間的距離,對每個時刻機器人獲得的獎勵值分配安全等級,使機器人學習過程的安全等級更高,選擇的路徑更合理。

3)SARSA 算法

SARSA 算法與Q-Learning 算法相似,也是一種在線強化學習算法。區別在于SARSA 算法采用在線策略(on-policy),迭代的是Q(s,a)的實際值,誤差計算公式如下:

由式(8)可知:SARSA 值函數Q(s,a)的更新涉及到(s,a,r,st+1,at+1)這5 個部分,它們構成了該算法的名字SARSA。

在機器學習中,若智能體在線學習且注重學習期間所獲獎勵,則SARSA 算法的適用性會更強。SARSA 算法是單步更新算法,即SARSA(0)。在獲得獎勵后,僅更新上一步狀態和動作對應的Q 值,但每一步得到的獎勵都會影響最終得到的獎勵,因此將此算法優化為多步更新的SARSA 算法,即SARSA(λ)。ZOU 等[46]針對復雜動態環境提出一種基于SARSA(λ)優化的RRT 路徑規劃算法,通過該優化可增加擴展點時的選擇并減少無效節點數,從而提高算法性能。XU 等[47]通過SOM 神經網絡獲得位置信息并產生R 值,再使用SARSA(λ)并基于產生的R 值來更新Q 值,從而使路徑規劃更加精準高效。FATHINEZHAD 等[48]提出監督模糊SARSA 學習算法,將監督學習和強化學習的優點相結合,訓練找出每個模糊規則的最佳動作,通過模糊SARSA 學習在線微調模糊控制結論部分的參數,減少了學習時間和訓練失敗次數。

SARSA 算法與Q-Learning 算法有相同點但又有所區別,這兩種算法的相同點包括:(1)在TD 算法的基礎上改進;(2)使用ε-greedy 選擇新的動作;(3)均為在線強化學習算法。這兩種算法的區別包括:(1)Q-Learning 算法使用off-policy,迭代內容為Q(s,a)的最大值;(2)SARSA 算法使用on-policy,迭代內容為Q(s,a)的實際值。

4)Dyna 算法

Dyna 算法并不是一個具體的強化學習算法,而是一類算法框架的總稱。將基于模型的強化學習和與模型無關的強化學習相結合,既從模型中學習,也從與環境交互的經驗中學習,從而進行函數更新。DABOONI 等[49]利用直接啟發式動態規劃(Heuristic Dynamic Programming,HDP)改 進Dyna 算法,采用HDP 策略學習構造Dyna-agent,并提出一種新的在線規劃學習算法Dyna-HDP,可以更快得到近似最優路徑,并具有一定的穩定性。VIET 等[50]將移動機器人的學習過程分為兩階段:第一階段通過Dyna-Q 算法加速獲取最優策略,并訓練機器人躲避障礙物;第二階段訓練機器人獲得平滑的路徑。該方法能夠有效解決障礙物密集的未知環境下移動機器人的路徑規劃問題。HWANG 等[51]將一種基于樹的自適應模型學習方法與Dyna-Q 算法相結合,利用模型訓練產生的經驗加速迭代,訓練效率得到明顯提升。

2.2.2 基于策略的強化學習方法

基于策略的方法通過直接優化策略得到最優策略。基于策略的方法主要包括策略梯度(Policy Gradient,PG)[52]、模仿學習(Imitation Learning,IL)[53]等方法。

1)策略梯度法

策略梯度法是基于策略的算法中最基礎的一種算法[52],基本思路為通過逼近策略來得到最優策略。策略梯度法分為確定性策略梯度法和隨機性策略梯度法(Stochastic Policy Gradient,SPG)。在確定性策略梯度法中,動作被執行的概率為1,而在隨機性策略梯度法中,動作以某概率被執行。與隨機性策略梯度法相比,確定性策略梯度法在連續動作空間求解問題中性能更好。假設需要逼近的策略是π(s,a;θ),策略π對參數θ可導,定義目標函數和值函數如式(9)和式(10)所示。從初始狀態s0開始,依據策略πθ選取動作的分布狀態如式(11)所示。根據式(9)~式(11)得到的策略梯度公式如式(12)所示。

LIU 等[54]以學習曲線理論為基礎,構造經驗池容量變化函數,在傳統深度確定性策略梯度法(Deep Deterministic Policy Gradient,DDPG)中加入學習曲線,從而實時調整回放緩沖容量,改進后的算法獎勵值更高,學習能力更強。PAUL 等[55]將DDPG算法應用于機械臂的路徑規劃中,即應用于連續動作空間,使用該方法進行訓練,簡化了學習步驟并提高了成功率。ZHENG 等[56]提出一種改進的多智能體深度確定性策略梯度法(Improved Multi-Agent Deep Deterministic Policy Gradient,IMADDPG),通過增加平均場網絡(Mean Field Network,MFN)最大化智能體的返回值,使所有的智能體在訓練時能最大限度地提高協作性,最終可求解全局最優路徑。

2)模仿學習法

與策略梯度法相同,模仿學習也是一種直接策略搜索方法。模仿學習的基本原理是從示范者提供的范例中進行學習,示范者一般提供人類專家的決策數據,通過模仿專家行為得到與專家近似的策略。

在線性假設下,反饋信號可由一組確定基函數φ1,φ2,…,φk線性組合而成,因此策略的價值可表示如下:

若有策略π的特征期望滿足[μ(π)-ωt μE]2≤ε時式(14)成立,則該策略π是模仿學習法的一個解。

以上求解過程與通過計算積累獎勵值獲得最優策略的直接學習方法有本質區別。在多步決策中,基于積累獎勵值的學習方法存在搜索空間過大、計算成本過高的問題,模仿學習法能夠很好地解決多步決策中的這些問題。PFEIFFER 等[57]將模仿學習與強化學習結合起來進行模型訓練,通過模仿學習的目標驅動演示,可以顯著提高強化學習過程中的探索能力,同時在避障方面也顯現出較好的性能。HUSSEIN 等[58]提出一種深度模仿學習方法來學習三維環境中的路徑規劃任務,利用主動學習對監督策略進行改進,以便將其推廣到未知的動態環境中。傳統的模仿學習不支持一個模型學習多個任務,XU 等[59]提出共享多頭模仿學習(Shared Multi-headed Imitation Learning,SMIL),使移動機器人在不同模型切換的情況中,使用一個模型學習多個任務。該方法將每個任務建模為子策略,并設計一個多頭策略激活所有的子策略,以學習相關任務的共享信息。

2.2.3 基于值和策略相結合的強化學習方法

Actor-Critic 算法[60]將基于值的算法和基于策略的算法的優點相融合,相比傳統策略梯度法效率更高,是一種性能較好的強化學習算法。Actor-Critic算法分為Actor 和Critic 兩個部分,其中,Actor 由策略梯度法衍生而來,Critic 由基于值的算法衍生而來。該算法的原理為:Actor 根據概率選擇行動,Critic 為選擇的行動反饋獎勵,Actor 再根據Critic 的反饋修改選擇行動的概率。Actor 策略函數的參數更新公式如下:

使用均方差損失函數來更新Critic 的網絡參數ω:

MUSE 等[61]將Actor-Critic 框架用于與平臺無關的移動機器人路徑規劃任務中,使不同機器人平臺的功能具有一定的可移植性,并用于新型機器人平臺的快速原型設計。LACHEKHAB 等[62]提出一種模糊Actor-Critic 學習算法(Fuzzy Actor-Critic Learning Algorithm,FACL),使用基于模糊邏輯的控制器控制機器人從起點到終點的路徑規劃,并在模糊規則中基于概率選擇機器人的下一行動,因此可在已知環境下較好地完成路徑規劃任務。SHAO 等[63]提出一種基于廣義優勢估計(Generalized Advantage Estimator,GAE)的Actor-Critic 算法,使智能體可以從多個過程中進行學習以節約訓練時間,并利用GAE 估計優勢函數減少方差,從而提高了策略梯度的估計精度。

2.3 強化學習方法的局限性

雖然基于值的強化學習方法收斂速度快、學習效率高,但存在以下局限性:

1)當動作空間是連續動作空間時,如果采用基于值的方法,需要對動作空間離散化,進而會導致連續空間到離散空間指數級的映射,從而產生維數災難問題。

2)由基于值的方法最終得到的是一個確定性的策略,而最優策略可能是隨機的,此時值函數法不適用。

3)值函數的一個微小的變動通常會導致一個原本被選擇的動作反而不能被選擇,這種變化會影響算法的收斂性。

與基于值的方法不同,基于策略的方法適用于高維或連續動作空間,并具有更好的收斂性,但也存在以下局限性:

1)需要完全序列樣本才可以做算法迭代,訓練慢、方差高,在多數情況下沒有基于值的方法有效。

2)優化的梯度方向可能不是策略梯度的最優方向,因此易收斂到局部最優解,而非最優策略。

3)移動機器人的路徑規劃通常應用在離散動作空間中,基于策略的算法優勢并不能顯現出來,因此目前基于策略的算法在移動機器人路徑規劃上的應用較少。

表2 給出了強化學習方法的代表方法、特點和優劣勢對比結果。

表2 強化學習方法的代表方法、特點和優劣勢對比Table 2 Comparison of representative methods,characteristics and advantages and disadvantages of reinforcement learning methods

3 基于深度強化學習的路徑規劃技術

3.1 深度強化學習與路徑規劃

強化學習的最終目的是通過最大化獎勵值來獲得最優策略,具有較強的決策能力。在越來越復雜的現實場景應用中,需要利用深度學習從原始大規模數據中提取高級特征,深度學習具有較強的感知能力,但缺乏一定的決策能力。深度強化學習[64](Deep Reinforcement Learning,DRL)將強化學習的決策能力與深度學習的感知能力相結合,可以直接根據輸入的信息進行控制,是一種更加接近人類思維的人工智能方法。

2013 年,谷歌的人工智能研究團隊DeepMind[65]將Q-Learning 算法與卷積神經網絡相結合,創新性地提出深度Q 網絡(Deep Q-Network,DQN)。DQN基礎模型為一個卷積神經網絡,并使用Q-Learning的變體進行訓練。DQN 對Q-Learning 主要做了以下改進:

1)用卷積神經網絡替代狀態-動作對值函數Q(s,a)。具體地,使用參數為θi的值函數Q(s,a;θi),迭代i次后的損失函數表示如下:

其中:Yi近似表示值函數的優化目標。Yi的計算公式如下:

在學習過程中通過θi更新θ-,具體學習過程為對θi求偏導得到梯度:

2)使用經驗回放技術。在每個時間步t時,存儲智能體的經驗樣本et=(st,at,rt,st+1)到回放記憶單元D={e1,e2,…,et}中,通過重復采樣歷史數據增加樣本使用率,可有效避免學習時參數震蕩。

3)隨機小批量從記憶單元D中取樣。由于樣本之間相關性高,因此直接從連續樣本中學習是低效的,隨機小批量取樣降低了樣本間的關聯性,從而提升了算法的穩定性。

為更有效地將深度強化學習方法應用于路徑規劃,學者們嘗試了許多改進思路。TAI 等[66]針對沒有障礙物地圖和距離信息稀疏的情況,提出一個基于學習的無地圖運動規劃器,以稀疏的10 維測距結果和目標相對于移動機器人坐標系的位置作為輸入,連續轉向命令作為輸出,通過異步深度強化學習方法訓練規劃器,使訓練和樣本收集可以并行執行。該方法在極端復雜的環境中具有更好的穩定性。王珂等[67]基于深度強化學習提出一種基于最小深度信息選擇的訓練模式,通過運動學方程約束,優化狀態空間的搜索與采集,提高了訓練速率。李輝等[68]將深度卷積神經網絡的特征提取能力與強化學習的決策能力相結合,提出一種基于深度強化學習的改進算法,該算法用近似值函數代替Q-Learning 中的動作值函數,設計包含4 層結構的深度卷積神經網絡,以網絡的輸出代替傳統的Q 值表,解決了Q-Learning 在狀態空間較大時產生的維數災難問題。

3.2 深度強化學習方法的局限性

目前,深度強化學習方法存在以下3 個方面的局限性:

1)深度強化學習理論支撐不夠。谷歌的DeepMind 團隊于2015 年在《自然》雜志上發表的文章[69]雖然取得了較好的應用效果,但沒有證明DQN的收斂性,并且到目前為止在DQN 或其他深度強化學習方法的基礎上的改進工作也沒有很好地解決該問題。

2)樣本采樣率低。樣本采樣率低使得深度強化學習方法有時在實際應用中效果不佳。導致該問題的主要原因有兩個:一是完成任務需要收集大量數據;二是訓練過程中利用當前數據的有用信息效率低。

3)在連續動作空間中應用有限。目前主流的深度強化學習方法大多適用于離散動作空間,對于機器人的機械臂路徑規劃等連續動作空間[70]的任務還處于初步研究階段,理論支撐不夠,因此應用十分有限。

3.3 強化學習與深度強化學習的異同

強化學習通常使用馬爾可夫決策過程進行描述,具體而言:機器處在一個環境中,每個狀態為機器對當前環境的感知;機器只能通過動作來影響環境,在機器執行一個動作后,會使當前環境按某種概率轉移到另一個狀態;當前環境會根據潛在的獎賞函數反饋給機器一個獎賞。

深度強化學習是深度學習與強化學習的結合,具體而言是結合了深度學習的結構和強化學習的思想,但它的側重點更多在強化學習上,解決的仍是決策問題,只是借助神經網絡強大的表征能力擬合Q表或直接擬合策略以解決狀態-動作空間過大或連續狀態-動作空間問題。

4 基于強化學習的路徑規劃技術展望

雖然移動機器人路徑規劃技術已取得了大量的科研成果,并廣泛地應用于實際場景中,但隨著移動機器人應用領域的擴大和應用場景的復雜化,從目前的發展現狀和未來的發展需求來看,基于強化學習方法的路徑規劃技術的下一步研究方向主要包括以下4 個方面:

1)設計有效的獎勵函數。強化學習通過最大化獎勵值來獲得最優策略,那么策略是否最優取決于獎勵函數。現階段獎勵函數由專家學者憑借專業知識設計,面對路徑規劃領域日益復雜多變的應用環境,不合理的獎勵函數也會使得到的最優策略不合理。有學者提出元學習(Meta Learning,ML)等方式,讓智能體嘗試在面對環境或任務變換的情況下,從合理的策略中不斷完善獎勵函數。因此,設計有效的獎勵函數是未來發展的熱點之一。

2)解決強化學習的探索-利用困境。一方面,探索的目的是通過不斷探索新的環境信息來獲得更高的獎勵值,以此避免陷入局部最優解。另一方面,利用探索是指用已學習到的信息來選擇獎勵值最高的動作。探索-利用的困境即使得探索信息與利用信息兩者之間得到平衡,目前常用的解決方法為ε-greedy 算法[69]。該算法的基本原理是使智能體以ε為概率隨機探索信息,并以1?ε為概率利用信息,通過不斷的學習,ε會不斷衰減以保證后期的學習效率。ε-greedy 算法簡單易實現,但隨機探索效率低,因此如何解決強化學習的探索-利用困境有待進一步研究。

3)研究強化學習方法與常規方法的結合方法。每種強化學習方法在路徑規劃應用中都存在自身局限性,為了彌補單一方法的不足,通過不同方法之間相互結合的優勢互補可以得到一些性能更好的方法,如傳統路徑規劃算法、圖形學算法、智能仿生學算法以及強化學習算法之間的有效結合,相互取長補短后均具有一定的發展前景。

4)將強化學習算法應用于多智能體協作的路徑規劃研究。多智能體協作路徑規劃技術具有高靈活性、易部署、高協調性等優點,被廣泛應用于機器人雙臂協作路徑規劃、機器人足球賽、多無人機競速賽等實際場景中。目前,對于單機器人路徑規劃研究的成果較多,而多機器人協作路徑規劃的成果相對較少,對應用中出現的碰撞、路徑死鎖、協調配合、花費代價大等一系列問題有待進一步解決。

5 結束語

本文闡述基于常規方法、強化學習方法及深度強化學習方法的路徑規劃技術,分類并對比強化學習方法的特點、優劣性及適用場合。針對強化學習方法應用于路徑規劃技術時存在的局限性,重點研究了將啟發式思想、分層思想、模糊邏輯思想及多算法結合思想融入強化學習算法的改進思路。面對未來更加復雜的應用環境,下一步將從設計有效的獎勵函數、解決強化學習的探索-利用困境等方面入手,對強化學習在路徑規劃技術中的應用進行更深入的研究。

猜你喜歡
深度規劃動作
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
動作描寫要具體
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
畫動作
動作描寫不可少
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
主站蜘蛛池模板: 露脸国产精品自产在线播| 久久综合九九亚洲一区| 成人年鲁鲁在线观看视频| 日韩最新中文字幕| 中文字幕欧美成人免费| 国产成年无码AⅤ片在线| 国产网站黄| 一本久道久综合久久鬼色| 99精品热视频这里只有精品7 | 大陆国产精品视频| 国产无码精品在线播放| 日本一本正道综合久久dvd | 久久99热这里只有精品免费看| 国产精品任我爽爆在线播放6080| 一本无码在线观看| 欧美国产日韩一区二区三区精品影视| 亚国产欧美在线人成| 国产地址二永久伊甸园| 国产欧美在线| 中文精品久久久久国产网址| av在线人妻熟妇| 中文无码精品a∨在线观看| 91免费国产高清观看| 亚洲精品视频在线观看视频| 亚洲另类色| 91午夜福利在线观看| 波多野结衣亚洲一区| 日韩免费中文字幕| 久久国产热| 午夜高清国产拍精品| 国产精品久久自在自线观看| 国产精品免费p区| 欧美不卡二区| 色久综合在线| 综合久久久久久久综合网| 亚洲AV电影不卡在线观看| 午夜精品国产自在| 国产精品永久在线| 国产一级在线播放| 丝袜无码一区二区三区| 美女被操黄色视频网站| 国产精品亚欧美一区二区三区 | 91欧洲国产日韩在线人成| 欧美精品v| 精品無碼一區在線觀看 | 91色爱欧美精品www| 久久精品66| www.精品国产| 天天干天天色综合网| 99精品国产自在现线观看| 国产精品无码久久久久久| 青青草原国产精品啪啪视频| 色婷婷电影网| 亚洲三级成人| 9啪在线视频| 国产一二三区在线| 亚洲精品第1页| 日韩123欧美字幕| 亚洲精品成人福利在线电影| 国产日韩久久久久无码精品| 国内精品九九久久久精品| 国产九九精品视频| 国产成人综合亚洲欧美在| AV在线天堂进入| 蜜臀AVWWW国产天堂| 国产91丝袜| 强乱中文字幕在线播放不卡| 91精品啪在线观看国产60岁| 热99re99首页精品亚洲五月天| 全部无卡免费的毛片在线看| 欧美成人精品一级在线观看| 国产麻豆91网在线看| 亚洲国产精品成人久久综合影院| 成人欧美日韩| 在线播放国产一区| 国产欧美日本在线观看| 国产视频入口| 欧美三级不卡在线观看视频| 26uuu国产精品视频| 尤物成AV人片在线观看| 97超碰精品成人国产| 伊人久热这里只有精品视频99|