999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向軌跡規劃的深度強化學習獎勵函數設計

2020-01-17 01:46:18邵振洲趙振東施智平
計算機工程與應用 2020年2期
關鍵詞:方向機械規劃

李 躍,邵振洲,趙振東,施智平,關 永

1.首都師范大學 信息工程學院,北京100048

2.首都師范大學 輕型工業機械臂與安全驗證北京市重點實驗室,北京100048

3.首都師范大學 成像技術北京市高精尖創新中心,北京100048

1 引言

機械臂軌跡規劃是機器人控制的重要組成部分。傳統機械臂的軌跡規劃方法一般適用于已知的結構化環境,無法解決機械臂在未知工作環境下的軌跡規劃問題[1-4]。深度強化學習(DRL)的出現使得機械臂具備了自主學習能力[5],讓其能夠在未知環境下自主完成軌跡規劃。如圖1所示,深度強化學習中的智能體采用“探索-試錯”機制[6],根據獎勵函數所提供的獎勵值,控制機械臂對未知工作環境不斷探索,最終通過自主學習的方式規劃出一條累計獎勵最大的動作軌跡。近年來,基于深度強化學習的機械臂軌跡規劃成為一個新的研究熱點[7-9]。

圖1 深度強化學習示意圖

在深度強化學習中,典型的優化策略有深度Q網絡(DQN)[10]、深度SARSA(State Action Reward State Action)[11]和彩虹(Rainbow)[12]等。然而,上述方法的動作輸出均為離散型動作,無法應用于機械臂軌跡規劃這類動作空間連續的任務。為此,深度確定性策略梯度(DDPG)[13]和異步優勢行動者評論家(A3C)[14]等方法相繼被提出,使用非線性函數逼近將動作空間擴展為連續型。Giuseppe Paolo 等人[7]對DDPG 方法做了改進,通過異步執行技術讓機器人在迷宮環境中成功規劃出運動軌跡,但由于其采用經驗回放機制,導致規劃速度較慢。Michael Everett等人[8]使用混合CPU/GPU的A3C方法,該方法的優點是用多線程并行的異步更新技術取代經驗回放機制,提升了規劃速度,實現了機械臂避障任務的快速軌跡規劃。

然而,目前基于深度強化學習的機械臂軌跡規劃方法仍然存在著一些不足。首先,現有方法忽略了不合理的學習步長對規劃策略的影響,在未知環境中魯棒性不足。其次,在機械臂軌跡規劃過程中現有方法存在大量的無效探索,導致學習效率偏低,特別是在存在障礙物的未知工作環境中,這一問題更加突出。

近幾年,研究學者們提出了新的深度強化學習方法分布式近似策略優化(DPPO)[15]。該方法采用懲罰項機制,為策略提供合理的更新比例,降低了不合理學習步長的影響。本文以六自由度機械臂為研究對象,提出一種基于新型方位獎勵函數的機械臂軌跡規劃方法ADPPO,首次將DPPO 用于存在障礙物的未知環境下機械臂的軌跡規劃任務,利用其懲罰項機制,讓規劃策略的更新幅度保持在合理范圍內。另外,本文綜合考慮了機械臂在學習規劃過程中,與障礙物和目標的相對方向和相對位置等因素,提出一種新型方位獎勵函數,用于準確評價所規劃軌跡的優劣程度,減少機械臂的無效探索。方位獎勵函數由方向和位置獎勵函數兩部分組成。

其中,方向獎勵函數參照庫倫定律構建,使得機械臂能夠快速安全地避障,位置獎勵函數采用高斯函數建模,并結合Triplet 損失函數的設計思想[16],使得機械臂能夠快速到達目標點。最后依據機械臂與障礙物的相對距離,動態調整方向獎勵和位置獎勵的權重,構建出更全面合理的方位獎勵函數。

2 方位獎勵函數設計

為提高機械臂在未知環境中軌跡規劃的魯棒性和學習效率,本文利用機械臂末端與障礙物和目標點的相對方向和相對位置,為深度強化學習算法設計了一種新型方位獎勵函數,包括位置獎勵函數和方向獎勵函數。

2.1 位置獎勵函數

在有障礙物的未知環境中,機械臂既要避開障礙物,又要快速到達目標點。因此,本文設計的位置獎勵函數由兩部分組成,分別為避障項和目標引導項,避障項負責警示機械臂,讓其與障礙物保持一定的安全距離,目標引導項用于激勵機械臂在避開障礙物的同時迅速到達目標點。

(1)避障項:本文依據高斯分布建模避障項,根據機械臂末端E 相對于障礙物O 的位置求得二者相對距離DEO。 DEO越小代表風險越高,會獲得越多的懲罰獎勵。避障項由函數fobstacle(DEO)描述,如公式(1)所示:

(2)目標引導項:為了讓機械臂既能避開障礙物又能快速靠近目標點T ,受Triplet損失函數的設計思想啟發,目標引導項如公式(2)所示:

[·]+符號表示當[]內的值大于0 的時候,函數值正常輸出,反之則輸出為0。DET表示機械臂末端E 與目標點T 的相對距離,而α 是DEO和DET的較小間隔。α 的取值需要根據實際的工作環境做具體調整,本文經過20次實驗后,α 值設置為0.095。

綜合避障項和目標引導項,本文設計的位置獎勵函數如公式(3)所示:

2.2 方向獎勵函數

機械臂在有障礙物的未知環境中工作時,如何安全合理地避障是一個十分關鍵的問題。在實際工作中,機械臂末端與障礙物、目標這兩者的相對運動方向有十分緊密的交疊,加大了避障的難度,這就需要為機械臂設定一個合理的方向取舍策略。

本文參照庫倫定律來建模方向獎勵函數。電荷間的吸引和排斥與障礙物環境中的機械臂軌跡規劃任務有良好的契合度。障礙物與機械臂末端的關系可以表示為同種電荷間相互排斥,目標點與機械臂末端的關系則可以視為異種電荷的相互吸引。

方向獎勵函數設計如圖2所示,圖中ET′為目標點的吸引向量,EO′為障礙物的排斥向量,二者的數學表達式如公式(4)和公式(5)所示:

其中,r1為機械臂末端到目標點的相對距離,r2為機械臂末端到障礙物的相對距離,QE為機械臂末端的“電荷量”,QO為障礙物的“電荷量”,QT為目標的“電荷量”。在實際工作中,目標點對機械臂的吸引作用應大于障礙物的排斥作用,否則有可能會導致機械臂為躲避障礙物而無法到達目標點的情況,設置QT為QO的兩倍,以保證機械臂既能避障,又能完成任務。 EB 表示所期望的相對運動方向,EC 為機械臂末端當前的實際運動向量,φ 為EB 和EC 的夾角,用于度量當前運動向量與智能體所規劃的運動向量間的契合程度,φ 越小,表示契合度越高。φ 的數學表達式如公式(6)所示:

本文所設計的方向獎勵函數如公式(7)所示,式中τ 為正向補償參數,τ 的取值根據實驗經驗得到,本文選取τ 值為0.785。

圖2 方向獎勵函數示意圖

2.3 方位獎勵函數設計

機械臂在規劃路徑過程中,需要綜合考慮與障礙物和目標點的相對方向和位置。本文采用權重向量λ=[λorientation,λlocation]構建方位獎勵函數。同時,本文以障礙物為中心,將機械臂工作空間劃分為危險區、警戒區和安全區。如圖3所示,在不同區域內動態調整λ 以提高算法的學習效率。在安全區域內,位置獎勵函數起主導作用;在警戒區域內,隨著離障礙物越來越近,位置獎勵函數作用降低,方向獎勵函數作用提高;在危險區域內,方向獎勵函數起主導作用。權重λ 的表達式如公式(8)所示:

結合權重λ,方位獎勵函數綜合表達式如公式(9)和(10)所示,Rglobal為方向獎勵和位置獎勵的拼接。

圖3 動態加權示意圖

3 基于方位獎勵函數的DPPO軌跡規劃

A-DPPO 學習過程由初始化、動作選擇執行、獎勵值獲取和網絡訓練4 個階段構成,如圖4 所示。在初始化階段,隨機初始化A-DPPO 智能體中的策略網絡μ(S|Θμ)、估值網絡Q(S,a|ΘQ)和懲罰項KL,其中估值網絡負責評判動作的價值,策略網絡負責預測應執行的動作軌跡,Θμ和ΘQ分別為策略網絡μ 和估值網絡Q的權重;在動作選擇執行階段,將機械臂與障礙物和目標點的相對方向和相對位置信息作為環境狀態St,策略網絡根據環境狀態St和估值網絡的評判價值計算機械臂六關節的轉矩at(動作)并執行,環境狀態變為St+1;在獎勵值獲取階段,方位獎勵函數依據機械臂與障礙物、目標點的相對運動方向和相對位置計算當前動作的獎勵值Rt;在網絡訓練部分,依據狀態St、動作at、獎勵值Rt、下一時刻狀態St+1和懲罰項KL 分別訓練策略網絡和估值網絡,修正動作偏差,尋找最優化的運動軌跡。A-DPPO偽代碼如算法1所示。

圖4 A-DPPO訓練過程示意圖

算法1 A-DPPO:基于方位獎勵函數的機械臂軌跡規劃方法

輸入:環境狀態S

輸出:動作a

1. 初始化策略網絡μ(S|Θμ)、估值網絡Q(S,a|ΘQ)和懲罰項KL

2. for episode=1 to M do

3. for t=1 to T do

4. at←μ(S|Θμ)

5. 依據方位獎勵函數獲得獎勵值Rt

6. 更新策略網絡權重Θμ

7. 更新估值網絡權重ΘQ

8. end for

9. end for

A-DPPO的算法流程如圖5所示。每一次迭代包含動作選擇執行、獎勵值獲取和網絡訓練三個階段。在策略網絡輸出動作后,動作選擇執行階段結束,進入獎勵值獲取階段。方位獎勵函數綜合考慮機械臂與障礙物的相對方向和位置輸出當前動作獎勵值,進入網絡訓練階段。在網絡訓練階段,更新策略網絡與估值網絡的網絡權重。

圖5 A-DPPO算法流程圖

4 實驗與討論

本文設計了兩組實驗來驗證A-DPPO 的性能。在第一組實驗中,DPPO分別使用基本、方向、位置和方位四種不同獎勵函數,通過對比收斂速度和獎勵值的均值驗證方位獎勵函數的有效性。其中,基本獎勵函數只有在機械臂末端成功到達目標點后才能夠得到獎勵。在第二組實驗中,通過將A-DPPO與目前主流的深度強化學習方法DDPG和A3C進行對比,驗證A-DPPO的學習效率和魯棒性。

每組實驗分別在難度不同的兩種存在障礙物的未知工作環境中進行,如圖6 所示,在工作環境A 中距離目標稍遠處放置一個障礙物,用于對規劃任務干擾較小的情況。工作環境B 中在距離目標較近的地方放置兩個障礙物,障礙物對規劃任務干擾較大。

圖6 未知工作環境示意圖

所有實驗中獎勵最大值設置為2 000,當獎勵值穩定達到該上限的90%,即認為軌跡規劃任務完成。圖7~9的坐標系中橫坐標表示幕(episode),縱坐標表示獎勵值(reward),本實驗環境配置見表1。

圖7 DPPO在不同工作環境下的獎勵函數曲線圖

圖9 A3C在工作環境B下的獎勵函數曲線圖

圖8 DDPG和A3C在工作環境A下的獎勵函數曲線圖

表1 實驗環境配置

4.1 A-DPPO性能分析

4.1.1 學習效率

在深度強化學習中,學習效率能夠反映算法性能的優劣。本文將障礙物初始化在同一位置,進行了30 次重復實驗,在表2 中對不同獎勵函數收斂之后,所獲獎勵值的均值以及所需幕數的均值進行了統計,并在圖7中繪制了獎勵函數曲線圖用于評估其學習效率。由圖7和表2 可以看出在兩種未知工作環境中,A-DPPO 均達到了最高的學習效率,在最少的幕數獲得了最大的獎勵值,相比使用基本獎勵函數的DPPO,收斂速度提高了43.9%,獎勵值提高了2.55%。說明本文所提出的方位獎勵函數具有良好的性能。

表2 DPPO收斂后獎勵值均值及幕數均值統計表

基于方向或位置獎勵函數的DPPO 學習效率提升幅度雖然不如A-DPPO,但相比使用基本獎勵函數的DPPO,收斂速度分別提高了16.6%和29.2%,獎勵值分別提高了1.25%和0.61%。方向和位置獎勵函數的數值曲線有一個交點,位置獎勵函數的獎勵值在前期低于方向獎勵函數,但隨著訓練時間的增加,逐漸高于方向獎勵函數。這是因為在訓練前期,機械臂會頻繁碰到障礙物,使用方向獎勵函數可以有效減少與障礙物的碰撞次數,在訓練后期,機械臂已經能熟練地躲避障礙物,位置獎勵函數在到達目標點這一任務中更具有優勢。方向獎勵函數能夠有效地提升獎勵值,但收斂速度稍慢。位置獎勵函數能夠快速地提升收斂速度,但獎勵值提升幅度稍低。方位獎勵函數綜合了兩者優點,達到了最高的學習效率。基本獎勵函數在探索前期由于探索的盲目性,會有一段時間獎勵值持續偏低的情況。而方位獎勵函數能夠在機械臂的學習過程中提供有效的探索指導,從而大幅度減少了這一情況,使得A-DPPO的學習效率得到有效的提高。

4.1.2 魯棒性

本文依據獎勵值的均值與標準差來評定算法魯棒性的優劣。本文進行了30次重復實驗,在表3中統計了基于不同獎勵函數的DPPO 方法在兩種工作環境中所獲獎勵值的均值與標準差。

表3 DPPO使用不同獎勵函數的魯棒性對比

通過分析表3 可以看出,A-DPPO 在兩個未知工作環境中魯棒性均達到了最優,均值提升了2.55%,標準差下降了34.6%。這主要得益于方向和位置兩個獎勵函數的綜合使用,能夠獲得更多準確有效的獎勵。單一使用方向或位置獎勵函數的DPPO 方法魯棒性雖然不如A-DPPO,但相比基本獎勵函數,均值提升了0.61%以上,標準差下降了16%以上。

4.2 深度強化學習方法對比

4.2.1 學習效率對比

本文在重復30 次實驗后,統計了DDPG 與A3C 收斂之后所獲獎勵值的均值以及所需幕數的均值,如表4所示。由表2 和表4 可得,A-DPPO 方法在工作環境A中,用最少的幕數獲得了最大的獎勵值,收斂速度平均提升了58.5%,并且獎勵值平均提高了9.6%。圖7 為DDPG 和A3C 在工作環境A 中的獎勵函數曲線圖。結合圖7(a)和圖8可得,在工作環境A中,A-DPPO相比基于基本獎勵函數的DDPG,收斂速度提升了98.5%以上,相比基于基本獎勵函數的A3C,收斂速度也有18.5%的提升。但是相比基于方位獎勵函數的A3C方法,收斂速度稍低。其主要原因是A3C中使用優勢函數作為動作的附加評價標準,優勢函數的附加評價與方位獎勵函數的獎勵值相結合能夠有效加速收斂。由于DDPG 學習效率過低,無法適用于難度較高的工作環境B,因此在工作環境B的實驗中,本文提出的方法A-DPPO主要與A3C進行對比。

表4 DDPG和A3C收斂后獎勵值均值及幕數均值統計表

圖9 是A3C 在工作環境B 中的獎勵函數曲線圖。結合圖7(b)和圖9綜合分析可得,本文所提出的A-DPPO方法在環境B中相比基于基本獎勵函數的A3C,收斂速度提高了57.3%以上。由表2和表4可得,A-DPPO方法相比基于方位獎勵函數的A3C 方法,收斂速度提升了33.3%,獎勵值提高了1.3%。這是因為環境B的工作任務相對困難,A3C 在探索過程中會存在更多的無效探索,而方位獎勵函數能夠為A-DPPO 提供探索指導,有效地減少了無效探索,提升了A-DPPO的學習效率。

4.2.2 魯棒性對比

統計了DDPG、A3C基于不同獎勵函數在進行30次重復實驗后,所獲獎勵值的均值與標準差,如表5所示,并結合表3在圖10中進行了可視化分析。根據圖10分析可得,A-DPPO在環境A中相比基于基本獎勵函數的DDPG,均值提升了15.12%,標準差下降了75.5%。雖然A-DPPO 在環境A 中相比基于方位獎勵函數的A3C 方法提升有限,但在工作難度很高的環境B 中,均值提升了2.9%,標準差下降了36.4%,并且A-DPPO 方法在環境B 下相比基于基本獎勵函數的A3C,均值提升了5.3%,標準差下降了54.6%。這主要得益于A-DPPO 使用了懲罰項機制,即使在較高難度的任務中,也能夠保持合理的規劃策略更新幅度。這也是在工作環境B中,A-DPPO 的獎勵值曲線比A3C 更加平滑的原因。A3C在環境B中的魯棒性相比環境A有明顯降低,其主要原因是A3C的優勢函數對于相對困難任務的優勢評價具有一定的偏差。

表5 DDPG和A3C使用不同獎勵函數的魯棒性對比

圖10 魯棒性可視化對比圖

4.2.3 討論

綜合以上實驗結果,可以看出本文提出的A-DPPO方法,在不同的未知工作環境中相比現有方法均取得了最高的學習效率和最好的魯棒性。雖然A-DPPO 在工作環境A 中的學習效率相比基于方位獎勵函數的A3C稍低,但在實際應用環境中,工作環境B更具有代表性,A-DPPO 在環境B 中具有更高的學習效率和更優的魯棒性。

5 結束語

本文提出了一種基于方位獎勵函數的機械臂軌跡規劃方法A-DPPO。本文根據機械臂與障礙物和目標的相對方向和位置設計了一種新型方位獎勵函數,有效地解決了無效探索導致的學習效率偏低的問題。首次將DPPO 用于在未知工作環境中的機械臂軌跡規劃任務,提升了規劃策略的魯棒性。實驗證明,本文提出的A-DPPO 在不同難度的未知工作環境中均取得了良好的效果,學習效率更高,魯棒性更好。

猜你喜歡
方向機械規劃
2022年組稿方向
計算機應用(2022年2期)2022-03-01 12:33:42
2021年組稿方向
計算機應用(2021年4期)2021-04-20 14:06:36
2021年組稿方向
計算機應用(2021年1期)2021-01-21 03:22:38
調試機械臂
當代工人(2020年8期)2020-05-25 09:07:38
規劃引領把握未來
簡單機械
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
機械班長
迎接“十三五”規劃
主站蜘蛛池模板: 欧美一级高清片欧美国产欧美| 亚洲人成在线精品| 久久婷婷国产综合尤物精品| 国产成人做受免费视频| 国产精品分类视频分类一区| 欧美成人一级| 99中文字幕亚洲一区二区| 色哟哟国产精品一区二区| 亚洲AⅤ无码国产精品| 九色免费视频| 中文字幕久久亚洲一区 | 国产女人综合久久精品视| 国产精品三级av及在线观看| 天天色天天综合| 日韩最新中文字幕| 日本国产精品一区久久久| 欧美黑人欧美精品刺激| 一本久道久久综合多人| 中文字幕 91| 国产在线欧美| 极品尤物av美乳在线观看| 免费观看成人久久网免费观看| 国产成人区在线观看视频| 国产精品美人久久久久久AV| 欧美a在线视频| 色婷婷天天综合在线| 中文字幕乱妇无码AV在线| 色婷婷综合激情视频免费看| 玖玖免费视频在线观看| 毛片在线看网站| 亚洲色图欧美激情| 无码有码中文字幕| 国产亚洲高清在线精品99| 在线观看精品国产入口| 亚洲九九视频| 99爱在线| 亚洲国产成人在线| 91美女在线| 女人18毛片一级毛片在线 | 国产九九精品视频| 欧美日韩在线成人| 丰满的少妇人妻无码区| 欧美成人怡春院在线激情| 国产女人综合久久精品视| 91精品视频在线播放| 美女无遮挡免费视频网站| 久久综合激情网| 99久久精品国产麻豆婷婷| 全色黄大色大片免费久久老太| 亚洲av综合网| 亚洲国产高清精品线久久| 免费人成视网站在线不卡| 无码精品福利一区二区三区| 婷婷在线网站| 久久国产亚洲欧美日韩精品| 国产精品hd在线播放| 亚洲人人视频| 18黑白丝水手服自慰喷水网站| jijzzizz老师出水喷水喷出| 日韩色图区| 巨熟乳波霸若妻中文观看免费| 欧美中文字幕无线码视频| 18禁色诱爆乳网站| 国产精品亚洲综合久久小说| 国产精品香蕉在线| 亚洲最新地址| 国产精品刺激对白在线| 亚洲国产日韩在线成人蜜芽| 国产一区在线视频观看| 国产成人精品在线1区| 成人午夜天| 国产精品林美惠子在线播放| 2022国产91精品久久久久久| 国产精品jizz在线观看软件| 国产毛片一区| 极品国产一区二区三区| 国产免费自拍视频| 四虎永久免费网站| 天天综合网在线| 波多野衣结在线精品二区| 亚洲AⅤ无码国产精品| 欧美精品三级在线|