








摘 要: 針對深度強化學習算法在復雜動態環境中訓練時,由于環境的部分可觀測性原因導致智能體難以獲得有用信息而不能學習到良好策略且算法收斂速度慢等典型問題,提出一種基于LSTM和非對稱actor-critic網絡的改進DDPG算法。該算法在actor-critic網絡結構中引入LSTM結構,通過記憶推理來學習部分可觀測馬爾可夫狀態中的隱藏狀態,同時在actor網絡只使用RGB圖像作為部分可觀測輸入的情況下,critic網絡利用仿真環境的完全狀態進行訓練構成非對稱網絡,加快了訓練收斂速度。通過在ROS中進行機械臂抓取仿真實驗,結果顯示該算法相比于DDPG、PPO和LSTM-DDPG算法獲得了更高的成功率,同時具有較快的收斂速度。
關鍵詞: 深度確定性策略梯度; 長短期記憶; 非對稱actor-critic; 深度強化學習; 動態環境
中圖分類號: TP181"" 文獻標志碼: A
文章編號: 1001-3695(2022)01-032-0183-05
doi:10.19734/j.issn.1001-3695.2021.05.0200
Research on improved DDPG algorithm based on LSTM and asymmetric network
He Fujun, Wang Xiaozheng, Liu Kai
(School of Mechanical Science amp; Engineering, Northeast Petroleum University, Daqing Heilongjiang 163318, China)
Abstract: When the deep reinforcement learning algorithm is trained in a complex dynamic environment,it is difficult for the agent to obtain useful information due to the partial observability of the environment,which leads to typical problems such as failure to learn good strategies and slow algorithm convergence speed.This paper proposed an improved DDPG algorithm based on LSTM and asymmetric actor-critic network.This method introduced the LSTM structure into actor-critic network to learn the hidden states in partially observable Markov through memory reasoning.At the same time,when the actor network only used RGB images as partially observable inputs,the critic network used the complete state of the simulation environment to train,which formed an asymmetric network and speeded up the training convergence.The simulation experiment of manipulator grasping in ROS shows that the proposed algorithm has higher success rate and faster convergence speed compared with DDPG,PPO and LSTM-DDPG.
Key words: DDPG; LSTM; asymmetric actor-critic; deep reinforcement learning; dynamic environment
0 引言
進行深度強化學習訓練時,在仿真環境中可以獲得智能體及其周圍環境的完整狀態信息,豐富的環境信息可以幫助智能體學習到良好的動作策略。但是在現實世界中,智能體往往只能獲取部分環境信息,由此難以判斷作出正確的動作。為成功訓練模型,一種方法是通過信息推理得到環境的完整狀態信息, Andrychowicz等人[1]通過可視檢測器和狀態預測來推斷完整狀態;Long等人[2]提出滑模混合機械臂振動控制模型來解決部分可觀測狀態下的控制問題,但是通過部分觀測數據預測完整狀態信息往往比較復雜,同時也面臨復合誤差的問題。另一種方法是在仿真環境中進行環境渲染以增加隨機性,提高模型適應性,Tobin等人[3]提出區域隨機化渲染環境的模型來訓練深度神經網絡;Luo等人[4]提出基于單圖像視覺模型來訓練機器人完成裝配任務。但是這些技術由于輸入維數大、可觀測性受限等問題,導致訓練難以收斂,無法學習復雜的行為。文獻[5,6]提出非對稱actor-critic結構的深度強化學習算法模型,actor網絡使用部分觀測狀態進行訓練,而critic網絡采用仿真環境中的完整狀態進行訓練,由此可學習復雜行為并加快收斂,此模型在多智能體合作任務訓練中有較好的表現。Pinto等人[7]在此模型基礎上將其應用于機器人學習和圖像部分可觀測性方面的研究中,提高了模型的性能并應用于實際中,但是并沒有對動態環境的訓練效果進行探討。而以序列圖像為輸入的訓練任務中,前后圖像之間往往存在隱藏狀態,如環境中物體的姿態/速度等信息,一般深度強化學習模型對于隱藏狀態并不能進行很好的學習,因此,對于以序列圖像為輸入的動態環境深度強化學習算法訓練問題有待解決。
循環神經網絡(recurrent neural network,RNN)是一種處理時序數據的神經網絡,在機器人應用方面,文獻[8,9]使用長短期記憶(long short-term memory,LSTM)單元作為近端策略優化(proximal policy optimization,PPO)算法的額外隱藏層,成功訓練五指人形機械手操作一個方塊,表明記憶的使用可以幫助模型適應新的環境。Inoue等人[10]使用了一種基于Q學習的方法,使用兩個LSTM層用于Q函數近似過程,以解決軸孔裝配任務。Lobos-Tsunekawa等人[11]提出基于LSTM-DDPG算法的雙足機器人避障模型,可記憶地圖障礙物位置并實現避障。雖然記憶增強策略已被證明可在連續控制問題中改善訓練結果,但在部分可觀測性連續控制問題方面的研究較少,同時在訓練收斂速度方面也關注較少。
針對上述問題,本文提出一種基于LSTM的非對稱actor-critic結構DDPG(asymmetric LSTM-DDPG)深度強化學習方法,actor網絡將序列RGB圖像作為部分觀測輸入,而critic網絡將仿真環境下完整序列狀態作為輸入。由于critic網絡在完全可觀測狀態下訓練,其學習值函數的速度要快得多,可以對actor網絡進行更好的更新。同時在算法中引入LSTM網絡結構,提高對動態時序部分可觀測輸入的適應性,通過在動態環境抓取任務上驗證,所提出的方法有良好的表現。
3 仿真實驗
3.1 環境搭建
采用ROS+Gazebo+TensorFlow+Keras聯合仿真,其中ROS是次機器人操作系統,充當了仿真軟件Gazebo和機器學習平臺TensorFlow之間的接口[16]。Gazebo中集成豐富傳感器與物理仿真插件,也是UR系列機器臂官方推薦仿真開源仿真平臺,具體環境搭建如圖5所示。
實驗分為靜態抓取和動態抓取,靜態為桌面抓取,仿真環境如圖5(a)所示,動態抓取為工廠流水線模擬抓取,仿真環境如圖5(b)所示,末端執行器為吸盤。兩種實驗條件下,均通過eye-in-hand的方式將相機固定在機械臂末端執行器前方,相機光軸與機械臂末端執行器z軸平行,任務執行全程機械臂末端執行器z軸垂直桌面和傳送帶。
在ROS環境下,通過OpenCV圖像處理庫以及MoveIt!運動學規劃庫建立仿真環境下的目標狀態獲取和動作執行控制框架,通過訂閱機械臂末端位姿主題和圖像處理主題可以獲得機械臂關節參數(位置、速度)、末端執行器位姿和目標圖像。仿真訓練通過訂閱圖像主題/cxy作為改進算法的actor網絡輸入,actor網絡的輸出通過MoveIt!轉換發布機械臂控制主題/joint_state控制機械臂運動,actor網絡輸出的機械臂末端執行器運動位姿 (x,y,θ)以及通過OpenCV處理得到的目標點位置作為輸入傳遞給critic網絡進行訓練。仿真消息結構如圖6所示。
經過OpenCV處理后獲得的目標像素層坐標圖如圖7所示,其中,(a)為靜態抓取,用于完整狀態獲取目標像素層坐標處理后的圖像;(b)為動態抓取,用于完整狀態獲取目標像素層坐標處理后的圖像。
ROS仿真環境的運行節點數據流部分示意圖如圖8所示。
3.2 結果分析
實驗通過對比DDPG、PPO、LSTM-DDPG和asymmetric LSTM-DDPG算法訓練結果來驗證所提算法的優越性。其中對比算法PPO是目前較為先進的深度強化學習算法,適用于離散和連續動作控制,本文所采用的PPO算法框架是基于文獻[8]的工作,為保證實驗對比的公平性,實驗默認參數設置保持一致,使用相同的獎勵函數。
3.2.1 靜態抓取任務算法對比分析
使用相同的超參數,目標物體靜止放置在桌面上,LSTM-DDPG算法對于actor和critic都使用SLTM結構,對比平均獎勵變化、每集步數變化,結果如圖9、10所示。
從圖9、10可以看出,靜態抓取實驗中,由于在靜態抓取任務中環境相對簡單,非對稱網絡結構優勢并不明顯,同時LSTM-DDPG算法和asymmetric LSTM-DDPG算法都引入了LSTM層結構,所以在最終的平均獎勵和每集步數上并未有較大差距。在收斂速度上,兩者基本都在訓練1 000集左右即進入收斂狀態,asymmetric LSTM-DDPG算法提前100集左右進入收斂狀態。由于采用RGB圖像作為actor網絡輸入,環境依然屬于部分可觀測,經典DDPG和PPO算法表現相對較差,但相比DDPG算法,由于PPO算法的噪聲方差是可訓練矢量,由此增強了PPO算法的穩健性,所以訓練相對穩定,收斂速度較DDPG略快。asymmetric LSTM-DDPG平均獎勵為7.3,LSTM-DDPG平均獎勵為6.8,PPO平均獎勵為1.3,DDPG平均獎勵為-2.6。
取算法訓練后500集的數據。此時四種算法基本已進入穩定狀態,可較好地對比算法訓練效果。結果如表1所示。
由表1可以看出,asymmetric LSTM-DDPG算法成功率相比DDPG、PPO、LSTM-DDPG算法分別提升了25.5%、23.6%、4.6%。
3.2.2 動態抓取任務算法對比分析
使用相同的超參數, LSTM_DDPG算法對于actor和critic都使用LSTM結構,對比平均獎勵變化、每集步數變化,結果如圖11、12所示。
動態抓取實驗中,由于在部分觀測中目標位置、速度等復雜隱藏狀態信息未知,所以從圖11、12可以看出,DDPG在部分觀測中表現較差,在前500集左右基本很難學習到好的策略,對于PPO算法也遇到同樣問題,雖然在訓練中并未提供目標位置狀態信息,但是由于在獎勵設置時使用了目標位置狀態信息,經過長時間訓練,DDPG和PPO算法也能完成抓取任務,但是穩定性較差,成功率較低。對比LSTM-DDPG和asymme-tric LSTM-DDPG算法,由于這兩種算法都具有LSTM結構,對于時序輸入數據有記憶功能,能夠學到隱層狀態信息,所以在動態時序輸入任務中表現良好,同時由于asymmetric LSTM-DDPG采用完全狀態信息訓練critic網絡,能夠對actor網絡有更好的更新,所以在收斂速度上比LSTM-DDPG更快,相比LSTM_DDPG算法,收斂集數提前250集左右,但是值得注意的是,對于最終收斂結果來看,兩者的成功率接近。在平均獎勵獲得上,asymmetric LSTM-DDPG算法平均獎勵為7.5,LSTM-DDPG算法平均獎勵為5.2,PPO算法平均獎勵為-4.1,DDPG算法平均獎勵為-7.3。
取算法訓練后500集的數據對比算法訓練效果,結果如表2所示。
由表2可以看出,asymmetric LSTM-DDPG算法成功率相比DDPG、PPO、LSTM-DDPG算法分別提升了38.1%、34.2%、5.3%。由表2可知,經典DDPG和PPO算法由于不具有推斷隱藏狀態信息能力,在時序動態部分可觀測任務中表現較差,由于在獎勵函數中使用了目標位置狀態,所以也能完成任務,但是效果較差。對比表1和2,可知在靜態和動態兩種情況下,asymmetric LSTM-DDPG都能有比較穩定的表現,能夠學到良好策略。
4 結束語
本文針對深度強化學習算法在部分可觀測馬爾可夫狀態以及動態環境中訓練表現較差等問題,提出一種基于LSTM和非對稱actor-critic網絡的DDPG算法,利用模擬環境的完整狀態可觀測性來訓練更好的策略,通過actor-critic網絡結構,critic在完全狀態下接受訓練,而actor只使用RGB圖像作為輸入,由此加快網絡的收斂速度;actor和critic網絡都采用LSTM結構,由此來處理動態時序狀態環境。最后通過機械臂抓取實驗證明了改進的DDPG算法可提高收斂速度,并對時序部分可觀測狀態有良好的訓練策略。
對于非對稱actor-critic網絡結構,單獨actor或者critic網絡使用LSTM結構可能是一種潛在的可行方法,雖然本文并未進行此工作,但是在未來的工作中值得驗證。
參考文獻:
[1]Andrychowicz M,Wolski F,Ray A,et al.Hindsight experience replay[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:5048-5058.
[2]Long Teng,Li En,Hu Yunqing,et al.A vibration control method for hybrid structured flexible manipulator based on sliding mode control and reinforcement learning[J].IEEE Trans on Neural Networks and Learning Systems,2021,32(2):841-852.
[3]Tobin J,Fong R,Ray A,et al.Domain randomization for transferring deep neural networks from simulation to the real world[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2017:23-30.
[4]Luo Jieliang,Li Hui.Recurrent distributed reinforcement learning for partially observable robotic assembly[EB/OL].(2021-03-17).https://arxiv.org/pdf/2010.08052v1.pdf.
[5]Konda V R,Tsitsiklis J N.Actor-critic algorithms[C]//Advances in Neural Information Processing Systems.Red Hook,NY:Curran Asso-ciates Inc.,2000:1008-1014.
[6]Lowe R,Wu Yi,Tamar A,et al.Multi-agent actor-critic for mixed cooperative-competitive environments[C]//Proc of the 31st Internatio-nal Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6382-6393.
[7]Pinto L,Andrychowicz M,Welinder P,et al.Asymmetric actor critic for image-based robot learning[EB/OL].(2017-10-18).https://arxiv.org/pdf/1710.06542.pdf.
[8]Andrychowicz M,Baker B,Chociej M,et al.Learning dexterous in-hand manipulation[J].International Journal of Robotics Research,2019,39(1):3-20.
[9]Greff K,Srivastava R K,Koutnik J,et al.LSTM:a search space odyssey[J].IEEE Trans on Neural Networks and Learning Systems,2017,28(10):2222-2232.
[10]Inoue T,De Magistris G,Munawar A,et al.Deep reinforcement learning for high precision assembly tasks[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Pisca-taway,NJ:IEEE Press,2017:819-825.
[11]Lobos-Tsunekawa K,Leiva F,Ruiz-del-Solar J.Visual navigation for biped humanoid robots using deep reinforcement learning[J].IEEE Robotics and Automation Letters,2018,3(4):3247-3254.
[12]Iriondo A,Lazkano E,Susperregi L, et al.Pick and place operations in logistics using a mobile manipulator controlled with deep reinforcement learning[J].Applied Sciences,2019,9(2):348-354.
[13]Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control with deep reinforcement learning[EB/OL].(2015-11-18).https://arxiv.org/pdf/1509.02971v2.pdf.
[14]Yang Rui,Lyu Jiafei,Yang Yu,et al.Bias-reduced multi-step hindsight experience replay[EB/OL].(2021-02-25).https://arxiv.org/pdf/2102.12962v1.pdf.
[15]武曲,張義,郭坤,等.結合LSTM的強化學習動態環境路徑規劃算法[J].小型微型計算機系統,2021,42(2):334-339. (Wu Qu,Zhang Yi,Guo Kun,et al.LSTM combined with reinforcement learning dynamic environment path planning algorithm[J].Journal of Chinese Computer Systems,2021,42(2):334-339.)
[16]周友行,趙晗妘,劉漢江,等.采用DDPG的雙足機器人自學習步態規劃方法[J].計算機工程與應用,2021,57(6):254-259. (Zhou Youxing,Zhao Hanyun,Liu Hanjiang,et al.Self-learning gait planning method for biped robot using DDPG[J].Computer Engineering and Applications,2021,57(6):254-259.)
[17] Mnih V,Kavukcuoglu K,Silver D,et al.Playing Atari with deep reinforcement learning[EB/OL].(2013-12-19).https://arxiv.org/pdf/1312.5602.pdf.