999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學(xué)習(xí)的AGV智能導(dǎo)航系統(tǒng)設(shè)計

2022-01-01 00:00:00賀雪梅匡胤楊志鵬楊亞喬
計算機應(yīng)用研究 2022年5期

摘 要: 針對現(xiàn)有的AGV在大規(guī)模未知復(fù)雜環(huán)境中進行自主導(dǎo)航配送的問題,基于深度強化學(xué)習(xí)完成了AGV智能導(dǎo)航系統(tǒng)設(shè)計。首先,結(jié)合傳感器對周圍的障礙物進行探測感知,利用DDPG(deep deterministic policy gradient)算法實現(xiàn)AGV小車從環(huán)境的感知輸入到動作的直接輸出控制,幫助AGV完成自主導(dǎo)航和避障任務(wù)。此外,針對訓(xùn)練樣本易受環(huán)境干擾的問題,提出了一種新穎的DL(disturb learning)- DDPG算法,通過對學(xué)習(xí)樣本中相關(guān)數(shù)據(jù)進行高斯噪聲預(yù)處理,幫助智能體適應(yīng)噪聲狀態(tài)下的訓(xùn)練環(huán)境,提升了AGV在真實環(huán)境中的魯棒性。仿真實驗表明,經(jīng)改進后的DL-DDPG 算法能夠為AGV導(dǎo)航系統(tǒng)提供更高效的在線決策能力,使AGV小車完成自主導(dǎo)航與智能控制。

關(guān)鍵詞: 自動導(dǎo)引車; 深度強化學(xué)習(xí); 深度策略性梯度; 智能導(dǎo)航

中圖分類號: TP399"" 文獻標志碼: A

文章編號: 1001-3695(2022)05-036-1501-04

doi:10.19734/j.issn.1001-3695.2021.10.0472

Design of AGV intelligent navigation system based on deep reinforcement learning

He Xuemei1, Kuang Yin1, Yang Zhipeng2, Yang Yaqiao3

(1.College of Art amp; Design,Shaanxi University of Science amp; Technology, Xi’an 710021, China; 2.

System Design Institute of Hubei Aerospace Technology Academy, Wuhan 430040, China; 3.State Grid Wuhan Dongxihu District Power Supply Company, Wuhan 430040, China)

Abstract: Aiming at autonomous navigation and delivery of AGV in large-scale complicated and unknown environment,this paper put forward an autonomous online decision-making algorithm based on deep reinforcement learning.Specifically,combining with sensors to detect and perceive surrounding obstacles,the method used DDPG algorithm to realize the input of environmental perception and action direct output control,which helped the AGV complete autonomous navigation and autonomous obstacle avoidance tasks.To solve the problem,it disturbed the training samples easily by the environment,the algorithm preprocessed the relevant data with Gaussian noise in the learning sample,which helped the agent adapt to the training environment under noise and improve its robustness in real environment.Simulation results show that the improved DL-DDPG algorithm can provide more efficient online decision-making ability for the control system and enable the competency of autonomous navigation and intelligent control of AGV.

Key words: automatic guide vehicle; deep reinforcement learning; deep deterministic policy gradient; intelligent navigation

0 引言

自動導(dǎo)引車(automatic guided vehicle,AGV)是一種以蓄電池作為動力源,裝有非接觸控制導(dǎo)向裝置的無人駕駛自動化搬運小車[1]。隨著智能制造、電子商務(wù)的迅猛發(fā)展,AGV作為物料、產(chǎn)品的自動化運輸設(shè)備,其應(yīng)用規(guī)模逐漸擴大,應(yīng)用場景也變得更加復(fù)雜。AGV的自主導(dǎo)航能力對改善物流運輸系統(tǒng)結(jié)構(gòu)、降低物流運輸成本、提升系統(tǒng)運行效率起著重要作用,具有巨大的應(yīng)用價值[2]。因此,開展AGV自主智能導(dǎo)航?jīng)Q策算法研究具有重要意義。近年來,隨著AGV應(yīng)用領(lǐng)域的逐步擴大,關(guān)于AGV的路徑規(guī)劃問題也逐漸成為研究熱點。傳統(tǒng)的路徑規(guī)劃算法有 Dijkstra算法[3]、A*算法[4]、D*算法[5]、人工勢場法[6]以及快速擴展隨機樹法[7]等,這些算法用于解決已知環(huán)境下的路徑規(guī)劃問題,相對容易實現(xiàn),但傳統(tǒng)的路徑規(guī)劃算法易受到環(huán)境因素的干擾,在大規(guī)模狀態(tài)空間下處理數(shù)據(jù)能力不足,算法收斂不穩(wěn)定。

隨著人工智能技術(shù)的飛速發(fā)展,深度強化學(xué)習(xí)(deep reinforcement learning,DRL)以其出色的感知能力與決策能力在智能導(dǎo)航和路徑規(guī)劃領(lǐng)域中發(fā)揮著重要作用[8]。Levine等人[9]利用DRL方法對視覺感知和運動控制進行端到端聯(lián)合訓(xùn)練,使機器人完成了對特定物品的放置任務(wù)。Mirowski等人[10]將A3C算法與循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合,使智能體在迷宮中完成路徑規(guī)劃與周圍環(huán)境的地圖構(gòu)建。Kendall等人[11]基于 DDPG算法使智能體能有效獲取周圍的視覺信息,從而控制其自主移動。Chen等人[12]將注意力機制融入算法,提出了基于改進DQN(deep Q network)算法的移動路徑規(guī)劃方法,可令移動機器人根據(jù)實時圖像信息獲得控制策略,并在與人群交錯時主動避讓。Sallab 等人[13]將DQN和Actor-Critic算法結(jié)合以控制無人駕駛車輛的行駛。Liao等人[14]提出了將勢場法與DQN算法相結(jié)合的AGV路徑規(guī)劃方法,解決了傳統(tǒng)的強化學(xué)習(xí)算法在大規(guī)模狀態(tài)空間下處理數(shù)據(jù)能力不足的問題。

DRL算法在進行路徑規(guī)劃時,需要智能體依靠傳感器、雷達等設(shè)備對周圍環(huán)境探測信息以完成任務(wù),因此從傳感器獲取的信息準確性對算法性能有重要影響。受硬件性能、信息傳輸?shù)扔绊懀悄荏w得到的數(shù)據(jù)樣本與真實數(shù)據(jù)之間會存在一定誤差,造成AGV對真實場景的誤判,進而影響其自主導(dǎo)航?jīng)Q策效率。

為此,本文基于一種改良深度強化學(xué)習(xí)算法完成了AGV智能導(dǎo)航系統(tǒng)設(shè)計。具體地,通過構(gòu)建深度強化學(xué)習(xí)模型,實現(xiàn)了AGV小車從狀態(tài)感知輸入到移動控制輸出的映射,幫助AGV小車進行實時自主導(dǎo)航?jīng)Q策。同時,針對訓(xùn)練樣本易受環(huán)境干擾的問題,為了降低數(shù)據(jù)樣本與真實數(shù)據(jù)的誤差,在深度確定性策略梯度DDPG算法的基礎(chǔ)上[15~17],提出了一種改良的DL-DDPG算法,即對訓(xùn)練樣本進行噪聲預(yù)處理,幫助其適應(yīng)噪聲環(huán)境下的訓(xùn)練狀態(tài),降低現(xiàn)實誤差帶來的影響。

3 仿真實驗

3.1 仿真環(huán)境

為了驗證DL-DDPG算法在AGV小車智能導(dǎo)航與自主控制上的可行性,本文設(shè)置了對應(yīng)的仿真實驗加以驗證。本仿真環(huán)境在Gym-agent-master、Python3.6、TensorFlow 1.14.0、PyCharm平臺上運行,采用VTK第三方庫在北東地坐標系下生成仿真環(huán)境,如圖4所示。環(huán)境中的建筑物(障礙物)被抽象為圓柱體,而AGV小車被抽象為球形。設(shè)定AGV小車的最大運行速度為2.0 m/s,模擬場景中的障礙物半徑為1 m,障礙物中心間距為3 m。為保證AGV導(dǎo)航任務(wù)的有效性,設(shè)定AGV與目的地初始位置不小于50 m,仿真步長為1 s。在仿真實驗中,構(gòu)建了一個類似的仿真模擬器來實現(xiàn)大型復(fù)雜環(huán)境中的AGV自主智能控制。為了實驗的簡便性,設(shè)定忽略對AGV小車的動力學(xué)物理約束,并假定控制命令可以立即生效。AGV對環(huán)境的觀察通過測距儀實現(xiàn),設(shè)定當AGV與目標點距離小于1 m時,視為AGV到達目的地,完成自主導(dǎo)航和智能控制任務(wù)。

本實驗構(gòu)建的Actor網(wǎng)絡(luò)、Critic網(wǎng)絡(luò)及其目標網(wǎng)絡(luò)為BP神經(jīng)網(wǎng)絡(luò),其中輸入層一層、隱藏層兩層、輸出層一層,設(shè)定隱藏層中神經(jīng)元個數(shù)為128,引入非線性函數(shù)ReLU作為激勵函數(shù)。隨著實驗的進行,神經(jīng)網(wǎng)絡(luò)利用反向傳播機制,即梯度下降法,進行網(wǎng)絡(luò)擬合和參數(shù)更新。設(shè)定A網(wǎng)絡(luò)和C網(wǎng)絡(luò)學(xué)習(xí)速率分別為0.000 1和0.000 2,獎勵折扣系數(shù)為0.99。設(shè)定經(jīng)驗池容量為100 000,當經(jīng)驗池存滿數(shù)據(jù)后,進入學(xué)習(xí)狀態(tài),每次從經(jīng)驗池中抽取的樣本數(shù)量為32。

3.2 實驗結(jié)果與分析

設(shè)定相關(guān)超參數(shù)后,開始對AGV進行訓(xùn)練。設(shè)定若AGV在規(guī)定時間內(nèi)未完成導(dǎo)航任務(wù)或與障礙物相撞,則視為回合結(jié)束,任務(wù)場景被重置,訓(xùn)練進入新的回合。同時,為了模擬真實的配送環(huán)境,設(shè)定場景更新規(guī)則,即每一回合AGV與目的地的位置隨機產(chǎn)生,且障礙物的數(shù)量在100~200隨機生成。

為了驗證本文提出的DL-DDPG算法在AGV自動導(dǎo)航與智能控制中的有效性,本仿真實驗分別用DL-DDPG、DDPG和TD3算法對AGV小車進行訓(xùn)練和對比測試,并記錄訓(xùn)練過程中AGV小車每回合內(nèi)獲得的獎勵值,如圖5所示。

可以看出,DL-DDPG算法相比另外兩種算法的上升趨勢最為明顯,在4 000次左右率先達到240左右的峰值。TD3算法下的回報表現(xiàn)最低,且存在較大振蕩。傳統(tǒng)的DDPG算法在2 000次左右才開始有上升趨勢,并存在較大波動,到達峰值的時間也晚于優(yōu)化改進過的DL-DDPG算法,這說明本文提出的DL-DDPG算法在訓(xùn)練過程中收斂速度更快,且收斂后所獲取的回合獎勵更高。綜上可以得出,DL-DDPG算法能有效幫助AGV小車適應(yīng)噪聲狀態(tài)下的訓(xùn)練環(huán)境,提升訓(xùn)練效率。

同時,在每一訓(xùn)練回合中統(tǒng)計了近1 000回合內(nèi)的AGV導(dǎo)航任務(wù)成功率,如圖6所示。

可以看出,隨著曲線收斂后,DDPG和TD3算法下,AGV的任務(wù)完成率都不足80%,學(xué)習(xí)到的策略表現(xiàn)較差。而DL-DDPG算法訓(xùn)練下的成功率上升較快,約3 000次訓(xùn)練之后,AGV自主導(dǎo)航任務(wù)成功率基本穩(wěn)定在80%以上,峰值接近90%,明顯高于另外兩種算法。這意味著DL-DDPG算法下的AGV導(dǎo)航策略更為有效,導(dǎo)航成功率更高。

為了驗證AGV系統(tǒng)導(dǎo)航策略的有效性,將基于DL-DDPG算法訓(xùn)練好的AGV智能控制系統(tǒng)模型部署在三種測試場景下進行測試,三種測試場景下分別設(shè)定障礙物數(shù)量為100、150、200個,仿真結(jié)果如圖7所示。其中左側(cè)為AGV運動軌跡圖,右側(cè)為AGV實時速度變化圖。從仿真實驗結(jié)果可以得出,在不同障礙物數(shù)量的環(huán)境下,訓(xùn)練好的AGV都能實現(xiàn)智能自主導(dǎo)航,最終成功避開障礙物到達目的地。此外,根據(jù)AGV速度變化趨勢可以看出,隨著任務(wù)進行,AGV能穩(wěn)定提升速度并保持在最大速度限制以內(nèi),最終成功到達目的地,這意味著經(jīng)過深度強化學(xué)習(xí)訓(xùn)練的AGV智能系統(tǒng)能夠?qū)崿F(xiàn)自主導(dǎo)航?jīng)Q策。

為了進一步驗證DL-DDPG算法下AGV自主導(dǎo)航策略的有效性,本文分別在上述三種場景下進行1 000回合對比測試,并收集AGV導(dǎo)航成功率,如表1所示。

可以看出,隨著障礙物數(shù)量的增加,雖然AGV小車的導(dǎo)航成功率呈下降趨勢,但DL-DDPG算法下的AGV自主導(dǎo)航任務(wù)成功率始終高于其他兩種算法。在200個障礙物的復(fù)雜場景下,DL-DDPG算法下AGV的成功率依然維持在76.6%的較高水平。這表示DL-DDPG算法下的AGV導(dǎo)航系統(tǒng)能夠?qū)崟r感應(yīng)周圍狀態(tài)并調(diào)整自身策略,可以適應(yīng)更為復(fù)雜的配送場景。

同時,記錄了上述測試過程中所有成功回合的數(shù)據(jù),并統(tǒng)計了三種算法下的平均任務(wù)完成時間,如表2所示。在簡單場景下,三種算法下的AGV導(dǎo)航任務(wù)時間無明顯差異。但隨著障礙物數(shù)量的提升,DL-DDPG算法下的AGV系統(tǒng)展示了更好的適應(yīng)能力,且能夠以更短的時間到達目的地。這意味著,經(jīng)過優(yōu)化后DL-DDPG算法訓(xùn)練的AGV系統(tǒng),能夠制定出更為高效的導(dǎo)航策略,以較短時間完成自主導(dǎo)航任務(wù)。

4 結(jié)束語

本文提出了一種基于深度強化學(xué)習(xí)的自主智能導(dǎo)航算法,通過端對端的學(xué)習(xí)方式實現(xiàn)從環(huán)境的感知輸入到動作的直接輸出控制。同時,基于部分可觀測馬爾可夫模型,引入傳感器幫助AGV對障礙物進行探測感知,實現(xiàn)了AGV對障礙物的自主規(guī)避。在DDPG算法基礎(chǔ)上,提出了一種對學(xué)習(xí)樣本進行噪聲干擾的DL-DDPG算法,提升了AGV在真實環(huán)境中自主決策的抗干擾性和魯棒性。仿真結(jié)果表明,經(jīng)過針對性設(shè)計后的DL-DDPG 算法,能夠為AGV控制系統(tǒng)提供更高效的在線決策能力,從而使AGV小車更為自主、精確、穩(wěn)定地完成自主導(dǎo)航任務(wù)。

雖然在仿真實驗中,本文提出的DL-DDPG算法取得了比較好的效果,但與真實環(huán)境還存在一定差距。下一步需要考慮AGV在自主導(dǎo)航過程中受移動狀態(tài)下的小車、行人等外界因素影響,對AGV智能導(dǎo)航系統(tǒng)進行進一步優(yōu)化。

參考文獻:

[1]Vis I F A .Survey of research in the design and control of automated guided vehicle systems[J].European Journal of Operational Research,2006,170(3):677-709.

[2]Zheng Zhang,Juan Chen,Qing Guo.AGVs route planning based on region-segmentation dynamic programming in smart road network systems[J].Scientific Programming,2021,2021:article ID 9589476.

[3]Dijkstra E W.A note on two problems in connexion with graphs[J].Numerische Mathematik,1959,1(1):269-271.

[4]Leach A R ,Lemon A P.Exploring the conformational space of protein side chains using dead-end elimination and the A* algorithm[J].Proteins-Structure Function amp; Bioinformatics,2015,33(2):227-239.

[5]Oral T,Polat F.MOD lite:an incremental path planning algorithm ta-king care of multiple objectives[J].IEEE Trans on Cybernetics,2016,46(1):245-257.

[6]Khatib O.Real-time obstacle avoidance for manipulators and mobile robots[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,1985:500-505.

[7]Xu Tong,Xu Yang,Wang Dong,et al.Path planning for autonomous articulated vehicle based on improved goal-directed rapid-exploring random tree[J].Mathematical Problems in Engineering,2020,2020:article ID 7123164.

[8]Mousavi S S,Schukat M,Howley E.Deep reinforcement learning:an overview[C]//Proc of SAI Intelligent Systems Conference.Berlin:Springer,2016:426-440.

[9]Levine S,F(xiàn)inn C,Darrell T,et al.End-to-end training of deep visuomotor policies[J].Journal of Machine Learning Research,2016,17(39):1-40.

[10]Mirowski P,Pascanu R,Viola F,et al.Learning to navigate in complex environments[EB/OL]. (2017-01-13).https://arxiv.org/abs/1611.03673.

[11]Kendall A,Hawke J,Janz D,et al.Learning to drive in a day[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2019:8248-8254.

[12]Chen Yufan,Everett M,Liu Miao,et al.Socially aware motion planning with deep reinforcement learning[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2017:1343-1350.

[13]Sallab A E,Abdou M,Perot E,et al.End-to-end deep reinforcement learning for lane keeping assist[EB/OL].(2016-12-13).https://arxiv.org/abs/1612.04340.

[14]Liao Xiaofei,Wang Yang,Xuan Yiliang,et al.AGV path planning model based on reinforcement learning.[C]//Proc of Chinese Automation Congress.Piscataway,NJ:IEEE Press,2020:6722-6726.

[15]Sutton R S,McAllester D A,Singh S,et al.Policy gradient methods for reinforcement learning with function approximation[C]//Proc of the 12th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,1999:1057-1063.

[16]曾睿,周建,劉滿祿,等.雙Q網(wǎng)絡(luò)學(xué)習(xí)的遷移強化學(xué)習(xí)算法[J].計算機應(yīng)用研究,2021,38(6):1699-1703. (Zeng Rui,Zhou Jian,Liu Manlu,et al.Transfer reinforcement learning algorithm with double Q-learning[J].Application Research of Computers,2021,38(6):1699-1703.)

[17]Lillicrap T P,Hunt J,Pritzel A,et al.Continuous control with deep reinforcement learning[EB/OL].(2015-09-09).https://arxiv.org/abs/1509.02971.

[18]徐繼寧,曾杰.基于深度強化算法的機器人動態(tài)目標點跟隨研究[J].計算機科學(xué),2019,46(S2):94-97. (Xu Jining,Zeng Jie.Research on dynamic target point following of robot based on deep reinforcement algorithm[J].Computer Science,2019,46(S2):94-97.)

[19]張榮霞,武長旭,孫同超,等.深度強化學(xué)習(xí)及在路徑規(guī)劃中的研究進展[J].計算機工程與應(yīng)用,2021,57(19):44-56. (Zhang Rongxia,Wu Changxu,Sun Tongchao,et al.Research progress of reinforcement learning in path planning[J].Computer Engineering and Applications,2021,57(19):44-56.)

[20]周盛世,單梁,常路,等.改進DDPG算法的機器人路徑規(guī)劃算法研究[J].南京理工大學(xué)學(xué)報,2021,45(3):265-270,287. (Zhou Shengshi,Shan Liang,Chang Lu,et al.Path planning algorithm for robot based on improved DDPG algorithm[J].Journal of Nanjing University of Science and Technology,2021,45(3):265-270,287.)

[21]賀亮,徐正國,賈愚,等.深度強化學(xué)習(xí)復(fù)原多目標航跡的TOC獎勵函數(shù)[J].計算機應(yīng)用研究,2020,37(6):1626-1632. (He Liang,Xu Zhengguo,Jia Yu,et al.Design of TOC reward function in multi-target trajectory recovery with deep reinforcement learning[J].Application Research of Computers,2020,37(6):1626-1632.)

主站蜘蛛池模板: 在线观看国产精品第一区免费| 2048国产精品原创综合在线| 久一在线视频| 91极品美女高潮叫床在线观看| 日韩东京热无码人妻| 日韩久草视频| 欧洲精品视频在线观看| 欧美精品一区在线看| 狠狠色丁婷婷综合久久| 亚洲综合色吧| 91无码人妻精品一区| 最新国产精品第1页| 中文字幕乱码中文乱码51精品| 欧美亚洲国产一区| 国产精品理论片| 国产精品所毛片视频| 日本成人精品视频| 美女一级免费毛片| 亚洲日韩久久综合中文字幕| 欧美成人免费一区在线播放| 欧美日一级片| 天堂av综合网| 国产成人亚洲无吗淙合青草| 99久久99这里只有免费的精品| 国产特级毛片| 四虎在线观看视频高清无码| 国产精品网曝门免费视频| 亚洲欧美人成人让影院| 国产高清毛片| 国产毛片基地| www亚洲精品| yjizz视频最新网站在线| 四虎永久免费地址| 人禽伦免费交视频网页播放| 新SSS无码手机在线观看| 国产高清又黄又嫩的免费视频网站| 好吊色妇女免费视频免费| 无码一区二区三区视频在线播放| 91丝袜美腿高跟国产极品老师| 伊人色综合久久天天| 美女亚洲一区| 国产91色| 欧美日韩动态图| 欧美日韩国产成人高清视频| 国产日本视频91| 亚洲成人精品久久| 亚洲一级毛片| 欧美特黄一级大黄录像| 国产美女精品人人做人人爽| 久草视频精品| 狠狠亚洲五月天| 国产av剧情无码精品色午夜| 55夜色66夜色国产精品视频| 91久久国产综合精品女同我| 日韩欧美中文| 天堂岛国av无码免费无禁网站| 超碰91免费人妻| 欧美啪啪精品| 久久婷婷六月| 72种姿势欧美久久久久大黄蕉| 91精品情国产情侣高潮对白蜜| 国产一二视频| 精品无码国产自产野外拍在线| 国产情侣一区| 精品精品国产高清A毛片| 国产成人免费视频精品一区二区| 2021国产在线视频| 国产午夜看片| 亚洲欧美自拍视频| 成人第一页| 超清无码熟妇人妻AV在线绿巨人 | 无码中文字幕精品推荐| 日韩国产另类| 欧美日韩综合网| 亚洲国产精品日韩av专区| 福利一区三区| 一本大道香蕉高清久久| 波多野结衣中文字幕久久| 综合社区亚洲熟妇p| 无码国产偷倩在线播放老年人| 国产精品手机在线观看你懂的| 久草中文网|