999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進Q-learning算法智能倉儲AGV路徑規劃

2025-02-21 00:00:00耿華馮濤
現代信息科技 2025年2期

摘 要:作為智能物流系統中重要運輸工具的自動引導車(Automated Guided Vehicle, AGV),AGV路徑規劃與避障算法是移動機器人領域重要研究熱點之一。為了解決現有倉儲環境下的AGV在運用Q-learning算法進行路徑規劃時的前期收斂速度慢且探索利用不平衡的問題,提出一種結合引力勢場改進Q-learning的算法,同時對貪婪系數進行動態調整。首先,針對傳統的Q-learning算法規劃時學習效率低問題,構建從AGV到目標點的引力場,引導AGV始終朝著目標點方向移動,減少算法初期盲目性,加強初始階段的目標性。然后,解決算法探索利用平衡問題,對貪婪系數進行動態改進。仿真實驗表明,探索速率提升的同時,算法穩定性也有一定的提升。

關鍵詞:Q-learning算法;強化學習;人工勢場算法;AGV;路徑規劃

中圖分類號:TP23;TP18 文獻標識碼:A 文章編號:2096-4706(2025)02-0171-05

AGV Path Planning Based on Improved Q-learning algorithm in Intelligent Warehouse

GENG Hua, FENG Tao

(School of Information and Electrical Engineering, Hebei University of Engineering, Handan 056038, China)

Abstract: Automated Guided Vehicle (AGV) serves as a crucial transportation means in intelligent logistics systems, and the AGV path planning and obstacle avoidance algorithm is a significant research hotspot in the domain of mobile robots. To tackle the issues of slow convergence speed and imbalanced exploration and exploitation in AGV path planning using the Q-learning algorithm under the existing warehouse environment, this paper proposes an improved Q-learning algorithm combined with gravitational potential field, along with a dynamic adjustment of the greedy coefficient. Firstly, Aiming at the problem of low learning efficiency in traditional Q-learning algorithm planning, it builds a gravitational potential field from the AGV to the target point, directs the AGV to constantly move towards the direction of target point, reduces the initial algorithm blindness, and enhances the targeting performance of initial stage. Next, the algorithm balance problem of exploration and exploitation is solved, and the greedy coefficient is dynamically improved. Simulation experiments demonstrate that while the exploration rate rises, there is a certain enhancement in algorithm stability as well.

Keywords: Q-learning algorithm; Reinforcement Learning; Artificial Potential Field algorithm; AGV; path planning

DOI:10.19850/j.cnki.2096-4706.2025.02.032

0 引 言

隨著互聯網技術和電商行業的迅速發展,企業對物流搬運、存取貨物的效率提出更高的要求。自動引導車AGV(Automatic Guided Vehicle)[1]逐漸應用到物流倉儲系統中。AGV的使用不僅提高貨物的分揀速度還降低了勞動成本,逐漸實現由“人到貨”到“貨到人”揀貨方式的轉變。

AGV的路徑規劃是指AGV在特定環境下尋找一條從起點到目標點的路徑,滿足路徑長度盡可能短、路徑平滑度高,并且能實現AGV的安全避障等要求。路徑規劃算法主要分為三種:基于圖搜索的算法、智能仿生算法和機器學習算法。其中,基于圖搜索算法主要有Dijkstar算法、柵格法[2]、A*算法[3]等,但算法進行探索時可能存在內存消耗大、易陷入局部最優等問題,影響路徑規劃的效果和效率。智能仿生算法通過模擬生物行為進行路徑探索,具有較強的適應性和自組織性,算法主要包括:粒子群算法[4-5]、遺傳算法[6]、蟻群算法[7]等,但遺傳算法進行路徑規劃時易出現計算量大,易早熟收斂,且參數選擇較困難等問題[8]。粒子群算法路徑規劃適用于全局路徑規劃并能在復雜環境中找到較優路徑,但迭代中對過度依賴參數設置且后期搜索精度不高。機器學習算法在數據處理和模型泛化能力方面表現出色,它能處理大規模數據,挖掘潛在模式且模型具有較好的通用性,代表算法分為兩類:強化學習算法[4]、神經網絡算法[9],神經網絡算法具有強大的魯棒性及學習力,但是算法泛化能力不強,對樣本質量要求過高;強化學習算法通過在環境中“試錯”的方式獲取環境的反饋信息選擇行為,這個特性使得強化學習算法在路徑規劃時能充分適應動態環境,且具有較好的泛化能力和靈活性。

強化學習算法屬于機器學習算法,與監督學習算法不同,強化學習算法無須在有標記的數據集上進行學習,要求AGV通過與環境交互得到獎勵選擇下一步動作,不斷交互迭代來探索最優策略。這使得強化學習算法在毫無先驗環境知識的條件下也可進行學習[10]。強化學習算法中,Q-learning算法在空間搜索、非線性控制、路徑規劃等領域廣泛應用[11]。但傳統的Q-learning算法在初始化Q值時設置成固定值0,這樣會使得算法前無任何先驗信息,造成算法初期盲目搜索從而導致收斂速度慢。另外,在探索和利用之間難以平衡也是Q-learning算法的主要問題。

1 相關理論

1.1 Q-learning算法

Q-learning主要用來解決馬爾可夫過程決策的相關問題,屬于強化學習算法中的一種時序差分算法,當其應用在AGV路徑規劃時,Q-learning可以用于學習一個最優的路徑策略,使得AGV能夠在按照一定的策略在一個倉儲環境下按照其任務分配的要求找到從出發點到目標點的最佳路徑。在Q-learning算法中,狀態-動作對所對應的Q值需要存儲在Q-table中,Q-table表示記錄了在給定狀態下采取特定動作所能獲得的預期累計獎勵,Q值表示執行特定動作后,在當前狀態下所能獲得的預期獎勵值。Q值的更新公式如下:

(1)

在式(1)中,α表示學習率,γ表示折扣系數,r表示反饋值(亦稱作獎勵值),s表示AGV當下所處的狀態,α表示在狀態s下AGV所選取的動作,s′表示實施動作α后下一個狀態,α′表示與之對應的下一個動作,在狀態s′下于Q-table里的最大Q值被表述為maxAQ(s′,α′)。算法流程圖如圖1所示。

除了直接從Q-table中提取策略之外,Q-learning算法也可以通過一種稱為ε-貪婪策略在訓練過程中進行探索和利用的平衡。在ε-貪婪策略中,在大部分情況下選擇Q值最高的動作,但也會以ε概率隨機選擇其他動作,有利于擴大AGV探索路徑的范圍,從而保證算法具有更好的探索性。

1.2 人工勢場法

人工勢場法(Artifical Potential Fifield approach, AFP)是一種虛擬力場方法,用于實時避障的局部路徑規劃算法,它能將AGV所處倉儲環境抽象為力場,AGV在任何位置都受到來自目標點方向的引力,為AGV指導方向,且AGV距離目標點越遠引力值越大。同時,障礙物對AGV產生一個斥力場,距離障礙物越近斥力越大,借助斥力場有效的避免AGV與障礙物發生碰撞。

引力勢場函數為:

(2)

其中,ma表示引力系數,ρs表示AGV當前位置到目標位置之間的歐式距離,引力Fatt表示引力勢場的負梯度。

斥力場函數為:

(3)

(4)

其中,mr表示斥力系數;ρ0表示障礙物的影響系數。ρob代表障礙物到AGV之間的歐式距離,斥力場Frep的負梯度,斥力的方向由障礙物指向AGV。

2 基于改進Q-learning算法的AGV路徑規劃

2.1 仿真環境構建

2.1.1 柵格圖環境

倉儲AGV環境仿真采用二維柵格法,如圖2所示,此后的路徑規劃均在此環境地圖上進行。使用柵格法能將復雜的環境問題分解成簡單問題,適合應用于靜態環境的路徑規劃,且算法計算量小,便于實現。

如圖2所示,白色為可通過的無障礙區,實心黑色表示為倉儲環境的障礙物區域,每個柵格的邊長均為1,在實際情況下,對于某些并不規則的障礙物,按照其最大的邊長填充為由網格單元組成的障礙物區域[12]。為簡化計算和后期存儲,對地圖柵格進行編號處理。由左下角開始,建立編號和柵格中心點坐標的對應關系,對應關系坐標公式為:

(5)

式中,mod表示求余運算;i表示柵格的序號;Nx表示柵格的總行數;Ny表示柵格的總列數;fix表示向零方向取整。如圖2所示,20×20柵格地圖中,柵格的序號從左到右從上到下的順序為1到400,如可以把第一個柵格設置為初始點,第400個柵格設置為終點即目標點。

2.1.2 確定AGV搜索方向

基于柵格法運用Q-learning算法對AGV進行路徑規劃時,可以將一個柵格表示成一種狀態,同時要定義AGV可以執行的動作,通常有4個動作(上、下、左、右),但在實際中,機器人的運動方向是多樣的,因此為了使仿真效果更貼近實際,同時又不過度增加算法的復雜性,本文將AGV運動分為8個方向,即每個方向間隔45°角如圖3所示,分為上、下、左、右、右上、右下、左上、左下8個方向。AGV每次步長為1或。

2.2 利用引力場函數改進Q值更新函數

傳統的Q-learning算法對Q-table初始化時的默認值設置為0或者隨機數。這種初始化方式會導致算法初期大量與目標方向相反的無效迭代,因此在算法進行中引入先驗知識,使得算法能夠減少前期盲目搜索過程。在Q值更新函數過程中引入引力勢場函數Uatt,首先改進勢場函數如式(6),其中,η表示引力的影響系數,ρg表示AGV距離目標點的歐式距離,m表示一個正常數。通過改進Q值更新函數(7),來實現Q值的更新。

(6)

(7)

2.3 動態改進貪系數ε

傳統的Q-learning算法對AGV進行路徑規劃時,通常采用ε-貪婪策略來解決探索和平衡利用的問題。探索指的是AGV在選擇下一個動作時不遵循算法學習策略,而是根據ε(0<ε<1)概率進行探索其他動作,通過這種方式可以對擴大搜索范圍,減少局部最優解發生的概率。利用是指AGV在1-ε的概率下選擇動作,并且完全按照Q-learning學習策略選擇最優解。通過這種方式優化了Q-learning算法的探索利用平衡問題,但是,傳統的Q-learning算法在探索初始階段,由于不具備先驗知識AGV對動作選擇比較隨機,因此前期需要加大探索的概率,隨著算法不斷迭代,后期趨于收斂需要多利用,應降低探索的概率。本文對這個問題的貪婪系數進行動態改進。

(8)

上式中,arctan(t)表示反正切函數,其定義域為實數集,值域為(-π/2,π/2)。當t>0時,arctan(t)的取值范圍為(0,π/2),Sn表示標準差,表示算法每迭代n次后的平均值與當前的次數差值,迭代步數差別越大標準差Sn就越大,說明算法此時需要加強對環境的搜索,相反Sn越小代表迭代次數之間的步數差距小,說明算法已經越來越趨近收斂,此時算法需要多利用先驗知識并減少探索的概率。T表示算法的尺度系數,b表示探索率的最大值,c表示探索率的最小值。

經過改進在Q-learning算法的前期,由于算法未收斂迭代標準差Sn比較大,AGV以b的概率對環境進行探索并選擇動作。隨著路徑算法的進行,AGV通過探索積累了經驗,使得Sn不斷減小,使得貪婪系數ε在(b,c)之間,Sn低于c,表示算法已經趨于收斂,此時探索概率穩定在c。通過上述算法對貪婪系數ε的動態調整,使得算法初始階段能夠更大概率對環境進行探索,隨著算法路徑搜索的進行,ε不斷減小,算法趨于利用,能夠更好的平衡Q-learning算法的探索利用平衡的問題。

3 實驗結果及分析

3.1 實驗仿真即參數設置

為驗證改進后的 Q-learning算法的性能,開展仿真實驗。選用MATLAB(R2022a)作為編譯工具,在實驗中運用柵格地圖法對智能倉儲AGV環境進行仿真,采用20×20個單位的柵格,以左下角坐標為原點,建立一個水平方向為X軸,垂直方向為Y軸的坐標軸[13]。

如圖4所示,其中“*”表示移動機器人的初始位置,“o”表示移動機器人的目標位置,白色部分為自由活動區域,黑色實心方框代表無法穿過的障礙區域[14],移動機器人的動作空間以角度45度為單位的八個方向,即上、下、左、右、左上、右上、左下、右下八個方向。柵格圖中共有400個柵格,在Q-learning算法中代表400中狀態,起點為(0,0)坐標位置,即狀態(1,1),終點為(20,20)。

Q-learning算法中,需要首先設定參數,這些參數會影響到最終的收斂。分別對比傳統Q-learning算法,優化Q值后的Q-learning算法,加入貪婪系數后的Q-learning算法,三種算法進行比較如表1所示。

獎勵值的設置:

(9)

利用勢場的引力場思想對Q-learning算法進行改進,中ρg表示距為起點與目標點的歐式距離,勢場中的引力系數η = 0.6,常數m = 1;動態改進貪婪系數參數取值:b = 0.6,c = 0.01,T = 1 000,n = 10。

3.2 實驗分析

在仿真實驗中,圖5為傳統Q-learning算法的路徑規劃收斂圖,如圖5所示在5 000次的探索中,大約在迭代2 000次時算法趨于收斂。運行時間為2.73 s。但前期的算法無效迭代次數過多,導致1 000次左右算法才開始出現成功迭代。后期由于貪婪系數固定值,導致收斂后曲線不平滑。

Q-learning算法在引入引力勢場函數后(如圖6所示),AGV在的方向性更強,始終以較大概率朝著目標點方向行進且減少了盲目搜索次數,與圖5相比,引入引力勢場函數后算法有效減少了前期的無效迭代次數,由1 000次降到600次左右,收斂次數過程也是逐漸由高到低,同時,引入引力勢場函數后,收斂速度也有所提升,在1 500次迭代后趨于收斂。

如圖7所示,進行完上述改進后,進一步將算法中的貪婪系數ε進行動態調整,早期增加了貪婪系數的值,由固定的0.1上漲到0.6,擴大了對環境的探索,因此迭代次數相較于圖6有所增加,在算法運行的后期趨于收斂,貪婪因子減小到接近0.01,使得算法后期趨于利用,減少了探索失敗的次數,同時進一步減少了程序的運行時間。

三種算法時間和最短路徑如表2所示。

4 結 論

論本文提出一種針對運用柵格法仿真倉儲AGV運動環境,對Q-learning算法那進行改進的路徑規劃算法,算法運用人工勢場法的引力勢場思想,引入了改進后的引力勢場函數改進Q值更新函數,同時,對貪婪系數進行了動態改進,通過實驗仿真表明,引入勢場函數后的Q-learning算法收斂速度提高,動態改進結果的穩定性增加。但本文只是針對單個AGV路徑規劃算法,對倉儲環境下的多AGV路徑規劃還需進一步研究。

參考文獻:

[1] CHEN X,LIU S,ZHAO J,et al. Autonomous Port Management based AGV Path Planning and Optimization Via an Ensemble Reinforcement Learning Framework [J/OL].Ocean and Coastal Management,2024,251:107087(2024-03-10).https://doi.org/10.1016/j.ocecoaman.2024.107087.

[2] 朱磊,樊繼壯,趙杰,等.基于柵格法的礦難搜索機器人全局路徑規劃與局部避障 [J].中南大學學報:自然科學版,2011,42(11):3421-3428.

[3] 余翔,姜陳,段思睿,等.改進A*算法和人工勢場法的路徑規劃 [J].系統仿真學報,2024,36(3):782-794.

[4] 藺文軒,謝文俊,張鵬,等.基于分組優化改進粒子群算法的無人機三維路徑規劃 [J].火力與指揮控制,2023,48(1):20-25+32.

[5] XIN J,LI Z,ZHANG Y,et al. Efficient Real-Time Path Planning with Self-Evolving Particle Swarm Optimization in Dynamic Scenarios [J].Unmanned Systems,2024,12(2):215-226.

[6] 楊海蘭,祁永強,榮丹.倉儲環境下基于憶阻強化學習的AGV路徑規劃 [J].計算機工程與應用,2023,59(17):318-327.

[7] CUI Y,REN J,ZHANG Y. Path Planning Algorithm for Unmanned Surface Vehicle based on Optimized Ant Colony Algorithm [J].IEEJ Transactions on Electrical and Electronic Engineering,2022,17(7):1027-1037.

[8] LI D D,WANG L,CAI J C,et al. Research on Path Planning of Mobile Robot based on Improved Genetic Algorithm [J/OL].International Journal of Modeling, Simulation, and Scientific Computing,2023,14(6):2341030[2024-03-16].https://doi.org/10.1142/S1793962323410301.

[9] 徐曉蘇,袁杰.基于改進強化學習的移動機器人路徑規劃方法 [J].中國慣性技術學報,2019,27(3):314-320.

[10] SURESH K S,VENKATESAN R,VENUGOPAL S. Mobile Robot path Planning Using Multi-Objective Genetic Algorithm in Industrial Automation [J].Soft Computing,2022,26(15):7387-7400.

[11] 吉紅,趙忠義,王穎麗,等.復雜環境下多AGV路徑規劃與調度系統研究 [J].機械設計,2023,40(6):110-115.

[12] 王志偉,鄒艷麗,劉唐慧美,等.基于改進Q-learning算法和DWA的路徑規劃 [J].傳感器與微系統,2023,42(9):148-152.

[13] 任學干,葛英飛.基于改進勢場蟻群算法的AGV路徑規劃 [J].南京工程學院學報:自然科學版,2021,19(1):36-41.

[14] 段建民,陳強龍.利用先驗知識的Q-Learning路徑規劃算法研究 [J].電光與控制,2019,26(9):29-33.

作者簡介:耿華(1985—),男,漢族,河北邯鄲人,講師,博士,研究方向:復雜系統建模與控制;馮濤(1987—),女,漢族,河北邯鄲人,碩士在讀,研究方向:移動機器人路徑規劃。

收稿日期:2024-07-12

主站蜘蛛池模板: 国产精品无码作爱| 无码不卡的中文字幕视频| 国产成人永久免费视频| 亚洲福利一区二区三区| 国产不卡国语在线| 首页亚洲国产丝袜长腿综合| 国产丝袜无码精品| 无码aaa视频| 呦系列视频一区二区三区| 99久久精品国产综合婷婷| 日韩精品视频久久| 久草青青在线视频| 国产女同自拍视频| a毛片在线免费观看| 欧美日本在线播放| 91啪在线| 国产精品99在线观看| 国产拍揄自揄精品视频网站| 国产99欧美精品久久精品久久| 91色在线视频| 日本三级精品| 日韩成人在线网站| 91在线精品麻豆欧美在线| 在线另类稀缺国产呦| 播五月综合| 九九免费观看全部免费视频| 亚洲人成影院午夜网站| 伊人91在线| 色综合久久久久8天国| 一本久道久久综合多人| 婷婷亚洲视频| 看国产一级毛片| 成人一级黄色毛片| 亚洲视频四区| 亚洲成年网站在线观看| 57pao国产成视频免费播放| 日韩免费成人| 久久这里只有精品2| 日韩无码视频专区| 亚洲福利网址| 大学生久久香蕉国产线观看| 香蕉伊思人视频| 中文天堂在线视频| 四虎在线观看视频高清无码| 毛片视频网| 亚洲中文字幕23页在线| 成人福利在线观看| 99视频全部免费| 啦啦啦网站在线观看a毛片| 在线精品视频成人网| 国产欧美日韩专区发布| 四虎永久免费地址| 国产日韩欧美精品区性色| 亚洲精品成人7777在线观看| 一级毛片高清| 伊人色在线视频| 高清无码一本到东京热| 亚洲精品男人天堂| 亚洲不卡无码av中文字幕| 国产精品精品视频| 欧美日韩中文字幕在线| 精品国产一区91在线| 国产精品亚洲日韩AⅤ在线观看| 亚洲人成网7777777国产| 欧美a在线| 毛片免费在线| 国产av色站网站| 亚洲一区二区日韩欧美gif| 婷婷亚洲天堂| 久久国产亚洲欧美日韩精品| 国内精品一区二区在线观看| 91网址在线播放| 在线观看热码亚洲av每日更新| 亚洲欧洲日韩综合色天使| 国产精品亚洲va在线观看| 成人小视频网| 自拍欧美亚洲| 成人精品在线观看| 91福利免费视频| 少妇人妻无码首页| 波多野结衣一区二区三视频 | 国产办公室秘书无码精品|