999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

煤礦井下掘進機器人路徑規劃方法研究

2024-04-28 07:06:12張旭輝鄭西利楊文娟李語陽
煤田地質與勘探 2024年4期
關鍵詞:規劃智能

張旭輝,鄭西利,楊文娟,*,李語陽,麻 兵,董 征,陳 鑫

(1.西安科技大學 機械工程學院,陜西 西安 710054;2.陜西省礦山機電裝備智能監測重點實驗室,陜西 西安 710054)

目前,煤礦機器人的研究還存在諸多難題,特別是煤礦掘進機器人受巷道特殊的非結構化環境及復雜工藝流程制約,自主化、智能化水平相對較低[1-3]。在非全斷面巷道作業時,主要依靠人工操作將掘進機器人移機進行二次截割以完成斷面成形任務,但由于井下環境惡劣,人工移機操作難度大、效率低下,并且存在較大的安全隱患。因此,研究掘進機器人的自主移機是實現煤礦無人化開采的重要一環[4-6],而非全斷面巷道作業條件下的掘進機器人路徑規劃是實現自主移機的前提,同時對提高掘進工作面智能化水平、掘進作業效率及巷道斷面成形質量均具有重要意義。

煤礦掘進機器人是一種特殊的履帶式機器人[7-8],其工作環境為狹長巷道,作業時極易發生碰撞,因此研究掘進機器人與巷道側壁的碰撞檢測,對機器人規劃一條安全、無碰撞的可行路徑具有重要意義[9]。針對機器人碰撞檢測問題,國內外學者進行了大量研究。碰撞檢測主要關注在二維或三維環境中,確定兩個或多個物體在運動過程中是否相互接觸或相交。常見的三維碰撞檢測方法主要有圖像空間法[10-11]、空間剖分法[12-13]和層次包圍盒法[14-15]。圖像空間法可以將三維模型在預設的二維平面上進行投影,再基于二維空間中圖像采樣及對應深度信息判斷三維模型相交情況,該方法受限于圖像分辨率,檢測結果不夠精確。空間剖分法主要是利用某種規則把空間分割成若干個子空間,然后在子空間內對碰撞檢測進行單獨處理,同時采用降低子空間內無關對象相交測試的方法來縮短碰撞檢測所需的時間,該方法可在一定程度上處理多設備間的碰撞檢測,但在處理形體過大或復雜物體的碰撞檢測時具有局限性。層次包圍盒法通過將被檢測對象的包圍盒進行層次化組織,形成一個樹結構,從而實現更加快速和準確的碰撞檢測,該方法在機器人碰撞檢測方面應用廣泛。

針對掘進機器人路徑規劃問題,眾多學者進行了深入研究。在機器人路徑規劃方面,常見的方法主要有4 類:人工勢場和模糊邏輯法等傳統方法[16-17]、A*算法和柵格法等圖形學方法[18-20]、蟻群算法和粒子群優化算法等智能仿生學方法[21-23]以及策略梯度法和模仿學習法等強化學習方法[24-25]。基于傳統方法的路徑規劃描述簡單易于實現,但容易陷入局部最優解。基于圖形學方法的路徑規劃可提供建模方法,但大多將機器人以質點處理,且搜索效率低下。基于智能仿生學方法的路徑規劃具有仿生學特點,更加智能高效,但收斂速度較慢。以上研究集中在移動機器人的避障路徑規劃,研究對象以小型移動機器人為主,在掘進機器人機身路徑規劃方面研究較少。由于煤礦巷道成形精度取決于截割軌跡,對掘進機器人機身路徑規劃和截割臂控制精度提出更高的要求。為保證狹長巷道中掘進機器人路徑的可行性,須考慮掘進機器人自身大小,從而得到合理的規劃路徑。

因此,通過對虛擬環境碰撞檢測、智能體全局路徑規劃等內容展開研究,提出一種基于深度強化學習的掘進機器人機身路徑規劃方法,在井下非結構化環境條件下為機器人規劃安全可行路徑。首先,利用深度相機構建三維巷道模型,采用包圍盒技術實現掘進機器人運動模型與三維巷道模型之間的碰撞檢測,形成掘進機器人路徑規劃過程中的邊界避障策略。其次,基于獎懲機制構建智能體,并采用深度強化學習技術對其進行訓練,完成掘進機器人機身路徑規劃。最后,搭建掘進機器人路徑規劃實驗平臺,對所提方法進行驗證。以實現煤礦井下非全斷面作業條件下的掘進機器人自主移機路徑規劃,為井下掘進機設備的智能化和自動化奠定基礎。

1 掘進機器人路徑規劃總體方案

巷道斷面成形作業時機身移動多為人工操控,導致掘進效率低下、安全性差。解決非全斷面巷道作業掘進機器人自主移機難題,需要實現對掘進機器人工況環境的實時監測、掘進機器人與掘進工作面間的碰撞檢測以及掘進機器人運動路徑的自主規劃。

因此,在掘進機器人機身上布置多源傳感器實現掘進工作面環境實時監測,在虛擬環境中構建掘進機器人與工作面間的碰撞檢測模型,生成巷道邊界受限條件下的避障策略,再利用深度強化學習方法訓練智能體得到掘進機器人全局路徑,并采用虛實結合的方式實現虛實空間中掘進機器人運動路徑同步規劃。

掘進工作面環境以狹長直行巷道為主,且針對掘進機器人巷道施工時左右移機路徑規劃問題,提出的路徑規劃總體方案如圖1 所示,包括傳感檢測單元、碰撞檢測單元和路徑規劃單元。

圖1 掘進機器人路徑規劃總體方案Fig.1 Overall scheme for path planning of cantilever roadheader robot

該方案中,傳感檢測單元通過多源傳感器采集掘進機器人位姿數據,深度相機掃描得到巷道環境三維點云數據并實時傳輸至Unity3D 平臺中實例化,實現虛擬環境巷道實時重建;構建掘進機器人運動學模型,進行運動學分析。碰撞檢測單元根據巷道重建模型建立掘進機器人與巷道側壁間的碰撞檢測模型,并使用層次包圍盒法進行虛擬環境碰撞檢測,形成巷道邊界受限下的避障策略。路徑規劃單元基于掘進機器人運動特性定義其狀態空間與動作空間,根據獎懲機制將掘進機器人模型作為智能體,進行獎懲函數設計,再結合邊界避障策略采用深度強化學習技術對智能體進行訓練,實現非全斷面巷道作業條件下的掘進機器人路徑規劃。

2 巷道邊界受限下的避障策略

掘進機器人在非全斷面巷道作業條件下的移機過程,存在轉彎和直行兩種運動方式,在狹長巷道中,掘進機器人的轉彎過程極易與巷道側壁發生碰撞。因此,需要對掘進機器人進行運動學分析,并建立虛擬碰撞檢測模型,采用層次包圍盒算法實現掘進機器人邊界避障功能。

2.1 掘進機器人運動學分析

掘進機器人的轉彎過程是通過左右輪履帶差速驅動完成的。若掘進機器人運動過程中,左右輪履帶和地面無橫向滑移,且履帶轉動速度地面平行時,可以將機器人的運動過程看作是二維運動學求解[26]。

掘進機器人運動學模型如圖2 所示,建立巷道平面坐標系XOY,以掘進機器人的機身質心O0為原點,建立掘進機器人坐標系X0O0Y0,其中O0Y0軸平行于掘進機器人本體中心線,以朝向截割頭方向為正方向,O0X0軸垂直于O0Y0軸,以指向掘進機器人右側方向為正方向。

圖2 掘進機器人運動學模型Fig.2 Kinematic model of cantilever roadheader robot

假設掘進機器人機身寬度為D,兩輪履帶寬度相等均為b,左輪履帶線速度為 υl,右輪履帶線速度為 υr,掘進機器人轉向角為θ,掘進機器人質心在巷道平面坐標系XOY下的坐標為 (x0,y0),掘進機器人運動到目標點k過程中的線速度為 υ,角速度為ω,瞬時曲率半徑為R,則掘進機器人在巷道平面坐標系XOY中的位姿可描述為P=[x0,y0,θ]T。

根據圖中幾何關系,可得掘進機器人左右輪履帶線速度和瞬時曲率半徑之間的關系為:

兩式相減得:

由此可得掘進機器人的角速度為:

從而可得掘進機器人左右輪履帶線速度和掘進機器人運動速度之間的關系為:

又由圖2 中幾何關系,可得掘進機器人運動到目標點k過程中的運動學方程為:

2.2 基于RGB-D 相機的巷道環境重建

在進行掘進機器人的機身移動路徑規劃時,為了觀測巷道實際環境,采用RTABMAP 算法搭載RGB-D 相機對巷道環境進行實時三維重建,巷道重建過程如圖3所示。

圖3 巷道重建過程Fig.3 Roadway reconstruction process

RTABMAP 算法是一種結合了外觀信息和深度信息的實時三維環境建模算法,能夠在實時場景中構建稠密的三維地圖[27]。該算法通過創建里程計節點,RGB-D相機輸出的圖像提供視覺里程計,并對所有節點的里程計位姿進行修正來維護機器人的全局位姿。

在掘進機器人機身前側安裝Kinect v2 相機,并為其添加云臺,使得該相機能夠全方位旋轉。當掘進機器人施工行進時,深度相機掃描得到巷道環境的三維點云數據,將其進行處理后實時存儲至數據庫,通過Unity3D平臺實時讀取數據庫中的最新數據,進行坐標匹配形成新的點云坐標,并對其進行實例化,實現虛擬環境中巷道模型的實時更新,從而完成巷道模型的實時重建,為掘進機器人與巷道側壁之間的碰撞檢測提供了條件。

2.3 虛擬環境碰撞檢測模型建立

掘進機器人與巷道側壁之間的碰撞檢測是掘進機器人移機過程中的重要一環,本文采用層次包圍盒算法檢測掘進機器人與巷道側壁之間的碰撞行為。層次包圍盒算法計算時間短[28],能夠通過建立簡單的立體幾何形狀近似代替復雜的三維模型,可以有效降低碰撞檢測原有模型的計算復雜性。

為確保掘進機器人的安全運動空間,對巷道側壁添加了膨脹1.2 倍的盒形碰撞器(Box Collider),其中膨脹倍數為碰撞檢測的安全閾值。掘進機器人模型形狀復雜,若只采用一種包圍盒近似代替其形狀,會因為模型包裹緊密性差,冗余空間大,造成碰撞檢測的誤判。因此,為提高掘進機器人與巷道側壁之間碰撞檢測的準確性,同時采用多種包圍盒對掘進機器人模型進行混合包圍,由于掘進機器人機身形體較為規則,則機身部分采用盒型碰撞器進行包圍,截割臂部分形體復雜,采用網格碰撞器(Mesh Collider)進行包圍,添加效果如圖4 所示,碰撞檢測效果如圖5 所示。

圖4 包圍盒添加效果Fig.4 Bounding box

圖5 碰撞檢測效果Fig.5 Collision detection

在路徑規劃過程中,當掘進機器人與巷道側壁的包圍盒發生接觸或相交時,觸發碰撞效果,被碰撞的物體顏色變為紅色,掘進機器人動作停止,訓練場景重置,退出觸發碰撞效果時,被碰撞的物體恢復原來顏色,重新進行路徑規劃過程;當掘進機器人與巷道側壁的包圍盒未發生接觸或相交時,掘進機器人處于安全運動空間內,則繼續執行路徑規劃過程。

3 基于智能體的掘進機器人路徑規劃

煤礦井下掘進工作面通常是狹長巷道,而掘進機器人形體較大,運動方式復雜,因此需要考慮掘進機器人的形體大小進行路徑規劃。傳統的路徑規劃方法大多將機器人當作質點處理,難以適應井下巷道空間受限條件下的掘進機器人路徑規劃。本文采用深度強化學習(Deep Reinforcement Learning,DRL)技術對掘進機器人進行路徑規劃,提出了基于柔性動作-評價(Soft Actor-Critic,SAC)算法的后見經驗回放(Hindsight Experience Replay,HER) HER-SAC 算法,并定義智能體狀態空間與動作空間,設計獎懲函數,使智能體能夠快速找到安全的可行路徑。

3.1 改進SAC 算法

SAC 算法是一種基于策略梯度(Policy Gradient)和Q-learning 的混合算法,其核心思想是在最大化累積獎勵的同時還會最大化熵,通過增加策略熵的期望來增強智能體探索的能力,提升隨機策略性能[29]。SAC 算法的目標函數為:

在SAC 算法中,策略被表示為一個神經網絡,它通過接收當前狀態作為輸入,輸出動作的概率分布。Q值函數也被表示為一個神經網絡,它接收當前狀態和動作作為輸入,輸出一個Q值。為了減少過估計的風險,SAC算法使用了兩個Q值函數。因此,SAC 算法有5 個網絡結構,即1 個Actor 網絡(策略網絡)、2 個VCritic 網絡(狀態價值估計V和TargetV網絡)、2 個QCritic 網絡(動作-狀態價值估計Q0和Q1網絡),如圖6 所示。

圖6 SAC 算法網絡Fig.6 Network of the SAC algorithm

將任意狀態st作為輸入,Actor 網絡輸出所有動作的概率為π(a|st),并且根據概率采樣獲得動作at∈a,將動作at作用于Agent,得到該狀態下的獎勵值rt,并移至下一狀態st+1,從而獲得當前狀態下的經驗元組(st,at,rt,st+1),然后將該元組回放入經驗池。

在QCritic 網絡更新過程中,通過對經驗池采樣獲取數據 (st,at,rt,st+1) 來更新參數λ,狀態st下的預測價值估計以網絡輸出的動作at的Q(st,at)值來代替,基于最優Bellman 方程可以得到狀態st下的真實價值估計:

通過均方損失函數(MSELoss 函數)對QCritic 網絡訓練,則其損失函數為:

VCritic 網絡的更新主要是從經驗池采樣獲取數據(st,at,rt,st+1) 來更新參數β,并采用均方損失函數對VCritic 網絡進行訓練。在進行Actor 網絡的更新時,通過梯度下降訓練得到的損失函數為:

由于掘進機器人屬于履帶式機器人,在狹長巷道中的運動方式復雜且路徑規劃過程目標單一,難以達到訓練效果。同時為避免獎勵稀疏,提高智能體的學習效率,將后見經驗回放引入SAC 算法,提出HER-SAC 算法,通過將失敗的經驗轉化為成功的經驗來增加訓練數據,從而加快訓練速度。

訓練智能體時做如下規定:

(1)定義多目標集合G,對于任意目標g∈G,都有fg(s)∈{0,1} 。該函數表示當fg(s)=1時,狀態s到達目標g;fg(s)=0時,狀態s未到達目標g。

(2)目標g可以是狀態s,也可以是狀態s的映射。

(3)將目標g下的獎勵函數定義為一個二值獎勵函數rg(s,a)=-[fg(s)=0],當狀態s未到達目標g時就返回-1。

根據環境給予的目標g和初始狀態s1,智能體與環境交互采集樣本得到軌跡:{s1,a1,r1,s2,···,sT},并將其以狀態元組 (st‖g,at,rt,st+1‖g)的形式回放入經驗池,此時這條軌跡的數據是基于目標g的。在這條軌跡中隨機選取n個當前遍歷狀態之后的狀態組成目標子集G′,將這輪樣本當前狀態的目標依次修改為其他目標g′∈G′,得到新的獎勵值r′=(s,a),則狀態st對應的狀態元組變為 (st‖g′,at,,st+1‖g′),然后將這條軌跡基于目標g′的所有狀態元組進行回放,則經驗池中存放的樣本數目變為原先真實采樣數目的n+1 倍,大大增加了訓練樣本。其中,st‖g為當前狀態st與本輪樣本目標g的附加拼接。

同時,策略是與目標相關的,其輸入是當前狀態和本輪需要完成的目標,可表示為π(st‖g)。由于本文針對的懸臂式掘進機的移機路徑規劃屬于單目標任務,因此所有策略是基于目標g得到的,采樣的數據也是不斷向著目標g的方向進行的。

算法流程見表1。

表1 HER-SAC 算法流程Table 1 HER-SAC algorithm workflow

3.2 定義智能體狀態空間與動作空間

狀態空間代表智能體感知的環境信息,它是智能體做出決策并對其長期效益進行評價的基礎,合理地進行狀態空間設計可以保證算法穩定收斂,提升算法性能[30]。掘進機器人在非全斷面巷道作業條件下的移機過程中需要明確其目標位置、與巷道側壁的安全運動范圍,從而采取合理的動作與巷道側壁不發生碰撞,安全到達目標位置。因此,智能體的狀態空間可定義為St={Tt,Ot,αt,Dt},其中Tt為智能體需要到達的目標位置,Ot為智能體的實時位置,αt為智能體的實時航向角,Dt為智能體與巷道側壁發生碰撞情況。

動作空間是機器人與環境交互的方式[31]。由于掘進機器人存在轉向和直行兩種運動方式,因此,智能體的動作空間可定義為At={υt,ωt},其中 υt為智能體前向運動速度,ωt為智能體運動角速度。

3.3 獎懲函數設計

智能體在尋優探索的過程中,獎勵函數的構成,決定了算法尋優的方向和智能體學習的動作[32]。設計獎懲函數是為了使智能體通過獎懲機制快速找到安全到達目標位置的最優路徑。本文設置獎懲函數有如下內容:

(1)通過智能體的實時位置與目標位置的距離來判斷是否到達目標位置,若成功到達目標位置,獲得獎勵Rarrive=1.5,結束該回合;為避免獎勵過于稀疏,在智能體運動過程中,記智能體上一時刻與目標位置的橫向距離為xt-1,智能體當前時刻與目標位置的橫向距離為xt,若xt

(2)智能體通過包圍盒之間的相交檢測判斷是否發生碰撞,為保證智能體的安全運動空間,將巷道側壁的包圍盒膨脹了1.2 倍。當觸發碰撞時,獲得懲罰Rcollision=-0.5,結束該回合。

(3)根據實際巷道作業規程,掘進機器人前后移動距離不能過長,因此,需要對智能體添加前后移動距離約束,若智能體的實時位置超出前后移動距離約束范圍,獲得懲罰Rz=-0.5,結束該回合。

(4)為縮短智能體到達目標位置的時間,提高訓練效率,在智能體動作后的每一步設置外部獎勵Rt=-0.005。

因此,本文的獎勵函數為:

3.4 智能體訓練結果分析

在Unity3D 平臺中建立智能體,基于Python 語言設計HER-SAC 算法,通過本地Socket 實現Unity3D與Python 的交互,進行智能體的訓練。HER-SAC 算法主要參數設置見表2。

表2 HER-SAC 算法主要參數設置Table 2 Main parameters of the HER-SAC algorithm

為了更清楚地觀察訓練結果,在相同場景條件下分別使用HER-SAC、SAC、PPO 3 種算法對智能體進行訓練,結果如圖7 所示。圖7a 為智能體的累積獎勵變化曲線,智能體獲得的獎勵值越大,則其在訓練過程中采取正確動作的概率越大;圖7b 為智能體訓練時的回合長度變化曲線,每回合的長度值越大,則其在訓練過程中采取正確動作的步數越多;圖7c 為智能體在訓練過程中的Actor 網絡損失值變化曲線,Actor 網絡的目標函數是為了最大化熵和獎勵值,因此其損失值為負值,絕對值越大,說明最大化熵的程度越大,智能體采取的策略越隨機;圖7d 為智能體在訓練過程中的Critic 網絡損失值變化曲線,損失值越小,說明智能體所獲實際獎勵值越接近理論獎勵值。

圖7 訓練結果Fig.7 Training results

由圖7a 可以看出,當訓練迭代次數比較小時,智能體易與巷道側壁發生碰撞,獲得的獎勵較少,訓練迭代次數逐漸增大時,智能體在3 種算法下所獲獎勵迅速增加,其中HER-SAC 算法在獲得最大獎勵值時所需迭代次數最少,最快達到收斂。由圖7b 可以看出,訓練迭代次數逐漸增大時,智能體在3 種算法下的回合長度值不斷增大,其中HER-SAC 算法的回合長度值增大的速度最快,達到最大回合長度值的迭代次數最小。由圖7c可以看出,訓練迭代次數逐漸增大時,HER-SAC 算法策略損失值的絕對值不斷增大,最快達到收斂。由圖7d 可以看出,訓練迭代次數逐漸增大時,智能體在3 種算法下的損失值均逐漸減小,其中HER-SAC 算法的損失值最小時的迭代次數最少,最先達到收斂。

通過對比3 種算法的平均獎勵值、最高獎勵值、達到最高獎勵值的步數及魯棒性指標進行算法的性能分析,對比結果見表3,其中算法的魯棒性指標通過智能體的平均獎勵值與標準差進行描述。

表3 3 種算法性能對比分析Table 3 Comparative analysis of the performance of three algorithms

由表3 可以看出,3 種算法在性能方面,SAC 算法相比于PPO 算法的平均獎勵值和最高獎勵值更高,達到最高獎勵值的步數更少,魯棒性方面更優,而HERSAC 算法在4 個指標的性能上均超過了另兩種算法。與PPO 算法相比,HER-SAC 算法的平均獎勵值提高了5.86%,最高獎勵值提高了0.39%,達到最高獎勵值的步數縮短了9.89%,所獲獎勵的標準差降低了11.75%;與SAC 算法相比,HER-SAC 算法的平均獎勵值提高了5.15%,最高獎勵值提高了0.28%,達到最高獎勵值的步數縮短了6.69%,所獲獎勵的標準差降低了7.64%。

4 實驗與結果分析

4.1 掘進機器人路徑規劃實驗環境搭建

為了進一步驗證本文所提方法的可靠性,基于Unity3D 平臺搭建掘進機器人路徑規劃實驗平臺,采用虛實結合的方式對掘進機器人的機身路徑規劃功能進行驗證。

實驗平臺分為軟件平臺和硬件平臺,其中軟件平臺主要由設備狀態監測模塊、環境監測模塊、掘進機器人位姿參數顯示模塊和遠程控制模塊組成,如圖8 所示,硬件平臺采用履帶式機器人代替掘進機器人,以實驗室樓道作為巷道環境,如圖9 所示。

圖8 路徑規劃實驗軟件平臺Fig.8 Experimental software platform for path planning

圖9 路徑規劃實驗硬件平臺Fig.9 Path planning experimental hardware

4.2 掘進機器人虛實同動實驗驗證

虛實結合的方式能夠有效應用的前提是虛實空間中機器人的位姿時刻保持一致,因此需要對虛實空間中機器人動作的同步性進行測試。

上述實驗平臺中巷道環境尺寸為200 cm×200 cm,掘進機器人尺寸為70.0 cm×68.5 cm,以巷道左下角作為坐標原點,寬度方向作為x軸,長度方向作為y軸,建立巷道坐標系。通過軟件平臺中的遠程控制模塊下發控制指令,遠程控制機器人動作,機器人機身上的傳感器數據傳輸至軟件平臺中對虛擬空間中的機器人位姿進行動態修正,從而保證虛實空間中的機器人動作保持一致。通過實時觀測虛實空間中機器人執行一次路徑規劃任務過程中的位姿數據,以t=1 s 的采樣周期,采集31 個位置處的x方向坐標數據、y方向坐標數據和航向角數據進行對比,如圖10 所示。

圖10 掘進機虛實空間位姿對比Fig.10 Comparison of the virtual and real space movements of cantilever roadheader robot

由圖10 可以看出,掘進機器人在運動過程中物理空間和虛擬空間的x方向坐標、y方向坐標和航向角基本保持一致。

為了更清楚地對比機器人在虛實空間中的位姿數據,將機器人在此過程中經過的路徑起點、路徑終點和路徑關鍵點處的(x,y)坐標和航向角數據進行對比分析,見表4。x方向坐標的誤差在1.57 cm 以內,y方向坐標的誤差在1.79 cm 以內,航向角的誤差在0.78°以內,滿足虛實同動的性能要求。

表4 虛實空間數據對比分析Table 4 Comparative analysis of virtual and real space data

4.3 掘進機器人路徑規劃實驗結果及分析

通過上述實驗驗證了機器人在虛實空間中的動作同步性,因此本文通過虛實結合的方式可直觀地展示路徑規劃結果。

以上述實驗平臺為基礎,設置掘進機器人初始位置坐標為(90,100),在此條件不變的情況下,通過調整目標位置設置兩種場景并分別使用SAC 算法和HERSAC 算法對掘進機器人進行路徑規劃。

第一種場景(近距離)中的目標位置的坐標為(115,100),距離機器人初始位置較近,分別將虛擬空間和物理空間中機器人的路徑結果記錄如圖11 所示;第二種場景(遠距離)中將目標位置的坐標設置為(145,100),距離機器人初始位置較遠,分別將虛擬空間和物理空間中機器人的路徑結果記錄如圖12 所示。

圖11 近距離路徑規劃結果Fig.11 Results of short path planning

圖12 遠距離路徑規劃結果Fig.12 Results of long path planning

由圖11 可以看出,近距離條件下,兩種算法規劃的路徑效果良好,HER-SAC 算法相比SAC 算法路徑縱向移動距離更短,路徑的平滑性更好;由圖12 可以看出,遠距離條件下,HER-SAC 算法相比SAC 算法效果更好,縱向移動距離更短,路徑更加平滑。

為進一步分析本文所提算法的性能,分別統計了兩種算法在兩種場景下的路徑長度、拐點數及路徑終點與目標位置的距離,見表5。近距離條件下,HER-SAC算法比SAC 算法,路徑長度更短,拐點數更少,終點更接近目標位置;遠距離條件下,HER-SAC 算法的路徑長度更短,拐點數更少,終點與目標位置的距離更小,達到最優路徑,而SAC 算法的路徑長度較長,拐點數較多,并非最優路徑。

表5 路徑結果對比Table 5 Comparison of results between long and short path planing

綜上所述,本文所提算法在兩種場景下規劃出的路徑更加平滑,路徑長度更短,能夠更好地適應不同的目標位置,高效地完成路徑規劃任務,為掘進機器人的移機軌跡跟蹤控制奠定基礎。

5 結論

a.根據煤礦井下非結構化環境特征及掘進機器人運動特性,提出了巷道邊界受限下的避障策略,基于獎懲機制建立了智能體,采用深度強化學習方法實現了掘進機器人的移機路徑規劃,實驗結果表明該方法能夠獲得長度更短、更加平滑的路徑。

b.將后見經驗回放引入SAC 算法中,提出了HERSAC 算法,根據初始環境目標獲得多目標子集,增加經驗池樣本數據,提高了算法的收斂速度和訓練效率。用3 種算法在同一場景條件下進行訓練,訓練結果表明該算法相比另外兩種算法性能達到最優,能夠更高效地完成路徑規劃任務。

c.采用虛實結合的方式對所提方法進一步驗證,通過對比分析不同場景下2 種算法的路徑結果,驗證了本文所述方法的準確度和魯棒性,為煤礦掘進設備自動化提供了新方法。由于實際煤礦井下巷道環境復雜多變,后續還需深入研究巷道環境構建、機器人運動控制等內容,實現非全斷面巷道智能化作業,提高掘進效率。

符號注釋:

at為t時刻的動作;為策略π在下一步采取的所有可能動作;B為從經驗池中取一個batch(批量)的樣本數據量;Eπ為策略π在狀態st+1下的累積回報期望;為策略π在狀態-動作對 (st,at)下的回報期望;為策略π在狀態st下采取動作的回報期望;H(π(·|st)) 為策略π在狀態st下的熵;P˙為掘進機器人的位姿矩陣;Q(st,at;λ)為QCritic網絡輸出的狀態動作對(st,at)下的預測價值估計;Q(st,;λ)為QCritic網絡輸出的狀態動作對(st,)下的預測價值估計;rt為狀態-動作對 (st,at) 的回報值;r(st,at) 為狀態-動作對 (st,at)下的回報值;st為t時刻的狀態;t為時間步數;T為時間參數;、分別為掘進機器人在巷道平面坐標系XOY下沿x軸、y軸方向上的線速度;α為正則化系數;β為Actor 網絡參數;γ為折扣因子;為掘進機器人運動角速度;λ為QCritic 網絡參數;π為一個狀態下采取一個動作的概率;lnπ(;β) 為策略π在狀態st下的熵;ρπ為t=0 到T所有狀態-動作對的集合。

猜你喜歡
規劃智能
發揮人大在五年規劃編制中的積極作用
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
主站蜘蛛池模板: 久久a级片| 国产精品久久久久久影院| 国产av剧情无码精品色午夜| 国产永久在线视频| 亚洲日本一本dvd高清| 亚洲无线一二三四区男男| 欧美日韩国产综合视频在线观看| 啪啪免费视频一区二区| a毛片免费在线观看| 国产精品亚洲片在线va| 亚洲国产成熟视频在线多多| 日韩乱码免费一区二区三区| 人妻出轨无码中文一区二区| 日本一区二区三区精品国产| 亚洲成a人片| 在线免费不卡视频| 国产高清在线观看91精品| 欧美区国产区| 亚洲欧美日韩动漫| 婷婷伊人五月| 成人年鲁鲁在线观看视频| 亚洲性视频网站| 91福利免费| 人人看人人鲁狠狠高清| 亚洲人成影视在线观看| a级毛片免费播放| 亚洲国产成人久久77| 白浆免费视频国产精品视频| 一级毛片免费的| 九九这里只有精品视频| 91网址在线播放| 国产玖玖视频| 高清视频一区| 久久99热这里只有精品免费看| 综合色88| 久久性视频| 国产精品欧美在线观看| 最近最新中文字幕在线第一页| 日韩在线播放欧美字幕| 成人免费网站久久久| 一级毛片在线直接观看| 在线亚洲精品自拍| 无码AV高清毛片中国一级毛片| 华人在线亚洲欧美精品| 黄色三级网站免费| 色偷偷男人的天堂亚洲av| 亚洲黄网视频| 国产噜噜噜视频在线观看| 日韩国产一区二区三区无码| 在线毛片网站| 久久久久久久久18禁秘| 亚洲国产精品VA在线看黑人| 国产本道久久一区二区三区| 国产成人一区在线播放| 国产美女丝袜高潮| 久久久91人妻无码精品蜜桃HD| 国产精品护士| 在线观看无码av免费不卡网站| 88av在线| 国产成人1024精品| 99热这里只有免费国产精品 | 亚洲国产精品一区二区第一页免| 9久久伊人精品综合| 亚洲最猛黑人xxxx黑人猛交| 最新日韩AV网址在线观看| 精品国产成人a在线观看| 在线观看网站国产| 全部免费特黄特色大片视频| 中国精品自拍| 99re精彩视频| 国内精品一区二区在线观看| 国产黄色视频综合| 91精品aⅴ无码中文字字幕蜜桃 | 亚欧成人无码AV在线播放| 日韩无码视频专区| 国产亚洲日韩av在线| 996免费视频国产在线播放| 国内丰满少妇猛烈精品播| 无码区日韩专区免费系列 | 亚洲中文字幕23页在线| 国产精品午夜电影| 成年人国产网站|