基于內(nèi)在動(dòng)機(jī)強(qiáng)化學(xué)習(xí)算法的煤礦井下運(yùn)輸機(jī)器人自主避障

2025-08-15 00:00:00趙克寶李靈鋒陳茁韓駿尹瑞

工礦自動(dòng)化 2025年6期

中圖分類號(hào)：TD67 文獻(xiàn)標(biāo)志碼：A

Abstract： Existing robot obstacle avoidance methods mostly rely on preset rules or external reward signals， making it dificult toadaptto thecomplexand variable underground environment incoal mines.Toachieve autonomous and eficient obstacle avoidance for underground coal mine transport robots，an autonomous obstacle avoidancemethod forunderground coal mine transport robot based on Intrinsic Motivation Reinforcement Learning （IM-RL）algorithm was proposed.The underground coal mine transport robot perceived external environmental information through visual sensors，calculated internal reward values for identifying external environmental atributes using acuriosity-driven intrinsic motivation orientation function，and computed external reward values for its action atributes using anexternal motivation reward function.Bycombining the reward weights of the intrinsic motivation orientation function and the external motivation reward function，it calculated a comprehensive reward value based on the robot's state before and after performing an action，forming the reward mechanism of the reinforcement learning algorithm. The robot's state was trained through a deep belief network， which encouraged the transport robot to actively explore unknown environments.Meanwhile， it used its own memory mechanism to store knowledge and experience， achieving autonomous obstacle avoidance through continuous learning and training.Autonomous obstacleavoidance experiments for the transport robot were conducted in static environments，dynamic environments， and actual underground coal mine environments. The results showed that robots using the IM-RL algorithm achieved the short obstacle avoidance paths and search times， demonstrating strong generalization and robustness.

Key words： intrinsic motivation; reinforcement learning; transport robot; autonomous obstacle avoidance; path planning

0引言

煤礦井下運(yùn)輸機(jī)器人通常用于矸石、煤炭、設(shè)備和材料的運(yùn)輸。然而，運(yùn)輸機(jī)器人需要頻繁穿梭于狹窄且障礙物繁多的巷道和綜采工作面中，多數(shù)運(yùn)輸機(jī)器人不具備智能自主避障功能，躲避障礙物需依賴人工操作[]，增加了工作人員勞動(dòng)強(qiáng)度，若操作不當(dāng)會(huì)導(dǎo)致翻車事故，存在一定的安全隱患。因此，研究具有自主避障功能的井下運(yùn)輸機(jī)器人對(duì)提高煤礦生產(chǎn)運(yùn)輸效率具有重要意義。

近年來，眾多學(xué)者對(duì)機(jī)器人避障技術(shù)進(jìn)行了研究。曹現(xiàn)剛等采用人工勢(shì)場(chǎng)法改進(jìn)快速隨機(jī)擴(kuò)展樹算法，在此基礎(chǔ)上提出了一種煤矸分揀機(jī)器人避障軌跡規(guī)劃方法，設(shè)計(jì)了一種環(huán)境敏感型目標(biāo)偏置策略來提升機(jī)器人路徑局部特性。金將等[3]針對(duì)蟻群算法應(yīng)用于路徑規(guī)劃時(shí)存在的盲目搜索、路徑平滑性差等缺點(diǎn)，提出了一種改進(jìn)的蟻群算法，以提高搜索效果。張彪等[4提出了一種改進(jìn)的動(dòng)態(tài)尋優(yōu)蟻群算法，實(shí)時(shí)評(píng)估和調(diào)整機(jī)器人路徑，實(shí)現(xiàn)即時(shí)動(dòng)態(tài)避障功能。王欣等[5建立機(jī)器人動(dòng)力學(xué)模型，提出了一種判斷轉(zhuǎn)彎方向和轉(zhuǎn)彎角度的策略，使得救災(zāi)機(jī)器人能夠在井下實(shí)現(xiàn)自主避障。機(jī)器學(xué)習(xí)和人工智能的飛速發(fā)展，加速了其在煤礦機(jī)器人中的應(yīng)用[。鞏固等[提出了基于運(yùn)動(dòng)視頻的光流場(chǎng)目標(biāo)視覺識(shí)別方法，可識(shí)別煤礦井下環(huán)境目標(biāo)。李芳威等[通過時(shí)間彈性帶（TimeElasticBand，TEB）算法進(jìn)行局部路徑規(guī)劃。張立亞等基于紅外攝像儀與激光雷達(dá)多源傳感融合技術(shù)，提出了一種基于子圖像分割映射點(diǎn)云空間的機(jī)器人避障算法，具有較高的避障效率。宋秦中等[10]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetwork，CNN）的井下無人駕駛無軌膠輪車運(yùn)動(dòng)避障控制算法。郭愛軍等[]提出了動(dòng)態(tài)環(huán)境下的避障方法，實(shí)現(xiàn)了井下礦車的動(dòng)態(tài)自主避障和安全行駛。張可琨等[12]利用障礙物評(píng)價(jià)子函數(shù)改進(jìn)動(dòng)態(tài)窗口（DynamicWindowApproach，DWA）算法，有效提升了搬運(yùn)機(jī)器人動(dòng)態(tài)避障能力。YangHongxia等[3]提出了一種改進(jìn)A*算法與增強(qiáng)型DWA算法相結(jié)合的機(jī)器人避障方案，對(duì)搜索點(diǎn)選擇策略和代價(jià)函數(shù)進(jìn)行優(yōu)化，提升了機(jī)器人避障效率。XuZhenyang等[14]提出了一種基于改進(jìn)A算法與DWA算法的移動(dòng)機(jī)器人自主導(dǎo)航算法，采用DWA算法將移動(dòng)機(jī)器人的驅(qū)動(dòng)直接限制在速度空間內(nèi)，同時(shí)與環(huán)境動(dòng)態(tài)交互以實(shí)時(shí)調(diào)整機(jī)器人運(yùn)動(dòng)軌跡，實(shí)現(xiàn)了基于全局最優(yōu)的未知障礙物規(guī)避。彭繼國(guó)等[15提出了一種基于模糊控制的井下機(jī)器人智能視覺避障方法，通過模糊控制算法計(jì)算機(jī)器人的轉(zhuǎn)向角度和加速度，實(shí)現(xiàn)井下機(jī)器人智能避障。王利民等[16提出了一種融合改進(jìn)A*算法與DWA算法的煤礦機(jī)器人路徑規(guī)劃方法，將改進(jìn)A*算法規(guī)劃出的路徑節(jié)點(diǎn)依次作為局部路徑規(guī)劃DWA的局部目標(biāo)點(diǎn)，從而縮短路徑長(zhǎng)度，并通過調(diào)整DWA代價(jià)函數(shù)中的權(quán)值比例來提升避障性能。魯志等[17提出了一種基于改進(jìn)A算法與改進(jìn)DWA算法的機(jī)器人動(dòng)態(tài)避障方法，該方法在 A^* 算法中引入全局障礙物占比，在DWA算法中加入目標(biāo)點(diǎn)代價(jià)子函數(shù)，從而實(shí)現(xiàn)移動(dòng)機(jī)器人的動(dòng)態(tài)避障。

現(xiàn)有的機(jī)器人避障方法多依賴于預(yù)設(shè)規(guī)則或外部獎(jiǎng)勵(lì)信號(hào)，難以適應(yīng)井下復(fù)雜多變的動(dòng)態(tài)環(huán)境。本文提出一種基于內(nèi)在動(dòng)機(jī)強(qiáng)化學(xué)習(xí)（IntrinsicMotivationReinforcementLearning，IM-RL）算法的煤礦井下運(yùn)輸機(jī)器人自主避障方法。煤礦井下運(yùn)輸機(jī)器人通過視覺傳感器感知外界環(huán)境信息，利用基于好奇心[18-19]的內(nèi)在動(dòng)機(jī)取向函數(shù)[20]計(jì)算其判斷外界環(huán)境物體屬性的內(nèi)部獎(jiǎng)賞值，利用外部動(dòng)機(jī)獎(jiǎng)勵(lì)函數(shù)計(jì)算其動(dòng)作屬性的外部獎(jiǎng)賞值，結(jié)合內(nèi)在動(dòng)機(jī)取向函數(shù)的獎(jiǎng)勵(lì)權(quán)重和外部動(dòng)機(jī)獎(jiǎng)勵(lì)函數(shù)的獎(jiǎng)勵(lì)權(quán)重計(jì)算其綜合獎(jiǎng)賞值，將此獎(jiǎng)賞值作為強(qiáng)化學(xué)習(xí)算法[21]獎(jiǎng)勵(lì)機(jī)制，通過深度置信網(wǎng)絡(luò)對(duì)運(yùn)輸機(jī)器人狀態(tài)進(jìn)行訓(xùn)練和學(xué)習(xí)，激勵(lì)運(yùn)輸機(jī)器人主動(dòng)探索未知環(huán)境，使其向自身的記憶機(jī)制中存儲(chǔ)知識(shí)和經(jīng)驗(yàn)，通過不斷學(xué)習(xí)和訓(xùn)練實(shí)現(xiàn)井下運(yùn)輸機(jī)器人自主避障。

1 IM-RL算法

IM-RL算法利用一個(gè)七元組模型 ?A，S，V（i） .H， R（Φ_Si，a_i） a_i），Q（s_i，a_i），p（s_i，a_i）? 進(jìn)行序列化描述，其中各元素具體含義如下。

1） A ：運(yùn)輸機(jī)器人動(dòng)作集合。 A={a_i|i=1，2，… ∣m_a} ，其中 a_i 為運(yùn)輸機(jī)器人第 i 個(gè)動(dòng)作，以當(dāng)前機(jī)器人碰到或避開障礙物的動(dòng)作、接近或遠(yuǎn)離目標(biāo)點(diǎn)的動(dòng)作等來描述， m_a 為運(yùn)輸機(jī)器人所有動(dòng)作的數(shù)量。

2）S：運(yùn)輸機(jī)器人狀態(tài)集合。 S={s_i|i=1，2，… |m_s} ，其中 s_i 為運(yùn)輸機(jī)器人第 i 個(gè)動(dòng)作對(duì)應(yīng)的第 i 個(gè)狀態(tài)，以當(dāng)前機(jī)器人與障礙物的距離、當(dāng)前機(jī)器人與目標(biāo)點(diǎn)的距離等來描述， m_s 為運(yùn)輸機(jī)器人所有狀態(tài)的數(shù)量。

3） V（i）：評(píng)價(jià)函數(shù)。

V（i）=maxU^*（s_i，a_i）

式中 U^*（s_i，a_i）為運(yùn)輸機(jī)器人在狀態(tài) s_i 時(shí)執(zhí)行動(dòng)作a_i 后對(duì)動(dòng)作的評(píng)價(jià)。

4） H_：內(nèi)在動(dòng)機(jī)取向函數(shù)。取向函數(shù)用于引導(dǎo)運(yùn)輸機(jī)器人在環(huán)境中的學(xué)習(xí)方向，運(yùn)輸機(jī)器人根據(jù)環(huán)境中前后位置的取向函數(shù)變化對(duì)不穩(wěn)定空間中的內(nèi)部獎(jiǎng)賞值進(jìn)行更新。一般情況下，當(dāng)運(yùn)輸機(jī)器人靠近障礙物時(shí)，內(nèi)部獎(jiǎng)賞值較低；當(dāng)運(yùn)輸機(jī)器人靠近目標(biāo)點(diǎn)時(shí)，內(nèi)部獎(jiǎng)賞值較高。

式中 λ 為內(nèi)在動(dòng)機(jī)取向函數(shù)的修飾參數(shù)， 0lt;λ?1 。

5） R（Φ_Si，a_i）：綜合獎(jiǎng)賞值，即運(yùn)輸機(jī)器人在狀態(tài)s_i 時(shí)執(zhí)行動(dòng)作 a_i 轉(zhuǎn)移到下一狀態(tài) s_i+1 后所得到的綜合獎(jiǎng)賞值。

式中： ξ 為內(nèi)在動(dòng)機(jī)取向函數(shù)的獎(jiǎng)勵(lì)權(quán)重； η 為外部動(dòng)機(jī)獎(jiǎng)勵(lì)函數(shù)的獎(jiǎng)勵(lì)權(quán)重， ξ⁺η^-1;r_ex 為外部動(dòng)機(jī)獎(jiǎng)勵(lì)函數(shù)。

6 Q（s_i，a_i）：值函數(shù)。

將外部動(dòng)機(jī)獎(jiǎng)勵(lì)函數(shù) r_ex 分為2個(gè)部分：

r_ex=r_ex-obs+r_ex-goal

式中： r_ex-obs 為運(yùn)輸機(jī)器人相對(duì)障礙物的運(yùn)動(dòng)方向、距離和位置所產(chǎn)生的獎(jiǎng)勵(lì) （r_ex-obs=-0.5 ，接近障礙物； r_ex-obs=+0.5 ，遠(yuǎn)離障礙物； r_ex-obs=0 ，其他運(yùn)動(dòng)）；r_ex-goal 為運(yùn)輸機(jī)器人相對(duì)目標(biāo)點(diǎn)的運(yùn)動(dòng)方向、距離和位置所產(chǎn)生的獎(jiǎng)勵(lì) （r_ex-goal）=-0.5 ，遠(yuǎn)離目標(biāo)點(diǎn)；r_ex-goal=+0.5 ，接近目標(biāo)點(diǎn)； r_ex-goal=0 ，其他運(yùn)動(dòng)）。

則IM-RL算法的值函數(shù)迭代公式為

式中： κ 為學(xué)習(xí)因子； γ 為折扣因子。

7） p（s_i，a_i）：運(yùn)輸機(jī)器人在狀態(tài) s_i 時(shí)執(zhí)行動(dòng)作a_i 后的適應(yīng)率。

2基于IM-RL算法的煤礦井下運(yùn)輸機(jī)器人自主避障流程

基于IM-RL算法的煤礦井下運(yùn)輸機(jī)器人自主避障流程如圖1所示，具體步驟如下。

圖1基于IM-RL算法的井下運(yùn)輸機(jī)器人自主避障流程 Fig.1Autonomous obstacle avoidance process of underground transport robotbasedonIM-RL algorithm

Step1：初始化當(dāng)前運(yùn)輸機(jī)器人狀態(tài)，隨機(jī)選取學(xué)習(xí)因子 κ 和折扣因子y，同時(shí)根據(jù)運(yùn)輸機(jī)器人工作環(huán)境選擇恰當(dāng)?shù)膬?nèi)在動(dòng)機(jī)取向函數(shù)的獎(jiǎng)勵(lì)權(quán)重 ξ 和外部動(dòng)機(jī)獎(jiǎng)勵(lì)函數(shù)的獎(jiǎng)勵(lì)權(quán)重 η 。

Step2：運(yùn)輸機(jī)器人通過視覺傳感器感知外界環(huán)境信息，隨機(jī)獲取運(yùn)輸機(jī)器人當(dāng)前狀態(tài)信息。

Step3：根據(jù)強(qiáng)化學(xué)習(xí)馬爾可夫決策過程（MarkovDecisionProcess，MDP）迭代公式計(jì)算當(dāng)前可能執(zhí)行的動(dòng)作的獎(jiǎng)賞值，運(yùn)輸機(jī)器人根據(jù)當(dāng)前獎(jiǎng)賞值選擇合適的動(dòng)作 a_i°

Step4：執(zhí)行動(dòng)作 a_i 后，運(yùn)輸機(jī)器人得到全新狀態(tài) s_i+1 ，并隨著下一狀態(tài)的學(xué)習(xí)，通過內(nèi)在動(dòng)機(jī)取向函數(shù)計(jì)算其判斷外界環(huán)境物體屬性的內(nèi)部獎(jiǎng)賞值，利用外部動(dòng)機(jī)獎(jiǎng)勵(lì)函數(shù)計(jì)算其動(dòng)作屬性的外部獎(jiǎng)賞值。若機(jī)器人在訓(xùn)練過程中發(fā)生碰撞，則返回一定范圍的初始狀態(tài)重新開始訓(xùn)練。

Step5：根據(jù)不同的獎(jiǎng)勵(lì)權(quán)重、內(nèi)部獎(jiǎng)賞值和外部獎(jiǎng)賞值計(jì)算綜合獎(jiǎng)賞值，形成強(qiáng)化學(xué)習(xí)算法獎(jiǎng)勵(lì)機(jī)制，通過外界環(huán)境反饋到深度置信網(wǎng)絡(luò)進(jìn)行下一步訓(xùn)練。

Step6：重復(fù)Step2至Step5，直到完成自主學(xué)習(xí)。

3機(jī)器人自主避障仿真實(shí)驗(yàn)

3.1靜態(tài)環(huán)境下機(jī)器人自主避障仿真實(shí)驗(yàn)

3.1.1 實(shí)驗(yàn)環(huán)境和評(píng)價(jià)指標(biāo)

創(chuàng)建尺寸為 36m×36m 的仿真實(shí)驗(yàn)環(huán)境地圖，如圖2所示，圖中黑色區(qū)域表示實(shí)驗(yàn)環(huán)境中不可觸及的障礙物區(qū)域，白色方格區(qū)域表示煤礦運(yùn)輸機(jī)器人可自由行走的無障礙區(qū)域。實(shí)驗(yàn)硬件配置為13thGenIntel（R）Core（TM）i9-13900K3.00GHz處理器、12GiB的NVIDIARTXA2000GPU、Windows10操作系統(tǒng)，開發(fā)環(huán)境為Matlab。實(shí)驗(yàn)采用運(yùn)輸機(jī)器人避障路徑距離和到達(dá)目標(biāo)點(diǎn)的搜索時(shí)間對(duì)IM-RL算法進(jìn)行性能評(píng)估。

3.1.2不同獎(jiǎng)勵(lì)權(quán)重下機(jī)器人靜態(tài)避障仿真實(shí)驗(yàn)

為獲得IM-RL算法的內(nèi)在動(dòng)機(jī)取向函數(shù)的獎(jiǎng)勵(lì)權(quán)重 ξ 和外部動(dòng)機(jī)獎(jiǎng)勵(lì)函數(shù)的獎(jiǎng)勵(lì)權(quán)重 η ，進(jìn)行機(jī)器人靜態(tài)避障仿真實(shí)驗(yàn)，避障路徑如圖3所示，數(shù)據(jù)見表1。可看出，當(dāng) ξ=0.95 η=0.05 時(shí)，外部獎(jiǎng)勵(lì)權(quán)重較低，機(jī)器人識(shí)別外部環(huán)境障礙物和目標(biāo)點(diǎn)的能力相對(duì)較弱，在搜尋目標(biāo)位置時(shí)出現(xiàn)識(shí)別準(zhǔn)確度低的情況；當(dāng) ζ=0.85 η=0.15 時(shí)，外部獎(jiǎng)勵(lì)權(quán)重較高，機(jī)器人識(shí)別外部環(huán)境障礙物和目標(biāo)點(diǎn)的能力相對(duì)較強(qiáng)，導(dǎo)致機(jī)器人遠(yuǎn)距離躲避障礙物，進(jìn)而出現(xiàn)冗余路徑。當(dāng) ξ=0.9 η=0.1 時(shí)，機(jī)器人避障路徑最優(yōu)。

圖3不同獎(jiǎng)勵(lì)權(quán)重下機(jī)器人靜態(tài)避障路徑 Fig.3Static obstacleavoidance paths of robot under different rewardweights

表1不同獎(jiǎng)勵(lì)權(quán)重下機(jī)器人靜態(tài)避障仿真數(shù)據(jù)Table1Simulationdataofrobotstaticobstacleavoidanceunder different reward weights

3.1.3不同算法下機(jī)器人靜態(tài)避障仿真實(shí)驗(yàn)

IM-RL算法、CNN算法、混合 A^* 算法和改進(jìn)A^*- -DWA算法下機(jī)器人靜態(tài)避障仿真結(jié)果見表2?？煽闯鲈陟o態(tài)環(huán)境中，與CNN算法、混合 A^* 算法和改進(jìn) A^* -DWA算法相比，IM-RL算法的避障路徑距離分別縮短了 4.26% 3.16% 和 1.73% ，搜索時(shí)間分別縮短了 80.70% ， 63.33% 和 46.57% ，IM-RL算法的效率更高。

表2不同算法下機(jī)器人靜態(tài)避障仿真實(shí)驗(yàn)數(shù)據(jù)Table2Simulation experiment data of robot static obstacle avoidanceunderdifferentalgorithms

3.2動(dòng)態(tài)環(huán)境下機(jī)器人自主避障仿真實(shí)驗(yàn)

3.2.1不同獎(jiǎng)勵(lì)權(quán)重下機(jī)器人動(dòng)態(tài)避障仿真實(shí)驗(yàn)

在靜態(tài)障礙物仿真環(huán)境的基礎(chǔ)上增加 0.4m× 0.4m 的正方形作為動(dòng)態(tài)未知障礙物，其他參數(shù)不變。IM-RL算法的內(nèi)在動(dòng)機(jī)取向函數(shù)的獎(jiǎng)勵(lì)權(quán)重ξ 和外部動(dòng)機(jī)獎(jiǎng)勵(lì)函數(shù)的獎(jiǎng)勵(lì)權(quán)重 η 取值不同時(shí)，機(jī)器人動(dòng)態(tài)避障路徑如圖4所示，數(shù)據(jù)見表3。可看出，當(dāng) ξ=0.95 η=0.05 時(shí)，外部獎(jiǎng)勵(lì)權(quán)重較低，機(jī)器人識(shí)別外部環(huán)境障礙物和目標(biāo)點(diǎn)的能力相對(duì)較弱，在搜尋目標(biāo)位置時(shí)出現(xiàn)識(shí)別準(zhǔn)確度低的情況；當(dāng)ξ=0.85，η=0.15 時(shí)，外部獎(jiǎng)勵(lì)權(quán)重較高，機(jī)器人識(shí)別外部環(huán)境障礙物和目標(biāo)點(diǎn)的能力相對(duì)較強(qiáng)，導(dǎo)致機(jī)器人遠(yuǎn)距離躲避障礙物，進(jìn)而出現(xiàn)冗余路徑。當(dāng)0.9， η=0.1 時(shí)，機(jī)器人避障路徑最優(yōu)。

4煤礦井下環(huán)境中機(jī)器人自主避障實(shí)驗(yàn)

表3不同獎(jiǎng)勵(lì)權(quán)重下機(jī)器人動(dòng)態(tài)避障仿真實(shí)驗(yàn)數(shù)據(jù)

3.2.2不同算法下機(jī)器人動(dòng)態(tài)避障仿真實(shí)驗(yàn)

IM-RL算法、CNN算法、混合 A^* 算法和改進(jìn)A^* -DWA算法下機(jī)器人動(dòng)態(tài)避障路徑如圖5所示，數(shù)據(jù)見表4?？煽闯鲈诖嬖谖粗系K物的動(dòng)態(tài)環(huán)境中，與CNN算法、混合 A^* 算法和改進(jìn) A^*. -DWA算法相比，IM-RL算法的避障路徑距離分別縮短了23.32% ！ 18.99% 和 12.98% ，搜索時(shí)間分別縮短了75.06% ， 72.51% 和 70.83% ；IM-RL算法下機(jī)器人能

由于煤礦井下環(huán)境黑暗，在機(jī)器人前端安裝2個(gè)LED補(bǔ)光燈進(jìn)行照明。在煤礦井下環(huán)境中，IM-RL算法、CNN算法、混合 A^* 算法和改進(jìn) A^* -DWA算法下機(jī)器人避障路徑如圖6所示，數(shù)據(jù)見表5?？煽闯鲈诿旱V井下環(huán)境中出現(xiàn)未知障礙物時(shí)，IM-RL算法和改進(jìn) A^*– -DWA算法能夠?qū)崿F(xiàn)實(shí)時(shí)避障；而CNN算法和混合 A^* 算法會(huì)出現(xiàn)與障礙物碰撞的情況；改進(jìn) A^* -DWA算法雖然能夠?qū)崟r(shí)避開障礙物順利達(dá)到目標(biāo)點(diǎn)，但其路徑較長(zhǎng)，影響運(yùn)輸效率；與CNN算法、混合 A^* 算法和改進(jìn) A^* -DWA算法相比，IM-RL算法的避障路徑距離分別縮短了9.41% ， 8.17% 和 14.49% ，搜索時(shí)間分別縮短了79.65% ， 78.58% 和 76.43% ；IM-RL算法下機(jī)器人能實(shí)時(shí)、有效避開未知障礙物，表明IM-RL算法泛化性能好。

圖6煤礦井下環(huán)境中不同算法下機(jī)器人避障路徑 Fig.6Obstacle avoidance paths of robot under different algorithms incoal mine underground environment

表5煤礦井下環(huán)境中不同算法下機(jī)器人避障實(shí)驗(yàn)數(shù)據(jù)Table5Experimentaldataofrobotobstacleavoidanceunderdifferentalgorithmsincoal mineunderground environment

5結(jié)論

1）運(yùn)輸機(jī)器人利用視覺傳感器感知外界環(huán)境信息，利用基于好奇心的內(nèi)在動(dòng)機(jī)取向函數(shù)計(jì)算運(yùn)輸機(jī)器人判斷外界環(huán)境物體屬性的內(nèi)部獎(jiǎng)賞值，結(jié)合運(yùn)輸機(jī)器人動(dòng)作屬性的外部獎(jiǎng)賞值和獎(jiǎng)勵(lì)權(quán)重，計(jì)算運(yùn)輸機(jī)器人的綜合獎(jiǎng)賞值，激勵(lì)運(yùn)輸機(jī)器人主動(dòng)探索未知環(huán)境，使其向自身的記憶機(jī)制中存儲(chǔ)知識(shí)和經(jīng)驗(yàn)，通過不斷的學(xué)習(xí)訓(xùn)練實(shí)現(xiàn)井下運(yùn)輸機(jī)器人自主避障。

2）靜態(tài)環(huán)境和動(dòng)態(tài)環(huán)境下運(yùn)輸機(jī)器人自主避障仿真實(shí)驗(yàn)結(jié)果表明，當(dāng)IM-RL算法的內(nèi)在動(dòng)機(jī)取向函數(shù)的獎(jiǎng)勵(lì)權(quán)重 ξ=0.90 、外部動(dòng)機(jī)獎(jiǎng)勵(lì)函數(shù)的獎(jiǎng)勵(lì)權(quán)重 η=0.10 時(shí)，運(yùn)輸機(jī)器人避障路徑和搜索時(shí)間均達(dá)到最優(yōu)。

3）在靜態(tài)環(huán)境、存在未知障礙物動(dòng)態(tài)環(huán)境和煤礦井下環(huán)境中，IM-RL算法具有較高的魯棒性、泛化性和實(shí)時(shí)性，自主避障效果優(yōu)于CNN算法、混合A*算法和改進(jìn) A^* -DWA算法。

參考文獻(xiàn)（References）：

[1]楊春雨，張?chǎng)?煤礦機(jī)器人環(huán)境感知與路徑規(guī)劃關(guān)鍵技術(shù)[J].煤炭學(xué)報(bào)，2022，47（7）：2844-2872. YANG Chunyu， ZHANG Xin. Key technologies of coal mine robots for environment perception and path planning[J]. Journal of China Coal Society，2022， 47（7）： 2844-2872.

[2]曹現(xiàn)剛，藏家松，吳旭東，等.基于AE-RRT*的煤矸分揀機(jī)器人避障揀軌跡規(guī)劃方法[J/OL].煤炭學(xué)報(bào)：1- 12[2025-03-27].https：//link.cnki.net/doi/10.13225/j.cnki. jccs.2024.1195. CAO Xiangang， ZANG Jiasong，WU Xudong，et al. Obstacle avoidance trajectory planning method for coal gangue sorting robot based on AE-RRT*[J/OL]. Journal of China Coal Society： 1-12[2025-03-27]. htps：//link. cnki.net/doi/10.13225/j.cnki.jccs.2024.1195.

[3］金將，王小平，臧鐵鋼，等.基于改進(jìn)蟻群算法的機(jī)器人避障路徑規(guī)劃[J].計(jì)算機(jī)工程與設(shè)計(jì)，2025， 46（4）：950-958. JIN Jiang， WANG Xiaoping， ZANG Tiegang， et al. Robot obstacle avoidance path planning based on improvedantcolonyalgorithm[J]. Computer Engineering and Design，2025，46（4）： 950-958.

[4]張彪，李永強(qiáng).基于動(dòng)態(tài)尋優(yōu)蟻群算法的移動(dòng)機(jī)器人路徑規(guī)劃[J].儀器儀表學(xué)報(bào)，2025，46（3）：74-85. ZHANG Biao，LI Yongqiang. Path planning of mobile robot based on the dynamic optimization ant colony algorithm[J]. Chinese Journal of Scientific Instrument， 2025，46（3）： 74-85.

[5]王欣，鄧玉嬌，?？×?礦井救災(zāi)機(jī)器人運(yùn)動(dòng)學(xué)分析及避障策略研究[J].煤礦機(jī)械，2013，34（2）：69-71. WANGXin， DENGYujiao， CHANGJunlin. Kinematics analysis and obstacle avoidance strategy researchofminerescuerobot[J].CoalMine Machinery， 2013，34（2）： 69-71.

[6]張辰，范永，李貽斌，等.人工智能在煤礦機(jī)器人中的應(yīng)用[J].中國(guó)煤炭，2021，47（1）：93-98. ZHANG Chen， FAN Yong， LI Yibin， et al. Application of artificial intelligence in coal mine robots[J].China Coal， 2021，47（1）： 93-98.

[7]鞏固，朱華.基于目標(biāo)識(shí)別與避障的煤礦救援機(jī)器人自主行走[J].南京理工大學(xué)學(xué)報(bào)，2022，46（1）：32-39. GONG Gu， ZHU Hua. Autonomous walking of coal mine rescue robot based on target recognition and obstacle avoidance[J]. Journal of Nanjing University of Science and Technology，2022， 46（1）：32-39.

[8］李芳威，鮑久圣，王陳，等.基于LD改進(jìn)Cartographer 建圖算法的無人駕駛無軌膠輪車井下SLAM自主導(dǎo)航方法及試驗(yàn)[J].煤炭學(xué)報(bào)，2024，49（增刊2）： 1271-1284. LI Fangwei，BAO Jiusheng，WANG Chen，et al. Unmanned tracklessrubberwheelerbased on LD improved Cartographer mapping algorithm underground SLAM autonomous navigation method and test[J]. Journal ofChina Coal Society， 2024，49（S2）： 1271-1284.

[9]張立亞，李晨鑫，劉斌，等.基于子圖像分割映射點(diǎn)云空間的機(jī)器人避障算法[J].煤炭科學(xué)技術(shù)，2024， 52（增刊2）：368-374. ZHANG Liya，LI Chenxin，LIU Bin，et al. Obstacle avoidance algorithm based on sub-image segmentation and mapping point cloud space[J]. Coal Science and Technology， 2024， 52（S2）： 368-374.

[10]宋秦中，胡華亮.基于CNN算法的井下無人駕駛無軌膠輪車避障方法[J].金屬礦山，2023（10）：168-174. SONG Qinzhong，HU Hualiang. Obstacle avoidance method for underground unmanned trackless rubbertyred vehicle based on CNN algorithm[J].Metal Mine， 2023（10）： 168-174.

[11]郭愛軍，楊騰，潘子宇.動(dòng)態(tài)環(huán)境下無人礦車速度規(guī)劃與避障方法[J].礦業(yè)研究與開發(fā)，2024，44（7）：239-245. GUO Aijun， YANG Teng， PAN Ziyu. Speed planning and obstacle avoidance method for unmanned mining vehicle in dynamic environment[J].Mining Research and Development， 2024， 44（7）： 239-245.

[12]張可琨，鮑久圣，艾俊偉，等.基于改進(jìn) A^* 與DWA算法的井下搬運(yùn)機(jī)器人自主行走路徑規(guī)劃[J].煤炭科學(xué) 技術(shù)，2024，52（11）：197-213. ZHANG Kekun， BAO Jiusheng，AI Junwei，et al. Autonomous walking path planning of underground handling robot based on improved A^* and DWA algorithm[J]． Coal Science and Technology，2024， 52（11）：197-213.

[13]YANG Hongxia， TENG Xingqiang. Mobile robot path planning based on enhanced dynamic window approach and improved a algorithm[J]. Journal ofRobotics，2022. DOI：10.1155/2022/2183229.

[14]XU Zhenyang，YUAN Wei. Mobile robot path planning based on fusion of improved A^* algorithm and adaptive DWA algorithm[J]. Journal of Physics：Conference Series，2022，2330（1） . DO1： 10.1088/1742-6596/2330/ 1/012003.

[15]彭繼國(guó)，張波，孫凌飛，等.井下移動(dòng)機(jī)器人智能視覺避障研究[J].工礦自動(dòng)化，2020，46（9）：51-56，63. PENG Jiguo， ZHANG Bo， SUN Lingfei， et al. Research onintelligent visual obstacle avoidance of underground mobile robot LJ」. Industry and Mine Automation， 2020， 46（9）：51-56， 63.

[16]王利民，孫瑞峰，翟國(guó)棟，等.融合改進(jìn)A*算法與動(dòng)態(tài) 窗口法的煤礦足式機(jī)器人路徑規(guī)劃[J].工礦自動(dòng)化， 2024，50（6）：112-119. WANG Limin， SUN Ruifeng， ZHAI Guodong，et al. Path planning of coal mine foot robot by integrating improved A^* algorithmanddynamicwindow approach[J]. Journal of Mine Automation， 2024， 50（6）： 112-119.

[17]魯志，劉瑩煌，張緒坤，等.融合 A^* 與DWA算法的移動(dòng)機(jī)器人動(dòng)態(tài)避障研究[J].電子測(cè)量技術(shù)，2025， 48（8）：34-45. LU Zhi， LIU Yinghuang， ZHANG Xukun， et al. Researchon mobilerobotdynamicobstacleavoidance by fusing A^* and DWA algorithms[J]. Electronic Measurement Technology， 2025，48（8）： 34-45.

[18]HARLOW H F. Learning and satiation of response in intrinsically motivated complex puzzle performance by monkeys[J]. Journal of Comparative and Physiological Psychology，1950，43（4）：289-294.

[19]李福進(jìn)，張俊琴，任紅格.基于仿生學(xué)內(nèi)在動(dòng)機(jī)的Q學(xué) 習(xí)算法移動(dòng)機(jī)器人路徑規(guī)劃研究[J].現(xiàn)代電子技術(shù)， 2019，42（17）： 133-137. LI Fujin， ZHANG Junqin， REN Hongge. Research on mobile robot path planning by Q-learning algorithm based on bionicsintrinsic motivation[J].Modern Electronics Technique，2019，42（17）： 133-137.

[20]阮曉鋼，張家輝，黃靜，等.一種結(jié)合內(nèi)在動(dòng)機(jī)理論的移動(dòng)機(jī)器人環(huán)境認(rèn)知模型[J].控制與決策，2021， 36（9）： 2211-2217. RUAN Xiaogang， ZHANG Jiahui， HUANG Jing， et al. Anenvironment cognition model combinedwith intrinsic motivation for mobile robots[J]. Control and Decision，2021，36（9）： 2211-2217.

[21]曾俊杰，秦龍，徐浩添，等.基于內(nèi)在動(dòng)機(jī)的深度強(qiáng)化學(xué)習(xí)探索方法綜述[J].計(jì)算機(jī)研究與發(fā)展，2023， 60（10）： 2359-2382. ZENG Junjie， QIN Long， XU Haotian， et al. Exploration approaches in deep reinforcement learning based on intrinsic motivation： a review[J]. Journal of Computer Research and Development， 2023， 60（10）： 2359-2382.

500 Internal Server Error

nginx