結(jié)合深度強化學習與變形五次多項式的搬運機器人關(guān)節(jié)軌跡規(guī)劃

2024-04-29 00:00:00李英杰陳乃建尹遜瑞鄭家坤張山林李映君

濟南大學學報(自然科學版) 2024年2期

文章編號：1671-3559（2024）02-0234-08DOI：10.13349/j.cnki.jdxbn.20231129.001

摘要：針對在生產(chǎn)節(jié)拍固定的情況下搬運機器人各關(guān)節(jié)的運動軌跡及時間分配問題，構(gòu)建基于深度強化學習與變形五次多項式相結(jié)合的搬運機器人關(guān)節(jié)軌跡時間分配模型；設(shè)計以節(jié)拍要求、速度約束和加速度約束為目標的獎勵函數(shù)，搭建神經(jīng)網(wǎng)絡(luò)，利用MATLAB/Simulink軟件，得到滿足生產(chǎn)節(jié)拍和運動學約束的時間序列，并利用單臂四自由度搬運機器人仿真實驗，驗證所構(gòu)建模型的可行性和有效性。結(jié)果表明：單臂四自由度搬運機器人各關(guān)節(jié)的運行時間均為5.89 s，其中平移關(guān)節(jié)1、3的最大速度分別為2 597.84、1 697.97 mm/s，最大加速度分別為19 532.11、31 302.61 mm/s2；旋轉(zhuǎn)關(guān)節(jié)2、 4的速度大小相等且方向相反，最大角速度均為137.53 （°）/s，最大角加速度均為1 180.51 （°）/s2，均未超過運動學約束；所構(gòu)建的模型可以解決在指定生產(chǎn)節(jié)拍下搬運機器人關(guān)節(jié)軌跡時間分配問題，實現(xiàn)搬運機器人搬運過程中各關(guān)節(jié)的運動均衡，改善搬運機器人運行的穩(wěn)定性和有效性。

關(guān)鍵詞：機器人技術(shù)；關(guān)節(jié)軌跡規(guī)劃；深度強化學習；搬運機器人；生產(chǎn)節(jié)拍

中圖分類號： TP241; TP38

文獻標志碼： A

開放科學識別碼（OSID碼）：

Joint Trajectory Planning of Transfer Robots Combining

Deep Reinforcement Learning and Deformed Quintic Polynomials

LI Yingjie， CHEN Naijian， YIN Xunrui， ZHENG Jiakun， ZHANG Shanlin， LI Yingjun

（School of Mechanical Engineering， University of Jinan， Jinan 250022， Shandong， China）

Abstract： Aiming at motion trajectories and time allocation of all joints of transfer robots under the condition of fixed production cycle time， a joint trajectory time allocation model of transfer robots based on deep reinforcement learning combining with deformed quintic polynomials was constructed. A reward function with the target of cycle time requirements， speed constraints， and acceleration constraints was designed， a neural network was built， and MATLAB/Simulink software was used to obtain time series meeting with the production cycle time and kinematic constraints. A single-arm four-degree-of-freedom transfer robot simulation experiment was used to verify feasibility and effectiveness of the constructed model. The results show that the running time of each joint of the single-arm four-degree-of-freedom transfer robot is 5.89 s， in which the maximum velocity of translation joint 1 and translation joint 3 are respectively 2597.84mm/sand1 697.97mm/s， and the maximum acceleration are respectively 19 532.11 mm/s2 and 31 302.61 mm/s2 respectively. The velocities of rotary joint 2 and rotary joint 4 are equal in magnitude and opposite in direction. Both of the maximum angular velocities are 137.53 （°）/s， and both of the maximum angular accelerations are 1 180.51（°）/s2. All of the above do not exceed kinematic constraints. The constructed model can solve the time allocation problem of transfer robot joint trajectory under

收稿日期： 2023-02-21""""""""" 網(wǎng)絡(luò)首發(fā)時間：2024-01-02T11：57：52

基金項目：國家自然科學基金項目（51875250）；山東省自然科學基金項目（ZR2022ME177）；濟南市“新高校20條”扶持項目（202228116）；

德州市現(xiàn)代產(chǎn)業(yè)領(lǐng)軍人才工程項目

第一作者簡介：李英杰（1997—），男，山東臨沂人。碩士研究生，研究方向為機器人技術(shù)及應(yīng)用。E-mail： 2512535455@qq.com。

通信作者簡介：陳乃建（1973—），男，山東臨沂人。教授，博士，碩士生導師，研究方向為機器人技術(shù)及應(yīng)用。E-mail： me_chennj@ujn.edu.cn。

網(wǎng)絡(luò)首發(fā)地址： https：//link.cnki.net/urlid/37.1378.N.20231229.1530.002

specified production cycle time， achieve motion balance of all joints during transfer process of transfer robots， and improve stability and effectiveness of transfer robot operation.

Keywords： robot technology; joint track planning; deep reinforcement learning; transfer robot; production cycle time

隨著汽車工業(yè)的迅速發(fā)展，高速自動化沖壓線的研究對促進我國汽車工業(yè)的發(fā)展具有重大的意義。搬運機器人作為一種工業(yè)機器人，是沖壓生產(chǎn)線上的關(guān)鍵設(shè)備，搬運機器人的自動化程度決定了沖壓線的生產(chǎn)效率。當前搬運機器人的關(guān)節(jié)軌跡規(guī)劃己成為研究熱點［1］。

對于搬運機器人的關(guān)節(jié)軌跡規(guī)劃問題，目前一般先采用多項式插值算法對搬運機器人的運動路徑進行擬合，再通過合適的智能算法對運動路徑進行優(yōu)化。郭鑫鑫等［2］針對六軸機器人關(guān)節(jié)空間的軌跡規(guī)劃問題，提出一種改進螢火蟲算法，改進后的算法收斂速度和精度有明顯的提升。王玉寶等［3］針對工業(yè)機器人在關(guān)節(jié)空間下的時間最優(yōu)軌跡規(guī)劃問題，提出一種改進免疫克隆算法，優(yōu)化了基本粒子群算法局部收斂的不足，最后得到單位工作周期運行時間最短的軌跡。 Yin等［4］針對工業(yè)機器人的能量最優(yōu)軌跡規(guī)劃問題，提出了一種基于機器學習的軌跡規(guī)劃方法，使得機器人運動的能量最優(yōu)。 Wang等［5］采用一種改進的人工勢場法對機器人進行關(guān)節(jié)軌跡規(guī)劃，使得機器人運動的沖擊最優(yōu)。雖然上述關(guān)于工業(yè)機器人關(guān)節(jié)軌跡規(guī)劃算法發(fā)展較成熟，但是大多算法針對的是最優(yōu)時間、最優(yōu)能量、最優(yōu)沖擊或者最優(yōu)時間-沖擊等問題［6-9］。在汽車覆蓋件的沖壓生產(chǎn)線中，需要多臺工業(yè)機器人協(xié)同運作［10］，按照最優(yōu)時間、最優(yōu)能量等原則，可能使搬運機器人處于較長的等待時間，并且相關(guān)研究［11］表明，生產(chǎn)線中較長的等待時間會產(chǎn)生不必要的能耗，因此應(yīng)根據(jù)生產(chǎn)節(jié)拍對搬運機器人進行關(guān)節(jié)軌跡規(guī)劃，實現(xiàn)在生產(chǎn)節(jié)拍和運動學約束下的各關(guān)節(jié)運行均衡，這對高速沖壓生產(chǎn)線具有重要意義。

隨著強化學習算法越來越廣泛地應(yīng)用于機器人，搬運機器人的關(guān)節(jié)軌跡規(guī)劃算法得到進一步拓展。為了對搬運機器人關(guān)節(jié)軌跡進行更簡潔、高效的規(guī)劃，本文中構(gòu)建基于深度強化學習與變形五次多項式相結(jié)合的搬運機器人關(guān)節(jié)軌跡時間分配模型（簡稱本文模型），對搬運機器人的運動路徑在關(guān)節(jié)空間中進行軌跡規(guī)劃，并利用單臂四自由度搬運機器人仿真實驗，驗證本文模型的可行性和有效性。

1" 搬運機器人末端執(zhí)行器運動路徑

汽車覆蓋件的沖壓生產(chǎn)線是工業(yè)機器人的典型應(yīng)用，主要包括多臺沖壓機，上、下料機器人，以及多臺沖壓機間的物料搬運機器人等，生產(chǎn)過程中要求各部分緊密配合。汽車覆蓋件的沖壓流水線如圖1所示。

搬運機器人在沖壓機間的動作包括在上位沖壓機內(nèi)的進模、吸料、出模等取料動作和下位沖壓機內(nèi)的進模、放料、出模等放料動作。搬運機器人末端執(zhí)行器的運動軌跡如圖2所示。搬運機器人末端執(zhí)行器運動路徑點為P1、 P2、 …、 P6，工作流程包括：工作開始，從初始位置P2下降至抓取位置P1；氣泵打開，抓取汽車覆蓋件；沿路徑P1—P2—P3—P4—P5—P6運動；在指定放料位置P6將工件放下后原路返回初始位置P2，等待下一個工作周期的開始。結(jié)合搬運機器人運動特性，將機器人的工作空間分為快速翻轉(zhuǎn)區(qū)、工進區(qū)、抓取區(qū)、放料區(qū)，分別分配各關(guān)節(jié)的運動。

2" 搬運機器人關(guān)節(jié)軌跡規(guī)劃

2.1" 2個關(guān)節(jié)位置點間的軌跡規(guī)劃

在笛卡兒坐標系中設(shè)計搬運機器人末端執(zhí)行器的運動路徑后，通過運動逆解可以得到各關(guān)節(jié)對應(yīng)的關(guān)節(jié)位置點，每個關(guān)節(jié)位置點之間選用合適的多項式進行擬合。

由機器人動力學［12］可知，搬運機器人的力矩與加速度的大小有直接關(guān)系，過大的加速度會導致關(guān)節(jié)力或力矩突然變化，從而引起搬運機器人較大的振動。各關(guān)節(jié)的加速度變化幅度越小，放置時越能夠抑制振動，減少汽車覆蓋件與沖壓模具之間的摩擦磨損，因此各關(guān)節(jié)位置點之間的軌跡規(guī)劃選用五次多項式，實現(xiàn)加速度連續(xù)變化。五次多項式的位移、速度和加速度曲線如圖3（a）所示。由圖可知，五次多項式的速度曲線只有加速、減速階段，不存在勻速階段。為了進一步減緩運行中速度變化，采用變形五次多項式進行搬運機器人軌跡規(guī)劃。將五次多項式的速度曲線分為3段： 1）加速段，運行時間為ta； 2）減速段，運行時間為tc； 3）中間段，搬運機器人沿最大速度勻速運行，運行時間為tb。變形五次多項式的位移、速度和加速度曲線如圖3（b）所示。從圖中可以看出，變形五次多項式的速度曲線存在勻速階段，在勻速過程中加速度為0，有效地減少了運行沖擊，能夠保證速度和加速度的平滑，因此相鄰關(guān)節(jié)位置點之間采用變形五次多項式進行連接。

2.2" 關(guān)節(jié)軌跡規(guī)劃中的時間參數(shù)

搬運機器人通過運動學逆解可以求得各關(guān)節(jié)在每個運動路徑點對應(yīng)的關(guān)節(jié)位置，對于機器人關(guān)節(jié)j（1≤j≤L，L為機器人關(guān)節(jié)總個數(shù)），設(shè)p1、 p2、 …、 p6為運動路徑點P1、 P2、 …、 P6所對應(yīng)的關(guān)節(jié)位置點，搬運機器人的作業(yè)時間軸如圖4所示。關(guān)節(jié)j從關(guān)節(jié)位置點p1移動到關(guān)節(jié)位置點p2所需時間為t1，2。由于p1、 p2之間采用變形五次多項式連接，因此t1，2包含加速時間t1a、勻速時間t1b和減速時間t1c，其中加速、減速時間相等，即2個關(guān)節(jié)位置點之間的運行時間t1，2包含2個時間參數(shù)t1a 、 t1b。通過對t1a、 t1b分配不同的值，即可得到不同的軌跡曲線。

2.3" 變形五次多項式與深度強化學習結(jié)合

在生產(chǎn)節(jié)拍確定的情況下，為了得到各關(guān)節(jié)在不同關(guān)節(jié)位置點之間的運行時間，利用深度強化學習算法，通過設(shè)計獎勵函數(shù)、搭建神經(jīng)網(wǎng)絡(luò)，確保時間參數(shù)滿足節(jié)拍要求和運動學約束。變形五次多項式與深度強化學習結(jié)合整體流程如圖5所示，步驟如下： 1）在笛卡兒坐標中規(guī)劃末端執(zhí)行器的運動路徑點； 2）通過逆運動學，求解系列運動路徑點對應(yīng)的關(guān)節(jié)位置點； 3）利用變形五次多項式擬合連接各關(guān)節(jié)位置點； 4）利用合適的深度強化學習算法對變形五次多項式中的加速、勻速時間參數(shù)進行分配；

5）將得到的時間參數(shù)應(yīng)用于變形五次多項式，得到各關(guān)節(jié)的軌跡曲線、速度曲線和加速度曲線。

3" 深度強化學習算法

深度學習（deep learning，DL）利用神經(jīng)網(wǎng)絡(luò)處理和分析數(shù)據(jù)，在圖像處理、語音識別等領(lǐng)域具有廣泛應(yīng)用。強化學習（reinforcement learning，RL）則使智能體與環(huán)境相互作用，在試錯中學習并制定最優(yōu)策略。深度強化學習結(jié)合這2種方法，既具有深度學習的感知能力，又具有強化學習的決策能力，并且在非線性處理方面表現(xiàn)出色，可處理各種未知環(huán)

境中的決策問題，在自然科學、社會科學等領(lǐng)域中具有廣泛應(yīng)用。

深度強化學習算法已有多種算法，例如深度Q網(wǎng)絡(luò)（deep Q network， DQN）算法、深度確定性策略梯度［13］（deep deterministic policy gradient，DDPG）算法、雙延遲深度確定性策略梯度（twin delayed deep deterministic policy gradient， TD3）算法等。其中DQN算法的行動空間是離散的，通常需要對整個空間進行網(wǎng)格劃分或者二值化處理。雖然該方法可以有效地處理小型離散動作空間問題，但是對于較大的動作空間，需要劃分的網(wǎng)格過多，容易導致訓練過程不穩(wěn)定、難以收斂等問題。DDPG算法的行動空間是連續(xù)的，可以輸入實數(shù)數(shù)據(jù)，并且以神經(jīng)網(wǎng)絡(luò)作為近似函數(shù)，可以更好地處理高維連續(xù)動作空間問題。為了平衡探索和利用，DDPG算法使用一定的噪聲機制，因此具有一定的穩(wěn)健性和可靠性。DQN算法適用于處理小型、離散動作空間問題，而DDPG算法通常用于解決較大的、連續(xù)動作空間問題。由于本文中針對單臂四自由度搬運機器人進行仿真，需要在連續(xù)、高維動作空間中進行操作，因此使用DDPG算法進行訓練。

3.1" DDPG算法原理

DDPG算法基于Actor-Critic框架，主要針對連續(xù)動作設(shè)計2個模型。參照DQN算法的思想，每個模型都由現(xiàn)實網(wǎng)絡(luò)和目標網(wǎng)絡(luò)組成。Actor網(wǎng)絡(luò)由Actor現(xiàn)實策略網(wǎng)絡(luò)和Actor目標策略網(wǎng)絡(luò)組成；Critic網(wǎng)絡(luò)是近似值函數(shù)的神經(jīng)網(wǎng)絡(luò)，分為Critic現(xiàn)實網(wǎng)絡(luò)和Critic目標網(wǎng)絡(luò)。Actor網(wǎng)絡(luò)負責根據(jù)輸入的狀態(tài)生成確定的動作；Critic網(wǎng)絡(luò)負責對Actor網(wǎng)絡(luò)生成的動作進行評估。Actor網(wǎng)絡(luò)與Critic網(wǎng)絡(luò)相互配合，通過反復迭代進行學習，每次迭代需要根據(jù)神經(jīng)網(wǎng)絡(luò)近似值函數(shù)更新策略。

3.2" 獎勵函數(shù)設(shè)計

本文中以沖壓生產(chǎn)線用單臂四自由度搬運機器人為研究對象進行獎勵函數(shù)的設(shè)計，目的如下：一方面，引導時間參數(shù)趨近生產(chǎn)節(jié)拍要求；另一方面，使得運動過程平穩(wěn)，避免出現(xiàn)速度和加速度超過電機的極限的情況。

為了保持末端執(zhí)行器始終垂直向下，機器人2個旋轉(zhuǎn)關(guān)節(jié)的運行速度大小相等且方向相反。為了簡化計算流程，僅考慮2個移動關(guān)節(jié)和1個旋轉(zhuǎn)關(guān)節(jié)的工作情況，步驟如下：

1）根據(jù)生產(chǎn)節(jié)拍的要求設(shè)計獎勵函數(shù)。如果當前工作周期的運行時間t超過節(jié)拍要求tmax，則只給予智能體懲罰值；如果運行時間t小于節(jié)拍要求tmax，則智能體得到時刻獎勵值rt，即

rt=-t2， tgt;tmax ，

αt2， t≤tmax，（1）

式中： tmax為生產(chǎn)節(jié)拍要求的單位工作周期運行時間； α為rt的權(quán)重參數(shù)。

2）根據(jù)關(guān)節(jié)的速度要求設(shè)計獎勵函數(shù)。如果當前工作周期內(nèi)某關(guān)節(jié)的速度過大，超過最大允許運行速度，會引起電機的超速停機機制，影響沖壓生產(chǎn)線的正常運行。為了反映機器人在運行過程中能夠順利工作，設(shè)計速度獎勵函數(shù)rjv表達式為

rjv=-v2j，""" vjgt;vjmax ，

β（vj-vjmax）2，vj≤vjmax，（2）

式中：" vj為關(guān)節(jié)j當前工作周期內(nèi)的最大運行速度;" vjmax為關(guān)節(jié)j的最大允許速度； β為rjv的權(quán)重參數(shù)。

3）根據(jù)關(guān)節(jié)的加速度要求設(shè)計獎勵函數(shù)。如果在當前工作周期內(nèi)機器人在加速、減速階段速度發(fā)生突變或者變化過大，則將帶給關(guān)節(jié)較大的沖擊，對電機產(chǎn)生一定的損傷。為了反映各關(guān)節(jié)在加速、減速過程中的平穩(wěn)運行，設(shè)計加速度獎勵函數(shù)rja表達式為

rja= -a2j，""" ajgt;ajmax，

γ（aj-ajmax）2，aj≤ajmax，（3）

式中： aj為關(guān)節(jié)j當前工作周期內(nèi)的最大運行加速度； ajmax為關(guān)節(jié)j的最大允許加速度； γ為rja的權(quán)重參數(shù)。

綜上，多目標獎勵函數(shù)為

r=rt+p∑3j=1rjv+q∑3j=1rja ，（4）

式中： r為搬運機器人在當前工作周期的獎勵值； p、 q為r的權(quán)重參數(shù)。

實際生產(chǎn)節(jié)拍要求搬運機器人每分鐘運行10個工作周期，則單位工作周期的期望時間tmax=6 s；根據(jù)電機參數(shù)選擇各關(guān)節(jié)的最大允許速度vmax和最大允許加速度amax。

3.3" 神經(jīng)網(wǎng)絡(luò)搭建

DDPG算法的構(gòu)成包括Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)，其中Actor網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

沖壓生產(chǎn)線用單臂四自由度搬運機器人包括2個移動關(guān)節(jié)和2個旋轉(zhuǎn)關(guān)節(jié)。為了簡化計算流程， 3.2節(jié)中僅考慮2個移動關(guān)節(jié)和1個旋轉(zhuǎn)關(guān)節(jié)，因此搭建神經(jīng)網(wǎng)絡(luò)時同樣僅考慮3個關(guān)節(jié)。其中

Actor網(wǎng)絡(luò)由4層神經(jīng)網(wǎng)絡(luò)構(gòu)成，輸入層設(shè)置為6個節(jié)點，對應(yīng)6個狀態(tài)量，其中v1、 v2、 v3分別為在運行過程中3個關(guān)節(jié)的速度， a1、 a2、 a3分別為3個關(guān)節(jié)的加速度；輸出層為動作向量，為5個節(jié)點，對應(yīng)5段路徑（見圖2）中軌跡運行時間t；中間包含2個隱藏層，隱藏層1包含128個神經(jīng)元，隱藏層1與第1層為全連接；隱藏層2的輸入包含128個神經(jīng)元，與隱藏層1的連接方式為全連接。

Critic網(wǎng)絡(luò)部分采用相似的網(wǎng)絡(luò)結(jié)構(gòu)，但是與Actor網(wǎng)絡(luò)存在區(qū)別，主要差異如下：輸入層包含2個部分，即搬運機器人的狀態(tài)與當前動作值；輸出層為1個神經(jīng)元，代表相應(yīng)的動作價值函數(shù)的輸出值Q值。

3.4" 本文模型構(gòu)建

針對沖壓生產(chǎn)線用單臂四自由度搬運機器人的軌跡運行時間問題，結(jié)合設(shè)計的獎勵函數(shù)和搭建的神經(jīng)網(wǎng)絡(luò)，結(jié)合深度強化學習與變形五次多項式，構(gòu)建搬運機器人關(guān)節(jié)軌跡時間分配模型，如圖7所示。本文模型主要由關(guān)節(jié)間的變形五次多項式模塊、獎勵函數(shù)模塊和智能體模塊組成。智能體模塊通過接收、處理觀測值和獎勵值，在獎勵函數(shù)的引導下輸出合適的動作值，當符合終止條件時，模型停止訓練。

4" 仿真實驗

4.1" 仿真設(shè)置

利用沖壓生產(chǎn)線對單臂四自由度搬運機器人進行仿真實驗，如圖8所示，包含2個移動關(guān)節(jié)和2個轉(zhuǎn)動關(guān)節(jié)。各關(guān)節(jié)電機的最大允許速度和加速度如表1所示。根據(jù)本文中設(shè)計的搬運機器人末端執(zhí)行器的運動路徑，路徑點坐標如表2所示。經(jīng)運動學逆解后，搬運機器人運動路徑點對應(yīng)的關(guān)節(jié)位置點序列如表3所示。

仿真實驗在Windows 10系統(tǒng)環(huán)境中進行，使用英偉達RTX 3080 Ti系列顯卡，中央處理器型號為英特爾酷睿TMi7-10700K，主頻為3.80 GHz，在MATLAB2020a軟件中利用Simulink實驗平臺，選取Agent模塊并在模塊化環(huán)境中進行搬運機器人關(guān)節(jié)軌跡規(guī)劃實驗， DDPG算法訓練參數(shù)如表4所示。

4.2" 結(jié)果分析

在生產(chǎn)節(jié)拍要求的約束下，基于深度強化學習與變形五次多項式相結(jié)合的搬運機器人關(guān)節(jié)軌跡時間分配模型訓練過程中

的獎勵值如圖9所示。

由圖可知：在訓練開始初期，獎勵值增大、減小的波動較大且數(shù)值較小，此時智能體從初始狀態(tài)開始進行學習，僅進行時間上的隨機分配，完成動作上的廣泛探索，沒有針對特定要求而采取動作；在進行到40次循環(huán)時，獎勵值增大明顯，且數(shù)值波動幅度逐漸減小，表明智能體進行了較有效的探索，滿足部分獎勵函數(shù)；當循環(huán)次數(shù)約為130時，獎勵值又有較大增幅且明顯大于1 000；當循環(huán)次數(shù)約為170后，獎勵值滿足停止訓練條件，表明智能體學習到有效的時間分配策略并最大化長期獎勵值。

將本文模型在tmax=6 s時學習到的時間參數(shù)應(yīng)用于變形五次多項式。仿真環(huán)境中搬運機器人關(guān)節(jié)1、 3、 4的位移、速度和加速度曲線如圖10所示。由圖可知：搬運機器人各關(guān)節(jié)運行時間均為5.89 s，滿足生產(chǎn)節(jié)拍每分鐘運行10個工作周期的要求；關(guān)節(jié)1、 3最大速度分別為2 597.84、 1 697.97 mm/s，關(guān)節(jié)4最大角速度為1〗37.53 （°）/s，關(guān)節(jié)1、 3最大加速度分別為19 532.11、 31 302.61 mm/s2，關(guān)節(jié)4最大角加速度為1 180.51 （°）/s2，均未超過運動學約束；各關(guān)節(jié)在位置點之間平滑過渡，經(jīng)過加速階段后，均存在時間不同的勻速階段，保證了搬運機器人的平穩(wěn)運行，減少了運行期間的沖擊和汽車覆蓋件與沖壓模具間的摩擦磨損。

5" 結(jié)論

為了抑制搬運機器人各關(guān)節(jié)在運行過程中的沖擊，本文中基于變形五次多項式在關(guān)節(jié)空間進行軌跡規(guī)劃，保證位移、速度和加速度的變化平滑連續(xù)；根據(jù)生產(chǎn)節(jié)拍、速度和加速度的約束條件，設(shè)計獎勵函數(shù)，搭建神經(jīng)網(wǎng)絡(luò)，利用MATLAB/Simulink軟件構(gòu)建了基于深度強化學習與變形五次多項式相結(jié)合的搬運機器人關(guān)節(jié)軌跡時間分配模型，得到以下主要結(jié)論：

1）獎勵值的變化曲線表明，根據(jù)實際情況設(shè)計合理的獎勵函數(shù)能夠加速本文模型的收斂，在經(jīng)過130次循環(huán)后，本文模型完成了關(guān)節(jié)軌跡之間的時間分配任務(wù)。在實際應(yīng)用中可以通過調(diào)整獎勵函數(shù)的設(shè)計，獲得滿足不同生產(chǎn)節(jié)拍要求的時間參數(shù)，使得搬運機器人適應(yīng)不同工況，減少能量消耗。

2）搬運機器人的運行時間為5.89 s，滿足生產(chǎn)節(jié)拍每分鐘運行10個工作周期的要求。平移關(guān)節(jié)1、 3的最大速度分別為2 597.84、 1 697.97 mm/s，最大加速度分別為19 532.11、 31 302.61 mm/s2，由于旋轉(zhuǎn)關(guān)節(jié)2、 4的速度大小相等，方向相反，因此旋轉(zhuǎn)關(guān)節(jié)2、 4的角速度均為137.53（°）/s，最大加速度均為1 180.51 （°）/s2，均未超過運動學約束，說明本文模型能夠調(diào)整各段路徑下的運行時間，得到滿足生產(chǎn)節(jié)拍的時間參數(shù)，仿真實驗結(jié)果驗證了本文模型的可行性和有效性。

參考文獻：

［1］" 董理，楊東，鹿建森.工業(yè)機器人軌跡規(guī)劃方法綜述［J］. 控制工程， 2022， 29（12）： 2365.

［2］" 郭鑫鑫，薄瑞峰，賈竣臣，等. 基于改進螢火蟲算法的機械臂時間最優(yōu)軌跡規(guī)劃［J］. 機械設(shè)計與研究， 2021， 37（3）： 55.

［3］" 王玉寶，王詩宇，李備備，等. 一種改進粒子群的工業(yè)機器人時間最優(yōu)軌跡規(guī)劃算法［J］. 小型微型計算機系統(tǒng)， 2018， 39（8）： 1878.

［4］" YIN S B， JI W， WANG L H. A machine learning based energy efficient trajectory planning approach for industrial robots［C］//Procedia CIRP： 52nd CIRP Conference on Manufacturing Systems （CMS）， June 12-14， 2019， Ljubljana， Slovenia： Vol 81. Amsterdam： Elsevier， 2019： 429.

［5］" WANG W R， ZHU M C， WANG X M， et al. An improved arti-ficial potential field method of trajectory planning and obstacle avoidance for redundant manipulators［J］. International Journal of Advanced Robotic Systems， 2018， 15（5）： 1.

［6］" 浦玉學，舒鵬飛，蔣祺，等. 工業(yè)機器人時間-能量最優(yōu)軌跡規(guī)劃［J］. 計算機工程與應(yīng)用，2019， 55（22）： 86.

［7］" 陸佳皓，平雪良. 一種機械臂最優(yōu)時間-沖擊軌跡優(yōu)化算法［J］. 機械科學與技術(shù)， 2019， 38（10）： 1548.

［8］" 李小為，胡立坤，王琥. 速度約束下PSO的六自由度機械臂時間最優(yōu)軌跡規(guī)劃［J］. 智能系統(tǒng)學報， 2015， 10（3）： 393.

［9］" HU Y L， ZHANG Q S. Multi-robots path planning based on improved artificial potential field method［J］. Advanced Material Research， 2012， 1917（562/563/564）： 937.

［10］" 于魯川. 汽車外覆蓋件沖壓生產(chǎn)線送料系統(tǒng)高速穩(wěn)定運行理論及方法研究［D］. 濟南：山東大學， 2021： 11-15.

［11］" PELLICCIARI M， BERSELLI G， LEALI F， et al. A method for reducing the energy consumption of pick-and-place industrial robots［J］. Mechatronics， 2013， 23（3）： 326.

［12］" 丁棟. 高速沖壓線自動送料系統(tǒng)仿真技術(shù)研究［D］. 濟南：山東大學， 2015： 25-28.

［13］" WEN H， LI H， WANG Z， et al. Application of DDPG-based collision avoidance algorithm in air traffic control［C］//2019 12th International Symposium on Computational Intelligence and Design（ISCID）， December 14-15， 2019， Hangzhou， China. New York： IEEE， 2019： 130.

（責任編輯：王" 耘）

濟南大學學報(自然科學版)2024年2期

濟南大學學報(自然科學版)的其它文章: 基于考慮誤差修正的非線性自適應(yīng)權(quán)重組合模型的光伏發(fā)電功率預(yù)測; 無人機通信場景中非平穩(wěn)雙圓柱信道統(tǒng)計特性分析; 面向溺水救援機器人平穩(wěn)跟蹤的模糊比例微分控制視覺伺服方案; 納米顆粒間相互作用對油-水界面張力的影響機制; 錳納米酶比色法檢測電化學制備過氧化氫; 西洋參病蟲害防治及農(nóng)藥殘留研究進展