基于深度強(qiáng)化學(xué)習(xí)算法的機(jī)器人浮動(dòng)打磨執(zhí)行裝置研究

2023-11-15 08:08:56張一然李長(zhǎng)耿

制造技術(shù)與機(jī)床 2023年11期

關(guān)鍵詞：深度

張一然楊龍袁博李長(zhǎng)耿

（中車青島四方機(jī)車車輛股份有限公司，山東青島 266111）

近年來，隨著機(jī)械加工產(chǎn)品精度質(zhì)量要求的提高和國內(nèi)制造業(yè)的發(fā)展，機(jī)器人打磨拋光技術(shù)成為我國重要的發(fā)展方向之一[1-3]。傳統(tǒng)的打磨拋光主要以手工操作為主，不僅會(huì)使工人面對(duì)打磨拋光產(chǎn)生的噪音和粉塵污染，而且難以保證打磨質(zhì)量的一致性。使用工業(yè)機(jī)器人打磨可以保證打磨過程的可重復(fù)性，代替工人參與打磨的惡劣環(huán)境，并且可以消除人為誤差，保證打磨精度和一致性[4-5]。然而，由于機(jī)器人打磨執(zhí)行器與打磨工件為剛性接觸，在打磨過程中容易造成打磨接觸力的不穩(wěn)定，甚至損壞工件。因此，打磨力的柔順穩(wěn)定控制是影響機(jī)器人打磨質(zhì)量?jī)?yōu)劣的關(guān)鍵因素[6-7]。

針對(duì)機(jī)器人打磨的柔順力控問題，國內(nèi)外學(xué)者開展了相關(guān)研究[8-11]。目前，柔順力控方法主要包括主動(dòng)柔順控制和被動(dòng)柔順控制。被動(dòng)柔順方法往往采用簡(jiǎn)單的彈簧機(jī)構(gòu)進(jìn)行柔順，對(duì)簡(jiǎn)單零件的平面打磨有一定適用性。但被動(dòng)柔順方法不能精確地控制打磨接觸力，在對(duì)復(fù)雜曲面零件進(jìn)行打磨時(shí)，打磨效果不佳。因此，Nagata F[12]提出了基于力位混合控制的機(jī)器人主動(dòng)柔順力控打磨方法，實(shí)現(xiàn)了高精度的機(jī)器人曲面零件拋光。許家忠等[13]提出了一種基于自適應(yīng)阻抗控制的機(jī)器人柔順力控方法，并將其應(yīng)用于復(fù)合材料工件打磨，獲得了較好的打磨效果。然而，采用機(jī)器人主動(dòng)柔順力控算法進(jìn)行打磨力控制，往往因難以獲得機(jī)器人的精確模型而實(shí)現(xiàn)高實(shí)時(shí)性和魯棒性的控制，導(dǎo)致力控精度和響應(yīng)速度不佳[14]。

針對(duì)工業(yè)機(jī)器人存在的接觸力難以恒定控制問題，為了實(shí)現(xiàn)打磨接觸力的恒定，本文提出一種用于機(jī)器人末端的浮動(dòng)打磨執(zhí)行器。對(duì)浮動(dòng)打磨執(zhí)行器進(jìn)行了結(jié)構(gòu)設(shè)計(jì)，并進(jìn)行了力控系統(tǒng)建模分析和控制算法設(shè)計(jì)；最后進(jìn)行了恒力跟蹤試驗(yàn)，驗(yàn)證了裝置的恒力控制精度。

1 浮動(dòng)打磨執(zhí)行器工作原理與結(jié)構(gòu)設(shè)計(jì)

1.1 浮動(dòng)打磨執(zhí)行器工作原理

浮動(dòng)打磨執(zhí)行器的工作原理如圖1 所示。浮動(dòng)打磨執(zhí)行器作為一種主動(dòng)柔順力控裝置，需要額外的驅(qū)動(dòng)裝置提供動(dòng)力輸出。氣壓驅(qū)動(dòng)相比于液壓和電磁驅(qū)動(dòng)，具有結(jié)構(gòu)緊湊、氣源易獲得、壓縮性大等優(yōu)點(diǎn)，因此選用以氣缸為主要?jiǎng)恿υ臍鈮候?qū)動(dòng)方式實(shí)現(xiàn)力的主動(dòng)控制。氣源提供氣體，經(jīng)由比例閥實(shí)現(xiàn)氣體流量的控制，進(jìn)而實(shí)現(xiàn)氣缸內(nèi)部壓力和打磨頭接觸力的控制。力傳感器實(shí)時(shí)測(cè)量打磨頭接觸力，控制系統(tǒng)根據(jù)反饋的打磨頭接觸力，調(diào)整比例閥開口大小，實(shí)現(xiàn)打磨力的閉環(huán)控制。

圖1 浮動(dòng)打磨執(zhí)行器的原理

1.2 浮動(dòng)打磨執(zhí)行器結(jié)構(gòu)設(shè)計(jì)

圖2 所示為機(jī)器人浮動(dòng)打磨末端執(zhí)行器的結(jié)構(gòu)示意圖。考慮到運(yùn)動(dòng)的一致性，選用兩個(gè)相同規(guī)格、內(nèi)部帶有磁環(huán)的氣缸作為驅(qū)動(dòng)結(jié)構(gòu)，以實(shí)現(xiàn)氣缸活塞位置的實(shí)時(shí)檢測(cè)。通過調(diào)節(jié)比例閥控制進(jìn)入氣缸兩腔的氣體體積進(jìn)而控制氣缸內(nèi)部壓力，從而控制輸出打磨力。直線導(dǎo)軌和滑塊提供浮動(dòng)自由度，與兩個(gè)氣缸對(duì)稱放置，以減小偏載力矩對(duì)控制性能的影響。浮動(dòng)打磨執(zhí)行器裝置通過機(jī)器人連接法蘭與機(jī)器人連接，通過打磨頭連接法蘭與力傳感器和打磨頭連接。力傳感器通過將實(shí)際打磨力實(shí)時(shí)反饋至控制系統(tǒng)，實(shí)現(xiàn)打磨力的閉環(huán)控制。

圖2 浮動(dòng)打磨執(zhí)行器內(nèi)部結(jié)構(gòu)

2 浮動(dòng)打磨執(zhí)行器力控系統(tǒng)建模分析

2.1 受力分析

將浮動(dòng)打磨裝置分為浮動(dòng)部分和固定部分，進(jìn)行受力分析，如圖3 所示。假設(shè)此時(shí)重力方向與打磨法向的夾角為θ，裝置浮動(dòng)部分的總質(zhì)量為m。單個(gè)氣缸的無桿腔面積為A1，壓力為P1；有桿腔面積為A2，壓力為P2。浮動(dòng)打磨裝置與打磨工件之間的接觸力為Fn，摩擦力為Ff，打磨頭的位移為x。

圖3 浮動(dòng)打磨裝置受力分析

根據(jù)牛頓第二定律，可以得到浮動(dòng)打磨裝置的力平衡方程為

式中：Gθ=mgcosθ，為裝置浮動(dòng)部分的重力在打磨表面法向上的分量。

2.2 力控系統(tǒng)建模分析

由比例閥進(jìn)行氣體壓力的調(diào)節(jié)。比例閥的輸出壓力P和輸入電壓U的關(guān)系可以表示為

式中：K1和k兩個(gè)參數(shù)與氣缸的特性有關(guān)。

對(duì)浮動(dòng)裝置受力分析得到的式（1）進(jìn)行拉普拉斯變換可以得到：

力控系統(tǒng)的控制框圖如圖4 所示。

圖4 力控系統(tǒng)控制框圖

力控系統(tǒng)的開環(huán)傳遞函數(shù)可以表示為

式中：Gc為控制器的傳遞函數(shù)；Gd為D/A 轉(zhuǎn)換器傳遞函數(shù)；Gh為零階保持器；Gp為力控系統(tǒng)傳遞函數(shù)；Gpr為打磨過程的傳遞函數(shù)。

當(dāng)浮動(dòng)打磨裝置與打磨工件接觸時(shí)，打磨輸出力Fn可以使打磨頭產(chǎn)生位移x，其關(guān)系可以表示為

式中：Km、ωn、ζ分別為剛度、自然頻率和阻尼比。

將摩擦力Ff視為擾動(dòng)，可得系統(tǒng)整體的傳遞函數(shù)為

至此，完成浮動(dòng)打磨力控系統(tǒng)建模。由式（6）可知，力控系統(tǒng)可以視為三階系統(tǒng)，系統(tǒng)存在慣性環(huán)節(jié)，需要設(shè)計(jì)控制算法以提高力控系統(tǒng)的控制性能。

3 基于深度強(qiáng)化學(xué)習(xí)算法參數(shù)整定的PID控制

3.1 傳統(tǒng)PID 控制

PID 控制算法是工業(yè)中技術(shù)成熟、應(yīng)用廣泛的一種控制算法[15-16]，結(jié)合比例、積分和微分3 個(gè)環(huán)節(jié)于一體，以實(shí)現(xiàn)閉環(huán)系統(tǒng)的控制，其控制算法框圖如圖5 所示。

圖5 PID 控制算法圖

PID 控制算法基于誤差信號(hào)e(t)（即期望值r(t)與實(shí)際值y(t)之間的差異），向誤差信號(hào)減小的方向調(diào)整控制信號(hào)u(t)，基于控制信號(hào)u(t)實(shí)現(xiàn)執(zhí)行機(jī)構(gòu)控制，進(jìn)而控制系統(tǒng)的實(shí)際輸出值y(t)，使其盡可能接近期望輸出值。在浮動(dòng)打磨執(zhí)行器的浮動(dòng)打磨控制過程中，期望輸出值為用戶設(shè)定的期望打磨力，實(shí)際輸出值為打磨執(zhí)行器作用在工件上的實(shí)際打磨力，從而實(shí)現(xiàn)打磨力的控制。

PID 調(diào)節(jié)器的微分方程可表示為

式中：e(t)=r(t)-y(t)。

PID 調(diào)節(jié)的傳遞函數(shù)可表示為

PID 控制參數(shù)對(duì)系統(tǒng)性能影響較大[17-18]，需要對(duì)比例環(huán)節(jié)、積分環(huán)節(jié)和微分環(huán)節(jié)進(jìn)行分析。

（1）比例環(huán)節(jié)：通過比例參數(shù)與誤差信號(hào)的乘積產(chǎn)生控制信號(hào)，按比例調(diào)節(jié)使誤差信號(hào)減小。選擇較大的比例系數(shù)往往會(huì)減小系統(tǒng)的穩(wěn)態(tài)誤差和上升時(shí)間，提升系統(tǒng)的控制精度和反應(yīng)時(shí)間。但過大的比例系數(shù)，也會(huì)相應(yīng)地提高系統(tǒng)的超調(diào)量，產(chǎn)生系統(tǒng)震蕩。

（2）積分環(huán)節(jié)：僅調(diào)節(jié)比例系數(shù)，無法消除系統(tǒng)的穩(wěn)態(tài)誤差，因此需要引入積分環(huán)節(jié)。增大積分系數(shù)，往往會(huì)降低系統(tǒng)的上升時(shí)間，改善提高系統(tǒng)的穩(wěn)態(tài)性能。但過大的積分系數(shù)，容易使系統(tǒng)產(chǎn)生震蕩，影響系統(tǒng)的穩(wěn)定性。

（3）微分環(huán)節(jié)：通過預(yù)測(cè)偏差的變化趨勢(shì)對(duì)系統(tǒng)調(diào)整，從而達(dá)到超前的控制效果。

3.2 DDPG 深度強(qiáng)化學(xué)習(xí)算法

深度強(qiáng)化學(xué)習(xí)算法是將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來的算法[19-22]。深度學(xué)習(xí)在感知問題上具有強(qiáng)大的理解能力，而強(qiáng)化學(xué)習(xí)具有強(qiáng)大的決策能力。深度強(qiáng)化學(xué)習(xí)融合了兩者的優(yōu)點(diǎn)，具有強(qiáng)大的感知和決策能力，在研究中廣泛得到應(yīng)用[23]。深度強(qiáng)化學(xué)習(xí)算法框架如圖6 所示。智能體作為一個(gè)可以獲取環(huán)境狀態(tài)作的實(shí)體，首先觀察環(huán)境狀態(tài)，并根據(jù)經(jīng)驗(yàn)策略進(jìn)行下一步的動(dòng)作。智能的動(dòng)作可以對(duì)環(huán)境狀態(tài)產(chǎn)生改變，環(huán)境狀態(tài)發(fā)生改變后會(huì)反饋智能體獎(jiǎng)勵(lì)值，智能體根據(jù)獎(jiǎng)勵(lì)值對(duì)經(jīng)驗(yàn)策略進(jìn)行優(yōu)化，以在之后獲取更高的獎(jiǎng)勵(lì)值。如此反復(fù)進(jìn)行迭代學(xué)習(xí)，最終獲得滿足要求的智能體和策略。

圖6 深度強(qiáng)化學(xué)習(xí)算法框架圖

DDPG 算法是將Actor-Critic 算法和DQN 算法結(jié)合起來、應(yīng)用于連續(xù)控制領(lǐng)域的一種深度強(qiáng)化學(xué)習(xí)算法[21-24]，適用于狀態(tài)空間連續(xù)和動(dòng)作空間連續(xù)的問題，其算法原理圖如圖7 所示。

圖7 DDPG 算法原理圖

DDPG 深度強(qiáng)化學(xué)習(xí)算法首先初始化Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)，并生成一組同樣參數(shù)的目標(biāo)網(wǎng)絡(luò)。Actor 網(wǎng)絡(luò)在與環(huán)境交互后，將其狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一時(shí)刻的狀態(tài)記錄在經(jīng)驗(yàn)緩沖區(qū)內(nèi)，然后從經(jīng)驗(yàn)緩沖區(qū)中生成新的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一時(shí)刻的狀態(tài)信息，并在Critic 網(wǎng)絡(luò)中計(jì)算Q值，并按照Q值最大的方向進(jìn)行Actor 網(wǎng)絡(luò)參數(shù)的修正。最后將目標(biāo)網(wǎng)絡(luò)與主網(wǎng)絡(luò)參數(shù)同步，進(jìn)行下一輪的迭代處理。

相比于其他參數(shù)優(yōu)選算法，DDPG 算法能在連續(xù)的動(dòng)作空間確定地選擇唯一的動(dòng)作。而參數(shù)調(diào)整是基于高維狀態(tài)空間以及連續(xù)動(dòng)做決策的，因此采用DDPG 算法可以很好地完成參數(shù)優(yōu)選問題，進(jìn)而更適用于浮動(dòng)打磨執(zhí)行器的柔順控制。

3.3 基于DDPG 算法的PID 控制參數(shù)整定

PID 參數(shù)對(duì)控制系統(tǒng)的控制性能影響很大，因此選取合適的PID 控制參數(shù)是影響控制效果優(yōu)劣的關(guān)鍵。在大多數(shù)工業(yè)場(chǎng)合，PID 控制參數(shù)的選取依靠經(jīng)驗(yàn)進(jìn)行試選，從中選取一個(gè)合適的值。然而本文設(shè)計(jì)的浮動(dòng)打磨裝置，具有強(qiáng)耦合和非線性的特性，僅依靠經(jīng)驗(yàn)進(jìn)行PID 控制參數(shù)整定，往往難以取得較好的控制效果且效率低下。DDPG 深度強(qiáng)化學(xué)習(xí)算法適用于在連續(xù)狀態(tài)空間和動(dòng)作空間中尋找最優(yōu)解，可用于PID 控制參數(shù)整定，其原理框圖如圖8 所示。

圖8 基于DDPG 算法的PID 參數(shù)整定原理框圖

采用DDPG 深度強(qiáng)化學(xué)習(xí)算法進(jìn)行PID 控制參數(shù)整定步驟如下。

步驟1：首先進(jìn)行DDPG 的網(wǎng)絡(luò)初始化，設(shè)置網(wǎng)絡(luò)相關(guān)參數(shù)和PID 參數(shù)初值，并且設(shè)置輸出的PID 參數(shù)范圍，以避免不合理的PID 控制參數(shù)可能引起的較差的控制效果。

步驟2：Actor 網(wǎng)絡(luò)將打磨過程中的性能指標(biāo)作為獎(jiǎng)勵(lì)信息，與新的狀態(tài)信息放入經(jīng)驗(yàn)緩沖區(qū)中，并在Critic 網(wǎng)絡(luò)中計(jì)算Q值，并按照Q值最大的方向更新Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)，完成此次DDPG算法的迭代學(xué)習(xí)。

步驟3：DDPG 算法輸出PID 控制參數(shù)值到PID 控制器中，進(jìn)行一次打磨過程。計(jì)算此次打磨過程的性能指標(biāo)，包括力偏差均值、力偏差均方差值和上升時(shí)間，并將性能指標(biāo)以狀態(tài)向量的形式輸入到DDPG 算法。

步驟4：判斷此次打磨過程的性能指標(biāo)能否滿足控制性能要求，若滿足要求則輸出此次PID 控制參數(shù)，結(jié)束迭代學(xué)習(xí)；若不滿足要求，則重復(fù)步驟2 和步驟3，進(jìn)行下一次迭代學(xué)習(xí)。

4 浮動(dòng)打磨執(zhí)行器恒力性能驗(yàn)證

搭建圖9 所示的xPC Target 浮動(dòng)打磨執(zhí)行器實(shí)驗(yàn)平臺(tái)，對(duì)本文設(shè)計(jì)的浮動(dòng)打磨執(zhí)行器進(jìn)行恒力控制性能驗(yàn)證。實(shí)驗(yàn)平臺(tái)主要由浮動(dòng)打磨執(zhí)行器、高速數(shù)據(jù)采集卡、PC 上位機(jī)和xPC 目標(biāo)下位機(jī)組成。實(shí)驗(yàn)平臺(tái)中，上位機(jī)軟件進(jìn)行控制參數(shù)的設(shè)定，并進(jìn)行打磨輸出力的實(shí)時(shí)曲線顯示；下位機(jī)采集浮動(dòng)打磨過程中的傳感器信號(hào)發(fā)送給上位機(jī)，并依據(jù)上位機(jī)控制參數(shù)設(shè)定進(jìn)行打磨力的控制。實(shí)驗(yàn)過程中，保持打磨頭為開啟狀態(tài)，通過給定階躍信號(hào)的打磨期望力，測(cè)量實(shí)際打磨力的跟隨情況，以測(cè)試打磨執(zhí)行器的恒力控制性能。

圖9 xPC Target 實(shí)驗(yàn)平臺(tái)

經(jīng)過多次手動(dòng)整定PID 參數(shù)，設(shè)置比例參數(shù)為0.3、積分參數(shù)為0.05、微分參數(shù)為0.1，測(cè)試結(jié)果如圖10 所示。

圖10 PID 控制實(shí)驗(yàn)曲線

試驗(yàn)結(jié)果表明，由于打磨頭的開啟，實(shí)際打磨力會(huì)產(chǎn)生一定程度的抖動(dòng)，實(shí)際輸出力能較穩(wěn)定地跟隨期望輸出力。

基于DDPG 深度強(qiáng)化學(xué)習(xí)算法進(jìn)行PID 參數(shù)整定，進(jìn)行了打磨實(shí)驗(yàn)測(cè)試，測(cè)試過程開啟打磨頭，測(cè)試結(jié)果如圖11 所示。

圖11 DDPG 參數(shù)整定后的PID 控制實(shí)驗(yàn)曲線

分別計(jì)算兩組實(shí)驗(yàn)輸出力數(shù)據(jù)的性能指標(biāo)，包括實(shí)際輸出力與期望輸出力的偏差的均值、均方差以及實(shí)際輸出力的上升時(shí)間，結(jié)果見表1。

表1 輸出力性能指標(biāo)比較

由表1 中數(shù)據(jù)可知，采用DDPG 深度強(qiáng)化學(xué)習(xí)算法進(jìn)行PID 參數(shù)整定，獲得了更小的力偏差均值和均方差值以及更快的上升時(shí)間，從而具有更高的力控精度和響應(yīng)速度。

5 結(jié)語

本文面向機(jī)器人自動(dòng)化打磨拋光需求，進(jìn)行了浮動(dòng)打磨執(zhí)行器的結(jié)構(gòu)設(shè)計(jì)和力控系統(tǒng)建模分析，并開展浮動(dòng)打磨執(zhí)行器的控制方法設(shè)計(jì)。在傳統(tǒng)PID 控制算法的基礎(chǔ)上，采用DDPG 深度強(qiáng)化學(xué)習(xí)算法進(jìn)行PID 控制參數(shù)的整定，進(jìn)行了浮動(dòng)打磨執(zhí)行器恒力打磨實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明，本文設(shè)計(jì)的浮動(dòng)打磨執(zhí)行器，在采用DDPG 算法進(jìn)行PID 控制參數(shù)整定后，獲得了較好的恒力控制性能，具有較強(qiáng)的力控精度和魯棒性，可以實(shí)現(xiàn)接觸力的實(shí)時(shí)監(jiān)測(cè)與恒力控制，可應(yīng)用于各種機(jī)器人自動(dòng)化打磨拋光領(lǐng)域。