基于強化學習的拋光機器人主動力控制研究

2020-09-23 08:45:04張活俊江勵湯健華黃輝

機械工程師 2020年9期

張活俊，江勵，湯健華，黃輝

（五邑大學，廣東江門529000）

0 引言

拋光打磨是工件處理最基礎的一道工序，但惡劣的工作環境嚴重影響工人的健康[1]。新型拋光機器人的研發將有效改善拋光行業的發展前景，同時推廣在五金衛浴、汽車裝配等行業的應用。目前中小型拋光企業中的拋光設備以帶末端拋光裝置的工業機械臂和一體式拋光機器人為主。

六自由度工業機械臂具有靈活的工作空間，能以任意姿態在工件切線方向進行拋光，對于中小型企業來說，成本較高，面對復雜曲面工件，還需要工人具備編程基礎。一體式拋光機器人的設計理念來自于傳統的多軸數控磨床。浙江大學的謝英太[2]設計出一款3P3R型焊接機器人，其手臂部分由正交坐標系結構分布的三自由度移動關節組成，而手腕部分由BRB型歐拉機械手組成。河南農業大學的焦有宙等[3]研發了3P3R型機械臂，其手腕構型為RBR型，結合Kane方法和旋量理論實現對機器人的軌跡控制。北京航空航天大學的張棟等[4]在3P3R型拋光機械臂結合D-H法實現運動軌跡的規劃。一體式機器人結合數控磨床的精準定位特點，各移動關節通過導軌控制位移，承載能力高，即末端負載工件對于位置控制的影響較小，同時歐拉手腕的三自由度旋轉使機器人具有靈活的工作空間。

一體式拋光機器人目前的研究方向多集中于軌跡的控制，這并不適用于對接觸時正壓力要求較高的場合，因此引入力傳感器將反饋信息融入控制策略。傳統的控制策略有阻抗控制和力/位置混合控制等2種方式[5]。然而該控制策略需要準確的動力學模型，以及考慮外界干擾、非線性因素，因而導致計算量龐大。隨著人工智能的研究熱潮，運用強化學習應用于控制策略的參數求取，為控制策略提供新的研究方向。德國慕尼黑大學的Freek Stulp等[6]將七自由度仿真機器人在無確定性模型的前提下控制機器人的末端執行器，從經驗中學習適當的阻抗以實現可變阻抗控制。哈爾濱工業大學的李超等[7]提出一種學習變阻抗控制方法，使機器人高效自主地學習執行力控制任務，在較少次仿真實驗結果中，不斷迭代學習，獲得變阻抗參數以提高數據的利用率。

本文研發的五自由度拋光機器人在氣缸恒壓作用下具有穩定拋光正壓力的作用，其次提出結合深度Q網絡的主動力控制策略，根據工件輪廓自動調整氣缸輸出壓力，從理論上分析達到穩定拋光正壓力的要求。

1 拋光機器人系統

拋光機器人系統由主體機構和控制系統組成。如圖1所示，主體機構結合一體式拋光機器人的直角坐標系結構分布特點，P1、P3和P4分別為沿著Z1方向的伸縮機構、Z3方向的升降機構和Z4方向的平移機構。其中升降機構和平移機構采用伺服電動機帶動絲桿傳動實現精確的位置控制，同時在兩側對稱分布的導軌滑塊約束下運動，符合高剛度的結構設計要求。R2、R5分別為繞著Z2軸旋轉的旋轉機構、繞著Z5軸旋轉的夾持機構。旋轉機構和夾持機構模擬手腕轉動方式實現歐拉角轉動。機器人夾持工件沿著X軸方向拋光過程中，砂輪始終對工件在Y方向上運動起到約束作用。因此該機器人的五自由度結構適用于復雜曲面的回轉體工件。

圖1 拋光機器人樣機圖與機構簡圖

拋光機器人的控制系統如圖2所示，主要分為基于PLC控制伺服電動機1、2的精確定位及電氣比例閥控制兩側氣缸2、3的恒壓輸出，同時兩側壓力傳感器1、2實時監控拋光正壓力變化。

圖2 拋光機器人系統控制框圖

2 機器人恒力控制模型

拋光恒力控制模型的關鍵在于建立起工件輪廓曲率變化θd與拋光正壓力F的對應關系，其恒力控制模型如圖3所示。

依據拋光工件的運動可以分為3部分。第1部分對應公式（1），控制兩側氣缸的推力F1、F2，以平衡拋光正壓力F和摩擦力Ff產生角度為θd的合力。第2部分對應公式（2），建立力矩平衡方程，設定拋光平臺始終垂直于工件表面切線方向前提下，求解獲得最大正壓力的角加速度α。第3部分對應公式（3），拋光平臺的轉角θd由工件輪廓曲率θ及其角加速度α疊加后更新。根據以上3種耦合運動，我們可以建立起力學平衡方程：

圖3 恒力控制模型圖

上述公式聯立后在Matlab軟件中迭代求解，將拋光正壓力F作為求解的目標值，配合角加速度α可求出拋光過程中拋光正壓力的變化。為驗證恒力控制模型的正確性，建立圖4（a）所示的拋光機器人動力學仿真模型。如圖4（b）所示，ADAMS仿真模型由于剛接觸產生碰撞導致正壓力有明顯下降趨勢，隨后兩者的迭代結果同步穩定上升，力學模型迭代比仿真模型延遲1.7 s逐漸下降并最終穩定在設定值200 N的±1.5 N范圍內。如圖4（c）所示，拋光平臺轉角仿真模型結果與力學迭代結果趨勢基本一致，均呈現先上升后下降的現象，而且轉動角度的峰值相差不足0.6 °。因此證明該恒力控制模型對于拋光機器人的可行性。

圖4 恒力控制模型數據圖

3 基于DQN的主動力控制策略

傳統主動控制方式下獲得的實驗結果表明，對于該拋光機器人的拋光正壓力具有一定的穩定作用，然而對于復雜曲面拋光件而言，被動恒力控制無法適應工件輪廓曲率變化，導致拋光過程中產生不可避免的碰撞。因此提出基于拋光力學模型推導出的恒力控制策略，該策略的算法核心是深度Q網絡（Deep Q Network）。

基于貪婪策略選擇對應的動作，即兩側氣缸的輸出壓力動作F1、F2，經過式（1）轉換獲得下一個時刻的狀態輸出即拋光正壓力F：

求解中間變量角加速度α。依據兩側氣缸輸出壓力F1、F2的差值，拋光平臺貼合工件輪廓旋轉的曲率變化角加速度經過式（2）轉換得

求解下一時刻的狀態輸出拋光平臺轉角θd，可經過公式（3）求得。至此基于恒力控制模型中力學分析的拋光環境模型搭建完成，將拋光正壓力F和拋光平臺轉角θd作為動作空間變量即拋光環境模型的輸入，同時以兩側氣缸的輸出壓力動作F1、F2作為狀態空間變量即拋光環境模型的輸出。接下來分析輸入的狀態空間和動作空間如表1、表2所示。狀態空間的約束目的在于結束無意義的學習，并進入下一次迭代動作空間的選擇取決于當前狀態st和貪婪策略π。

深度Q學習的理念是拋光模型環境與基于Q表已知經驗的交互作用中邊學習邊提升策略，最終經過有限次實驗獲得最優策略的過程。其中考慮到狀態空間的拋光正壓力、平臺轉角均為連續變量，采用Q學習建立的Q表過于龐大，將嚴重占用內存空間，因此通過神經網絡建立起狀態空間與動作空間之間的映射關系。等間距采集200個工件的輪廓點進行迭代學習，該過程作為一次經驗軌跡。經過多次拋光實驗，為由已知經驗構建的Q表提供學習數據。

為了控制智能體對于拋光環境模型數據的學習程度，選取學習率α為0.3、0.6、0.7和1.0，對比迭代學習穩定時運行步長的穩定性選取合適的學習率。如圖5（a）所示，學習率α為0.3時迭代步長的穩定性優于取值0.6；結合圖5（b）可知，學習率α為0.3時迭代步長最穩定，基本維持在192步左右。

學習率取值過高意味著對于未來獎勵的重視程度越高，因此未來獎勵對于主動力控制策略的影響越大，這將導致策略收斂的速度較慢且難以收斂；相反，若學習率取值過低，則對于已有經驗較為重視，雖然收斂速度快，但容易忽略更優的策略，只獲得局部最優解。本文選取學習率α為0.3。

表1 狀態空間的設置

表2 動作空間的設置

圖5 學習率對學習效果的影響圖

主動力控制策略的主要參數學習率α確定后，假設每一次基于控制策略調整拋光正壓力為一個迭代訓練過程，每個迭代訓練開始于初始化拋光接觸力F、拋光平臺轉角θ，結束于拋光正走行程結束條件。此外，設定進入終止狀態的3個條件：1）拋光工件、砂輪間拋光接觸力與設定值的偏差范圍±5 N；2）拋光平臺的轉動角度范圍是±60°；3）每次訓練的最大運行時間步不得超過200步。進行策略規劃的過程中運行步數對應拋光行程中工件輪廓的取樣點，因此若在規劃達到規定運行步數前進入終止狀態，則該次規劃失敗，并重新進入隨機初始狀態下的規劃。基于控制策略下得到拋光正壓力F、拋光平臺轉角θ和代價函數Cost三要素來評估該控制策略的性能。

如圖6所示，拋光正壓力F始終穩定于設定值200 N。隨著工件輪廓先上升至203 N，后下降至190 N，并維持在5 N范圍內變動。其次，拋光平臺的轉動角度需順應輪廓的變化而自由轉動，因此旋轉關節R2的轉角連續性可體現策略控制的調整是否合理。圖7所示的轉角曲線滿足主動力控制策略對于連續控制的要求，而且轉動角度的范圍是-10°～6°之間，遠小于±60°的約束條件。

圖6 主動力控制策略下拋光正壓力曲線

圖7 主動力控制策略下拋光平臺轉角曲線

主動力控制策略采用的DQN算法是基于Q學習，引入神經網絡對動作價值函數q（s,a）進行參數化，獲得其逼近函數q（s,a,θ）。設定每次訓練的迭代時間步為200步，等同于工件輪廓的采樣點數，共執行200次，訓練因此獲得圖8中橫軸代表的40 000個運行時間步。縱軸代表的代價函數表示訓練過程中基于動作價值函數已學習到的經驗與逼近函數之間的均方差，其值越小代表訓練結果越好。

圖8 主動力控制策略下損失函數圖

拋光主動力控制策略的目標是從拋光起始點位置按照最優控制策略到達拋光終止位置，在拋光過程中，拋光機器人兩端氣缸可以采用不同貫序來決定輸出推力，通過調整拋光機器人的當前狀態就能實現該功能。

4 結語

1）本文致力研發高剛度、自動化控制的拋光機器人，為適應中小型企業批量化產品的拋光要求，結合工件輪廓前提下提出跟蹤正壓力變化實現自動化控制的拋光策略。2）根據拋光機理建立恒力控制模型，通過動力學仿真和理論計算結果的對比分析，證明該恒力控制模型用于拋光機器人的可行性。3）主動力控制策略中引入深度Q學習算法，基于已知工件輪廓在拋光實驗中迭代學習，有效解決復雜的動力學建模問題，理論上初步驗證該控制策略的可行性。