基于示教學習和自適應力控制的機器人裝配研究*

2020-05-26 13:42:50陳鵬飛

機電工程 2020年5期

陳鵬飛,趙鑫,趙歡

（華中科技大學數字制造裝備與技術國家重點實驗室，湖北武漢 430074）

0 引言

機器人裝配操作是機器人研究與應用的一個重要領域。在機器人裝配過程中，由于環境的不確定性，裝配件和環境之間會發生接觸和碰撞，因此，工業機器人完成精密裝配作業是件極具挑戰的任務。為了保證裝配成功，機器人必須具備一定的柔順性[1]。機器人裝配的過程包括搜孔和插孔。

目前，機器人搜孔的方法主要分為離線編程搜孔和示教搜孔[2]。離線編程搜孔根據與孔的接觸力離線規劃搜孔軌跡。Ibrahim F等[3]采用螺旋運動搜索圓形孔，通過軸與環境的各個方向的接觸力變化判斷是否搜孔成功，但是該方法不適用于其他形狀的孔搜索；Zheng等[4]、Young等[5]、Xu等[6]提出了根據與孔邊緣的接觸力調整運動方向生成搜孔軌跡，能夠成功搜索四邊形孔，但該方法需要對接觸狀態建模，或者反復確定多個接觸力閾值。離線編程有環境中的障礙物以及與孔接觸狀態的信息難以建模的缺陷，且搜孔時間過長。

若機器人在搜孔時，學習人示教的經驗，則能提高搜孔效率。而當孔的位置大致已知時，人能憑著經驗調整四邊形軸位置以及繞著Z軸旋轉角度；當接觸到孔的邊緣后，根據接觸力改變運動方向，進而完成搜孔過程。Mustafa W等[7]、Tang等[8]和Zhao等[9]采用示教搜孔的方法，通過人感受與環境的接觸力變化改變運動方向，但搜孔的初始位置變化后需要重新示教軌跡；Dennis等[10]通過人類經驗搜索對軌跡采樣的方法泛化至初始位置變化，且在示教的區域安排新任務，但其在孔附近存在障礙物，且初始點位置若選擇在未示教的區域，則無法生成新的搜孔軌跡。

目前，機器人插孔利用傳統的阻抗控制方法對未知環境沒有自適應能力，會使得與環境的接觸力矩誤差較大。Gullapali等[11]將自學習方法運用到阻抗控制中;Tarokh等[12]研究未知環境下力跟蹤的模糊自適應控制算法，得到接觸力/扭矩和調整位移之間的關系。但前者需要利用大量的示教數據訓練得到力和位置的映射關系，后者利用接觸力矩直接生成機器人的位置會產生較大的接觸力矩誤差。Lu等[13]利用自適應調整率對機器人末端參考位置進行修正;Jung等[14]利用機器人與環境的力誤差和自適應參數來調整阻抗參數，但以上兩種方法輸入接觸力誤差和阻抗參數之間為線性關系，在環境剛度變化時對接觸矩波動減小范圍有限。Zhen等[15]和Chen等[16]用模糊控制調節阻抗參數或者PD參數來提高力跟蹤的精度。

當插孔時，懸臂梁剛度變化，若仍然使用相同的Z軸接觸力Fz插孔，則會使得繞著X/Y軸旋轉的力矩波動變化較大，而現有工作中期望接觸力都是不變的，無法適應環境剛度變化的情況。

示教搜孔軌跡泛化包括獲取示教數據、訓練TP-GMM、利用高斯混合回歸模型（GMR）生成新的初始點變化且避開障礙物的搜孔軌跡。自適應力控制插孔過程主要包括模糊自適應控制器，調節阻抗控制中Z軸期望接觸力適應環境剛度變化，以此減小插孔時接觸力矩的波動和誤差。

針對目前機器人搜孔時軌跡泛化、插孔時減小接觸力矩誤差等問題，筆者提出示教學習和自適應力控制插孔的策略。

1 基于示教學習的搜孔設計

筆者采用人示教搜索方形軸孔：障礙物位于方形軸與方形孔之間，在搜孔的過程中，軸需要繞過障礙物與方形孔中心位置重合，且與方形孔的方向對齊。

首先獲取人示教搜孔數據，并根據是否與孔產生接觸力分為兩段軌跡：第1段軌跡沒有與孔產生接觸力但需要避開障礙物，第2段軌跡則是根據與孔產生的接觸力而改變軸運動方向完成搜孔；然后利用TP-GMM對初始位置變化后的第1示教段軌跡進行訓練，用GMR對第1段軌跡中坐標變換后的高斯模型回歸，即可得到初始點位置變化且能夠避開障礙物的第一段新的搜孔軌跡；最后與示教時第2段回歸的軌跡組合得到新的搜孔軌跡。

1.1 TP-GMM

TP-GMM[17]主要目的是基于一組表征任務特征的參數生成運動軌跡。在不同坐標系下，通過傳感器獲得每一個采樣點，通過坐標系變換計算得到，即：

（1）

高斯混合模型（GMM）對人示教搜孔的數據建模，其概率模型如下：

（2）

式中：x—搜孔的軌跡相對初始點位置的坐標；N（x|μk,∑k）—混合模型中的k個分量；μk,∑k—第k個高斯分量的均值和協方差矩陣；πk—第k個高斯分量的混合系數。

對示教搜孔的數據利用E-M算法估計高斯混合模型中的參數。

根據示教時是否與孔產生接觸力，將軌跡分段后，初始點變化后軌跡的高斯混合模型計算如下：

（3）

（4）

在機器人搜孔過程中，任務參數表示任務空間的約束，其決定運動軌跡的形狀。在參考坐標系變化時，需要利用TP-GMM建模出新的高斯模型參數，使得初始位置變化時新生成的軌跡能夠避開障礙物。

1.2 示教搜孔軌跡泛化

筆者提出的示教搜孔軌跡泛化的方法由3部分組成：

（1）示教數據的獲取。獲取軸運動時的平面坐標以及姿態，通過軸是否與孔產生接觸力對搜孔任務分割；

（2）訓練TP-GMM模型。TP-GMM模型訓練搜孔過程中的子任務，通過最小化示教軌跡與泛化軌跡誤差得到新任務的高斯模型參數；

（3）新任務的軌跡泛化。通過之前訓練的新任務的模型參數，利用GMR回歸即可生成新的搜孔軌跡。

示教數據的獲取主要包括人示教的過程、示教數據獲取、以及數據處理等以下幾個步驟：

（1）示教過程。人執行搜索方形軸孔的過程主要包括軸在孔的表面移動，繞著Z軸旋轉，同時越過障礙物到達孔的邊緣；然后根據與孔的接觸力調整軸搜孔的位置與姿態，最終完成搜孔；

（2）示教數據獲取。它是通過OpTitraker系統捕捉軸在X/Y平面的坐標位置（x,y）和繞Z軸方向旋轉的角度θ。該系統包括多個相機和放置于軸上端的標記球。相機通過捕捉軸上端反光的標記球位置來獲取軸的位姿。在數據采集過程中盡可能平穩、快速地完成搜孔過程，避免造成較大數據噪聲；

（3）數據處理。首先獲取從搜孔的初始位置開始到孔中心的位姿信息；然后為了進一步減少坐標表現出偏離軌跡趨勢的數據，需要對實際采集的數據進行濾波處理，保證運動均勻性和平穩性。濾波的方法采用滑動平均濾波算法，即取一段時間內數據的平均值作為某時刻的位置與姿態；最后將濾波完成后的數據和初始位置作差，得到位置與姿態的變化量，然后歸一化到同一大小區間，作為TP-GMM模型的輸入數據。

概率模型訓練過程包括示教軌跡的分段、TP-GMM模型訓練。完成模型訓練后，根據新的初始點位置信息得到需要泛化的軌跡概率模型。示教搜孔軌跡按照是否與孔產生接觸力和避開障礙物分為兩段：第一段不與孔產生接觸力但是需要避開障礙物；第二段與孔產生接觸力，利用人的經驗通過接觸力改變搜孔軌跡完成搜孔。軸在第一段軌跡中需要避開障礙物，在該階段利用TP-GMM模型進行訓練，在初始位置變化后生成的軌跡仍然能繞過障礙物。而在后續的階段則仍然利用原來人示教的軌跡進行搜孔。

首先，在對第一階段的軌跡進行TP-GMM訓練后，即可得到初始點位置變化的搜孔軌跡的高斯模型參數；然后，利用GMR得到時間t和相對位置坐標x的概率條件分布P（x/t）。當給定輸入時間t，即可獲得機器人搜孔時末端軸的相對位置x，進而得到機器人末端的位置；最后，通過對示教學習泛化的搜孔軌跡仿真，利用UR機器人驗證新的軌跡能否成功搜孔。

2 自適應力控制插孔

筆者將機器人所需要裝配的孔放置在懸臂的不銹鋼板上。插孔的過程中，需要使得Z軸接觸力Fz處于最佳的狀態，最終使繞著X/Y軸旋轉的力矩盡可能為0力矩，達到良好的力/位跟蹤效果。

當機器人剛開始插入孔中時，利用基于六自由度阻抗控制器的恒力跟蹤算法使得機器人具有柔順性。其能夠實時根據與孔的接觸力矩大小調整末端軸的姿態。當軸與孔產生較大的接觸力時，能夠通過調整軸的位移量使得軸與孔的接觸力為期望接觸力0。最后利用模糊自適應控制調節Z軸方向期望接觸力Fz，減小繞X/Y軸力矩的波動速度和誤差變化。

為了使機器人末端所持的軸與孔接觸時具備柔順性，筆者通過阻抗控制建立機器人位置誤差和力誤差之間的動態關系。利用二階模型來表達兩者關系如下：

（5）

式中：M—慣性矩陣,M∈R6×6；D—阻尼矩陣,D∈R6×6；K—剛度矩陣,K∈R6×6；Δxdc—機器人末端位移向量，Δxdc∈R6×1；Ef—接觸力/扭矩誤差向量，Ef∈R6×1。

為了使得力傳感器測量得到的力即為實際軸與孔產生的接觸力，需要對機器人末端的軸6個方向的接觸力/力矩進行重力補償。機器人插孔時除Z軸方向的接觸力外，其他方向的期望接觸力/力矩均為0，保證機器人末端的軸與孔不產生較大實際的接觸力。

針對插孔過程中環境剛度的變化，筆者利用模糊自適應控制器，調節Z軸插孔期望接觸力的大小。在基于阻抗控制的位置內環，模糊調節器的輸入為：

ef=Fd-fx

（6）

def=ef（i）-ef（i-1）

（7）

式中：ef，def—X軸旋轉的接觸力矩誤差及其變化率；Fd—X軸期望接觸力/力矩；fx—力傳感器測量得到的實際繞X軸接觸力/力矩；ef（i）—第i時刻的接觸力/力矩誤差；ef（i-1）—第i-1時刻的接觸力/力矩誤差。

模糊自適應控制器分為模糊化、模糊推理、模糊決策3個部分。其中，模糊化是將輸入、輸出量首先歸一化到模糊子集。在離散域中，輸入和輸出變量是等同的，根據模糊規則定義輸入、輸出變量的語言值均被分為7個模糊子集（NB,NM,NS,ZE,PS,PM,PB），其分別對應的數值為[-3,-2,-1,1,2,3]。

模糊化利用下式，通過縮放因子建立變量和不同模糊域的關系，即：

（8）

式中：ki，ko—輸入和輸出的縮放因子；[Dh,Dl]—離散域變量范圍；[Rh,Rl]—實際變量的范圍。

輸入扭矩誤差論域設定為[-1.5,1.5]；輸入扭矩誤差的變化率的論域設定為[-0.6,0.6]；輸出變量論域設定為[-2,2]，因此，ki=1.3，ko=0.27。

模糊化后，模糊推理建立模糊規則過程。在建立模糊規則之前，所有變量的隸屬度函數將所有變量映射到[0,1]之間的隸屬度值。三角函數作為所有變量的隸屬度函數。

模糊決策是為了獲得輸出插孔的期望接觸力Fz的模糊量。根據輸入的模糊規則的值，控制器利用查表法獲得輸出的模糊量，然后乘上輸出量的縮放系數，即可得到實際的期望接觸力。

3 機器人裝配試驗

3.1 示教學習搜孔試驗

示教搜孔實驗過程中，用OpTitrack系統捕捉人手持軸從初始位置搜孔的路徑，僅僅記錄下軸在X/Y平面的坐標位置（x,y）和繞Z軸方向旋轉的角θ，示教多次后得到較為平滑的軌跡。相機分布在搜孔平臺的周圍，方形軸上方附著標記球，方形孔固定在虎鉗上，保持靜止不動。且方形軸與方形孔之間存在障礙物，需要繞過障礙物才能完成搜孔過程。

示教的軌跡為4條，將采集的三維空間軸的位姿數據歸一化處理后，用GMM對三維空間中的軌跡建模，GMR得到回歸軌跡。

示教軌跡建模與回歸軌跡如圖1所示。

圖1 示教軌跡建模與回歸軌跡

示教軌跡與初始點變化后新任務的軌跡如圖2所示。

圖2 示教軌跡和初始點變化后新任務的軌跡

利用TP-GMM在未示教的區域生成軌跡，相比現有的示教學習方法（如GMM），其優勢在于不需要人再次在初始位置示教軌跡，只需知道泛化位置相對初始位置的坐標，然后模仿在初始位置人示教的經驗，并重新生成搜孔軌跡，提高軌跡生成效率。

機器人裝配試驗圖如圖3所示。

圖3 機器人裝配試驗圖

圖3中，方形軸固定在機器人的末端，方形孔固定在虎鉗上，保持靜止不動。搜孔過程包括兩段軌跡：第1條軌跡包括從新的搜孔初始點B到終止點C，在該過程中需要避開障礙物；第2條軌跡從終止點C到整條軌跡的終點D所在的位置。圖3中從C到D的1段軌跡是示教時軸在孔的邊緣與孔接觸力的變化調整運動所得。第1段從A到C生成的示教軌跡與孔沒有產生接觸力，且存在障礙物，故僅對第1段軌跡泛化，生成從B到C能夠避開障礙物運動軌跡，再和從C到D的一段軌跡組合為新的搜孔軌跡。

通過試驗驗證，新生成的軌跡能成功搜孔。

3.2 自適應力控制插孔實驗

試驗平臺包括UR5機器人，彈簧安裝在力傳感器之間具有緩沖作用；孔固定在變剛度的不銹鋼懸臂梁上。實驗分兩步：

（1）將軸與需要插入的孔預先設置較小的偏置量，通過X/Y軸的力矩調節角度位移量，使得接觸力矩為期望接觸力矩。

當Fz逐漸變化時，繞Y軸角度位移差隨Z軸接觸期望力變化的曲線如圖4所示。

圖4 角度位移差隨Z軸期望接觸力變化曲線

圖4中，機器人角度位移差Δxdc從0逐漸增大至最大值，然后減小為0，并在Z軸位置保持平衡；Fz逐漸從15 N增大至30 N時,Δxdc的最大值從-0.000 11 rad到-0.000 23 rad逐漸增大，且到達最大值所需時間逐漸變小；同時，實驗中繞X軸力矩Mx和Δxdc變化趨勢相同。由此得到：Fz越大，Mx越大，機器人角度位置調整速度越快，在相同的時間內角度位移更大。

當機器人對懸臂的不銹鋼板插孔，剛開始插入孔中調整姿態時，鋼板的剛度最小，相同的位移量所產生的繞X軸力矩Mx較小。當緩慢接觸上時，鋼板的剛度增大，相同的位移量所產生的Mx逐漸增大。因此，在剛開始對變剛度不銹鋼板插孔時，為避免Mx波動較大，Fz應該由大變小，使得在最開始接觸時Mx逐漸由大變小，角度位移調整速度由快變慢。故Fz調節規則如表1所示。

表1 Fz調節規則表

（2）機器人對懸臂不銹鋼板插孔。軸孔的間隙誤差為0.05 mm。第一次實驗保持Fz=20 N不變，第二次在同一個初始位置插孔，利用模糊控制調節Fz由25 N減小至15 N。

兩次插孔實驗中，機器人Z軸實際接觸力變化曲線如圖5所示。

圖5 機器人Z軸實際接觸力變化曲線

繞X軸力矩誤差Mx變化曲線如圖6所示。

圖6 機器人繞X軸力矩誤差Mx變化曲線

第一次實驗中，實際的Z軸接觸力從30 N逐漸減小至25 N；第二次實驗實際的接觸力在20 N～25 N范圍內波動。整體來看，在5 s～11 s時，軸調整期望接觸力適應環境剛度變化。

第一次實驗Mx主要在-0.2 N/m～0.2 N/m之間，比后者整體約減小30%。且在11 s～14 s時，變形梁形變基本穩定，形變量較小，兩次實驗實際豎直接觸力基本趨于一致。但前者Mx較為平穩地從0.2 N/m增大到0.4 N/m；而后者Mx先穩定在最小值-0.3 N/m，然后突然增大到0.4 N/m。

以上兩個實驗現象說明：在最開始插孔階段，隨著環境剛度變化，若一直保持恒力接觸孔，則會導致Mx較大；在后續變形梁形變穩定后繼續調節時，波動范圍較大，且變化速度較快；而利用模糊控制調節Fz由大變小能夠適應環境剛度的變化，Mx相比恒力期望接觸力減小30%；在變形梁形變穩定后，角度位移調整速度由快變慢，最終使得Mx的波動減小，變化速度減緩。

4 結束語

（1）本文提出了基于示教學習的搜孔軌跡泛化策略：主要包括獲取示教數據、訓練TP-GMM、GMR回歸3個部分；

（2）采用六自由度阻抗控制使機器人具有柔順性，并利用自適應模糊控制改變Z軸期望接觸力，適應插孔時環境剛度的變化;

（3）研究結果表明：在存在障礙物的情況下，對于不同初始點位置的搜孔策略成功搜孔；在插孔過程中，調節期望Z軸接觸力大小相比，其不變時繞X軸方向力矩波動速度低，且誤差減小了30%。