999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成概率模型的變阻抗機器人打磨力控制

2024-01-13 10:37:54郭萬金趙伍端利乾輝趙立軍曹雛清
浙江大學學報(工學版) 2023年12期
關鍵詞:作業(yè)模型系統(tǒng)

郭萬金,趙伍端,利乾輝,趙立軍,曹雛清

(1.長安大學 道路施工技術與裝備教育部重點實驗室,陜西 西安 710064;2.哈爾濱工業(yè)大學 機器人技術與系統(tǒng)國家重點實驗室,黑龍江 哈爾濱 150001;3.蕪湖哈特機器人產業(yè)技術研究院有限公司,博士后工作站,安徽 蕪湖 241007;4.長三角哈特機器人產業(yè)技術研究院,安徽 蕪湖 241007)

現代高端裝備制造業(yè)對工件的尺寸精度和表面質量要求越來越高.小批量、不同形狀的工件多采用人工打磨方式進行精加工,存在一致性差、生產效率低的問題[1].機器人打磨以高靈巧性、低成本的特點正成為越來越重要的工件柔順打磨作業(yè)實現途徑.基于工業(yè)機器人的打磨技術已成為高端制造業(yè)中連續(xù)接觸式作業(yè)(如打磨和拋光)的有力抓手,是解決人工作業(yè)工作效率低、改善工作環(huán)境和提升工件加工質量的重要工具之一.高性能打磨工業(yè)機器人作為新興產業(yè)和技術的重要載體和現代產業(yè)的關鍵裝備,不僅是持續(xù)促進生產水平提高的強力支撐,而且有力推動了智能制造的高質量發(fā)展[2-5].

針對主動柔順控制打磨作業(yè),機器人末端執(zhí)行器的性能直接影響打磨作業(yè)的柔順性,其中對具有力控功能且能夠實現力位解耦控制的末端執(zhí)行器開展的相關研究是當前的主要研究方向.阻抗控制是實現主動柔順力控制的有效方式,其通過調節(jié)系統(tǒng)剛度實現輸出力的柔順調控.為了解決機器人末端執(zhí)行器在跟蹤未知曲面工件時接觸力難以保持恒定的問題,Zhang 等[6]建立機器人末端執(zhí)行器與工件表面的接觸模型和力映射關系,提出基于強化學習算法的機器人力控制方法.甘亞輝等[7]針對未知剛度及位置多變工況,設計自適應變阻抗力跟蹤控制方法,通過建立阻抗模型來適應多變工況剛度的不確定性,并根據機器人末端與多變工況之間接觸力的變化在線自適應調節(jié)阻抗模型參數.李超等[8]提出基于強化學習的學習變阻抗控制方法,將高斯過程模型作為系統(tǒng)的變換動力學模型,在成本函數中加入能量損失項,實現了誤差和能量的權衡.Zhou 等[9]基于機器人系統(tǒng)與環(huán)境的接觸模型,采用自適應阻抗實現了打磨力控制和位置跟蹤控制.Shen 等[10]提出基于模糊理論的自適應阻抗控制,通過遞歸最小二乘迭代計算估計環(huán)境參數,使得控制系統(tǒng)在沒有環(huán)境先驗信息的情況下跟蹤期望打磨力.Zhong 等[11]將自適應阻抗控制與基于非線性擾動觀測器的滑模控制器相結合,實現了對期望接觸力和軌跡的跟蹤.上述針對機器人自適應打磨力控制采用迭代類計算的研究方法[8,10-11],存在數據更新過程慢與效率低的局限,對于需要嚴格控制打磨力精度和超調量的曲面工件機器人打磨作業(yè),在打磨力控制的實時性和穩(wěn)定性方面存在一定的不足.機器人的工件柔順打磨作業(yè)對機器人系統(tǒng)穩(wěn)定性和魯棒性的要求較高,通常需要嚴格控制打磨力的精度和超調量.

本研究采用基于位置的阻抗控制作為底層的打磨力控制結構,基于集成貝葉斯神經網絡(Bayesian neural network,BNN)模型的強化學習,提出主動自適應變阻抗的機器人打磨力控制方法.1)基于BNN 的集成概率模型(ensemble probabilistic model,EPM)擬合打磨作業(yè)過程的概率動力學模型,以描述控制輸入和工具與工件接觸狀態(tài)之間的不確定性.2)采用固定軌跡采樣法和隨機軌跡采樣法開展模型預測控制(model predictive control,MPC),利用協(xié)方差矩陣自適應進化策略(covariance matrix adaptation evolution strategy,CMA-ES)算法對模型預測過程進行動態(tài)參數優(yōu)化,求解模型預測控制的最優(yōu)解集.3)在成本函數中引入基于方差的能量損失項,優(yōu)化求解獲取最優(yōu)阻抗參數,用于主動自適應更新阻抗參數,實現機器人打磨力主動自適應控制.4)在所構建的機器人打磨系統(tǒng)虛擬樣機平臺上,開展機器人與工件交互環(huán)境的強化學習主動自適應打磨力控制仿真與分析,驗證所提方法的有效性.

1 基于柔順浮動力控末端執(zhí)行器的機器人打磨系統(tǒng)

1.1 柔順浮動力控末端執(zhí)行器設計

機器人打磨系統(tǒng)主要由工業(yè)機器人與末端執(zhí)行器構成.末端執(zhí)行器的柔順打磨作業(yè)由主動力控制技術實現,末端執(zhí)行器的位置和姿態(tài)(簡稱位姿)由工業(yè)機器人控制.工件的打磨質量與材料去除率有關,根據Preston 材料去除理論,材料去除率與工具對工件的法向打磨力正相關[12].為了實現材料去除率可控,保證打磨質量,提高機器人打磨系統(tǒng)動態(tài)響應性能[13],設計柔順浮動力控末端執(zhí)行器[14],如圖1 所示.該末端執(zhí)行器通過音圈電機驅動打磨主軸往復直線軸向平移運動,實現打磨工具平移浮動調節(jié),主動柔順控制實現法向打磨力穩(wěn)定準確控制,打磨主軸帶動打磨工具高速旋轉運動,軸向平移和旋轉運動互不干擾,兩者的調節(jié)控制便捷.應用主動力控制技術進行法向打磨力穩(wěn)定準確控制,并通過機器人進行打磨位姿控制,降低對工業(yè)機器人本體的力控制要求,減小力控制和位姿控制的復雜性.

圖1 柔順浮動力控末端執(zhí)行器[14]Fig.1 Compliant floating force-controlled end-effector [14]

1.2 機器人打磨系統(tǒng)虛擬樣機構建

采用Adams 構建機器人打磨系統(tǒng)虛擬樣機,如圖2 所示,該系統(tǒng)虛擬樣機由柔順浮動力控末端執(zhí)行器、六自由度串聯(lián)工業(yè)機器人和曲面工件組成.通過Adams Controls 插件將打磨系統(tǒng)虛擬樣機導出為控制機械系統(tǒng)模型后導入Matlab/Simulink仿真控制系統(tǒng),為機器人打磨系統(tǒng)自適應打磨力控制提供聯(lián)合仿真平臺.Matlab/Simulink 仿真控制系統(tǒng)虛擬樣機的輸入分別為機器人關節(jié)變量、音圈電機輸出力;輸出分別為所設計末端執(zhí)行器打磨主軸的軸向位置變化量、工具末端坐標系{E}的位置和機器人工具坐標系{T}表示的工件對工具的反作用力

圖2 機器人打磨系統(tǒng)虛擬樣機Fig.2 Virtual prototype of robotic grinding system

2 基于集成概率模型的強化學習主動自適應變阻抗控制

機器人打磨作業(yè)接觸環(huán)境具有較強的時變耦合非線性動力學特性,而且工件型面各異、形狀復雜,致使機器人柔順打磨作業(yè)適應性差問題愈加嚴重.本研究基于集成概率模型的強化學習,提出主動自適應變阻抗的機器人打磨力控制方法,以實現主動自適應機器人法向打磨力準確控制,提升機器人柔順打磨作業(yè)的適應性和穩(wěn)定性.

2.1 變阻抗控制器設計

Hogan[15]針對接觸作業(yè)的力控制問題,提出阻抗控制方法.有學者將阻抗控制分為基于力的阻抗控制和基于位置的阻抗控制,后者可以實現較高的位置控制精度[16].基于位置的阻抗控制基本思想是將位置控制器作為控制系統(tǒng)的內環(huán),將阻抗控制器作為控制系統(tǒng)的外環(huán),外環(huán)產生位置修正量,內外環(huán)控制共同作用構成閉環(huán)控制回路.通過反饋力計算阻抗控制器輸出的位置補償量,調節(jié)內環(huán)位置控制器的輸入位置,實現對接觸過程的力控制.將基于位置的阻抗控制設計為變阻抗控制器作為控制外環(huán),通過變阻抗控制實現對內環(huán)的位置控制系統(tǒng)的自適應補償,從而實現對機器人打磨力的柔順控制,提升機器人打磨作業(yè)的柔順性和魯棒性.如圖3 所示為該變阻抗控制的控制框圖,數學模型為

圖3 變阻抗控制的控制框圖Fig.3 Control block diagram of variable impedance control

式中:Fe為法向打磨力Fn與期望打磨力Fd的偏差,作為變阻抗控制器的輸入;通過數學模型的傳遞,算出對位置控制系統(tǒng)輸入的補償量Xr,將Xr與期望位置X0及位置變化量dl疊加,作為位置控制系統(tǒng)的輸入Xi,再將位置控制器的輸出Fi作為機器人末端執(zhí)行器的輸入,其中dl由位置控制系統(tǒng)的反饋位置信號提供;M(t)、D(t)、K(t)分別為變阻抗控制器的時變慣性系數、時變阻尼系數和時變剛度系數.

2.2 基于集成概率模型的強化學習主動自適應參數調節(jié)

基于集成概率模型的強化學習,提出主動自適應變阻抗的機器人打磨力控制方法.1)構建基于BNN 的集成概率模型,描述機器人打磨系統(tǒng)在時變非線性接觸環(huán)境下引起的系統(tǒng)不確定性.采用BNN 模型描述控制系統(tǒng)控制量和狀態(tài)量之間的分布關系,量化由于測量引起的認知不確定性;根據多次采樣的子數據集擬合多個BNN 模型,構建集成概率模型,描述系統(tǒng)隨機不確定性.2)結合構建的集成概率模型,采用模型預測控制,根據工具與接觸工況的交互狀態(tài),主動自適應更新阻抗參數,獲取最優(yōu)控制量,形成機器人打磨系統(tǒng)根據接觸工況環(huán)境狀態(tài)主動自適應變阻抗調節(jié)策略,以適應不同接觸工況環(huán)境和打磨作業(yè)任務需求,提高機器人柔順打磨作業(yè)的自適應性和魯棒性.

2.2.1 基于BNN 的集成概率模型構建 在打磨工具與工件的接觸作業(yè)過程中,機器人打磨系統(tǒng)的控制量與工具及工件接觸的狀態(tài)量具有馬爾科夫性[17],將機器人打磨系統(tǒng)的動力學傳遞函數描述為

式中: (xt,ut)、xt和ut分別為系統(tǒng)的狀態(tài)動作對、狀態(tài)觀測量(狀態(tài)空間)和控制輸入量(動作空間);f為系統(tǒng)的動力學傳遞函數,可以表示該馬爾科夫過程的狀態(tài)轉移概率.將狀態(tài)的微分作為訓練的輸出量,可以近似學習動力學模型的梯度,與直接學習狀態(tài)的值相比,學習狀態(tài)的微分能夠更清晰地描述系統(tǒng)的動態(tài)特性,因此更具優(yōu)勢[18].

針對工具與工件接觸狀態(tài)和阻抗參數的非線性關系,以t時間段工具與工件的打磨力的均值和標準差作為狀態(tài)觀測量[19],以阻尼系數和剛度系數作為控制輸入量,令,則t時間段與t-1 時間段狀態(tài)量的微分為

將 Δxt作為概率動力學模型的輸出,則系統(tǒng)的動力學傳遞函數描述為

機器人打磨作業(yè)時,由于工具與工件接觸時產生的不確定性擾動,導致控制系統(tǒng)存在不確定性.要實現對打磨作業(yè)的穩(wěn)定、準確控制,須考慮系統(tǒng)模型的不確定性,包含1)機器人時變耦合非線性打磨作業(yè)接觸環(huán)境引起的系統(tǒng)隨機不確定性,2)測量誤差引起的認知不確定性.這2 種不確定性難以用精確的數學模型描述,因此采用基于BNN 的集成概率模型從統(tǒng)計學角度進行描述.

1) BNN 模型構建.BNN 模型將傳統(tǒng)BP 神經網絡的權重以概率分布的形式描述,建立輸入和輸出之間的概率分布關系,利用貝葉斯定理和變分推斷思想,以證據下界(evidence lower bound,ELBO)作為損失函數訓練網絡權重,使擬合的BNN 在有先驗數據的區(qū)域表現出較小的不確定性,在無先驗數據的區(qū)域表現出較大的不確定性.利用BNN 模型擬合控制系統(tǒng),描述控制系統(tǒng)控制量和狀態(tài)量之間的分布關系,即可量化由于測量引起的認知不確定性.BNN 模型對網絡的可訓練網絡模型參數的權重進行重參數化[20],使網絡參數以概率分布的形式呈現.假設網絡模型輸出Y的分布為

可訓練網絡模型x中的參數 θ 服從先驗分布θ ~N(0,1),由于輸入與模型參數之間具有獨立性,輸入與輸出描述為網絡參數的映射,根據貝葉斯定理,模型參數w或b用H代表,則H的后驗概率為

式中:D為觀測數據.對于復雜的深度貝葉斯神經網絡模型,后驗分布的高維性與非凸性使得證據(邊緣分布)難以計算[21].引入變分推斷[22],通過參數化后驗分布(變分后驗分布)逼近真實后驗.變分推斷的準確度可用變分后驗分布與真實分布的近似度描述.KL 散度(Kullback Leibler divergence)是描述2 種分布近似度常用的方法,其通過Shannon 信息熵理論描述概率分布之間的差異性.假設樣本真實后驗概率為P(H|D) ,變分后驗分布為qθ(H) ,則變分后驗對真實后驗的近似度為

式中:H′為網絡模型參數積分因子.為了避免真實后驗P(H|D) 復雜的計算過程,引入ELBO 作為深度神經網絡模型的損失函數:

即通過最小化L(θ) ,使預測的輸出分布更接近于真實輸出分布.P(D) 為邊緣似然函數,最小化KL散度DKL(q||P) 等同于最大化ELBO,即最大化損失函數.ELBO 梯度不可解,為此引入蒙特卡洛估計法,計算損失函數ELBO 對模型參數 θ的 負梯度,為

式中:NM為蒙特卡洛采樣次數.按照ELBO 的負梯度方向對網絡參數不斷更新,以達到網絡輸出逼近真實分布的目的,梯度下降算法采用隨機梯度下降法(stochastic gradient descent,SGD)實現.

2) 集成概率模型構建.機器人時變耦合非線性打磨作業(yè)接觸環(huán)境引起的系統(tǒng)隨機不確定性可以通過集成概率模型的方法來描述,即根據多次采樣的數據集擬合多個BNN 模型,構建集成概率模型,聯(lián)合描述系統(tǒng)隨機不確定性[23],表征機器人打磨系統(tǒng)的打磨工具與工件接觸狀態(tài)和阻抗參數之間的非線性關系.采用自助法(Bootstrapping),從原始數據集中有放回地均勻抽樣創(chuàng)建模擬數據集,將有限樣本經由K次重復抽樣,建立足以代表母體樣本分布的K個子樣本.利用自助采樣的K個樣本,訓練出K個BNN 模型,利用模型預測采樣軌跡法合成為集成概率模型.動力學模型f(x,u)可用集成概率模型中K個BNN 模型的輸出分布Pi(x,u)代替,具體訓練過程如圖4 所示.

圖4 集成概率模型的訓練過程Fig.4 Training process of ensemble probabilistic model

2.2.2 集成概率模型預測控制 在已知系統(tǒng)傳遞函數的基礎上,根據初始狀態(tài)量和控制量算出一系列預測域的狀態(tài)量和控制量軌跡;采用反饋校正,對狀態(tài)量和控制量進行優(yōu)化;在控制過程中,采用滾動時域優(yōu)化方法,在每個控制周期進行局部優(yōu)化,提高控制系統(tǒng)的抗擾性和穩(wěn)定性[24].通過非線性狀態(tài)傳遞函數,求解h步預測域的狀態(tài)軌跡xt,xt+1,···,xt+h:

根據狀態(tài)和控制序列以及狀態(tài)量的權重Q、控制量的權重R,求得目標函數:

對Loss 進行優(yōu)化,得到最優(yōu)控制序列:

1) 模型預測軌跡采樣.訓練的集成概率模型中有K個BNN 模型,須在預測時對BNN 模型的利用方式進行分配.采用固定軌跡采樣法與隨機軌跡采樣法的隨機混合進行分配.固定軌跡采樣法:每個訓練時間段t選取同1 個訓練好的BNN模型進行模型預測控制;在下次預測時,預測模型更換為下個訓練好的BNN 模型.隨機軌跡采樣法:每個預測時間段t隨機地選取1 個訓練好的BNNt,每步均利用不同的模型進行模型預測控制.這2 種軌跡采樣方法,分別從整體和局部2 個角度描述系統(tǒng)的固有隨機性,使得模型具有更好的泛化能力.

2) 基于協(xié)方差矩陣自適應進化策略算法的參數優(yōu)化.由于不宜采用集成概率模型計算梯度,選擇非梯度優(yōu)化算法解算最優(yōu)控制量.CMA-ES算法作為數值優(yōu)化算法,在求解非梯度的優(yōu)化問題時具有全局收斂和收斂快速的優(yōu)點[25],主要實現步驟如下.a) 采樣重組:采用多變量正態(tài)分布生成新的樣本點.在第z代中,k個子代樣本點生成式為

式中:m(z)∈Rn為第z代中搜索分布的平均值,σ(z)∈R+為搜索步長,C(z)∈Rn×n為第z代的協(xié)方差矩陣, λ 為種群大小,n為優(yōu)化問題的維度;隨機獲取第0 代的均值m(0).搜索分布的新一代平均值:

b) 全局步長自適應:使用共軛進化路徑更新步長,

式中:cσ為步長累積的學習率; μeff為方差有效選擇權重;E為求解期望值,I為單位矩陣,dσ為步長更新的阻尼參數,

c) 協(xié)方差矩陣適應:與步長自適應類似,進化路徑

式中:ccov為協(xié) 方 差 更新的學 習 率, μcov為 矩 陣 秩更新的加權系數,

更新m(z)、wi和 σ(z+1)等重要參數,獲取模型預測控制策略優(yōu)化問題的最優(yōu)解集.

2.2.3 基于集成概率模型的強化學習主動自適應變阻抗的機器人打磨力控制 為了提高機器人打磨力控制的穩(wěn)定性,在成本函數(獎勵懲罰策略)中引入基于方差的能量損失項,減小機器人打磨時的不確定性擾動引起的不穩(wěn)定性,提高系統(tǒng)的抗干擾能力.假設目標狀態(tài)為xtar,設定自適應參數調節(jié)策略的單步成本函數為

其中等號右邊第一項為瞬時狀態(tài)誤差項,第二項為瞬時能量成本項,umax為最大控制輸入量.為了量化自適應參數調節(jié)策略的性能,定義時間段tend的總成本為

將式(28)作為自適應參數調節(jié)策略的評價指標,其中 ξ 為tend的成本序列C方差的權重,std( )為標準差函數.利用CMA-ES 算法,優(yōu)化求解使得總成本R最大對應的控制量uot作為下一步的控制量.基于集成概率模型的強化學習算法對應偽代碼如算法 1 所示.根據狀態(tài)觀測量和控制輸入量,利用CMA-ES 算法對狀態(tài)觀測量進行迭代優(yōu)化.將求解的最優(yōu)控制量uot作為所提方法的機器人末端執(zhí)行器打磨作業(yè)的阻抗控制器的變阻抗參數,結合式(2)、(3)進行實時主動自適應變阻抗參數的機器人打磨力控制,控制框圖如圖5 所示.

圖5 基于集成概率模型的主動自適應變阻抗的機器人打磨力控制框圖Fig.5 Block diagram of robotic grinding force control with active adaptive variable impedance based on ensemble probabilistic model

集成概率模型EPM 采用離線訓練方式,所使用的采集觀測數據只包含工具與工件接觸模型信息,不包含外部環(huán)境信息,訓練后的環(huán)境對機器人打磨力控制系統(tǒng)而言是未知環(huán)境.當環(huán)境改變后,所訓練的集成概率模型仍可結合CMA-ES 算法實時優(yōu)化求解最優(yōu)阻抗參數.訓練后的變阻抗控制器適用于不同形狀的曲面和環(huán)境剛度的工況.本研究提出的基于集成概率模型的強化學習主動自適應變阻抗的機器人打磨力控制方法,強化學習包含有系統(tǒng)不確定性的工具與工件的交互過程,通過經訓練的集成概率模型EPM 描述狀態(tài)觀測量xt與控制輸入量ut的關系,采用CMA-ES算法求解模型預測控制策略優(yōu)化問題描述的最優(yōu)解集控制輸入量ut,獲得與工作環(huán)境主動自適應的變阻抗參數,主動自適應調節(jié)工具與工件之間的阻抗特性,將打磨力偏差經變阻抗控制器產生的自適應修正補償量作用于位置控制系統(tǒng),實現打磨力控制,提高機器人打磨系統(tǒng)的自適應性能.

3 機器人自適應打磨作業(yè)仿真實驗

針對中小型曲面工件,采用所提機器人打磨力控制方法,提升打磨力控制的穩(wěn)定性與準確性,使得打磨力控制能夠主動自適應調節(jié)阻抗控制參數,保持打磨力的恒定,提高機器人柔順打磨作業(yè)的適應性和穩(wěn)定性.在航空制造領域,航空發(fā)動機含有數千枚葉片,加工后葉片表面粗糙度要求較高,其磨拋加工任務量占近一半的葉片制造總工作量,由于葉片不斷改進導致種類繁多,形狀復雜,本研究選取該領域具有曲面典型特征的葉片開展機器人打磨作業(yè)仿真實驗,驗證所提方法的有效性.1)采用具有平滑性特點的NURBS 曲線規(guī)劃機器人打磨軌跡,以實現打磨作業(yè)過程的位置、速度等的平滑過渡.2)開展機器人與工件交互環(huán)境的強化學習主動自適應打磨力控制仿真與分析,驗證所提方法的有效性.

3.1 機器人打磨路徑和打磨軌跡規(guī)劃

1) 作業(yè)空間打磨路徑和打磨姿態(tài)規(guī)劃.如圖6(a)所示,采用子午線作為打磨作業(yè)路徑,利用NURBS 曲線插值對打磨作業(yè)笛卡爾空間位置進行軌跡規(guī)劃.在葉片上根據子午線的形狀,采樣48 個路徑點作為型值點,其空間位置和相對應的葉片曲面法向量如圖6(b)所示.將型值點作為控制點,利用5 次NURBS 曲線插值,對打磨路徑進行插值平滑處理,求得經過平滑后的機器人末端執(zhí)行器的作業(yè)工具末端點空間位置.為了實現機器人打磨姿態(tài)平滑過渡,將姿態(tài)矩陣轉換為單位四元數,利用單位對數四元數法,將單位四元數轉換為三維空間點[26],對轉換后的三維空間點進行5 次NURBS 曲線插值.根據打磨路徑和打磨姿態(tài)規(guī)劃結果,獲得機器人打磨系統(tǒng)對應打磨工具軌跡如圖7 所示.

圖6 葉片工件、規(guī)劃路徑點和曲面法向量Fig.6 Blade workpiece, planned path points and surface normal vectors

圖7 機器人打磨的工具軌跡Fig.7 Tool trajectory of robotic grinding

2) 關節(jié)空間打磨軌跡規(guī)劃.5 次NURBS 曲線插值使機器人關節(jié)空間的角速度、角加速度和急動度(Jerk)均具有平滑性.采用分段插值軌跡規(guī)劃方法,對打磨作業(yè)路徑對應的機器人各關節(jié)角進行5 次NURBS 曲線插值,規(guī)劃打磨軌跡.其中t=0~3 s,機器人打磨系統(tǒng)工具末端點從起始位置(對應機器人各關節(jié)角為零)移動到規(guī)劃打磨路徑的起始點;t>3 s,機器人打磨系統(tǒng)工具末端點從規(guī)劃打磨路徑的起始點開始,沿著規(guī)劃路徑,執(zhí)行打磨作業(yè),此時采用5 次NURBS 曲線插值,對機器人各關節(jié)進行軌跡規(guī)劃.所規(guī)劃的機器人各關 節(jié) 的 角 度 θ 、角 速 度 ω 、角 加 速 度a及 急 動 度J曲線,如圖8 所示.各關節(jié)角度和角速度變化較為平緩且沒有突變,角加速度和急動度的變化也較小,分別不超過0.4°/s2和1.5°/s3.

圖8 機器人各關節(jié)的角度、角速度、角加速度及急動度曲線Fig.8 Curves of robotic joints for angle, angular velocity, angular acceleration and jerk

3.2 機器人強化學習主動自適應打磨力控制仿真

將所提機器人打磨力控制方法設計為機器人強化學習自適應打磨力控制器.在控制器中設置集成概率模型的BNN 數量為5,每個BNN 均具有2 層64 個神經元的隱藏層,激活函數選用Swish函數,每次自助法采樣數量為總體樣本數量的50%,且對網絡權重作L2 正則化,采用小批量隨機梯度下降法,利用Adam 優(yōu)化算法優(yōu)化訓練過程,單個BNN 模型的訓練迭代次數設置為3.0×104次.選取初始阻抗參數M(t0)=3 kg、D(t0)=30 N·m/s和K(t0)=2 N/m,并設阻抗參數的待訓練參數取值范圍分別為D(t)∈[10, 200]和K(t)∈[0, 20].分別設打磨期望力(即打磨作業(yè)目標狀態(tài)量)為15、20、30 N,期望的打磨力方差Fes=0,即xtar對應取為[15, 0]、[20, 0]和[30, 0],開展自適應打磨力控制對比仿真.當取xtar=[20, 0]時,訓練后的機器人強化學習自適應打磨力控制器,分別對鋁合金工件和碳鋼工件進行打磨仿真,其材料剛度分別為3.5×104、1.0×105N/m.設置仿真時間為20 s,仿真步長為0.01 s;將仿真時間分為10 個參數修正段,每段時間長為2 s(即對應為200 步).在每個參數修正段結束后,根據所提方法,主動自適應調節(jié)阻抗參數.在Matlab/Simulink 中,構建機器人強化學習自適應打磨力控制器,通過對機器人打磨系統(tǒng)虛擬樣機聯(lián)合仿真控制,按照子午線打磨路徑,對葉片進行打磨作業(yè)仿真實驗.第一次訓練時,1)在阻抗參數取值范圍內隨機取10 組待訓練參數D(t)、K(t),t=1~10 s,獲取初始的狀態(tài)量數據集xt和控制量數據集ut.2)對數據集進行自助法采樣,獲取5 個子數據集.3)分別利用5 個數據集訓練EPM 中的5 個BNN 模型.在第一次訓練結束后,后續(xù)每次均采用所提方法更新阻抗參數.

對于不同的打磨期望力,經過多次訓練,機器人打磨系統(tǒng)對選取葉片的打磨力獲得有效控制,打磨力跟蹤誤差方差和均值均減小,實現了打磨力的有效跟蹤控制.經過不同次數的訓練,機器人的不同打磨期望力對應的打磨力曲線如圖9 所示,訓練過程的不同預測段m對應的獎勵值RV 曲線如圖10 所示;不同訓練次數 ξ 的打磨力絕對 跟 蹤 誤 差fd對 應 最 大 值、方 差和 均 值如表1 所示.當打磨期望力為20 N、期望的打磨力方差=0 時,訓練后的自適應打磨力控制器對不同剛度的鋁合金工件和碳鋼工件仿真對應的打磨力曲線如圖11 所示,與打磨力絕對跟蹤誤差如表2所示.由表1 可知,隨著訓練次數的增加,打磨力絕對跟蹤誤差的最大值、方差和均值均逐漸變小,表明隨著訓練的進行,均在一定程度內提高了打磨力控制的穩(wěn)定性、準確性和精度,降低了力控制的超調量.由圖11 和表2 可知,訓練后的變阻抗控制器對于不同環(huán)境剛度,僅需數次訓練微調之后,即可達到較好的跟蹤效果.

圖9 不同打磨期望力在不同訓練次數下的打磨力曲線Fig.9 Grinding force curves of different expected grinding force after multiple trainings

圖10 不同打磨期望力在不同訓練次數下的獎勵值曲線Fig.10 Reward curves of different expected grinding force after multiple trainings

圖11 不同剛度工件的打磨力曲線Fig.11 Grinding force curves for workpieces with different stiffnesses

通過不同期望力的仿真實驗可知,所提方法僅在十幾次訓練后,機器人打磨系統(tǒng)即可使打磨力絕對跟蹤誤差的最大值、方差和均值均減小至某一較小值,同時對于不同剛度工件也具有較好的打磨力跟蹤性能,較好地實現了機器人打磨系統(tǒng)的主動自適應變阻抗打磨力控制,驗證了所提方法的有效性.對于恒定打磨力控制,模糊自適應變阻抗控制是常用方法,當其對某一種恒定打磨期望力調節(jié)好適宜模糊邏輯控制參數之后,對其他恒定打磨期望力的跟蹤效果通常會變差,自適應性能不高[27-28].因此,當模糊變阻抗控制器對不同的恒定打磨期望力進行跟蹤時,均應人為調整模糊邏輯參數.與之相比,本研究所提方法在自適應打磨力控制器經過離線訓練后,對于跟蹤不同的恒定打磨期望力不需要再次調整參數,僅通過少量訓練即可實現變阻抗控制器的主動自適應參數調節(jié),具有較強的自適應性.所提方法為機器人打磨系統(tǒng)對不同工件以不同期望恒定打磨力開展柔順打磨作業(yè)提供了主動自適應柔順恒力控制方法.

4 結 論

(1) 為了解決機器人對工件柔順打磨作業(yè)適應性差的問題,設計柔順浮動力控末端執(zhí)行器,并基于集成貝葉斯神經網絡模型的強化學習提出主動自適應變阻抗的機器人打磨力控制方法.該方法1)根據打磨作業(yè)過程中工具與工件的接觸狀態(tài)信息,采用自助法構建多個子數據集,對多個貝葉斯神經網絡進行訓練,構成集成概率模型;2)使用CMA-ES 算法,預測阻抗控制器的阻抗參數,自適應求解當前工況狀態(tài)的最優(yōu)阻抗參數;3)將所提方法設計為機器人強化學習自適應打磨力控制器,實現法向打磨力對期望打磨力的自適應跟蹤,提升機器人打磨力的穩(wěn)定性和準確性.

(2) 采用Adams 和Matlab/Simulink 分別構建機器人打磨系統(tǒng)的虛擬樣機和仿真控制系統(tǒng),通過聯(lián)合仿真,開展機器人與工件交互環(huán)境的強化學習主動自適應打磨力控制仿真與分析.結果表明,在期望打磨力分別為15、20 、30 N 的工況下,所提方法均在十幾次訓練后,機器人打磨系統(tǒng)即可實現從無法準確跟蹤期望打磨力,訓練到打磨力絕對跟蹤誤差減小至較小值,對不同剛度工件也具有較好的打磨力跟蹤性能,驗證了所提方法的有效性.

(3) 所提方法可為機器人柔順打磨作業(yè)提供主動自適應機器人打磨力控制方法,具有一定的參考價值.

(4)后續(xù)在所提方法基礎上,計劃針對機器人打磨作業(yè)顫振這類非線性強擾動工況,深入開展機器人主動自適應打磨力控制研究,提高在強擾動環(huán)境下機器人主動自適應打磨力控制的魯棒性.

猜你喜歡
作業(yè)模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
快來寫作業(yè)
重尾非線性自回歸模型自加權M-估計的漸近分布
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
作業(yè)
故事大王(2016年7期)2016-09-22 17:30:08
主站蜘蛛池模板: 亚洲第一视频免费在线| 日本尹人综合香蕉在线观看| 欧美成人午夜在线全部免费| 国产成人成人一区二区| 国产69精品久久久久妇女| 国产主播福利在线观看| 成人综合久久综合| 美女免费黄网站| 大香网伊人久久综合网2020| 中文字幕在线看视频一区二区三区| 国产在线一二三区| 99热这里只有免费国产精品| 国产高颜值露脸在线观看| 台湾AV国片精品女同性| 片在线无码观看| 久操中文在线| 刘亦菲一区二区在线观看| 国产一区二区三区精品久久呦| 美女国产在线| 亚洲欧美色中文字幕| 亚洲乱强伦| 国产99免费视频| 久久综合五月| 国产欧美日韩免费| a级高清毛片| 女高中生自慰污污网站| 国产白浆一区二区三区视频在线| 天堂网亚洲系列亚洲系列| 亚洲欧美成人在线视频| 亚洲午夜天堂| 国产菊爆视频在线观看| 亚洲bt欧美bt精品| 久久毛片基地| 在线高清亚洲精品二区| 国产成人久久综合一区| lhav亚洲精品| 久久大香香蕉国产免费网站| 国产色网站| 久久6免费视频| 99久视频| 尤物视频一区| 国产区在线观看视频| 亚洲福利视频网址| 亚洲天堂首页| 国产精品视频观看裸模 | 国产免费高清无需播放器| 亚洲黄色成人| 99热免费在线| 免费国产不卡午夜福在线观看| 国产无码精品在线播放| 国产欧美精品一区aⅴ影院| 国产玖玖视频| 99视频在线免费| 亚洲综合久久一本伊一区| JIZZ亚洲国产| 亚洲日本精品一区二区| 久久婷婷国产综合尤物精品| 国产微拍一区二区三区四区| 久久亚洲天堂| 狠狠做深爱婷婷久久一区| 欧美成人看片一区二区三区 | 秋霞一区二区三区| 色综合久久久久8天国| 久久久久人妻一区精品| 丰满少妇αⅴ无码区| 免费无码又爽又黄又刺激网站| 午夜毛片免费观看视频 | 欧美日韩第三页| 日韩福利在线观看| 精品国产一二三区| 亚洲国产欧美国产综合久久 | 在线欧美日韩国产| 久久精品视频亚洲| 国产99久久亚洲综合精品西瓜tv| 国产亚洲精品在天天在线麻豆| 国产精品手机在线播放| 欧美性久久久久| 特级做a爰片毛片免费69| 毛片卡一卡二| 国产精品黄色片| 国产熟睡乱子伦视频网站| 国产精品午夜福利麻豆|