999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的拋光機器人主動力控制研究

2020-09-23 08:45:04張活俊江勵湯健華黃輝
機械工程師 2020年9期
關鍵詞:控制策略模型

張活俊, 江勵, 湯健華, 黃輝

(五邑大學,廣東 江門529000)

0 引 言

拋光打磨是工件處理最基礎的一道工序,但惡劣的工作環境嚴重影響工人的健康[1]。新型拋光機器人的研發將有效改善拋光行業的發展前景,同時推廣在五金衛浴、汽車裝配等行業的應用。目前中小型拋光企業中的拋光設備以帶末端拋光裝置的工業機械臂和一體式拋光機器人為主。

六自由度工業機械臂具有靈活的工作空間,能以任意姿態在工件切線方向進行拋光,對于中小型企業來說,成本較高,面對復雜曲面工件,還需要工人具備編程基礎。一體式拋光機器人的設計理念來自于傳統的多軸數控磨床。浙江大學的謝英太[2]設計出一款3P3R型焊接機器人,其手臂部分由正交坐標系結構分布的三自由度移動關節組成,而手腕部分由BRB型歐拉機械手組成。河南農業大學的焦有宙等[3]研發了3P3R型機械臂,其手腕構型為RBR型,結合Kane方法和旋量理論實現對機器人的軌跡控制。北京航空航天大學的張棟等[4]在3P3R型拋光機械臂結合D-H法實現運動軌跡的規劃。一體式機器人結合數控磨床的精準定位特點,各移動關節通過導軌控制位移,承載能力高,即末端負載工件對于位置控制的影響較小,同時歐拉手腕的三自由度旋轉使機器人具有靈活的工作空間。

一體式拋光機器人目前的研究方向多集中于軌跡的控制,這并不適用于對接觸時正壓力要求較高的場合,因此引入力傳感器將反饋信息融入控制策略。傳統的控制策略有阻抗控制和力/位置混合控制等2種方式[5]。然而該控制策略需要準確的動力學模型,以及考慮外界干擾、非線性因素,因而導致計算量龐大。隨著人工智能的研究熱潮,運用強化學習應用于控制策略的參數求取,為控制策略提供新的研究方向。德國慕尼黑大學的Freek Stulp等[6]將七自由度仿真機器人在無確定性模型的前提下控制機器人的末端執行器,從經驗中學習適當的阻抗以實現可變阻抗控制。哈爾濱工業大學的李超等[7]提出一種學習變阻抗控制方法,使機器人高效自主地學習執行力控制任務,在較少次仿真實驗結果中,不斷迭代學習,獲得變阻抗參數以提高數據的利用率。

本文研發的五自由度拋光機器人在氣缸恒壓作用下具有穩定拋光正壓力的作用,其次提出結合深度Q網絡的主動力控制策略,根據工件輪廓自動調整氣缸輸出壓力,從理論上分析達到穩定拋光正壓力的要求。

1 拋光機器人系統

拋光機器人系統由主體機構和控制系統組成。如圖1所示,主體機構結合一體式拋光機器人的直角坐標系結構分布特點,P1、P3和P4分別為沿著Z1方向的伸縮機構、Z3方向的升降機構和Z4方向的平移機構。其中升降機構和平移機構采用伺服電動機帶動絲桿傳動實現精確的位置控制,同時在兩側對稱分布的導軌滑塊約束下運動,符合高剛度的結構設計要求。R2、R5分別為繞著Z2軸旋轉的旋轉機構、繞著Z5軸旋轉的夾持機構。旋轉機構和夾持機構模擬手腕轉動方式實現歐拉角轉動。機器人夾持工件沿著X軸方向拋光過程中,砂輪始終對工件在Y方向上運動起到約束作用。因此該機器人的五自由度結構適用于復雜曲面的回轉體工件。

圖1 拋光機器人樣機圖與機構簡圖

拋光機器人的控制系統如圖2所示,主要分為基于PLC控制伺服電動機1、2的精確定位及電氣比例閥控制兩側氣缸2、3的恒壓輸出,同時兩側壓力傳感器1、2實時監控拋光正壓力變化。

圖2 拋光機器人系統控制框圖

2 機器人恒力控制模型

拋光恒力控制模型的關鍵在于建立起工件輪廓曲率變化θd與拋光正壓力F的對應關系,其恒力控制模型如圖3所示。

依據拋光工件的運動可以分為3部分。第1部分對應公式(1),控制兩側氣缸的推力F1、F2,以平衡拋光正壓力F和摩擦力Ff產生角度為θd的合力。第2部分對應公式(2),建立力矩平衡方程,設定拋光平臺始終垂直于工件表面切線方向前提下,求解獲得最大正壓力的角加速度α。第3部分對應公式(3),拋光平臺的轉角θd由工件輪廓曲率θ及其角加速度α疊加后更新。根據以上3種耦合運動,我們可以建立起力學平衡方程:

圖3 恒力控制模型圖

上述公式聯立后在Matlab軟件中迭代求解,將拋光正壓力F作為求解的目標值,配合角加速度α可求出拋光過程中拋光正壓力的變化。為驗證恒力控制模型的正確性,建立圖4(a)所示的拋光機器人動力學仿真模型。如圖4(b)所示,ADAMS仿真模型由于剛接觸產生碰撞導致正壓力有明顯下降趨勢,隨后兩者的迭代結果同步穩定上升,力學模型迭代比仿真模型延遲1.7 s逐漸下降并最終穩定在設定值200 N的±1.5 N范圍內。如圖4(c)所示,拋光平臺轉角仿真模型結果與力學迭代結果趨勢基本一致,均呈現先上升后下降的現象,而且轉動角度的峰值相差不足0.6 °。因此證明該恒力控制模型對于拋光機器人的可行性。

圖4 恒力控制模型數據圖

3 基于DQN的主動力控制策略

傳統主動控制方式下獲得的實驗結果表明,對于該拋光機器人的拋光正壓力具有一定的穩定作用,然而對于復雜曲面拋光件而言,被動恒力控制無法適應工件輪廓曲率變化,導致拋光過程中產生不可避免的碰撞。因此提出基于拋光力學模型推導出的恒力控制策略,該策略的算法核心是深度Q網絡(Deep Q Network)。

基于貪婪策略選擇對應的動作,即兩側氣缸的輸出壓力動作F1、F2,經過式(1)轉換獲得下一個時刻的狀態輸出即拋光正壓力F:

求解中間變量角加速度α。依據兩側氣缸輸出壓力F1、F2的差值,拋光平臺貼合工件輪廓旋轉的曲率變化角加速度經過式(2)轉換得

求解下一時刻的狀態輸出拋光平臺轉角θd,可經過公式(3)求得。至此基于恒力控制模型中力學分析的拋光環境模型搭建完成,將拋光正壓力F和拋光平臺轉角θd作為動作空間變量即拋光環境模型的輸入,同時以兩側氣缸的輸出壓力動作F1、F2作為狀態空間變量即拋光環境模型的輸出。接下來分析輸入的狀態空間和動作空間如表1、表2所示。狀態空間的約束目的在于結束無意義的學習,并進入下一次迭代動作空間的選擇取決于當前狀態st和貪婪策略π。

深度Q學習的理念是拋光模型環境與基于Q表已知經驗的交互作用中邊學習邊提升策略,最終經過有限次實驗獲得最優策略的過程。其中考慮到狀態空間的拋光正壓力、平臺轉角均為連續變量,采用Q學習建立的Q表過于龐大,將嚴重占用內存空間,因此通過神經網絡建立起狀態空間與動作空間之間的映射關系。等間距采集200個工件的輪廓點進行迭代學習,該過程作為一次經驗軌跡。經過多次拋光實驗,為由已知經驗構建的Q表提供學習數據。

為了控制智能體對于拋光環境模型數據的學習程度,選取學習率α為0.3、0.6、0.7和1.0,對比迭代學習穩定時運行步長的穩定性選取合適的學習率。如圖5(a)所示,學習率α為0.3時迭代步長的穩定性優于取值0.6;結合圖5(b)可知,學習率α為0.3時迭代步長最穩定,基本維持在192步左右。

學習率取值過高意味著對于未來獎勵的重視程度越高,因此未來獎勵對于主動力控制策略的影響越大,這將導致策略收斂的速度較慢且難以收斂;相反,若學習率取值過低,則對于已有經驗較為重視,雖然收斂速度快,但容易忽略更優的策略,只獲得局部最優解。本文選取學習率α為0.3。

表1 狀態空間的設置

表2 動作空間的設置

圖5 學習率對學習效果的影響圖

主動力控制策略的主要參數學習率α確定后,假設每一次基于控制策略調整拋光正壓力為一個迭代訓練過程,每個迭代訓練開始于初始化拋光接觸力F、拋光平臺轉角θ,結束于拋光正走行程結束條件。此外,設定進入終止狀態的3個條件:1)拋光工件、砂輪間拋光接觸力與設定值的偏差范圍±5 N;2)拋光平臺的轉動角度范圍是±60°;3)每次訓練的最大運行時間步不得超過200步。進行策略規劃的過程中運行步數對應拋光行程中工件輪廓的取樣點,因此若在規劃達到規定運行步數前進入終止狀態,則該次規劃失敗,并重新進入隨機初始狀態下的規劃。基于控制策略下得到拋光正壓力F、拋光平臺轉角θ和代價函數Cost三要素來評估該控制策略的性能。

如圖6所示,拋光正壓力F始終穩定于設定值200 N。隨著工件輪廓先上升至203 N,后下降至190 N,并維持在5 N范圍內變動。其次,拋光平臺的轉動角度需順應輪廓的變化而自由轉動,因此旋轉關節R2的轉角連續性可體現策略控制的調整是否合理。圖7所示的轉角曲線滿足主動力控制策略對于連續控制的要求,而且轉動角度的范圍是-10°~6°之間,遠小于±60°的約束條件。

圖6 主動力控制策略下拋光正壓力曲線

圖7 主動力控制策略下拋光平臺轉角曲線

主動力控制策略采用的DQN算法是基于Q學習,引入神經網絡對動作價值函數q(s,a)進行參數化,獲得其逼近函數q(s,a,θ)。設定每次訓練的迭代時間步為200步,等同于工件輪廓的采樣點數,共執行200次,訓練因此獲得圖8中橫軸代表的40 000個運行時間步。縱軸代表的代價函數表示訓練過程中基于動作價值函數已學習到的經驗與逼近函數之間的均方差,其值越小代表訓練結果越好。

圖8 主動力控制策略下損失函數圖

拋光主動力控制策略的目標是從拋光起始點位置按照最優控制策略到達拋光終止位置,在拋光過程中,拋光機器人兩端氣缸可以采用不同貫序來決定輸出推力,通過調整拋光機器人的當前狀態就能實現該功能。

4 結 語

1)本文致力研發高剛度、自動化控制的拋光機器人,為適應中小型企業批量化產品的拋光要求,結合工件輪廓前提下提出跟蹤正壓力變化實現自動化控制的拋光策略。2)根據拋光機理建立恒力控制模型,通過動力學仿真和理論計算結果的對比分析,證明該恒力控制模型用于拋光機器人的可行性。3)主動力控制策略中引入深度Q學習算法,基于已知工件輪廓在拋光實驗中迭代學習,有效解決復雜的動力學建模問題,理論上初步驗證該控制策略的可行性。

猜你喜歡
控制策略模型
一半模型
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
3D打印中的模型分割與打包
容錯逆變器直接轉矩控制策略
基于Z源逆變器的STATCOM/BESS控制策略研究
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产欧美精品专区一区二区| 午夜日本永久乱码免费播放片| 无码久看视频| 亚洲天堂在线视频| 精品人妻AV区| 亚洲欧洲国产成人综合不卡| 日韩AV无码一区| 日a本亚洲中文在线观看| 91热爆在线| 一级毛片在线播放| a毛片在线| 在线观看国产精品第一区免费 | 亚洲精品国产日韩无码AV永久免费网 | 国产亚洲美日韩AV中文字幕无码成人| 视频一本大道香蕉久在线播放 | 一级成人欧美一区在线观看| 国产精品流白浆在线观看| 毛片三级在线观看| 青青热久麻豆精品视频在线观看| 91在线丝袜| 无码粉嫩虎白一线天在线观看| 亚洲无码精彩视频在线观看| 国产一二视频| 欧美午夜性视频| 国产一级α片| 日韩区欧美国产区在线观看| 中国毛片网| 亚洲一区免费看| 亚洲第一极品精品无码| 91福利国产成人精品导航| 亚洲午夜福利精品无码| 久久精品国产一区二区小说| 亚洲人成在线精品| 国产免费a级片| 色综合久久88| 狠狠色丁香婷婷综合| 欧洲av毛片| 亚洲午夜天堂| 麻豆国产精品视频| 自拍偷拍欧美| 国产成人av一区二区三区| 青青国产视频| a亚洲天堂| 欧美午夜网| 欧美A级V片在线观看| 国产午夜无码片在线观看网站 | 亚洲精品久综合蜜| 国产美女免费| 老司机精品99在线播放| 好紧好深好大乳无码中文字幕| 国产爽妇精品| 久久综合激情网| 四虎国产成人免费观看| 九色综合伊人久久富二代| 无码电影在线观看| 岛国精品一区免费视频在线观看| 天天摸夜夜操| 久久黄色影院| 亚洲综合二区| 91区国产福利在线观看午夜 | 欧美激情成人网| 亚洲色图欧美视频| 有专无码视频| 国产大片喷水在线在线视频 | 免费在线a视频| 91丨九色丨首页在线播放| 一级高清毛片免费a级高清毛片| 国产网友愉拍精品视频| 91在线精品麻豆欧美在线| 亚卅精品无码久久毛片乌克兰| 国产99精品久久| 国产成人AV综合久久| 久久精品电影| 97av视频在线观看| 香蕉99国内自产自拍视频| 久久亚洲中文字幕精品一区| 夜精品a一区二区三区| 国产一区二区精品高清在线观看| 亚洲福利一区二区三区| 久久久噜噜噜久久中文字幕色伊伊| 国产内射一区亚洲| 精品天海翼一区二区|