999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人機合作的核運維機器人軸孔裝配研究

2022-06-28 17:46:38劉滿祿徐冬苓
制造業自動化 2022年6期
關鍵詞:核電廠機械

宋 宇,胡 莉,劉滿祿,2*,張 華,徐冬苓

(1.西南科技大學 信息工程學院,綿陽 621000;2.中國科技大學 信息科學技術學院,合肥 230026;3.上海核工程研究設計院有限公司,上海 200233)

0 引言

隨著我國核能發電、軍用核動力裝置、輻照產業的廣泛開展[1,2],在放射性環境下采用機器人代替人進入核電廠等涉核設施內部對設備進行維修、檢查等操作具有廣闊的應用前景[3,4]。機器人在核電廠等涉核設施內部工作時,需要完成大量諸如軸孔裝配這類的高精度裝配任務。軸孔裝配是一個復雜的裝配過程,由于零件普遍存在加工誤差,使得軸孔裝配在孔內只能使用較小的位姿進行調整,在裝配精度上有較高的要求。傳統的軸孔裝配任務中,機器人與環境的接觸環境較為穩定,一旦在未知環境中面臨不確定因素,機器人的適應性就會變得很差,機器人處理核電廠這類未構造的復雜環境的能力受限。因此,研究如何讓機器人在核電廠這類未構造的環境中完成高精度軸孔裝配任務具有深刻的現實意義。

在CAP1400示范工程項目中,核電廠部分系統采用了特殊的布置和設備設計,堆腔底部的堆外核測探測器安裝作業空間狹小,需要利用專用工具把探測器安裝在儀器井內部,并通過銷釘固定,涉及的軸孔裝配操作步驟比較繁瑣,直接依靠人工的工作強度很大,且堆腔底部輻照劑量非常高。本文重點考慮核電廠堆外核測探測器安裝過程中,探測器與儀器井的軸孔柔順裝配問題,研究利用主從遙操作機械臂進行軸孔裝配的關鍵策略。核電廠堆外核測探測器軸孔裝配環境如圖1所示。

圖1 核電廠堆外核測探測器軸孔裝配環境

核電廠堆外核測探測器所處環境較為復雜且狹小,使用傳統的控制方法并不能很好的完成軸孔裝配任務。傳統的控制方式是使用稱為“示教器”的控制箱定義機器人運動的關鍵位置和動作來執行裝配任務[5,6],但是這種在線編程的方式通常需要消耗大量的時間,即使在完成編程后,由于生產環境的改變,仍然需要花費很長時間來調整用于將機器人部署在新環境的參數,因此并不適用于核電廠環境下的軸孔裝配任務。另一種常見的控制方式是基于視覺傳感器完成裝配任務[7,8],這種控制方式需要測量銷釘和孔之間的位置和方向。但是,在許多實際的裝配任務中,孔的位置和方向通常是難以通過視覺傳感器準確測量的,位置誤差或部分遮擋而產生的較大接觸力將導致裝配過程失敗,所以這種基于視覺傳感器的裝配方法難以成功完成裝配任務。

深度強化學習算法(deep reinforcement learning,DRL)作為一種新興的通用人工智能算法技術,在游戲、機器人控制等領域被大量使用[9],是人工智能邁向智能決策的重要一步。將具有良好適應性和魯棒性的DRL應用在機器人軸孔裝配任務中,可以有效提升機器人軸孔裝配的精度。Luo J等人[10]將機器人手腕傳感器的扭矩測量結果合并為兩個部分,將其集成到策略網絡學習過程中,并在與神經網絡耦合的導納控制器中使用,這使得機器人可以學習接觸環境復雜的裝配任務,而無需精確的關節力矩控制。Hou Z等人[11]提出了一種基于模型的深度確定性策略梯度算法,用來學習解決多孔軸孔裝配問題的通用裝配策略,為了在真實環境的組裝任務中實現快速學習過程,在策略搜索階段,采用了一種混合探索策略驅動的探索方式。Inoue T等人[12]提出了一種高精度軸孔裝配策略,通過訓練帶有強化學習的長短期記憶網絡學習兩種單獨的裝配策略來完成緊密間隙的軸孔裝配任務。以上方法雖然能夠實現部分典型環境、對象、狀態的軸孔裝配任務,但針對核電廠這類具有工作環境復雜、輻射劑量較高等特征對象的軸孔裝配任務難以廣泛應用。

為降低運維人員所受輻射劑量,提高運維效率,本文提出一種基于人機合作的核運維機器人軸孔裝配方法。在堆外核測探測器安裝流程中引入機器人自主控制技術,但所有作業必須在有人監控的前提下進行,即“遙操作+局部自主”。把機器人智能跟人的智能充分結合起來:利用人的經驗知識完成軸孔裝配的尋孔任務,增強操作過程的可靠性,保證風險可控;同時,利用DRL算法使機器人在局部區域自主完成銷釘的插入任務。

1 問題描述

根據核運維機器人在核電廠環境中的運行特點,將軸孔裝配任務分為搜索階段和插入階段:

1)搜索階段:主端機械臂控制夾持住銷釘的從端機械臂進行尋孔,將銷釘放置在孔的中心位置(允許誤差內)。

2)插入階段:從端機械臂依據力反饋信息實時調整銷釘的位置和方向,驅動銷釘插入孔中。

1.1 搜索階段

核電廠堆腔底部的堆外核測探測器安裝作業空間狹小,且安裝環境中其他設備較為精密,不能發生碰撞,機器人自主完成搜索階段的尋孔任務難度較大,需要借助人工輔助搜索的方式完成。主端機械臂通過操作空間映射算法控制從端機械臂將由末端夾持器夾持住的銷釘移動到孔的周圍,需要說明的是,從端機械臂每次都是以相同的姿態夾持銷釘相同的位置。然后再控制銷釘與孔端面接觸,基于力反饋信息對銷釘進行平移,當力反饋數據為0時,銷釘到達孔的中心位置。搜索階段尋孔模型如圖2所示。

圖2 搜索階段尋孔模型

1.2 插入階段

在核電廠探測器與儀器井的軸孔裝配任務中,銷釘和孔之間的間隙很小,通常只有10微米,對于操作人員來說是極其困難的。對于機器人來說,完成比自身位置精度更小的插入任務也是非常困難的。因此,機器人需要采用基于力矩傳感器信息的DRL算法自主完成精確的插入任務。

2 基于人機合作的機器人軸孔裝配算法

根據對于核運維機器人軸孔裝配任務的問題描述,軸孔裝配的作業流程如下圖3所示。在搜索階段建立主從機械臂控制系統,實現異構遙操作控制,將銷釘放置在孔的中心位置。在插入階段基于DRL算法模型,以從端機械臂末端的力反饋和銷釘位姿兩種信息為依據構建馬爾科夫決策過程,通過訓練得到從端機械臂當前狀態與動作的映射關系從而獲取最優控制策略,依據力反饋信息實時調整銷釘的位置和方向,推動銷釘插入孔中。

圖3 軸孔裝配流程圖

2.1 搜索階段模型建立

在核運維機器人軸孔裝配任務中,主端機械臂和從端機械臂是異構系統,通過關節空間映射的方法建立主從機械臂各關節之間的控制系統將非常復雜[13],而采用操作空間映射的方法,將主端機械臂末端的位姿通過操作空間映射算法映射到從端機械臂末端的位姿可以解決這一問題。

由于核電廠堆腔底部的堆外核測探測器安裝作業空間是不規則的,因此在進行操作空間映射時需要對主從機械臂的操作空間進行限定,設主從機械臂末端在三維空間中的操作范圍為pmd∈[pmdmin,pmdmax]和psd∈[psdmin,psdmax],d分別取x,y,z方向,pmd與psd分別為主從機械臂末端在某一方向的位置分量。主從機械臂操作空間映射算法如圖4所示。

圖4 主從異構機械臂操作空間映射示意圖

在t時刻時,主從機械臂末端執行器空間位置分別為pm(t)=(pmx(t),pmy(t),pmz(t))T,ps(t)=(psx(t),psy(t),psz(t))T,映射關系如式(1)所示:

通過式(1)得到從端機械臂末端在工作空間中的位置ps,根據逆運動學可以計算出一組關節角作為輸入傳遞到從端機械臂的編碼器中,進而實現主從機械臂的跟隨控制。

2.2 插入階段模型建立

可以將核運維機器人軸孔裝配任務的插入階段公式化為一個馬爾可夫決策過程模型(markov decision process,MDP)。MDP作為強化學習的基本框架,由一個四元組構成,即(S,A,Psa,R),其中S為狀態空間集,A為動作空間集,Psa為狀態轉移概率,R為獎勵函數。在插入階段,從端機械臂作為強化學習中的智能體,當從端機械臂執行某個動作后,裝配環境將會轉到一個新的狀態。對于該新的狀態,裝配環境會給出一個獎勵信號(正向獎勵或者負向獎勵)。智能體根據新的狀態和裝配環境反饋的獎勵信號,按照一定的策略執行新的動作。智能體學習的目標就是學會將狀態映射到動作從而求得從端機械臂控制的最優策略μ*。

核運維機器人軸孔裝配任務的插入階段是一個連續動作過程,常見的面向離散控制任務的DRL算法——深度Q網絡[14,15](deep Q-network,DQN)并不適用,因此本文使用可應用于連續型動作的深度確定性策略梯度網絡[16](deep deterministic policy gradient algorithms,DDPG)。

從端機械臂的狀態空間定義為:

其中,F和M分別表示力矩傳感器返回的力和力矩;P和R分別表示根據正運動學從從端機械臂編碼器測量的關節角度計算出的由末端夾持器夾持的銷釘的位置和方向。下標x,y,z表示從端機械臂末端坐標軸的方向。

從端機械臂的動作空間定義為:

其中,Pd是銷釘的位置,Rd是銷釘的方向,根據逆運動學計算出一組關節角作為輸入傳遞到從端機械臂的編碼器中。

強化學習算法通過使累積獎勵最大化來學習機器人裝配策略:

其中,γ是折扣因子,是介于[0,1]的常數;rk是分配給每個狀態-動作對的即時獎勵;k是步數的索引;n是一個回合的總步數。

機器人軸孔裝配的插入階段從開始到結束的過程稱為一個回合。在本文提出的算法中,我們僅在每個回合的最后一步計算一個獎勵r。如果裝配成功,則會向網絡提供一個正向獎勵:

其中,c為常數;k是裝配完成時的實際步數;kmax是一個回合的最大步數。

本文提出的算法目標是使用最少的步數完成裝配任務,如果不能在kmax內完成任務,則會向網絡提供一個負向獎勵:

其中,D是孔的深度,dt是時間步長t時銷釘插入孔的深度。

2.3 網絡結構和網絡訓練

在DDPG算法中,將深度神經網絡與確定性策略梯度(deterministic policy gradient,DPG)算法進行融合,并使用演說家-評論家(actor-critic,AC)算法作為該算法的基本框架。分別使用參數為μθ的策略網絡來表示確定性行為策略a=μ(s|θμ),輸入為當前的狀態s,輸出確定性的動作值a;使用參數為θQ的價值網絡來表示動作值函數Q(s,a|θQ),用于求解貝爾曼方程。DDPG算法框架滿足強化學習的馬爾可夫決策過程,actor和critic為智能體的內容,其中actor負責策略網絡,critic負責價值網絡。通過智能體與環境進行交互的過程,把交互所產生的樣本存儲在經驗池中,下一時間步從經驗池中隨機提取小批量樣本數據傳遞給actor和critic進行計算。

根據實踐證明,在只使用單個神經網絡算法的強化學習算法中,動作值函數Q的學習過程可能會出現不穩定,因為價值網絡的參數在頻繁梯度更新的同時,又用于計算策略網絡的梯度。基于這個問題,DDPG算法分別為策略網絡和價值網絡各自創建兩個神經網絡,一個為在線網絡,另一個為目標網絡。DDPG算法使用了4個網絡模型,其更新關系是在結束一次小批量樣本數據的訓練后,通過梯度上升或梯度下降算法更新在線網絡的參數,然后再通過軟更新(每一時間步都會更新目標網絡)算法更新目標網絡的參數。核運維機器人軸孔裝配任務的插入階段算法結構如圖5所示。

圖5 插入階段算法結構圖

機器人在對軸孔裝配環境進行探索,其目的是尋找更多潛在的更優策略,因此在網絡模型的訓練過程中,引入隨機噪聲影響動作的選擇。DDPG算法中使用OU隨機過程(ornstein-uhlenbeck)作為引入的隨機噪聲。

DDPG算法的目標函數被定義為折扣累積獎勵的期望,即如式(7)所示:

其中β為行為策略,行為策略根據當前在線策略網絡μ和隨機OU噪聲生成隨機過程,并從該隨機過程進行采樣獲得動作值at。

DDPG算法的目標是求解最優確定性行為策略μ*,即目標函數最大化的策略如式(8)所示:

從經驗池中隨機采樣小批量的N個轉換經驗樣本(si,ai,ri,si+1),使用最小化損失函數來更新critic網絡如式(9)所示:

其中yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′),θμ′為actor目標策略網絡的參數,θQ′為critic目標價值網絡的參數,使用梯度下降算法更新網絡模型中的參數。actor目標策略網絡μ′和critic目標價值網絡Q′使得網絡在學習過程中更加穩定,更容易收斂。

目標函數Jβ(μ)關于策略網絡參數θμ的梯度,等價于動作值函數Q(s,a|θQ關于θμ的期望梯度,因此遵循鏈式求導法則對目標函數進行求導,使用梯度策略算法更新actor網絡:

對式(10)使用梯度上升算法的目標函數進行優化計算,使用梯度上升的目標是提高折扣累積獎勵的期望。最終使得算法沿著提升動作值函數Q(s,a|θQ的方向更新actor策略網絡的參數θμ。

3 實驗與結果分析

在本節中,通過實驗驗證基于人機合作的機器人軸孔裝配算法的可行性。

3.1 搜索階段

3.1.1 實物環境搭建

在真實場景中搭建基于Phantom omni力反饋設備和UR5機械臂的主從異構遙操作系統,編寫Python語言腳本通過機器人開源操作系統ROS完成主從機械臂的跟隨控制,并完成搜索階段的尋孔任務。插入階段的主從異構遙操作系統實物圖如圖6所示。

圖6 主從異構遙操作系統實物圖

3.1.2 實驗與結果分析

搜索階段的主從異構遙操作系統如圖7所示。首先操作者控制主端機械臂完成一系列動作,然后ROS系統獲取主端機械臂節點omni1的末端位姿信息并發布名為/phantom/pose的主題,從端機械臂在python腳本中設置一個節點UR5_control實時訂閱該主題,最后將訂閱的主端機械臂末端位姿信息通過操作空間映射算法發送給從端機械臂,控制銷釘到達孔的中心位置。其中,節點robot_state_publisher用來訂閱節點omni1發布的名為joint_states的主題,該節點可以觀察主端機械臂末端的實時位置信息,用于判斷末端是否在主端工作空間內。搜索階段的ROS節點圖如圖8所示。

圖7 搜索階段的主從異構遙操作系統

圖8 搜索階段的ROS節點圖

通過主從異構遙操作系統完成搜索階段的尋孔任務,在一次尋孔的過程中,我們可視化了機器人尋孔的軌跡,如圖9、圖10所示。由于充當主從機械臂的兩個設備的空間坐標軸設置存在差異,為了便于操作,將從端機械臂末端的Y坐標軸對應主端機械臂末端的-Z坐標軸,從端機械臂末端的Z坐標軸對應主端機械臂末端的Y坐標軸。

圖9 搜索階段主端機械臂末端運行軌跡

圖10 搜索階段從端機械臂末端運行軌跡

從圖9、圖10中觀察到,主從機械臂末端可以實現實時跟隨并完成搜索階段的尋孔任務。

3.2 插入階段

3.2.1 仿真環境搭建

在機器人仿真軟件webots中建立軸孔裝配仿真環境,編寫python語言腳本控制仿真環境中的機器人完成軸孔裝配任務的插入階段。其中包括UR5機械臂,六維力矩傳感器,夾持器和軸孔裝配工件。仿真環境中,基于DRL算法模型,通過訓練得到從端機械臂當前狀態與動作的映射關系從而獲取最優控制策略,依據力反饋信息實時調整銷釘的位置和方向,驅動銷釘插入孔中。插入階段仿真環境如圖11所示。

圖11 插入階段仿真環境

3.2.2 實驗與結果分析

插入階段的仿真系統如圖12所示。首先獲取webots中銷釘位姿和力矩傳感器信息,將獲取的信息進行篩選和計算,將其結果作為環境狀態發送給DRL智能體進行決策;actor網絡根據當前狀態按照確定性行為策略選擇合適的動作,同時發送動作指令給控制器控制從端機械臂運動,然后獲取下一個數據作為環境狀態再次發送給智能體;critic網絡判斷當前狀態的價值并更新網絡。重復以上過程,直到裝配成功或者達到最大的訓練回合數。

圖12 插入階段仿真系統

搜索階段已將銷釘放置在孔的中心位置,插入階段的DRL訓練實驗進行了300回合,對于仿真中的一個回合,銷釘的方向是在隨機初始化的,每回合最大步數kmax為300,部分參數如表1所示。實驗訓練結果如圖13和圖14所示。

表1 算法使用的部分參數

圖13 每個回合的累積獎勵

圖14 每個回合的裝配步數

圖13為訓練過程中每個回合的累積獎勵變化情況,圖14為訓練過程中每個回合的裝配步數變化情況,從圖中可以看到,剛開訓練時,裝配失敗的次數較多,每個回合得到的累積獎勵很低且裝配步數較多,隨著裝配成功次數及訓練回合數的增加,智能體逐漸學會如何通過調整銷釘的位姿完成裝配,當訓練回合數達到200回合時,累積獎勵趨于穩定且達到最大值附近,單個回合的裝配步數也逐漸變少。智能體通過不斷的訓練,學會了插入階段的軸孔裝配控制策略。

訓練完成之后,基于學習到的插入階段軸孔裝配控制策略執行插入階段的裝配任務,在一次成功裝配的單一回合中,裝配過程中的力和力矩變化如圖15所示,裝配過程中銷釘的位置和姿態變化如圖16、圖17所示。從圖15中可以看到插入過程中從端機械臂末端的力和力矩分量最終都在零值附近,結合圖15~圖17可以看到從端機械臂依據力反饋信息實時調整銷釘的位置和姿態逐漸將銷釘插入孔中,圖16中銷釘位置的三個坐標分量最終都為零值,說明銷釘成功插入孔中。

圖15 單一回合中力及力矩的變化

圖16 單一回合中銷釘位置的變化

圖17 單一回合中銷釘姿態的變化

4 結語

為了提高核設施日常運行維護的效率,保障核設施的安全運行,同時降低工作人員的受輻射劑量,針對CAP1400核電廠示范工程項目的任務需求,本文提出一種基于人機合作的核運維機器人軸孔裝配方法。根據核運維機器人在核電廠環境中的運行特點,將軸孔裝配任務分為基于遙操作系統的搜索階段和基于DRL的插入階段。在真實場景中搭建基于Phantom omni力反饋設備和UR5機械臂的主從異構遙操作系統,使用ROS通信實現了主從機械臂的跟隨控制,并很好的完成了搜索階段的尋孔任務。在webots中建立簡化軸孔裝配仿真環境,通過編寫python語言腳本控制仿真環境中的機器人完成軸孔裝配任務的插入階段,進行了300回合的仿真訓練實驗,實驗中算法可以用少量的裝配步數和較高的獎勵實現銷釘的插入任務。

在未來進一步的研究中,需要考慮真實環境下插入階段的軸孔接觸情況,并且增加該方法的泛化能力。同時,開展在核電廠環境下的實物驗證也是接下來的重要工作。

猜你喜歡
核電廠機械
核電廠蒸汽發生器一次側管嘴堵板研發和應用
PHM技術在核電廠電氣系統中的探索與實踐
核電廠起重機安全監控管理系統的應用
機械革命Code01
電腦報(2020年35期)2020-09-17 13:25:53
我國運行核電廠WANO 業績指標
中國核電(2020年2期)2020-06-24 03:37:36
調試機械臂
當代工人(2020年8期)2020-05-25 09:07:38
ikbc R300機械鍵盤
電腦報(2019年40期)2019-09-10 07:22:44
我國運行核電廠WANO 業績指標
中國核電(2018年4期)2018-12-28 06:43:48
簡單機械
核電廠主給水系統調試
中國核電(2017年1期)2017-05-17 06:10:11
主站蜘蛛池模板: 国产成人一区| 国内精品免费| 久操中文在线| 久久影院一区二区h| 国产成人精品视频一区视频二区| 欧美精品啪啪| av在线人妻熟妇| 亚洲无码在线午夜电影| 亚洲日韩AV无码精品| 国产日韩欧美视频| 九九九国产| 亚洲欧洲日韩综合| 久久国产高清视频| 国产91无毒不卡在线观看| 国产午夜无码专区喷水| 99久久国产综合精品女同 | 欧美一级片在线| 亚洲一级毛片| 狠狠操夜夜爽| 亚洲天堂自拍| 天堂在线亚洲| 99久视频| 国产Av无码精品色午夜| 亚洲欧美日韩精品专区| 亚洲经典在线中文字幕| 伊人欧美在线| 91视频国产高清| 国产人成网线在线播放va| 秋霞午夜国产精品成人片| 日韩精品少妇无码受不了| 成人综合在线观看| 黄色网页在线播放| 亚洲第一区在线| 中日无码在线观看| 国产91蝌蚪窝| 国产人妖视频一区在线观看| 欧美亚洲第一页| 欧美精品1区2区| 亚洲综合一区国产精品| 婷婷激情亚洲| 91精品人妻互换| 美女国产在线| 精品福利网| 国产69精品久久久久孕妇大杂乱| 一级毛片免费高清视频| 激情综合网址| 国产免费自拍视频| 亚洲精品在线影院| 亚洲精品免费网站| 久久亚洲高清国产| 国产在线第二页| 好久久免费视频高清| 97在线公开视频| 久久综合结合久久狠狠狠97色 | 精品国产成人国产在线| 免费一级成人毛片| 一区二区三区四区精品视频| 国产成人av一区二区三区| 国产成人高精品免费视频| 亚洲欧美日韩成人在线| 亚洲一区国色天香| 国产精品短篇二区| 成人在线欧美| 国产精品原创不卡在线| 777午夜精品电影免费看| 3344在线观看无码| 2021国产乱人伦在线播放| 视频一区视频二区日韩专区| 黄色网在线| 美女被操黄色视频网站| 精品久久久久无码| 在线观看免费黄色网址| 91精品情国产情侣高潮对白蜜| 天天综合网色中文字幕| 久久99热这里只有精品免费看| 欧美另类第一页| 国产一区二区三区精品久久呦| 老司机久久精品视频| 日本不卡在线播放| 欧美福利在线| 国产欧美日韩在线在线不卡视频| 国产午夜福利亚洲第一|