999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強(qiáng)化學(xué)習(xí)的氣振盤式播種機(jī)械臂運(yùn)動規(guī)劃方法研究*

2022-09-21 03:06:38陳進(jìn)張志巧廖彩淇唐學(xué)明
關(guān)鍵詞:機(jī)械動作

陳進(jìn),張志巧,廖彩淇,唐學(xué)明

(江蘇大學(xué)機(jī)械工程學(xué)院,江蘇鎮(zhèn)江,212013)

0 引言

氣振盤式播種流水線作為一種自動化程度較高的農(nóng)業(yè)機(jī)械,機(jī)械臂排種是其中重要環(huán)節(jié)。目前,本團(tuán)隊(duì)研制的氣振盤式精密播種流水線在作業(yè)過程中,受二自由度機(jī)械臂運(yùn)動限制,育秧盤需在排種位等待吸種盤完成排種[1]。由于原二自由度機(jī)械臂不支持動態(tài)改變既定規(guī)劃并與其他裝置相協(xié)調(diào),需操作人員縱向協(xié)調(diào)流水線播種進(jìn)程,導(dǎo)致機(jī)械臂與流水線的協(xié)調(diào)性成為影響播種效率的重要因素。為代替二自由度機(jī)械臂靈活高效地完成播種相關(guān)動作,提高播種效率,亟需開展關(guān)節(jié)式機(jī)械臂動態(tài)自主運(yùn)動規(guī)劃算法研究。

伴隨著人工智能技術(shù)研究的發(fā)展,強(qiáng)化學(xué)習(xí)的應(yīng)用逐漸廣泛[2]。強(qiáng)化學(xué)習(xí)的優(yōu)越性體現(xiàn)在智能體能夠通過與環(huán)境的交互,從過去的經(jīng)驗(yàn)中不斷改進(jìn)行為,使得智能體能夠完全自主[3]。Deng等[4]基于深度強(qiáng)化學(xué)習(xí)算法,添加額外獎勵和外部獎勵優(yōu)化控制策略用于輔助手操作學(xué)習(xí)。Wang等[5]采用無精確模型的強(qiáng)化學(xué)習(xí)算法引導(dǎo)飛機(jī)向某一方向移動,通過設(shè)置連續(xù)動作獎勵函數(shù)和位置獎勵函數(shù)來提高訓(xùn)練效率。Tang等[6]證明在近端策略優(yōu)化算法中加入動作掩碼可剔除動作集中的無效動作,提高訓(xùn)練效果。Kim等[7]提出模塊化獎勵塑造的方法可用于解決機(jī)械手復(fù)雜操作任務(wù)。Sangiovanni等[8]采用深度強(qiáng)化學(xué)習(xí)中的NAF連續(xù)控制算法成功實(shí)現(xiàn)機(jī)械臂的動態(tài)避障。國內(nèi)外研究表明,深度強(qiáng)化學(xué)習(xí)在連續(xù)控制上具有顯著成效,但當(dāng)深度強(qiáng)化學(xué)習(xí)系統(tǒng)變得越來越普通時,引發(fā)期望行為的獎勵函數(shù)的設(shè)計(jì)將會變得更加重要[9]。

本文的研究重點(diǎn)是基于深度強(qiáng)化學(xué)習(xí)與環(huán)境交互獲得機(jī)械臂控制策略,制定自適應(yīng)運(yùn)動規(guī)劃策略以適應(yīng)目標(biāo)動作,實(shí)現(xiàn)機(jī)械臂與流水線上目標(biāo)物體的協(xié)調(diào)運(yùn)動。特別是,針對改進(jìn)后的近端策略優(yōu)化(PPO),測試該算法在播種平臺中的有效性。

1 氣振盤式播種流水線

1.1 氣振盤式播種流水線工作原理

氣振盤式播種流水線主要包括流水線、加種裝置和播種裝置(圖1)。其中流水線沿作業(yè)方向依次設(shè)置鋪底土機(jī)構(gòu)、掃底土機(jī)構(gòu)、壓穴機(jī)構(gòu)、覆表土機(jī)構(gòu)、掃表土機(jī)構(gòu)和灑水機(jī)構(gòu)[1]。播種裝置由六軸機(jī)械臂、吸種盤、振動供種構(gòu)成。本文研究對象為機(jī)械臂、吸種盤及流水線上的育秧盤。機(jī)械臂底座固定在支架上,位于振動種盤左側(cè);吸種盤固定在機(jī)械臂末端。當(dāng)育秧盤進(jìn)入流水線后,依次經(jīng)過鋪底土、掃底土、壓穴環(huán)節(jié);同時,機(jī)械臂帶動吸種盤下行吸種,吸種完成后,吸種盤攜種至流水線正上方,在跟隨育秧盤同步運(yùn)動過程中將籽粒排入育秧盤中;此時,育秧盤依次進(jìn)入覆表土、掃表土、灑水環(huán)節(jié),吸種盤返回初始位置,等待下一播種周期。

1.2 機(jī)械臂運(yùn)動規(guī)劃問題描述

1.2.1 二自由度播種機(jī)械臂存在問題

本團(tuán)隊(duì)現(xiàn)有的氣振盤式播種流水線采用二自由度直角坐標(biāo)式機(jī)械臂帶動吸種盤完成播種。吸種盤的運(yùn)動過程如圖2所示。因?yàn)槲N盤只能在面YOZ內(nèi)移動,而育秧盤沿X軸負(fù)方向移動,所以育秧盤需在排種位停止等待吸種盤到達(dá)排種位后,再進(jìn)行排種。受二自由度機(jī)械臂運(yùn)動路徑的限制,排種時,流水線上育秧盤需暫停移動,影響整體播種效率。

1.2.2 六軸播種機(jī)械臂運(yùn)動規(guī)劃

本文采用六軸機(jī)械臂帶動吸種盤完成吸種、攜種、排種動作,任務(wù)規(guī)劃流程為①-②-③-④,如圖3所示。由P0(x0,y0,z0)下降至吸種位Pi(xi,yi,zi),其中i=1,2,…;氣泵開啟正壓,吸種完成后,吸種盤運(yùn)行至預(yù)排種位P′i(x′i,y′i,z′i);控制吸種盤在跟隨育秧盤作同步運(yùn)動過程中完成排種;排種結(jié)束后,吸種盤從P″i(x″i,y″i,z″i)運(yùn)行至初始位置P0(x0,y0,z0),完成一個播種周期。在吸種盤運(yùn)動過程中,Pi為吸種位,由種層厚度決定;P′i為預(yù)排種位,取決于育秧盤的位置;P″i為排種結(jié)束位。

圖3 吸種盤運(yùn)動路徑

(1)

式中:df——距離權(quán)重;

af——加速度權(quán)重;

of——角度偏差權(quán)重;

q——關(guān)節(jié)位置,rad;

根據(jù)攜種運(yùn)動學(xué)要求,在攜種過程中無籽粒脫落的條件下[10]:由牛頓第二定律可獲得吸種盤的最大加速度如式(2)所示,并建立吸種盤在第t+1時刻下的速度約束如式(3)所示。

(2)

(3)

式中:amax——吸種盤最大加速度,m/s2;

m——籽粒質(zhì)量,kg;

P——?dú)饬鲌鰧ψ蚜5淖饔昧Γ琋;

g——重力加速度,取值9.8 m/s2;

Sf——吸附系數(shù),取值0.66;

ts——采樣時間,s;

1.3 運(yùn)動規(guī)劃設(shè)計(jì)要求

運(yùn)動規(guī)劃算法需要滿足跟隨排種的定位及姿態(tài)要求。文中機(jī)械臂末端執(zhí)行器為吸種盤,采用的育秧盤規(guī)格為590 mm×290 mm,孔距為18 mm。在排種過程中,吸種盤底面的排種孔需在育秧盤的穴孔范圍內(nèi),方可排種成功。根據(jù)圖4對吸種盤位置誤差范圍進(jìn)行分析,半徑為9 mm的圓形區(qū)域?yàn)榕欧N有效區(qū)域,C為吸種盤上排種孔中心點(diǎn),O為穴孔中心點(diǎn),ΔX,ΔY分別為點(diǎn)C與點(diǎn)O在X,Y軸上的位置偏差。定位要求為:吸種盤底面中心點(diǎn)與育秧盤中心點(diǎn)在X,Y軸上位置偏差的絕對值均小于9 mm,且兩點(diǎn)距離小于9 mm。根據(jù)圖5對吸種盤旋轉(zhuǎn)角度誤差范圍進(jìn)行分析。圓形表示育秧盤上的穴孔位置,當(dāng)吸種盤偏轉(zhuǎn)角大于θ時,排種位置超出穴孔區(qū)域。通過計(jì)算θ的反正切值可知,θ為1.78°,即要求吸種盤在Z軸上的偏轉(zhuǎn)角度誤差的絕對值小于1.78°。同理可求得吸種盤在X,Y軸上的偏轉(zhuǎn)角度誤差的絕對值需小于3.69°和1.78°。

圖4 排種區(qū)域

圖5 Z軸偏轉(zhuǎn)角范圍

2 深度強(qiáng)化學(xué)習(xí)算法

近端策略優(yōu)化(PPO)屬于一種新型深度強(qiáng)化學(xué)習(xí)算法,基于信任區(qū)域策略梯度(TRPO)[11]改進(jìn)而來,結(jié)合了Q-learning和深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢[12],滿足強(qiáng)化學(xué)習(xí)的馬爾可夫性,可通過梯度下降對參數(shù)進(jìn)行優(yōu)化,最大化期望獎勵。

2.1 馬爾可夫模型

馬爾可夫決策過程[13]可用于描述智能體與環(huán)境交互的過程,是一種強(qiáng)化學(xué)習(xí)的數(shù)學(xué)模型[14]。假設(shè)狀態(tài)轉(zhuǎn)化和動作概率均具有馬爾可夫性,即狀態(tài)轉(zhuǎn)化到下一狀態(tài)的概率僅與前一狀態(tài)有關(guān),且當(dāng)前狀態(tài)采取的動作的概率僅與當(dāng)前狀態(tài)有關(guān)。智能體根據(jù)t時刻的環(huán)境狀態(tài)st決定執(zhí)行動作at;當(dāng)動作執(zhí)行后,智能體獲得延遲獎勵值rt,此時動作at對環(huán)境產(chǎn)生一個新的狀態(tài)st+1;智能體根據(jù)新的環(huán)境狀態(tài)St+1再決定執(zhí)行動作at+1,依次循環(huán)。智能體通過神經(jīng)網(wǎng)絡(luò)與環(huán)境進(jìn)行交互而產(chǎn)生的序列τ={…st,at,rt,st+1,at+1,rt+1,…}可構(gòu)成馬爾可夫決策的動態(tài)過程。馬爾可夫模型可由{s,a,r}簡單描述[15]。其中,狀態(tài)s包括環(huán)境中機(jī)械臂關(guān)節(jié)位置及轉(zhuǎn)速,末端執(zhí)行器位置,目標(biāo)位置,末端執(zhí)行器與目標(biāo)姿態(tài)間的偏轉(zhuǎn)角度,目標(biāo)物體的移動速度,末端執(zhí)行器的速度,碰撞信息;動作a由關(guān)節(jié)角速度描述;獎勵r由獎勵函數(shù)給出,具體設(shè)計(jì)方法將在后續(xù)內(nèi)容中做詳細(xì)介紹。

2.2 PPO算法

智能體對于給定狀態(tài)下要執(zhí)行的動作具有一定的隨機(jī)性,計(jì)算期望獎勵值如式(4)所示。

(4)

式中:rt——t時刻的獎勵值;

pθ(τ)——當(dāng)神經(jīng)網(wǎng)絡(luò)參數(shù)為θ時,序列τ發(fā)生的概率。

PPO中假設(shè)存在參數(shù)為θk的策略,用θk與環(huán)境互動采樣數(shù)據(jù)來訓(xùn)練θ。考慮到在實(shí)際應(yīng)用中,無法對τ直接求導(dǎo),所以用st,at替換τ。為最大化期望獎勵值,修改獎勵對應(yīng)的梯度更新公式如式(5)所示。

(5)

其中,Aθk(st,at)是修改后的優(yōu)勢函數(shù),用于評估st。若優(yōu)勢函數(shù)為正,則需要增加策略梯度;若優(yōu)勢函數(shù)為負(fù),則需減小策略梯度[4]。

當(dāng)更新前后的分布差異較大時,容易導(dǎo)致最終結(jié)果無法收斂。為保證參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)輸出動作概率分布與更新后策略的動作概率分布相差不會太大,PPO給出兩種解決方案:(1)引入KL散度來表示兩個動作概率分布之間的差異,自動調(diào)整KL散度的懲罰因子;(2)采用剪裁構(gòu)造新的目標(biāo)函數(shù)控制概率比。本文采用截?cái)?clip)機(jī)制將新舊策略的概率比限制在(1-ε,1+ε)內(nèi),將目標(biāo)函數(shù)近似為式(6)[16]。

(6)

式中:ε——新舊策略的最大差值,取值0.2;

pθ(at|st)——當(dāng)環(huán)境狀態(tài)為st時,參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)輸出動作為at的概率;

pθk(at|st)——當(dāng)環(huán)境狀態(tài)為st時,參數(shù)為θk的神經(jīng)網(wǎng)絡(luò)輸出動作為at的概率。

2.3 獎勵函數(shù)

強(qiáng)化學(xué)習(xí)的缺點(diǎn)是收斂時間長[17]。獎勵塑造是人為設(shè)計(jì)獎勵函數(shù)加快訓(xùn)練過程的方法。強(qiáng)化學(xué)習(xí)的最終目標(biāo)是最大化長期累積的獎勵,所以獎勵函數(shù)設(shè)計(jì)的好壞直接影響強(qiáng)化學(xué)習(xí)算法性能的好壞及收斂速度的快慢。針對播種機(jī)械臂,若采用是否成功到達(dá)目標(biāo)點(diǎn)作為獎勵,由于獎勵過于稀疏,很容易使得智能體無法識別關(guān)鍵動作,導(dǎo)致訓(xùn)練效果不佳,此類稀疏獎勵問題也一直是深度強(qiáng)化學(xué)習(xí)在解決實(shí)際任務(wù)中面臨的核心問題[18]。故本文提出一種基于過程動作的獎勵函數(shù)設(shè)計(jì)方法,利用機(jī)械臂末端執(zhí)行器及目標(biāo)物體的位姿及速度引導(dǎo)機(jī)械臂按照期望姿態(tài)運(yùn)動,完成預(yù)定動作。

在本研究中,需遵循以下規(guī)則。

1) 在排種過程中,吸種盤底面需平行于育秧盤上表面。

2) 吸種盤需盡可能朝著靠近目標(biāo)點(diǎn)的方向運(yùn)動,禁止大幅度翻轉(zhuǎn)動作的出現(xiàn)。

根據(jù)Ng[19]提出:存在一個真值函數(shù)Φ使得改變后的獎勵函數(shù)構(gòu)成的馬爾可夫過程的最優(yōu)控制不變。結(jié)合最優(yōu)控制目標(biāo)函數(shù),可得Φ(st)公式如式(7)所示。

Φ(st)=RS(st)+RP(st)

(7)

式中:RS(st)——狀態(tài)st下的單值獎勵函數(shù);

RP(st)——狀態(tài)st下的過程獎勵函數(shù)。

根據(jù)上述規(guī)則,單值獎勵和過程獎勵均由機(jī)械臂和環(huán)境交互產(chǎn)生,用戶可以根據(jù)任務(wù)要求來量化。當(dāng)過程關(guān)鍵動作完成時,給出正向及時獎勵;當(dāng)機(jī)械臂與環(huán)境實(shí)體發(fā)生碰撞時,給出反向懲罰。終止?fàn)顟B(tài)設(shè)置為機(jī)械臂完成目標(biāo)動作或在指定時間內(nèi)未完成規(guī)定動作。針對跟隨階段,根據(jù)跟隨時間與采樣時間的比值可知,若連續(xù)存在固定數(shù)據(jù)點(diǎn)的位置及偏角誤差均在誤差范圍內(nèi),則表明機(jī)械臂完成跟隨排種,結(jié)束本次訓(xùn)練周期,并給予單次正向獎勵。單值獎勵函數(shù)定義如式(8)所示。

(8)

式中:a1——正向獎勵,取值2;

a2,a3——負(fù)向獎勵,分別取值-0.1,-0.2。

過程獎勵函數(shù)包含距離獎勵和姿態(tài)獎勵,具體操作如下。

RP=RD(st,st-1)+Rθ(st)

(9)

式中:RD(st,st-1)——距離獎勵函數(shù);

Rθ(st)——姿態(tài)獎勵函數(shù)。

距離獎勵函數(shù)與當(dāng)前狀態(tài)和前一狀態(tài)的距離值有關(guān)。用相鄰兩個時刻間的距離差判斷吸種盤的運(yùn)動方向,當(dāng)距離差小于零,表明吸種盤正靠近目標(biāo)點(diǎn),正向獎勵值變大;反之,表明吸種盤正遠(yuǎn)離目標(biāo)點(diǎn),給予反向獎勵值。

(10)

(11)

式中:df、σ——距離參數(shù),分別取值為5.3,0.56;

姿態(tài)獎勵與吸種盤的偏轉(zhuǎn)角度有關(guān),具體公式如式(12)所示。

(12)

式中:θf——偏轉(zhuǎn)角參數(shù),取值0.25;

(13)

(14)

采用上述方法可依次求解第t時刻吸種盤在Y軸和Z軸方向上的夾角

3 仿真試驗(yàn)與分析

3.1 仿真環(huán)境搭建

將UG中建立的機(jī)械臂及流水線三維模型導(dǎo)入V-REP,為機(jī)械臂添加六個旋轉(zhuǎn)關(guān)節(jié)及環(huán)境碰撞檢測功能,將吸種盤固定于機(jī)械臂末端,編寫流水線傳送功能子腳本,建立氣振盤式播種流水線仿真平臺,構(gòu)建類似OpenAI Gym的交互環(huán)境,采用Remote API實(shí)現(xiàn)V-REP 和Python間的通訊[20-21],評價運(yùn)動規(guī)劃算法的有效性。仿真環(huán)境如圖6所示。建立世界坐標(biāo)系,其中流水線沿X軸方向放置,育秧盤沿X軸負(fù)方向勻速運(yùn)動。機(jī)械臂為伯朗特六軸工業(yè)機(jī)械臂BRTIRUS0707A,最大負(fù)載為7 kg,最大運(yùn)動半徑為700 mm,重定位精度為±0.03 mm,各關(guān)節(jié)轉(zhuǎn)角范圍分別為(-170°,+170°),(-100°,+100°),(-60°,+140°),(-180°,+180°),(-115°,+115°),(-360°,+360°)。由于本文只考慮運(yùn)動規(guī)劃算法的應(yīng)用性能,不考慮仿真環(huán)境與真實(shí)環(huán)境的誤差問題,故通過V-REP 獲取的目標(biāo)位姿信息可直接應(yīng)用于參數(shù)計(jì)算。

為研究機(jī)械臂運(yùn)動規(guī)劃問題,對環(huán)境做如下假設(shè)。

1) 吸種盤的預(yù)排種位設(shè)置在距離育秧盤中心點(diǎn)正上方0.05 m處的矩形平面內(nèi)。

2) 不考慮吸種盤排種的瞬間動作,當(dāng)吸種盤底面中心點(diǎn)跟隨育秧盤中心點(diǎn)移動固定時間后,則認(rèn)定吸種盤完成排種動作。

圖6 仿真環(huán)境

3.2 仿真試驗(yàn)

設(shè)置端口號為19999,啟動服務(wù)器V-REP,與客戶端使用socket套接字進(jìn)行通訊[21]。當(dāng)python計(jì)算出一組控制序列后,通過Remote API發(fā)送給V-REP,控制機(jī)械臂運(yùn)動,并采集育秧盤及吸種盤的運(yùn)行參數(shù)返回給客戶端,更新算法中機(jī)械臂與環(huán)境的交互狀態(tài)進(jìn)行訓(xùn)練。為驗(yàn)證算法的收斂速度、跟隨性能及整體播種效果,首先設(shè)置算法收斂速度對比試驗(yàn),采用吸種盤和目標(biāo)點(diǎn)間距離的相反數(shù)表示獎勵值,進(jìn)行訓(xùn)練,保存模型;采用本文提出的基于過程動作的獎勵函數(shù),對機(jī)械臂進(jìn)行訓(xùn)練,對比獎勵值的收斂情況。接著將訓(xùn)練好的模型載入聯(lián)合仿真,設(shè)置育秧盤進(jìn)入待排種區(qū)域內(nèi)的運(yùn)行速度為-0.2 m/s,連續(xù)進(jìn)行20盤跟隨排種測試,當(dāng)育秧盤運(yùn)動到(0.67, -0.326, 0.823)時開始記錄育秧盤的坐標(biāo)、吸種盤的坐標(biāo)及偏轉(zhuǎn)角,當(dāng)育秧盤到達(dá)(-0.6, -0.326, 0.823)時結(jié)束記錄,數(shù)據(jù)用于評價算法的跟隨效果。最后采用混合式運(yùn)動規(guī)劃方法,對氣振盤式播種機(jī)械臂的運(yùn)動過程進(jìn)行規(guī)劃,由于下行和返回原點(diǎn)屬于典型的點(diǎn)對點(diǎn)運(yùn)動,故直接采用快速探索隨機(jī)樹(RRT)算法對該過程進(jìn)行路徑規(guī)劃;針對攜種過程及排種過程,采用改進(jìn)后的PPO算法,連續(xù)進(jìn)行30盤播種測試,記錄吸種盤的運(yùn)行速度,計(jì)算平均播種周期。

3.3 仿真結(jié)果

3.3.1 收斂速度

采用吸種盤和目標(biāo)點(diǎn)間距離的相反數(shù)表示獎勵值,整個訓(xùn)練過程的獎勵值如圖7所示,訓(xùn)練28 000步后,獎勵值仍無法收斂,表明智能體暫未學(xué)習(xí)到可以完成預(yù)定動作的方法。而采用過程動作匹配設(shè)計(jì)的獎勵函數(shù),獎勵值如圖8所示,在約18 000步后,累積獎勵值可收斂至最大值,表明智能體已成功習(xí)得一種可完成任務(wù)的方法;且獎勵值在早期上升到最大獎勵值的速度明顯快于常用獎勵函數(shù)設(shè)置方法,說明基于過程動作的獎勵函數(shù)的設(shè)計(jì)方法可在早期引導(dǎo)機(jī)械臂進(jìn)行有效學(xué)習(xí),減少算法在早期的探索時間,加快收斂速度。

圖7 PPO的獎勵值變化圖

圖8 改進(jìn)PPO的獎勵值變化圖

3.3.2 跟隨性能

圖9 吸種盤及目標(biāo)點(diǎn)的運(yùn)動軌跡

以吸種盤與育秧盤間的三軸位置誤差及點(diǎn)間距離作為跟隨位置效果的評價標(biāo)準(zhǔn),位置誤差結(jié)果如圖10所示。在跟隨運(yùn)動過程中,變化較為顯著的為Y軸的位置誤差。由于在跟隨期間,吸種盤需要在X軸方向上保持較高控制精度,且不能碰撞到流水線支架,故習(xí)得的運(yùn)動策略較為保守,導(dǎo)致Y軸測量值大于真實(shí)值,但由圖11可知,點(diǎn)間距離誤差可保持在(2.5 mm, 4.5 mm)范圍內(nèi),且吸種盤在X,Y,Z軸上的位置誤差的絕對值基本保持在2.5 mm,3.0 mm和1.1 mm,滿足跟隨排種的定位要求。

圖10 吸種盤和目標(biāo)點(diǎn)間的三軸位置誤差

以吸種盤與育秧盤間的偏轉(zhuǎn)角度差作為跟隨姿態(tài)的評價標(biāo)準(zhǔn),由于育秧盤的空間姿態(tài)始終與坐標(biāo)軸保持一致,故直接求解吸種盤在X,Y,Z軸上的偏轉(zhuǎn)角。偏轉(zhuǎn)角的仿真數(shù)據(jù)如圖12所示,跟隨過程中,吸種盤在X,Y,Z軸上的偏轉(zhuǎn)角度誤差的絕對值分別保持在1.20°,1.14°和1.28°之內(nèi),滿足跟隨排種的姿態(tài)要求。

圖11 吸種盤和目標(biāo)點(diǎn)間的距離誤差

圖12 吸種盤和目標(biāo)點(diǎn)間的姿態(tài)誤差

3.3.3 整體播種效果

截取一個播種周期中吸種盤運(yùn)動過程如圖13所示,機(jī)械臂在單個播種周期內(nèi)可完成吸種、攜種、排種循環(huán)運(yùn)動。吸種盤底面中心點(diǎn)運(yùn)行速度如圖14所示,吸種盤下行吸種過程為直線運(yùn)動,Z軸平均速度為-0.1 m/s,運(yùn)動時間為0.8 s;在吸種位停留1 s,等待吸種完成;攜種過程為曲線運(yùn)動;排種過程可近似為直線運(yùn)動,在X軸上的平均速度為-0.202 m/s,跟隨排種過程持續(xù)1 s;最后返回初始位置。通過計(jì)算30盤播種時間的平均值可知平均播種周期約為5.1 s。

綜合上述分析,該方法可在保證控制精度的情況下,使得機(jī)械臂快速完成吸種、攜種、排種、返回原點(diǎn)等相關(guān)動作。

圖13 一組狀態(tài)測試流程圖

圖14 吸種盤的運(yùn)行速度

4 結(jié)論

本文提出一種基于深度強(qiáng)化學(xué)習(xí)的播種機(jī)械臂運(yùn)動規(guī)劃算法,利用V-REP搭建氣振盤式播種仿真平臺,設(shè)計(jì)過程動作匹配獎勵函數(shù),構(gòu)建近端策略優(yōu)化算法框架,并驗(yàn)證規(guī)劃算法的有效性。該算法可減少機(jī)械臂的無效學(xué)習(xí),滿足跟隨排種的位姿要求,為超級稻精密播種的智能化控制提供有效依據(jù)。

1) 根據(jù)氣振盤式播種流水線的工作特點(diǎn),采用六軸機(jī)械臂設(shè)計(jì)跟隨式排種方法,可避免流水線在播種過程中暫停等待排種;最終平均播種周期由7.2 s減少至5.1 s,提高了播種效率。

2) 提出一種基于深度強(qiáng)化學(xué)習(xí)的播種機(jī)械臂運(yùn)動規(guī)劃算法,設(shè)計(jì)基于過程動作的獎勵函數(shù),構(gòu)建近端策略優(yōu)化算法框架,加快算法的收斂速度;利用V-REP 對氣振盤式播種機(jī)械臂運(yùn)動規(guī)劃算法進(jìn)行仿真,仿真結(jié)果表明,該算法可實(shí)現(xiàn)跟隨排種,且吸種盤在X,Y,Z軸上位置誤差的絕對值小于2.5、3.0、1.1 mm,跟隨距離誤差絕對值小于4.5 mm,偏轉(zhuǎn)角誤差的絕對值小于1.20°,1.14°,1.28°,滿足跟隨排種的定位及姿態(tài)要求。

猜你喜歡
機(jī)械動作
下一個動作
機(jī)械革命Code01
調(diào)試機(jī)械臂
ikbc R300機(jī)械鍵盤
動作描寫要具體
簡單機(jī)械
畫動作
讓動作“活”起來
動作描寫不可少
機(jī)械班長
主站蜘蛛池模板: 青青草国产在线视频| 中文字幕久久亚洲一区| 在线国产91| 一区二区理伦视频| 欧洲成人免费视频| 国产理论最新国产精品视频| av免费在线观看美女叉开腿| 夜夜操天天摸| 人妻一本久道久久综合久久鬼色| 狠狠亚洲五月天| 五月天在线网站| 国内精品一区二区在线观看| 久久精品这里只有精99品| 1769国产精品视频免费观看| 99热6这里只有精品| 国产亚洲精品97AA片在线播放| 日韩在线观看网站| 亚洲IV视频免费在线光看| 呦女亚洲一区精品| 国产女人在线观看| 欧美激情福利| 99精品影院| 99精品高清在线播放| 日本一区中文字幕最新在线| 狠狠色狠狠色综合久久第一次| 国产AV无码专区亚洲精品网站| 亚洲美女操| 欧美日韩国产成人在线观看| 色哟哟色院91精品网站| 永久免费无码成人网站| AV不卡在线永久免费观看| 综合网天天| 国产主播在线一区| 国产99视频精品免费观看9e| 亚洲成人免费看| 亚洲欧洲一区二区三区| 一区二区自拍| 国产精品青青| 精品99在线观看| 2021天堂在线亚洲精品专区| 国产一区二区三区免费观看| 国产乱人激情H在线观看| 国产电话自拍伊人| 91视频首页| 欧美中文一区| 亚洲天堂视频在线观看免费| 欧美激情视频一区| 国内精品自在自线视频香蕉| 青青草原国产av福利网站| 91色在线视频| 亚洲一区二区三区中文字幕5566| 久久综合九色综合97婷婷| 亚洲高清在线播放| 国产综合无码一区二区色蜜蜜| 国产美女无遮挡免费视频| 一区二区偷拍美女撒尿视频| www.亚洲一区| 国产精鲁鲁网在线视频| 伊人久久精品无码麻豆精品| 九九视频在线免费观看| 九色最新网址| 欧美日韩专区| 99久久成人国产精品免费| 久久久精品无码一二三区| 国产簧片免费在线播放| 精品国产一二三区| 免费无码网站| 午夜毛片免费观看视频 | 欧美精品xx| 国产精品黑色丝袜的老师| 红杏AV在线无码| 91娇喘视频| 色一情一乱一伦一区二区三区小说| 国产精品福利在线观看无码卡| 亚洲国产午夜精华无码福利| 国产免费羞羞视频| 四虎永久在线精品国产免费| 99人妻碰碰碰久久久久禁片| 国产精品熟女亚洲AV麻豆| 国产在线日本| 九色免费视频| 日韩天堂视频|