基于深度強(qiáng)化學(xué)習(xí)的氣振盤(pán)式播種機(jī)械臂運(yùn)動(dòng)規(guī)劃方法研究*

2022-09-21 03:06:38陳進(jìn)張志巧廖彩淇唐學(xué)明

中國(guó)農(nóng)機(jī)化學(xué)報(bào) 2022年10期

陳進(jìn)，張志巧，廖彩淇，唐學(xué)明

(江蘇大學(xué)機(jī)械工程學(xué)院，江蘇鎮(zhèn)江，212013)

0 引言

氣振盤(pán)式播種流水線(xiàn)作為一種自動(dòng)化程度較高的農(nóng)業(yè)機(jī)械，機(jī)械臂排種是其中重要環(huán)節(jié)。目前，本團(tuán)隊(duì)研制的氣振盤(pán)式精密播種流水線(xiàn)在作業(yè)過(guò)程中，受二自由度機(jī)械臂運(yùn)動(dòng)限制，育秧盤(pán)需在排種位等待吸種盤(pán)完成排種[1]。由于原二自由度機(jī)械臂不支持動(dòng)態(tài)改變既定規(guī)劃并與其他裝置相協(xié)調(diào)，需操作人員縱向協(xié)調(diào)流水線(xiàn)播種進(jìn)程，導(dǎo)致機(jī)械臂與流水線(xiàn)的協(xié)調(diào)性成為影響播種效率的重要因素。為代替二自由度機(jī)械臂靈活高效地完成播種相關(guān)動(dòng)作，提高播種效率，亟需開(kāi)展關(guān)節(jié)式機(jī)械臂動(dòng)態(tài)自主運(yùn)動(dòng)規(guī)劃算法研究。

伴隨著人工智能技術(shù)研究的發(fā)展，強(qiáng)化學(xué)習(xí)的應(yīng)用逐漸廣泛[2]。強(qiáng)化學(xué)習(xí)的優(yōu)越性體現(xiàn)在智能體能夠通過(guò)與環(huán)境的交互，從過(guò)去的經(jīng)驗(yàn)中不斷改進(jìn)行為，使得智能體能夠完全自主[3]。Deng等[4]基于深度強(qiáng)化學(xué)習(xí)算法，添加額外獎(jiǎng)勵(lì)和外部獎(jiǎng)勵(lì)優(yōu)化控制策略用于輔助手操作學(xué)習(xí)。Wang等[5]采用無(wú)精確模型的強(qiáng)化學(xué)習(xí)算法引導(dǎo)飛機(jī)向某一方向移動(dòng)，通過(guò)設(shè)置連續(xù)動(dòng)作獎(jiǎng)勵(lì)函數(shù)和位置獎(jiǎng)勵(lì)函數(shù)來(lái)提高訓(xùn)練效率。Tang等[6]證明在近端策略?xún)?yōu)化算法中加入動(dòng)作掩碼可剔除動(dòng)作集中的無(wú)效動(dòng)作，提高訓(xùn)練效果。Kim等[7]提出模塊化獎(jiǎng)勵(lì)塑造的方法可用于解決機(jī)械手復(fù)雜操作任務(wù)。Sangiovanni等[8]采用深度強(qiáng)化學(xué)習(xí)中的NAF連續(xù)控制算法成功實(shí)現(xiàn)機(jī)械臂的動(dòng)態(tài)避障。國(guó)內(nèi)外研究表明，深度強(qiáng)化學(xué)習(xí)在連續(xù)控制上具有顯著成效，但當(dāng)深度強(qiáng)化學(xué)習(xí)系統(tǒng)變得越來(lái)越普通時(shí)，引發(fā)期望行為的獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)將會(huì)變得更加重要[9]。……

登錄APP查看全文