


摘? 要:智能農業(yè)機器人如何實現(xiàn)準確移動仍是開發(fā)者們面臨的一個挑戰(zhàn)。傳統(tǒng)的導航主要是通過全球定位系統(tǒng)(Global Position System, GPS)的定位來完成導航任務,弊端是其定位精度易受GPS信號強弱的影響。為此,文章提出采用深度強化學習算法SAC(Soft Actor-Critic)來解決果園場景下的導航問題,通過有序隨機的課程學習訓練方式引導智能體訓練。實驗結果表明,該方法能夠在不使用GPS的情況下很好地完成果園場景下的定點導航任務。
關鍵詞:果園;巡檢機器人;深度強化學習;導航;課程學習
中圖分類號:TP242? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)19-0154-04
Research on Navigation of Orchard Inspection Robot Based on Deep
Reinforcement Learning
HU Gaoming
(School of Information Engineering, Dalian Ocean University, Dalian? 116023, China)
Abstract: How to realize the accurate movement of intelligent agricultural robot is still a challenge for developers. The traditional navigation mainly completes the navigation task through the positioning of Global Positioning System. The disadvantage is that its positioning accuracy is easily affected by the strength of GPS signal. Therefore, this paper uses deep reinforcement learning algorithm SAC (Soft Actor-Critic) to solve the navigation problem in orchard scene, and guide agent training through orderly and random course learning and training. Experimental results show that this method can well complete the fixed-point navigation task in orchard scene without using GPS.
Keywords: orchard; inspection robot; deep reinforcement learning; navigation; course learning
0? 引? 言
對智能農業(yè)裝備的研究改進是推動智慧農業(yè)發(fā)展的重要內容,其中智能農業(yè)機器人導航技術已被廣泛應用于各種作業(yè)情景,例如果園除草、果園巡檢、作物施肥等作業(yè)環(huán)節(jié)的應用,該技術的引入不僅能為智能農業(yè)裝備提供精準的導航,還有助于節(jié)省人力物力以及避免遺漏作業(yè)區(qū)域,提高作業(yè)效率和作業(yè)質量[1-3]。
然而,智能農業(yè)機器人如何實現(xiàn)準確移動仍是一個不小的挑戰(zhàn)。果園占地面積大,其環(huán)境通常是非結構化的,在這種情況下尋求一條高覆蓋率的安全作業(yè)路徑并非易事,正是當下的重點研究內容。近年來,眾多學者在果園巡檢、小麥收割機等自主導航系統(tǒng)的研發(fā)上取得了一定成果。夏友祥等人[4,5]提出基于GNSS全局路徑規(guī)劃方法優(yōu)化導航路徑,減少重復作業(yè)和地頭轉彎路徑,提高作業(yè)效率。然而基于全局路徑規(guī)劃的方法需要事先熟知環(huán)境信息,有賴于先驗知識。同時GPS的應用易受衛(wèi)星信號強弱的影響,精確GPS(厘米級精度)的成本很高昂,而便宜的GPS通常有幾十乃至幾百厘米的誤差,不適用于車道較窄果園中的機器人導航。此外,機器視覺因其具備采集信息豐富、成本低廉等優(yōu)勢也被廣泛應用。張?zhí)鸬萚6-11]基于機器視覺對作物收割、除草等作業(yè)場景進行了導航路徑檢測研究。但目前基于機器視覺的導航方式受作業(yè)環(huán)境、光照條件的影響比較大,存在田間適應性差、實時性差等問題。而激光雷達能以較高頻率提供準確的環(huán)境距離信息以及環(huán)境物體的方位信息等。
近些年,以端到端的方式完成感知決策的深度強化學習算法取得了令人矚目的成績,而其在果園導航上的應用卻很少。為此,本文以激光雷達作為環(huán)境感知器,提出一種基于深度強化學習算法(Soft Actor-Critic, SAC)[12]的導航方法,方法是直接以觀測數(shù)據(jù)作為狀態(tài)輸入,并引入目標相關信息來完成機器人導航[13]。此外,鑒于果園這一場景的范圍較大,深度強化學習算法通過與環(huán)境交互習得樣本,根據(jù)隨機采樣學習有效策略,在學習過程會存在獎勵稀疏的情況,在果園的大場景下這種情況會更為突出。為此基于課程學習思想,設計了一種有序隨機引導的學習訓練策略。有序能夠保證任務的難度是逐級遞增的,而隨機采樣則保證任務樣本的豐富性。考慮到真實環(huán)境下的成本問題,試驗和評估均在仿真環(huán)境中進行。實驗結果表明,以有序隨機訓練的深度強化學習模型能夠完成對果園類似結構的導航任務,具備一定的導航能力。
1? 深度強化學習算法
SAC的核心思想是使用能夠學習連續(xù)動作空間策略的近似函數(shù),解決連續(xù)動作空間的強化學習問題,該方法稱為隨機參與者批評家。因此,一個大的連續(xù)域需要導出一個軟策略迭代的實用近似值,如式(1)所示。
(1)
軟策略迭代是一種學習最優(yōu)最大熵策略,并在策略評估和策略改進之間交替的算法。在策略評估階段,它試圖根據(jù)最大熵找到當前策略的準確值函數(shù);在策略改進階段,它將當前Q函數(shù)的策略分布更新為指數(shù)分布。SAC算法將神經網絡作為函數(shù),以逼近參與者網絡的策略,其中狀態(tài)值用策略網絡近似表示,Q值用批評家網絡近似表示。這三個網絡用于計算當前狀態(tài)的動作預測,并為每個時間步生成時間差誤差信號。
此外,SAC還以尋求收益最大化為目標,探索策略的熵最大化,如式(2)所示。熵是指變量的不可預測性。如果一個隨機變量仍然假設一個值,那么該策略的熵為零,鼓勵智能體的探索。
(2)
2? 基于深度強化學習的導航策略
2.1? 網絡結構
在網絡結構中,整體基于Actor-Critic(演員—批評者)架構,如圖1所示,其中Actor是策略網絡,僅將狀態(tài)作為網絡輸入,輸出策略動作,負責向機器人發(fā)送控制信號,使機器人到達目標位置;Critic網絡則將狀態(tài)和Actor網絡輸出動作作為網絡輸入,輸出對動作和狀態(tài)的Q值。而14維狀態(tài)表示包含激光雷達感知180度數(shù)據(jù)間隔選取的10個維度數(shù)據(jù)、上一時刻的線速度和角速度,以及移動機器人當前位置與目標位置的相對距離和角度等數(shù)值。
2.2? 課程訓練策略
強化學習的核心思想是通過智能體與環(huán)境交互試錯的方式來學習有效策略,其中獎勵反饋起著至關重要的作用。一般來說,強化學習智能體要想學習到有效策略,通常需要與環(huán)境進行大量的交互(交互產生大量的正負樣本),然后以隨機采樣的方式選取樣本進行學習。而在學習過程中,正樣本對學習有效策略起著正向引導作用,但正樣本在學習過程中所占比例相對較小,學習前期正樣本的有效分布則更為稀疏。針對獎勵稀疏的問題,Ng[14]提出獎勵設計,主要根據(jù)任務特性進行相關規(guī)則的設計來完成任務引導,不過這種設計很大程度上帶有人的主觀判斷,具有一定的局限性;Bengio[15]提出課程學習方法,其思想是對任務進行拆解排序,按照由易到難的順序進行學習引導。這樣的學習方式便于強化學習智能體順利完成相關的學習任務。
為了更好更快地完成智能體的學習,這里采用課程學習的方式進行訓練,稱其為有序隨機課程引導。完成果園室外移動機器人通常需要行走較遠的距離,長情景的導航訓練中正樣本會更為稀疏。因此,按照課程學習由易到難的順序對遠距離的任務進行分段設置,在起點與目標之間會生成很多的課程任務點作為過渡點,這就實現(xiàn)了任務的有序性,以此完成向目標的過渡。此外,考慮到樣本豐富度的問題,于是隨機生成各個方向的過渡點。在訓練過程中,智能體在完成一個目標但卻沒有達到最大回合步數(shù)時,訓練策略會繼續(xù)生成新的目標點,智能體從當前位置繼續(xù)向新的目標位置轉移。具體的課程學習訓練過程如圖2所示,首先從訓練環(huán)境中隨機選點,并生成固定點集,然后按照與起點距離的遠近對點集中的點進行由近及遠的排序。接著開始訓練任務,如果機器人能夠安全到達第一個任務點,則給予正獎勵并從固定點集中選取下一個點作為新的目標點,機器人從上一個任務結束位置開始新的任務。如果機器人未能安全到達第一個任務點,則給予懲罰,并將機器人重新放到起點位置,仍以當前點為目標進行新一輪的訓練。如此循環(huán)往復,直到機器人完成點集中的所有點才結束訓練。
3? 實驗
考慮到真實環(huán)境下的訓練代價高昂,因此所提方法的訓練和檢驗均在仿真環(huán)境中展開。實驗基于ROS操作系統(tǒng),使用Turtlebot3模擬機器人。
3.1? 實驗設置
Gazebo是ROS機器人操作系統(tǒng)中的仿真平臺,具有高保真模擬特性,因此使用該平臺進行仿真場景搭建。如圖3所示為訓練場景,機器人位于綠色方框位置,其余長方體為隨機排布的障礙物。為了提高機器人的適應能力,模擬真實的環(huán)境引入了動態(tài)障礙物,如圖中白色圓柱所示。在評估階段,為了實現(xiàn)更為切合真實場景的布局,搭建了類似果園的封閉環(huán)境,如圖4所示,其中綠色長方體模擬果樹。訓練場景整體面積小于評估場景,主要是為了加快學習步伐,相反,評估場景更大則是為了更加接近實際情況。
對于獎勵設置,如果移動機器人與墻壁或任何障礙物發(fā)生碰撞,則此動作將獲得負獎勵-500,并結束當前回合,如果移動機器人到達目標點則給予正獎勵1 000。
3.2? 訓練性能評估
智能體訓練只在圖3場景中進行,其學習獎勵曲線如圖5所示,可以看出通過有序隨機訓練的智能體,從500回合開始獎勵呈上升趨勢,但曲線存在一定的震蕩,其中可能的原因是動作選取具有隨機性,同時課程目標在發(fā)生變化,在這兩種因素的共同影響下,智能體一旦失敗,其所獲得的收益就會與成功回合表現(xiàn)出過大的偏差,但從整體表現(xiàn)上來看,智能體獲得獎勵一直處于上升趨勢。
3.3? 有效性驗證
為了驗證模型的有效性和泛化性,將所學模型部署到果園場景,圖4所示中進行模型評估,相較于訓練環(huán)境,評估場景空間更大。評估過程設置了7個任務,分別位于左右兩側和前方位置,并按照由近及遠的順序依次評估,根據(jù)任務距離長短對任務難度進行劃分,其中前5個任務為簡單任務,任務6、7為困難任務。評估結果如表1所示,首先在簡單任務上,智能體均能順利到達這些目標點,能夠適應環(huán)境結構和空間變化,所習得的模型具有很強的泛化能力。其次,即使是對于更遠的評估點6、7,智能體也能以較高的概率到達,這說明模型具備遠距離導航能力。此外,如圖6紅色曲線所示,根據(jù)智能體行駛軌跡,到達目標點3、4、7均有多條有效路徑,這充分說明模型具備一定的探索能力。綜上所述,訓練所習得的模型具備一定的遠距離導航能力,并能夠適應環(huán)境變化,具備很強的泛化能力。
4? 結? 論
針對果園非結構化環(huán)境的導航任務,本文提出了基于深度強化學習算法的導航策略,并提出一種有序隨機引導的課程學習訓練方式,具體來說就是在訓練環(huán)境中進行隨機選點,并按照距離遠近對所采目標點進行排序,生成固定點集。同時,在隨機采樣過程中進行360度全方位選點,保證樣本的豐富性。考慮到真實場景下訓練代價高昂的問題,在類似果園的仿真環(huán)境中驗證習得模型的有效性和泛化性,實驗結果表明,這種訓練方式能夠快速引導智能體學習有效策略,所習得的模型能夠適應環(huán)境變化,高效完成各種距離的導航任務,具備一定的實用性。未來將嘗試將模型遷移到真實場景中做進一步的有效性驗證。
參考文獻:
[1] 謝斌,武仲斌,毛恩榮.農業(yè)拖拉機關鍵技術發(fā)展現(xiàn)狀與展望 [J].農業(yè)機械學報,2018,49(8):1-17.
[2] 姬長英,周俊.農業(yè)機械導航技術發(fā)展分析 [J].農業(yè)機械學報,2014,45(9):44-54.
[3] 戴增輝,何鳳琴.智能農機自動導航系統(tǒng)應用研究 [J].農機化研究,2018,40(2):202-206.
[4] 夏友祥,劉剛,康熙,等.基于 GNSS 的農田平整定位精度優(yōu)化與試驗[J].農業(yè)機械學報,2017,48(S1):40-44.
[5] 劉剛,康熙,夏友祥,等.基于 GNSS 農田平整全局路徑規(guī)劃方法與試驗[J].農業(yè)機械學報,2018,49(5):27-33.
[6] 張?zhí)?高茬水田耕整路徑機器視覺識別方法研究 [D].武漢:華中農業(yè)大學,2014.
[7] MENG Q K,QIU R C,HE J,et al. Development of agricultural implement system based on machine vision and fuzzy control[J].Computers and Electronics in Agriculture,2015,112:128-138.
[8] 孟慶寬,何潔,仇瑞承,等.基于機器視覺的自然環(huán)境下作物行識別與導航線提取[J].光學學報,2014,34(7):180-186.
[9] 汪博.基于機器視覺的農業(yè)導航系統(tǒng)[D].杭州:浙江理工大學,2016.
[10] 郭翰林,洪瑛杰,張翔,等.再生稻收割機的視覺導航路徑檢測方法[J].福建農林大學學報(自然科學版),2017,46(3):356-360.
[11] 梁習卉子,陳兵旗,姜秋慧,等.基于圖像處理的玉米收 割機導航路線檢測方法[J].農業(yè)工程學報,2016,32(22):43-49.
[12] HAARNOJA T,ZHOU A,ABBEEL P,et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor [C]//International conference on machine learning. Stockholm:PMLR,2018:1861-1870.
[13] ZHU Y K,MOTTAGHI R,KOLVE E,et al. Target-driven visual navigation in indoor scenes using deep reinforcement learning [C]//2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:IEEE,2017:3357-3364.
[14] NG A Y,HARADA D,Russell S. Policy invariance under reward transformations: Theory and application to reward shaping [C]//In Machine learning, proceedings of the sixteenth international conference.Slovenia:ICML,1999:278-287.
[15] BENGIO Y,LOURADOUR J,Collobert R,et al. Curriculum learning [C]//Proceedings of the 26th annual international conference on machine learning. Montreal:Association for Computing Machinery,2009:41-48.
作者簡介:戶高銘(1996—),男,滿族,河北唐山人,碩士研究生在讀,研究方向:深度強化學習、路徑規(guī)劃。