李興旭,陳雯柏,王一群,楊 順,吳華瑞,趙春江
基于級聯視覺檢測的櫻桃番茄自動采收系統設計與試驗
李興旭1,2,陳雯柏1,王一群1,楊 順3,吳華瑞2,趙春江2※
(1. 北京信息科技大學自動化學院,北京 100192;2. 國家農業信息化工程技術研究中心,北京 100097;3. 北京中科原動力科技有限公司,北京 100085)
櫻桃番茄串生長姿態多樣、果實成熟度不一,采摘機器人進行“粒收”作業時,常面臨果梗干涉末端執行器、成熟度判斷錯誤等問題,導致采摘效率低下、難以有效實現分級采收。針對上述問題,該研究提出一種級聯視覺檢測流程,包括采收目標檢測、目標果實特性判別、果實與果梗位置關系判斷3個關鍵環節。首先根據農藝要求按成熟度將番茄果實分為4個等級,引入YOLOv5目標檢測模型對番茄串和番茄果實進行檢測并輸出成熟度等級,實現分期采收。然后對果實與果梗的相對位置進行判斷,利用MobileNetv3網絡模型對膨脹包圍盒進行果實與果梗相對位置關系判斷,實現末端執行器采摘位姿控制。日光溫室實際測試結果表明,本文提出的級聯檢測系統平均推理用時22 ms,在I(intersection over union)閾值為0.5的情況下,櫻桃番茄串與果實的平均檢測精度達到89.9%,滿足采摘機器人的視覺檢測精度和實時性要求,相比末端執行器以固定角度靠近待采目標的方法,本文方法采收效率提升28.7個百分點。研究結果可為各類果蔬采摘機器人研究提供參考。
機器人;目標檢測;日光溫室;櫻桃番茄;YOLOv5
國內鮮食果蔬采摘的人力成本逐年遞增[1-2],推動了采摘機器人的快速發展[3-5]。櫻桃番茄串中果實成熟時間并不一致,為追求鮮食品質和經濟收益,通常要求分期、分級采收成熟果實。為實現自動化的櫻桃番茄分期采收,需要采摘機器人不僅能夠精準識別、定位每一顆番茄[6],還要求其能夠分析番茄成熟度[7],同時規避果梗遮擋等,對機器人的視覺檢測系統提出了巨大挑戰。
采摘機器人的首要任務是學習農作物的特征信息,發現環境中的目標并完成定位[8-9]。機器視覺算法提供信息的準確性、效率和豐富程度,影響著采摘機器人的決策系統設計和收獲效率[10-11]。JUN等[12]使用YOLOv3模型[13]檢測番茄,利用深度相機和機械臂完成了實驗室條件下的番茄單果采收實驗。張勤等[14-15]通過YOLOv4目標檢測算法[16]識別番茄串和可采摘果梗的區域,利用深度、顏色等特征信息獲得串番茄果梗采摘點,完成了櫻桃番茄串采收試驗。近年來,為實現分期采收,學者們對番茄成熟度視覺檢測方法展開研究。WANG等[17]利用Otsu二值化算法和橢圓模板法自動識別成熟番茄。李天華等[18]將YOLOv4和HSV相結合,以實現自然環境下成熟期番茄的準確識別。BENAVIDES等[19]通過顏色識別與分割獲取果梗區域和番茄采摘點位置。單純通過顏色信息對果實進行成熟度判斷,方法簡便可行,但顏色閾值設定需要豐富的農業先驗知識且單一閾值通常難以應對采摘現場復雜的光照條件。ZHANG等[20]研究了一種改進的深度學習方法,通過少量訓練數據即可完成對番茄成熟度判斷。AFONSO等[21]采用Mask R-CNN模型[22]檢測溫室內成熟和未成熟番茄果實,準確率分別達到95%和94%。龍潔花等[23]使用改進的Mask R-CNN完成了溫室環境下不同成熟度番茄的分割,在溫室種植環境中具有較好的魯棒性,但Mask R-CNN模型尺寸大、實時性仍有提一定升空間。
收獲效率較低是采摘機器人難以邁向商業化的一個因素[24]。國內外學者針對各類番茄的視覺檢測方法、機器人采摘應用做了大量研究,然而針對實際生產場景的果實成熟度快速區分相關研究較少,末端執行器執行單果采收時應當如何靠近待采目標也鮮有研究。為更好地完成分期采收、進一步提高串番茄粒收的采摘效率,本文提出一種級聯視覺檢測流程,包括采收目標檢測、目標果實特性判別、果實與果梗位置關系判斷環節,并搭建了適配實際生產場景的采摘機器人在日光溫室中對櫻桃番茄進行自動分期采收試驗。
為實現分期采收、提高粒收作業效率,本文提出包括待采目標檢測、目標特性判別和果實果梗位置關系判斷的檢測流程,并設計相應的基于視覺引導的采摘系統,技術流程如圖1所示。櫻桃番茄果實眾多,考慮到機器人檢測實時性要求,引入高效的YOLOv5檢測模型對櫻桃番茄果實進行檢測,并輸出成熟度信息。根據成熟度、距離等條件完成待采目標篩選后,引入MobileNetv3網絡模型進行果實果梗位置關系進行快速判斷,為采摘機器人選擇接近果實的方向提供依據。

圖1 基于級聯視覺檢測的櫻桃番茄自動采收技術流程
訓練集圖像采自北京海淀某日光溫室番茄培育園中國外某品牌代號“72-008”的櫻桃番茄品種。圖像采集設備為Intel Realsense D435i深度相機。將兩個相機固定于采摘機器人不同位置處,提供多種視野條件。機器人沿導軌勻速移動,相機以固定頻率采集RGB圖像。數據集中部分圖像見圖2。

圖2 訓練集中不同拍攝視角下的樣本示例
為實現番茄的檢測和成熟度快速輸出,參考農藝要求將目標分為番茄串和4種不同成熟度[25]的果實,分別為果實充分膨大但果皮為白綠色的綠熟期、果實頂端由白變紅的轉色期、果實超過四分之三面積為紅色或黃色的成熟期以及果實表皮完全變紅的完熟期,共5種目標。不同顏色的標注框所代表的目標類型如圖3所示。其中綠熟期和轉色期果實不是常規意義下的采摘目標,只有成熟期和完熟期的果實需要被采摘。

圖3 目標標注和數據集構建流程
2.2.1 目標檢測數據集構建
機器人受臂長以及結構限制,僅能采摘當前位置兩側培養架上的番茄,無法“跨壟”采摘。生長在其他培養架上的番茄,如圖4中虛線框中的部分所示,在標注階段無需進行標注。經過挑選和數據清洗,以1 320張圖像作為目標檢測數據集,包括不含任何目標的背景圖像50張,各類目標共計71 123個,平均單張圖片包含目標56個。

圖4 標注結果展示
2.2.2 果實果梗位置關系判斷數據集構建
為提高采摘效率,引導末端執行器以合適角度靠近待采目標,需要建立一個果實果梗位置關系判斷數據集。利用目標檢測數據集中已經完成的果實標注邊界框,將長和寬均放大10%,使得目標周圍果柄、果萼、果梗等利于判斷的關鍵信息納入框內,如圖3中③所示。裁剪框內圖像,構建果實果梗位置關系分類數據集。番茄生產中,工人會去作多余花序和幼果。經過人工“疏花疏果”操作后的果實大多生長于果梗兩側,極少數會成簇生長。為簡化后續試驗,忽略特殊情況,將位置關系分為2類:果實在果梗左側記為類別0,如圖5a所示;果實在果梗右側的樣本記為類別1,如圖5b所示。

圖5 果實果梗位置關系分類數據集
從畫面中檢測并識別果實及其成熟度,是實現機器人自動采摘的前提,也是影響采摘效率的重要環節,本文引入YOLOv5目標檢測算法一次性快速輸出番茄串和果實的目標檢測、成熟度水平信息。
3.1.1 基于YOLOv5番茄串和果實目標檢測模型框架
YOLO(you only look once)系列目標檢測模型是一種單階段檢測模型,相比Mask R-CNN等兩階段檢測網絡更加輕量、高效,在各類采摘機器人上應用廣泛[26-29],易于部署與測試。YOLOv5目標檢測模型系列,包括YOLOv5s、YOLOv5m、YOLOv5l等多個在深度、寬度有區分的模型,相比YOLOv3和YOLOV4等作做出了許多工程化應用上的改進,保證精度的同時,提高了推理速度。
YOLOv5模型可以分為主干網絡(Backbone)、頸部網絡(Neck)和檢測頭(Head)3個部分,如圖6。輸入主干網絡前,圖像被縮放至固定的640×640(像素)大小。主干網絡完成特征提取,待進一步豐富特征并轉換之后,由檢測頭部分輸出80×80、40×40和20×20三種不同尺度的特征圖,在多個特征圖上進行邊界框預測。經過非極大值抑制部分(non-maximum suppression,NMS)完成對檢測框信息的合并、篩選,輸出預測框的中心點坐標(,)、高寬(,)、類別()、置信度(C)的預測結果。YOLOv5損失值由3個部分組成,分別為類別損失、置信度損失、定位損失。
3.1.2 基于多任務學習的檢測方法改進
多任務學習旨在利用不同任務之間的相似性,同時解決多個不同的任務。與之對應的概念是單任務學習,即將復雜的系統或問題分解為簡單且獨立的子問題并逐一解決。通常情況下,多任務學習相比單任務學習有著學習效率高、過擬合風險更小的優勢。
YOLOv5模型對預測框位置、高寬、類別的學習,屬于多任務學習。主干網絡對于目標檢測任務所提取的輪廓、顏色、大小等特征與成熟度判斷任務所需的特征存在重合,為僅使用YOLOv5模型一次完成番茄的檢測和成熟度判斷提供了理論條件。不同成熟程度的番茄顏色、大小不同,按照各生長階段特點和農藝要求將果實進行成熟度標注,相比將所有果實均列為一類目標,前者類內差異較小、類間差距大,有利于識別和降低過擬合風險。經過此項改進,YOLOv5模型能夠在檢測串與果實的同時,輸出果實的成熟度分級信息。
另外,采摘機器人僅能對所處軌道兩側的目標進行抓取,無法跨壟采摘,如圖7。完成番茄目標檢測后,需要濾除生長在其他培養架上的非目標番茄。已知成熟果實可以近似看做赤道直徑和極直徑為2.5 cm左右的橢球體,培養架壟間距在1.55 m左右,培養架寬0.75 m左右。網絡模型輸入圖像分辨率為640×640(像素)條件下,根據相機針孔模型進行計算和標注結果統計,處于其他培養架上的櫻桃番茄單果目標(無法采摘的目標)在輸入畫面中的像素大小小于10×10(像素)。相機針孔模型描述如下式:


圖6 櫻桃番茄的級聯視覺檢測方法示意圖
式中(,)為目標像素點在畫面中像素位置;(,,)為目標像素點在相機坐標系下的空間位置;為相機的內參數矩陣。
對于這類小目標,即便使用80×80(像素)的大尺寸特征層(即感受野為8×8(像素))仍難以檢測。為減少網絡對這類不必要的目標計算,可以去掉網絡檢測頭尺寸為80×80(像素)及以上的特征層。在數據標注階段,無需標注畫面中不屬于當前培養架上的非待采目標,進一步減少果實樣本類內差距的同時,節省大量標注人力(如圖4中所示,畫面中不屬于機械臂工作空間內的番茄(虛線區域內)均未被標注)。

圖7 采摘機器人工作空間示意圖
3.2 基于MobileNet的果實果梗位置關系判斷
櫻桃番茄串生長狀態各異,面對采摘機器人的角度并不固定。采摘機器人末端執行器以固定角度執行采摘作業面臨因果實、果梗干涉導致采摘失敗或效率低的問題。如圖8a,末端執行器以垂直于培養架的固定角度執行采摘任務,經常與其他果實發生干涉,導致整串番茄發生偏移,需要多次采摘才能成功。在圖8b中,使用錯誤的角度進行采摘,待采果實與末端執行器之間存在果梗遮擋,導致失敗。圖8c中,末端執行器以合適的角度接近目標,順利完成果實采摘。因此,在檢測階段應當獲取待采摘目標的和果梗的位置關系,指導末端執行器以選擇合適角度靠近待采目標,以此提高采摘成功率、效率。

圖8 末端執行器方向選擇及結果
谷歌MobileNet系列網絡作為輕量化網絡中的佼佼者,被廣泛應用于工業界作為主干網絡分類、檢測、語義分割等任務。MobileNetv3[30]于2019年發表,綜合了MobileNetv1[31]和MobileNetv2[32]的優點,是利用NAS(Network architecture search)方法對網絡配置進行調優獲得的產物,保持精度的同時進一步提升了速度,適合部署在采摘機器人上。在果實果梗位置關系數據集中訓練MobileNetv3網絡,使之能夠對果實相對果梗的位置做出判斷,為機械臂選擇接近目標的角度提供依據(如圖6中果實果梗位置關系判斷環節所示)。
為試驗搭建的采摘機器人系統如圖9所示,該系統由移動平臺、機械臂、末端執行器、深度相機和控制器組成。機械臂采用針對溫室番茄種植設施高度定制的Z-Arm四軸協作機械臂,最大負載3.5 kg,重復定位精度±0.05 mm,相比六軸機械臂操作更為簡便。末端執行器采摘方式為負壓吸入,對視覺系統中產生的誤差有更好的容錯性,采摘同時完成果實收集,存儲在移動平臺后方的置物箱中。深度相機選擇Intel Realsense D435i RGB-D相機,該相機體積小巧、配套資源完備,在20~60 cm范圍內能夠提供60幀/s的高精度深度信息。控制器安裝在移動平臺,采用的GPU為NVIDIA Geforce GTX 1050Ti,搭配顯示器用于實時關注檢測結果。

1.機械臂 2.深度相機 3.末端執行器 4.運動底盤 5.控制器



獲得目標在機械臂坐標系下的位置后,驅動機械臂攜帶末端執行器接近目標在空間中的位置,并執行采摘動作。
1)網絡訓練
按照8∶2的比例劃分櫻桃番茄數據集為訓練集和測試集,將不同深度的YOLOv5系列模型及YOLOv3系列模型在數據集中進行訓練。考慮到不同深度、寬度網絡的參數量、浮點運算次數(floating point operations, FLOPs)和占用顯存不同,為方便后續對比試驗,統一設定批大小為32。根據網絡深度和參數量的不同設置初始學習率為0.01,動量設置為0.937,懲罰項設置為0.000 5,迭代最大次數設置為600~700輪。訓練期間各網絡模型損失變化曲線及均值平均精度m變化曲線如圖10a和圖10b所示。各模型在前200次迭代中m迅速增加,各項損失迅速減小。大約400次迭代之后,網絡各類損失值、m趨于穩定,此時認為各網絡模型已完成收斂。

圖10 各網絡模型在訓練集上損失和均值平均精度曲線
2)最優模型選擇
為避免信息泄露對模型性能造成影響,拍攝50張獨立于訓練數據集的圖像(包含各類目標共3 753個),作為獨立驗證集用于檢驗不同深度和類型網絡模型的檢測性能,使用準確率、召回率、均值平均精度和1得分量化結果。在Pytorch、TensorRT框架中加載各模型并運行在GPU型號為NVIDIA 2060、GPU1050Ti的工控機中,測試各模型在硬件上的平均推理時間。
各網絡模型在驗證集上的性能表現如表1所示。YOLOv5n在YOLOv5系列中網絡深度最小,在驗證集中精度最差。在I閾值為0.5的情況下,YOLOv5n與YOLOv3-tiny與同屬于輕量化模型,在驗證集中均值平均精度和1值與YOLOv3-tiny相比高2.23個百分點。從訓練集上損失曲線圖10a中可以發現YOLOv3-tiny相比其他網絡損失值更高,意味著無法更深入地擬合目標數據,和驗證集中該網絡效果最差的結果相吻合,精度過低無法被當前采摘機器人應用場景所接受。YOLOv3系列模型中精度表現最優的YOLOv3-SPP模型[18],在驗證集中的表現處于YOLOv5s與YOLOv5m之間,但在所有被測模型之中推理速度最慢。

表1 各網絡在驗證集的性能測試結果
隨著網絡深度的加深,網絡對目標特征的提取能力和識別能力逐步上升,從網絡深度最淺的YOLOv5n到所試驗的模型中網絡深度最深的YOLOv5l,均值平均精度和1值都在逐步上升。如I閾值為0.5與0.95情況下,YOLOv5s在驗證集中的識別均值平均精度較YOLOv5n分別高4.85個和4.92個百分點。但從目前驗證集中測試結果來看,網絡深度加深和性能提升并不是線性關系,客觀存在一個性能瓶頸。如YOLOv5l的計算量為YOLOv5m的2倍以上,但驗證集中的精度表現差異較小,僅高0.24個百分點(I閾值為0.5)。推測是因為櫻桃番茄單果及串目標特征相對簡單,并不需要過于復雜的主干網絡即可完成對目標特征的提取。櫻桃番茄體積較小,遮擋嚴重的目標很難被識別,也是導致模型檢測結果出現瓶頸的重要原因之一。
由此可以看出,在當前場景YOLOv5s模型相比所提到的YOLO系列其他模型有著計算量更小、精度較高的綜合優勢,滿足采摘機器人對實時性、精度的綜合需要,因此本文選擇YOLOv5s網絡模型作為后續研究和應用的主要模型。
目標檢測試驗在北京海淀某溫室日光櫻桃番茄園中進行,采摘機器人在軌道上勻速移動并對待采番茄進行檢測。不同光照條件及不同形態櫻桃番茄檢測結果,如圖11所示。可以看出所得模型在常見光照條件及陽光直射、白平衡變化等異常光照條件下對各目標均有著良好的識別效果穩定。同時,檢測結果中未包含處于機器人工作空間范圍外的無關目標,起到了過濾、篩選的作用。

圖11 實際檢測結果展示
保留20幀采摘機器人工作時的輸入圖像,人工標注、統計各類目標的數量及網絡模型預測正確率,結果記錄在表2。由表2可知,經過調整后得到的YOLOv5s檢測模型,在實際場景中,對各成熟度番茄單果和串目標均值平均精度達到89.9%,有著良好的識別效果,單幀推理時間11.5 ms左右(I閾值0.5,GPU 1050Ti,TensorRT7庫部署的情況下測得)。

表2 多任務學習思路下改進后的檢測模型測試結果
表2表明,經多任務學習思路改進后的YOLOv5目標檢測方法能夠完成櫻桃番茄的檢測、成熟度識別與非待采目標過濾。此項改進快捷且有效,在所需要的標注量大幅減少、無需修改網絡結構的情況下,模型檢測精度得以提升、并能輸出高準確率的成熟分級信息,適合采摘機器人運用。
在果實與果梗位置關系數據集中訓練模型并測試網絡性能。用于判斷果實與果梗相對位置MobileNetv3分類網絡損失和準確率曲線,如圖12a和圖12b所示。迭代25輪后模型的損失值趨于穩定,在驗證集中模型準確率處于85%附近。取精度為85%的模型作為在采摘機器人中實際部署的模型,判斷結果展示在圖13中。改進YOLOv5和MobileNetV3級聯模型的單幀推理時間平均為22 ms(MobileNetV3的批處理大小為8,其他參數同5.2節)。其中,“L”代表果實在果梗左側,末端執行器應當從番茄串左側進行果實采摘,“R”代表果實在果梗右側。
圖14中展示了機器人視角下番茄的幾種常見生長姿態。圖14a,相機能夠直接觀察到每一粒果實、果梗、果蒂和果萼,定義為“正面面對(正對)”相機。圖14b和圖14c中僅能看見部分果梗、果萼,果實之間存在前后遮擋。圖14d,此時無法觀察到果梗、果萼、果蒂等部分,定義為“背面相對(背對)”。

圖12 MobileNetv3網絡訓練中損失與準確率曲線

圖13 果實與果梗位置關系判斷結果展示
在以往的研究中,完成對目標位置的獲取后,機械臂攜帶末端執行器以垂直培養槽的固定角度靠近果實,執行采摘動作,完成采摘或進行下一次嘗試(方法1)。為避免末端執行器與果實發生摩擦、干涉,通過視覺方法獲取果實與果梗的位置關系后,選擇從左或從右,更大角度地靠近目標(方法2)。
試驗中,設定同樣的機械臂速度,約8 s完成一次“機械臂移動-末端執行器動作-保持-機械臂收回”的流程,使用方法1與方法2分別嘗試采摘圖14中4種不同姿態的番茄,作為對比試驗。如果一顆番茄嘗試采摘5次均未成功,則認為存在無法采摘的目標,其嘗試次數也將計入測試結果中。人工摘除這顆“無法采摘”的番茄,以便機器人繼續進行測試。以采摘效率(采摘成功次數與動作次數之比值)和是否存在無法采摘的目標作為評價指標,采摘結果如表3。
由表3可知,串姿態為“背對”情況的櫻桃番茄串相對容易被采摘,兩種視覺檢測引導采摘方法的采摘效率均在85%左右;串姿態為“完全側對”的櫻桃番茄串,方法1的采摘效率最低,僅有16.6%,主要是因為處于串另一側的果實因果梗阻擋末端執行器無法采摘(情況類似圖8b),嘗試次數過多導致。方法2因獲得果實與果梗的相對位置,能夠一定程度上繞開果梗,從果梗對側方向完成采摘。對于串姿態為“正對”、“輕微側對”的櫻桃番茄串,方法1雖然能夠完成采摘,但因缺少目標與果梗的位置關系,采摘過程中末端執行器以固定角度多次干涉果梗或其他果實導致當次采摘失敗,效率相比方法2更低。

圖14 機器人相機視角下櫻桃番茄串的不同姿態

表3 兩種視覺引導方式采摘結果對比
末端執行器以固定角度執行采摘,綜合效率為47.5%,平均單顆收獲時長約為16.8 s;經過判斷果梗與果實位置關系后選擇方向對目標進行采摘,綜合效率為76.2%,平均單顆收獲時長10.4 s,相比末端執行器以固定角度采摘的方法,采摘效率高出28.7個百分點,平均單顆收獲用時少6.4 s,且不存在“無法采摘”的目標。試驗結果表明,本研究提出的基于級聯視覺檢測的番茄采收方法,在一定程度上減輕末端執行器與櫻桃番茄串干涉的情況,提升了采摘效率,有效完成了分期采收。
本研究面向櫻桃番茄采摘機器人果實單顆采收的應用場景,提出“采收目標檢測-目標果實成熟度判別-果實與果梗位置關系判斷”的級聯視覺檢測流程,并搭建機器人系統,在日光溫室場景中進行檢測、采摘試驗,主要結論如下:
1)基于多任務學習的思路,在數據標注環節進行改進,對櫻桃番茄目標按成熟度進行了分類標注、不標注畫面中屬于機器人工作空間外的櫻桃番茄目標。相比常規方法,本方法有著無需修改檢測網絡結構、所需標注量大幅減少的優勢。使用YOLOv5s作為檢測網絡測試模型,在該項改進下,對綠熟期、轉色期、成熟期、完熟期的櫻桃番茄和櫻桃番茄串5類目標的均值平均精度(I閾值為0.5)值達到89.9%,實現了采摘機器人對櫻桃番茄的快速檢測、成熟度判斷,可為各類基于果蔬成熟度水平進行作業的采摘機器人提供參考。
2)針對采摘過程中,末端執行器容易與櫻桃番茄串果梗產生干涉,導致采摘效率、收獲率低下的問題,在機器人常規采摘流程中加入果實與果梗位置關系判斷環節。試驗中,使用正確率為85%的MobileNetv3果實果梗位置關系判斷模型的情況下,采摘機器人采摘效率約為76.2%,相比機械臂以固定角度靠近目標執行采摘的方法采摘效率高出28.7個百分點,平均單顆采摘用時為10.4 s,滿足采摘機器人對提升抓取效率、分期采收效果的要求,具有一定實用價值。
[1] 朱光磊,裴新偉. 中國農民規模問題的不同判斷、認知誤區與治理優化[J]. 北京師范大學學報(社會科學版),2021,288(6):127-138.
ZHU Guanglei, PEI Xinwei. The scale of chinese farmers : different judgments, cognitive misunderstandings and governance optimization[J]. Journal of Beijing Normal University (Social Sciences), 2021, 288(6): 127-138. (in Chinese with English abstract)
[2] 蔣和平,王克軍,楊東群. 我國鄉村振興面臨的農村勞動力斷代危機與解決的出路[J]. 江蘇大學學報(社會科學版),2019,21(1):28-34.
JIANG Heping, WANG Kejun, YANG Dongqun. Labor crisi and solution in the revival of rural china[J]. Journal of Jiangsu University(Social Science Edition). 2019, 21(1): 28-34. (in Chinese with English abstract)
[3] 劉成良,貢亮,苑進,等. 農業機器人關鍵技術研究現狀與發展趨勢[J]. 農業機械學報,2022,53(7): 1-22,55.
LIU Chengliang, GONG liang, YUAN Jin, et al. Current status and development trends of agriculture robots[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(7): 1-22, 55. (in Chinese with English abstract)
[4] ZHOU H, WANG X, AU W, et al. Intelligent robots for fruit harvesting: Recent developments and future challenges[J]. Precision Agriculture, 2022, 23(5): 1856-1907.
[5] Kootstra G, WANG X, BLOK P M, et al. Selective harvesting robotics: Current research, trends, and future directions[J]. Current Robotics Reports, 2021, 2: 95-104.
[6] 王海楠,弋景剛,張秀花. 番茄采摘機器人識別與定位技術研究進展[J]. 中國農機化學報,2020,41(5):188-196.
WANG Hainan, YI Jinggang, ZHANG Xiuhua. Research progress on recognition and localization technology of tomato picking robot[J]. Journal of Chinese Agricultural Mechanization, 2020, 41(5): 188-196. (in Chinese with English abstract)
[7] 伍鎣芮,張志勇,韓小平,等. 基于圖像處理技術的番茄成熟度檢測研究[J]. 農業技術與裝備,2021,376(4):50-51,54.
WU Yingrui, ZHANG Zhiyong, HAN Xiaoping, et al. Research on Tomato Maturity Detection Based on Image Processing Technology[J]. Agricultural Technology & Equipment, 2021, 376(4): 50-51, 54. (in Chinese with English abstract)
[8] 岳有軍,孫碧玉,王紅君,等. 基于級聯卷積神經網絡的番茄果實目標檢測[J]. 科學技術與工程,2021,21(6): 2387-2391.
YUE Youjun, SUN Biyu, WANG Hongjun, et al. Object detection of tomato fruit based on cascade RCNN[J].Science Technology and Engineering, 2021, 21( 6): 2387-2391. (in Chinese with English abstract)
[9] TANG Y, CHEN M, WANG C, et al. Recognition and localization methods for vision-based fruit picking robots: A review[J]. Frontiers in Plant Science, 2020, 11: 510.
[10] 鄭太雄,江明哲,馮明馳. 基于視覺的采摘機器人目標識別與定位方法研究綜述[J]. 儀器儀表學報,2021,42(9):28-51.
ZHENG Taixiong, JIANG Mingzhe, FENG Mingchi. Vision based target recognition and location for picking robot: Areview[J]. Scientific Instrument, 2021, 42(9): 28-51. (in Chinese with English abstract)
[11] 李天華,孫萌,婁偉,等. 采摘機器人分割與識別算法的研究現狀[J]. 山東農業科學,2021,53(10):140-148.
LI Tianhua, SUN Meng, LOU Wei, et al. Research status of picking robot segmentation and recognition algorithms[J]. Shandong Agricultural Sciences, 2021, 53(10):140-148. (in Chinese with English abstract)
[12] JUN J, KIM J , SEOL J, et al. Towards an efficient tomato harvesting robot: 3D perception, manipulation, and end-effector[J]. IEEE Access, 2021, 9: 17631-17640.
[13] REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/OL]. arXiv preprint arXiv:1804.02767, 2018.
[14] 張勤,陳建敏,李彬,等. 基于RGB-D信息融合和目標檢測的番茄串采摘點識別定位方法[J]. 農業工程學報,2021,37(18):143-152.
ZHANG Qin, CHEN Jianmin, LI Bin, et al. Method for recognizing and locating tomato cluster picking points based on RGB-D information fusion and target detection[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 143-152. (in Chinese with English abstract)
[15] 張勤,劉豐溥,蔣先平,等. 番茄串收機械臂運動規劃方法與試驗[J]. 農業工程學報,2021,37(9):149-156.
ZHANG Qin, LIU Fengpu, JIANG Xianping, et al. Motion planning method and experiments of tomato bunch harvesting manipulator[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(9): 149-156. (in Chinese with English abstract)
[16] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. arXiv preprint arXiv: 2004.10934, 2020.
[17] WANG L L, ZHAO B, FAN J W, et al. Development of a tomato harvesting robot used in greenhouse[J]. International Journal of Agriculture and Biological Engineering, 2017, 10(4): 140-149.
[18] 李天華,孫萌,丁小明,等. 基于YOLO v4+HSV的成熟期番茄識別方法[J]. 農業工程學報,2021,37(21):183-190.
LI Tianhua, SUN Meng, DING Xiaoming, et al. Tomato recognition method at the ripening stage based on YOLO v4 and HSV[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 183-190. (in Chinese with English abstract)
[19] BENAVIDES M, CANTóN-GARBíN M, SáNCHEZ- MOLINA J A, et al. Automatic tomato and peduncle location system based on computer vision for use in robotized harvesting[J]. Applied Sciences, 2020, 10(17): 5887-5908.
[20] ZHANG L, JIA J, GUI G, et al. Deep learning based improved classification system for designing tomato harvesting robot[J]. IEEE Access, 2018, 6: 67940-67950.
[21] AFONSO M, FONTEIJN H, FIORENTIN F S, et al. Tomato fruit detection and counting in greenhouses using deep Learning[J]. Frontiers in Plant Science, 2020, 11: 571299-571311.
[22] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]. Proceedings of 2017 Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2980-2988.
[23] 龍潔花,趙春江,林森,等. 改進Mask R-CNN的溫室環境下不同成熟度番茄果實分割方法[J]. 農業工程學報,2021,37(18):100-108.
LONG Jiehua, ZHAO Chunjiang, LIN Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 100-108. (in Chinese with English abstract)
[24] JIA W, ZHANG Y, LIAN J, et al. Apple harvesting robot under information technology: a review[J]. International Journal of Advanced Robotic Systems, 2020, 17(3): 1-16.
[25] 章永年,張任飛,孫曄,等. 局部按壓對不同成熟度番茄機械損傷的影響[J].農業工程學報,2021,37(11):292-298.
ZHANG Yongnian, ZHANG Renfei, SUN Guoxiang, et al. Effects of local compression on the mechanical damage of tomato with different maturity[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(11): 292-298. (in Chinese with English abstract)
[26] TANG Y, ZHOU H, WANG H, et al. Fruit detection and positioning technology for aC. Abel orchard based on improved YOLOv4-tiny model and binocular stereo vision[J]. Expert Systems with Applications, 2023, 211: 118573.
[27] 劉芳,劉玉坤,林森,,等. 基于改進型YOLO的復雜環境下番茄果實快速識別方法[J]. 農業機械學報,2020,51(6):239-248.
LIU Fang, LIU Yukun, LIN Sen, et al. Fast recognition method for tomatoes under complex environments based on improved YOLO[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(6): 239-248. (in Chinese with English abstract)
[28] 閆彬,樊攀,王美茸,等. 基于改進YOLOv5m的采摘機器人蘋果采摘方式實時識別[J]. 農業機械學報,2022,53(9):28-38,59.
YAN Bin, FAN Pan, WANG Meirong, et al. Real-time Apple picking pattern recognition for picking robot based on improved YOLOv5m[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(9): 28-38, 59.(in Chinese with English abstract)
[29] TIAN Y, YANG G, WANG Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157:417-426.
[30] HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, 2019: 1314-1324.
[31] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017: 1704-1712.
[32] SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]. IEEE. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 4510- 4520.
Design and experiment of an automatic cherry tomato harvesting system based on cascade vision detection
LI Xingxu1,2, CHEN Wenbai1, WANG Yiqun1, YANG Shun3, WU Huarui2, ZHAO Chunjiang2※
(1.,,100192,; 2.,100097,; 3..,.,100085,)
Cherry tomatoes are a small variety of tomatoes with a shape size of not large than 2.5 cm and mostly grow in bunches. Furthermore, the bunches of cherry tomatoes also grow in variable postures. These growth conditions have posed a great challenge to the harvesting robot at a fixed angle. Once the robots automatically perform single-fruit harvesting operations, the stems can be found to usually interfere with the end-effectors, resulting in low picking efficiency. The reason may be that the picking robots cannot move towards commercialization. Particularly, not all fruits in a tomato bunch grow and ripen simultaneously. It is very necessary to pick the ripe fruits on time, in order to ensure a fresh taste with high economic profits. Therefore, a robotic vision system is highly required to rapidly and accurately identify fruit ripeness. In this study, a cascaded vision detection approach was proposed to harvest the single tomatoes from the robotic spikes. The processing procedure included three key aspects: the detection of the harvesting target, the determination of target maturity, and the fruit-stalk position relationship. Firstly, the YOLOv5 model of target detection was introduced to detect the tomato fruits and bunches. The tomato fruits were labelled into four categories using agronomic growing and harvesting requirements, including green, turning, ripe, and fully ripe fruit. It was totally difference from the simply classified ripeness than before. Among them, the ripe, and fully ripe fruit were targeted for robotic harvesting. The overlap of visual features was then fully considered for ripeness determination and target detection. The original YOLOv5 was improved for ripeness detection using multi-task learning. The robot was confined to only picking the tomatoes on both sides of the culture rack, due mainly to the structure of the greenhouse facility. The target detection was then filtered out for the targets beyond the execution range of the robot. The distance was also set as 1.55 m between the culture racks in this case. The region of interest (ROI) of the target fruit was then approximated as an ellipsoid with an equatorial diameter and a polar diameter of approximately 2.5 cm. The pinhole camera model was used to calculate the ROI picking range. Specifically, the tomatoes growing on the incubator outside the working range of the robot were mostly smaller than the 10 pixel×10 pixel region in the 640 pixel×640 pixel RGB image. At the same time, a large number of feature layers were cropped to choose the unlabeled targets in the annotation stage. As such, better performance was achieved to reduce the labor cost, particularly when filtering the targets without being captured. This end-to-end approach was required without post-processing. It was much more adaptable to real scenarios, compared with the traditional approach of filtering targets by the threshold setting. The field experiments show that the fruit stalk interfering with the end-effector was a major cause of robot picking failure or low efficiency. Correspondingly, the optimal angle was one of the most important parameters for the harvesting action. After the screening of targets to be picked, the target rectangle detection box was enlarged by 10% in length and width, in order to contain the peripheral information, such as pedicels and calyces. The expanded image block was then input into the Mobilenetv3 network model, in order to evaluate the relative position relationship between the target fruit and the fruit stalk. As such, the input was provided for the end-effector to change the picking position, and then choose the direction favorable for the fruit picking, in order to approach the fruit and then perform the action using the pose of the string. A harvesting robot system was also built consisting of a depth camera, a four-degree-of-freedom robot arm, a chassis, and a negative-pressure end-effector. The harvesting system was tested in the greenhouses at different times of the year, particularly for object detection, the prediction of the position relationship between fruit stalks, and fruit harvesting. The results showed that the average detection accuracy of cherry tomato bunches and fruits with different ripeness reached 89.9% with the Intersection over the union threshold of 0.5. The average inference time was 22 ms in the cascade detection system. Furthermore, the harvesting efficiency was improved by 28.7 percentage points, compared with targeting to be picked at a fixed angle. The average time was 10.4 s per fruit for harvesting fruits, indicating the better performance of the improved system. This finding can also provide a strong reference for fruit and vegetable harvesting robots.
robot; object detection; greenhouse; cherry tomato; YOLOv5
10.11975/j.issn.1002-6819.202210099
TP391.4
A
1002-6819(2023)-01-0136-10
李興旭,陳雯柏,王一群,等. 基于級聯視覺檢測的櫻桃番茄自動采收系統設計與試驗[J]. 農業工程學報,2023,39(1):136-145.doi:10.11975/j.issn.1002-6819.202210099 http://www.tcsae.org
LI Xingxu, CHEN Wenbai, WANG Yiqun, et al. Design and experiment of an automatic cherry tomato harvesting system based on cascade vision detection[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(1): 136-145. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.202210099 http://www.tcsae.org
2022-10-13
2022-12-26
財政部和農業農村部,國家現代農業產業技術體系(CARS-23-D07);科技創新2030“新一代人工智能”重大項目(2021ZD0113600)
李興旭,研究方向為智能農業機器人。Email:lixx@nercita.org.cn
趙春江,研究員,研究方向為農業信息技術與精準農業技術體系。Email:zhaocj@nercita.org.cn