李守豪 孫宇朝 楊 瑋 張煥春 夏秀波*
(1中國農業大學現代精細農業系統集成研究教育部重點實驗室,北京 100083;2山東省煙臺市農業科學研究院,煙臺,265500;3煙臺市智慧農業研究中心,煙臺 265500)
我國是一個水果生產和消費大國[1],水果產業是我國農業農村經濟發展中的重要組成部分,在我國農業生產、農民增收方面做出了重大貢獻,對推進我國農業領域的供給側結構性改革、實現國家鄉村振興戰略具有重大意義。隨著社會的快速發展,我國人口老齡化形勢愈加嚴峻,農村大量青壯年外流,使得農村勞動力大大減少[2],而我國大部分地區水果采收仍然以人工采摘為主,勞動力成本逐年上升。因此,機器人代替人工的智能采摘將成為水果采收的必然趨勢[3]。水果果實視覺檢測技術是果實采摘機器人中最重要的技術之一,該技術通過搭載的相機模塊對各類環境下的不同信息進行感知進而捕獲檢測目標,將其目標的各類屬性及立體坐標返回到采摘機器人計算機中。而目標果實檢測的準確性與速度是衡量視覺識別系統先進性的重要指標。近年來,基于深度學習的目標檢測算法在人工智能領域迅猛發展,對提高采摘機器人的視覺檢測性能提供了強有力的技術支撐,其在提升目標檢測精度與速度等方面均展現出巨大潛能。
傳統的數字圖像處理技術是基于果實的顏色、紋理、形狀等單個或多個特征融合的方法將果實從圖像中檢測出來[4]。丁亞蘭等人[5]采用了R-B顏色因子固定閾值法進行獼猴桃果實的圖像分割,將93作為固定閾值把獼猴桃果實從背景中分割出來,分割效率大于82%,但當獼猴桃圖像背景中存在反光樹葉時,識別效果不佳。傳統的圖像處理技術受自然環境下的光照強弱、果實與枝葉色差大小等因素影響較大,在田間自然條件下果實的識別效果難以有較大提升。
基于機器學習的目標檢測算法主要是通過提取大量果實樣本數據的特征來人工設計特征提取器進而進行果實檢測[6]。其中,K-means聚類算法是一種被廣泛使用的無監督學習分類方法,如,Wang等人[7]提出了一種基于K-means聚類的荔枝識別算法,能夠較好地減少光照強弱的影響,在有遮擋和果實重疊下也有較好的識別精度。目前像貝葉斯分類器算法、支持向量機SVM算法等眾多機器學習圖像分割算法已經應用到了果實的識別中且表現良好。但是傳統機器學習算法特征提取復雜且困難、網絡結構泛化能力較差且不利于多類別目標的檢測,因此在自然環境相對復雜的果園中受多種因素影響,其識別效果并不理想。
與傳統的機器相比,基于深度學習的目標檢測算法通過構建深度卷積神經網絡直接由網絡自身提取目標的特征,進行訓練學習,進而對目標物體進行識別檢測。其特征學習全面性高,適應性好,檢測精度與速率均有較大提升[8]。基于深度學習的目標檢測算法主要分為one-stage和two-stage兩類,前者較后者在速度上有更大的優勢,而精度上會略顯不足。在YOLOv1提出之前,目標檢測領域的R-CNN系列算法一枝獨秀,R-CNN系列算法網絡結構具有雙階段(two-stage)檢測精度高的特點,但檢測速度難以滿足實時性的要求。YOLO的核心思想就是把目標檢測轉變成一個回歸問題,把整張圖像作為網絡的輸入,直接在輸出層回歸得到邊界框(bounding box)的位置及其所屬的類別。目前對于果實的識別與檢測,深度學習的主要使用算法有R-CNN(Region Convolutional Neural Networks)系列、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)系列等。
Girshick等人[9]提出了區域卷積網絡目標檢測框架R-CNN(Regions with CNN features),屬于兩階段的目標檢測算法,使用預先訓練好的卷積神經網絡來抽取特征,有效的提升了識別精度;朱旭等人[10]提出了基于Faster R-CNN的藍莓冠層果實檢測識別方法,通過自己構建數據集,使用改進的Faster R-CNN進行訓練,所得到的模型平均識別準確率可以達到94%以上,可以為自動采摘以及估產提供一定的技術支持;Joseph等人[11]提出YOLO(You Only Look Once)算法,屬于單階段的目標檢測,該算法的最大優勢就是檢測速度非常快,盡管當時的精度與Faster-RCNN相比稍有不足,尤其是在小目標檢測方面及定位的準確度方面,但隨著YOLOv7的發布,該算法系列已成為目前最先進的目標檢測算法之一。黃彤鑌等人[12]為實現在自然環境下對柑橘果實的識別,通過引入(CBAM)注意力機制模塊來提高網絡的特征提取能力,提出一種基于YOLOv5改進模型的柑橘識別方法,用α-IoU損失函數代替GIoU損失函數作為邊界框回歸損失函數,試驗結果表明模型平均精度AP值達到91.3%,在GPU上對單張柑橘果實圖像的檢測時間為16.7 ms,模型占用內存為14.5 Mb,為蘋果采收機器人在復雜的果園背景下能夠快速、高效的實現蘋果檢測提供理論基礎。
果實采摘機器人的視覺檢測技術不僅需要準確地識別出目標物體,還要計算出目標物體的三維坐標并返回到采摘機器人的計算中心。目前,果實目標三維定位算法根據其傳感器類型可分為單目相機、雙目相機、多目相機、激光測距儀、深度相機及光基3D相機等[13],其中基于單目相機的目標檢測辦法具有結構簡單、成本低、便于標定和識別等特點,但該方法僅依據一幅圖像無法恢復目標物體的三維位置,且定位精度受光照強度影響較大,不適合自然條件下高精度的目標定位;激光測距儀與光基3D相機雖具有測量距離遠、定位精度高等優勢,但該方法成本較高且不適用于室外環境。而基于雙目相機和深度相機的定位方法較其他方法在采摘機器人機器視覺識別系統上更有優勢,在復雜的自然環境下具有較高的定位精度。
基于雙目相機的成本低、圖像分辨率與物體測量精度較高、適合于近距離下室內和室外環境、抗干擾能力強等特點[14],該相機被廣泛地應用于果實的定位檢測。林中豪等人[15]設計了一種葡萄園田間雙目測距系統,該系統采用BM匹配算法測量葡萄枝葉與機器人間距離,測距誤差小于3%,為葡萄園監控機器人的應用奠定了技術基礎。為了實現對蘋果的識別和定位,祁金文等人[16]提出了一種基于YOLOv5算法和雙目相機的蘋果目標識別和定位的改進算法,該算法基于雙目相機使用視差法進行三維空間定位最終平均誤差在15.9 mm,平均相對誤差在2.41%左右,可以快速準確識別和定位蘋果目標,對蘋果采摘機器人的研究提供了技術支撐,奠定了前期工作基礎。
目標檢測與定位技術等視覺檢測技術雖在果實采摘機器人上的研究已經取得了相當大的進展,但是依舊存在不少問題有待解決,例如如何在復雜的自然果園環境下進一步提升對目標果實識別與定位的準確度,如何在保持準確度的條件下進一步提高檢測速度,以達到農業生產中采摘機器人的實時性要求,如何在保障檢測準確度與速度的同時進一步簡化模型,以降低對硬件設備的高性能要求,便于農業生產工具的部署與推廣。
隨著視覺檢測技術的發展,未來的采摘機器人對果實的檢測與定位應是多傳感器信息融合的結果,不僅僅具有簡單的識別和定位功能,而是集果實的多品種識別、成熟度分級、質量分級、大小分級、產量估計與精確三維定位于一體的采摘即分級的綜合性采摘系統。