馮青春,成 偉,李亞軍,王博文,陳立平
(1. 北京市農林科學院智能裝備技術研究中心,北京 100097;2. 國家農業智能裝備工程技術研究中心,北京 100097;3. 農業智能裝備技術北京市重點實驗室,北京 100097)
番茄是全球廣泛種植的大宗蔬菜,對于保障人類營養需求具有重要作用。中國番茄種植規模和產量居全球首位,全國種植面積約100萬hm,年產量約6 100萬t,占全球番茄總產量的35%,產值占中國蔬菜總產值的12%,是菜農增收、蔬菜產業發展的重要支撐。整枝打葉是番茄栽培管理的必要環節,幾乎貫穿整個生產周期。及時摘除成熟變色果實區域的側枝葉片,可以調節植株營養和生殖生長平衡,改善通風透光條件,降低病蟲害發生風險,對于提高番茄產量和品質具有重要意義。然而每周2~3次的人工整枝打葉,是目前工廠化番茄種植過程中操作最復雜、效率最低、人力投入最大的生產環節之一,約消耗人力成本總投入的40%~60%。研發溫室番茄整枝打葉機器人,代替人工作業,對于提升番茄種植效益具有重要意義。
近年來,歐美國家果蔬整枝打葉機器人研發應用成果顯著,部分產品初步實現了產業應用。準確識別和定位植株主莖和側枝目標是機器人整枝的必要依據。然而番茄植株主莖、葉片與側枝色彩相近、叢生交錯、無序生長,基于有限特征閾值的傳統分類方法較難實現圖像目標區域的準確分割。融合色彩、形態以及紋理特征的多尺度信息建立自適應語義分割模型,可以有效改善番茄莖稈目標的識別和分割效果。
以多層卷積特征提取網絡為核心的深度學習模型,其“端到端”的模型結構和算法的可遷移性,避免了傳統機器學習模型的復雜構建過程,并且具有更高的識別精度,對于農業作業對象復雜視覺信息的感知具有獨特優勢。目標識別方面,孫哲等提出了一種基于Faser R-CNN的自然環境下西蘭花幼苗檢測方法,平均精度達到91%;Henry等提出了一種基于全卷積網絡的奇異果識別方法,并應用于采摘機器人,對密集果實的探測準確率達到76.3%;趙德安等提出了基于YOLOv3深度卷積神經網絡的蘋果定位方法,果實識別準確率為97%;孫紅等建立了基于SSDLite-MobileDet輕量化網絡模型的玉米冠層識別模型,識別精度為91%,檢測幀頻89幀/s。目標分割方面,Yu等通過對Mask R-CNN語義分割模型的遷移訓練,實現了對重疊草莓圖像區域的識別,分割準確率為89.5%;鄧穎等建立了基于改進Mask R-CNN的柑橘花朵分割模型,平均精度36.3%,花量計數誤差11.9%;龍潔花等引入CSPNet改進Mask R-CNN的ResNet,對不同成熟度番茄果實識別正確率為90%;Loyani等基于Mask R-CNN識別番茄葉片赤霉病斑,精度達到85.67%;Liu等采用改進的Mask R-CNN對近色背景下的黃瓜果實進行分割,識別精度1值為89.47%。目前基于深度學習模型的植物花、葉和果目標識別,主要以固定尺度和視角場景為主。然而番茄側枝隨機分布于高大植株不同區域,攝像機需要以動態變化的視場尺度和視角采集圖像。因此,了解深度學習模型對于不同遠近視場尺度和拍攝視角場景下莖稈的識別分割效果,是構建整枝機器人視覺系統的必要依據。
本文以工廠化番茄植株為研究對象,以不同生長階段、遠近視場尺度和拍攝視角的植株圖像為樣本,建立基于Mask R-CNN的莖稈分割模型,研究以離散主莖和側枝位置關系為約束的整枝操作點定位方法,并通過試驗評估算法對不同場景下目標的識別定位效果,從而為整枝機器人研發提供技術依據。
中國工廠化溫室番茄普遍采用單桿整枝栽培方式,即只保留植株主莖,植株底部枝葉全部摘除。單次整枝打葉需要摘除植株成熟變色果實上方的2~3片側枝(圖1)。在植株結果生產期間,果實沿主莖自下而上依次生長和成熟,需要定期對植株不同區域進行整枝打葉。

圖1 番茄植株整枝打葉Fig.1 Tomato plant pruning
整枝操作需要在植株側枝和主莖的結合點處,通過折擰或者切割的方式將二者分離,以摘掉側枝。因此,側枝與主莖的結合點即為整枝操作點。如圖2所示,該目標點為主莖和側枝中心線交點沿側枝中心線偏移主莖半徑距離后得到的點。識別分割主莖和側枝像素區域,是對整枝操作點定位的必要前提。

圖2 整枝操作點定位原理Fig.2 Principle of locating pruning point
番茄植株圖像中莖桿與葉片和果實背景顏色相近、姿態各異、叢生交錯,傳統的閾值分割和色差分割算法難以對其進行準確識別和分割。鑒于深度卷積模型具備特征提取和識別的獨特優勢,本文選用Mask R-CNN對番茄主莖和側枝兩類莖稈目標進行識別和分割。Mask R-CNN算法流程如圖3所示,主要包括以下步驟:
1)通過特征提取網絡ResNet50+FPN對輸入圖像數據進行多尺度信息的提取和融合,并生成一系列特征圖。
2)根據特征圖與輸入圖像的映射關系,設置各種尺度比例和形態的矩形錨點框,區域建議網絡(Region Proposal Network,RPN)對特征圖進行滑窗掃描,對框內目標和輪廓進行初步判斷,形成候選目標區域。
3)為了匹配后端全連接層固定數量的輸入節點,RoIAlign(Region of Interest Align network)算法對各個候選區域的特征圖規格進行標準化變換,將RPN網絡獲得的目標候選區域與特征圖進行匹配對齊。
4)標準化的候選區域特征圖,分別輸入目標檢測和分割兩個分支網絡。前者通過全連接層(Full Connection,FC)識別主莖和側枝目標類別,并定位其各自邊界框位置;后者通過全卷積網絡(Fully Convolutional Networks,FCN)對主莖和側枝目標像素區域進行分割。

圖3 Mask R-CNN模型架構Fig.3 Mask R-CNN model architecture
除了自身外觀特征,目標在圖像中的成像特征還決定于拍攝角度和成像距離。鑒于番茄整枝幾乎貫穿整個生長周期,自然生長的主莖和側枝個體之間位置和形態各不相同,本文選用的植株樣本包括生長期植株(側枝目標主要生長于主莖底部區域,如圖4a所示)和生產期植株(主莖底部側枝已經被去除,側枝主要生長于植株中部區域,如圖4b所示);樣本圖像視場尺度分為遠景視場(包含3個以上側枝)和近景視場(包含1~2個側枝);樣本圖像的拍攝角度分為仰視視場(從側枝下方采集圖像)和正視視場(從水平正視方向采集圖像)。如圖4所示,番茄植株圖像數據集可分為8組圖像樣本。

圖4 圖像樣本舉例Fig.4 Example of image samples
在溫室內共采集各組圖像1 500幅,為了提高模型訓練和檢測效率,圖像樣本設置為720×720像素規格。通過隨機添加高斯噪聲,將樣本擴充至3 000幅。按照8∶2的比例劃分為訓練集與驗證集,8組圖像樣本訓練集和驗證集樣本數量均分別為300和75。
由莖稈圖像觀察可知,主莖與側枝相間生長,主莖呈豎直傾斜姿態,側枝在其兩側生長,呈橫向傾斜姿態。為了模型能夠充分解析二者的特征,將側枝之間的離散主莖標注為一類目標,側枝及其與主莖的連接區域標注為另一類目標。采用Labelme標注工具,通過沿主莖和側枝輪廓多邊形描點方式,對圖片內的目標區域分別進行標注,并生成json文件保存標注信息。
本文選用的Mast RCNN預訓練模型,來自于香港中文大學Multimedia Laboratory開發的基于PyTorch的開源對象檢測工具箱MMDetection。深度學習工作站主要硬件配置包括Intel i7-10700K CPU、NVIDIA 1080TI GPU、DDR4 16GB內存。
訓練方法采用微調遷移訓練方法,具體步驟包括:1)以預訓練模型的特征提取網絡權值對Mask R-CNN網絡進行初始化,而后端目標分類、邊框回歸和全卷積網絡參數為隨機初始化;2)凍結特征提取網絡權值參數,設置學習率0.02對后端網絡進行訓練;3)設置學習率0.002,對整個網絡權值參數進行微調訓練。
對2 400個訓練集圖像樣本進行200次重復訓練,模型更新迭代12萬次(單次迭代樣本批量為4),每次迭代耗時0.12 s,總耗時30 h。當迭代5萬次時,將學習率調整至0.1倍,最終10萬次迭代以后,模型各項損失下降趨于平穩。模型各項損失函數和總體識別精確度隨模型迭代次數變化如圖5所示,最終總體損失函數值為0.126、平均精度均值(mean Average Precision,mAP)為0.866。

圖5 損失函數與平均精度均值變化曲線Fig.5 Loss function and mean Average Precision (mAP) curve
模型對莖稈目標類別識別和區域分割效果如圖6所示,主莖區域被標注為藍色掩膜,側枝區域被標注為紅色掩膜。

圖6 Mask R-CNN識別結果Fig.6 Identification result of Mask R-CNN
在同一植株上,且處于相鄰位置的主莖和側枝中心線交點才能作為整枝操作參考點。對于圖像中屬于不同植株,隨機分布的主莖和側枝,明確離散主莖和側枝目標區域相對植株的從屬關系和位置關系,是對整枝操作點進行定位的必要依據。



圖7 主莖與側枝位置關系判別Fig.7 Relative location estimation of main stem and lateral branch







圖8 中心線擬合與整枝操作點定位Fig.8 Centerline fitting and pruning point locating







為了驗證整枝操作點的識別定位效果,結合工廠化番茄溫室實際作業工況條件特點,進一步采集番茄植株圖像,建立與訓練集樣本構成相同比例的測試集,包括遠景和近景視場、正視和仰視視角、生長期和生產期植株圖像樣本80幅。模型自動輸出和保存對圖像中主莖和側枝離散區域的識別和分割結果,并記錄整枝操作點的圖像坐標。
1)主莖和側枝目標識別精度評估

2)整枝操作點定位精度評估
以操作點自動識別定位結果與人工標注結果的圖像坐標偏差,評價模型對操作點的定位精度。鑒于坐標絕對偏差在不同遠近尺度圖像內表示的物理距離不同,無法定量表征真實定位誤差。假設番茄植株整枝區域主莖的物理直徑是常數,表示主莖在不同遠近尺度圖像樣本中的像素寬度。以自動識別和人工標注整枝操作點圖像像素偏差距離與的比值,表征操作點圖像定位誤差。
對測試集80幅圖像進行人工檢測,其中每個場景分組各10幅。測試集莖稈目標分布涉及94株番茄植株,其中14幅圖像包含2株以上。測試集共包含離散主莖區域224個、側枝區域163個、標定整枝操作點163個。每幅圖像平均包含主莖區域2.80個、側枝2.03個。具體統計如表1所示。

表1 測試集莖稈目標人工標注統計Table 1 Manual identification results on test set
1)主莖和側枝目標識別結果與分析
將測試集圖像分別輸入自動識別模型,根據圖像場景特征對識別結果進行分組統計。模型對測試集圖像樣本內的主莖和側枝目標識別分類結果如表2所示。

表2 測試集中主莖和側枝目標識別結果Table 2 Identification results for main stems and lateral branches in test sample set
以人工檢測結果為對照,正確識別主莖和側枝數量分別為211和154、誤判數量分別為6和19、未被識別的數量為13和9,其中近景仰視圖像中錯誤和未被識別的主莖和側枝數量均為0,遠景仰視圖像中錯誤和未被識別的側枝數量為0。
對于全體測試集樣本,主莖識別錯誤率(0.08)低于側枝(0.17)。生長期植株的仰視遠景圖像和生產期植株的正視近景圖像中主莖識別錯誤較大,分別為0.17和0.16,主要原因為:1)前者植株底部葉片較多,主莖受到葉片遮擋(圖9a),識別難度增大,從而導致未識別的主莖較多(29個主莖中6個未被識別);2)后者枝葉普遍相對較粗(圖9b),4個側枝或葉柄被錯判為主莖。生產期遠近景的正視圖像中側枝識別錯誤均較大,分別為0.43和0.31,主要原因為:正視條件下果柄被誤判為側枝(圖9c),隨著生產期植株果實數量增加,識別錯誤率更高。此外,生產期植株的遠景正視圖像中,受其他枝葉遮擋(圖9d),8個側枝未被識別,導致錯誤率較高為0.28。

圖9 目標錯誤識別結果Fig.9 False identification results
如表3所示,模型對于主莖和側枝的總體識別錯誤率、精確率和召回率分別為0.12、0.93和0.94,并且對于生長期和生產期的近景仰視圖像樣本均具有最好的識別效果,即模型對于近景仰視的番茄植株場景具有較好的適應性。該場景下主莖和側枝受到遮擋較少,同時仰視條件下果柄被果實遮擋,在圖像中出現較少,從而避免了被誤判為側枝。

表3 目標識別精度統計Table 3 Targets identification accuracy statistics
2)整枝操作點定位結果與分析
本文將不同尺度圖像中整枝操作點定位像素偏差與主莖像素寬度的比值作為其定位誤差,統計如表4所示。全體測試集樣本圖像中,整枝操作點的圖像定位誤差平均值為0.34。不同場景中最大誤差平均值為0.47、最小誤差平均值為0.11。對于生長期植株的正視遠景圖像,誤差最大為0.76,生產期植株的仰視近景圖像,誤差最小為0.03。由于與生產期植株相比,生長期植株的主莖較細,因此生長期植株圖像樣本的操作點定位誤差普遍偏大。同時,由于近景圖像樣本具有較高的目標分割精度,因此近景圖像的操作點定位精度較高。此外,相比正視場景,仰視場景圖像中側枝自身彎曲特征被弱化,側枝中心線擬合較為準確,整枝操作點的定位誤差較小。

表4 整枝操作點圖像定位誤差統計Table 4 Pruning point location pixel error statistics
假設番茄主莖直徑為15 mm(人工測量統計的平均值),由表4可知,整枝操作點的絕對定位誤差平均值為5.12 mm、最大誤差11.4 mm、最小誤差0.45 mm。考慮到側枝平均直徑約為10 mm、可夾持長度約150 mm,為了包容整枝操作點定位誤差,側枝夾持手爪有效行程最大增加11.4 mm。該額外行程的增加對手爪構型設計、運動控制方面構成的技術風險較小,因此認為本文定位精度可以滿足整枝機器人的作業需要。
針對番茄智能化整枝莖稈目標視覺信息獲取需要,綜合考慮植株生長階段、遠景視場以及拍攝角度等因素,建立了番茄植株莖稈圖像樣本數據集,采用微調遷移訓練方法,建立了基于Mask R-CNN的主莖和側枝目標識別分割模型。通過離散莖稈區域圖像位置關系判別,實現了整枝操作點的定位。
試驗結果表明,對于不同場景的圖像樣本,Mask R-CNN模型對主莖和側枝識別的錯誤率、準確率和召回率分別為0.12、0.93和0.94,并且對于仰視近景視場具有更好識別效果。對于整枝操作點定位誤差的平均值、最大值和最小值與對應主莖像素寬度的比值分別為0.34、0.76和0.03。若設定主莖直徑為15 mm,枝操作點的定位誤差平均值為5.12 mm、最大誤差11.4 mm、最小誤差0.45 mm,同樣在仰視近景場景下定位精度較高。因此,仰視近景圖像信息獲取有利于整枝目標視覺信息的準確獲取,本文研究結論為后期開展整枝機器人視覺系統研發提供了設計依據。
此外,由于本文算法僅限于二維圖像特征處理,缺乏莖稈形態立體信息融合,對于整枝操作點定位方法和精度評估試驗,尚有待改進之處,可進一步采用深度相機獲取莖稈立體位姿信息,以得到更加精確定位效果。