





摘要:為實現西梅采摘機器人在復雜自然生長環境下對西梅果實的快速、準確識別定位,提出一種基于圖像與深度信息融合的西梅果實識別定位方法。首先采集西梅圖像,并通過數據增強建立陰天、沙塵等環境和不同角度下的西梅圖像數據集,然后利用彩色圖像基于YOLOv7網絡模型快速識別西梅果實,獲取果實表面中心點,再通過匹配融合彩色圖和深度信息,采用深度距離分割剔除背景干擾噪聲,實現西梅果實表面中心點的三維空間定位。試驗結果表明,西梅果實識別模型可在多種果實生長分布場景下實現西梅果實的識別,其識別F1值最高為95.8%,最低為83.2%;融合圖像與深度信息的定位方法具有良好的定位效果,當深度距離小于1 m時,算法在各軸向上的定位誤差均在0.005 m內;當深度距離為1.5 m時,誤差最高為0.013 m,可滿足西梅果實的識別定位要求。
關鍵詞:西梅;目標識別;三維定位;信息融合;YOLOv7
中圖分類號:S662.4; TP391.4" " " 文獻標識碼:A" " " 文章編號:2095?5553 (2024) 09?0172?06
Recognition and positioning method of prune fruit based on fusion of image
and depth information
Xiong Mingming Li Xiaojuan
(1. College of Mechanical Engineering, Xinjiang University, Urumqi, 830017, China; 2. Postdoctoral Research Station, Xinjiang Institute of Industrial Economics and Information Technology, Urumqi, 830091, China)
Abstract: In order to realize the rapid and accurate identification and positioning of prune fruit by the prune picking robot in the complex natural growth environment, a method for prune fruit identification and positioning based on the fusion of image and depth information was proposed. Firstly, the image of prune was collected, and data enhancement was used to establish prune image data sets under cloudy days, dusty environment and different angles, and then the color image was used to quickly identify prune fruits based on the YOLOv7 network model, the center point of the fruit surface was obtained. By matching and blending the color image and depth information, the depth distance segmentation was adopted to eliminate" the background interference noise, to realize the three?dimensional spatial positioning of the center point on the prune fruit surface. The experimental results show that the prune fruit recognition model can realize the recognition of prune fruits in a variety of fruit growth and distribution scenarios, and its recognition F1 value is 95.8% at the highest and 83.2% at the lowest, the positioning method of fusion image and depth information has a good effect positioning effect, when the depth distance is less than 1 m, the positioning error of the algorithm in each axis is within 0.005 m, when the distance is 1.5 m, the maximum error is up to 0.013 m, which can meet the requirements of recognition and positioning of prune fruit.
Keywords: prune; object identification; three?dimensional positioning; information fusion; YOLOv7
0 引言
新疆喀什地區是我國西梅種質資源、果品的主要分布和集中產區之一。西梅果實采收仍依賴人工,受產業高速發展影響,西梅生產需求同勞動力短缺矛盾日趨顯現。因此,探索更為高效、自動化、智能化的采摘方式是西梅產業發展的必然趨勢,其中果實識別定位是西梅智能采摘的關鍵性支撐技術。
近年來,國內外學者根據不同的視覺處理算法開展了果實采摘點的識別定位研究,分為基于色值[1, 2]、形態[3, 4]的傳統圖像處理方法[1?4]和基于神經網絡與深度學習方法[5?9]。Benavides等[1]通過基于顏色特征的變換和形態學操作識別分割單個番茄果實區域,實現番茄果實中心和果梗的二維定位。寧政通等[8]根據葡萄生長特點,采用改進Mask R-CNN結合區域生長算法分割果梗,計算果梗區域質心,進而確定采摘點。上述研究雖然實現了果實的識別定位,但僅是對平面圖像信息進行處理,未能實現果實采摘點的空間三維定位。
隨著深度相機技術發展,根據不同的定位原理,學者們開展了果實的定位研究,分為飛行時間法(ToF)[10?13]、雙目視覺法[14, 15]和結構光法[16?18]。麥春艷等[10]通過基于飛行時間的深度相機獲取目標點云信息,對蘋果果樹進行三維重構,并以色彩分割和立體形狀提取實現果實的識別與定位。羅陸鋒等[14]基于雙目立體視覺,通過圖像分割、霍夫直線、圓檢測和立體匹配法進行葡萄的識別與定位,構建葡萄空間包圍體。Cupec等[16]驗證了RGB-D相機通過檢測凸特性來檢測水果的有用性,但僅使用深度圖像來檢測水果,會導致水果過度分割或分割不足,檢測精度較低。上述研究的開展,驗證了將機器視覺與不同定位方法結合實現果實識別定位的可行性,但適用性、實時性有限,難以適應生產需要。
西梅果實嬌小、果梗細短,呈團簇狀生長分布,存在果實交相重疊、枝葉遮蔽掩擋、自然光照環境變化多樣等非可控因素,傳統圖像處理方法特征設計難度大、算法泛化和魯棒性差,現行高精度深度學習方法存在部署能力弱、資源需求大等問題;基于飛行時間和雙目視覺的定位方法,檢測精度有限、計算復雜且耗時高,同時,目前未見針對西梅果實采摘識別定位的研究。為實現在復雜自然環境下西梅果實的快速、精準識別定位,結合結構光法深度相機技術和快速、精準且易于部署的YOLOv7網絡,提出一種基于圖像與深度信息融合的西梅果實識別定位方法。
1 算法構成與數據集構建
1.1 算法構成
基于圖像與深度信息融合的西梅果實識別定位算法,由彩色、深度圖獲取、映射匹配、背景干擾噪聲剔除、基于YOLOv7網絡西梅果實檢測識別和基于圖像與深度信息融合西梅果實定位五部分組成,算法流程如圖1所示。
1.2 數據集構建
1) 數據集采集與篩選。本文西梅圖像數據采集自新疆喀什地區伽師縣西梅種植基地。根據拍攝時景別的遠近、果實的疏密程度和被遮擋果實的遮擋類別,選取2 870幅西梅圖像組成西梅數據集。遠近景別以拍攝時距果實遠近為依據,1 m以內為近景;疏密程度以果實間距離、層疊數為基準,間距寬松、層疊2層以下為稀疏;輕重遮擋以被遮擋果實整體輪廓可見程度判斷,整體輪廓可見為輕遮擋。
2) 數據集標注與增強。通過LabelImg對西梅數據圖像進行標注,引入圖像數據增強技術,通過進行圖像亮度、色調、噪聲、翻轉、平移、裁剪、旋轉等調整操作模擬西梅在不同天氣環境和觀察角度下的果實狀態,同步擴充標注后的西梅數據集中圖像和標簽至8 610個,部分增強效果如圖2所示,并將數據集按照7∶1∶2比例隨機劃分為訓練集、驗證集、測試集。
2 西梅識別定位方法
2.1 基于YOLOv7西梅果實識別
2.1.1 西梅果實檢測識別網絡
西梅果實檢測識別基于YOLOv7[19]網絡,其使用了高效層聚合網絡,采用模塊級參數重參數化、輔助頭檢測與動態標簽分配策略,具有較快的檢測速度和較高的檢測精度,其結構如圖3所示。YOLOv7網絡由Input(輸入)、Backbone(骨干網絡)、Head(頭部)三部分組成,Input提供數據輸入,Backbone用于提取特征,Head用于預測。西梅果實圖像輸入YOLOv7網絡后,經圖片預處理統一縮放為640像素×640像素的分辨率大小,通過80×80、40×40、20×20三種不同尺度的特征圖實現西梅大、中、小目標的檢測,并獲得在每種尺度特征圖下3種不同尺寸的錨點,對各尺度特征圖進行邊界框預測,最終獲取包含檢測框坐標、檢測類別和檢測置信度的西梅目標預測信息。
2.1.2 西梅果實表面中心點獲取
相機采集的彩色圖經過YOLOv7網絡識別后,得到果實矩形檢測框信息,其位置由像素坐標系下檢測框左上角點PTL(xTL,yTL)和右下角點PBR(xBR,yBR)坐標確定,則檢測框中心點為[PCP(xTL+xBR2,yTL+yBR2)],將西梅果實檢測框的中心點作為西梅果實表面中心點,如圖4所示。
2.2 基于圖像與深度信息融合西梅果實定位
2.2.1 圖像與深度信息融合
本文通過Intel RealSense? Depth Camera D435i立體視覺深度相機采集西梅果實場景的彩色和深度圖像,如圖5所示。因深度相機中不同傳感器參數和成像大小存在差異,采集的彩色圖和深度圖未一一對應,故需對彩色圖和深度圖配準,將深度圖映射到彩色圖上,實現圖像與深度信息的融合,獲取彩色圖各像素點對應的深度值。
2.2.2 背景干擾噪聲剔除
西梅果實生長分布場景復雜,前后景物混合疊加且噪聲多,導致西梅果實識別定位效果差。為解決以上問題,根據采摘機器人作業可達范圍,將范圍內的景物視為前景,其余視為背景,通過前、背景深度距離限制剔除復雜且無用的環境背景干擾噪聲,提高果實識別準度,保障果實定位精度。深度距離分界定義如式(1)所示,剔除背景的色彩與深度融合圖像如圖6所示。
2.2.3 西梅果實中心點三維定位
經檢測識別網絡得到的基于像素坐標系的西梅果實表面中心點坐標P(u,v),需在彩色圖和深度圖配準映射后,經過坐標轉換,得到基于相機坐標系下的西梅果實表面中心點三維坐標PCP(xCP,yCP,zCP),實現空間三維定位,轉換公式如式(2)所示。
3 結果與分析
3.1 模型訓練與性能評估
3.1.1 訓練環境及參數設置
模型訓練采用Windows11 64位系統、PyTorch等軟件環境和Intel i5-11400H中央處理器,GeForce RTX 3050 顯卡、16 GB運行內存等硬件配置。采用YOLOv7網絡模型進行訓練,參數設置如表1所示。
3.1.2 模型評估和最優模型選取
本文選擇衡量模型檢測效果和評估模型整體性能的評價指標包含準確率(Precision,P)、召回率(Recall,R)、平均精度均值(mean Average Precision,mAP),計算如式(3)~式(5)所示。
經過500輪訓練迭代后,繪制交并比閾值為0.5時的平均精度均值變化曲線,如圖7所示。由圖7可以看出,模型在前11次迭代時,mAP值變化迅速,在迭代117次之后,趨于穩定,呈小幅度振蕩。從117~500次迭代中選取第426次迭代生成的模型為最優模型,此時mAP值達到最大,為0.974 6。
3.2 西梅果實識別測試
采用由精確率和召回率的調和均值表征的物體檢測模型綜合評價指標F1值評估模型的識別性能,如式(6)所示。
為驗證本文網絡模型的識別性能,對不同場景下的西梅果實測試集圖像進行識別測試,統計不同場景下西梅果實識別結果,如表2所示,部分識別效果如圖8所示。
由表2可知,本文模型在近景別下的識別效果優于遠景別識別效果,近景別識別F1值均在91%以上,遠景別F1值最高為91.2%,最低為83.2%;同時,在同景別下稀疏場景的識別效果總體要優于密集場景;在任意場景下,當果實存在遮擋時,果實在輕遮擋的識別F1值均高于果實在重遮擋的識別的值。本文模型F1值最高為95.8%,最低為83.2%。
3.3 果實定位測試
使用本文識別定位算法計算西梅果實表面中心點理論三維坐標PTheoretical Value(xTV,yTV,zTV)。試驗時,固定相機于支架,在經過手眼標定的機械臂關節末端安裝探針,移動西梅果實標靶至不同距離、高度處,將機械臂末端探針端點運動到西梅果實表面中心點,設在X、Y、Z方向上的定位誤差分別為Δx、Δy、Δz,計算統計探針端點PMeasured Value(xMV,yMV,zMV)與PTheoretical Value(xTV,yTV,zTV)]的坐標差值,取同深度下誤差均值為當前深度誤差,并繪制不同深度距離下的定位誤差曲線,如圖9所示。果實表面中心點三維定位測試場景如圖10所示。
由圖9可以看出,定位誤差隨著距離的增大呈上升趨勢,當深度距離小于1 m時,各軸向上的定位誤差均小于0.005 m;當深度距離大于1 m時,其Z軸方向誤差較其他軸誤差增速明顯;當深度距離為1.5 m時,最大誤差來源自Z軸方向,其定位誤差為0.013 m。深度誤差增大的主要原因是果實目標在視野內的大小變化,受相機獲取深度距離原理和精度限制,越小的果實獲取的數據參數量越少,從而影響果實表面中心點識別定位精度,造成誤差。在采摘機械臂可達工作范圍內,其毫米級定位誤差滿足采摘精度要求,同時,通過末端采摘執行器的容差設計可消除誤差的影響。
4 結論
1) 針對西梅采摘機器人在復雜自然生長環境下對西梅果實的快速、準確識別定位需求,本文研究基于YOLOv7網絡模型和圖像與深度信息融合的西梅果實識別定位方法。本文方法對不同場景下的西梅果實具有良好的識別定位效果,可以滿足采摘機器人采摘工作對果實識別定位的需求。
2) 本文方法對不同生長場景下的西梅果實,其識別F1值最高是近景稀疏輕遮擋果實為95.8%,最低是遠景密集重遮擋果實為83.2%。定位誤差隨深度距離變化而變動,當深度距離小于1 m時,各軸向定位誤差均小于0.005 m;當深度距離為1.5 m時,Z軸向誤差最大,為0.013 m,X、Y軸向誤差小于0.005 m。
參 考 文 獻
[ 1 ] Benavides M, Cantón?Garbín M, Sánchez?Molina J A, et al. Automatic tomato and peduncle location system based on computer vision for use in robotized harvesting [J]. Applied Sciences, 2020, 10(17): 5887.
[ 2 ] 王曉慧, 周昆鵬. 自然環境中的紅色番茄圖像識別方法研究[J]. 浙江大學學報(農業與生命科學版), 2021, 47(3): 395-403.
Wang Xiaohui, Zhou Kunpeng. Research on recognition methods for red tomato image in the natural environment [J]. Journal of Zhejiang University (Agriculture and Life Sciences), 2021, 47(3): 395-403.
[ 3 ] 熊俊濤, 鄒湘軍, 彭紅星, 等. 擾動柑橘采摘的實時識別與采摘點確定技術[J]. 農業機械學報, 2014, 45(8): 38-43.
[ 4 ] 梁喜鳳, 章艷. 串番茄采摘點的識別方法[J]. 中國農機化學報, 2016, 37(11): 13l-134, 149.
Liang Xifeng, Zhang Yan. Recognition method of picking point for tomato cluster [J]. Journal of Chinese Agricultural Mechanization, 2016, 37(11): 131-134, 149.
[ 5 ] Zheng C, Chen P, Pang J, et al. A mango picking vision algorithm on instance segmentation and key point detection from RGB images in an open orchard [J]. Biosystems Engineering, 2021, 206: 32-54.
[ 6 ] 畢松, 高峰, 陳俊文, 等. 基于深度卷積神經網絡的柑橘目標識別方法[J]. 農業機械學報, 2019, 50(5): 181-186.
Bi Song, Gao Feng, Chen Junwen, et al. Detection method of citrus based on deep convolution neural network [J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(5): 181-186.
[ 7 ] 何斌, 張亦博, 龔健林, 等. 基于改進YOLOv5的夜間溫室番茄果實快速識別[J]. 農業機械學報, 2022, 53(5): 201-208.
He Bin, Zhang Yibo, Gong Jianlin, et al. Fast recognition of tomato fruit in greenhouse at night based on improved YOLOv5 [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(5): 201-208.
[ 8 ] 寧政通, 羅陸鋒, 廖嘉欣, 等. 基于深度學習的葡萄果梗識別與最優采摘定位[J]. 農業工程學報, 2021, 37(9): 222-229.
Ning Zhengtong, Luo Lufeng, Liao Jiaxin, et al. Recognition and the optimal picking point location of grape stems based on deep learning [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(9): 222-229.
[ 9 ] 趙德安, 吳任迪, 劉曉洋, 等. 基于YOLO深度卷積神經網絡的復雜背景下機器人采摘蘋果定位[J]. 農業工程學報, 2019, 35(3): 164-173.
Zhao De'an, Wu Rendi, Liu Xiaoyang, et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background [J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(3): 164-173.
[10] 麥春艷, 鄭立華, 孫紅, 等. 基于RGB-D相機的果樹三維重構與果實識別定位[J]. 農業機械學報, 2015, 46(S1): 35-40.
Mai Chunyan, Zheng Lihua, Sun Hong, et al. Research on 3D reconstruction of fruit tree and fruit recognition and location method based on RGB-D camera [J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(S1): 35-40.
[11] 劉德兒, 朱磊, 冀煒臻, 等. 基于RGB-D相機的臍橙實時識別定位與分級方法[J]. 農業工程學報, 2022, 38(14): 154-165.
Liu De'er, Zhu Lei, Ji Weizhen, et al. Real?time identification, localization, and grading method for navel oranges based on RGB-D camera [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(14): 154-165.
[12] Malik M H, Qiu R, Gao Y, et al. Tomato segmentation and localization method based on RGB-D camera [J]. International Agricultural Engineering Journal, 2020, 28(4): 278-287.
[13] 楊長輝, 劉艷平, 王毅, 等. 自然環境下柑橘采摘機器人識別定位系統研究[J]. 農業機械學報, 2019, 50(12): 14-22, 72.
Yang Changhui, Liu Yanping, Wang Yi, et al. Research and experiment on recognition and location system for citrus picking robot in natural environment [J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(12): 14-22, 72.
[14] 羅陸鋒, 鄒湘軍, 葉敏, 等. 基于雙目立體視覺的葡萄采摘防碰空間包圍體求解與定位[J]. 農業工程學報, 2016, 32(8): 41-47.
Luo Lufeng, Zou Xiangjun, Ye Min, et al. Calculation and localization of bounding volume of grape for undamaged fruit picking based on binocular stereo vision [J]. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(8): 41-47.
[15] Wang C L, Tang Y C, Zou X J, et al. Recognition and matching of clustered mature litchi fruits using binocular charge?coupled device (CCD) color cameras [J]. Sensors, 2017, 17(11): 2564.
[16] Cupec R, Filko D, Vidovi? I, et al. Point cloud segmentation to approximately convex surfaces for fruit recognition [C]. Proceedings of the Croatian Computer Vision Workshop, Zagreb, Croatia, 2014: 56-61.
[17] Zhang Fan, Gao Jin, Zhou Hang, et al. Three?dimensional pose detection method based on key points detection network for tomato bunch [J]. Computers and Electronics in Agriculture, 2022, 195: 106824.
[18] 馮青春, 程偉, 楊慶華, 等. 基于線結構光視覺的番茄重疊果實識別定位方法研究[J]. 中國農業大學學報, 2015, 20(4): 100-106.
Feng Qingchun, Cheng Wei, Yang Qinghua, et al. Identification and localization of overlapping tomatoes based on linear structured light vision system [J]. Journal of China Agricultural University, 2015, 20(4): 100-106.
[19] Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Train?able bag?of?freebies sets new state?of?the?art for real?time object detectors [J]. arXiv e?prints, 2022.