基于改進YOLOv5l的設施番茄3D信息檢測方法

2024-04-29 00:00:00林森許童羽葛禹豪馬璟孫添龍趙春江

中國農機化學報 2024年1期

摘要：針對溫室環境中由于遮擋和光線復雜等原因造成的果實識別和定位不準確這一問題，將深度學習目標檢測算法與Intel RealSense D435i深度相機相結合，提出一種獲取番茄在三維空間中協同位置的方法，用于溫室中采摘機器人執行番茄定位和采摘任務。基于YOLOv5網絡，使用Ghost-Convolution替換原始網絡中的CSP結構，并采用BiFPN的多尺度連接方法，最大限度地利用不同特征層提取番茄特征信息，以提高邊界框回歸的準確性。比較不同的注意機制，并選擇CBAM注意機制插入到模型的特征提取網絡中。該模型通過RGB-D相機獲取檢測到的番茄的中心點，并計算其在相機坐標系中的空間坐標信息。為最大限度地減少復雜溫室環境對目標識別以及最終采摘效果的影響，篩選所有超過1.5 m的視頻流，以便視覺算法只專注于識別和檢測1.5 m范圍內的目標。試驗表明，模型檢測紅色和綠色番茄的平均精度均值分別為82.4%和82.2%。最后，介紹深度相機與目標檢測網絡相結合以檢測番茄物體深度的方法。為番茄采摘機器人視覺系統提供理論支持。

關鍵詞：番茄；深度學習；采摘機器人；3D目標檢測；YOLOv5

中圖分類號：S641.2： TP391.4

文獻標識碼：A

3D information detection method for facility greenhouse tomato based on improved YOLOv5l

Abstract：

To solve the problem of inaccurate fruit recognition and positioning caused by obstruction and complex light conditions in greenhouse environments. This study combines the deep learning object detection algorithm with the Intel RealSense D435i depth camera. And we propose a method to obtain the coordinated position of the tomato in three-dimensional space， which is used for the picking robot in the greenhouse to perform the tomato positioning and picking task. Based on the YOLOv5 network， we use Ghost-Convolution to replace the CSP structure in the original network. And we adopted the multi-scale connection method of BiFPN to maximize the use of the tomato feature information extracted by different feature layers to improve the accuracy of bounding box regression. This article compared different attention mechanisms and selected the CBAM Attention mechanism to insert into the models feature extraction network. Then， the model obtains the center point of the tomato detected in the two-dimensional video stream data through the RGB-D camera and calculates the tomatos spatial coordinate information in the camera coordinate system. To minimize the impact of the complex greenhouse environment on target recognition and the final picking effect， we filter all video streams over 1.5 meters so that the vision algorithm only focuses on the recognition and detection of targets within a range of 1.5 meters. The mean average precision of red and green tomatoes was 82.4% and 82.2%. Finally， this article introduces a method for combining a depth camera with an object detection network to detect the depth of tomato objects. It provide theoretical support for the tomato picking robot vision system.

Keywords：

tomato; deep learning; picking robot; 3D-object detection; YOLOv5

0 引言

番茄是全球生產和消費最為廣泛的蔬菜之一，在歐美、中國和日本等國家都有溫室、塑料大棚設施栽培方式［1］。番茄生產目前以設施種植為主，2022年我國番茄種植面積約為1113 khm2，約占設施蔬菜種植總面積的18.8%，是設施農業種植面積最廣的品種之一［2］。番茄采摘是番茄生產中最重要的環節之一，目前番茄采摘以人工作業為主，存在工作效率、人力成本較高、采摘不及時等問題。番茄采摘機器人的使用可節約勞動力、提升生產效率，對番茄智能化種植具有重要意義。制約番茄采摘機器人大面積使用的關鍵技術之一是番茄果實的識別和定位。由于番茄果實所處環境光照復雜，番茄具有無序生長特性，果實存在遮擋問題，使得精確獲取番茄目標的空間位置變得非常困難。因此，準確獲番茄空間位置和特征信息取位對采摘機器人的開發具有重要意義［34］。

深度學習的目標檢測方法主要分為一階和二階，它們的區別在于是否需要生成區域建議。深度學習模型用于檢測物體并獲取目標的位置和分類［57］。二階算法的典型代表網絡是Girshick等提出的R-CNN系列網絡，包括Fast R-CNN和Faster R-CNN網絡。一階方法的典型代表是YOLO系列目標檢測網絡，包括YOLOv1、YOLOv2、YOLOv3、YOLOv4和YOLOv5。二階和一階在準確性和速度上具有重大優勢，但它們之間往往存在矛盾。提高模型的某一項性能指標往往會導致另一項性能指標的下降。如何更好地平衡目標檢測模型的這兩項性能指標一直是該領域的重要研究方向［815］。目前，基于深度學習的目標檢測技術已廣泛應用于作物分類［1618］、水果缺陷檢測［1920］、水果產量計數［21］等領域。同時，目標檢測算法也是采摘機器人視覺系統的重要組成部分。許多研究試圖將各種目標檢測網絡應用于水果采摘任務。Kuznetsova等［22］基于YOLOv3開發了一個用于檢測果園中蘋果的機器視覺系統。Ji等［23］提出了一種基于Shufflenetv2-YOLOX的蘋果目標檢測方法，使蘋果采摘機器人能夠在果園的自然環境中準確地檢測和定位蘋果，這可以顯著提高蘋果的檢測速度。Wang等［24］提出了一種基于改進的YOLOv5s的目標檢測模型，通過改進特征金字塔網絡（FPN）來提高準確性。Su等［25］認為番茄成熟度是采摘番茄的關鍵因素，因此他們使用輕量級方法和注意力機制提出了一個基于YOLOv3的模型。該分類為番茄采摘機器人提供了參考。然而，基于RGB圖像的目標檢測對于水果采摘任務缺乏基本深度信息。YOLO網絡無法獲得目標在三維空間中的位置，采摘系統無法基于2D視頻流數據判斷目標的空間位置［2627］。使用深度相機結合基于深度學習的目標檢測算法可以確定果實相對于相機坐標的空間位置信息。然而，基于深度學習的目標檢測網絡將完成圖像或視頻流數據中所有目標的檢測。在實際場景中，采摘范圍往往有限，對視頻流數據中所有目標進行檢測既低效又無意義［2830］。

綜上所述，盡管許多研究試圖使用深度學習方法來構建采摘機器人視覺系統，但所提出的方法仍然需要與激光雷達等硬件設備結合才能實現目標的定位，而激光雷達的使用又會造成成本增加的問題。本文充分考慮現有采摘機器人視覺系統的缺陷，使用Intel RealSense D435i深度相機結合改進的YOLOv5l來對番茄進行空間定位，同時根據實際使用情況，利用深度信息過濾1.5 m以外的目標，降低硬件設備的計算功耗。

1 數據采集和處理

1.1 試驗環境與數據收集

如圖1（a）所示，本文試驗數據集收集和模型效果驗證在國家數字農業創新應用基地北京朝來農藝園中進行。如圖1（c）所示，考慮到算法的工程適用性，本文將RealSense D435i相機安裝在采摘機器人上，通過機器人的移動來采集圖像數據。如圖1（b）所示，溫室植物行間距為1.9 m，機器人寬度為0.8 m。采摘機器人在軌道上的行進速度設置為0.4 m/s。

相比于其他目標，番茄具有葉簇性生長的特點。此外，由于番茄缺乏紋理信息，許多研究在數據集標注過程中經常將嚴重遮擋的番茄標注為其他類別，以提高模型對遮擋番茄的檢測能力。然而，當使用YOLOv5s進行可行性分析時，發現過度標注嚴重遮擋的番茄會降低模型的泛化能力，導致實際測試時產生誤檢，如圖2所示。

經過分析，如果使用大量具有復雜遮擋的目標數據集來訓練模型，模型會將遮擋當作目標本身的紋理信息，上述處理方式將導致模型在測試集上表現良好但在實際使用中產生較多誤檢。考慮到該模型的應用場景為溫室番茄采摘，人為增加紅色番茄目標數量。本研究中，本文將數據集按照10∶1的比例分為訓練集和測試集，訓練圖像1 000張，測試圖像100張。同時按照實際采摘需要將目標分為兩類tomato_red和tomato_green，各類別目標數量如表1所示。

此外，為減少場景變化引起的模型錯誤檢測，本文采集了3個場景的圖像：有葉片遮擋的番茄、沒有葉片遮擋的番茄和遠距離番茄，如圖3所示。

本文使用labelImg標記照片中的對象。標記后的效果如圖4所示。

1.2 數據增強

想要訓練一個性能良好的神經網絡模型，通常需要大量的數據支撐。然而，獲取新的數據通常需要大量的時間和人力成本。使用數據增強技術，可以通過計算機生成并增加數據量，如縮放、平移、旋轉、色彩變換等方式來增強數據。數據增強可以增加訓練樣本數，同時加入適當的噪聲數據，提高模型的泛化能力［31］。

本研究中，除了采用上述傳統的數據增強技術［32］外，還采用了mosaic（馬賽克）圖像預處理過程，利用8張圖像，隨機進行裁剪、縮放、旋轉，最后合成為1張圖像，從而豐富了目標檢測的背景。首先構造一個填充為灰色（114，114，114）的基礎地圖，其大小為特征圖（2S）的兩倍［33］。然后在基礎地圖上隨機設定一點X，并根據特定規則選取8張含有X點的訓練圖像。以坐標為分割線，將圖像隨機縮放并排列在基礎地圖中，超出基礎地圖的圖像部分進行裁剪。最后將原圖像的標簽信息通過標簽的映射關系映射到新生成的馬賽克圖像上。

馬賽克（mosaic）圖像預處理技術的工作原理相當于在訓練過程中一次通過4幅圖像，增加了訓練樣本的數量和單個會話中的目標多樣性，提高了網絡訓練的收斂速度和檢測精度，并將大樣本隨機減少為小樣本，增加了小規模目標的數量。

2 采摘機器人視覺系統

2.1 Picking-YOLO模型

本研究提出了一種基于YOLOv5l的目標檢測網絡Picking-YOLO。本文使用Ghost-Convolution來構建Picking-YOLO的主干網絡，有效降低了模型的復雜性［34］；還在網絡中插入了CBAM注意力機制（Convolutional Block Attention Module），以提高模型檢測目標特征的精度［35］；同時，使用了雙向特征金字塔網絡（BiFPN）結構，提高了網絡提取特征的能力［36］。網絡結構如圖5所示，模型參數如表2所示。

對于Picking-YOLO的骨干網絡，本文使用Ghost_Convolution代替了CSP結構［37］。Ghost_Convolution將原卷積層拆分為兩個部分。第一部分使用較少的卷積核生成原始特征圖。第二部分使用線性變換操作來高效地產生更多的ghost特征圖，并將它們拼接起來。Ghost_Convolution可以有效地降低模型的復雜度，并確保模型性能不會受到太大損害。

此外，本文將這種注意力模塊插入到骨干網絡中，這可以有效地增強骨干網絡特征學習能力，并消除學習瓶頸。對于模型的Neck部分，由淺層網絡提取的特征向量大多包含目標的位置信息，而由更深層次的特征提取網絡提取的特征向量包含更多關于目標的語義信息。最大限度地利用位置和語義信息是提高網絡性能的關鍵。與PANet［38］相比，BiFPN結構采用了雙向跨尺度連接和加權特征融合的思想，在不增加成本的同時融合了更多的特征，通過混合和組合圖像特征，最后將圖像特征傳遞到預測層［39］。

2.2 Ghost-Convolution

傳統特征提取方法使用多個卷積核在輸入特征圖的全部通道上執行卷積操作［4042］。然而當卷積操作執行到網絡的深層時，很多堆疊在網絡中的卷積層需要消耗大量的計算資源，也會導致特征圖冗余的現象。不過，冗余的特征圖能夠幫助網絡更加全面地理解數據特征。

如圖6所示，Ghost_Convolution通過少量的傳統卷積操作實現輸入特征信息的提取，然后利用線性變換對之前得到的特征圖進行運算，最后通過拼接操作生成最終的特征圖。Ghost_Convolution降低了非關鍵特征的學習成本，它使用少量的卷積和線性變換的組合代替傳統的卷積運算，從而有效地降低了網絡的計算資源消耗，同時保證了模型性能。對于線性變換，Ghost模塊采用深度卷積［43］作為線性變換方法，消除了通道間的關聯性，使得當前通道的特征僅與該通道相關。

2.3 注意力機制

注意力機制可以有效地提升網絡特征提取能力，從而提高網絡的檢測精度。目前已知的有效注意力機制包括SE注意力機制（Squeeze-and-Excitation模塊）［44］、CA注意力機制（Coordinate Attention Module）［45］和CBAM注意力機制（Convolutional Block Attention Module）［46］。如圖7（a）所示，SE注意力機制只關注通道信息的關聯性，而忽略了空間信息的重要性，這是視覺任務中捕獲物體的關鍵。如圖7（b）所示，Coordinate Attention將位置信息嵌入到通道注意力中，使網絡關注更大區域。為解決SE注意力中二維全局池化導致的通道信息損失，Coordinate Attention將通道注意力分解為兩個平行的單維特征編碼過程，以有效融合空間信息和通道信息。如圖7（c）所示，CBAM注意力機制通過減少通道維度并使用卷積計算空間信息的關聯性，從而彌補了SE注意力的缺陷。

2.4 RGB-D相機介紹

RealSense是一款立體視覺深度相機，如圖8所示，它集成了兩個紅外傳感器（IR Stereo Camera）、一個紅外激光發射器（IR Projector）和一個彩色相機（Color Camera）。IntelRealSense D435i的深度相機模塊集成了視覺處理器、立體深度模塊、RGB傳感器和彩色圖像信號處理模塊［46］，如圖8所示。

3 模型性能評估

3.1 損失與優化

通過構建損失函數，監督學習計算網絡輸出和真實值之間的損失，因此，損失函數是Picking-YOLO的核心組成部分，神經網絡根據預設方法更新參數，神經網絡在訓練過程中不斷最小化損失函數并且不斷地調整網絡參數值，Picking-YOLO的損失函數

L（o，c，O，C，l，g）=λ1Lconf（o，c）+nλ2Lcls（O，C）+λ3Lloc（l，g）（1）

式中：

o——預測目標邊界框中是否有目標真實存在的二值參數；

c——目標真實存在的概率；

O——預測目標邊界框中是否有某類目標真實存在的二值參數；

C——某類目標真實存在的概率；

λ1、λ2、λ3——平衡系數；

Lconf——置信度損失；

Lcls——分類損失；

Lloc——定位損失；

l——預測矩形框的坐標偏移量；

g——ground truth矩形框與默認框之間的坐標偏移量。

Picking-YOLO通過二元交叉熵來預測每個邊界框的得分系數。如果目標與Picking-YOLO生成的框完全重疊，則得分系數為1，函數為

上述函數表示邊界框與ground truth之間的DIoU，c是預測值，是式（3）得到的預測置信度水平，N是正負樣本的數量。DIoU的優點在于，當預測框與目標框不重合時，仍然可以提供邊界框的運動方向，DIoU可以比GIoU更快地直接最小化兩個目標框之間的距離，收斂速度更快。在包含兩個邊界框的情況下，DIoU能夠讓損失回歸過程更快地收斂到正確的方向，而GIoU過于依賴垂直方向上的IoU。因此，選擇了DIoU來對邊界框進行回歸。

由網絡生成的邊界框可能包含多種分類，本文使用二元交叉熵來進行類預測。該函數表示目標是否是邊界框i中的類別j，該預測值測量目標是否屬于類別j的置信度得分。

本文在訓練過程中使用損失平方和來預測邊界框大小與真實樣本之間的差值。如果預測值是t*，則差值是真實樣本值（從樣本框計算）減去預測值：t^*-t*。函數為

3.2 損失與優化

本文采用的性能評價指標主要包括平均精確率的平均值（Mean Average Precision，mAP）、準確率P、召回率R、F1-score、平均交并比MIoU。平均精度（Average Precision，AP）是目前目標檢測和圖像分割中最重要的評價指標，是準確率和召回率的綜合體現。mAP是計算各種識別結果AP的平均值；F1-score為精確率和召回率的調和平均數。

式中：

TP——True Positive，模型預測為正的正樣本;

FP——False Positive，模型預測為正的負樣本;

FN——False Negative，模型預測為負的正樣本。

式中：

AP——準確率在召回率上的積分。

一般AP值越高，模型性能越好。

式中：

n——類別數。

式（10）中對計算出的每一類的AP值求平均值得到mAP，本文中n=2。

F1-score綜合了精確率和召回率的結果，取值范圍從0～1，1代表模型輸出最好，0代表模型輸出最差。

4 試驗結果

4.1 模型訓練

在模型訓練期間，本文將批大小設置為16。每次使用隨機分割訓練800個圖像數據集時，將4個圖像傳遞給GPU。該模型使用可變學習率算法進行評估，可變學習率范圍為0.001～0.000 01，動量為0.9。本文在驗證集上測試模型以減少過擬合，并在訓練后使用測試集來評估模型的質量。該模型使用非極大值抑制算法（NMS）對邊界框進行濾波，以減少重復邊界框的數量。閾值越高，預測框的數量越少，而閾值越低，預測框的數量越多。經過多次試驗，本文選擇0.5作為網絡預測閾值時模型效果最佳。本文試驗用計算機配置為Intel Core Xeon（R） CPU 2.5 GHz，64 GB運行內存，12 GB Nvidia GTX 2080Ti GPU，CUDA 10.1并行計算架構。運行環境為Ubuntu 20.04和PyTorch3.0，使用K-means對數據集中標記框的寬度和高度進行聚類，以獲得更好的結果［4749］。

圖9顯示了從訓練過程的每次迭代中獲得的模型驗證準確度和訓練損失值。從圖9（a）可以看出，隨著迭代次數的增加，模型的訓練準確率逐漸提高，模型的訓練損失值隨著迭代次數的增加而逐漸減小。在模型訓練的初始階段，模型以較高的學習率損失，此時訓練損失曲線收斂得更快。隨著迭代次數的增加，訓練損失曲線的斜率逐漸減小。然后，當網絡的相關指標不再隨著訓練而增加時，損失值的波動趨勢逐漸穩定，相應的準確度不再變化，如圖9（b）所示。最后，模型訓練結束。mAP@（0.5∶0.95）為82.3%，表明Picking-YOLO模型沒有過擬合或梯度消失問題。此外，圖9還將Picking-YOLO模型與YOLOv5l模型進行了比較。從結果可以看到，本文模型在模型精度和模型損失下降速度方面優于原始網絡。

4.2 深度信息計算

如圖10所示，使用Picking-YOLO網絡和英特爾Realsense D453i不僅可以檢測目標的類別信息，還可以獲得目標的空間位置信息。

作為球形目標，邊界框中心點的像素對應的深度信息作為番茄的整體深度是不完全準確的。此外，深度相機對目標深度的檢測過程不穩定，深度圖中的噪聲較多。為了解決上述問題，本文首先獲得預測框的中心像素位置，確定目標邊界框的長度和寬度，并在偏差范圍內生成隨機整數。本文將這40個隨機數隨機添加到目標邊界框的中心位置，以獲得40個目標深度信息。然后，本文使用中值濾波平滑技術來處理深度信息。最后，將該深度信息的平均值作為目標的最終深度信息

z=Depth［position（xcenter）+bias，position（ycenter）+bias］（12）

中值濾波（MF）是一種基于排序統計理論的非線性信號處理技術，可以有效地抑制噪聲。點的中間值被替換，使得周圍的像素值接近真實值，從而消除了孤立的噪聲點。中值濾波首先選擇一個固定大小的鄰域窗口，然后將該窗口內的像素值進行排序，取其中值作為中心像素點的新值。這個過程會對圖像中的每一個像素點都進行操作，從而達到平滑處理的效果。中值濾波的核心思想是通過鄰域像素的排序來去除異常值，使得圖像中的噪聲被平滑掉［50］。二維中值濾波（MF）的輸出如式（13）所示，其中f（x，y）和g（x，y）分別是原始圖像和處理的圖像。

g（x，y）=med{f（x-k，y-l），（k，l∈W）}（13）

中值濾波（MF）在脈沖噪聲去噪方面有較好效果，濾除噪聲且可以保護信號的邊緣，防止信號模糊。而線性濾波方法不具有這些優良的性能。另外，中值濾波（MF）算法比較簡單，易于實現。

5 討論

5.1 模型性能

為了驗證Picking-YOLO的優異性能，將本文模型的成果與其他典型的目標檢測網絡進行比較。以上模型均在相同的數據集和設備上進行訓練，然后使用相同的測試集進行目標檢測模型的比較。

如圖11所示，紅色矩形框代表tomato_red，綠色框代表tomato_green。在溫室環境中檢測番茄時，當葉子或果實重疊時會嚴重影響識別精度。

從圖11可以看到，YOLOv3、YOLOv5l和YOLOv5x的檢測結果中存在番茄的漏檢，特別是在目標離攝像頭較遠時。

從表3可以看出，與其他模型相比，Picking-YOLO具有較高的精確率、召回率和平均精確率的平均值mAP@（0.5∶0.95），mAP@（0.5∶0.95）達到82.3%，高于其他模型。相較于YOLOv5l，召回率達到80.6%，提高了9.7%；mAP@（0.5∶0.95）為82.3%，提高了4.5%；模型參數數量減少了29 556 206個。結果表明Picking-YOLO在溫室番茄目標檢測任務上具有良好的性能。

5.2 注意力機制的作用

本文將注意力塊嵌入到目標檢測模型的主干網絡中，以提高特征提取能力。如表4所示，本文將SE注意力機制、坐標注意力機制和CBAM注意力機制插入到網絡中相同的位置，以比較不同的注意力機制對網絡的影響。在表格中可以看到CBAM注意力機制的網絡具有更好的表現，CBAM的主要作用是聚焦圖像的重要特征，抑制不必要的區域響應，能夠序列化地在通道和空間兩個維度上產生注意力特征圖信息，然后兩種特征圖信息在與之前原輸入特征圖進行相乘進行自適應特征修正，產生最后的特征圖。與YOLOv5l（Ghost_Convolution）相比，使用CBAM注意力機制的網絡準確率提高了5.5%，召回率提高了7.0%，mAP@（0.5∶0.95）提高了6.0%。因此，本文最終選擇將CBAM塊插入到Picking-YOLO的主干中，以增強模型適應復雜溫室場景的能力。

為了直觀地衡量不同注意力機制對網絡模型效果的影響，本文使用模型中的CNN對圖像進行前向傳播，然后通過特定任務計算獲得該類別的原始分數。除目標類別梯度設置為1外，所有其他類別的梯度均設置為0。該信號隨后反向傳播到感興趣的修正卷積特征圖，這些特征圖被組合起來計算粗略的Grad-CAM定位（熱圖）。最后，該熱圖與引導反向傳播逐點相乘，以獲得高分辨率和特定概念的熱圖。如圖12所示，本文展示了使用不同注意力機制的網絡熱圖。可以看到，使用CBAM注意力塊的Picking-YOLO的感興趣區域更加集中在目標所在區域，并且覆蓋范圍更全面，顯示出強大的檢測能力。

5.3 三維目標檢測的性能表現

本文通過將Picking-YOLO與Intel RealSense D435i相結合，實現了對番茄類目標的空間位置檢測。在實際溫室環境中，攝像頭不可避免地會拍攝到后排生長中的植物間隙中的目標。從實際采摘任務的角度來看，機械臂僅能采摘當前這一排的番茄。實現場景中全部目標的檢測并不實際，將增加模型計算及推理時間。為了盡可能減小復雜溫室環境對目標識別及最終采摘效果的影響，本文通過圖像的深度信息計算目標距離相機的距離，過濾超過1.5 m的圖像數據，使視覺算法僅關注1.5 m范圍內目標的識別與檢測，如圖13所示。

6 結論

1）本文提出了Picking-YOLO的目標檢測模型，該模型可以有效地檢測番茄的空間位置，并應用于番茄采摘機器人的番茄檢測任務中。本研究將深度學習目標檢測算法與Intel RealSense D435i深度攝像頭相結合，提出了一種獲取番茄在三維空間中的坐標位置的方法，用于溫室采摘機器人進行番茄定位和采摘任務。基于YOLOv5網絡，本文使用Ghost-Convolution替換了原始網絡中的CSP結構，并采用了BiFPN的多尺度連接方法，最大程度地利用了不同特征層所提取的番茄特征信息，以提高邊界框回歸的準確性。

2）本文比較了不同的注意力機制，并選擇了CBAM注意力機制插入到模型的特征提取網絡中。然后，模型通過RGB-D攝像頭獲取檢測到的番茄在二維視頻流數據中的中心點，并計算番茄在攝像頭坐標系中的空間坐標信息。為了盡可能減小復雜溫室環境對目標識別及最終采摘效果的影響，本文過濾了所有超過1.5 m的視頻流，使視覺算法僅關注1.5 m范圍內的目標。試驗結果表明，Picking-YOLO實現了番茄目標空間位置檢測的良好平衡，與其他模型相比，Picking-YOLO具有較高的精確率、召回率和mAP@（0.5∶0.95），mAP@（0.5∶0.95）達到82.3%。使用CBAM注意力機制的Picking-YOLO網絡準確率提高了5.5%，召回率提高了7.0%，mAP@（0.5∶0.95）提高了6.0%，為番茄采摘機提供了準確的目標識別和定位。

3）本文在番茄果實位置準確獲取方面未深入研究，仍然存在番茄果實位置獲取精度不高和番茄位姿信息不能完全獲取等問題，下一步可研究基于多視角RGB-D信息融合的番茄果實姿態估計方法。

參考文獻

［1］ Kong Jianlei， Yang Chengcai， Wang Jianli， et al. Deep-stacking network approach by multisource data mining for hazardous risk identification in IoT-based intelligent food management systems ［J］. Computational Intelligence and Neuroscience， 2021.

［2］熊征，李惠玲，侯露，等. 面向機器人采摘的櫻桃番茄力學特性研究［J］. 現代農業裝備， 2020， 41（3）： 24-28.

Xiong Zheng， Li Huiling， Hou Lu， et al. Mechanical properties of cherry tomato for harvesting robot ［J］. Modern Agricultural Equipment， 2020， 41（3）： 24-28.

［3］ Ruder S. An overview of gradient descent optimization algorithms ［J］. arXiv 2016， arXiv： 1609.04747.

［4］ Jin X， Zheng W， Kong J， et al. Deep-learning forecasting method for electric power load via attention-based encoder-decoder with bayesian optimization ［J］. Energies， 2021， 14（6）： 1596.

［5］ Jin X， Zheng W， Kong J， et al. Deep-learning temporal predictor via bidirectional self-attentive encoder-decoder framework for IOT-based environmental sensing in intelligent greenhouse ［J］. Agriculture， 2021， 11： 802.

［6］ Wu Z， Pan S， Chen F， et al. A comprehensive survey on graph neural networks ［J］. IEEE transactions on neural networks and learning systems， 2021， 32（1）： 4-24.

［7］ Baltazar A R， Santos F N d， Moreira A P， et al. Smarter robotic sprayer system for precision agriculture ［J］. Electronics， 2021， 10（17）： 2061.

［8］ Hulens D， Van Ranst W， Cao Y， et al. Autonomous visual navigation for a flower pollination drone ［J］. Machines， 2022， 10（5）： 364.

［9］ Rodríguez-Ortega W M， Martínez V， Nieves M， et al. Agricultural and physiological responses of tomato plants grown in different soilless culture systems with saline water under greenhouse conditions ［J］. Scientific Reports， 2019， 9（1）： 6733.

［10］ Hinton G E， Salakhutdinov R R. Reducing the dimensionality of data with neural networks ［J］. Science， 2006， 313： 504-507.

［11］ Girshick R， Donahue J， Darrell T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation ［C］. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2014： 580-587.

［12］ Girshick R. Fast R-CNN ［C］. In Proceedings of the IEEE International Conference on Computer Vision， 2015： 1440-1448.

［13］ Ren S， He K， Girshick R， et al. Faster R-CNN： Towards real-time object detection with region proposal networks ［J］. IEEE Transactions on Pattern Analysis amp; Machine Intelligence， 2017， 39（6）： 1137-1149.

［14］ Redmon J， Divvala S， Girshick R， et al. You only look once： Unified， real-time object detection ［C］. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition， 2016： 779-788.

［15］宋佳瑞. 基于視覺的空戰目標檢測跟蹤與定位方法研究［D］. 哈爾濱：哈爾濱工業大學， 2022.

Song Jiarui. Vision-based air combat target detection tracking and localization methodology research ［D］. Harbin： Harbin Institute of Technology， 2022

［16］ Kong J， Wang H， Jin X， et al. Multi-stream hybrid architecture based on cross-level fusion strategy for fine-grained crop species recognition in precision agriculture ［J］. Computers and Electronics in Agriculture， 2021， 185（1）： 106134.

［17］ Zheng Y， Kong J， Jin X， et al. Crop deep： The crop vision dataset for deep-learning-based classification and detection in precision agriculture ［J］. Sensors， 2019， 19： 1058.

［18］ Zheng Y， Kong J， Jin X， et al. Probability fusion decision framework of multiple deep neural networks for fine-grained visual classification ［J］. IEEE Access， 2019， 7： 122740-22757.

［19］ Chen H C， Widodo A M， Wisnujati A， et al. AlexNet convolutional neural network for disease detection and classification of tomato leaf ［J］. Electronics， 2022， 11： 951.

［20］ Bhujel A， Kim N E， Arulmozhi E， et al. A lightweight attention-based convolutional neural networks for tomato leaf disease classification ［J］. Agriculture， 2022， 12： 228.

［21］ Ge Y， Lin S， Zhang Y， et al. Tracking and counting of tomato at different growth period using an improving YOLO-deepsort network for inspection robot ［J］. Machines， 2022， 10： 489.

［22］ Kuznetsova A， Maleva T， Soloviev V. Using YOLOv3 algorithm with pre-and post-processing for apple detection in fruit-harvesting robot ［J］. Agronomy， 2020， 10： 1016.

［23］ Ji W， Pan Y， Xu B， et al. A real-time apple targets detection method for picking robot based on ShufflenetV2-YOLOX ［J］. Agriculture， 2022， 12： 856.

［24］ Wang F， Sun Z， Chen Y， et al. Xiaomila green pepper target detection method under complex environment based on improved YOLOv5s ［J］. Agronomy， 2022， 12： 1477.

［25］ Su F， Zhao Y， Wang G， et al. Tomato maturity classification based on SE-YOLOv3-MobileNetV1 network under nature greenhouse environment ［J］. Agronomy， 2022， 12： 1638.

［26］ Andriyanov N， Khasanshin I， Utkin D， et al. Intelligent system for estimation of the spatial position of apples based on YOLOv3 and Real Sense Depth Camera D415 ［J］. Symmetry， 2022， 14： 148.

［27］ Pan S， Ahamed T. Pear recognition in an orchard from 3D Stereo camera datasets to develop a fruit picking mechanism using mask R-CNN ［J］. Sensors， 2022， 22： 4187.

［28］ Redmon J，" Farhadi A. YOLO9000： Better， faster， stronger ［C］. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2017： 7263-7271.

［29］ Redmon J， Farhadi A. Yolov3： An incremental improvement ［J］. arXiv 2018， arXiv： 1804.02767.

［30］ Bochkovskiy A， Wang C， Liao H. Yolov4： Optimal speed and accuracy of object detection ［J］. arXiv 2020， arXiv： 2004.10934.

［31］ Xia X， Chai X， Zhang N， et al. Culling double counting in sequence images for fruit yield estimation ［J］. Agronomy， 2022， 12： 440.

［32］ Yang B， Gao Z， Gao Y， et al. Rapid detection and counting of wheat ears in the field using YOLOv4 with attention module ［J］. Agronomy， 2021， 11： 1202.

［33］ Bewley A， Ge Z， Ott L， et al. Simple online and realtime tracking ［C］. In Proceedings of the 2016 IEEE International Conference on Image Processing （ICIP）， 2016： 3464-3468.

［34］ Wojke N， Bewley A， Paulus D. Simple online and realtime tracking with a deep association metric ［C］. In Proceedings of the 2017 IEEE International Conference on Image Processing （ICIP）， 2017： 3645-3649.

［35］ Buslaev A， Parinov A， Khvedchenya E， et al. Albumentations： Fast and flexible image augmentations ［J］. Information， 2020， 11（2）： 125.

［36］ Yun S， Han D， Oh S J， et al. Cutmix： Regularization strategy to train strong classifiers with localizable features ［C］. In Proceedings of the IEEE/CVF International Conference on Computer Vision， 2019： 6023-6032.

［37］ Ma N， Zhang X， Zheng H， et al. ShuffleNet V2： Practical Guidelines for Efficient CNN Architecture Design ［C］. In Proceedings of the European Conference on Computer Vision （ECCV）， 2018.

［38］ Tan M， Pang R， Le Q. EfficientDet： Scalable and efficient object detection ［C］. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2020： 10781-10790.

［39］宋傳旗. YOLOv5算法的人臉識別檢測方法研究［J］. 計算機時代， 2023（7）： 15-19.

Song Chuanqi. Research on face recognition detection method of YOLOv5 algorithm ［J］. Computer Era， 2023（7）： 15-19

［40］ Wang C， Liao H， Wu Y， et al. CSPNet： A new backbone that can enhance learning capability of CNN ［C］. In Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）， 2020： 1571-1580.

［41］ He K， Zhang X， Ren S， et al. Spatial pyramid pooling in deep convolutional networks for visual recognition ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2015， 37（9）： 1904-1916.

［42］ Zhang X， Zhou X， Lin M， et al. ShuffleNet： An extremely efficient convolutional neural network for mobile devices ［J］. arXiv 2017， arXiv： 1707.01083v2.

［43］ Lin T， Dollár P， Girshick R， et al. Feature pyramid networks for object detection ［C］. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2017： 2117-2125.

［44］ Liu S， Qi L， Qin H， et al. Path aggregation network for instance segmentation ［C］. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2018： 8759-8768.

［45］ Kalman R E. A new approach to linear filtering and prediction problems ［J］. Journal of Fluids Engineering， 1960， 82： 35-45.

［46］ De Maesschalck R， Delphine J R， Massart D L. The mahalanobis distance ［J］. Chemometrics and Intelligent Laboratory Systems， 2000， 50（1）： 1-18.

［47］ Wright M B. Speeding up the Hungarian algorithm ［J］. Computers amp; Operations Research， 1990， 17（1）： 95-96.

［48］龍潔花，趙春江，林森，等. 改進Mask R-CNN的溫室環境下不同成熟度番茄果實分割方法［J］. 農業工程學報， 2021， 37（18）： 100-108.

Long Jiehua， Zhao Chunjiang， Lin Sen， et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN ［J］. Transactions of the Chinese Society of Agricultural Engineering， 2021， 37（18）： 100-108.

［49］劉小龍，王國強，劉娜，等. 設施農業機械發展現狀及趨勢分析［J］. 農業技術與裝備， 2022（3）： 61-62.

Liu Xiaolong， Wang Guoqiang， Liu Na， et al. Development status and trend analysis of facility agricultural machinery ［J］. Agricultural Technology amp; Equipment， 2022（3）： 61-62.

［50］趙子文，金永，陳友興，等. 基于改進YOLVOv5s的X射線圖像粘接缺陷實時檢測［J］. 國外電子測量技術， 2023， 42（4）： 181-186.

Zhao Ziwen， Jin Yong， Chen Youxing， et al. Real-time detection of adhesive defects in X-ray images based on improved YOLVOv5s ［J］. Foreign Electronic Measurement Technology， 2023， 42（4）： 181-186.

中國農機化學報2024年1期

中國農機化學報的其它文章: 基于注意力網絡的長時牦牛個體識別研究; 基于數字孿生技術的奶牛場養殖監控平臺設計; 雙熱交換器預冷裝備研制及試驗; 基于改進實數遺傳算法的桑葉采摘機結構參數優化; 新型多格室糞便堆肥反應器設計與試驗; 基于改進YOLOv5s-ECA-ASFF算法的茶葉病害目標檢測