中圖分類號:S126;TP391.41 文獻標志碼:A 文章編號:1002-1302(2025)13-0241-12
葡萄是一種適應性強、口感鮮美、色澤艷麗的木質藤本植物,富含維生素和抗氧化物質,具有抗衰老、抗炎等多種健康功效,深受消費者喜愛。我國葡萄種植面積已遠遠超過70萬 hm2 ,主要分布在新疆、寧夏、甘肅等地,形成了完善的產業鏈,成為鄉村振興的重要動力[1-2]。隨著產量持續增長,提高采摘效率成為產業發展的迫切需求。近年來,農業自動采摘機械的研發與應用快速發展,其中實時高效的檢測算法成為提高機械效率的關鍵[3-6]。然而,由于農業機械計算設備性能的多樣性,目標檢測模型需要兼顧輕量化與高精度,以適應低算力設備的運行需求。因此,設計一種輕量化、高效且精準的葡萄果實檢測模型,對推動葡萄自動采摘技術的發展和產業升級具有重要意義。
近年來,基于計算機視覺和深度學習的目標檢測算法迅速發展,并廣泛應用于各個領域。作為一種快速且精準的目標檢測算法,YOLO系列模型在多個領域取得了顯著的應用成果,并得到了良好的落地發展。許多專家學者也開始深人探索YOLO模型在果實檢測和自動采摘技術中的應用[7-10],推動這一領域的技術進步。李國進等提出了一種基于輕量級網絡的釀酒葡萄檢測模型(WDGM),該模型基于YOLOv3并在此基礎上進行改進優化,在加速目標檢測速度的同時,提升了小目標檢測的精度[1]。試驗結果表明,該模型在釀酒葡萄圖像數據集上的平均精度為 81.20% ,網絡結構大小僅為44MB ,且每幅圖像的檢測時間為 6.29ms ;相較于當前主流的復雜模型,該模型仍有一定的精度提升空間。肖張娜等提出了一種基于改進YOLO v4 的葡萄檢測方法(YOLO-C-P)[12]。該模型在不同遮擋情況下表現優異,平均 F1 得分達到 91.71% ,且具有較快的檢測速度,每幅圖像的平均識別時間僅為 0.13s 。該模型取得了較好的結果,但仍有提升空間,尤其是在更加復雜的果園環境和動態變化的采摘場景中,模型的適應性和魯棒性可能仍需進一步優化。孫俊等提出了一種基于YOLO v5s 的改進葡萄檢測模型(MRWYOLOv5s),該模型通過提升特征提取能力、加速網絡收斂并提高檢測精度,取得了顯著優化[13]。相比于原YOLO v5s,MRWYOLO v5s在精度上提高2.32百分點,同時檢測時間減少6.13ms 。盡管模型精度有所提升,但在某些復雜場景(如復雜遮擋和果實密集區域)下仍需進一步細化調優和算法優化。張傳棟等提出了一種基于改進YOLO v8n 模型的多品種葡萄簇檢測模型 ,該模型有效降低了因遮擋或重疊對葡萄簇檢測的干擾,達到了 87.00% 的檢測精度和 84.21% 的 F1 分數[14]。然而,在實際應用中葡萄簇的檢測環境通常充滿不確定性,如光照變化、背景雜亂等,這可能導致模型的表現受到限制。Chen等提出的ESP-YOLO結合了YOLO、ELSAN、SE、PConv、SoftNMS等多個模塊,能夠在復雜場景下檢測葡萄,推理速度提高 46% ,同時保持檢測精度[15]。盡管ELSAN模塊提升了推理速度,但多個復雜模塊增加了計算復雜度。在硬件資源有限的嵌入式平臺上,尤其是在處理高分辨率圖像或大規模數據集時,可能會出現計算瓶頸,影響實時性。
鑒于上述問題,本研究旨在平衡葡萄果實目標檢測模型的準確性、實時性和輕量化等要求,基于最新的YOLO11模型,設計了一種輕量化的葡萄果實檢測模型CBS-YOLO。該模型能夠在保持復雜環境下高準確性的同時,實現輕量化效果,更好地適應資源受限平臺(如移動設備)上的實際部署需求。本研究的主要貢獻如下:(1)為解決模型復雜度高和計算效率低所導致的部署困難及實時性不足等問題,采用FasterBlock模塊替代原主干網絡C3k2中的Bottleneck模塊,形成了C3k2_Faster結構,從而提升模型的計算效率。為進一步增強模型的上下文特征提取能力,引入上下文錨點注意力機制(CAA),最終設計出新的C3k2_Faster_CAA模塊。(2)針對葡萄果實檢測任務中果實間緊湊堆積、不同分布的葡萄簇之間的密集排列,以及復雜背景導致的單個檢測目標區分困難問題,在頸部網絡中引入BiFPN結構。提升對重疊或密集果實的檢測能力,減少背景干擾。(3)為應對不同采摘環境下光照條件的變化,以及葡萄果實因葉片、藤條等遮擋帶來的檢測難題,在檢測頭中引人多頭注意力機制(SEAM模塊),構建全新的Detect_SEAM檢測頭。使模型準確捕捉果實區域的顯著特征,關注關鍵區域,同時降低光影變化和環境噪聲對檢測結果的干擾。
1材料與方法
1.1 數據集介紹
試驗數據集來源于中國科學數據平臺的公開數據[16],分別于2021年8月、2023年7月在安徽省合肥市大圩生態區采集。采集設備為AzureKinect深度相機,圖像分辨率為 1 280×720 。數據涵蓋了不同光照和不同遮擋條件下的葡萄果實,共獲取1953張圖像樣本,涉及青色和紫色2種顏色,包括白玫瑰、陽光玫瑰、醉金香、巨峰、甬優和夏黑6個市售主要葡萄品種,數據集數量信息見表1。采集場景模擬真實果園環境中的典型采摘條件,包括正常光、背光和運動模糊等光照變化。在采集過程中,還模擬了機械臂的采摘角度,獲取了正視、俯視和仰視3種視角的圖像數據。以青色葡萄為例,在不同光照條件和拍攝角度下的葡萄果實圖像樣本如圖1所示。為了提升標注的多樣性和準確性,針對不同遮擋情況采用了差異化的標注策略。使用Labelme數據標注工具,對于無遮擋的葡萄串,將整串果實標注為獨立對象;而在樹葉遮擋或果實重疊的情況下,將視野可見的每個葡萄果實的可見部分單獨標注。標注文件以XML格式存儲,并進一步轉換為YOLO訓練所需的TXT格式文件。最終,數據集按照 7:2:1 的比例隨機劃分為訓練集、驗證集和測試集。
表1葡萄數據集樣本數量信息
1.2 YOLO11網絡結構
YOLO11是YOLO家族的最新版本,在YOLOv8的基礎上進一步優化,采用了內核大小為2的跨階段部分(C3k2)、快速空間金字塔池化(SPPF)以及具有并行空間注意的卷積塊(C2PSA)等創新組件,提升了模型的特征提取能力和整體性能。這些優化使得YOLO11能夠更精確地捕捉圖像細節,同時保持精簡的參數設置,從而提高物體檢測和分類的準確性。模型由3個核心組件組成:主干網絡提取多尺度特征,頸部網絡增強和聚合特征,檢測頭生成最終的定位和分類輸出。YOLO11模型結構如圖2所示。
圖1不同條件下葡萄果實圖像示例
主干網絡:YOLO11的主干部分負責從輸入圖像中提取多個尺度的特征。這涉及一系列卷積層和自定義塊,它們以不同的分辨率生成特征圖。在結構上,YOLO11與YOLOv8類似,利用初始卷積層進行圖像下采樣,并逐漸減少空間維度、增加通道數量。一個重大改進是引入了C3k2塊,取代了以前版本的C2f塊。此外,YOLO11保留了空間金字塔池化(SPPF)塊,并在其后加入了新的跨階段部分空間注意(C2PSA)塊,使模型能夠更精確地聚焦于特定感興趣區域,從而提高不同大小和位置物體的檢測精度。頸部網絡:YOLO11的頸部結構設計用于聚合不同分辨率的特征圖并將它們傳遞給檢測端。該結構引入了C3k2塊取代了YOLOv8中的C2f塊,旨在提升特征聚合過程的速度和效率。C3k2塊經過上采樣和連接后,顯著增強了頸部網絡的性能,提升了整體模型的速度和精度。檢測頭:YOLO11的檢測端負責生成模型的最終預測。與之前的版本類似,檢測端輸出邊界框、類別概率和置信度分數。YOLO11利用多個C3k2塊來高效處理和細化特征圖。C3k2塊位于頭部的多個路徑中,用于處理不同深度的多尺度特征。
1.3改進的CBS-YOLO結構
本研究采用YOLO11網絡中體積和參數量最小的YOLO11n模型,旨在實現資源受限邊緣設備上的高效部署,滿足無人機、自動采摘機器人等設備對實時性和低能耗的需求。該模型的小參數量和低內存占用使其能夠輕松集成到嵌入式系統中,從而有效降低數據傳輸成本和延遲。在此基礎上,本研究對模型進行了改進,改進后的模型如圖3所示。具體而言,本研究使用FasterBlock模塊替代原主干網絡C3k2中的Bottleneck模塊,并引入上下文錨點注意力機制(CAA),形成C3k2_Faster_CAA結構,提升模型的計算效率和上下文特征提取能力。同時,考慮到葡萄果實的密集性和復雜背景,在頸部網絡中引入BiFPN結構進行替換,并在檢測端使用多頭注意力檢測頭Detect_SEAM模塊,增強模型在復雜環境中對遮擋問題的抑制能力,從而提升檢測性能和準確性。
圖3改進的CBS-YOLO模型架構
1.3.1Fasterblock 模塊C3k2 模塊是最新YOLO11n 模型主干中的核心特征提取模塊,基于CSPNet結構[設計。它通過將輸人特征圖分為2個部分,并利用Neck模塊進行多尺度特征提取,以高效處理特征信息。然而,C3k2模塊堆疊了大量Bottleneck結構,導致過度冗余的通道信息以及較大的模型計算量,本研究對主干網絡中的C3k2模塊進行優化,將其中的Bottleneck模塊替換為FasterBlock,構建新的C3k2_Faster模塊。這一改進旨在降低模型在特征提取階段的計算成本,同時提升主干網絡的空間特征提取能力。FasterBlock 是FasterNet[18]的核心模塊,其設計目標是通過高效的卷積操作來降低計算復雜度和內存開銷。模塊的核心創新是部分卷積(PConv)層,FasterBlock模塊包含1個部分卷積(PConv)層和2個逐點卷積( 1×1 卷積)層(圖4)。PConv層只對輸入特征的一部分通道(1/4通道)進行常規卷積操作,而其余 3/4 通道保持不變,用于進一步的特征融合。與傳統卷積不同,這種方式大幅減少了后續卷積層的計算量和內存訪問量,使得PConv的浮點運算量(FLOPs)僅為普通卷積的1/16 ,內存訪問量也大大減少。PConv的FLOPs計算量 (P-F) 和內存訪問量 (P-M) 計算公式如下:
P-F=h×w×k2×cp2;
(2)式中: h,w 分別表示特征圖的高度、寬度; k 表示卷積核的大小; cp 表示常規卷積的通道數量。
圖4FasterBlock模塊
PConv這一設計極大地提高了計算效率,特別適用于實時目標檢測任務。除PConv層外,FasterBlock還包含2個逐點卷積( 1×1 卷積)層,分別用于降低特征通道數以減少計算成本,并調整通道數使輸人輸出維度一致,以便進行后續的殘差連接,這樣做不僅減少模型的參數量,還為后續的殘差連接提供便捷的通道調整能力,幫助信息在網絡中高效流動,防止梯度消失。整體來看,FasterBlock通過部分卷積和逐點卷積的結合,不僅優化了卷積操作,降低了計算量和內存開銷,還增強了對復雜背景和遮擋場景的適應能力。該模塊的創新設計能有效平衡模型的檢測精度與計算效率。
1.3.2C3k2_Faster_CAA盡管FasterBlock結構在一定程度上減少了計算量,但其主要關注局部特征的提取,缺乏對全局上下文的有效建模。在葡萄果實檢測任務中,目標常常被枝葉、藤蔓等其他目標干擾,FasterBlock對全局信息的捕捉能力有限,尤其在復雜場景下。為了解決這一問題,本研究引入了上下文錨點注意力機制(CAA)[9],設計一種融合上下文錨點注意力的部分卷積模塊C3k2_Faster_CAA來進一步改進C3k2_Faster,CAA機制能夠自適應地調整對不同錨點區域的關注,并捕捉其周圍的上下文信息。不僅克服了FasterBlock在局部特征建模中的局限性,還使得網絡能夠根據上下文信息動態調整對特征的關注,從而提升特征表達能力。通過引入CAA,主干特征提取網絡能夠在保持FasterBlock高效性的同時,更好地建模全局上下文信息,在復雜場景中提升檢測精度。
CAA結構如圖5所示,主要由平均池化 ?1×1 卷積、深度可分離條帶卷積和基于注意力的加權增強操作組成。CAA模塊通過使用平均池化和 1×1 卷積來提取區域特征,并擴大感受野,從而有效捕獲遠距離像素之間的上下文關系。為了進一步提升對多尺度信息的獲取能力,CAA模塊采用2個深度條帶卷積來近似標準的大核深度卷積。假設輸入特征為 F1=Rc×H×W ,其中 c 為輸人通道數, H,W 分別是特征圖的高度、寬度,中間狀態 和 FH 的計算公式如下:
Fpool=Conv1×1[Pavg(F1)];
FW=DWConv1×kb(Fpool);
F?H=DWConvkb×1(F?W)
式中: Fpool 為池化后的特征; 分別表示寬度、高度方向的特征; Pavg 表示平均池化操作; Conv 和DWCom為卷積和深度可分離卷積操作。
圖5 CAA結構
條帶卷積作為輕量級操作,相比于傳統的 kb× kb 二維卷積,使用2個一維深度卷積能夠實現相同的效果,同時大幅減少參數數量(減少至 kb/2 ),顯著降低計算量。此外,條帶卷積在微小目標的檢測中表現良好,增強了對小目標的識別能力。最后,通過Sigmoid函數和 1×1 卷積進行輸出,得到最終的特征 F2 ,其計算公式如下:
F2=Sigmoid[Conv1×1(FH)]°
1.3.3引入BiFPN 結構PANet(path aggregationnetwork)[20]是在FPN(特征金字塔網絡)的基礎上改進而來,結構如圖6所示。它通過增加自底向上的路徑聚合,實現多尺度特征的雙向融合,有效結合高層語義特征與低層細節特征,提升了目標檢測性能,但也顯著增加了網絡的參數量和計算復雜度。在葡萄果實檢測任務中,PANet存在一些局限。對于小目標檢測,葡萄果實尺寸較小且邊緣特征易丟失,導致細節信息難以保留。對于密集果實,目標之間容易出現粘連,邊界模糊的果實難以有效區分。在復雜背景與光照變化的場景下,PANet對背景干擾的魯棒性較弱,難以準確檢測被遮擋或部分可見的果實。此外,PANet的特征聚合路徑較為復雜,計算量大,難以滿足實時檢測任務的需求。
圖6PANet結構
BiFPN(bidirectional feature pyramid network)[21]是對PANet結構的改進版本,通過優化特征融合機制,實現更高效的多尺度特征融合。由圖7可知,在設計上BiFPN去除未經特征融合且貢獻較小的節點,從而減少無效計算,同時在相同層級的輸入節點與輸出節點之間引入額外的通道連接,以增強特征信息的融合能力。這種設計不僅提升了特征表達能力,還顯著降低了資源消耗。與PANet不同,BiFPN在處理不同分辨率特征時不再一視同仁,而是采用快速歸一化的加權融合策略。具體來說,BiFPN通過可學習的權重機制動態調整不同尺度特征圖的貢獻,使網絡能夠自適應地強化關鍵特征。這種機制統一了主干網絡、特征網絡以及邊界框/類別預測網絡的分辨率、深度和寬度,有效降低了模型的復雜性,BiFPN加權融合公式如下:
圖7BiFPN結構
式中: wi 表示學習權重。在計算出 wi 后,通過一次ReLU激活函數處理,確保 wi?0 。 ε 為常數,通常設置為0.0001,以避免數值不穩定的情況。 lj 則代表輸人特征。
BiFPN的結構進一步刪除僅具有單一輸入邊的節點,簡化網絡拓撲,并在輸入與輸出節點之間增加新的連接,從而在融合更多特征信息的同時避免顯著增加計算開銷。在特征金字塔中,BiFPN通過自上而下傳遞深層特征的語義信息、自下而上傳遞淺層特征的位置信息,實現了雙向特征融合。此外,基于加權特征融合算法,BiFPN能夠學習不同特征的重要性,并根據權重對輸人進行區分性處理,以P6層特征為例,特征融合的輸出算法可以表示為如下的加權融合公式:
式中: P6td 表示自頂向下路徑中第6級的中間特征;P6out 和 P6in 分別表示自底向上和自頂向下路徑中第6級的輸出特征;Resize表示特征圖的尺寸調整操作。
相比于PANet,BiFPN更擅長保留小目標葡萄果實的細節信息,并在密集目標檢測中有效區分果實邊界,減少粘連現象。其計算開銷較小,跨層特征融合高效,能避免冗余計算,適合實時檢測任務。通過簡化結構、移除冗余節點并增強跨尺度連接,BiFPN可更高效地利用多尺度信息,在復雜背景和遮擋場景下表現出更強的魯棒性。同時,其自適應特性使訓練與部署更簡便,在資源受限條件下也能高效運行,是提升葡萄果實檢測精度和效率的理想選擇。
1.3.4Detect_SEAM注意力模塊針對葡萄果實檢測中常見的遮擋問題(如果實間相互遮擋、葉片覆蓋、枝條干擾、光照陰影及背景混淆導致的特征缺失和邊緣模糊),本研究在檢測頭中引人多頭注意力SEAM模塊[22],構建新的Detect_SEAM檢測頭,實現多尺度目標檢測,以強化目標區域的特征表達并抑制背景干擾。SEAM注意力模塊如圖8所示,它通過增強未遮擋部分的響應來補償被遮擋部分的響應損失。該模塊的架構分為2個關鍵階段。
圖8 SEAM結構
在SEAM的第1個階段,通過通道和空間混合模塊(CSMM)進行多尺度特征融合。CSMM采用深度可分離卷積,在保持高效計算的同時,能夠學習到每個通道的重要特征。然而,深度可分離卷積存在局限性一難以捕捉通道間的關聯信息。為此,CSMM模塊引入了逐點卷積操作,通過 1×1 卷積增強通道間的信息融合。為進一步提升通道間特征的融合能力,CSMM使用了1個雙層全連接網絡(FC)。該網絡先將每個通道的特征向量映射至高維空間,再經過非線性激活進行特征映射,最終生成用于調整通道權重的系數。這一過程幫助模型全面捕捉不同通道之間的關聯特性,使得各通道之間的關系得到更好地學習和表達。通道權重和通道調整的計算方法如下:
Xc′=rc?Xc°
式中: zc 是輸人的通道特征; δ,σ 分別是ReLU、Sigmoid激活函數; W1 和 W2 是全連接層的權重;輸入特征圖的每個通道 Xc 會根據權重 rc 進行加權調整。
在第2階段,SEAM引入了Channelexp指數函數,將通道特征的權重范圍從[0,1]擴展至 [1,e] 。這一設計旨在處理遮擋問題,特別是當目標部分遮擋時,模型能夠通過上下文信息推測被遮擋區域的特征。通過指數擴展,SEAM能夠對未遮擋目標和被遮擋目標的特征進行有效結合,從而強化被遮擋目標的識別能力。該過程通過將通道權重進行指數化處理來實現:
這一操作將通道特征的權重范圍擴展至[1,e],并且通過這一機制,模型能夠更加靈活地調整特征的權重,增強對遮擋部分的敏感度。此外,全局平均池化(global averagepooling,GAP)的引入進一步增強了模型對目標整體形態的感知能力。GAP操作通過對整個特征圖進行平均池化,提取全局上下文信息,幫助網絡在處理復雜背景和遮擋情況時維持較高的準確性,計算方法如下:
式中: zGAP 是通過全局平均池化得到的全局特征,進一步提供了有助于目標識別的全局上下文信息。總的來說,SEAM通過空間維度和通道維度的協同作用,有效解決了目標間遮擋引起的特征丟失問題。在空間維度上,模型利用上下文信息推測被遮擋區域的特征;在通道維度上,通過指數擴展機制自適應調整權重,突出關鍵信息。同時,深度可分離卷積提高了計算效率,雙層全連接網絡優化了通道特征融合。這種空間與通道注意力機制的協同作用提升了SEAM在復雜場景中的適應能力和魯棒性,顯著提高了多目標和遮擋條件下的檢測精度。
2 結果與分析
2.1 評價標準
本研究使用到的評價指標分別為精確率(precision, P )、召回率 (recall,R) ,50%loU 閾值下的全類平均精度(mean average precision 50,mAP50 )、參數量(Params)和浮點運算量(FLOPs)。其中精確率用于衡量檢測結果的準確性,反映檢測目標中真正目標的比例。精確率越高,說明誤報(FP)越少,檢測結果更加準確。召回率用來衡量模型的召回能力,表示所有真實目標中被正確檢測的比例。召回率越高,說明漏檢(FN)越少,模型能夠更全面地捕捉目標,精確率和召回率的計算公式如下:
式中: TP 為正確檢測到的目標; FP 為錯誤檢測出的目標; FN 為未被檢測到的目標。
mAP 是用來綜合精確率和召回率的性能指標,它通過計算多個類別的平均精度 (AP) 并取均值,全面反映模型在不同類別上的整體檢測性能。 mAP 值越高,表明模型檢測的精確性和完整性越好。 AP 與 mAP 的計算公式如下:
式中: APi 表示在某一類別上根據Precision-Recall曲線計算出的平均精度; N 為類別總數
參數量反映模型的復雜性,表示模型中可學習的參數總數。參數量越大,模型越復雜,通常能夠捕捉更多特征,但訓練和推理時需要更多的資源。浮點運算量通過浮點運算次數衡量模型的計算開銷,運算量越大,模型推理過程越耗時,對實時性要求較高的任務不利。
2.2 試驗環境配置
試驗所用系統為Ubuntu18.04,硬件配置包括NVIDIA GeForceRTX 3090 GPU,配備 24 GB 顯存;Intel @ Xeon ? Platinum 8358P CPU,80 GB 內存;CUDA版本為12.4。試驗時間為2024年6—11月,試驗地點為長江大學荊州東校區計算機科學學院。
網絡訓練使用PyTorch1.12.1和Python3.8進行,訓練時將工作線程數設置為15,批次大小(batchsize)為48,總訓練批次數為300。優化器采用SGD,學習率設定為0.01,并且未使用預訓練權重。在訓練數據的處理上,輸人圖像均被等比例縮放至640×640 的尺寸。
2.3不同顏色類別檢測結果
使用CBS-YOLO模型對青色和紫色2種葡萄果實進行檢測。由表2可知,2種類別的檢測性能均較為出色。其中,紫色葡萄的精確率、召回率、mAP50 分別為 90.8%.89.2%.93.5% ,略低于青色葡萄 (93.6%.91.3%.95.7%) 。這一差異可能是由于紫色葡萄的顏色更容易與光照形成的陰影及背景顏色混淆,導致模型出現誤檢和漏檢現象。
表2CBS-YOLO模型在不同類別葡萄果實上的檢測結果
2.4主干網絡注意力對比試驗
為了提升模型主干網絡的特征提取能力,本研究選擇4種注意力機制融合到主干網絡,分別為EMA[23] SE[24] ) SimAM[25] 和本研究采用的CAA,設計4組對比試驗。結果(表3)表明,CAA在各項指標上均優于其他注意力機制。這主要得益于CAA能在特征空間中選取錨點,并計算錨點與周圍上下文的關系,從而生成更加精確的注意力分布。在建模局部和全局特征方面,CAA表現尤為出色,特別是在復雜條件下的葡萄果實檢測任務中展現出更強的魯棒性。因此,本研究選擇CAA作為特征提取網絡的輔助模塊,以進一步增強模型的上下文特征提取能力。
表3主干網絡注意力機制對比試驗
注:準確率、召回率 ,mAP50 均取紫色葡萄與青色葡萄的全類別均值;加粗文本為列中最優結果。下表同。
2.5 頸部網絡對比試驗
為驗證引入BiFPN結構替換原YOLO11n頸部網絡后,在特征融合和性能方面的提升,以及模型復雜度優化方面的效果,設計4組對比試驗:分別采用原頸部網絡PANet、Slimneck[26]、HSFPN和本研究使用的BiFPN進行對比,對比試驗中的主干網絡為引人C3k2_Faster_CAA的改進結構,檢測頭保持原YOLO11n的結構。結果(表4)表明,在與其他3種頸部網絡的對比中,BiFPN表現出色。首先,引入BiFPN后,模型的參數量、浮點運算量分別為1.45M.4.5G ,均為最低,體現了其在計算效率和輕量化方面的優勢。盡管原YOLO 11n 頸部結構PANet的召回率略高于BiFPN,但BiFPN在精確率和 mAP50 上均表現更佳,分別提升1.0、0.5百分點。相比之下,使用Slimneck和HSFPN作為替代方案時,模型在精確率和召回率上稍遜于BiFPN,且浮點運算量相對更高。因此,采用BiFPN作為頸部網絡的替換選擇,不僅能夠在復雜任務中保持卓越的檢測性能,還具備更高的計算效率和更低的部署難度,成為此次研究中最優選的頸部網絡結構。
表4頸部網絡對比試驗
2.6檢測頭對比試驗
表5檢測頭對比試驗
為了驗證Detect_SEAM檢測頭在葡萄果實檢測任務中的有效性,在引入 C3k2- Faster_CAA模塊和BiFPN結構的基礎上,設計4組檢測頭對比試驗:分別采用原YOLO11-head、dyhead[27]、文獻[28]中使用的LSCD-Head,以及本研究使用的Detect_SEAM。結果(表5)表明,使用Detect_SEAM作為模型的檢測頭,相比其他3種方案,在精確率、召回率、mAP50 上表現最優。與 YOLO11n-head 相比,Detect_SEAM分別提升 1.6、3、0、1.1 百分點,模型參數和浮點運算量分別降低 0.09M,0.5G 。相比之下,文獻[28]中使用LSCD作為檢測頭,雖然模型的參數量和計算開銷略低于Detect_SEAM,但在精確率、召回率、 .mAP50 上卻落后很多,這表明Detect_SEAM在處理遮擋問題方面具有明顯優勢,從而提升了整體檢測性能。因此,為了在精確率和計算效率之間取得良好的平衡,本研究最終選用Detect_SEAM作為模型的檢測頭。
2.7改進點消融試驗
在消融試驗中,通過逐步去除或替換模型的各個組件,以評估各模塊改進對模型最終性能的影響。在模型參數等條件不變的情況下,共設計6組消融試驗(表6)。其中,編號1為原YOLO11n模型的試驗結果,編號6為本研究提出的CBS-YOLO模型的試驗結果。結果表明,編號2模型通過改進主干網絡,引入C3k2_Faster_CAA模塊后,模型的參數量和浮點運算量呈下降趨勢,同時,精確率、mAP50 分別較原模型提升0.2、0.3百分點。編號5模型在編號2模型的基礎上,使用BiFPN替換原YOLO 11n 模型的頸部網絡,大幅降低了參數量和浮點運算量,與編號2模型相比分別降低 0.9M 、1.6G,盡管召回率較編號2模型略有下降,但是精確率和 mAP50 分別提升1.0、0.5百分點。編號6模型在編號5模型的基礎上,加人了Detect_SEAM注意力機制,進一步提升了模型的性能,在參數量和浮點運算量方面,完整的改進模型較原YOLO11n模型分別降低 1.1M.2.3G ,同時,精確率、召回率、mAP50 分別提升 2.8,2.1,1.9 百分點。綜上所述,試驗結果表明本研究提出的CBS-YOLO 模型,在保持高檢測效率的同時實現了模型的輕量化。
表6CBS-YOLO消融試驗對比
注:“√\"表示進行添加;“—\"表示未進行變動;編號1為YOLOI1n模型;編號6為結合所有改進點的CBS-YOLO模型。
2.8主流模型對比試驗
為比較本研究提出的CBS-YOLO與主流檢測模型在葡萄果實數據集的檢測效果,在保證試驗條件一致的前提下,選擇YOLO v5n YOLO v6n 、YOLOv7tiny、YOLO v8n 、YOLOv9tiny、YOLO 、YOLO11n Faster R-CNN[29] 和 SSD[30] 共9種主流的目標檢測模型進行對比試驗。由表7可知,本研究提出的CBS-YOLO模型在參數量和浮點運算量方面均優于目前主流的目標檢測模型。與整體表現較好的YOLO v5n 模型相比,CBS-YOLO的參數量、浮點運算量分別降低 0.32M,0.1G ,同時精確率、mAP50 分別提升1.3、2.9百分點。這表明,CBS-
YOLO在實現輕量化的同時,仍然能夠有效提高檢測精度。此外,在 mAP50 指標上,CBS-YOLO相較于表現較好的YOLO v8n,Y0L0v10n 和 YOLO 11n分別提升2.3、2.5、1.9百分點。盡管與YOLO 相比,召回率略微下降0.5百分點,但CBS-YOLO在參數量、浮點運算量、精確率和 mAP50 等關鍵指標上全面超越YOLO
。總體而言,改進后的模型在保持高檢測精度的同時,成功實現與資源占用之間的良好平衡,為在計算資源有限的移動設備上部署高精度檢測模型提供更優的選擇,也為葡萄果實采摘檢測模型的實際應用提供重要的技術參考。
表7主流模型對比試驗
2.9 檢測結果分析
為了直觀驗證本研究提出的CBS-YOLO在葡萄果實檢測實際應用中的有效性,將原YOLO11n與本研究改進的模型進行檢測結果可視化對比。試驗選取紫色和青色2種葡萄樣本,分別在正常光、背光、運動模糊不同光照條件下進行置信度分數對比分析。由圖9可知,由于光照條件、復雜背景和拍攝方式等差異,原模型在推理過程中適應性較差,導致檢測精度相對不足;在不同的復雜環境下,由于枝葉遮擋,紫色和青色葡萄均出現漏檢現象,檢測精度也多次低于CBS-YOLO模型;在背光條件下,由于光線不足導致葡萄果實之間邊緣模糊,原模型甚至出現將2簇葡萄錯檢成1簇的情況。相比之下,本研究提出的CBS-YOLO模型在不同光照和復雜場景下表現出更強的適應性和泛化能力。綜上所述,本研究提出的CBS-YOLO 模型,在葡萄果實檢測任務中較原YOLO 11n 模型更具優勢。在實現輕量化的同時,提升模型的檢測精度,使其更加適用于復雜場景中的葡萄果實精準識別與高效部署。
2.10 檢測熱力圖分析
熱力圖是目標檢測任務中常用的可視化技術,用于直觀展示模型對輸入圖像關注區域的特征響應強度。通過將模型輸出的激活區域映射為顏色圖(顏色越紅表示響應值越高),可以判斷模型的關注區域是否集中在目標物體上,從而輔助發現訓練數據或模型設計中的問題。為評估改進后的CBS-YOLO模型在性能方面的提升,本研究采用Grad-CAM[31] 方法對改進前后的模型進行熱力圖可視化對比分析。圖中顏色從藍色到紅色逐漸加深,表示模型對圖片的關注度逐漸增強。由圖10可知,原YOLO11n模型的紅色得分分布相較于改進后的CBS-YOLO模型,覆蓋果實目標的面積較小且分布較為分散,重點關注在果實邊緣等無關信息上,未能準確捕捉果實整體信息。相比之下,改進后的CBS-YOLO模型關注更集中,能夠更精準地捕捉果實的全局特征,進一步驗證了其在葡萄果實檢測任務中的優越性和可靠性。
3結論與討論
針對復雜場景下在資源有限設備的模型部署問題,尤其是不同顏色葡萄果實由于光照條件、葉片遮擋以及緊湊果實簇間難以區分的目標識別挑戰,本研究提出一種基于YOLO11n的輕量化葡萄果實檢測模型CBS-YOLO,該模型取得了良好的效果,并得出以下結論:
選用最新的YOLO11模型作為基準模型。與以往YOLO系列網絡相比,YOLO11模型在特征提取與融合方面表現更為出色,能夠更好地適應復雜場景中的檢測需求,從而提升檢測的準確率。
通過逐步改進原模型的主干網絡、頸部網絡和檢測頭,該模型的參數量和浮點運算量較原模型分別降低 44.7% ) .36.5% ,而 mAP50 呈現穩定上升趨勢,提升1.9百分點。這些改進不僅提升了模型的檢測性能,還實現了輕量化設計,更加適合實際場景的部署需求。
優化過程中,使用FasterBlock模塊替代原主干網絡C3k2中的Bottleneck模塊,并融合上下文錨點注意力機制,構建C3k2_Faster_CAA模塊,在降低模型參數量的同時,提升對上下文特征的表達能力。進一步引入BiFPN模塊替換原網絡的頸部結構,增強模型在復雜背景下對重疊或密集果實的檢測能力。最后,在檢測頭中加人Detect_SEAM注意力模塊,能有效應對枝葉和藤條茂盛導致的果實遮擋問題,提升檢測的魯棒性和適應性。
圖9原模型與改進模型檢測結果對比
綜上所述,CBS-YOLO模型在復雜場景下展現出優秀的檢測性能,為葡萄果實檢測任務提供更加高效且精準的解決方案,成功實現輕量化與高性能的平衡。未來的研究將進一步專注于提升該模型質量,同時探索在資源受限的設備上實現高效部署,以推動模型的實際應用落地。
參考文獻:
[1]展曉城.小葡萄撬動大產業[J].農家致富,2024(21):14.
[2]劉柯含,張芮,高彥婷,等.中國葡萄產業現狀分析及其發展對策[J].中國果樹,2024(7):132-138.
[3]申藝方,聶超超,趙會娟.淺析自動控制技術在農業機械中的應用[J].南方農機,2023,54(22):83-85.
[4]Zhang J,Kang NB,Qu QJ,et al.Automatic fruit pickingtechnology:acomprehensivereviewof research advances[J].Artificial IntelligenceReview,2024,57(3):54.
[5]ShiMX.Imagerecognitionforfruit-pickingrobots[J].JournalofImageProcessing Theory and Applications,2023,6(1) :132-139.
[6]喬艷軍.基于深度學習的采摘機器人水果識別定位與采后自動分級技術研究[D].天津:天津理工大學,2022:1-137.
[7]FangXM,ZhuHY,LiSY,etal.Round fruitpickingsystembasedonmachine vision[J].Journal of Physics:Conference Series,2024,2926(1) :012015.
[8]郭武元.基于視覺的蘋果采摘機器人目標識別算法研究[D].柳州:廣西科技大學,2023:1-150.
[9]李天華,孫萌,婁偉,等.采摘機器人分割與識別算法的研究現狀[J].山東農業科學,2021,53(10):140-148.
[10]梁敖,代東南,牛思琪,等.基于改進YOLOv5s的草莓成熟度實時檢測算法[J].山東農業科學,2024,56(11):156-163.
[11]李國進,黃曉潔,李修華,等.采用輕量級網絡MobileNetv2的釀酒葡萄檢測模型[J].農業工程學報,2021,37(17):168-176,317.
圖10原模型與改進模型熱力圖可視化
[12]肖張娜,羅陸鋒,陳明猷,等.基于改進YOLO-v4的果園環境下葡萄檢測[J].智能化農業裝備學報(中英文),2023,4(2):35-43.
[13]孫俊,吳兆祺,賈憶琳,等.基于改進YOLOv5s的果園環境葡 萄檢測[J].農業工程學報,2023,39(18):192-200.
[14]張傳棟,元璐,丁華立.基于改進YOLOv8n模型的多品種葡 萄簇檢測方法[J].中國農機化學報,2024,45(9):220-226.
[15]ChenJL,Chen H,Xu F,etal.Real-time detection ofmature table grapes using ESP-YOLO network on embedded platforms [J].Biosystems Engineering,2024,246:122-134.
[16]陳文駿,饒元,王豐儀,等.葡萄多模態目標檢測和語義分割 數據集[J].中國科學數據,2025,10(1):89-104.
[17]WangCY,MarkLiaoHY,WuYH,etal.CSPNet:anew backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Seattle,WA,USA.IEEE,2020:1571-1580.
[18]ChenJ,KaoS,HeH,etal.Run,Don’tWalk:chasinghigherFLOPS forfaster neural networks[C]//2O23 IEEE/CVF Conferenceon ComputerVisionand Pattern Recognition.Vancouver,BC,Canada. IEEE,2023:12021-12031.
[19]CaiXH,LaiQX,WangYW,etal.Polykernel inceptionnetwork forremote sensing detection[C]//2024 IEEE/CVF Conference on ComputerVisionand PatternRecognition.Seattle,WA,USA.IEEE, 2024:27706-27716.
[20]Liu S,QiL,Qin HF,et al.Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA.IEEE, 2018:8759-8768.
[21]TanMX,PangRM,LeQV.EfficientDet:scalable and efficient objectdetection[C]//2O20 IEEE/CVF Conference on Computer VisionandPattern:Recognition.Seattle,WA,USA.IEEE,2020: 10778 -10787.
[22]Wang YD,Zhang J,Kan M N,et al. Self-supervised equivariant attention mechanism for weakly supervised semantic segmentation [C]//2O20 IEEE/CVF Conference on ComputerVision and Pattern Recognition.Seattle,WA,USA.IEEE,2020:12272-12281.
[23]OuyangDL,He S,ZhangGZ,et al.Efficient multi-scale attention module with cross-spatial learning[C]//ICASSP2023—2023 IEEE International Conferenceon Acoustics,Speech andSignal Processing. Rhodes Island,Greece.IEEE,2023:1-5.
[24]Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]// 2018IEEE/CVF Conference on Computer Vision and Pattern Recognition.SaltLakeCity,UT,USA.IEEE,2018:7132-7141.
[25]YangLX,ZhangRY,LiL,etal.SimAM:a simpleparameterfreeattentionmodule for convolutionalneuralnetworks[J]. Proceedings of the International Conference on Machine Learning, 2021,139:11863-11874.
[26]LiHL,LiJ,WeiHB,et al.Slim-neck by GSConv:abetter design paradigm of detector architectures for autonomousvehicles [EB/OL].(2022-06-06)[2025-01?06].http://export. arxiv.org/abs/2206.02424v2.
[27]DaiXY,ChenYP,XiaoB,etal.Dynamichead:unifyingobject detectionheadswithattentions[EB/OL].(2021-06-15)[2025- 01-06].https://arxiv.org/abs/2106.08322v1.
[28]李 軍,楊飛帆,龔 勝,等.基于視覺的輕量化路面異常檢測 算法[J/OL].吉林大學學報(工學版):1-9(2024-09-23) [2025-01-06].https://doi.org/10.13229/j.cnki.jdxbgxb. 20240802.
[29]RenSQ,HeKM,GirshickR,etal.FasterR-CNN:towardsreal- timeobjectdetectionwithregionproposalnetworks[J].IEEE TransactionsonPatternAnalysisandMachineIntelligence,2017,39 (6):1137-1149.
[30]LiuW,AnguelovD,ErhanD,etal.SSD:singleshotmultibox detector[J].EuropeanConferenceonComputerVision,2016:21- 37.
[31]SelvarajuR R,CogswellM,DasA,etal.Grad-CAM:visual explanationsfrom deepnetworksviagradient-basedlocalization [C]//2017IEEEInternationalConferenceonComputerVision. Venice,Italy.IEEE,2017:618-626.