中圖分類號:S126;TP391.41 文獻標志碼:A 文章編號:1002-1302(2025)11-0209-11
酥梨作為一種美味可口且營養豐富的水果,含有豐富的礦物質、維生素以及其他對人體有益的營養成分,被譽為百果之宗,在人們日常飲食中的重要性不可忽視。隨著人們對健康飲食的追求和對高品質水果需求的增加,酥梨的生產和貿易逐漸成為農業領域的關鍵產業之一[1]。然而,傳統的梨果采摘方式仍然依賴于人工,存在采摘效率低、成本高、勞動強度大等問題。梨樹成熟期短,若未及時采摘,不僅會導致果實過熟腐爛,還可能帶來嚴重的經濟損失。因此,實現梨的自動化采摘成為提高產量、降低成本的緊迫需求。
果實檢測在果園采摘機器人的自主作業中扮演著至關重要的角色。當前,研究人員已經運用機器學習的技術,尤其是依賴顏色特征的方法,對那些與背景顏色差異顯著的水果進行檢測。司永勝等提出了一種基于紅綠差分分離的方法,該方法利用水果形狀形成的輪廓來分離紅色蘋果和綠色背景;然而,當目標與背景顏色相近時,該方法失效,因為一些水果(如某些蘋果和芒果品種)在成熟時仍然呈現綠色[2]。項榮等采用重疊番茄邊界線的曲率來檢測帶有陰影的番茄,但在處理大陰影區域時準確率僅為 76.9%[3] 。與近年來飛速發展的深度學習技術相比,傳統的機器學習方法表現出諸多限制,包括速度較慢、檢測精度低、適用性差等。此外,這些傳統算法只能單一目標檢測。就計算機而言,機器學習所使用的底層特征難以提取深層語義信息,因此在果園復雜多變的環境中,傳統機器學習方法不適用于在線設備和果實檢測[4]
近年來,深度學習技術在果園目標檢測方面取得了顯著的進展,主要分為2個算法類型:以R-CNN、Fast-RCNN、Faster-RCNN等為代表的兩階段檢測算法和以SSD、YOLO系列等為代表的一階段檢測算法[5-9]
由于兩階段算法在準確性方面表現出色,因此在農業領域得到了廣泛研究。例如岳有軍等通過在MaskRCNN網絡的基礎上增加邊界加權損失函數,使檢測蘋果的 AP 值達到 92.62% [10];周云成等在Fast-RCNN的基礎上提出了雙卷積鏈方法,融合RGB和灰度圖像特征,使檢測番茄器官的 mAP 值提高了 2.56%[11] ;朱旭等在FasterR-CNN的基礎上,通過卷積神經網絡、區域候選網絡、感興趣區域池化和分類網絡來實現藍莓圖像背景消除及果實識別,使平均識別準確率達到 94.67%[12] 。盡管兩階段算法具有高精度的優勢,但由于需要先生成候選區域,再對候選區域內的目標進行分類識別,致使參數龐大,計算成本增加,檢測速度降低,因此在實時檢測任務中面臨一定挑戰。
一階段檢測算法是一種端到端的檢測方法,通過深度神經網絡直接預測圖像中的目標位置和類別,在保證檢測精度的情況下,大大提高了識別速度,更適用于在線實時檢測。劉芳等針對番茄果實的識別,在YOLO網絡模型的基礎上通過融合多尺度檢測和設計含有殘差模塊的darknet-20主干網絡,使檢測精度達到 97.13% [13];武星等在YOLOv3模型的基礎上,通過簡化檢測特征圖尺度,引入深度可分離卷積等方式,使檢測蘋果果實的精度達到94.69% [14];針對柑橘果實識別問題,李善軍等在SSD模型的基礎上改進柑橘檢測方法,通過對比大量試驗,挑選出較為合適的特征圖,最終算法 mAP 達到了87.90%[15]
目前的果實檢測研究主要針對蘋果、番茄、柑橘等水果進行,對于酥梨的檢測鮮有相關研究,基于此現狀和上述文獻的啟發,本研究以YOLOv8n目標檢測網絡為基礎,針對自然果園環境下的酥梨檢測,提出了一種改進的YOLOv8n酥梨檢測算法。本研究主要貢獻如下:(1)將原算法中的大、中、小檢測層改為中小、微小檢測層,提高網絡模型對酥梨小目標的檢測能力,降低小目標的漏檢率;(2)利用KernelWarehouse動態卷積的思想,設計了KWC2f模塊,在不增加網絡深度的情況下,提升模型的表達能力;(3)設計了DmixerP模塊插入到主干網絡中,使酥梨檢測模型在保持強大歸納偏差的同時擴大網絡的感受野,能夠在更廣闊的范圍內感知和理解酥梨的環境背景和特征,從而提高果園酥梨檢測的準確性和泛化能力;(4)將原始YOLOv8的頭部替換為整合了DyHead的檢測頭。通過將尺度、空間和任務3種注意力機制結合統一,進一步提升了模型的檢測性能
試驗結果表明,改進后的算法在酥梨目標檢測圖像數據集上召回率、精確率和平均精確率均優于原算法,且也比原算法占用存儲空間更小,同時比目前的其他主流算法擁有著最高的精度。
1材料與方法
1.1 數據集
本研究所使用的數據集是由吳洪偉等在2022年1月19日發布于科學數據銀行平臺上的公開酥梨目標檢測圖像數據集,該數據集收集整理了晴天和陰天、白天和夜晚、順光和逆光、是否套袋、運動模糊等果園自然條件下的高質量酥梨圖像數據3 488張[16]。本研究將其按照 4:1 的比例隨機劃分為訓練集和測試集,其中訓練集2790張、測試集697張。
1.2 YOLO v8n 模型
YOLOv8是一種先進的一階段目標檢測算法,根據網絡的寬度和深度,從小到大依次分為YOLO 和YOLO v8x 本研究選用YOLO v8n 作為基準模型,其擁有最快的檢測速度和最小的體積,同時仍然保持著較高的精度。
YOLO v8n 模型主要由3個核心網絡組成:主干網絡、頸部網絡和頭部網絡。主干網絡負責從輸入圖像中提取豐富的語義特征,以便準確地捕捉目標的形狀、紋理和上下文信息。頸部網絡的任務是將不同尺度的特征圖融合在一起,以便更有效地檢測各種大小和尺度的目標。最后將融合后的特征圖傳遞給頭部網絡進行最終的目標檢測。YOLOv8n的整體結構圖如圖1所示。
在標簽分配和損失函數方面,YOLOv8n不再依賴于傳統的基于錨框的思想,而是轉向了更先進的無錨框方法。它引入了TaskAlignmentLearning(TAL)動態分配策略,以確保分類和回歸任務之間的高度一致性。此外,YOLOv8n采用了DFLLoss結合CIoULoss作為回歸損失函數,這一結合使得模型在回歸任務上表現更出色。這種綜合損失函數的運用進一步提升了模型的性能和穩定性。
1.3 模型改進
原模型對小目標的檢測效果不佳,故本研究修改小目標檢測層提高網絡模型對遠處酥梨的檢測效果;原模型使用的是標準卷積,特征表達能力有限,本研究使用KWC2f模塊替換原先的C2f模塊,在不增加網絡深度的情況下,提升模型對酥梨的表達能力;原模型通過卷積操作實現了優秀的局部感知能力,然而,由于有限的感受野,無法捕捉到全局范圍內的相關信息,故本研究在主干網絡末端添加一個DmixerP模塊,使模型保持強大歸納偏差的同時擴大網絡的感受野,從而提高果園酥梨檢測的準確性和泛化能力;為進一步提升輸出酥梨特征圖在3個不同角度(尺度、空間和任務)的表達能力,引入DyHead檢測頭,將尺度、空間和任務3種注意力機制結合統一,進一步提升模型的檢測性能。改進后的YOLOv8n結構見圖2。
1.3.1檢測層果園是一個復雜且多樣化的區域,與攝像機的距離遠近影響著識別目標在圖像中的尺寸,為了衡量果園場景中待檢測目標的尺寸大小,本研究對所使用的果園酥梨場景數據集進行分析,繪制了訓練集標簽相對于整幅圖寬高比的分布圖,由圖3可知,0.2以下的小目標占據了相當比例。YOLO v8n 模型輸入圖片尺寸默認為 640× 640,經過主干網絡中5次下采樣后,分別將尺寸為 的特征圖用于頸部特征融合和頭部回歸預測,不同尺寸分別對應小目標( 8× 8)、中目標( 16×16 、大目標( 32×32) 的檢測,所以YOLO v8n 模型對圖片中像素點小于8的微小目標的檢測效果并不好,目前比較通用的做法是在頸部網絡第15層之后繼續添加1個上采樣模塊并與主中的第7和第8層,減少1次下采樣次數,并將原本連接到頸部的第4層和第6層的輸出特征圖,改為將第2層和第4層輸出特征圖分別連接到頸部進行多尺度特征融合,讓頸部原本的
的輸出特征圖,變為現今的
40輸出特征圖,加強遠處酥梨微小目標的檢測能力,降低漏檢率。
干網絡第2層進行拼接得到1個 160×160 的微小目標檢測層,增強對微小目標的檢測能力,但此種方法由于添加了多層網絡,會增加大量參數,考慮到在果園環境中酥梨都是中小目標,原本的大目標檢測層起到的作用微乎其微,故本研究重新優化設計了主干網絡和之后的相關參數,刪去了主干網絡
1.3.2KWC2f模塊由于果園環境復雜多變,而采摘機器人的硬件性能有限,較低的計算預算限制了網絡模型性能和表達能力,為了提高網絡模型對果園酥梨的表達能力,同時不顯著增加模型大小和計算量,利用KernelWarehouse動態卷積思想,設計KWC2f模塊更換原先的C2f模塊。
卷積神經網絡在計算機視覺任務中取得了前所未有的成功,但如果想要進一步提升其性能,更多的是采取增大模型尺寸和容量的方式,可模型尺寸的增大會急劇加大計算量,進一步加大優秀模型的部署難度,為了解決這些問題,動態卷積應運而生[7]。在標準卷積中,輸人與輸出的關系如公式(1)所示,在動態卷積中,輸人與輸出的關系如公式(2)所示。此處為了簡潔起見,省略了激活函數和偏置。
y=Wx;
y=(α1W1+…+αnWn)x
式中: W,W1,…,Wn 為卷積核參數; x 為輸人特征; y 為輸出特征; α1,…,αn 為通過訓練得到的加權系數。由此可見,對于標準卷積而言,卷積核參數經訓練并確定后對所有輸人樣本便是一視同仁的,因此表達能力有限,動態卷積針對不同的輸人特征有著不同的加權系數,卷積核等價于 n 個靜態卷積核的線性組合,推理時每個參數僅需1次乘加,故能在增加少量計算量的情況下,達到和提升網絡容量同等的效果。
但是動態卷積由于是 n 個靜態內核的線性組合,這也導致了卷積參數的數量增加了 n 倍,對此,Li等提出了KernelWarehouse這種更一般的動態卷積形式,通過巧妙的內核分區和倉庫共享增強了同一層內和相鄰層之間的卷積參數依賴性,它可以在參數效率和表示能力之間取得良好的權衡,其整體結構如圖4所示[18]
簡而言之,KernelWarehouse首先對標準卷積核進行劃分,核劃分的基本思想是通過顯式增強同一卷積層內的參數依賴關系來減小核維,增加核數。將標準卷積層的靜態核 W 依次劃分為 m 個不相交的部分 w1,…,wn ,稱之為核單元,它們具有相同的尺寸。核單元 w1,…,wm 與靜態核 W 的關系可表達為公式(3)所示。
wj,i=0 。 (3)
在劃分完標準卷積核之后,定義包含 n 個內核單元的倉庫 E={e1,…,en} ,其中 e1,…,en 與w1,…,wm 具有相同的維數,然后在同一個卷積層中共享倉庫 E,m 個核單元 w1,…,wm 的具體參數則由e1,…,en 線性組合得到,如下所示。
w1=αi1e1+…+αinen,i∈{1,…,m},
式中: αi1,…,αin 是由注意力模塊以輸入 x 為條件生成的加權系數。最后,將標準卷積層中的靜態內核W 替換為按順序組裝其對應的 ∣m∣ 個核單元的線性組合。
用KernelWarehouse思想改造網絡中的C2f模塊的Bottleneck,可以使模型更好地提取酥梨特征,具體結構如圖5所示。KernelWarehouse改造的C2f模塊主要用KWBottleneck替換原模塊中的Bottleneck。在KWBottleneck中,采用2個KWConv卷積模塊,在輸入和輸出之間進行殘差連接。C2f中的所有KWBottleneck中的KWConv卷積模塊共用1個核倉庫 {e1,…,en} ,KWConv卷積模塊的卷積核由 m 個核單元按順序拼接而成,而核單員由核倉庫 {e1,…,en} 線性組合得到。
1.3.3DmixerP模塊CNN模型通過卷積操作實現了優秀的局部感知能力,能夠有效地捕獲圖像等數據中的局部結構和特征,然而,由于有限的感受野,無法捕捉到全局范圍內的相關信息。相比之下,Transformer通過自注意力機制能夠有效地處理長距離依賴關系,表現了出色的全局關注能力。但是,Transformer缺乏CNN那種對局部結構的敏感性,在處理局部相關性強的數據時表現不佳。
因此本研究在結合了CNN和Transformer優點的雙動態令牌混合器D-Mixer的基礎上設計了DmixerP模塊插入到主干網絡中,使酥梨檢測模型在保持強大歸納偏差的同時擴大網絡的感受野,能夠在更廣闊的范圍內感知和理解酥梨的環境背景和特征,從而提高果園酥梨檢測的準確性和泛化能力。
雙動態令牌混合器(D-Mixer),能夠以一種依賴輸入的方式聚合全局信息和局部細節,由圖6-a可知,D-Mixer通過分別在均勻分割的特征片段上應用有效的全局注意力模塊和輸人依賴的深度卷積,使網絡具有強大的歸納偏差和擴大的有效感受野[19] C
本研究在D-Mixer的基礎上進行改進,提出了DmixerP,由圖6-b可知,原先的D-Mixer模塊由于是采用沿通道直接一分為二的方式,使得提取全局信息的OSRA全局自注意模塊和提取局部細節的IDConv動態深度卷積模塊都各自缺少了另一半的特征信息,因此本研究決定將特征信息同時送入OSRA全局自注意模塊和IDConv深度卷積模塊,具體地說,對于一個特征圖 ,為了更好地提取全局信息和局部細節,本研究先不對特征圖在通道上進行均勻分割,而是先通過一個 1×1 卷積模塊壓縮特征圖,壓縮比例為 r ,得到壓縮后的特征圖X′ ,之后將 X′ 同時送到OSRA全局自注意模塊和IDConv深度卷積模塊,產生相應的具有全局信息和局部信息的特征圖 {X1,X2}∈RC/r×H×W ,為了更好地聚合全局信息和局部信息,此處不是直接簡單地將X1 和 X2 拼接或相加,而是利用了SCConv中SRU模塊中的交叉重構思想[20],將 X1,X2 分別沿通道維度均勻地劃分為2個子特征圖,記為 {X11,X12} 和(204 {X21,X22}∈RC/2r×H×W ,接著將 X11 與 X22,X12 與 X21 (204交叉相加后再進行拼接,得到初步聚合了全局信息與局部細節的特征圖 X′′∈RC/r×H×W 。最后,采用擠壓令牌增強器(STE)進行有效的本地令牌聚合。總的來說,所提出的DmixerP模塊可表示為:
X′=Conv(X)
X1=OSRA(X′)
X2=IDConv(X′)
X11,X12=Spilt(X1)
X21,X22=Spilt(X2)
Y=STE(X′′)o
1.3.4DyHead 模塊YOLO v8n 模型是將輸入圖像通過主干網絡提取特征,然后通過頸部網絡進行特征融合,得到大、中、小3種尺度的特征圖,然后再經過DetectionHead進行目標檢測、分類,得到預測結果。在果園復雜環境下檢測酥梨,離攝像頭較遠處的酥梨和樹葉顏色大小相近,不易于區分,需要較高的檢測精度,研究面臨許多問題挑戰。首先,隨著距離攝像頭遠近的不同,拍攝到的酥梨大小不同,會使多尺度不同的酥梨出現在同幅圖像上,需要檢測器具有較高的多尺度感知能力。其次,隨著攝像頭的移動,酥梨的檢測位置易發生變化,檢測器需要空間感知酥梨在不同空間位置之間的關系。最后,檢測器需要具有任務感知能力,因為酥梨檢測有不同的表征(例如:邊界框、中心和角點),這些表征具有完全不同的目標和約束。為了提高酥梨檢測精度,本研究引人DyHead提高目標檢測模型頭部的表示能力,DyHead檢測范式如圖7所示[21]
一般為了實現注意力功能,采用全連接層來實現,但是由于張量的維度太高,直接在所有維度上應用注意力函數,所需的計算量太大,所以DyHead將注意功能分解為3個連續串聯起來的注意,每個注意只關注1個角度,DyHead的注意力函數如下所示:
W(F)=πc{πs[πL(F)?F]?F}?F
式中: πL(???) 是用于尺度感知的注意函數,其表達式如公式(7)所示,其中 f(???) 是通過1個 1×1 卷積層形成的線性函數, σ(?) 是一個hard-sigmoid激活函數。
πs(?) 是用于空間感知的注意函數,因為空間中的維數較高,故將此模塊分為2個步驟進行,首先通過可變形卷積使注意力學習稀疏化,然后在相同的空間位置跨層聚焦特征,其表達式如公式(8)所示,其中 K 是稀疏采樣位置的個數, 為自學習的空間偏移量
所移動的位置, Δmk 為自學習的位置 pk 的重要標量。
πc(?) 是用于任務感知的注意函數,它可以動態地切換功能的ON和OFF通道,以支持不同的任務,其表達式如公式(9)所示。其中 Fc 是指特征圖的第 ∣c∣ 個通道, [α1,α2,β1,β2]T=θ(α?α) 是學習激活閾值的超函數, θ(?) 首先在LxS維上進行全局平均池化以降低維數,接著使用2個全連接層和1個歸一化層,最后使用移位的sigmoid函數將輸出歸一化到[-1,1]區間上。
Fc+β2(F). 1 (9)
本研究在原模型檢測頭的前面首先通過1個1×1 卷積進行特征壓縮,然后串聯2個DyHead模塊以加強模型3個不同角度(尺度、空間和任務)的表達能力。
2 結果與分析
2.1 試驗環境
本研究訓練使用的系統為Windows10操作系統,CPU 型號為Intel@ CoreTM i9 -9900@3.10 HZ,GPU配置為 NVIDIA GeForce RTX 2O70 SUPER,8GB顯存,框架選用pytorch2.0.1,并使用CUDA11.8進行加速訓練。本研究在進行試驗時,將初始學習率設置為0.01,動量設置為0.937,批量大小設置為8,迭代次數為300,優化器使用隨機梯度下降法(SGD)。此次試驗于2024年4月23號在江西理工大學電氣工程與自動化學院315人工智能實驗室完成。
2.2 試驗評價指標
為了客觀評價模型改進后的性能,本研究將精確率 (P) 、召回率 (R) 、平均精確率 (AP) 作為評價指標。
精確率 (P) 是在所有預測為正樣本(即本研究果園中的酥梨)的目標中,真正為正樣本的比例,其計算公式如下:
召回率 (R) 是指在所有實際正樣本中,模型正確識別為正樣本的比例,其計算公式如下:
式中: TP 為模型正確識別的酥梨數量, FP 為將背景識別為酥梨的數量, FN 為已標識為酥梨但未識別到的數量。
平均準確率 (AP) 是一種用于綜合評估檢測模型性能的指標。通過計算出不同閾值下的精確率(P) 和召回率 (R) ,然后通過對這些值進行插值得到 AP ,其計算公式如下:
本研究以 AP50 和 AP50:95 作為平均準確率的評價指標,其中 AP50 是指定位時只有預測框和真實框的交并比(IoU)大于 50% 時才算作定位上的正樣本; AP50:95 是 AP 閾值為 50%~95% 之間,每間隔5百分點,取1個值,共10個值,然后取這10個值的平均值。
2.3模型訓練
模型訓練過程的圖像如圖8所示,當訓練輪次達到120左右時,原模型和本研究改進后的模型開始收斂,且都觸發了早停機制,最終停在230輪左右。其中藍色曲線為改進前的訓練過程圖像,橙色曲線為改進后的訓練過程圖像,觀察訓練過程圖像可以看出,精確率 (P) 改進前后模型相差不大,但改進后模型召回率 (R) 、平均準確率 AP50 和 AP50:95 與原模型相比均有較大提升,表明本研究的改進模型是切實有效的。
2.4D-Mixer和DmixerP對比分析
為驗證模塊改進的有效性,將D-Mixer模塊和DmixerP模塊分別插入到YOLO v8n 主干網絡末端,從表1中可以看出,兩者相比于原模型均有提升,但相比于D-Mixer的先分離再提取特征拼接操作,DmixerP先壓縮提取特征再交叉相加的操作可以更好地幫助模型融合酥梨的全局信息和局部細節,有著更高的召回率和平均精確率。
2.5 消融試驗
為了驗證本研究所提出的改進對果園酥梨檢測的效果,本研究進行了一系列消融試驗,將修改檢測層、添加DmixerP模塊、更換KWC2f模塊和引入DyHead檢測頭分別作用于網絡模型中,來驗證不同模塊對果園酥梨檢測模型的性能提升,具體提升效果詳見表2。
由表2可知,通過修改檢測層后,精確率 (P) 下降了0.3百分點,但召回率 (R) 和平均精確率(204號 (AP50:95) 分別提升了2.5百分點和1.4百分點;添加DmixerP模塊后,精確率 (P) 下降0.1百分點,召回率 (R) 和平均精確率( (AP50:95) 均提高了0.9百分點;更換KWC2f模塊后,精確率 (P) 下降0.2百分點,召回率 (R) 和平均精確率( AP50:95) 均提高了0.5百分點;引入DyHead檢測頭后,精確率 (P) 召回率 (R) 和平均精確率( AP50:95) 分別提高了0.4、0.3、0.4百分點。將所有改進方案整合到一個模型后,最終改進的模型與原模型相比精確率 (P) 、召回率 (R) 和平均精確率( AP50:95) 分別上漲了0.3、2.8、3.5百分點,可見本研究改進的算法對于果園酥梨檢測的效果的提升是有效的。
2.6檢測結果可視化分析
為了直觀地看出本研究改進算法的檢測性能,隨機從測試集中選擇1張圖片進行測試。酥梨檢測測試效果如圖9所示,圖9-a為原始圖像,圖9-b是原始YOLO v8n 算法的檢測結果,圖9-c為本研究改進后的檢測結果。通過對比圖9-b和圖9-c可以看出,對于近距離且和未受到明顯遮擋的目標,原YOLO v8n 模型和本研究改進后的模型均能正確檢測出,但本研究改進后的模型普遍比原YOLOv8n模型的置信度更高;對比圖中白色圓圈處可知,對于遠距離的酥梨小目標,原YOLO v8n 模型容易發生漏檢,而本研究改進后的模型能正確檢測出;對比圖中黃色橢圓圈出來處可以看出,原模型把背景誤檢測為酥梨,而本研究改進后的模型沒有發生誤檢。綜上所述,本研究改進后的模型在果園酥梨的檢測、漏檢和誤檢方面均優于原YOLOv8n模型。
2.7 不同算法對比分析
為進一步驗證改進算法的有效性,本研究在相同的試驗條件下,包括試驗設備和訓練策略,不改變參數和數據集,使用 P,R,AP50、AP50:95 和模型大小作為評價指標,將改進后的算法與目前主流的目標檢測算法FasterR-CNN、SSD、YOLO ΔV3 、YOLOv4、YOLO v5和 YOLO v7 進行比較,結果詳見表3。
由表3可知,本研究改進后的算法無論在精確率、召回率還是平均精確率上都遠高于目前其他主流目標檢測算法,有著更好的性能,而在模型大小上,僅比YOLOv5n略大,適合部署在嵌入式設備、小型移動機器人等內存較小的設備上。
3討論與結論
本研究提出了一種改進YOLO v8n 的果園酥梨檢測算法,解決了原始YOLO v8n 算法在果園酥梨檢測任務中存在的問題。首先通過在主干網絡減少1次下采樣次數及重新優化網絡結構和參數,使原本的大、中、小檢測層變為中小、微小檢測層,提高網絡模型對酥梨小目標的檢測能力,降低小目標的漏檢率;其次利用KernelWarehouse動態卷積的思想,設計了KWC2f模塊,在不增加網絡深度的情況下,提升模型的表達能力;設計了DmixerP模塊插入到主干網絡中,使酥梨檢測模型在保持強大歸納偏差的同時擴大網絡的感受野,能夠在更廣闊的范圍內感知和理解酥梨的環境背景和特征,從而提高果園酥梨檢測的準確性和泛化能力;最后,將原始
YOLOv8的頭部替換為DyHead檢測頭,通過將尺度、空間和任務3種注意力機制結合統一,進一步提升了模型的檢測性能。試驗結果表明,改進后的算法相比于原算法在酥梨目標檢測圖像數據集上召回率、精確率、平均精確率分別上漲了0.3、2.8、3.5百分點,同時,實際檢測效果表明改進后的算法在小目標果園酥梨檢測、精度、漏檢率和誤檢率等方面均優于原算法。
參考文獻:
[1]郭文場,劉佳賀.中國梨的產業現狀、存在問題及改進措施[J].特種經濟動植物,2019,22(3):47-49.
[2]司永勝,喬軍,劉剛,等.蘋果采摘機器人果實識別與定位方法[J].農業機械學報,2010,41(9):148-153.
[3]項榮,應義斌,蔣煥煜,等.基于邊緣曲率分析的重疊番茄識別[J].農業機械學報,2012,43(3):157-162.
[4]ArrietaA B,Diaz-Rodriguez N,Del SerJ,et al.Explainableartificial intelligence(XAI) : concepts,taxonomies,opportunities andchallenges toward responsible AI[J].InformationFusion,2O20,58:82-115.
[5]GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesforaccurate object detection and semantic segmentation[C]//2014IEEEConference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014:580-587.
[6]GirshickR.FastR-CNN[C]//2O15IEEEInternationalConferenceonComputerVision(ICCV).Santiago,Chile:IEEE,2015:1440-1448.
[7]RenSQ,HeKM,GirshickR,etal.FasterR-CNN:towardsreal-time object detection with region proposal networks[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[8]LiuW,AnguelovD,Erhan D,et al.SSD:singleshot MultiBoxdetector[M]//Computer vision-ECCV2016.Cham:SpringerInternational Publishing,2016:21-37.
[9]RedmonJ,DivvalaS,GirshickR,etal.You only look once:unified,real-time object detection[C]//2O16 IEEE ConferenceonComputer Vision andPattern Recognition(CVPR). LasVegas,NV,USA:IEEE,2016:779-788.
[10]岳有軍,田博凱,王紅君,等.基于改進Mask RCNN的復雜環境下蘋果檢測研究[J].中國農機化學報,2019,40(10):128-134.
[11]周云成,許童羽,鄧寒冰,等.基于雙卷積鏈FastR-CNN的番茄關鍵器官識別方法[J].沈陽農業大學學報,2018,49(1):65 -74.
[12]朱旭,馬誤,姬江濤,等.基于FasterR-CNN的藍莓冠層果實檢測識別分析[J].南方農業學報,2020,51(6):1493-1501.
[13]劉芳,劉玉坤,林森,等.基于改進型YOLO的復雜環境下番茄果實快速識別方法[J].農業機械學報,2020,51(6):229 -237.
[14]武星,齊澤宇,王龍軍,等.基于輕量化YOLOv3卷積神經網絡的蘋果檢測方法[J].農業機械學報,2020,51(8):17-25.
[15]李善軍,胡定一,高淑敏,等.基于改進SSD 的柑橘實時分類檢測[J].農業工程學報,2019,35(24):307-313.
[16]Wu HW,Luo Q,Wan TY,etal.A dataset of multimodal pearimages for target detection[DS/OL]. (2022-01-19)[2024-05-02]. https://doi. org/10.11922/sciencedb.01449.
[17]YangB,BenderG,LeQV,etal.CondConv:conditionallyparameterized convolutions for efficient inference[EB/OL].(2019-04 -10)[2024-05-02].htps://arxiv.org/abs/1904.04971v3.
[18]Li C,Yao A B.KernelWarehouse:towards parameter-efficientdynamic convolution[EB/OL].(2023-08-16)[2024-05-02].http://export. arxiv. org/abs/2308.08361.
[19]Lou M,Zhang S,Zhou HY,et al. TransXNet:learning both globaland local dynamics with a dual dynamic token mixer for visualrecognition[EB/OL].(2023-10-30)[2024-05-02].https://arxiv.org/abs/2310.19380v3.
[20]Li JF,Wen Y,HeL H. SCConv :spatial and channel reconstructionconvolution forfeatureredundancy[C]//2023IEEE/CVFConference on Computer Vision and Patern Recognition(CVPR).Vancouver,BC,Canada:IEEE,2023:6153-6162.
[21]DaiXY,ChenYP,Xiao B,etal.Dynamic head:unifying objectdetection heads with attentions[C]//2021 IEEE/CVF Conferenceon Computer Visionand Pattern Recognition(CVPR).Nashville,TN,USA:IEEE,2021:7369-7378.