基于改進(jìn)輕量化YOLO v7的成熟期香梨目標(biāo)檢測方法

2024-12-31 00:00:00鄭文軒楊瑛

江蘇農(nóng)業(yè)科學(xué) 2024年20期

doi：10.15889/j.issn.1002-1302.2024.20.015

摘要：為在自然環(huán)境下準(zhǔn)確地識別和檢測香梨果實(shí)，以YOLO v7為基礎(chǔ)網(wǎng)絡(luò)模型，針對果園中香梨果實(shí)、果葉、枝干之間相互遮擋問題，提出一種改進(jìn)的輕量化YOLO v7梨果目標(biāo)檢測方法。該方法將MobileNet v3引入YOLO v7 模型中作為其骨干特征提取網(wǎng)絡(luò)，從而減少網(wǎng)絡(luò)的參數(shù)量，使其更容易部署在移動(dòng)端和生產(chǎn)實(shí)際，在特征融合層引入?yún)f(xié)同注意力機(jī)制CA（coordinate attention）模塊，以提高網(wǎng)絡(luò)的特征表達(dá)能力，將原YOLO v7中的損失函數(shù)CIoU替換為SIoU，從而提高模型的檢測速度和性能。最后利用Grad-CAM 方法產(chǎn)生目標(biāo)檢測熱力圖，進(jìn)行特征可視化。結(jié)果表明，改進(jìn)的輕量化YOLO v7模型的平均精度均值（mAP）、精確率、召回率指標(biāo)分別為96.33%、94.36%、89.28%，檢測速度為87.71（幀/s），模型內(nèi)存占用量與原YOLO v7相比減少21.45 MB；其檢測平均精度均值（mAP）與 Faster R-CNN、YOLO v3、MobileNet v3-YOLO v4、YOLO v5s、YOLO v7模型相比分別提高28.37、9.66、13.14、4.58、3.20百分點(diǎn)。研究表明，改進(jìn)的輕量化YOLO v7模型對成熟期香梨具有很好的目標(biāo)檢測效果和魯棒性，可為香梨自動(dòng)化采摘提供有效的技術(shù)支持。

關(guān)鍵詞：目標(biāo)檢測；香梨；YOLO v7；輕量化；注意力機(jī)制

中圖分類號：S126；TP391.41" 文獻(xiàn)標(biāo)志碼：A

文章編號：1002-1302（2024）20-0121-08

收稿日期：2023-11-23

基金項(xiàng)目：新疆生產(chǎn)建設(shè)兵團(tuán)科技創(chuàng)新項(xiàng)目（編號：2021CB021）。

作者簡介：鄭文軒（1980—），男，河南南陽人，博士，教授，從事圖像分析、計(jì)算機(jī)視覺研究。E-mail：wenxuanzhengdx@163.com。

通信作者：楊" 瑛，博士，教授，從事農(nóng)業(yè)信息技術(shù)研究。E-mail：yangyingtlmdx@163.com.

香梨作為世界五大水果之一，由于其經(jīng)濟(jì)價(jià)值、營養(yǎng)保健價(jià)值高，可鮮食、加工增值等多種用途，深受廣大消費(fèi)者的喜愛。2022年我國梨產(chǎn)量超過1 800萬t，是果農(nóng)重要的經(jīng)濟(jì)來源之一。目前香梨的采摘方式主要是依靠農(nóng)民手工采摘，費(fèi)時(shí)費(fèi)力，效率低下，很難滿足作業(yè)周期短、采摘任務(wù)重、采摘需求急的現(xiàn)實(shí)要求［1］。在現(xiàn)代農(nóng)業(yè)生產(chǎn)中，農(nóng)業(yè)采摘越來越偏向機(jī)械化和智能化，越來越多的采摘機(jī)器人投入生產(chǎn)使用，并逐步代替人力勞動(dòng)。但在自然環(huán)境下，天氣、光照以及水果果實(shí)大小，成簇狀生長，果實(shí)顏色與背景相近，果實(shí)和枝干之間相互遮擋等問題，大大增加了水果果實(shí)目標(biāo)檢測的難度。

隨著計(jì)算機(jī)算力的不斷提升，深度學(xué)習(xí)技術(shù)在目標(biāo)檢測領(lǐng)域有了巨大的優(yōu)勢［2］。與傳統(tǒng)的目標(biāo)檢測算法相比，深度卷積神經(jīng)網(wǎng)絡(luò)可以自動(dòng)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)多層次的特征，模型具有較強(qiáng)的泛化能力和更強(qiáng)的特征提取能力［3-4］。傅隆生等提出一種對多簇獼猴桃具有94.78%的識別準(zhǔn)確率的果實(shí)識別算法［5］。崔瀟等在2019年提出的桃子檢測模型，是以MTCNN（多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)算法）為主干的一種網(wǎng)絡(luò)，對成熟桃子的檢測準(zhǔn)確率達(dá)到89.3%［6］。He等提出SPP-Net網(wǎng)絡(luò)，從之前的單一尺度輸入變?yōu)榱诵矢叩亩喑叨容斎耄?］。Ren等提出Faster-RCNN網(wǎng)絡(luò)去彌補(bǔ)目標(biāo)檢測速度慢的問題［8］。為了進(jìn)一步改善目標(biāo)檢測速度上的問題，Redmon等提出了速度更快的網(wǎng)絡(luò)模型YOLO，但方法存在檢測精度低的缺陷［9］。后續(xù)研究者陸續(xù)提出YOLO v2、YOLO v3、YOLO v4和YOLO v5等來改進(jìn)檢測精度低的問題，但這些網(wǎng)絡(luò)模型在小目標(biāo)的檢測上表現(xiàn)效果欠佳。隨著目標(biāo)檢測技術(shù)的不斷發(fā)展，Tian等提出了一種改進(jìn)的YOLO v3模型，用于在不同光照條件、復(fù)雜背景以及遮擋等情況下檢測不同成熟度的蘋果［10］。王立舒等提出一種改進(jìn) YOLO v4-Tiny的藍(lán)莓成熟度識別方法，該方法在遮擋與光照不均等復(fù)雜場景中平均精度很高［11］。周桂紅等在YOLO v4 主干特征提取網(wǎng)絡(luò)的ResBlock 模塊中加入SC-SE 注意力機(jī)制，并將" PA-Net 模塊中的部分卷積替換為深度可分離卷積，改進(jìn)后的 YOLO v4 網(wǎng)絡(luò)模型檢測成熟蘋果的平均精度達(dá)到97.27%［12］。Lyu等提出了一種輕量級的目標(biāo)檢測YOLO v5-CS 模型，在YOLO v5 網(wǎng)絡(luò)中加入了注意力模塊，自然環(huán)境中對綠色柑橘識別準(zhǔn)確率98.23%［13］。YOLO v7模型是一個(gè)具有檢測精度高、速度快、支持高分辨率圖像的目標(biāo)檢測模型，已被廣泛應(yīng)用到智慧農(nóng)業(yè)的各個(gè)領(lǐng)域。雖然，目前對水果檢測方面的研究已經(jīng)取得較好的成效，但是針對水果目標(biāo)檢測的檢測精度和速度還有待提高，在檢測距離較遠(yuǎn)及存在遮擋的目標(biāo)檢測時(shí)會出現(xiàn)漏檢和誤檢的問題。

針對以上問題，本研究提出一種改進(jìn)的輕量化YOLO v7香梨目標(biāo)檢測模型。首先，在試驗(yàn)數(shù)據(jù)采集時(shí)針對現(xiàn)實(shí)生產(chǎn)中存在的果實(shí)采摘距離遠(yuǎn)近、光照、有無枝干或樹葉遮擋等問題進(jìn)行有針對性的圖像采集。然后，將YOLO v7的骨干特征提取網(wǎng)絡(luò)替換為輕量級的MobileNet v3骨干網(wǎng)絡(luò)，大幅降低模型的參數(shù)量和計(jì)算量。在特征融合層引入CA注意力模塊來加強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力，提高相鄰果實(shí)和被枝葉遮擋果實(shí)的檢測精度，通過試驗(yàn)對比將原YOLO v7中的損失函數(shù)CIoU替換為SIoU，從而提高模型的檢測速度和精度等。

1" 材料與方法

1.1" 圖像數(shù)據(jù)采集

本試驗(yàn)開展于2023年8月，試驗(yàn)所用的香梨數(shù)據(jù)集拍攝于新疆塔里木大學(xué)園藝試驗(yàn)站新梨7號試驗(yàn)區(qū)，研究對象為成熟期新梨7號香梨。采集圖像信息見表1，不同場景香梨圖像見圖1。考慮到智能機(jī)器人在對梨果采摘時(shí)會遇到采摘距離遠(yuǎn)近、光照強(qiáng)弱不均勻等問題，試驗(yàn)數(shù)據(jù)采集設(shè)計(jì)了遠(yuǎn)距（距離為50～100 cm）和近距（距離為10～30 cm）2種圖片拍攝模式，拍攝時(shí)間選擇在07：00—08：00、13：00—14：00、18：00—19：00等3個(gè)時(shí)間段，拍攝時(shí)期為8月15—30日，此時(shí)段為香梨成熟期但還未采摘。試驗(yàn)共采集香梨圖片2 586張，其中遠(yuǎn)距圖片為1 167張，近距圖片為1 419張。

1.2" 香梨圖像數(shù)據(jù)集制作

由于新梨7號香梨數(shù)據(jù)集的數(shù)據(jù)樣本量不足以讓模型在訓(xùn)練時(shí)達(dá)到很好的收斂狀態(tài)，為改善網(wǎng)絡(luò)訓(xùn)練效果和提高模型的泛化能力，采用數(shù)據(jù)增強(qiáng)方法增加樣本數(shù)量，防止網(wǎng)絡(luò)因訓(xùn)練樣本不足導(dǎo)致過擬合問題。本研究采用水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、非等比例縮放、隨機(jī)平移、隨機(jī)裁剪和mosaic等數(shù)據(jù)增強(qiáng)方式隨機(jī)組合，對數(shù)據(jù)集進(jìn)行增廣。利用Labelimg標(biāo)注軟件對香梨數(shù)據(jù)集進(jìn)行人工標(biāo)注，標(biāo)

注框選擇果實(shí)最小外接矩形，標(biāo)注后產(chǎn)生的標(biāo)注信息文件為xml類型文件，儲存了果實(shí)圖像文件名、標(biāo)注區(qū)域矩形框4個(gè)角的位置信息以及標(biāo)注種類等信息。圖像增廣后的圖片共4 316張，以7 ∶2 ∶1的比例劃分訓(xùn)練集（3 021張）、測試集（863張）、驗(yàn)證集（432張）進(jìn)行模型的訓(xùn)練和測試。

1.3" 試驗(yàn)環(huán)境配置

本研究使用Win 10操作系統(tǒng)，顯卡型號為Nvidia GeForce RTX-3090，處理器型號為Intel CoreTMi7-12700KF 3.60 GHz，深度學(xué)習(xí)框架為PyTorch 2.0，編程平臺為PyCharm，編程語言為Python 3.8，所有對比算法均在相同環(huán)境下運(yùn)行。為提高網(wǎng)絡(luò)訓(xùn)練的效率，本試驗(yàn)采用凍結(jié)訓(xùn)練和解凍訓(xùn)練2種方法進(jìn)行。凍結(jié)骨干網(wǎng)絡(luò)訓(xùn)練時(shí)初始學(xué)習(xí)率設(shè)為0.01，Batchsize設(shè)為16，動(dòng)量設(shè)為0.93；解凍之后的網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)率設(shè)為 0.01，Batchsize設(shè)為8，動(dòng)量設(shè)為0.93，迭代次數(shù)為300次。

1.4" 模型評價(jià)指標(biāo)

本研究采用5個(gè)指標(biāo)評價(jià)目標(biāo)檢測模型的性能。在模型檢測精度方面，選用精確率（Precision，簡稱P）、召回率（Recall，簡稱R）和平均精度均值（mean Average Precision，簡稱mAP）作為評價(jià)指標(biāo)；在模型檢測性能方面，選用檢測速度（detection speed）和模型內(nèi)存占用量作為評價(jià)指標(biāo)，這些評價(jià)指標(biāo)的具體計(jì)算方法可見參考文獻(xiàn)［14-16］。

2" 研究方法

2.1" YOLO v7網(wǎng)絡(luò)結(jié)構(gòu)介紹

YOLO v7網(wǎng)絡(luò)結(jié)構(gòu)主要由主干網(wǎng)絡(luò)（Backbone）、特征融合網(wǎng)絡(luò)（FPN）和檢測頭（YOLO Head）等3個(gè)部分組成。在YOLO v7特征提取網(wǎng)絡(luò)中使用了多分支堆疊模塊（Multi_Concat_Block），如圖2所示，它是將多個(gè)卷積標(biāo)準(zhǔn)化激活函數(shù)進(jìn)行堆疊后進(jìn)行特征融合，從而提高準(zhǔn)確率。同時(shí)使用創(chuàng)新的過渡模塊Transition_Block來進(jìn)行采樣，YOLO v7提出了重參數(shù)化卷積（RepConv）和動(dòng)態(tài)標(biāo)簽分配等策略，使其在檢測精度和效率上取得了較好的效果。在原YOLO v7中使用的CIoU 損失函數(shù)，只考慮了檢測框尺度的損失，沒有考慮預(yù)測框與真實(shí)框之間的不匹配，因此本研究使用SIoU 損失函數(shù)代替 CIoU 損失函數(shù)，將方向尺度的損失考慮到模型訓(xùn)練中。

2.2" YOLO v7模型的主干網(wǎng)絡(luò)改進(jìn)

為了使改進(jìn)的YOLO v7模型更符合生產(chǎn)實(shí)際，試驗(yàn)使用MobileNet v3 骨干網(wǎng)絡(luò)作為YOLO v7模型的骨干網(wǎng)絡(luò)實(shí)現(xiàn)特征提取。MobileNet v3 網(wǎng)絡(luò)與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)相比在準(zhǔn)確率小幅降低的前提下大大減少了模型參數(shù)量與運(yùn)算量［17］，實(shí)現(xiàn)模型的輕量化，更有利用于部署在移動(dòng)端，其網(wǎng)絡(luò)參數(shù)設(shè)計(jì)如表2所示。 MobileNet v3 綜合了MobileNet v1 和

MobileNet v2的特點(diǎn)，其在主干網(wǎng)絡(luò)中加入了注意力機(jī)制 SE（squeezeand excitation networks）模塊［18］，使用了深度可分離卷積（depthwise separable convolutions）和逆殘差結(jié)構(gòu)（the inverted residual with linear bottleneck）。同時(shí)，使用H-Swish激活函數(shù)代替Swish激活函數(shù)，減少運(yùn)算量，提高了模型性能。

2.3" 引入SE通道注意力機(jī)制和CA協(xié)同注意力機(jī)制

注意力機(jī)制是一種即插即用的模塊，引入注意力機(jī)制可以更有效地提取特征，進(jìn)而提升模型的檢測性能。在MobileNet v3主干網(wǎng)絡(luò)中加入SE注意力機(jī)制模塊，SE注意力機(jī)制模塊主要考慮的是通道注意力（channel attention），如圖3所示。在YOLO v7 特征融合層引入?yún)f(xié)同注意力機(jī)制CA（coordinate attention，）模塊［19］，該注意力模塊不僅可以把通道注意力和空間注意力進(jìn)行有效的結(jié)合，更值得注意的是它同時(shí)在通道注意力中融入了位置信息，避免全局pooling-2D操作造成的位置信息丟失，將注意力分別放在寬度和高度2個(gè)維度上，有效利用輸入特征圖的空間坐標(biāo)信息，具體如圖4所示。

2.4" SIoU損失函數(shù)分析

YOLO v7 模型算法中，預(yù)測框回歸損失采用CIoU，但CIoU 并沒有考慮到預(yù)測框與真實(shí)框方向間的不匹配。這種方向的不匹配，可能導(dǎo)致收斂速度減慢且收斂效率低的問題。針對CIoU存在的問題，本研究經(jīng)過試驗(yàn)對比，采用SIoU損失函數(shù)替換

YOLO v7使用的CIoU 損失函數(shù)［20］。SIoU 損失函數(shù)主要優(yōu)點(diǎn)在于進(jìn)一步考慮了真實(shí)框和預(yù)測框之間的向量角度，重新定義相關(guān)損失函數(shù)，SIoU 主要包含4個(gè)部分：角度損失（angle cost）、距離損失（distance cost）、形狀損失（shape cost）、IoU損失（IoU cost），圖5為SIoU 參數(shù)示意圖。

角度損失計(jì)算公式：

Λ=1-2·sin2arcsinchσ-π4

=cos2·arcsinchσ-π4。（1）

其中：

chσ=sin（α）。（2）

根據(jù)角度損失Λ公式，定義距離損失Δ計(jì)算公式如下：

Δ=∑t=x，y（1-e-γρt）=2-e-γρx-e-γρy；（3）

ρx=bgtcx-bcxcw2，ρy=bgtcy-bcych2，γ=2-Λ。（4）

形狀損失Ω定義如下：

Ω=∑t=w，h（1-ewt）θ=（1-eww）θ+（1-e-wh）θ。（5）

其中：

ww=｜w-wgt｜max（w，wgt），wh=｜h-hgt｜max（h，hgt）。（6）

式中：w、h、wgt、hgt分別表示預(yù)測框和真實(shí)框的寬和高。θ控制對形狀損失的關(guān)注程度，為避免過于關(guān)注形狀損失而降低對預(yù)測框的移動(dòng)，θ參數(shù)范圍為［2，6］。

SIoU 損失的定義為：

LossSIoU=1-IoU+Δ+Ω2。（7）

3" 試驗(yàn)結(jié)果與分析

3.1" 改進(jìn)的YOLO v7模型消融試驗(yàn)結(jié)果

為驗(yàn)證改進(jìn)的YOLO v7模型的性能，本研究選用4組消融試驗(yàn)驗(yàn)證網(wǎng)絡(luò)模型的性能，分別為YOLO v7、在YOLO v7特征融合層加入CA注意力模塊、替換骨干網(wǎng)絡(luò)為MobileNet v3的YOLO v7模型和改進(jìn)的輕量化YOLO v7模型。選用平均精度均值（mAP）和檢測速度等2個(gè)評價(jià)指標(biāo)，對驗(yàn)證集中的香梨圖像進(jìn)行評價(jià)。由表3可知，改進(jìn)后的YOLO v7模型的平均精度均值（mAP）和檢測速度均高于其他3組模型。

3.2" 香梨果實(shí)圖像檢測結(jié)果

圖6為不同距離、是否有遮擋、不同光照條件下YOLO v7和改進(jìn)的YOLO v7模型對香梨目標(biāo)檢測結(jié)果。

由圖6可知，無論是在近距離還是遠(yuǎn)距離，無遮擋順光和逆光的情況下（圖6-a、圖6-b、圖 6-d），YOLO v7模型和改進(jìn)的YOLO v7模型均可準(zhǔn)確檢測梨果，沒有漏檢和誤檢的情況，但是在有枝葉遮擋的情況下，YOLO v7的檢測效果（圖6-a、圖6-f）均出現(xiàn)了漏檢或誤檢的情況。而改進(jìn)的YOLO v7模型僅在光照不均勻且有相鄰梨果遮擋（圖6-c）和遠(yuǎn)距離有遮擋（圖6-e）的情況下出現(xiàn)個(gè)別香梨漏檢情況，整體檢測更加準(zhǔn)確。

由表4可知，改進(jìn)的YOLO v7模型的平均精度均值（mAP）、精確率和召回率在近景、遠(yuǎn)景2種場景下均高于YOLO v7模型，在測試近景數(shù)據(jù)集時(shí)，改進(jìn)YOLO v7模型的平均精度均值（mAP）、精確率和召回率分別比YOLO v7高1.35、1.98、1.63百分點(diǎn)；在測試遠(yuǎn)景數(shù)據(jù)集時(shí)，改進(jìn)的YOLO v7模型的平均精度均值（mAP）、精確率和召回率分別比YOLO v7模型高1.49、0.12、1.68百分點(diǎn)。

3.3" 不同目標(biāo)檢測網(wǎng)絡(luò)模型對比結(jié)果分析

為定量比較不同模型的性能，將改進(jìn)的YOLO v7模型與Faster R-CNN、YOLO v3、MobileNet v3-YOLO v4、YOLO v5s 以及原YOLO v7模型在驗(yàn)證集上進(jìn)行性能比較。由表5可知，改進(jìn)的YOLO v7模型平均精度均值（mAP）、精確率、召回率分別為96.33%、94.36%、89.28%。其均值平均精度（mAP）與 Faster R-CNN、YOLO v3、MobileNet v3-YOLO v4、YOLO v5s以及原YOLO v7 模型相比分別提升28.37、9.66、13.14、4.58、3.20百分點(diǎn)。檢測速度為87.71 幀/s，模型內(nèi)存占用量與原YOLO v7 相比減少了21.45 MB。

3.4" 不同損失函數(shù)應(yīng)用于YOLO v7的性能比較

為分析不同損失函數(shù)的性能表現(xiàn)，本研究將原YOLO v7中的損失函數(shù)CIoU分別替換為AlphaIoU、DIoU、SIoU［21-24］，4種損失函數(shù)應(yīng)用于YOLO v7中的性能表現(xiàn)（表6）。使用4種損失函數(shù)訓(xùn)練模型的損失曲線，由損失曲線圖（圖7）可以看出， DIoU損

失函數(shù)在第17～21個(gè)輪次時(shí)略有“波動(dòng)”，但使用 AlphaIoU、DIoU、CIoU和SIoU這4種損失函數(shù)訓(xùn)練模型都可以快速收斂并維持在較低的損失值。

對比4種損失函數(shù)性能，SIoU與 AlphaIoU相比，其平均精度均值（mAP）、精確率和召回率分別提高1.60、1.10、1.96百分點(diǎn)，訓(xùn)練時(shí)長縮短了0.72 h；使用SIoU與DIoU相比，其平均精度均值（mAP）、精確率和召回率分別提高 1.91、1.43、3.44百分點(diǎn)，訓(xùn)練時(shí)長縮短了1.01 h；使用SIoU與CIoU相比，其平均精度均值（mAP）、精確率分別提高了0.32、0.89百分點(diǎn)，召回率降低了0.69百分點(diǎn)，訓(xùn)練時(shí)長縮短2.78 h。根據(jù)上述分析可知，使用SIoU損失函數(shù)進(jìn)行YOLO v7模型訓(xùn)練，檢測精度更高。

3.5" 檢測熱力圖分析

深度學(xué)習(xí)熱力圖可視化是一種直觀展示模型學(xué)習(xí)過程和結(jié)果的方法。通過使用熱力圖，可以更好地理解模型的內(nèi)部工作原理和模型對輸入數(shù)據(jù)的敏感程度，理解模型的關(guān)注區(qū)域。本研究利用Grad-CAM產(chǎn)生目標(biāo)檢測熱力圖［25］。由圖8可知，通過香梨圖像檢測熱力圖，可以看出改進(jìn)的 YOLO v7模型的目標(biāo)檢測熱力圖更貼近真實(shí)梨果區(qū)域。通過圖8-b、圖8-d、圖8-e、圖8-f圓形圈出的區(qū)域可以看出，原YOLO v7目標(biāo)檢測熱力值相對改進(jìn)的YOLO v7模型的目標(biāo)檢測熱力值更低，表現(xiàn)出漏檢現(xiàn)象。通過目標(biāo)檢測熱力圖可以看出，改進(jìn)的YOLO v7模型可以從弱語義的目標(biāo)中提取更強(qiáng)的目標(biāo)特征，有著較好的魯棒性和泛化能力［26］。

4" 結(jié)論

基于YOLO v7構(gòu)建了改進(jìn)的輕量化YOLO v7香梨目標(biāo)檢測模型，實(shí)現(xiàn)了對自然環(huán)境下香梨的快

速準(zhǔn)確檢測。

該模型采用MobileNet v3骨干網(wǎng)絡(luò)替換YOLO v7原模型中的骨干網(wǎng)絡(luò)，并在特征融合層引入 CA注意力機(jī)制，使用SIoU損失函數(shù)替換YOLO v7中使用的CIoU 損失函數(shù)，從而提高梨果的目標(biāo)檢測精度。改進(jìn)的輕量化YOLO v7模型的平均精度均值（mAP）、精確率、召回率指標(biāo)分別為96.33%、94.36%、89.28%。檢測速度為87.71 幀/s，模型內(nèi)存占用量與原YOLO v7相比減少了21.45 MB。

為了驗(yàn)證改進(jìn)的輕量化YOLO v7模型的性能，本研究選用YOLO v7、YOLO v7+CA、MobileNet v3-YOLO v7和改進(jìn)的YOLO v7等4組網(wǎng)絡(luò)模型進(jìn)行消融試驗(yàn)。試驗(yàn)結(jié)果表明，改進(jìn)后的YOLO v7模型在檢測精度和檢測速度方面均優(yōu)于其他3 組模型。

通過與 Faster R-CNN、YOLO v3、MobileNet v3-YOLO v4、YOLO v5s 以及原YOLO v7模型進(jìn)行對比發(fā)現(xiàn)，改進(jìn)后的YOLO v7模型在香梨驗(yàn)證集上取得了最優(yōu)的目標(biāo)檢測效果，其平均精度均值（mAP）分別提高28.37、9.66、13.14、4.58、3.20百分點(diǎn)。

參考文獻(xiàn)：

［1］邵園園，王永賢，玄冠濤，等. 基于高光譜成像的肥城桃品質(zhì)可視化分析與成熟度檢測［J］. 農(nóng)業(yè)機(jī)械學(xué)報(bào)，2020，51（8）：344-350.

［2］宋懷波，尚鈺瑩，何東健. 果實(shí)目標(biāo)深度學(xué)習(xí)識別技術(shù)研究進(jìn)展［J］. 農(nóng)業(yè)機(jī)械學(xué)報(bào)，2023，54（1）：1-19.

［3］林景棟，吳欣怡，柴" 毅，等. 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述［J］. 自動(dòng)化學(xué)報(bào)，2020，46（1）：24-37.

［4］He K M，Zhang X Y，Ren S Q，et al. Deep residual learning for image recognition［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas：IEEE，2016：770-778.

［5］傅隆生，馮亞利，Tola E，et al. 基于卷積神經(jīng)網(wǎng)絡(luò)的田間多簇獼猴桃圖像識別方法［J］. 農(nóng)業(yè)工程學(xué)報(bào)，2018，34（2）：205-211.

［6］崔" 瀟，馬原東，倪照風(fēng)，等. 基于深度學(xué)習(xí)的桃子檢測研究［J］. 貴州科學(xué)，2019，37（2）：82-86.

［7］He K M，Zhang X Y，Ren S Q，et al. Spatial pyramid pooling in deep convolutional networks for visual recognition［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，37（9）：1904-1916.

［8］Ren S Q，He K M，Girshick R，et al. Faster R-CNN：towards real-time object detection with region proposal networks［EB/OL］. （2015-06-04）［2023-11-20］. https：//arxiv.org/abs/1506.01497v3.

［9］Redmon J，F(xiàn)arhadi A. YOLO v3：an incremental improvement［EB/OL］. （2018-04-08）［2023-11-20］. https：//arxiv.org/abs/1804.02767v1.

［10］Tian Y N，Yang G D，Wang Z，et al. Apple detection during different growth stages in orchards using the improved YOLO v3 model［J］. Computers and Electronics in Agriculture，2019，157：417-426.

［11］王立舒，秦銘霞，雷潔雅，等. 基于改進(jìn)YOLO v4-Tiny的藍(lán)莓成熟度識別方法［J］. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37（18）：170-178.

［12］周桂紅，馬" 帥，梁芳芳. 基于改進(jìn)YOLO v4模型的全景圖像蘋果識別［J］. 農(nóng)業(yè)工程學(xué)報(bào)，2022，38（21）：159-168.

［13］Lyu S L，Li R Y，Zhao Y W，et al. Green Citrus detection and counting in orchards based on YOLO v5-CS and AI edge system［J］. Sensors，2022，22（2）：576.

［14］Singh B，Najibi M，Davis S. Efficient multi-scale training［EB/OL］. ［2023-11-20］. https：//arxiv.org/abs/1805.09300.

［15］Redmon J，Divvala S，Girshick R，et al. You only look once：unified，real-time object detection［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas，NV，USA：IEEE，2016：779-788.

［16］Redmon J，F(xiàn)arhadi A. YOLO 9000：better，faster，stronger［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu，HI：IEEE，2017：7263-7271.

［17］Jiang B R，Luo R X，Mao J Y，et al. Acquisition of localization confidence for accurate object detection［M］//Lecture Notes in Computer Science.Cham：Springer International Publishing，2018：816-832.

［18］彭心睿，潘" 晴，田妮莉. WCF-MobileNet v3：輕量型新冠肺炎 CXR 圖像識別網(wǎng)絡(luò)［J］. 計(jì)算機(jī)工程與應(yīng)用，2023，59（14）：224-231.

［19］劉" 雪，沈長盈，呂學(xué)澤，等. 基于改進(jìn)MobileNet v3-Large的雞蛋新鮮度識別模型［J］. 農(nóng)業(yè)工程學(xué)報(bào)，2022，38（17）：196-204.

［20］林" 森，劉美怡，陶志勇. 采用注意力機(jī)制與改進(jìn)YOLO v5的水下珍品檢測［J］. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37（18）：307-314.

［21］He J，Sarah E，Ma X，etal. Alpha-IoU：a family of power intersection over union losses" for boundingbox regression［C］//Proceedings of the Conference and Workshop on Neural Information Processing Systems.Long Beach，2021：1-10.

［22］Zheng Z H，Wang P，Liu W，et al. Distance-IoU loss：faster and better learning for bounding box regression［J］. Proceedings of the AAAI Conference on Artificial Intelligence，2020，34（7）：12993-13000.

［23］Gevorgyan Z. SIoU loss：more powerful learning for bounding box regression［EB/OL］. （2022-05-25）［2023-11-20］. https：//arxiv.org/abs/2205.12740.

［24］周紹發(fā)，肖小玲，劉忠意，等. 改進(jìn)的基于YOLO v5s蘋果樹葉病害檢測［J］. 江蘇農(nóng)業(yè)科學(xué)，2023，51（13）：212-220.

［25］Danell J，Khan F. Adaptive color attributes" for" real-time visual tracking［C］//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus，OH，USA：IEEE，2014：1090-1097.

［26］龍" 燕，楊智優(yōu)，何夢菲. 基于改進(jìn) YOLO v7 的疏果期蘋果目標(biāo)檢測方法［J］. 農(nóng)業(yè)工程學(xué)報(bào)2023，39（14）：191-199.

江蘇農(nóng)業(yè)科學(xué)2024年20期

江蘇農(nóng)業(yè)科學(xué)的其它文章: 基于輕量化YOLO v8-Rice的水稻蟲害檢測方法; 基于多尺度特征增強(qiáng)的輕量化黃瓜病害識別模型; 基于P-MobileViT網(wǎng)絡(luò)的小麥病害分類研究; 基于改進(jìn)YOLO v8的草莓病害檢測方法; 基于改進(jìn)FixMatch算法的半監(jiān)督番茄病蟲害識別; 基于特征重組網(wǎng)絡(luò)的小樣本農(nóng)作物病害葉片檢測