基于輕量化YoloV5的谷穗實(shí)時(shí)檢測(cè)方法

2023-05-08 06:10:40邱述金趙華民李曉斌張慶輝原向陽(yáng)

江蘇農(nóng)業(yè)科學(xué) 2023年6期

李云, 邱述金, 趙華民, 李曉斌, 張慶輝, 原向陽(yáng)

(1.山西農(nóng)業(yè)大學(xué)農(nóng)業(yè)工程學(xué)院,山西太谷 030801; 2.山西農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,山西太谷 030801)

谷子是我國(guó)的重要雜糧作物之一,其種植面積約為世界總種植面積的80%,其產(chǎn)量約占世界總產(chǎn)量的90%[1]。一直以來(lái),在谷子栽培及育種研究中,谷穗數(shù)量都是要依靠人工觀察谷穗并統(tǒng)計(jì),不僅效率低且耗時(shí)耗力。在實(shí)際的田間環(huán)境中,谷穗的相似性、密集分布、遮擋及統(tǒng)計(jì)人員的主觀性使谷穗計(jì)數(shù)困難,非常容易出錯(cuò)。谷穗是評(píng)估谷子產(chǎn)量與質(zhì)量的關(guān)鍵農(nóng)藝指標(biāo),在營(yíng)養(yǎng)診斷、生長(zhǎng)期檢測(cè)及病蟲(chóng)害檢測(cè)等方面具有重要作用。因此,在移動(dòng)設(shè)備上快速準(zhǔn)確地檢測(cè)谷穗能為產(chǎn)量預(yù)估及其表型研究提供重要的作用。

隨著農(nóng)業(yè)信息技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的農(nóng)作物圖像檢測(cè)受到廣泛關(guān)注[2-3]。目前針對(duì)谷物穗頭檢測(cè)的研究,以小麥[4-6]、水稻[7-10]等主要糧食作物為主,研究的問(wèn)題主要針對(duì)提高模型檢測(cè)精度和檢測(cè)速度。鮑烈等提出,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的小麥麥穗識(shí)別模型,為提高識(shí)別精度結(jié)合圖像金字塔構(gòu)建滑動(dòng)窗口實(shí)現(xiàn)對(duì)麥穗的多尺度識(shí)別,該模型準(zhǔn)確率為97.30%,利用該模型完成小麥麥穗的計(jì)數(shù)和預(yù)估小麥產(chǎn)量[11]。張領(lǐng)先等實(shí)現(xiàn)了一種冬小麥麥穗卷積神經(jīng)網(wǎng)絡(luò)識(shí)別模型,并與非極大抑制值結(jié)合,實(shí)現(xiàn)在實(shí)際大田環(huán)境中快速、準(zhǔn)確地檢測(cè)麥穗與計(jì)數(shù)[12]。王宇歌等通過(guò)改進(jìn)YOLOV3模型對(duì)不同時(shí)期麥穗目標(biāo)進(jìn)行檢測(cè)與計(jì)數(shù),改進(jìn)的YOLOV3模型的檢測(cè)結(jié)果表現(xiàn)出較強(qiáng)的魯棒性,但對(duì)遮擋的麥穗及尺寸較小的麥穗檢測(cè)仍有困難[13]。鮑文霞等的研究基于深度卷積神經(jīng)網(wǎng)絡(luò)CSRNet網(wǎng)絡(luò),對(duì)單幅麥穗密度圖進(jìn)行了研究,根據(jù)密度值對(duì)麥穗進(jìn)行計(jì)數(shù)[14]。Fernandez-Gallego等運(yùn)用熱成像技術(shù)和深度學(xué)習(xí)對(duì)麥穗圖像進(jìn)行分割并對(duì)麥穗進(jìn)行計(jì)數(shù)[15]。劉哲等采用改進(jìn)的Bayes摳圖算法將麥穗從復(fù)雜背景中分割出來(lái),運(yùn)用平滑濾波、腐蝕、填充等算法分割出麥穗小穗并形成連通區(qū)域后進(jìn)行標(biāo)記、計(jì)數(shù),該方法提高了技術(shù)精度[16]。謝元澄等研究提出了基于深度學(xué)習(xí)的麥穗檢測(cè)模型(FCS R-CNN),通過(guò)Cascade R CNN引入特征金字塔網(wǎng)絡(luò)(FPN)等方法,提高檢測(cè)精度和檢測(cè)速度[17]。

在實(shí)際的田間環(huán)境中,穗頭分布密集、遮擋嚴(yán)重,模型在復(fù)雜環(huán)境中對(duì)穗頭檢測(cè)較為困難。為提高模型對(duì)困難目標(biāo)的檢測(cè)準(zhǔn)確率,姜海燕等設(shè)計(jì)了基于生成特征金字塔的稻穗檢測(cè)(GFP-PD)方法,針對(duì)小尺寸稻穗和葉片遮擋稻穗的噪音等問(wèn)題,采用構(gòu)造特征金字塔和遮擋樣品修復(fù)模塊(OSIM)提高模型的檢測(cè)正確率[18]。張遠(yuǎn)琴等針對(duì)小尺寸稻穗目標(biāo)問(wèn)題,基于Faster R-CNN模型引入空洞卷積,用ROIAign替代ROIPooling等方法進(jìn)行優(yōu)化提高模型對(duì)水稻稻穗的平均檢測(cè)精度[19]。段凌鳳等運(yùn)用3個(gè)全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行比較,對(duì)稻穗進(jìn)行分割后根據(jù)對(duì)稻穗圖像的計(jì)算速度、分割性能,優(yōu)選出性價(jià)比最好的SegNet卷積神經(jīng)網(wǎng)絡(luò),提升邊緣不規(guī)則、遮擋條件下稻穗的檢測(cè)準(zhǔn)確率及效率[20]。Bao等設(shè)計(jì)了一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)SimpleNet,使用卷積和反向殘差塊構(gòu)建,并結(jié)合卷積注意力機(jī)制CBAM模塊,可用于移動(dòng)端對(duì)小麥穗病害的自動(dòng)識(shí)別[21]。Zhao等提出了一種改進(jìn)的基于YOLOv5方法來(lái)檢測(cè)無(wú)人機(jī)圖像中的麥穗,通過(guò)添加微尺度檢測(cè)層和采用WBF算法解決因小尺寸麥穗密集分布和遮擋導(dǎo)致的檢測(cè)問(wèn)題[22]。楊其晟等提出一種改進(jìn)YOLOv5的蘋(píng)果花朵生長(zhǎng)狀態(tài)檢測(cè)方法,引入?yún)f(xié)調(diào)注意力(coordinate attention,CA)模塊和設(shè)計(jì)多尺度檢測(cè)結(jié)構(gòu),提高模型檢測(cè)精度[23]。張兆國(guó)等通過(guò)改進(jìn)的Yolov4模型設(shè)計(jì)了一種馬鈴薯檢測(cè)模型,使用MobilenetV3網(wǎng)絡(luò)替換YoloV4模型的CSP-DarkNet53網(wǎng)絡(luò)減小模型體積并保證了馬鈴薯的平均檢測(cè)精度,在嵌入式設(shè)備上部署試驗(yàn),YoloV4-MobilenetV3表現(xiàn)出較強(qiáng)的魯棒性[24]。

由于谷子在自然大田環(huán)境中的生長(zhǎng)特點(diǎn),谷穗形態(tài)及空間分布位置不規(guī)則,因此在實(shí)際環(huán)境中應(yīng)用目標(biāo)檢測(cè)模型對(duì)谷穗的檢測(cè)較為困難。本研究以YoloV5模型為原始模型,將其主干特征提取網(wǎng)絡(luò)使用輕量化MoblienetV3模型代替,以減少模型參數(shù),在此基礎(chǔ)上改進(jìn)特征融合檢測(cè)結(jié)構(gòu),后處理引用Merge-NMS算法改進(jìn)輕量化模型。通過(guò)在自建的谷穗數(shù)據(jù)集上進(jìn)行測(cè)試評(píng)估模型,為移動(dòng)設(shè)備上實(shí)現(xiàn)快速準(zhǔn)確地檢測(cè)谷穗提供理論依據(jù)。

1 制作數(shù)據(jù)集

1.1 圖像采集

谷穗圖像采集于山西農(nóng)業(yè)大學(xué)申奉村試驗(yàn)田,時(shí)間為2021年7月至10月,采集的圖像包含抽穗期、灌漿期、成熟期3個(gè)時(shí)期的谷穗圖像(圖1),其中抽穗期25幅,灌漿期230幅,成熟期45幅,共300幅。谷子在生長(zhǎng)過(guò)程中穗頭一般以下垂?fàn)顟B(tài)為主,故本研究在采集圖像時(shí)均從側(cè)上方拍攝圖像,采集的谷穗圖像分辨率為4 032像素×3 024像素,存儲(chǔ)為jpg格式。由于實(shí)驗(yàn)室中計(jì)算資源有限,將原始圖像壓縮為1 024像素×768像素,加快數(shù)據(jù)處理時(shí)間。在自然田間環(huán)境中采集的谷子圖像存在被葉片和莖稈遮擋的谷穗、谷穗相互纏繞遮擋、谷穗密集分布等眾多復(fù)雜情況,對(duì)模型檢測(cè)谷穗有一定的干擾。

1.2 圖像預(yù)處理

對(duì)采集的谷子圖像使用LabelImg標(biāo)注工具按照PASCAL VOC數(shù)據(jù)集格式制作谷穗圖像數(shù)據(jù)集,對(duì)圖像中的谷穗進(jìn)行標(biāo)注(圖2),生成對(duì)應(yīng)的XML文件。為防止數(shù)據(jù)集較小可能會(huì)導(dǎo)致網(wǎng)絡(luò)模型的過(guò)擬合現(xiàn)象,提升網(wǎng)絡(luò)模型訓(xùn)練結(jié)果的泛化能力,因此需要對(duì)谷穗數(shù)據(jù)集使用數(shù)據(jù)增強(qiáng)(圖3)。本研究對(duì)自制的谷穗數(shù)據(jù)集用旋轉(zhuǎn)、翻轉(zhuǎn)、鏡像、亮度調(diào)整等方法隨機(jī)進(jìn)行數(shù)據(jù)增強(qiáng),每幅圖像對(duì)應(yīng)的標(biāo)注文件同時(shí)進(jìn)行變換,數(shù)據(jù)集擴(kuò)充至2 100幅,按照 8∶1∶1 比例隨機(jī)將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

2 YoloV5模型與改進(jìn)

2.1 YoloV5模型

YOLO(you only look once)[25]系列是采用回歸方法的單階目標(biāo)檢測(cè)模型,具有較好的性能,YoloV5是YOLO系列中目前比較優(yōu)秀的模型,根據(jù)模型體積和參數(shù)量分為4個(gè)版本:YoloV5s、YoloV5m、YoloV5l和YoloV5x。由于本研究對(duì)檢測(cè)模型的準(zhǔn)確率、實(shí)時(shí)性和模型體積的要求較高,因此本研究基于YoloV5s模型改進(jìn)設(shè)計(jì)實(shí)現(xiàn)谷穗目標(biāo)的檢測(cè)。

YoloV5模型的結(jié)構(gòu)見(jiàn)圖4,YoloV5s模型主要包括4個(gè)部分:輸入端、Backbone、Neck和Prediction,其中Backbone結(jié)構(gòu)作為中不同次數(shù)的特征提取和卷積操作來(lái)決定模型復(fù)雜度及參數(shù)量。

YoloV5s輸入保留了和YoloV4相同的Mosaic數(shù)據(jù)增強(qiáng)方法,將4幅圖像隨機(jī)縮放、剪裁、分布并拼接成一幅新的圖片,如圖5所示。增加自適應(yīng)錨框的計(jì)算功能,即通過(guò)遺傳算法和K-means算法在訓(xùn)練過(guò)程中不斷迭代計(jì)算最優(yōu)的錨框大小,可針對(duì)不同目標(biāo)自動(dòng)計(jì)算預(yù)測(cè)錨框以提高準(zhǔn)確率。將原始圖片送入檢測(cè)網(wǎng)絡(luò)前,自適應(yīng)圖片縮放功能將其尺寸處理成統(tǒng)一尺寸。

YoloV5s的Backbone增加Focus結(jié)構(gòu)實(shí)現(xiàn)輸入圖像的切片操作,輸入特征圖的大小為640×640×3,經(jīng)過(guò)Focus結(jié)構(gòu)得到輸出特征圖的大小為320×320×32。主干網(wǎng)絡(luò)沿用YoloV4的跨級(jí)部分網(wǎng)絡(luò)(CSP)結(jié)構(gòu),主要使用殘差網(wǎng)絡(luò)結(jié)構(gòu)提取輸入圖像的特征,其中卷積運(yùn)算操作決定整個(gè)模型的復(fù)雜度和參數(shù)量[26]。

Neck使用FPN-PAN結(jié)構(gòu),特征金字塔網(wǎng)絡(luò)(FPN)通過(guò)上采樣將高層特征信息與主干特征提取網(wǎng)絡(luò)的信息由上向下傳遞融合,金字塔注意力網(wǎng)絡(luò)(PAN)結(jié)構(gòu)由下向上通過(guò)下采樣傳達(dá)目標(biāo)定位特征,二者結(jié)合使用提高模型的檢測(cè)能力。

Prediction的邊界框損失函數(shù)使用CIOU_LOSS(Complete IoU Loss)函數(shù)和非極大值抑制(NMS)的方法,可有效獲得最佳預(yù)測(cè)錨框。

YoloV5在訓(xùn)練過(guò)程中采用梯度下降法優(yōu)化目標(biāo)函數(shù),隨著迭代次數(shù)的增加,損失值(LOSS)接近全局最小值,學(xué)習(xí)率也應(yīng)變小。為使模型經(jīng)過(guò)訓(xùn)練達(dá)到收斂狀態(tài)最佳,YoloV5采用的余弦退火學(xué)習(xí)率即通過(guò)余弦函數(shù)降低學(xué)習(xí)率。余弦函數(shù)值隨x的增加先緩慢下降,后快速上升,再緩慢下降,目的在于避免陷入當(dāng)前局部最優(yōu)點(diǎn),不斷調(diào)整學(xué)習(xí)率使模型收斂到一個(gè)新的最優(yōu)點(diǎn),直到模型訓(xùn)練停止。余弦退火學(xué)習(xí)率的原理如下:

(1)

式中:lnew表示最新學(xué)習(xí)率;i表示第i次執(zhí)行(索引值);lmin表示學(xué)習(xí)率最小值;lmax表示學(xué)習(xí)率最大值;Tcur表示當(dāng)前執(zhí)行的epoch數(shù)量;Ti表示當(dāng)前執(zhí)行下epoch總數(shù)。

2.2 YoloV5模型改進(jìn)

2.2.1 利用MobilenetV3修改YoloV5的模型結(jié)構(gòu) MoblienetV3[27]是兼并實(shí)時(shí)、速度、準(zhǔn)確率的輕量級(jí)神經(jīng)網(wǎng)絡(luò)。MoblienetV3的主干網(wǎng)絡(luò)基于倒置殘差塊組成的Bneck結(jié)構(gòu),包括普通卷積和深度可分離卷積,并在全連接層添加注意力機(jī)制(SE模塊),如圖6所示。與標(biāo)準(zhǔn)卷積相比,倒置殘差塊中的深度可分離卷積可以大幅減少整體模型的參數(shù)量及縮小模型尺寸[28]。

如圖7所示,假設(shè)輸入特征圖尺寸為H×W×M(通道為M),經(jīng)過(guò)N個(gè)k×k×M的標(biāo)準(zhǔn)卷積后得輸出特征圖的尺寸為H×W×N(通道為N)。標(biāo)準(zhǔn)卷積的參數(shù)量計(jì)算如下:

P1=k×k×M×N=k2×M×N。

(2)

深度可分離卷積由深度卷積和逐點(diǎn)卷積共同組成,如圖8所示。深度卷積的卷積核大小為k×k×1,其中有M個(gè)卷積核,它負(fù)責(zé)對(duì)輸入的每個(gè)通道進(jìn)行濾波。逐點(diǎn)卷積的卷積核為1×1×M,其中有N個(gè)卷積核,負(fù)責(zé)轉(zhuǎn)換通道。深度可分離卷積的參數(shù)量計(jì)算如下:

P2=k×k×1×M+1×1×M×N=k2×M+M×N=M×(k2+N)。

(3)

因此,深度可分離卷積與標(biāo)準(zhǔn)卷積參數(shù)量相比計(jì)算如下:

(4)

2.2.2 Merge-NMS算法圖像受分辨率的影響會(huì)降低檢測(cè)性能,即圖像的模糊像素會(huì)導(dǎo)致檢測(cè)目標(biāo)邊界模糊的問(wèn)題。由于這一因素,不易準(zhǔn)確區(qū)分

重疊谷穗和遮擋谷穗。本研究將標(biāo)準(zhǔn)非極大抑制值(NMS)改進(jìn)為融合非極大抑制值(Merge-NMS)[29],減輕后處理過(guò)程中模糊的谷穗目標(biāo)邊界。標(biāo)準(zhǔn)NMS每次迭代結(jié)束只保留得分最高錨框,與這個(gè)錨框重疊的錨框都會(huì)被抑制,大量有價(jià)值的錨框也會(huì)被抑制。Merge-NMS利用被標(biāo)準(zhǔn)NMS抑制的錨框信息,并與其他錨框融合,從而得到一個(gè)更準(zhǔn)確的預(yù)測(cè)錨框。Merge-NMS的偽代碼見(jiàn)算法1,其中Box為檢測(cè)錨框,Cls為分類置信度,Loc為位置置信度,Cls和Loc相乘得到錨框的最終得分S。開(kāi)始時(shí)所有錨框都按得分S進(jìn)行排序;在每次循環(huán)中,先從所有錨框中將得分最高的錨框(bm)拿出,與bm高度重疊錨框的得分若大于Merge-NMS的閾值,bm將與這些框合并,形成一個(gè)新的檢測(cè)錨框,放入最終檢測(cè)集D中。新檢測(cè)錨框計(jì)算方法如下:

(5)

式中:xm是bm的坐標(biāo);xk是每次循環(huán)被選錨框的坐標(biāo)。位置置信度越高lock的錨框在新檢測(cè)錨框xm中占有更高的權(quán)重。

算法1 Merge-NMS

Input:Box=b1,…,bn;Cls=c1,…,cn;Loc=l1,…,ln;NMSthr,Mergethr。Box是檢測(cè)邊界框N×4矩陣;Cls和Loc分別是邊界框的分類置信度和位置置信度;NMSthr是非極大抑制值的閾值;Mergethr為融合非極大抑制值的閾值。

Output:D,檢測(cè)框最終置信度分?jǐn)?shù)的集合

1:D ← ?

2:S=Cls×Loc

3:T ← Box

4:while Box ≠ ?

5: m=argmax(S)

6: Box=Box-bm

7: idx←IOU(bm,Box)>NMSthr

8: Box=Box-Box[idx]

9: idx←IOU(bm,T)> Mergethr

10: bm←∑T[idx]×Loc[idx]/∑Loc[idx]

11: D∪

12:end while

2.2.3 多特征融合檢測(cè)結(jié)構(gòu)改進(jìn) YoloV5s原結(jié)構(gòu)設(shè)計(jì)了3個(gè)尺度特征檢測(cè)層,對(duì)于輸入圖像分別使用8、16、32倍下采樣的特征圖去檢測(cè)不同尺寸的目標(biāo)。在網(wǎng)絡(luò)模型中,低層特征圖分辨率更高,包含目標(biāo)特征明顯,目標(biāo)位置較準(zhǔn)確;高層特征圖在多次卷積操作后,獲得豐富的語(yǔ)義信息,但也會(huì)使特征圖分辨率降低。由于在實(shí)際環(huán)境獲取的圖像中谷穗尺寸參差不齊,在YoloV5s原結(jié)構(gòu)的3層檢測(cè)層下采樣倍數(shù)較大,容易丟失關(guān)于小目標(biāo)特征信息,高層特征圖不易獲得小目標(biāo)的特征信息。本研究通過(guò)增加一個(gè)微尺度特征檢測(cè)層,低層特征圖與高層特征圖通過(guò)拼接的方式融合后進(jìn)行檢測(cè),可以有效提高檢測(cè)準(zhǔn)確率。

2.3 基于輕量化YoloV5的谷穗檢測(cè)模型

如圖9所示為基于輕量化YoloV5的谷穗檢測(cè)模型結(jié)構(gòu),輸入端的自適應(yīng)圖片縮放功能將輸入圖片處理成統(tǒng)一尺寸640×640×3,將YoloV5的Backbone模塊替換為MobilenetV3作為特征提取網(wǎng)絡(luò),可以降低模型復(fù)雜度和減少模型計(jì)算量,但也容易漏檢重疊和較小的谷穗。在多特征融合檢測(cè)結(jié)構(gòu)中增加微尺度特征檢測(cè)層,減少在特征融合時(shí)信息的丟失,能更好地適應(yīng)在自然田間復(fù)雜環(huán)境下對(duì)谷穗的檢測(cè),獲得更多的目標(biāo)信息,提高對(duì)小目標(biāo)的檢測(cè)。后處理階段融合采用Merge-NMS算法,利用特征融合結(jié)構(gòu)中獲得的位置置信度合并錨框,減少邊界模糊造成的誤檢、漏檢。

3 結(jié)果與分析

3.1 試驗(yàn)平臺(tái)

試驗(yàn)于2022年1月至2022年3月在山西農(nóng)業(yè)大學(xué)實(shí)驗(yàn)室中進(jìn)行,本研究基于Pytorch深度學(xué)習(xí)框架進(jìn)行訓(xùn)練與測(cè)試,硬件配置為AMD Ryzen 7 5800H處理器,6 GB NVIDIA GeForce RTX 3060 Latop GPU GPU。運(yùn)行操作系統(tǒng)為Windows 10,64位,Python 3.8.5,CUDA 11.4,cuDNN 8.2.4。

模型的批處理樣本數(shù)為4,epoch設(shè)置為500個(gè),即進(jìn)行500次迭代。衰減系數(shù)為0.000 5,初始學(xué)習(xí)率為0.01,動(dòng)量因子為0.937。

3.2 評(píng)價(jià)指標(biāo)

本研究采用平均檢測(cè)精度(AP,%)、F1分?jǐn)?shù)(F1-score,%)、檢測(cè)時(shí)間(s)、模型大小和浮點(diǎn)運(yùn)算數(shù)(GFLOPs)作為評(píng)價(jià)指標(biāo)。平均檢測(cè)精度為精準(zhǔn)率-召回率曲線(P-R曲線)即曲線下方與坐標(biāo)軸圍成的面積。F1分?jǐn)?shù)為綜合評(píng)價(jià)精準(zhǔn)率和召回率的指標(biāo),反映模型整體的性能。檢測(cè)時(shí)間為模型檢測(cè)一幅圖像的平均時(shí)間。模型大小,即模型在系統(tǒng)中占用內(nèi)存空間的大小。浮點(diǎn)運(yùn)算數(shù),反映模型復(fù)雜度。精準(zhǔn)率(P,%)、召回率(R,%)、AP值(%)和F1分?jǐn)?shù)(%)的計(jì)算公式如下:

(6)

(7)

(8)

(9)

式中:TP為真陽(yáng)性樣本,表示正確識(shí)別谷穗的數(shù)量;FP為假陽(yáng)性樣本,即錯(cuò)誤識(shí)別為谷穗的數(shù)量;FN為假陰性樣本,即未識(shí)別的谷穗目標(biāo)數(shù)量。

3.3 訓(xùn)練結(jié)果分析

損失值隨迭代次數(shù)的變化趨勢(shì)反映模型訓(xùn)練效果,即損失值越接近0訓(xùn)練結(jié)束的模型效果越好。圖10為本研究改進(jìn)的YoloV5s模型和標(biāo)準(zhǔn)YoloV5s模型的訓(xùn)練損失值變化曲線。由圖中曲線可以看出,2個(gè)模型隨著訓(xùn)練迭代次數(shù)的增加,損失值都在減少,逐漸趨于平穩(wěn)。改進(jìn)的模型在迭代200次后,訓(xùn)練集損失值和驗(yàn)證集損失值逐漸收斂,訓(xùn)練集損失值小于0.28,驗(yàn)證集損失值小于0.2,迭代300次之后損失值變化基本平穩(wěn)。標(biāo)準(zhǔn)模型YoloV5s在迭代350次之后訓(xùn)練集損失值和驗(yàn)證集的損失值逐漸收斂。標(biāo)準(zhǔn)模型YoloV5s趨于穩(wěn)定后訓(xùn)練集損失值比改進(jìn)的模型高26.02%,驗(yàn)證集的損失值比改進(jìn)的模型高44.81%。本研究改進(jìn)的模型訓(xùn)練集和驗(yàn)證集的損失值更接近0,表明模型訓(xùn)練的效果較好,并且整個(gè)模型的泛化能力較強(qiáng)。

3.4 模型改進(jìn)的性能比較

為了驗(yàn)證各改進(jìn)方法對(duì)模型性能的影響,本研究以標(biāo)準(zhǔn)YoloV5s模型為基礎(chǔ)進(jìn)行對(duì)比試驗(yàn)。試驗(yàn)結(jié)果見(jiàn)圖11、表1,不同模型的檢測(cè)效果可視化對(duì)比見(jiàn)圖12,以反映各方法對(duì)模型影響的有效性。

表1 不同改進(jìn)方法對(duì)模型性能影響

本研究采用將MobilenetV3替換標(biāo)準(zhǔn)YoloV5s模型Backbone結(jié)構(gòu)的方法減少模型體積,試驗(yàn)結(jié)果見(jiàn)圖11。YoloV5s的模型體積為14.19 MB,YoloV5s-MobilenetV3的模型大小為6.77 MB,減少了 7.42 MB。YoloV5s-MobilenetV3模型單獨(dú)增加微尺度檢測(cè)使檢測(cè)部分結(jié)構(gòu)的復(fù)雜,會(huì)使模型大小略有增加,與YoloV5s-MobilenetV3相比僅增加了 0.79 MB,但仍比YoloV5s模型小46.7%。使用Merge-NMS算法不會(huì)增加模型體積,故單獨(dú)使用Merge-NMS算法的YoloV5s-MobilenetV3模型體積為6.77 MB。本研究改進(jìn)的模型即在YoloV5s-MobilenetV3上同時(shí)使用2種方法所構(gòu)成的模型,其模型大小為7.56 MB,與標(biāo)準(zhǔn)YoloV5s模型的模型大小仍有較大的下降,下降了6.63 MB,由此證明MobilenetV3替換YoloV5s的Backbone結(jié)構(gòu)的有效性。

由圖11、表1得出,YoloV5s-MobilenetV3模型相比YoloV5s模型的體積大幅減少的同時(shí),平均檢測(cè)精度也出現(xiàn)大幅下降,下降了4.2百分點(diǎn)。YoloV5s-MobilenetV3模型的浮點(diǎn)運(yùn)算數(shù)比YoloV5s模型少10.9×109,檢測(cè)時(shí)間為0.010 s,進(jìn)一步證明用MobilenetV3替換標(biāo)準(zhǔn)YoloV5s模型Backbone結(jié)構(gòu)可以降低模型復(fù)雜度,減少檢測(cè)時(shí)間。YoloV5s-MobilenetV3模型的F1分?jǐn)?shù)比YoloV5s模型減少了5.84百分點(diǎn),反映了模型結(jié)構(gòu)經(jīng)過(guò)輕量化替換其性能也會(huì)有一定的退化。分別在YoloV5s-MobilenetV3模型和YoloV5s模型上單獨(dú)使用增加微尺度檢測(cè)層,比YoloV5s-MobilenetV3模型和YoloV5s模型的浮點(diǎn)運(yùn)算數(shù)都有較小的增加,說(shuō)明微尺度檢測(cè)層可以提升模型復(fù)雜度獲得更多的目標(biāo)信息,并且YoloV5s-MobilenetV3模型的平均檢測(cè)精度從95.20%提高至97.70%,說(shuō)明微尺度檢測(cè)層能有效提高對(duì)小谷穗目標(biāo)的檢測(cè)。

在自然田間環(huán)境中谷穗目標(biāo)分布非常密集,大小目標(biāo)交替分布,并且谷穗纏繞、谷穗遮擋等情況較多,如圖12-a所示,邊界模糊的目標(biāo)樣本可能會(huì)作為負(fù)樣本被漏檢。評(píng)價(jià)指標(biāo)表明TP值和FP值與模型性能直接相關(guān),TP值越高,漏檢樣本越少,模型性能越好。為提高模型檢測(cè)效果,本研究在后處理階段采用Merge-NMS算法減少樣本漏檢,檢測(cè)結(jié)果見(jiàn)圖12。當(dāng)YoloV5s-MobilenetV3模型后處理階段采用Merge-NMS算法時(shí),平均檢測(cè)精度提高至95.56%,在測(cè)試集(共2 864個(gè)樣本)檢測(cè)的樣本數(shù)據(jù)統(tǒng)計(jì)見(jiàn)表2。YoloV5s-MobilenetV3采用Merge-NMS算法后FN樣本從286個(gè)減少到265個(gè),最終本研究改進(jìn)的模型FN樣本減少到180個(gè),召回率從90.00%增加到93.70%, 表明了Merge-NMS算法解決目標(biāo)邊界模糊問(wèn)題的有效性。

表2 模測(cè)試集檢測(cè)樣本統(tǒng)計(jì)

將YoloV5s模型使用MobilenetV3輕量化改進(jìn)后,模型復(fù)雜度的減少,使模型對(duì)目標(biāo)的特征提取不充分,本研究通過(guò)在多特征融合檢測(cè)結(jié)構(gòu)中增加微尺度檢測(cè)層,將高層特征圖與低層特征圖提取的目標(biāo)信息有效融合,減少目標(biāo)信息的丟失,提高對(duì)小目標(biāo)的檢測(cè)。同時(shí)使用Merge-NMS算法,可以對(duì)特征圖中具有模糊邊界的目標(biāo)進(jìn)行有效檢測(cè)。如圖12-f,為本研究改進(jìn)模型的檢測(cè)可視化效果圖,前排谷穗目標(biāo)基本被全部檢測(cè)并標(biāo)記,黃框中被遮擋的谷穗和尺寸較小的谷穗也被成功檢測(cè),表明輕量化模型YoloV5s-MobilenetV3同時(shí)使用2種方法可以有效提高模型的檢測(cè)性能。

3.5 不同目標(biāo)檢測(cè)網(wǎng)絡(luò)的綜合對(duì)比

為驗(yàn)證在實(shí)際應(yīng)用中谷穗檢測(cè)模型的有效性,使用YoloV3、YoloV3-tiny、YoloV5-shufflenetV2等經(jīng)典模型與本研究改進(jìn)模型進(jìn)行比較。試驗(yàn)使用相同640×640的圖像作為輸入,設(shè)置相同的模型參數(shù),并在本研究自建的谷穗數(shù)據(jù)集上進(jìn)行試驗(yàn)測(cè)試,結(jié)果見(jiàn)圖13、表3。

從圖13可以直觀地看出本研究的改進(jìn)模型和YoloV3模型的平衡點(diǎn)更接近點(diǎn)(1,1),并且本研究改進(jìn)模型和YoloV3模型的P-R曲線下方與坐標(biāo)軸構(gòu)成的面積大于其他的模型,即平均檢測(cè)精度較高。由表3對(duì)不同模型檢測(cè)結(jié)果的對(duì)比可以得出,本研究在保證模型檢測(cè)精度的同時(shí),還兼具其他優(yōu)點(diǎn),如模型體積較小,浮點(diǎn)運(yùn)算量較少。YoloV5-shufflenetV2模型和YoloV3-tiny模型的模型體積和浮點(diǎn)運(yùn)算數(shù)比較小,但平均檢測(cè)精度較低。YoloV3模型的檢測(cè)精度較高,但模型大小達(dá)到18.05 MB,浮點(diǎn)運(yùn)算數(shù)為本研究改進(jìn)模型的2.7倍。結(jié)果表明,與其他模型相比本研究改進(jìn)的模型在降低模型復(fù)雜度,減少模型體積的同時(shí),保持了檢測(cè)準(zhǔn)確率和檢測(cè)速度的平衡。

表3 不同模型的檢測(cè)結(jié)果

4 結(jié)論

本研究提出一種基于輕量化YoloV5模型的谷穗檢測(cè)模型,將YoloV5s主干特征提取網(wǎng)絡(luò)替換成具有注意力機(jī)制的輕量級(jí)模型MobilenetV3,構(gòu)建的YoloV5s-MobilenetV3模型具有輕量化特點(diǎn),提高模型的可移植性。在多特征融合檢測(cè)結(jié)構(gòu)中增加微尺度檢測(cè)層,后處理階段采用Merge-NMS算法。將改進(jìn)模型對(duì)自然田間環(huán)境密集、遮擋及目標(biāo)大小分布不均等多種復(fù)雜情景中的谷穗進(jìn)行檢測(cè)。結(jié)果表明,本研究改進(jìn)的模型平均檢測(cè)精度為97.78%,F1分?jǐn)?shù)為94.20%,模型大小和浮點(diǎn)運(yùn)算數(shù)分別為7.56 MB和8.5×109,每幅圖像的平均檢測(cè)時(shí)間為0.023 s,為在嵌入式移動(dòng)平臺(tái)進(jìn)行部署提高有利條件,節(jié)約人力資源,提高工作效率。根據(jù)田間實(shí)際環(huán)境的自然條件建立谷穗數(shù)據(jù)集,并使用YoloV3、YoloV3-tiny和YoloV5-shufflenetV2經(jīng)典的目標(biāo)檢測(cè)模型進(jìn)行測(cè)試對(duì)比,本研究的改進(jìn)模型在保證模型輕量化的條件下,保持了較好的檢測(cè)性能,保證了實(shí)時(shí)檢測(cè)的可行性。對(duì)谷穗生長(zhǎng)狀況的檢測(cè)和成熟后的收獲具有重要的影響。