黃 杰,王相友 ,吳海濤,劉書瑋,楊笑難,劉為龍
(山東理工大學農業工程與食品科學學院,淄博 255000)
馬鈴薯是全球第四大糧食農作物,栽培范圍遍布全世界[1-3]。全球疫情期間,歐美國家馬鈴薯的產量走低,馬鈴薯市場需求缺口擴大。2018—2019 年中國馬鈴薯種植面積分別為7.18×106、7.14×106、7.21×106hm2[4]。然而,馬鈴薯種薯播種前的切塊工作,仍以人工切塊為主,存在機械化程度低、人工成本高、勞動強度大等問題。為了解決這一系列問題,國內外許多研究機構、科研院所已經開始研究自動化切塊設備[5-9],但大多數研究成果沒有考慮芽眼的位置,直接對其進行加工,造成了極大的浪費。因此研究一種能夠在切塊裝置上快速、準確、實時完成芽眼識別任務的算法極為重要。
國內外研究人員針對芽眼識別的研究,主要使用傳統圖像處理方式。李玉華等[10]提出一種基于色彩飽和度三維幾何特征的馬鈴薯種薯芽眼識別方法,芽眼識別準確率為91.4%。孟令軍[7]通過提取HSV 色彩空間中馬鈴薯種薯的色彩飽和度圖像,獲取到馬鈴薯芽眼位置,試驗結果表明,色彩飽和度提取馬鈴薯芽眼可行。JI 等[11]使用K-means 聚類方法對馬鈴薯進行分割,提取發芽馬鈴薯信息,最終采用建立的模型準確率達到了84.62%。YANG 等[12]在灰度圖上使用Canny 邊緣檢測器,獲得分割掩碼,完成馬鈴薯芽眼的檢測。結果表明,該方法的檢測精度為89.28%。以上研究方法都能較好地識別馬鈴薯芽眼,但其應用場景單一、魯棒性差,不能在復雜環境中完成檢測任務。
隨著智能時代的到來,以機器學習為代表的深度學習技術被廣泛應用于農業的目標識別任務中。李就好等[13]提出一種改進Faster R-CN 的田間苦瓜葉部病害檢測算法,結果表明,檢測苦瓜葉部病害的平均精度值為78.5%,檢測時間為0.322 s。陳柯屹等[14]使用改進型Faster RCNN 識別田間棉花頂芽,試驗結果表明,該方法平均檢測精度值為98.1%,識別速度為10.3 幀/s。梁喜鳳等[15]使用改進Mask R-CNN 模型去識別番茄側枝修剪點,試驗結果表明,修剪點平均識別準確率為82.9%,檢測時間為0.319 s。LEE 等[16]使用Mask R-CNN 方法,檢測馬鈴薯,試驗結果表明平均檢測精度為90.08%。XI 等[17]基于混沌優化的K-means 算法實現了馬鈴薯種薯芽眼的快速分割,試驗結果表明,所提算法檢測單幅圖像時間為1.109 s。
以上使用R-CNN[18]為代表的二階段算法,其檢測精度高,但檢測速度相對較慢。而以SSD[19]、YOLO[20-23]為代表的一階段目標檢測算法,相比二階檢測算法在速度上存在優勢。張兆國等[24]提出了一種采用改進YOLOv4模型檢測復雜環境下馬鈴薯的目標檢測算法,其平均識別率為91.4%,識別速度為23.01 幀/s。王相友等[25]提出了一種基于改進YOLOv4 模型的馬鈴薯中土塊石塊檢測方法,利用通道剪枝算法對模型進行剪枝處理,其模型存儲空間為20.75 MB,檢測速度為78.49 幀/s。孫俊等[26]提出一種快速精準識別棚內草莓的改進YOLOv4-Tiny模型,使用GhostNetV1 作為主干網絡,并修改注意力機制,提升識別小目標的性能,其模型權重大小為4.68 MB,平均識別精度為92.62%。WANG 等[27]提出一種基于YOLO框架的新型輕量型小物體檢測框架,試驗結果表明,枯木檢測精度為89.11%,模型權重大小為7.6 MB。ZENG等[28]提出一種基于改進YOLO 的輕量型番茄實時檢測方法,試驗結構表明,平均檢測幀率為26.5 幀/s,檢測精度達到93%。
上述以一階段檢測算法為代表的YOLO 目標檢測模型,在檢測速度和檢測精度上具有較好的效果,同時在此框架下修改的網絡結構又能降低模型權重大小,利于部署在不同的移動設備上。鑒于此,本研究在YOLOv4的基礎上,提出一種基于輕量型卷積神經網絡的馬鈴薯種薯芽眼檢測模型,該目標檢測模型替換改進前的CSPDarkNet-53 主干為GhostNetV2 輕量級網絡,大幅度減輕模型計算量;其次修改頸部的標準卷積為深度可分離卷積,進一步降低計算量,同時豐富目標的語義信息提升小目標物體的檢測能力;最后更改邊界框回歸損失函數為SIoU 回歸損失函數,提升芽眼檢測模型的收斂速度和整體檢測性能,為快速、準確完成小目標物體芽眼識別任務提供基礎。
本次試驗數據采集于自制試驗臺,同時自制的試驗臺也用于芽眼檢測。該試驗臺主要由三部分組成,分別是便攜式筆記本電腦、頂部和底部攝像頭以及透明輸送帶,如圖1 所示。其中便攜式筆記本電腦主要用于前向推理,頂部和底部攝像頭主要負責收集馬鈴薯和芽眼的頂部及底部數據,透明輸送帶主要幫助底部攝像頭獲取馬鈴薯的底部芽眼信息和傳輸馬鈴薯到達下一個工序位。

圖1 數據采集試驗臺Fig.1 Data acquisition test bench
該試驗臺中的攝像頭型號為WH-L2140.K214L,分辨率為1920×1 080 像素,速率為60 幀/s。在自然光照條件下拍攝馬鈴薯。拍攝時,底部攝像頭和頂部攝像頭同時工作,在同一時刻獲取馬鈴薯底部和頂部的芽眼信息。選取200 個帶有芽眼的馬鈴薯,品種為中暑2 號。為了更加有效地利用每個馬鈴薯,將每個馬鈴薯按照橫正、豎正、橫反、豎反的順序放在試驗臺上進行數據采集,如圖2 所示。共計采樣800 次,收集1 600 張從頂部和底部拍攝的馬鈴薯圖像。

圖2 馬鈴薯擺放順序Fig.2 The order of the potatoes
首先將采集到的1 600 張原始圖片使用LabelImg 工具進行標注,標注內容為馬鈴薯和芽眼兩個類別,其中馬鈴薯設置為potato,芽眼設置為bud。由于檢測環境相對固定,不需要增加額外的噪音提升模型的泛化能力,由此將已經標注好的每張圖片使用python 腳本程序對圖像進行簡單的數據增強處理,包括2 次隨機翻轉、2 次隨機旋轉,共生成6 400 張帶有標簽的馬鈴薯種薯圖像。最后將數據增強后的圖像按照8:1:1 的比例隨機分為訓練集(5 120 幅)、驗證集(640 幅)以及測試集(640 幅),用于之后的模型訓練和測試任務。
1.3.1 改進YOLOv4 主干網絡
YOLOv4[20]主干網絡主要參考CSPNet[29]網絡結構,和YOLOv3 中的DarkNet[21]網絡結構,形成現在的CSPDarkNet-53 主干特征提取網絡,其中53 代表有53 次標準卷積操作。相比于其他YOLO 系類[22-23],YOLOv4 主干網絡結構較清晰,簡單明了,易于修改,為不同場景的目標檢測任務提供研究基礎。YOLOv6、YOLOv7 主干網絡前向推理時,參數多,計算量大,不合適用于邊緣設備實時檢測需求和儲存要求。GhostNet 模型是北京華為諾亞方舟實驗室提出的一種輕量型卷積神經網絡[30],其核心思想是使用Ghost 模塊代替標準卷積達到降低模型計算量的目的,具體工作過程如圖3 所示。

圖3 Ghost 模塊和長注意力機制模塊Fig.3 Ghost module and decoupled fully connected module
首先,對輸入特征X,使用1×1標準卷積生成少量的本征特征Y′:
式中 ⊙表示卷積操作;X∈RH·W·C表示輸入特征,H、W、C分別為輸入特征的長、寬和通道數;F′∈RC·K·K·C′,其中K·K表示標準卷積核的大小,這里K取1,Y′∈RH·W·C′表示輸出的少量本征特征,C′<C。
其次,使用線性卷積(深度卷積)對本征特征進行特征信息提取,生成s個Ghost 特征Y′′:
最后,將本征特征與Ghost 特征拼接,產生一個與使用標準卷積通道數相同的特征圖Y:
式中Y∈RH·W·C表示輸出特征圖(一個Ghost 模塊操作),C=SC′。
經過上面3 個步驟,Ghost 模塊的計算量與標準卷積之比為
由結果可知,Ghost 模塊的浮點數計算量大約是標準卷積的1/s。
在GhostNetv2中作者提出一種長距離注意力機制(DF C)模塊[31],用于進一步捕獲空間語義信息,其前向推理過程如圖3 所示。首先使用1×1標準卷積生成特征圖,接著分別使用大小為Kh×1,和1×Kw的卷積核提取空間語義信息。相比普通注意力機制的復雜度O(H2W2),該方法的復雜度為O(KhHW+KwHW),最后將Ghost 模型生成的特征與使用DFC 機制生成的特征逐元素相乘得到語義更加豐富的特征,且不改變輸出特征維度。
另外,GhostNetV2 中的Ghostbottleneck 是由Ghost模塊和DFC 模塊共同組成的一個逆殘差瓶頸結構,如圖4 所示。圖4a 為Stride=1 時GhostNetV2bottleneck(G2-bneck)結構。該結構首先使用一個Ghost 模塊和DFC模塊對輸入特征進行特征提取,并擴充特征信息,然后使用逐元素相乘的方式豐富語義信息,接著將其傳入下一個Ghost 模塊進行通道壓縮,最后將原始輸入特征與壓縮特征進行拼接,完成一個G2-bneck 操作。

圖4 GhostNetV2bottleneck(G2-bneck)模塊和decoupled fully connected(DFC)模塊Fig.4 GhostNetV2bottleneck(G2-bneck) module and decoupled fully connected(DFC) module
當Stride=2 時,在逐元素相乘和第二個Ghost 模塊之間插入一個深度卷積模塊(DW),對特征的寬高進行壓縮,完成下采樣操作,同時在右分支使用一個深度卷積和一個1×1 的標準卷積,確保主干分支在相同尺度下完成拼接操作。
經過試驗發現[31],在獲取空間語義信息時,直接使用DFC 模塊將會額外增加計算成本,因此先使用下采樣,得到較小特征圖,再進行一系列便宜卷積操作,最后使用Sigmoid 函數將注意力值限制在(0,1)范圍內,實現加速推理,如圖4c 所示。
1.3.2 頸部深度可分離模塊
YOLOv4 的頸部網絡(PANet)使用標準卷積方式獲取主干中的特征信息。此種操作會進一步增加計算成本,因此,本研究使用MobileNetV1[32]中的深度可分離卷積模塊(如圖5 所示)代替原先的標準卷積達到減小模型整體運算量和進一步提升小目標檢測能力的目的。可分離卷積計算量為:

圖5 深度可分離卷積計算過程Fig.5 Depthwise separable convolution calculation procedure
式中DH、DW為特征圖長寬尺寸,M、N分別為特征圖輸入、輸出通道數,DK為卷積核大小,一般取3。由此可知,深度可分離卷積的計算成本比標準卷積少8~9 倍。
1.3.3 改進后芽眼檢測模型
改進的芽眼檢測模型主要由部分GhostNetV2 網絡結構和深度可分離卷積模塊組成。如圖6 所示,帶有黑色虛線外框的模塊和主干網絡為修改位置。模型前向推理時,首先將尺寸為416 × 416 × 3 的圖像在通道數上進行擴張,接著使用16 個G2-bneck 模塊(如表1 所示)進行特征提取,其次提取主干G2-bneck 模塊中的4、10、15 層特征信息與YOLOv4 的頸部網絡相連,經過使用深度可分離卷積模塊修改的特征金字塔結構(頸部網絡),進一步加強改進YOLOv4 網絡的特征提取能力,且減少計算量。最后從頸部分出3 個特征層,使用3 種不同尺度的檢測頭完成目標檢測任務。

表1 改進后芽眼檢測模型的主干網絡Table 1 The backbone network of the improved bud eye detection model

圖6 改進后芽眼檢測模型Fig.6 Improved bud eye detection model
1.3.4 邊界框回歸損失函數
邊界框回歸損失函數是目標檢測損失函數的重要組成部分,良好的定義將為目標檢測模型帶來顯著的提升。YOLOv4 目標檢測模型使用CIoU 作為回歸損失函數(LCIoU),其定義為[33]
式中Su的值如圖7 所示。

圖7 真實框和預測框的交集及并集面積Fig.7 The intersection and concatenation areas of ground truth box and prediction box
除CIoU 邊界框回歸損失函數外,還有一系列基于加法的損失函數,如GIoU[34]、DIoU[33]、EIoU[35],都遵循以下范式:
式中 Ri為懲罰項。
以上回歸損失函數都依賴于邊界框回歸指標的聚合,如預測框和真實框的距離、重疊區域和縱橫比。而預測框在訓練過程中難免存在方向不確定(“四處游蕩”)的情況,導致收斂速度慢和效率低下。由此使用一種考慮了角度、距離、形狀的回歸損失函數(SCYLLA-IoU,SIoU[36])替換CIoU 損失函數,提升模型的收斂速度和整體檢測能力。
其中,角度代價描Λ 述中心點連線(如圖7 所示)與x-y軸之間的最小角度,定義如下:
當中心點連線與x軸或y軸對齊時,Λ=0;當中心點連線與x軸為45°時,Λ=1。
其中,距離代價Δ 描述中心點之間的距離,其代價與角度正相關,定義為
其中,形狀代價Ω描述邊界框之間的大小差異,定義為
最后,綜合角度代價、距離代價、形狀代價,定義回歸損失函數為
1.3.5 試驗平臺及評價指標
本研究使用的算力資源來自中科視拓科技有限公司的線上服務器(AutoDL)。處理器(CPU)型號為AMD EPYC 7 642 48-Core Processor,運行內存容量為80 GB,固態硬盤(SDD)容量為50 GB,內核個數為24 個,顯卡(GPU)型號為Nvidia GeForce RTX 3 090,顯存為24 GB,系統環境為Ubuntu 20.04,搭建Python3.8 的編程語言和Pytorch1.10.0 的深度學習框架及CUDA11.3 的并行計算框架。
模型訓練參數設置:單機單卡,使用VOC07+12 數據作為預訓練數據集。輸入尺寸為416 × 416,每批次樣本數量為16,多線性進程為8,優化器為Adam(adaptive moment estimation),訓練次數(epoch)為200 輪,學習率下降方式使用余弦退火cos(cosine annealing),為防止過擬合設置權重衰減為0,初始學習率為0.001,權重衰減系數為0.000 5,動量因子為0.937,使用Mosaic、Mixup 數據增強方式。
為了準確評估模型的性能,本研究采用以下指標進行性能評估:所有類別的平均準確率(mean average precision,mAP),平均精度(average precision,AP),準確率(precision,P),召回率(recall,R),F1得分,權重大小,檢測時間及參數量。其中,F1表示準確率(P)和召回率(R)的調和平均數,最大值為1,最小值為0,得分越大,模型整體性能越好。參數量以卷積塊大小與輸出特征尺度之間的乘積為標準,權重大小為總Loss 值最小時保存的參數,檢測時間為便攜式筆記本電腦CPU 上的前向推理時間,其電腦型號為聯想拯救者Y7000P,CPU型號為12th Gen Intel(R)Core(TM)i5-12500H,GPU型號為NVIDIA GeForce RTX 3 050 Ti Laptop。
2.1.1 不同主干網絡試驗結果
本試驗以改進YOLOv4 目標檢測模型為基礎,更換不同的主干網絡,如MobileNetV1、MobileNetV2、MobileNetV3、GhostNetV1。在不改變除主干以外參數的情況下,訓練目標檢測模型。將得到的參數進行分析比較,驗證改進目標檢測模型的可行性。由表2 可知,使用GhostNetV2 模型作為YOLOv4 的主干特征提取網絡時,其參數量為12.04 M,檢測精度(mAP)為89.13%,檢測單張圖片的時間為0.148 s,芽眼和馬鈴薯的F1得分分別為0.80、0.99。相比改進前使用CSPDarkNet-53 的主干網絡,改進后主干網絡參數量約為原來的1/3,檢測精度提升1.85 個百分點,檢測時間減少0.279 s,芽眼得分略高于改進前主干。另外與其他輕量型主干網絡Mobile-NetV1、MobileNetV2、MobileNetV3、GhostNetV1 相比,GhostNetV2 檢測精度分別提升0.75、2.67、4.17、1.89個百分點,芽眼的F1值分別提升0.06、0.07、0.12、0.08。模型參數量相比MobileNetV1 減少1.65 M,相比MobileNetV2、MobileNetV3、GhostNetV1 不存在優勢,但也能滿足模型部署需求。檢測時間與其它輕量型主干網絡基本一致。

表2 不同主干網絡對比Table 2 Comparison of different backbone networks
整體而言,以GhostNetV2 網絡作為YOLOv4 主干特征提取網絡時,其模型在檢測時間、模型參數量上明顯優于改進前YOLOv4 主干網絡,在檢測精度上也能高于其他輕量型主干網絡。故選用GhostNetV2 網絡作為主干,提高檢測精度的同時也能滿足實時檢測和模型部署需求。
2.1.2 不同回歸損失函數試驗結果
改進前YOLOv4 目標檢測模型使用CIoU 作為邊界框回歸損失函數,其在訓練過程中有較強的擬合能力,但在訓練過程中不可避免地存在預測框方向漂浮不定的情況,導致收斂速度慢,影響模型整體檢測性能。由此本試驗在改進后YOLOv4 目標檢測模型基礎上,更換多種邊界框回歸損失函數,從mAP、AP、P、R、F1得分的角度,分析比較不同損失函數對模型整體性能的影響。由表3 可知,SIoU 回歸損失函數的檢測精度相比沒有使用方向代價的回歸損失函數,在檢測芽眼時有更高的準確率。根據試驗結果可知,SIoU 的檢測精度相比GIoU、CIoU、DIoU、EIoU 分別提升2.97、4.33、2.38、3.18 個百分點。由于SIoU 考慮了預測框的方向,在訓練的過程中可以引導錨框移到目標框最近的軸上,減小損失的總自由度,提升模型的整體性能。圖8 展示了不同回歸損失函數訓練時的收斂情況,相比GIoU、CIoU、DIoU、EIoU,SIoU 回歸損失函數收斂速度更快,多次訓練后,損失值也更低。

表3 不同損失函數對比Table 3 Comparison of different loss functions

圖8 不同損失函數收斂情況Fig.8 Different loss function convergence
2.1.3 YOLOv4 改進前后試驗結果
改進前YOLOv4 主干特征提取網絡使用CSPDarkNet-53,頸部金字塔結構使用標準卷積,回歸損失函數使用CIoU。改進后YOLOv4 主干使用GhostNetV2,用于減少模型參數量,同時具備較高的檢測精度,如表2 所示;頸部金字塔結構中的標準卷積替換成深度可分離卷積,進一步降低模型參數,同時也可以豐富圖像語義信息,利于提取小目標信息;回歸損失函數使用SIoU,提升模型整體檢測性能和加快收斂速度。圖9 展示了改進前和改進后YOLOv4 芽眼識別結果,從圖中可以發現,在檢測小目標芽眼時,改進前YOLOv4 出現較多漏檢情況,而改進后YOLOv4 能夠檢測大部分芽眼位置。另外從表4中可以發現,改進后YOLOv4 的參數量約是改進前的1/5,檢測芽眼時的精度相較改進前提升了0.56 個百分點,在筆記本電腦上的前向推理時間也從原來的0.474 s 降低至0.148 s,減少了0.326 s。

表4 改進前后模型試驗結果Table 4 Test results of the model before and after improvement

圖9 改進前后模型檢測結果Fig.9 Model detection results before and after improvement
綜上所述,改進后的目標檢測模型在檢測芽眼小目標物體時有較高的檢測精度,同時也具有較少的推理參數,為模型部署提供研究基礎。
在模型主體網絡結構中,由表2 的試驗結果可以發現,使用GhostNetV2 網絡結構作為改進后YOLOv4 的主干特征提取網絡有較好的檢測性能。本試驗在不改變GhostNetV2 主干網絡內部結構的基礎上,比較改進前YOLOv4 頸部網絡結構和改進后頸部網絡使用深度可分離卷積模塊之間的區別。從表5 的結果可以看出,使用深度可分離卷積模塊后,模型的參數量大幅降低,約為原先的1/4 倍,更加利于移動設備或者邊緣設備的部署。在預測層中,由表3 的試驗結果可以看出,當使用具有角度代價的SIoU 作為回歸損失函數時,其整體檢測性能達到最優,同時收斂速度也相較GIoU、CIoU、DIoU、EIoU 快。本次試驗結合主干特征提取網絡(GhostNetV2)、頸部深度可分離卷積模塊(DW)以及回歸損失函數(SIoU)觀測模型的權重值、平均精度值以及檢測時間。從表5 中可以看出,當使用SIoU 回歸損失函數后,其平均檢測精度有明顯提升,相較于使用CIoU 回歸損失函數,提高了4.33 個百分點。

表5 頸部和預測層及主干注意力機制消融試驗Table 5 Neck and prediction layer and backbone attention mechanism ablation test
另外,本試驗在改進后YOLOv4 的基礎上,還對主干特征提取網絡GhostNetV2 中的注意力機制分布情況進行了測試,如表5 所示。當完全不使用注意力機制(A1)時,改進后YOLOv4 的平均精度值只有85.96%;當完全使用注意力機制(A2)時,其平均精度值提升至86.87%,同時模型的權重大小上升10.23 MB;當部分使用注意力機制(A3,其分布情況如表1 所示)時,其平均精度值為89.13%,相比不使用注意力機制,檢測精度提升4.83個百分點。
綜上所述,使用主干特征提取網絡(GhostNetV2)加上深度可分離卷積模塊(DW)加上回歸損失函數(SIoU)加上在GhostNetV2 中部分使用注意力機制組成的芽眼檢測模型,整體性能達到最優,其平均檢測精度值為89.13%,檢測時間為0.148 s,模型權重大小為46.40 MB。
本試驗使用自制試驗臺(如圖1 所示)收集50 張馬鈴薯種薯圖像作為測試集。在訓練參數、訓練數據集相同的情況下,將測試集數據使用SSD、Faster-RCNN、EifficientDet、CenterNet、YOLOv7、YOLOv4 及改進后YOLOv4 目標檢測模型進行前向推理。觀察各個檢測模型的參數量、便攜式筆記本電腦CPU 檢測時間、芽眼F1得分和馬鈴薯F1得分以及mAP 值。由表6 可知,本研究改進YOLOv4 目標檢測模型平均精度值(mAP)為89.13%,與SSD、Faster-RCNN、EifficientDet、CenterNet、YOLOv7 相比,分別提升23.26、27.45、10.51、18.09、2.13 個百分點,與改進前YOLOv4 相比,檢測精度基本一致;在模型參數量上面,改進后檢測模型相比上述6種目標檢測模型,占有明顯優勢,僅為12.04 M;在檢測時間上面,改進后模型在筆記本電腦CPU 上檢測單張圖像的時間為0.148 s,相比前6 種檢測模型,分別減少0.007、6.754、1.891、1.745、0.422、0.326 s。

表6 不同目標檢測算法芽眼識別結果對比Table 6 Comparison of bud eye recognition results of different target detection algorithms
另外,為了更加清楚地觀察檢測效果,分別從上述6 種目標檢測算法中,隨機選出5 張預測結果。如圖10所示,使用SSD、YOLOv4、YOLOv7、CenterNet、EifficientDet 算法檢測芽眼時,存在漏檢情況,圖中用箭頭標出。值得注意的是CenterNet 不能識別馬鈴薯。使用Faster-RCNN 及改進YOLOv4 目標檢測算法時,可以識別出大部分芽眼,但Faster-RCNN 使用筆記本電腦CPU檢測單張圖片的時間不能滿足實時檢測需求。綜上所述,基于YOLOv4 改進的輕量型芽眼檢測模型在檢測時間、精度及參模型參數量和權重大小方面都具有較好的表現能力,能夠滿足小目標芽眼檢測需求和更加利于模型部署。

圖10 不同目標檢測算法識別馬鈴薯和芽眼的結果Fig.10 The results of different object detection algorithms to identify potato and eye
為了在試驗臺上快速、準確地完成芽眼識別任務,本文提出一種基于輕量型卷積神經網絡的芽眼檢測算法,主要結論如下:
1)使用輕量型主干網絡GhostNetV2 代替YOLOv4的主干網絡CSPDarkNet-53,明顯減少網絡參數量,約為改進前的1/3,檢測時間減少0.279 s,相比CSPDarkNet-53、MobileNetV1、MobileNetV2、MobileNetV3、GhostNetV1
主干網絡,平均檢測精度分別高出1.85、0.75、2.67、4.17、1.89 個百分點。
2)使用SIoU 回歸損失函數代替CIoU 回歸損失函數,提高模型的整體檢測精度,相比GIoU、CIoU、DIoU、EIoU 回歸損失函數,檢測精度分別高出2.97、4.33、2.38、3.18 個百分點。
3)本文所提輕量型目標檢測算法,可以有效識別芽眼和馬鈴薯的位置,平均檢測精度為89.13%,檢測時間為0.148 s,相比SSD、Faster-RCNN、EifficientDet、Center-Net、YOLOv7 目標檢測模型,平均精度值分別高出23.26、27.45、10.51、18.09、2.13 個百分點,檢測時間分別減少0.007、6.754、1.891、1.745、0.422 s,模型參數量上占有明顯優勢,僅為12.04 M。由檢測結果可知,改進后輕量型芽眼檢測模型能夠滿足小目標芽眼檢測需求和利于模型部署,為該類研究提供技術支撐。