











摘要:
為解決復雜果園環境中,因遮擋、重疊導致杏果識別誤檢率較高、檢測精度較低的問題,提出一種基于改進YOLOv8n網絡模型的杏果檢測算法。該算法采用輕量化模塊MobileViT—XS替換原有骨干網絡,保證特征提取能力,同時降低模型的參數量與計算量,并且將原始的損失函數CIoU替換為WIoUv3,動態優化損失權重提高模型的檢測精度。為驗證改進方法的有效性,選取6種主流的目標檢測模型、5種骨干網絡的輕量化改進模型以及5種不同的損失函數進行對比試驗。結果表明,改進后的模型相比原始模型在F1、平均精度均值mAP上提升1.25%、1.48%,參數量、浮點運算量、模型大小分別降低28.06%、0.1G、1.48MB。改進后的算法能夠精準、快速地在復雜的果園環境中識別出杏果。
關鍵詞:杏果;目標檢測;復雜果園環境;輕量化網絡;YOLOv8算法;損失函數
中圖分類號:S662.2
文獻標識碼:A
文章編號:2095-5553 (2025) 03-0246-08
收稿日期:2023年10月9日" 修回日期:2024年1月18日*
基金項目:新疆自然科學計劃(自然科學基金)聯合基金項目(2021D01C055)
第一作者:買買提·沙吾提,1976年生,男,維吾爾族,新疆喀什人,博士,副教授;研究方向為干旱區資源環境及農業遙感應用。E-mail: korxat@xju.edu.cn
Target detection of apricots in complex orchard environments based on improved YOLOv8
Mamat Sawut1, 2, 3, Aerqing Xilike1
(1. College of Geography and Remote Sensing Sciences, Xinjiang University, Urumqi, 830046, China;
2. Xinjiang Key Laboratory of Oasis Ecology, Xinjiang University, Urumqi, 830046, China; 3. Key Laboratory of
Smart City and Environment Modelling of Higher Education Institute, Xinjiang University, Urumqi, 830046, China)
Abstract:
This study addresses the challenges of high 1 detection rates and low accuracy in apricot recognition within complex orchard environments due to occlusion and overlap. An apricot detection algorithm based on an improved YOLOv8n network model is proposed. The algorithm replaces the original backbone network with the lightweight MobileViT—XS module, maintaining feature extraction capabilities while reducing the number of parameters and computational demands. The original loss function CIoU is substituted with WIoUv3, which dynamically optimizes loss weights and improves detection precision. Comparative experiments are conducted using six mainstream target detection models, five lightweight improved models with backbone networks, and five different loss functions. The results show that the improved model increases the F1 score and mAP by 1.25% and 1.48%, respectively, and reduces parameters, FLOPs, and model size by 28.06%, 0.1G and 1.48MB. This improved algorithm can accurately and quickly detect apricots in complex orchard environments.
Keywords:
apricots; target detection; complex orchard environment; lightweight network; YOLOv8 algorithm; loss function
0 引言
杏(Prunus armeniaca L.)原產自中國的特色果樹,具有食用品質特點突出、類型豐富、加工產品多樣等特點。我國杏栽培面積和產量均居世界首位[1]。由于杏果果實生長較為密集,且果樹的葉片、枝干遮擋嚴重,杏果生長高度不一,采收的環節成為最耗時耗力的部分[2]。目前對于果實的采摘主要依靠人工,采摘機械化率不足3%,這種傳統的方式消耗了大量的人力物力[2]。隨著科技的發展,機器人采摘逐漸取代人工采摘的方式,但采摘同樣需要高精度算法的支持來提升機器人采摘的效率,未經精確識別而直接對其進行采摘可能會造成果實的損傷或者采摘機器人的損壞[3]。因此,研究具有高精度識別果實并且適合部署于采摘機器人的模型算法,對于實現復雜果園環境中杏果的精準識別具有重要意義。
近年來,國內外學者關于采摘機器人的識別技術已有大量的研究,技術發展歷程主要分為兩個階段,一是傳統的基于果實特征的圖像分割方法,二是基于深度學習的神經網絡模型。傳統的基于果實紋理、形狀、顏色進行特征分析是較為常見的識別策略,Lin等[4]通過訓練顏色和紋理特征的支持向量機對所有果實進行識別檢測,取得了較好的識別結果。Liu等[5]提出了一種構建Cr—Cb坐標多橢圓邊界模型來檢測自然光環境下柑橘果實和樹干的方法,發現太陽光照方向的不同會影響最終的檢測結果。廖崴等[6]基于RGB顏色空間進行了Otsu閾值分割和濾波處理去除背景對果實進行快速識別。以上方法雖然實現了對各類果實的識別,但只是針對果實單一的特征進行識別,在場景復雜的果園環境中性能仍然會受到限制。隨著深度學習算法的發展,因其具有特征自學習,能夠應對不同光照、遮擋情況下對果實的學習,近年來逐漸應用于對果實的識別當中。Wan等[7]提出了基于改進Faster R—CNN的果實檢測方法,該方法相對于傳統方法具有更高的識別精度。彭紅星等[8]提出一種改進的SSD果實檢測模型,相比于原始模型精度得到了提升,在遮擋面積低于50%的情況下,F1值達到96.12%。趙輝等[9]提出了一種基于改進YOLOv3的果實識別方法,改進后的模型在多種場景下識別蘋果取得了較好的結果。可見,深度學習的方法對復雜的果園環境中果實識別檢測優勢較為顯著。目前,對于復雜果園環境中果實精準識別主要存在以下問題:高精度檢測模型的尺寸較大、參數量多以及計算復雜度較高;而模型較小、參數量少且計算量低的模型,其檢測精度較低。如何平衡模型精度與模型大小,設計適用于復雜果園環境中杏果識別的模型是當前研究的重點。并且杏樹具有二次分枝、三次分枝,骨干枝強壯、喜光并且果實生長旺盛等特點,在這種不同光照環境,枝干、果實遮擋的情況下,也增加了精準識別杏果的難度。
針對以上問題,本文設計一種適用于在復雜果園環境中杏果精準識別的改進YOLOv8n的輕量級檢測模型。首先,在自然環境下果園中采集不同光照環境(正光、側光、逆光),不同遮擋情況(枝干遮擋、葉片遮擋、果實重疊)的杏果圖片,并且在拍攝時模仿采摘機器人的采集過程,不斷變化拍攝角度和距離,盡可能還原真實采摘場景。然后,將YOLOv8n的骨干網絡替換為輕量級的網絡模型MobileViT—XS,降低原始模型的參數量、GFLOPs以及模型大小,替換原始的損失函數,更換為WIoUv3,更好地處理樣本提升模型邊界框回歸性能以及檢測精度。最后,通過對比試驗驗證改進YOLOv8n模型在復雜的果園環境下對杏果的精準識別效果,為后續采摘機器人對杏果的精準采摘提供理論支撐。
1 材料與方法
1.1 數據集的構建
數據集拍攝于新疆庫車市阿克吾斯塘鄉英達里亞河附近,研究對象為果園中的杏果。考慮實際采摘任務中需要在不同距離進行識別果實并進行近距離采摘,設計在中距離、近距離兩種拍攝模式下的不同光照環境、遮擋狀況的拍攝場景。除去重復和模糊的圖像之后,杏果原始數據集共計491張,使用labelimg對杏果進行人工標注,標注框選擇杏果的最小外接矩形,標注后產生的信息文件為txt類型,該文件存儲了杏果圖像的文件名、標注框的位置與種類信息,之后以7∶1.5∶1.5劃分訓練集、測試集以及驗證集進行模型的訓練及測試。為減少模型過擬合的現象,提高模型的泛化能力,使用翻轉、中心裁剪、對比度以及亮度變換等數據增強[10]的方式對原始數據集進行擴充至3798張圖像。圖1為不同光照條件以及不同遮擋情況下的杏果圖像。
1.2 YOLOv8n改進模型構建
1.2.1 YOLOv8模型介紹
YOLOv8是YOLO目標檢測模型的最新系列,根據模型尺寸從小到大包括YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l、YOLOv8x這5個版本。基于研究需求,選擇模型小、精度高的YOLOv8n模型。YOLOv8n模型主要由骨干網絡(backbone)、頸部網絡(neck)以及檢測頭(head)3個部分組成。
骨干網絡的整體結構包含Conv、C2f、SPPF這3個部分,Conv模塊主要是對圖像進行卷積、BN和SiLU激活函數操作,全新的C2f結構使YOLOv8n輕量化的同時擁有豐富的梯度流信。SPPF又稱空間金字塔池化,能夠將任意大小的圖像轉換成固定大小的特征向量。頸部網絡的主要作用是融合多個尺度的特征,采用PAnet結構,其核心結構由特征金字塔網絡FPN[11]和路徑聚合網絡PAN[12]兩部分組成。檢測頭作為最后的預測部分,根據不同的特征圖獲取目標物體的類別及位置信息。YOLOv8對比YOLOv5[13]模型的變化主要是將原來的6×6卷積替換為3×3卷積,并且參考YOLOv7—ELAN[14]替換c3模塊為C2f,深度由c3模塊的3、6、9、3調整為C2f的3、6、6、3,頸部網絡則刪除了降低維度使用的1×1卷積,檢測頭部分則是將原本的耦合頭改成解耦頭,回歸分支使用Distribution Focal Loss[15]中提出的積分形式表示法,YOLOv8整體結構如圖2所示。
1.2.2 MobileViT模型
MobileViT是一種計算機視覺模型,將適用于移動設備的CNN(卷積神經網絡)與Transformer相結合[16]。CNN專注于提取局部信息,但忽略了這些信息之間的相關性,并且過度使用卷積會導致目標關鍵信息的丟失;與CNN相比,Transformer的方法在全局特征提取方面表現更好,也更能夠識別相鄰位置之間的相關性,從而改善圖像的淺層信息保存方式。然而,由于Transformer的結構較為復雜,缺乏直接遷移到目標檢測的歸納偏差,通常導致算法性能較差。MobileViT共有3組模型配置,分別是MobileViT—S、MobileViT—XS、MobileViT—XXS,其具有CNN高效輕量的特性以及Transformer強大的整體視覺能力,更適用于對圖像輕量級的識別。MobileViT的兩個核心組件分別是MobileViT模塊和MobileNetV2模塊[17],首先,該網絡結構通過1×1卷積進行升維;然后,通過3×3卷積進行深度卷積(DW卷積);最后,通過再1×1卷積降維,其深度可分離卷積的操作使得該組件在保留CNN結構的同時,有效減少其參數量以及計算量,MobileNetV2模塊的結構如圖3所示。
MobileViT模塊結構如圖4所示。
MobileViT模塊主要由局部表征模塊、全局表征模塊以及特征融合模塊3個部分組成。首先,輸入一個寬為W,高為H,通道數為C的特征圖,表示為X[H,W,C],通過一個卷積核大小為n×n的卷積操作提取杏果的圖像特征;然后,通過一個卷積核大小為1×1的卷積層進行通道調整;接著,依次通過序列展開、Transformer、序列折疊結構進行全局特征建模,通過一個1×1的卷積核將通道調整為原始大小;最后,與原始的特征圖進行拼接,通過n×n的卷積核進行特征融合得到最終輸出的杏果特征結果。
1.2.3 WIoUv3損失函數
在復雜的果園環境中,杏果的檢測任務中小目標檢測也占有一定比例,因此,合理設計損失函數可以顯著提高模型的檢測性能。YOLOv8使用DFL和CIoU[18]來計算邊界框的回歸損失,但CIoU具有3個缺點:(1)CIoU不考慮難易樣本的平衡。(2)CIoU將縱橫比作為損失函數的懲罰因素之一,如果實際邊界框和預測邊界框的縱橫比相同,但寬度和高度的值不同,懲罰項無法反映這兩個邊界框之間的真實差異。(3)CIoU的計算涉及反三角函數,會增加模型算力的消耗。CIoU計算如式(1)所示。
LCIoU=
1-IoU+ρ2(b,bgt)
cw2+ch2+
4π2tan-1wgthgt-tan-1wh
(1)
式中: IoU——
預測邊界框與實際邊界框的交集比例;
ρ2(b,bgt)——
實際邊界框和預測邊界框的質心之間的歐幾里得距離;
h、w——預測邊界框的高度和寬度;
hgt、wgt——實際邊界框的高度和寬度;
ch、cw——
由預測邊界框和實際邊界框形成的最小外接矩形的高度和寬度。
除CIoU還有幾種主流的損失函數,EIoU[19]在CIoU的基礎上進行改進,通過分別將長度和寬度作為懲罰項處理,反映實際邊界框與預測邊界框之間寬度和高度的差異,與CIoU的懲罰項相比更為合理。SIoU[20]首次引入了預測邊界框和實際邊界框之間的角度作為懲罰因素,減少回歸的自由度,加速模型的收斂。
雖然幾種主流損失函數都采用靜態的聚焦機制,但WIoU不僅考慮了縱橫比、質心距離和重疊區域,還引入了動態的非單調聚焦機制。WIoU采用合理的梯度增益分配策略來評估錨框的質量。目前,主要提出3個版本的WIoU[21]。WIoUv1設計了基于注意力的預測邊界框損失,而WIoUv2和WIoUv3則添加了聚焦系數。WIoUv3定義了異常值β來衡量錨框的質量,構建了一個基于β的非單調聚焦因子r,并將其應用于WIoUv1中。β為小值表示高質量的錨框,因此,會分配一個較小的r值,從而減少在較大的損失函數中高質量錨框的權重。β為大值表示低質量的錨框,因此,會分配一個較小的梯度增益,從而減少低質量錨框產生的有害梯度。WIoUv3采用了合理的梯度增益分配策略,以動態優化損失中高質量和低質量錨框的權重,使模型關注平均質量樣本,從而提高了模型的整體性能。WIoUv3計算如式(2)~式(4)所示。式(3)中的δ和α是可以根據不同模型進行調整的超參數。
LWIoUv3=r×LWIoUv1
(2)
r=βδαβ-δ
(3)
β=L*IoUG∈0,+∞
(4)
通過比較上述幾種主流損失函數,最終在目標邊界框回歸損失中引入了WIoUv3。一方面,WIoUv3考慮了EIoU和SIoU的一些優點,另一方面,WIoUv3使用了動態的非單調機制來評估錨框的質量,使模型更關注普通質量的錨框,提高了模型對目標的定位能力。對于果園場景中的目標檢測任務,高比例的小目標識別增加了檢測的難度,而WIoUv3可以動態優化小目標的損失權重,從而提高模型的檢測性能。
1.2.4 改進后的輕量化網絡結構
改進后的輕量級化網絡結構如圖5所示。
針對在復雜果園環境中精準識別杏果模型的問題,對原始的YOLOv8n網絡模型的基礎上進行優化改進。選擇輕量級的網絡模型MobileViT 3組模型配置中的MobileViT—XS來替換YOLOv8n的骨干網絡,使其更適用于采摘機器人的模型部署,同時采用WIoUv3替換YOLOv8n原始的CIoU損失函數進行損失計算,提升模型邊界框回歸性能以及檢測精度。
1.3 試驗設備及評價指標
所用方法基于Python3.8(ubuntu20.04),PyTorch2.0,Cuda11.8實現,硬件測試環境CPU為Intel(R) Xeon(R) Gold 6330,GPU選用RTX 3090。為測試改進模型的檢測性能,使用精確度P、召回率R、F1、mAP、浮點運算量FLOPs、模型參數量、模型大小作為評估指標,通常,模型參數量和FLOPs越小,表示模型所需的計算資源就越小,對硬件的性能要求就越低,在低端設備中的部署就越容易。各評價指標計算如式(5)~式(8)所示。
P=TPTP+FF
(5)
R=TPTP+FN
(6)
F1=2×P×RP+R
(7)
IoU=A∩BA∪B
(8)
式中: TP——
被預測為正樣本,但實際上是正樣本;
FP——
被預測為正樣本,但實際上是負樣本;
FN——
被預測為負樣本,但實際上是正樣本;
IoU——
交并比,邊界框A與真實邊界框B之間的交集與并集的比率。
3 結果與分析
3.1 多種目標檢測網絡模型檢測效果
為評估原始YOLOv8網絡模型對杏果的檢測效果,使用目前目標檢測方法中經典的網絡模型EfficientDet、Centernet、Faster R—CNN、Retinanet、SSD、YOLOv5n對杏果數據集進行訓練和測試,對比原始YOLOv8n模型的檢測效果,表1為上述7種網絡模型的性能指標。由表1所知,在環境較為復雜的果園環境中,YOLOv8n相比于其他主流模型有更好的識別結果,F1比EfficientDet、Centernet、Faster R—CNN、Retinanet、SSD、YOLOv5n高出13.65、3.31、21.94、2.43、36.88、1.93個百分點,平均精度高出16.84、0.32、20.59、3.61、30.91、0.8個百分點。其中雖然Centernet、Retinanet檢測精度較為良好,但其模型較大,兩階段目標檢測模型Fast R—CNN對杏果的識別精度低且模型較大,雖然YOLOv5n模型在眾多經典的網絡模型中最小,但其模型的整體精度與YOLOv8n相比有較大差距。因此,原始的YOLOv8n模型綜合表現最好,更適用于在復雜的果園環境中杏果的檢測。
3.2 不同輕量化模型的對比
模型的輕量化是后續在機器設備上部署的關鍵。因此,對原始YOLOv8n模型進行輕量化改進,用MobileViT—XS更換其骨干網絡部分,對比原模型,改進后的YOLOv8n模型參數量減少約28.06%,FLOPs降低0.1G,模型大小減少1.48MB,F1提高0.7%,mAP提高1.07%。為探討改進后的YOLOv8n模型與其他流行輕量級模型在復雜環境中對杏果的識別效果,將GhostnetV2、Fasternet、Shufflenet、MobileNetV3逐個替換YOLOv8骨干網絡,還加入輕量化注意力機制ECA進行性能比較,對比結果如表2所示。
由表2可知,Shufflenet模型的輕量化效果最好,參數量減少約43.06%,FLOPs降低3.2G,模型大小減少2.48MB,但F1卻降低17.01%,mAP下降17.72%,Fasternet在參數量、FLOPs、模型大小方面與Shufflenet相差不大,識別的效果也好于Shufflenet,但還是沒有在精度上超過原始的YOLOv8n模型,而加入輕量化注意力模塊ECA的方法雖然在精度上相比原始模型有所提升,但參數量、FLOPS等指標并沒有減少,綜合所有指標來看,加入MobileViT—XS的輕量化方式更適用于YOLOv8n的改進,不僅降低計算資源的需求,而且提升杏果識別的精度,更加適合在嵌入式設備的實時杏果的識別,滿足復雜果園環境中杏果精準識別的需求。
3.3 不同損失函數的對比
為分析不同損失函數的性能表現,將YOLOv8n的損失函數CIoU分別替換為DIoU、GIoU、EIoU、SIoU以及WIoUv3在同一試驗條件下進行對比,表3為上述損失函數的對比結果。對6種損失函數的性能進行分析可知,與原始的CIoU相比,WIoUv3得到最好的精度結果,F1、mAP分別提升0.55%、0.41%,證明引入WIoUv3的有效性。
3.4 杏果圖像檢測結果
圖6是在不同光照條件、遮擋情況的場景下原始YOLOv8n與加入MobileViT—XS、引入WIoUv3的改進YOLOv8n模型的檢測結果對比圖。如圖6所示,紅色為模型的識別檢測框下方的數字為識別的置信度,置信度是用于衡量一個假設或預測的準確性或可靠性,通常以百分比的形式表示一個事件或陳述發生的概率或被認為是真實的程度,藍框則為兩種模型對比的高亮區域。可以看出,兩種模型的檢測效果從全局來看都具有較好表現,圖6中出現的杏果基本上都能識別出來,但也有部分細節的細微差距,如在3種不同光照條件下的側光條件圖6(b)中,原始的YOLOv8n出現錯誤判斷,將樹干旁空白的區域識別為杏果(藍框區域),而改進后的模型沒有出現這種錯誤;逆光條件中,原始模型將處于圖中較為模糊遠距離的密集大量的杏果單獨識別為一個,而改進后的模型避免了這種錯誤,并且在單個細微的杏果的識別當中,做出的識別效果更好,在置信度上有更好的表現情況。在3種遮擋條件下的葉片遮擋圖6(d)中,左上角區域原圖只有8個處于陰影葉片遮擋下的杏果,從原始模型密集的檢測框可以看出,并沒有對杏果得到正確的識別,而是檢測到杏果不同于其他區域的顏色,從顏色的角度進行識別從而出現密集檢測框的現象,而改進的模型在左上角區域也有部分杏果沒有得到正確的識別,但檢測框的表現說明,改進后的方法是從全局視覺的角度進行分析識別出杏果的,檢測框更趨近于杏果的實際大小,在枝干遮擋的對比圖6(e)中也有效說明在對于目標果實較小、遮擋程度較高的區域,改進后的模型在杏果識別的細節方面做得更好,果實重疊的對比圖6(f)中,兩種模型都具有較好的識別效果,只有置信度的差別。綜合來看,改進后的模型相比于原始模型,在識別精度上得到提升,降低了模型的參數量、計算量以及模型大小,而且在真實的杏果場景識別中提升更加精確。
4 結論
1) 提出一種改進輕量化YOLOv8n網絡模型應用于復雜環境中杏果的識別。該網絡將YOLOv8n原始模型中的骨干網絡替換為輕量化的MobileViT—XS結構并且將原始的損失函數CIoU替換為WIoUv3,降低模型的參數量、FLOPs,檢測精度也得到提升,能夠更輕便快捷地實施設備部署識別杏果。
2) 為驗證改進YOLOv8n的性能,設置6種主流經典網絡模型,5種輕量化改進模型,5種損失函數替換,在同種條件下進行對比試驗。試驗結果表明,原始的YOLOv8n相比于其他目前主流的原始模型,在檢測精度上效果更好,模型更加精巧;改進后的輕量化模型中,MobileViT—XS的輕量化程度以及檢測精度更好;在損失函數的對比試驗中,WIoUv3在模型檢測精度上也均高于其他損失函數。
3) 在相同的試驗條件下,通過與其他原始模型的對比可知,改進后的YOLOv8n模型在杏果數據集上取得較優的結果,對比原始的YOLOv8n模型,在F1、mAP上提升1.25%、1.48%,參數量、FLOPs、模型大小分別降低28.06%、0.1G、1.48MB。試驗充分證明,所提出的輕量化改進方案切實有效,在檢測精度、模型參數上均有較好的優化結果。可以將杏果識別應用于農業設備對果實的采摘、打藥等操作當中,為其他農業設備機器提供精準識別、目標定位等后續工作提供理論參考。
參 考 文 獻
[1] 呂春晶, 章秋平, 劉寧,等. 杏果核物理特性與其主要化學組分的相關性分析[J].果樹學報, 2021, 38(10): 1717-1724.
Lü Chunjing, Zhang Qiuping, Liu Ning, et al. Correlations between physical properties and major chemical components of shells in apricot [J]. Journal of Fruit Science, 2021,38(10):1717-1724.
[2] 散鋆龍, 楊會民, 王學農,等. 振動方式和頻率對杏樹振動采收響應的影響[J]. 農業工程學報, 2018, 34(8): 10-17.
San Yunlong, Yang Huimin, Wang Xuenong, et al. Effects of vibration mode and frequency on vibration harvesting of apricot trees [J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(8): 10-17.
[3] 閆彬, 樊攀, 王美茸,等. 基于改進YOLOv5m的采摘機器人蘋果采摘方式實時識別[J]. 農業機械學報, 2022,53(9):28-38,59.
Yan Bin, Fan Pan, Wang Meirong,et al. Real-time apple picking pattern recognition for picking robot based on improved YOLOv5m [J]. Transactions of the Chinese Society for Agricultural Machinery,2022,53(9):28-38,59.
[4] Lin G, Tang Y, Zou X, et al. Fruit detection in natural environment using partial shape matching and probabilistic Hough transform [J]. Precision Agriculture, 2020, 21: 160-177.
[5] Liu T H, Ehsani R, Toudeshki A, et al. Detection of citrus fruit and tree trunks in natural environments using a multi-elliptical boundary model [J]. Computers in Industry, 2018, 99: 9-16.
[6] 廖崴, 鄭立華, 李民贊,等. 基于隨機森林算法的自然光照條件下綠色蘋果識別[J]. 農業機械學報, 2017, 48(S1):86-91.
Liao Wei, Zhen Lihua, Li Minzan, et al. Green apple recognition in natural illumination based on random forest algorithm [J]. Transactions of the Chinese Society for Agricultural Machinery,2017,48(S1):86-91.
[7] Wan S, Goudos S. Faster R—CNN for multi-class fruit detection using a robotic vision system [J]. Computer Networks, 2020, 168: 107036.
[8] 彭紅星, 黃博, 邵園園,等. 自然環境下多類水果采摘目標識別的通用改進SSD模型[J]. 農業工程學報, 2018,34(16):155-62.
Peng Hongxing, Huang Bo, Shao Yuanyuan,et al. General improved SSD model for picking object recognition of multiple fruits in natural environment [J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(16): 155-162.
[9] 趙輝, 喬艷軍, 王紅君,等. 基于改進YOLOv3的果園復雜環境下蘋果果實識別[J]. 農業工程學報, 2021, 37(16):127-35.
Zhao Hui, Qiao Yanjun, Wang Hongjun,et al. Apple fruit recognition in complex orchard environment based on improved YOLOv3 [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(16): 127-135.
[10] 趙凱琳, 靳小龍, 王元卓. 小樣本學習研究綜述[J]. 軟件學報,2021,32(2):349-369.
Zhao Kailin, Jin Xiaolong, Wang Yuanzhuo. Survey on few-shot learning [J]. Journal of Software, 2021, 32(2):349-369.
[11] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2117-2125.
[12] Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.
[13] 彭炫, 周建平, 許燕,等. 改進YOLOv5識別復雜環境下棉花頂芽[J]. 農業工程學報, 2023, 39(16): 191-197.
Peng Xuan, Zhou Jianping, Xu Yan,et al. Cotton top bud recognition method based on YOLOv5-CPP in complex environment [J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(16): 191-197.
[14] 彭書博, 陳兵旗, 李景彬,等. 基于改進YOLOv7的果園行間導航線檢測[J]. 農業工程學報, 2023,39(16)131-138.
Peng Shubo, Chen Bingqi, Li Jingbin, et al. Detection of the navigation line between lines in orchard using improved YOLOv7[J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(16): 131-138.
[15]
Li X, Wang W, Wu L, et al. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection [J]. Advances in Neural Information Processing Systems, 2020, 33: 21002-12.
[16] Mehta S, Rastegari M. MobileViT: Light-weight, general-purpose, and mobile-friendly vision transformer [J]. arXiv preprint arXiv:2110.02178, 2021.
[17] Sandler M, Howard A, Zhu M, et al. MobileNetV2: Inverted residuals and linear bottlenecks [C].
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.
[18] Zheng Z, Wang P, Liu W, et al. Distance-IoU loss: Faster and better learning for bounding box regression [C]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000.
[19] Zhang Y F, Ren W, Zhang Z, et al. Focal and efficient IoU loss for accurate bounding box regression [J]. Neurocomputing, 2022, 506: 146-157.
[20] Gevorgyan Z. SIoU loss: More powerful learning for bounding box regression [J]. arXiv preprint arXiv:2205.12740, 2022.
[21] Tong Z, Chen Y, Xu Z, et al. Wise-IoU: Bounding box regression loss with dynamic focusing mechanism [J].arXiv preprint arXiv:2301.10051, 2023.