doi:10.13304/j.nykjdb.2024.0136
中圖分類號(hào):S225.93 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1008-0864(2025)08-0100-10
Dragon Fruit ObjectDetectionand CountingMethod in WideFieldofView
OUYANG Chunfan,GAO Jiazheng,CHENQiao,ZENG Chunlin,LI Wentao, XIAO Mingwei,LUO Chendi, ZHOU Xuecheng*
(GuangdongPrvincialKeyboratoryfgicultualtifialIteligene,KeyaboatoyofKeyhnologongicualcin andEquipmentofnistrofEucationolgeofEngieng,outhnaAgiclturalUivesity,Guangzu64i)
Abstract:To overcome hindrances such as low accuracy of small target pitaya recognition,poor real-time performance,and diffculties in fruit counting under expansive fieldconditions,a method was proposed for pitaya targetdetectionand enumerationwithinlarge visual fields.Thisshouldallw forprecisionidentificationand quantification of smalltarget pitayas,therebyrefining the preparatory guidance tasks assciated with robotic pitaya harvesting.Inthe feature extraction stage,the dynamic deformable convolution C2F_DCNV2_Dynamic was employed to replace the C2F moduleof the YOLOv8 backbone network.Conv_ofer_mask was introduced to obtain deformable offsets and masks of input feature maps,enabling the network to beter adaptto the features of target shapes and enhance the capability of extracting target features from complex backgrounds.The mechanism module MPCA (multipath coordinateattention)was improved to perform multi-path processing on the input,alowing the model to simultaneously focus on the spatial and channel informationof the input tensor,thus improving thefeature perception ability of the network fordiffrent scalesand contexts,and thereby enhancing theaccuracy of small target recognition.Inthe target prediction stage,theDecoder Headof thedetection modelRT-DETR basedonend-to-end Transformer was used to replace the YOLO Head.Through ensemble prediction methods,targets were directly predicted and assciated,eliminating the traditional non-maximum suppression(NMS)step to improve inference speed and further enhance thereal-time performance of the network.In the targetcounting stage,the Deep Sort algorithmwas combined toachieve fruit area counting.Theresultsshowed thatthe improved objectdetection network hadan average accuracy of 99.0% for dragon fruit detection,transmits 32 frames per second in the real-time test,the model size was11.8 MB,and the fruit counting accuracy reached 82.96% ,with the average detection speed 17 frames* s-1 .This method could accurately identify and count small target dragon fruitsunder large field of view conditions,with real-time performance meeting the actual production environment of fruit orchards.
KeyWords:smalltargetpitaya identification;fruit counting;YOLOv8;C2F_DCNV2_Dynamic;MPCA;Decoder Head
果蔬采摘機(jī)器人的研制是解決我國(guó)勞動(dòng)力日漸短缺、減輕采摘作業(yè)勞動(dòng)強(qiáng)度、提高果蔬采摘自動(dòng)化和智能化技術(shù)水平、實(shí)現(xiàn)鄉(xiāng)村振興的重要途徑。目標(biāo)識(shí)別與檢測(cè)作為果蔬自動(dòng)化、智能化采摘作業(yè)的首要技術(shù)環(huán)節(jié),在采摘機(jī)器人研制中具有不可或缺的重要作用和地位。當(dāng)前開(kāi)展的采摘機(jī)器人研究主要關(guān)注小視場(chǎng)和局部的采摘工作,側(cè)重于指導(dǎo)機(jī)械臂進(jìn)行精準(zhǔn)采摘。然而,在遠(yuǎn)距離、大視野場(chǎng)景下,針對(duì)多株果蔬能夠指導(dǎo)機(jī)器人移動(dòng)到最佳采摘位置的目標(biāo)檢測(cè)研究鮮有報(bào)道。在大規(guī)模果園環(huán)境中,采摘機(jī)器人必需精確地辨識(shí)周圍環(huán)境,以確保其具備獨(dú)立的導(dǎo)航能力并準(zhǔn)確定位到目標(biāo)果實(shí)可采摘區(qū)域。大視場(chǎng)技術(shù)能夠提供更全面的視覺(jué)信息,從而使采摘機(jī)器人對(duì)其工作環(huán)境有更深入的理解。大視場(chǎng)、遠(yuǎn)距離的場(chǎng)景成像和目標(biāo)檢測(cè)為采摘機(jī)器人的單株采摘定位提供了必要的決策信息[1-5]。因此,大視場(chǎng)、遠(yuǎn)距離的場(chǎng)景成像和目標(biāo)檢測(cè)與計(jì)數(shù)是確定果實(shí)可采摘區(qū)域與區(qū)域序列規(guī)劃和近景成像定位的前提與基礎(chǔ)。
由于火龍果生長(zhǎng)結(jié)構(gòu)特殊,不具備果樹結(jié)構(gòu)。為此,本研究選取火龍果為研究對(duì)象,在自然果園環(huán)境中開(kāi)展大視場(chǎng)、遠(yuǎn)距離的場(chǎng)景成像和目標(biāo)檢測(cè)研究,以期為火龍果采摘機(jī)器人的作業(yè)區(qū)域序列規(guī)劃提供必要的技術(shù)依據(jù)。自然環(huán)境下火龍果果實(shí)識(shí)別已有不少研究。王金鵬等提出了輕量級(jí)YOLOv4-LITE火龍果檢測(cè)方法,在火龍果識(shí)別任務(wù)中準(zhǔn)確率達(dá)到 96.48% 。針對(duì)不同光照條件下的果園環(huán)境,商楓楠等和周佳良等分別提出YOLOX-Nano和GCAM-YOLOv5的火龍果檢測(cè)模型,YOLOX-Nano對(duì)近距離火龍果目標(biāo)的識(shí)別平均精度(average precision,AP)為 98.9% ,GCAM-YOLOv5的AP為 98.8% 。王金鵬等提出YOLOv7-tiny模型檢測(cè)火龍果多姿態(tài),對(duì)正視角與側(cè)視角火龍果的識(shí)別精度分別為 90.9% 和 85.7% 。但以上火龍果檢測(cè)識(shí)別都是基于小視野范圍檢測(cè)局部果實(shí)的情況,算法未能考慮到遠(yuǎn)距離小目標(biāo)檢測(cè)存在的問(wèn)題,具有一定的局限性。相較于局部識(shí)別,遠(yuǎn)距離、大視野場(chǎng)景下果實(shí)分布情況更復(fù)雜,果實(shí)目標(biāo)成像像素少、缺乏紋理信息,難以提取小目標(biāo)細(xì)粒度特征及準(zhǔn)確檢測(cè)與識(shí)別。盡管國(guó)內(nèi)外有針對(duì)小目標(biāo)果實(shí)的檢測(cè)研究[10-1,通過(guò)擴(kuò)大感受野、引入多頭注意力機(jī)制或增加小目標(biāo)檢測(cè)頭等途徑來(lái)提升小目標(biāo)識(shí)別精度,但會(huì)增加網(wǎng)絡(luò)復(fù)雜性以及計(jì)算成本,實(shí)時(shí)性差,并且在資源受限的環(huán)境可能難以訓(xùn)練及部署。朱啟兵等提出了基于點(diǎn)云配準(zhǔn)的盆栽金桔果實(shí)識(shí)別與計(jì)數(shù)方法,其果實(shí)數(shù)量預(yù)測(cè)值與真實(shí)值的平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)為 16.02% ,但該方法識(shí)別1盆金桔果實(shí)并計(jì)數(shù)需耗時(shí) 90s ,實(shí)時(shí)性能較差。高芳芳等8采用YOLOv4-Tiny結(jié)合卡爾曼濾波改進(jìn)匈牙利算法檢測(cè)視頻中的蘋果并計(jì)數(shù),該方法的蘋果平均計(jì)數(shù)精度(average counting precision, ACP) 為 81.94% 。針對(duì)套袋后葡萄體積增加、葉片面積大導(dǎo)致的相互遮擋及人工拍攝視頻速度不穩(wěn)定引起的目標(biāo)計(jì)數(shù)失敗等問(wèn)題,呂佳等提出了基于自糾正NMS-ByteTrack的套袋葡萄計(jì)數(shù)方法,采用YOLOv5s實(shí)現(xiàn)視頻中套袋葡萄的識(shí)別,并將檢測(cè)階段的非極大抑制(non-maximum suppression,NMS)后置到追蹤階段,保留因遮擋而被過(guò)濾的果實(shí)檢測(cè)框,再結(jié)合改進(jìn)卡爾曼濾波提高計(jì)數(shù)精度,該方法對(duì)套袋葡萄的平均計(jì)數(shù)精度達(dá)到82.8% 。為解決因水果外觀高度相似而導(dǎo)致計(jì)數(shù)失敗問(wèn)題, Gao 等[20]和 Wu 等[2選擇樹干作為單目標(biāo)跟蹤代替常用基于水果的多目標(biāo)跟蹤,平均計(jì)數(shù)精度分別為 91.4% 與 93.3% ,在果園視頻測(cè)試中檢測(cè)速度為2~5幀·s-1 。總的來(lái)說(shuō),前人主要針對(duì)近景和少量果實(shí)的情況,而遠(yuǎn)景計(jì)數(shù)會(huì)由于視覺(jué)復(fù)雜性增加一目標(biāo)對(duì)象重疊、目標(biāo)大小變化以及目標(biāo)數(shù)量增加等原因,精確計(jì)數(shù)變得困難,而且往往在計(jì)數(shù)精度和檢測(cè)速度之間難以找到平衡。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks,CNN)在目標(biāo)檢測(cè)領(lǐng)域性能遠(yuǎn)超傳統(tǒng)圖像處理算法[22]。盡管由YOLO模型主導(dǎo)的目標(biāo)檢測(cè)器在果園自然環(huán)境檢測(cè)取得了巨大成功,但是YOLO需要采用非極大值抑制(non-maximumsuppression,NMS)來(lái)處理多個(gè)重疊的檢測(cè)框,通常難以優(yōu)化且不夠魯棒,因此檢測(cè)器速度存在延遲。隨著Transformer在自然語(yǔ)言處理領(lǐng)域取得成功,許多研究嘗試將其引入計(jì)算機(jī)視覺(jué)領(lǐng)域,以克服YOLO存在的問(wèn)題。在此背景下,百度飛漿團(tuán)隊(duì)提出了RT-DETR(realtimedetectiontransformer)檢測(cè)器[23],這是一種基于Transformer架構(gòu)的端到端目標(biāo)檢測(cè)器,其消除了各種手工設(shè)計(jì)的組件,無(wú)需NMS后處理。這種架構(gòu)極大地簡(jiǎn)化了目標(biāo)檢測(cè)的流程。面對(duì)遠(yuǎn)景下的計(jì)數(shù)挑戰(zhàn),DeepSort算法展現(xiàn)出一定優(yōu)勢(shì),該算法能夠應(yīng)對(duì)視覺(jué)復(fù)雜性問(wèn)題,且優(yōu)秀的實(shí)時(shí)性表現(xiàn)也增加了對(duì)于遠(yuǎn)景、大量目標(biāo)精準(zhǔn)計(jì)數(shù)的可能性[24]。因此,為探索大視場(chǎng)下成熟火龍果的精準(zhǔn)識(shí)別和快速檢測(cè)方法,針對(duì)現(xiàn)有果實(shí)目標(biāo)檢測(cè)研究的局限性,本研究融合YOLOv8與RT-DETR網(wǎng)絡(luò),進(jìn)一步提升模型實(shí)時(shí)檢測(cè)能力,并引入動(dòng)態(tài)可變形卷積C2F_DCNV2_Dynamic替換C2F基礎(chǔ)卷積模塊,再添加多路協(xié)調(diào)注意力(multipath coordinate attention,MPCA)機(jī)制模塊,以MPCA調(diào)整輸人特征圖的可變形偏移和掩碼,改進(jìn)模型的提取器,采用RT-DETR的DecoderHead替換YOLOHead,結(jié)合DeepSort算法以實(shí)現(xiàn)小目標(biāo)火龍果的精準(zhǔn)識(shí)別與計(jì)數(shù),為進(jìn)一步開(kāi)展火龍果采摘區(qū)域序列規(guī)劃研究、完善智能水果采摘機(jī)器人技術(shù)提供支持。
1材料與方法
1.1數(shù)據(jù)獲取與數(shù)據(jù)集構(gòu)建
由于缺少可直接使用的火龍果數(shù)據(jù)集,于2023年11月2日(晴天)在廣州市花都區(qū)火龍果種植園拍攝大視場(chǎng)條件下的火龍果數(shù)據(jù)集,拍攝設(shè)備為InterZed2i雙目立體相機(jī),分辨率像素為 3840×1080 ,拍攝方式為手持雙目相機(jī),從果園地頭到果行起始拍攝果園視頻與果園照片,沿著道路中線前進(jìn)拍攝,其覆蓋寬度為 0~2m (此為一般火龍果園種植行寬),覆蓋深度為 0~12m (此為一般火龍果園種植行長(zhǎng))。視野范圍最大程度覆蓋整排火龍果枝條,以獲得整排火龍果的分布狀態(tài)信息,從而滿足大視場(chǎng)、遠(yuǎn)距離的工作要求。為降低重復(fù)圖片數(shù)量以及無(wú)果實(shí)圖片對(duì)模型訓(xùn)練的干擾,使用人工篩選的方法對(duì)采集到的原始圖像數(shù)據(jù)進(jìn)行清洗,剔除不包含火龍果目標(biāo)圖像及重復(fù)圖像。將標(biāo)注后的基礎(chǔ)數(shù)據(jù)集進(jìn)行平移、翻轉(zhuǎn)、色彩變換以及組合數(shù)據(jù)增強(qiáng),擴(kuò)充得到共3048幅樣本圖像,按照8:1:1將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
1.2 識(shí)別網(wǎng)絡(luò)模型構(gòu)建
針對(duì)大視場(chǎng)條件下火龍果實(shí)時(shí)識(shí)別的問(wèn)題與挑戰(zhàn),提出融合YOLOv8與RT-DETR網(wǎng)絡(luò)的改進(jìn)目標(biāo)檢測(cè)網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,以解決以往在小目標(biāo)檢測(cè)領(lǐng)域難以兼顧精度與實(shí)時(shí)性要求的技術(shù)難題。
1.2.1C2F_DCNV2_Dynamic改進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)由Backbone、Neck以及Head共3部分組成,Backbone網(wǎng)絡(luò)負(fù)責(zé)圖像特征提取,C2F模塊是Backbone網(wǎng)絡(luò)中的關(guān)鍵模塊,能夠?qū)⒏邔犹卣髋c低層特征進(jìn)行融合,獲取更豐富的語(yǔ)義信息,但對(duì)于多尺度目標(biāo)場(chǎng)景其作用有限。為了更好地解決大視場(chǎng)下火龍果檢測(cè)中的尺度問(wèn)題、提升遠(yuǎn)距離小自標(biāo)檢測(cè)性能,采用動(dòng)態(tài)可變形卷積C2F_DCNV2_Dynamic替換C2F模塊,主要表現(xiàn)在將原先的Bottleneck中的普通卷積替換為DCNV2_Dynamic。在可變形卷積DCNV2[25]中,模塊初始化時(shí)通過(guò)靜態(tài)卷積層中學(xué)習(xí)得到靜態(tài)偏移和掩碼,之后使用靜態(tài)的偏移和掩碼進(jìn)行卷積操作。為了更好地適應(yīng)果園實(shí)時(shí)場(chǎng)景數(shù)據(jù)輸入、提升復(fù)雜背景多尺度目標(biāo)特征提取能力,采用DCNV2_Dynamic動(dòng)態(tài)地生成偏移和掩碼,再將其用于卷積操作,在輸入數(shù)據(jù)變化較大的情況下更具適應(yīng)性。
圖1改進(jìn)后的目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)
Fig.1Improved object detection network structure

1.2.2MPCA動(dòng)態(tài)地生成偏移和掩碼的實(shí)現(xiàn)過(guò)程如下。經(jīng)Conv2d生成的偏移和掩碼會(huì)輸入到MPCA模塊中進(jìn)行調(diào)整,進(jìn)行注意力調(diào)節(jié),讓網(wǎng)絡(luò)更加靈活地對(duì)輸入特征進(jìn)行變形和關(guān)注有效目標(biāo)的位置信息,有助于模型更好地適應(yīng)目標(biāo)的形變以及局部結(jié)構(gòu)。MPCA(圖2)是基于 CA[26] (coordinateattention)的變體,CA通過(guò)引人高度和寬度的坐標(biāo)信息,生成2個(gè)分支對(duì)應(yīng)的注意力權(quán)重。相比之下,MPCA使用了高度、寬度和全局3個(gè)通道的坐標(biāo)信息,這使得模型能夠更好地捕捉圖像在不同尺度上的結(jié)構(gòu)特征。另外,MPCA引入了全局平均池化(global average pooling,GAP),使模型能夠綜合考慮整個(gè)圖像的信息,全局信息的整合有助于更好地理解圖像內(nèi)容。在MPCA中,相比于CA使用了更多的卷積操作,這增加了模型學(xué)習(xí)特征的靈活性,有助于適應(yīng)不同尺度上的目標(biāo)。因此,在大視場(chǎng)條件下的火龍果目標(biāo)檢測(cè)任務(wù)中,MPCA的加成有助于提取遠(yuǎn)距離小目標(biāo)細(xì)粒度特征,從而提升多尺度目標(biāo)中小目標(biāo)檢測(cè)性能。
圖2MPCA注意力模塊結(jié)構(gòu)
Fig.2Depicts the structure of the MPCA module

1.2.3Transformer Decoder Head在模型Head部分,采用RT-DETR的DecoderHead替換YOLOv8Head。在Backbone后輸出的3個(gè)有效特征層,會(huì)經(jīng)過(guò)Neck進(jìn)行加強(qiáng)特征提取,作為Decoder的準(zhǔn)備輸入。Decoder由多個(gè)TransformerDecoder層組成,每個(gè)Decoder會(huì)自適應(yīng)地聚焦于輸入特征,學(xué)習(xí)目標(biāo)之間的關(guān)系并保留全局上下文信息,因此Transformer架構(gòu)在密集目標(biāo)場(chǎng)景中更具優(yōu)勢(shì)。通過(guò)Decoder可以得到目標(biāo)的得分和邊界框預(yù)測(cè),這些輸出會(huì)經(jīng)過(guò)DecoderHead進(jìn)行最終的分類和邊界框回歸。更重要的是,在YOLO系列中,需要通過(guò)NMS來(lái)處理多個(gè)重復(fù)的檢測(cè)框,這往往使得推理速度延遲且模型不夠魯棒。而DecoderHead無(wú)需NMS后處理步驟,在多目標(biāo)檢測(cè)任務(wù)中,不僅減少了計(jì)算量,還能提高推理速度,有助于模型更好地平衡目標(biāo)檢測(cè)和任務(wù)匹配之間的相互關(guān)系,更適用于果園實(shí)時(shí)場(chǎng)景。
1.3火龍果果實(shí)計(jì)數(shù)
在完成目標(biāo)檢測(cè)后,采用DeepSort算法實(shí)現(xiàn)火龍果實(shí)時(shí)計(jì)數(shù),計(jì)數(shù)過(guò)程如圖3所示。以待計(jì)數(shù)果園視頻為輸入,通過(guò)改進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)得到每幀目標(biāo)的特征向量,這些特征向量被傳遞到DeepSort跟蹤算法,DeepSort利用卡爾曼濾波和匈牙利算法來(lái)關(guān)聯(lián)目標(biāo),從而形成目標(biāo)軌跡。將計(jì)數(shù)原則定為自標(biāo)首次進(jìn)入計(jì)數(shù)區(qū)域時(shí)進(jìn)行計(jì)數(shù)。通過(guò)分析軌跡和計(jì)數(shù)區(qū)域的位置,系統(tǒng)能夠判斷目標(biāo)進(jìn)入計(jì)數(shù)區(qū)域還是離開(kāi)計(jì)數(shù)區(qū)域。這個(gè)計(jì)數(shù)過(guò)程有效地結(jié)合了目標(biāo)檢測(cè)、特征提取和多目標(biāo)跟蹤的關(guān)鍵步驟,以確保對(duì)視頻中果實(shí)的準(zhǔn)確計(jì)數(shù)。
圖3火龍果計(jì)數(shù)流程
Fig.3Dragon fruit counting process

1.4試驗(yàn)平臺(tái)及模型評(píng)價(jià)指標(biāo)
使用的訓(xùn)練平臺(tái)為配備Windows10(64位)操作系統(tǒng)的臺(tái)式計(jì)算機(jī),CPU型號(hào)為Inteli910900X
,GPU型號(hào)為NVIDIAGeForceGTX3090,RAM為128GB,使用CUDAv11.7配合CUDNNv8.4運(yùn)行;PyTorch版本為1.13.1,Ultralytics版本為8.0.201,訓(xùn)練環(huán)境和測(cè)試環(huán)境相同。
采用平均精度(AP)、檢測(cè)速度(frames persecond,F(xiàn)PS)、調(diào)和均值F1(F1-score)模型大小來(lái)評(píng)估網(wǎng)絡(luò)檢測(cè)精度性能;為了求證模型是否可用在真實(shí)果園場(chǎng)景,所有測(cè)試模型的FPS均在實(shí)時(shí)果園視頻測(cè)試中給出;最后,以果實(shí)平均計(jì)數(shù)精度 (ACP) 以及FPS來(lái)評(píng)估火龍果果實(shí)計(jì)數(shù)效果[12],具體計(jì)數(shù)公式如式(1)所示。

式中:S表示估產(chǎn)方法計(jì)數(shù)視頻的果實(shí)個(gè)數(shù);G 表示人工計(jì)數(shù)視頻的果實(shí)個(gè)數(shù); n 表示視頻數(shù)量。
2 結(jié)果與分析
2.1消融試驗(yàn)分析
為驗(yàn)證改進(jìn)后的網(wǎng)絡(luò)模型性能,對(duì)改進(jìn)前后的網(wǎng)絡(luò)模型進(jìn)行比較分析。在原數(shù)據(jù)集上進(jìn)行4組消融試驗(yàn),用于判斷每個(gè)改進(jìn)點(diǎn)的有效性。為了使模型都達(dá)到收斂,YOLOv8總迭代次數(shù)設(shè)置為300,其他模型設(shè)置為100。由表1可知,原YOLOv8的模型大小為 99.8MB ,在使用Decoder
Head替換YOLOHead后,模型大小僅為 11.8MB 檢測(cè)速度約為原模型的2倍,這是因?yàn)镈ecoderHead的線性層與MLP層設(shè)計(jì)更加簡(jiǎn)單,相比之下YOLO檢測(cè)頭包含卷積層和全連接層,需要更多的參數(shù)來(lái)同時(shí)處理目標(biāo)位置回歸和分類任務(wù),因而DecoderHead的加入使模型更輕量化。在引入可變形卷積DCNV2以及MPCA后,盡管模型大小沒(méi)有變化,但檢測(cè)速度略有下降,這是因?yàn)槟P陀?jì)算量會(huì)有所增加,導(dǎo)致檢測(cè)速度略有下降。為了更直觀展示改進(jìn)前后模型性能的差異,將改進(jìn)前算法與改進(jìn)后算法在同一數(shù)據(jù)集上進(jìn)行可視化驗(yàn)證,結(jié)果(圖4)表明,原始模型在較近距離的場(chǎng)景中表現(xiàn)良好,其檢測(cè)結(jié)果的置信度相對(duì)改進(jìn)后模型較高,然而當(dāng)面對(duì)遠(yuǎn)距離的小目標(biāo)火龍果時(shí),YOLOv8存在漏檢現(xiàn)象;而改進(jìn)后的模型在遠(yuǎn)距離小目標(biāo)的檢測(cè)與識(shí)別方面顯著提升,能夠準(zhǔn)確地檢測(cè)并識(shí)別出遠(yuǎn)距離的小目標(biāo)火龍果,彌補(bǔ)了原模型的不足。
表1YOLOv8消融試驗(yàn)結(jié)果 Table1 Presents the ablation experiments for YOLOv8

注:√和×分別表示使用和未使用; AP0.50 為 IoU 為0.50時(shí)不同查全率下的平均精度; AP0.50:0.95 為將 IoU 的值從0.50到0.95(步長(zhǎng)為0.05)時(shí)所有AP的平均值。Note : √and× indicate use and unused,respectively; AP0.50 is the APof different recallratios when IoUis0.5O;AP0.50:0.95 is theaverageof all APs when the IoU value is from 0.50 to 0.95 (the step size is 0.05).
圖4改進(jìn)前后網(wǎng)絡(luò)模型火龍果檢測(cè)效果對(duì)比
Fig.4Compare the dragon fruit detection results of the network model before and after improvement

2.2基于不同檢測(cè)模型的火龍果識(shí)別性能比較
為驗(yàn)證改進(jìn)后的目標(biāo)檢測(cè)網(wǎng)絡(luò)模型對(duì)大視場(chǎng)條件下火龍果的綜合檢測(cè)能力,使用RT-DETR、RT-DETR-DCNV2_Dynamic(DCNV2_Dynamic添加在主干網(wǎng)絡(luò)BasicBlock中)、YOLOX-Nano-CBAM等模型與本研究改進(jìn)模型進(jìn)行對(duì)比試驗(yàn),其中RT-DETR系列的主干使用Resnet18。4種網(wǎng)絡(luò)模型使用相同的數(shù)據(jù)集,結(jié)果(表2)表明,在檢測(cè)精度方面,本研究改進(jìn)模型的 AP0.50 達(dá)到 99% ,僅次于RT-DETR-DCNV2_Dynamic;在檢測(cè)速度方面,改進(jìn)模型優(yōu)于其他模型。相比RT-DETR,改進(jìn)模型在保持相對(duì)較高精度的同時(shí),通過(guò)有效的模型設(shè)計(jì)和結(jié)構(gòu)優(yōu)化,在模型大小和檢測(cè)速度方面表現(xiàn)出色,因此,其綜合性能在果園實(shí)際應(yīng)用場(chǎng)景具有更強(qiáng)的實(shí)用性。
Table2Comparison of experimental results of different models on large-field dragon fruit dataset

注:AP0.50為IoU為0.05時(shí)不同查全率下的平均精度;AP0.50:0.95為將IoU的值從0.50到0.95(步長(zhǎng)為0.05)時(shí)所有AP的平均值Note:AP0.5OistheAPofdiffrentrecallratioswhenIoUisO.5O;APO.50:0.95is theaverageofallAPswhentheIoUvalueis from 0.50 t0.95 (the step size is 0.05).
2.3 果實(shí)計(jì)數(shù)試驗(yàn)結(jié)果分析
由于視頻是實(shí)時(shí)更新場(chǎng)景計(jì)數(shù)結(jié)果,因此對(duì)視頻中果園場(chǎng)景計(jì)數(shù)結(jié)果與人工計(jì)數(shù)結(jié)果進(jìn)行逐幀比對(duì),結(jié)果(表3)表明,改進(jìn)模型對(duì)3個(gè)視頻的火龍果計(jì)數(shù)與人工計(jì)數(shù)接近,平均計(jì)數(shù)精度為82.96% ,檢測(cè)速度為17幀·s?。由此證明了本研究方法的有效性。
表2不同模型在大視場(chǎng)火龍果數(shù)據(jù)集上的試驗(yàn)結(jié)果對(duì)比
表3果實(shí)計(jì)數(shù)試驗(yàn)結(jié)果
Table3Displays the results of fruit counting experiments

3討論
為解決大視場(chǎng)條件下火龍果目標(biāo)檢測(cè)與區(qū)域計(jì)數(shù)問(wèn)題,本研究改進(jìn)了YOLOv8模型,實(shí)現(xiàn)了火龍果大視場(chǎng)條件下對(duì)小目標(biāo)的檢測(cè),結(jié)合改進(jìn)目標(biāo)檢測(cè)網(wǎng)絡(luò)模型與DeepSort算法,以劃線計(jì)數(shù)策略實(shí)現(xiàn)火龍果計(jì)數(shù)。本研究在火龍果多尺度目標(biāo)檢測(cè)任務(wù)中,通過(guò)在模型Backbone中引入DCNV2_Dynamic模塊來(lái)提升細(xì)粒度目標(biāo)檢測(cè)性能,有效彌補(bǔ)了原模型在大視場(chǎng)下難以檢測(cè)小目標(biāo)的不足之處。DCNV2_Dynamic模塊的引入在提升性能的同時(shí),其輕量化的結(jié)構(gòu)設(shè)計(jì)并未導(dǎo)致模型整體大小的顯著增加;利用DecoderHead替換YOLOHead部分,內(nèi)存占用減少了88MB,推理速度明顯提升。這一改進(jìn)的設(shè)計(jì)不僅在資源利用效率上取得了顯著的優(yōu)勢(shì),同時(shí)也在保持模型性能的同時(shí)降低了計(jì)算復(fù)雜度。此外,改進(jìn)后模型訓(xùn)練迭代次數(shù)僅為原來(lái)1/3,模型訓(xùn)練成本與時(shí)間顯著減少。不同模型對(duì)比結(jié)果表明,相較于精度最高的RT-DETR-DCNV2_Dynamic模型,本研究改進(jìn)的模型在僅損失 0.2%AP 的情況下,實(shí)現(xiàn)了更快的推理速度,并且模型大小僅為原模型的1/3;與最輕量化的YOLOX-Nano-CBAM模型相比,本研究的改進(jìn)模型在平均精度上提升了 1% ,推理速度更是其3倍,而模型大小僅增加了 8.04MB 。在火龍果區(qū)域計(jì)數(shù)方面,通過(guò)聯(lián)立目標(biāo)檢測(cè)模型與DeepSort算法,實(shí)現(xiàn)了果實(shí)單獨(dú)實(shí)時(shí)計(jì)數(shù)。果實(shí)計(jì)數(shù)試驗(yàn)結(jié)果表明,該計(jì)數(shù)策略能夠準(zhǔn)確估計(jì)視頻中火龍果的數(shù)量,與人工計(jì)數(shù)結(jié)果接近,并且平均計(jì)數(shù)精度為 82.96% ,在果園視頻測(cè)試中平均檢測(cè)速度為17幀·s-1 U。
本研究采用的模型改進(jìn)方案實(shí)現(xiàn)了性能的整體平衡,在大視場(chǎng)條件下的火龍果識(shí)別與計(jì)數(shù)任務(wù)中,為果園中火龍果的目標(biāo)檢測(cè)與計(jì)數(shù)提供了一種可靠、高效的解決方案,為實(shí)際應(yīng)用場(chǎng)景中采摘序列規(guī)劃決策提供了指導(dǎo)。為了使模型更好地適應(yīng)智能采摘實(shí)施,未來(lái)可以開(kāi)展更多果園環(huán)境情況下的識(shí)別工作,以期為實(shí)現(xiàn)精準(zhǔn)農(nóng)業(yè)、提高果園的運(yùn)營(yíng)效率和產(chǎn)量、進(jìn)一步減少人工成本提供更有效的技術(shù)支持。
參考文獻(xiàn)
[1]WANG Y C, HE Z, CAO D D,et al. Coverage path planning forkiwifruit picking robots based on deep reinforcement learning [J/OL]. Comput. Electron. Agric.,2023,205: 107593 [2024-01-10]. https:/oi.org/10.1016/j.compag.2022.107593.
[2]MEHTA S S,BURKS TF.Vision-based control of robotic manipulatorfor Citrusharvesting[J].Comput.Electron.Agric., 2014,102:146-158.
[3]NING Z,LUO L, DING X,et al. Recognition of sweet peppers and planning therobotic picking sequence in high-density orchards [J/OL]. Comput.Electron.Agric.,2022,196:106878 [2024-01-10]. https://doi.org/10.1016/j.compag.2022.106878.
[4]陳燕,王佳盛,曾澤欽,等.大視場(chǎng)下荔枝采摘機(jī)器人的視覺(jué) 預(yù)定位方法[J].農(nóng)業(yè)工程學(xué)報(bào),2019,35(23):48-54. CHEN Y, WANG JS,ZENG Z Q, et al. Vision pre-positioning method for Litchi picking robot under large field of view [J]. Trans. Chin.Soc.Agric.Eng.,2019,35(23): 48-54.
[5]王冰心,王孫安,于德弘.基于選擇性注意機(jī)制的果實(shí)簇識(shí)別 與采摘順序規(guī)劃[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2016,47(11):1-7. WANGBX,WANGSA,YUDH.Fruitclusterrecognition and picking sequence planning based on selective attention [J]. Trans. Chin.Soc.Agric.Mach.,2016,47(11):1-7.
[6]王金鵬,高凱,姜洪喆,等.基于改進(jìn)的輕量化卷積神經(jīng)網(wǎng)絡(luò) 火龍果檢測(cè)方法[J].農(nóng)業(yè)工程學(xué)報(bào),2020,36(20):218-225. WANG JP,GAO K,JIANGHZ,et al.. Method for detecting dragon fruit based on improved lightweight convolutional neural network [J].Trans. Chin.Soc.Agric.Eng.,202O,36(20): 218-225.
[7]商楓楠,周學(xué)成,梁英凱,等.基于改進(jìn)YOLOX的自然環(huán)境中 火龍果檢測(cè)方法[J].智慧農(nóng)業(yè)(中英文),2022,4(3):120-131. SHANGFN,ZHOUXC,LIANGYK,etal..Detection method for dragon fruit innatural environment basedon improved YOLOX[J]. Smart Agric.,2022,4(3): 120-131.
[8]周佳良,王金鵬,張躍躍,等.基于GCAM-YOLOv5的火龍果快 速檢測(cè)方法[J].林業(yè)工程學(xué)報(bào),2023.8(3):141-149. ZHOUJL,WANGJP,ZHANGYY,etal..Fast detection method of dragon fruits basedon GCAM-YOLOv5 [J].J.For. Eng.,2023,8(3): 141-149.
[9]王金鵬,周佳良,張躍躍,等.基于優(yōu)選YOLOv7模型的采摘機(jī) 器人多姿態(tài)火龍果檢測(cè)系統(tǒng)[J].農(nóng)業(yè)工程學(xué)報(bào),2023,39(8): 276-283. WANG JP, ZHOUJL, ZHANGYY,et al..Multi-pose dragon fruitdetectionsystem for picking robotsbased on the optimal YOLOv7 model [J]. Trans.Chin. Soc. Agric. Eng.,2023,39(8): 276-283.
[10]馬帥.基于改進(jìn)YOLOv4的梨果實(shí)識(shí)別及產(chǎn)量預(yù)測(cè)模型的 研究[D].保定:河北農(nóng)業(yè)大學(xué),2022. MAS.Research onpearfruit recognition based onimproved YOLOv4 and yield predicate model [D].Baoding:Hebei
[11]LU Y,DUS,JI Z, et al..ODL Net: Object detection and location network for small pears around the thinning period [J/OL]. Comput. Electron.Agric.,2023,212:108115 [2024-01-10]. htps://doi.org/ 10.1016/j.compag.2023.108115.
[12]楊福增,雷小燕,劉志杰,等.基于 CenterNet 的密集場(chǎng)景下多 蘋果目標(biāo)快速識(shí)別方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(2): 265-273. YANGFZ,LEI XY,LIU ZJ,et al..Fast recognition method for multiple apple targets in dense scenes based on CenterNet [J]. Trans.Chin. Soc.Agric.Mach.,2022,53(2): 265-273.
[13]喬艷軍.基于深度學(xué)習(xí)的采摘機(jī)器人水果識(shí)別定位與采后 自動(dòng)分級(jí)技術(shù)研究[D].天津:天津理工大學(xué),2022. QIAO Y J. Research on fruit recognition and positioning and post harvest automatic grading technology of picking robot based on deep learning [D]. Tianjin: TianjinUniversity of Technology, 2022.
[14]龍燕,楊智優(yōu),何夢(mèng)菲.基于改進(jìn)YOLOv7的疏果期蘋果目標(biāo) 檢測(cè)方法[J].農(nóng)業(yè)工程學(xué)報(bào),2023,39(14):191-199. LONG Y, YANG Z Y,HE M F.Recognizing apple targets before thinning using improved YOLOv7 [J]. Trans. Chin. Soc. Agric.Eng.,2023,39(14):191-199.
[15]宋懷波,王亞男,王云飛,等.基于YOLOv5s的自然場(chǎng)景油茶 果識(shí)別方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022.53(7):234-242. SONGHB,WANGYN,WANGYF, et al.. Camellia oleifera fruit detection in natural scene based on YOLO v5s [J]. Trans. Chin.Soc.Agric.Mach.,2022,53(7): 234-242.
[16]YANGHW,LIU YZ,WANG SW, et al. Improved apple fruit target recognition method based on YOLOv7 Model [J]. Agriculture,2023,13(7):1278 [2024-01-10].https://doi.org/ 10.3390/agriculture13071278.
[17]朱啟兵,張夢(mèng),劉振方,等.基于點(diǎn)云配準(zhǔn)的盆栽金桔果實(shí)識(shí) 別與計(jì)數(shù)方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(5):209-216. ZHUQB,ZHANG M,LIU ZF,et al. Identification and counting method of potted kumquat fruits based on point cloud registration[J].Trans.Chin.Soc.Agric.Mach.,2022,53(5): 209-216.
[18]高芳芳,武振超,索睿,等.基于深度學(xué)習(xí)與目標(biāo)跟蹤的蘋果 檢測(cè)與視頻計(jì)數(shù)方法[J].農(nóng)業(yè)工程學(xué)報(bào),2021,37(21): 217-224. GAO FF, WU Z C,SUO R, et al. Apple detection and counting using real-time video based on deep learning and object tracking [J].Trans.Chin. Soc.Agric.Eng.,2021,37(21): 217-224.
[19]呂佳,張翠萍,劉琴,等.基于自糾正NMS-ByteTrack的套袋葡 萄估產(chǎn)方法[J].農(nóng)業(yè)工程學(xué)報(bào),2023,39(13):182-190. LYU J,ZHANG CP,LIUQ,et al..Method for estimation of bagged grape yield using a self-correcting NMS-ByteTrack [J]. Trans.Chin. Soc.Agric.Eng.,2023,39(13):182-190.
[20]GAO F,F(xiàn)ANG W,SUN X, et al..A novel apple fruit detection and counting methodology based on deep learning and trunk tracking in modern orchard [J/OL]. Comput. Electron. Agric., 2022,197: 107000 [2024-01-10]. https://doi.org/10.1016/j. compag.2022.107000.
[21]WU Z,SUNX, JIANGH, et al.NDMFCS: an automatic fruit counting system in modern apple orchard using abatementof abnormal fruit detection [J/OL]. Comput. Electron.Agric., 2023,211: 108036 [2024-01-10]. https://doi.org/10.1016/j. compag.2023.108036.
[22]宋懷波,尚鈺瑩,何東健.果實(shí)目標(biāo)深度學(xué)習(xí)識(shí)別技術(shù)研究進(jìn) 展[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(1):1-19. SONGHB, SHANG YY,HED J. Review on deep learning technology for fruit target recognition [J].Trans.Chin.Soc. Agric.Mach.,2023,54(1):1-19.
[23]LYUWY,XU SL,ZHAO Y,et al..Detrs beat yolos on realtime object detection [J/OL].2023,2304:08069 [2024-01-10]. https://doi.org/10.48550/arXiv.2304.08069.
[24]WOJKE N,BEWLEY A,PAULUS D.Simple online and realtime tracking with a deep association metric [C]//2017 IEEEinternational conference on image processing (ICIP). IEEE,2017:3645-3649.
[25]ZHUXZ,HANH,LINS,et al..Deformable convnets v2 :more deformable,betterresults [C]//Proceedingsof the IEEE/CVF conference on computer vision and pattern recognition.IEEE, 2019:9308-9316.
[26]HOUQB,ZHOU D Q,F(xiàn)ENG JS.Coordinate attention for efficientmobile network design [C]//Proceedings of the IEEE/ CVF conference on computer vision and pattern recognition. IEEE,2021:13713-13722.