重慶三峽學(xué)院 江金輝
柑橘作為我國(guó)南方地區(qū)的主要經(jīng)濟(jì)作物[1],其生產(chǎn)過(guò)程的現(xiàn)代化和智能化對(duì)其產(chǎn)業(yè)的發(fā)展有著非常大的意義。隨著人工智能、計(jì)算機(jī)視覺(jué)等技術(shù)的快速興起,諸如采摘機(jī)器人、分揀機(jī)器人等越來(lái)越多的智能農(nóng)業(yè)機(jī)械應(yīng)用到了柑橘的生產(chǎn)過(guò)程當(dāng)中[2]。目標(biāo)識(shí)別作為這些智能農(nóng)用機(jī)械的“眼睛”,在設(shè)計(jì)和研發(fā)以及應(yīng)用階段中都扮演了極為重要的角色。為了實(shí)現(xiàn)對(duì)柑橘果實(shí)的精準(zhǔn)識(shí)別,國(guó)內(nèi)外研究人員提出了許多解決方案。
黃河清等人[3]針對(duì)當(dāng)前柑橘果實(shí)目標(biāo)檢測(cè)模型多數(shù)需在服務(wù)器上運(yùn)行,難以直接在果園部署且識(shí)別實(shí)時(shí)性較差等問(wèn)題,設(shè)計(jì)了基于邊緣計(jì)算設(shè)備的便攜式柑橘果實(shí)識(shí)別系統(tǒng),識(shí)別系統(tǒng)對(duì)柑橘果實(shí)的識(shí)別平均準(zhǔn)確率達(dá)93.01%。易詩(shī)等人[4]基于特征遞歸融合YOLOv4模型,針對(duì)小個(gè)體柑橘、單株密集柑橘和遮擋柑橘進(jìn)行檢測(cè),檢測(cè)結(jié)果對(duì)于果園環(huán)境中春見(jiàn)柑橘的平均檢測(cè)精度達(dá)到94.6%。李揚(yáng)[5]分別對(duì)單個(gè)柑橘目標(biāo)和重疊目標(biāo)進(jìn)行了識(shí)別,并提出一種基于凸殼及距離變換理論的重疊柑橘目標(biāo)識(shí)別方法。試驗(yàn)結(jié)果表明,對(duì)于單個(gè)柑橘的識(shí)別,平均識(shí)別誤差為2.03%。對(duì)于重疊目標(biāo)的識(shí)別,仿真試驗(yàn)中的采摘中心點(diǎn)定位誤差為6.51%。徐利鋒等[6]提出基于改進(jìn)DenseNet 多尺度特征提取模塊的水果檢測(cè)框架,在多尺度特征提取模塊中結(jié)合低層與深層特征的優(yōu)勢(shì),建立特征金字塔結(jié)構(gòu),在目標(biāo)重疊框篩選任務(wù)中嵌入非極大抑制算法,但改進(jìn)后的框架存在高內(nèi)存占用率問(wèn)題。李頎等人[7]為了實(shí)現(xiàn)果粒排列密集、相互遮擋的葡萄果實(shí)檢測(cè),將金字塔結(jié)構(gòu)及遮擋補(bǔ)償機(jī)制引入到ResNet50 網(wǎng)絡(luò)中,改善對(duì)遮擋果粒的識(shí)別問(wèn)題。莊昊龍等[8]提出一種基于改進(jìn)YOLOv5+Deep-Sort 的柑橘果實(shí)識(shí)別與計(jì)數(shù)方法,改進(jìn)后的模型對(duì)于柑橘果實(shí)識(shí)別的平均準(zhǔn)確率達(dá)到了93.712%。
可見(jiàn),以深度學(xué)習(xí)方法解決果實(shí)識(shí)別問(wèn)題是近幾年的主流熱門(mén)方法。但這些方法還存在一些問(wèn)題:(1)深度學(xué)習(xí)方法對(duì)于數(shù)據(jù)量的需求較高。由于柑橘數(shù)據(jù)集并非通用數(shù)據(jù)集,因此其質(zhì)量往往較為粗糙,同時(shí)數(shù)量上也相對(duì)較少,而深度學(xué)習(xí)模型通常需要大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,除了會(huì)耗費(fèi)大量人工標(biāo)注時(shí)間外,獲取大規(guī)模的柑橘一類(lèi)的果實(shí)圖像數(shù)據(jù)集也會(huì)面臨困難,這限制了深度學(xué)習(xí)方法在果實(shí)識(shí)別問(wèn)題上的應(yīng)用范圍。(2)深度學(xué)習(xí)方法在處理小樣本情況下表現(xiàn)欠佳。對(duì)于某些樣本數(shù)量較少的情況,深度學(xué)習(xí)模型可能面臨著過(guò)擬合或者無(wú)法充分學(xué)習(xí)的問(wèn)題,導(dǎo)致目標(biāo)漏檢、錯(cuò)檢。
綜上所述,盡管深度學(xué)習(xí)方法在果實(shí)識(shí)別問(wèn)題上取得了顯著的進(jìn)展,但仍然面臨數(shù)據(jù)需求高、小樣本識(shí)別效果差等問(wèn)題。
隨著深度學(xué)習(xí)大模型的發(fā)展,特別是SAM分割大模型的出現(xiàn),在柑橘識(shí)別任務(wù)中提供了新的思路,該模型具備了足夠的通用性,可以涵蓋廣泛的用例,并且可以在新的圖像領(lǐng)域上即開(kāi)即用,無(wú)需額外的訓(xùn)練。在柑橘目標(biāo)檢測(cè)任務(wù)中,我們認(rèn)為可以先利用SAM大模型對(duì)柑橘進(jìn)行分割,以實(shí)現(xiàn)對(duì)各個(gè)目標(biāo)的準(zhǔn)確定位,然后再對(duì)定位結(jié)果進(jìn)行識(shí)別。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,筆者的方法相較于僅使用通用檢測(cè)器進(jìn)行柑橘檢測(cè)的方法表現(xiàn)更好,并且在實(shí)際應(yīng)用中更加便捷,省去了復(fù)雜的數(shù)據(jù)集制作和調(diào)整的步驟。
2023 年Meta 的Segment Anything(SA)項(xiàng)目孕育出了SAM(Segment Anything Model)。該項(xiàng)目構(gòu)建了一個(gè)功能廣泛且適應(yīng)性強(qiáng)的通用大模型,該模型能夠快速適應(yīng)各種現(xiàn)有和新興的分割任務(wù),如邊緣檢測(cè)、對(duì)象提議生成、實(shí)例分割以及從自由文本中提取對(duì)象等。模型結(jié)構(gòu)如圖1 所示。

圖1 SAM 結(jié)構(gòu)圖
該模型主要由三個(gè)部分組成:強(qiáng)大的圖像編碼器(MAE 預(yù)訓(xùn)練的ViT)、提示編碼器(分為稀疏輸入和密集輸入)以及掩碼解碼器(使用自注意和交叉注意的提示圖像雙向變壓器解碼器)。此外,當(dāng)輸入的提示信息不夠明確時(shí),網(wǎng)絡(luò)會(huì)根據(jù)置信度對(duì)三種可能的掩碼輸出進(jìn)行排序。在訓(xùn)練中,使用的SA-1B 數(shù)據(jù)集包含超過(guò)十億個(gè)掩碼,為模型的訓(xùn)練和評(píng)估提供了充足的高質(zhì)量數(shù)據(jù)。實(shí)驗(yàn)證明,SAM模型在各種分割任務(wù)上展現(xiàn)出了出色的性能和靈活性,無(wú)論是面對(duì)已知數(shù)據(jù)分布還是全新數(shù)據(jù)分布,SAM都能夠進(jìn)行零樣本遷移,并取得令人矚目的效果。
VGG16 是一個(gè)由牛津大學(xué)計(jì)算機(jī)視覺(jué)組開(kāi)發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,具有16 層深度,結(jié)構(gòu)如圖2 所示。在柑橘分類(lèi)任務(wù)中,使用VGG16 模型具有以下優(yōu)勢(shì):(1)準(zhǔn)確性高,VGG16 模型通過(guò)多層卷積操作能夠有效地提取圖像特征,從而提高了柑橘分類(lèi)任務(wù)的準(zhǔn)確性。(2)易于訓(xùn)練:VGG16 模型的結(jié)構(gòu)相對(duì)簡(jiǎn)單且層次清晰,參數(shù)數(shù)量可控,因此相對(duì)容易訓(xùn)練,適合應(yīng)用于柑橘分類(lèi)等中小規(guī)模任務(wù)。(3)應(yīng)用范圍廣,作為經(jīng)典的深度學(xué)習(xí)模型之一,VGG16 在業(yè)界擁有廣泛的應(yīng)用和研究基礎(chǔ),相關(guān)的開(kāi)源實(shí)現(xiàn)和優(yōu)化技巧豐富,便于使用者參考和借鑒。

圖2 VGG16 結(jié)構(gòu)圖
綜上,將VGG16 模型應(yīng)用于柑橘分類(lèi)任務(wù)中能夠帶來(lái)較高的準(zhǔn)確性、良好的泛化能力和相對(duì)簡(jiǎn)單的訓(xùn)練過(guò)程,是一種有效且可靠的選擇。
在目標(biāo)檢測(cè)任務(wù)中,傳統(tǒng)方法通常需要人工采集、制作大量的數(shù)據(jù)集,再將數(shù)據(jù)集按比例劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,利用龐大的數(shù)據(jù)集輸入到網(wǎng)絡(luò)模型中進(jìn)行長(zhǎng)時(shí)間的訓(xùn)練,以求達(dá)到良好的檢測(cè)效果。而在分類(lèi)任務(wù)中,分類(lèi)數(shù)據(jù)集的制作相對(duì)簡(jiǎn)單且模型對(duì)數(shù)據(jù)集的需求量少,并且對(duì)于簡(jiǎn)單二分類(lèi)任務(wù)而言,所需訓(xùn)練時(shí)長(zhǎng)較短。本文實(shí)驗(yàn)方法的優(yōu)勢(shì)在于僅需要簡(jiǎn)單的類(lèi)別標(biāo)定制作分類(lèi)數(shù)據(jù)集,無(wú)需傳統(tǒng)檢測(cè)方法那樣標(biāo)注包圍框。
本文數(shù)據(jù)集所用柑橘圖像均采集于重慶市萬(wàn)州區(qū)某果農(nóng)自種果園,在不同的天氣狀況、光照環(huán)境、拍攝角度、遠(yuǎn)近距離的條件下進(jìn)行拍攝,經(jīng)過(guò)對(duì)數(shù)據(jù)集的初步篩選,剔除不含柑橘或難以標(biāo)記的樣本后選取了1200 張柑橘圖片樣本。部分圖像如圖3 所示。

圖3 柑橘圖像
對(duì)柑橘圖像篩選完成后,為了測(cè)試本文方法的應(yīng)用性能,筆者利用Labelme 工具進(jìn)行標(biāo)注,制作了包含1000 張柑橘圖片樣本的數(shù)據(jù)集。將剩余200 張圖像進(jìn)行處理后,制作了包含柑橘與非柑橘兩類(lèi)的分類(lèi)數(shù)據(jù)集,該分類(lèi)數(shù)據(jù)集用于訓(xùn)練分類(lèi)器。
本文實(shí)驗(yàn)總體流程如圖4 所示。將柑橘圖像輸入到SAM后,通過(guò)對(duì)SAM模型參數(shù)進(jìn)行調(diào)整,生成分割目標(biāo)小圖像以及基于原圖的編號(hào)和定位信息,再將從原圖上裁剪出的目標(biāo)小圖像輸入到微調(diào)后的VGG16分類(lèi)模型中,分類(lèi)器將類(lèi)別為“orange”的圖像編號(hào)返還到原圖上生成檢測(cè)目標(biāo)框。

圖4 實(shí)驗(yàn)流程
本文對(duì)比實(shí)驗(yàn)選取了YOLOV4 原始模型,將標(biāo)注過(guò)的1000 張柑橘圖像數(shù)據(jù)集按照6:2:2 的比例劃分為模型訓(xùn)練集、驗(yàn)證集、測(cè)試集,輸入到Y(jié)OLOV4 模型中進(jìn)行訓(xùn)練,其實(shí)驗(yàn)結(jié)果作為本文方法的對(duì)照組。
將本文方法記為SAM-VGG16,在這一部分中,我們將本文方法的檢測(cè)結(jié)果與測(cè)試集進(jìn)行計(jì)算,得到該實(shí)驗(yàn)方法的mAP。兩種方法的mAP 結(jié)果對(duì)比如下表:

通過(guò)結(jié)果對(duì)比,筆者發(fā)現(xiàn)本文方法可以利用少量的分類(lèi)數(shù)據(jù)集實(shí)現(xiàn)柑橘檢測(cè)任務(wù),比經(jīng)過(guò)訓(xùn)練的yolov4模型效果高出1.4%。由此,筆者認(rèn)為,本文的方法在缺少實(shí)驗(yàn)樣本的條件下達(dá)到了柑橘目標(biāo)檢測(cè)任務(wù)的要求,能夠避免在缺少數(shù)據(jù)集時(shí)無(wú)法進(jìn)行訓(xùn)練識(shí)別的問(wèn)題,在識(shí)別效果上也能夠?yàn)橄乱徊降牟烧蝿?wù)提供支持,為柑橘識(shí)別項(xiàng)目提供了另一種思路。
針對(duì)自然環(huán)境下樹(shù)上柑橘數(shù)據(jù)集難以獲取、數(shù)據(jù)集人工標(biāo)注難度大等問(wèn)題,本文提出一種聯(lián)合SAM與VGG16 模型的柑橘檢測(cè)方法。該模型通過(guò)SAM將輸入圖像進(jìn)行分割,然后將分割后的結(jié)果輸入到VGG16 分類(lèi)模型中,對(duì)圖像中的柑橘目標(biāo)進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果表明,該方法能夠在數(shù)據(jù)集數(shù)量不足、質(zhì)量不好或者沒(méi)有數(shù)據(jù)集的情況下,仍能夠在柑橘目標(biāo)檢測(cè)項(xiàng)目中達(dá)到不錯(cuò)的效果。當(dāng)然,該實(shí)驗(yàn)方法也存在一些有待改進(jìn)的地方,例如由于SAM大模型的加入使模型推理速度變慢、分類(lèi)器是否有更合適的模型、該方法在其他檢測(cè)任務(wù)中是否具有同樣的零樣本泛化能力等,在后續(xù)的實(shí)驗(yàn)過(guò)程中我們將進(jìn)行更深一步的探索。