999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于空間特征融合ViT的枸杞蟲害細(xì)粒度分類方法

2024-12-01 00:00:00孫露露劉建平周國民王健劉立波

摘要:針對枸杞種植中面臨的蟲害細(xì)粒度分類難題,提出了一種農(nóng)業(yè)蟲害細(xì)粒度分類模型——基于空間特征融合的數(shù)據(jù)增強(qiáng)視覺Transformer(ESF-ViT)。首先,該模型利用自注意力機(jī)制裁剪出前景目標(biāo)的圖片以增強(qiáng)圖像輸入,補(bǔ)充更多細(xì)節(jié)表示;其次,結(jié)合自注意力機(jī)制與圖卷積網(wǎng)絡(luò)提取害蟲區(qū)域的空間信息,學(xué)習(xí)害蟲的空間姿態(tài)特征。為了驗(yàn)證本文所提模型的有效性,在CUB-200-2011、IP102以及寧夏枸杞蟲害數(shù)據(jù)集WPIT9K上開展實(shí)驗(yàn)研究,實(shí)驗(yàn)結(jié)果表明本文所提方法相比基礎(chǔ)ViT模型分別提升了1.83%、2.09%和2.01%,并且超越了現(xiàn)有最新的蟲害分類模型。所提模型能夠有效地解決農(nóng)業(yè)蟲害識別領(lǐng)域中的細(xì)粒度蟲害圖像分類問題,為蟲害的高效監(jiān)測預(yù)警提供視覺模型。

關(guān)鍵詞:枸杞;視覺 Transformer;細(xì)粒度圖像分類;空間特征融合;數(shù)據(jù)增強(qiáng)

1""引言

寧夏枸杞作為我國特色農(nóng)產(chǎn)品,對于提升農(nóng)業(yè)產(chǎn)值、促進(jìn)地區(qū)經(jīng)濟(jì)發(fā)展具有重要作用。然而,受到全球氣候變化及生態(tài)環(huán)境的影響,枸杞種植正面臨日益嚴(yán)重的蟲害問題,這些問題對枸杞產(chǎn)業(yè)的可持續(xù)發(fā)展和產(chǎn)品質(zhì)量構(gòu)成了嚴(yán)重挑戰(zhàn)。在蟲害防控方面,傳統(tǒng)的化學(xué)農(nóng)藥雖然能暫時(shí)控制害蟲,但長期大量使用容易造成環(huán)境污染、生態(tài)失衡,并對人體健康構(gòu)成潛在威脅[1-2]。早發(fā)現(xiàn),早防控是控制蟲害的關(guān)鍵。對枸杞上的害蟲進(jìn)行精確識別和分類[3-4],及時(shí)監(jiān)測蟲害的發(fā)生與蔓延,并采取有針對性的防治措施,對減少化學(xué)農(nóng)藥的使用、保護(hù)生態(tài)環(huán)境、提高農(nóng)產(chǎn)品質(zhì)量和產(chǎn)量具有重要意義[5]

農(nóng)業(yè)蟲害的特點(diǎn)主要表現(xiàn)在其多樣性、發(fā)生季節(jié)性、遷移性和抗藥性[6],這些特點(diǎn)使得蟲害防控變得更加復(fù)雜。害蟲的種類繁多,每一種都有其獨(dú)特的生物學(xué)特性,并且蟲害元類中的各個子類的害蟲存在外觀上的相似性,是一種細(xì)粒度圖像分類任務(wù)[7]。圖1展示了枸杞蟲害細(xì)粒度分類的問題與特點(diǎn),可以得出農(nóng)田環(huán)境復(fù)雜多變、害蟲種類繁多、同目屬性害蟲極其相似和害蟲與背景的相似性等問題,使得區(qū)分變得困難。針對蟲害問題的特點(diǎn)和影響,農(nóng)業(yè)蟲害細(xì)粒度圖像分類成為亟待解決的問題。

細(xì)粒度分類要求能夠準(zhǔn)確識別不同種類的害蟲,甚至是同一物種的不同齡期或性別,這對于制定針對性的防治措施至關(guān)重要。大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)正對農(nóng)業(yè)發(fā)展產(chǎn)生顯著影響,其在農(nóng)業(yè)領(lǐng)域的應(yīng)用日益廣泛,發(fā)揮著越來越關(guān)鍵的作用[8-9]。在農(nóng)業(yè)病蟲害識別領(lǐng)域中深度學(xué)習(xí)技術(shù)取得了顯著進(jìn)展,提高了作物產(chǎn)量和品質(zhì)。且該方法已廣泛應(yīng)用于水稻、葡萄、枸杞等多種作物[10-14],實(shí)現(xiàn)了病害檢測和昆蟲識別等功能。然而,傳統(tǒng)深度學(xué)習(xí)模型多關(guān)注于宏觀分類,對細(xì)粒度病蟲害識別研究不足。

細(xì)粒度圖像分類技術(shù)在農(nóng)業(yè)領(lǐng)域具有巨大潛力,特別是在水稻、茶葉等作物及稻瘟病等細(xì)微病害的識別上[15-18]。自動化、高效的病蟲害檢測有助于提升農(nóng)業(yè)生產(chǎn)效率和保障糧食安全。盡管細(xì)粒度

圖像分類在農(nóng)業(yè)應(yīng)用中面臨子類差異細(xì)微、背景干擾等挑戰(zhàn),但其對早期檢測和有效控制農(nóng)業(yè)害蟲至關(guān)重要。由表1可以看出,現(xiàn)有CNN模型在特征提取方面表現(xiàn)良好,但全局特征提取能力和泛化能力有待提升。盡管視覺Transformer (ViT)[19]模型在某些領(lǐng)域有所應(yīng)用,但在蟲害識別方面效果有限。

ViT模型作為一種新型深度學(xué)習(xí)架構(gòu),通過自注意力機(jī)制可以有效捕捉圖像細(xì)粒度特征,并建立特征關(guān)聯(lián),提高識別精度和泛化能力。本研究旨在探討基于ViT的枸杞蟲害細(xì)粒度圖像分類方法,以提升蟲害識別效率和準(zhǔn)確性,為農(nóng)業(yè)可持續(xù)發(fā)展提

供技術(shù)支持。總體研究上,總結(jié)了以下主要貢獻(xiàn):

1)提出了一個結(jié)合數(shù)據(jù)增強(qiáng)和融合空間特征的細(xì)粒度蟲害圖像分類模型ESF-VIT,以解決多角度農(nóng)業(yè)蟲害姿態(tài)多樣性結(jié)構(gòu)建模困難的問題。在公共數(shù)據(jù)集CUB-200-201[20]上,相較于ViT模型提升了1.83%;在農(nóng)業(yè)細(xì)粒度數(shù)據(jù)集IP102[21]上提升了2.09%;在寧夏枸杞數(shù)據(jù)集WPIT9K[22]上提升了2.01%;并在這三種數(shù)據(jù)集上的效果相較于其他SOTA方法均有顯著提升。

2)為了增加輸入端圖像的數(shù)據(jù)信息,引入圖像裁剪模塊進(jìn)行數(shù)據(jù)增強(qiáng),該模塊利用自注意力獲取權(quán)重,通過平均注意力權(quán)重并設(shè)置閾值進(jìn)行圖像裁剪,將裁剪出的目標(biāo)模塊進(jìn)行再次輸入,以增強(qiáng)數(shù)據(jù)的方式學(xué)習(xí)到更多細(xì)微特征。

3)為了解決不同視角下蟲害的復(fù)雜姿態(tài)識別問題,模型引入空間信息學(xué)習(xí)模塊,該模塊利用自注意力權(quán)重結(jié)合GCN提取判別區(qū)域的空間上下文信息以學(xué)習(xí)其空間姿態(tài)特征。

4)所提模型能夠有效地識別出不同種類和生長階段的蟲害,將其應(yīng)用于農(nóng)業(yè)領(lǐng)域時(shí),通過精準(zhǔn)監(jiān)測蟲害的種類和生長階段,能夠?qū)崿F(xiàn)蟲害的早期發(fā)現(xiàn)和治療,從而有助于控制蟲害的擴(kuò)散,促進(jìn)農(nóng)業(yè)的現(xiàn)代化進(jìn)程和可持續(xù)發(fā)展。

2""原理與方法

2.1""視覺Transformer

Transformer[23]是一種基于自注意力機(jī)制(self- attention)的深度學(xué)習(xí)模型架構(gòu),最初由 Google 研究團(tuán)隊(duì)在 2017 年提出,用于處理序列數(shù)據(jù)。Dosovitskiy等人提出的ViT (Vision Transformer)[19],其核心思想是將輸入圖像均勻分割成固定的圖像塊,然后將這些圖像塊作為序列輸入給Transformer模型。ViT模型結(jié)構(gòu)如圖2所示,圖2虛線右側(cè)是對一層編碼塊內(nèi)部結(jié)構(gòu)的展開。

將數(shù)據(jù)格式為[H,W,C]的圖像x分割成N=n1ín2個不重疊的圖像塊,其中n1和n2分別為輸入圖像的每一行和每一列的塊的數(shù)量。圖像塊記為IipRpípíci=1,2,…,N, 其中(P,P)為空間維度,c為通道數(shù)。使用一個可學(xué)習(xí)的線性投影ERcP2íD,可以將圖像塊Iip轉(zhuǎn)換為一個嵌入tokes xi=IipERDi=1,2,…,N, 將轉(zhuǎn)換后的嵌入tokens"組合成一個序列X=x1x2,xN,并結(jié)合cls token"xclassRD,通過可訓(xùn)練的位置嵌入EposRN+1)íD進(jìn)行拼接,形成初始輸入標(biāo)記序列X0

X0=[xclass;x1;x2;…;xN]+Epos

ViT主干網(wǎng)由多個Transformer層組成,每個Transformer層都包含多頭自注意和多層感知器。對于一個Transformer層,這些圖像塊依次通過每一層的多頭自注意(MSA),統(tǒng)一從不同注意頭學(xué)習(xí)到的信息。然后,將它們輸入多層感知(MLP)器中,并通過全連接層和GELU激活函數(shù)進(jìn)行預(yù)處理,以促進(jìn)最終分類。對于一個Transformer層,如果輸入為Xin,那么具有相同大小的Xin的輸出token序列Xout的計(jì)算如下:

X′="MHSALNXin))+Xin

Xout=MLPLNX′))+X

其中:LN(·)、MHSA(·)和MLP(·)分別表示歸一化操作、多頭自注意和多層感知器。最后,將全局特征用最后一層Encoder的分類令符表示,并輸入到MLP Head中進(jìn)行最終分類,得到預(yù)測的類別。

2.2 "視覺Transformer在細(xì)粒度分類任務(wù)上的改進(jìn)

圖像分析的核心在于特征提取,即從圖像中獲取對后續(xù)處理有益的信息[24]。CNN因其在提取局部和全局特征方面的平衡能力而被廣泛采用,而ViT雖然在局部特征提取上略顯不足,卻擅長捕捉圖像的整體上下文。方法如SR-GNN[25]和TBNet[26]結(jié)合了CNN和ViT的優(yōu)勢,先用CNN提取特征,再由ViT進(jìn)行特征強(qiáng)化。ViT-FOD[27]和IELT[28]則通過優(yōu)化Transformer的編碼器結(jié)構(gòu),實(shí)現(xiàn)了對圖像不同尺度和層次特征的提取。

特征關(guān)系建模的目標(biāo)是捕捉圖像特征間的相互依賴,以提高分類任務(wù)的準(zhǔn)確性和泛化能力。Transformer的自注意力機(jī)制通過為每個特征分配位置權(quán)重,有效捕捉語義和結(jié)構(gòu)信息。TransIFC[29]和Improved VIT[30]利用多層Transformer編碼來建立語義關(guān)系,并提取不變的、核心的信息,同時(shí)捕捉細(xì)節(jié)和高層語義。AA-Trans[31]和SIM-Trans[32]通過設(shè)計(jì)核心注意力聚合器和結(jié)構(gòu)信息學(xué)習(xí)模塊,增強(qiáng)了網(wǎng)絡(luò)對圖像關(guān)鍵部分的處理能力。

特征注意通過引入注意力機(jī)制來關(guān)注圖像的重要部分,ViT通過自注意力機(jī)制對圖像各部分特征進(jìn)行加權(quán)組合,評估其重要性。TransFG[33]將ViT的注意力權(quán)重集成到注意力圖中,并采用對比損失來強(qiáng)化特征表示。FFVT[34]則通過新的相互關(guān)注權(quán)重選擇模塊來

識別區(qū)分性特征。

特征增強(qiáng)旨在通過數(shù)據(jù)和特征層面的提升來增強(qiáng)分類性能。HAVT[35]通過圖像裁剪進(jìn)行數(shù)據(jù)增強(qiáng),去除干擾并專注于關(guān)鍵特征。MetaFormer[36]結(jié)合ViT來融合視覺信息和元信息,增強(qiáng)特征。TRS-DeiT[37]采用教師-學(xué)生模型進(jìn)行知識蒸餾,學(xué)習(xí)圖像的潛在細(xì)粒度特征。

本文通過以上方法對ViT模型進(jìn)行改進(jìn),特別是通過注意力裁剪、數(shù)據(jù)增強(qiáng)和空間特征提取來優(yōu)化模型性能,并將這些改進(jìn)應(yīng)用于農(nóng)業(yè)蟲害分類,以提升細(xì)粒度分類的準(zhǔn)確性。

2.3""新提方法ESF-VIT

在蟲害細(xì)粒度圖像分類任務(wù)上,ViT不能很好地捕獲前景和空間信息。為了解決以上問題,引入數(shù)據(jù)增強(qiáng)和空間信息提取。ESF-ViT總體框架如圖3所示。數(shù)據(jù)增強(qiáng)模塊利用注意權(quán)重進(jìn)行圖像裁剪,將裁剪后的圖像再次輸入模型進(jìn)行特征融合。空間信息學(xué)習(xí)模塊提取空間特征信息,通過圖卷積網(wǎng)絡(luò)進(jìn)行捕捉不同圖像塊之間的空間位置關(guān)系。

2.3.1""圖像裁剪

為了突出前景信息,利用自注意力權(quán)重來指導(dǎo)模型選擇包含前景信息的圖像塊。這些選出的塊被用來裁剪圖像,以獲取前景圖像,并進(jìn)一步學(xué)習(xí)特征以增強(qiáng)關(guān)鍵區(qū)域的特征。

在主干網(wǎng)絡(luò)訓(xùn)練過程中利用多頭注意力機(jī)制生成第L層的注意力圖αL來指導(dǎo)圖像的裁剪過程,并將其歸一化為α*L,使其更具有代表性。利用歸一化后的注意力圖α*L對圖像進(jìn)行注意力裁剪,將裁剪的部分放大重新進(jìn)行訓(xùn)練,進(jìn)一步提取更詳細(xì)的關(guān)鍵特征。通過設(shè)置一個閾值θc,將二進(jìn)制掩碼大于閾值的元素值Ck設(shè)置為1,其他的設(shè)置為0,其中閾值θc=∈[0.4,0.6]。值為1的為前景區(qū)域,值為0的為背景區(qū),具體過程表示為:

其主要目的是界定裁剪的邊界框,通過判斷元素值為1的所有圖像塊進(jìn)行確定包含以上圖像塊的最小邊界框,利用該邊界框進(jìn)行裁剪出原圖,并且放大到原始圖像大小。

通過加權(quán)組合原始正樣本的損失和裁剪圖像的損失來平衡這些損失,從而幫助模型更全面地學(xué)習(xí)圖像數(shù)據(jù),并提高其在復(fù)雜農(nóng)業(yè)場景中的泛化能力。

Ltotal=αL1+βL2

其中,L1是原始正樣本的損失,幫助模型學(xué)習(xí)如何從原始圖像中提取有用的特征;L2是裁剪圖像的損失,衡量模型在這些裁剪后的區(qū)域上的分類性能,以鼓勵關(guān)注對分類任務(wù)最重要的圖像部分。其中αβ是超參數(shù),用于調(diào)整各個損失的重要性。

2.3.2 "空間信息學(xué)習(xí)

空間信息的學(xué)習(xí)需要先利用自注意力機(jī)制實(shí)現(xiàn)對象范圍定位。位置編碼通常是一個與圖像塊位置相關(guān)的向量,它包含了圖像塊在原始圖像中的位置信息。多頭自注意力機(jī)制(MHSA)將自注意力機(jī)制應(yīng)用于每個圖像塊,并計(jì)算每個圖像塊與所有其他圖像塊之間的相關(guān)性,并生成一個注意力權(quán)重矩陣。這個矩陣的每個元素表示一個圖像塊與所有其他圖像塊之間的相似度,在注意力權(quán)重的幫助下可以對目標(biāo)進(jìn)行自然的定位。利用ViT自注意力機(jī)制的權(quán)重選擇顯著圖像塊。具體地,假設(shè)Transformer有h個頭,每個頭的注意力權(quán)重計(jì)算公式為:

其中,AhRN+1)í"(N+1)h=1,2,…,H表示第h個頭的注意力權(quán)重矩陣,N為圖像塊的數(shù)量,Q和K分別是所有token的query向量和key向量,D是維度。

在上述計(jì)算出每個圖像塊的權(quán)重基礎(chǔ)上,篩選出

注意力權(quán)重最高的圖像塊,將其視為最具判別力的關(guān)鍵圖像塊。為了過濾掉不重要的patch tokens,可以計(jì)算所有patch tokens與cls tokens之間的注意力權(quán)重的平均值作為閾值。然后,將注意力權(quán)重低于此閾值的patch tokens視為不包含對象信息的背景區(qū)域。

以最具判別力的關(guān)鍵圖像塊為參考點(diǎn),計(jì)算其他圖像塊與關(guān)鍵圖像塊之間的相對位置關(guān)系(極坐標(biāo)系中的距離ρ和角度θ),利用極坐標(biāo)計(jì)算參考圖像塊與其他圖像塊之間的相對位置關(guān)系。利用它們之間的相對距離和角度,幫助模型理解對象的空間結(jié)構(gòu)。圖卷積網(wǎng)絡(luò)進(jìn)一步分析這些塊之間的關(guān)系,提取結(jié)構(gòu)特征,并整合到Transformer模型中,以提高對空間結(jié)構(gòu)的建模能力。

2.3.3 "特征融合

在Transformer提取獲得的圖像特征后,最后一層Transformer層往往會忽略不同的層次特征。并且在前文的空間信息學(xué)習(xí)中,在后三層Transformer層不僅保留了原始圖像的局部信息,還通過空間信息學(xué)習(xí)模塊的學(xué)習(xí)過程,引入了額外的空間信息,通過將后三層的特征進(jìn)行融合充分交互以增強(qiáng)模型的魯棒性。具體來說,最后三層Transformer層的cls tokens的特征連接起來,模型能夠利用這些特征之間的互補(bǔ)性。這種連接方式使得模型能夠從不同層次和角度理解圖像的結(jié)構(gòu),從而提高整體的性能。

3 "數(shù)據(jù)集

圖4顯示了本文涉及的三個數(shù)據(jù)集,分別為:由加州理工學(xué)院在2010年提出的鳥類數(shù)據(jù)集CUB-200- 2011[20],也是目前細(xì)粒度分類識別研究的基準(zhǔn)圖像數(shù)據(jù)集;由南開大學(xué)提出的昆蟲害蟲識別大規(guī)模數(shù)據(jù)集IP102[21]與2020年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集WPIT9K[22]。表2介紹了三個數(shù)據(jù)集的信息,包括種類、數(shù)量、訓(xùn)練集和測試集數(shù)量。

4 "實(shí)驗(yàn)結(jié)果

本研究使用實(shí)驗(yàn)設(shè)置如下:采用ImageNet21K預(yù)訓(xùn)練的ViT-B-16作為骨干網(wǎng)絡(luò)。訓(xùn)練階段和測試階段采用448×448的大小作為輸入,圖像被分割為大小為16的圖像塊。模型采用動量為0.9的隨機(jī)梯度下降(SGD)優(yōu)化器進(jìn)行訓(xùn)練,并采用余弦退火調(diào)度器進(jìn)行模型優(yōu)化,初始學(xué)習(xí)率設(shè)置為3e-2。此外,所提模型是在PyTorch上通過Nvidia Tesla V100 GPU實(shí)現(xiàn)的。

4.1 "對比實(shí)驗(yàn)

為了驗(yàn)證所提出的ESF-ViT的有效性,實(shí)驗(yàn)在三個數(shù)據(jù)集上比較了所提出的ESF-ViT和其他實(shí)驗(yàn)方法。表3為CUB200-2011、IP102和WPIT9K的對比結(jié)果。

在表3的實(shí)驗(yàn)結(jié)果中,可以發(fā)現(xiàn)ESF-ViT模型在CUB-200-2011、IP102和WPIT9K數(shù)據(jù)集上的表現(xiàn)都優(yōu)于現(xiàn)有的SOTA方法。具體來說,ESF-ViT模型在CUB-200-2011和WPIT9K數(shù)據(jù)集上分別比基線ViT模型提升了1.83%和2.09%的性能。此外,ESF-ViT模型在IP102數(shù)據(jù)集上比基于CNN的模型有更大的提升,性能提升了2.46%。

在對比實(shí)驗(yàn)中,IELT和HAVT模型在性能上表

現(xiàn)較好。IELT模型通過圖像塊的選擇、動態(tài)調(diào)整閾值和融合跨層細(xì)化特征,使得其更好地注重精細(xì)的判別特征,在CUB-200-2011數(shù)據(jù)集上取得第二的性能,而ESF-ViT相較于其提升了0.57%。HAVT模型通過對數(shù)據(jù)的增強(qiáng)以及對特征的融合,實(shí)現(xiàn)了較好的細(xì)粒度分類效果,在IP102數(shù)據(jù)集上取得第二好的性能,而ESF-ViT相較于其提升了0.24%。

在WPIT9K數(shù)據(jù)集上,盡管ESF-ViT模型的提升

幅度較小,但整體效果仍然有所提升。這是因?yàn)樵摂?shù)據(jù)集的類別相對較少,訓(xùn)練數(shù)據(jù)量較大,模型的準(zhǔn)確率已經(jīng)達(dá)到了較高水平。因此,即使提升幅度不大,也表明ESF-ViT模型在當(dāng)前條件下已經(jīng)達(dá)到了較好的性能。未來,為了進(jìn)一步提高模型在WPIT9K數(shù)據(jù)集上的性能,后期計(jì)劃對數(shù)據(jù)類別進(jìn)行補(bǔ)充,以豐富數(shù)據(jù)多樣性,從而為模型提供更多的學(xué)習(xí)機(jī)會,進(jìn)一步提升模型的識別能力。

4.2 "消融實(shí)驗(yàn)

為了驗(yàn)證ESF-ViT模型中各個模塊的有效性,針對模型進(jìn)行了消融研究,通過比較不同模塊組合對模型性能的影響。實(shí)驗(yàn)結(jié)果如表4所示,展示了各模塊在CUB-200-2011和WPIT9K兩個的效果。

首先,使用了一個基準(zhǔn)ViT模型作為起點(diǎn)。隨后,逐步增加了三個模塊:數(shù)據(jù)增強(qiáng)模塊、空間信息學(xué)習(xí)模塊和特征融合模塊。在增加每個模塊后,模型在CUB-200-2011和WPIT9K兩個數(shù)據(jù)集上的性能都有所提升。數(shù)據(jù)增強(qiáng)模塊通過裁剪圖片,增強(qiáng)了對目標(biāo)特征的提取能力,使得模型在CUB-200-2011和WPIT9K數(shù)據(jù)集上的性能分別提升了1.15%和1.81%。空間信息學(xué)習(xí)模塊通過提取蟲害區(qū)域的空間上下文信息,減少了不同視角下蟲害復(fù)雜姿態(tài)的影響,進(jìn)一步提升了模型在CUB-200-2011數(shù)據(jù)集上的性能0.52%,在WPIT9K數(shù)據(jù)集上的性能0.23%。特征融合模塊通過融合后三層的特征,增強(qiáng)了模型的魯棒性,使得模型在CUB-200-2011數(shù)據(jù)集上的性能再提升了0.16%,在WPIT9K數(shù)據(jù)集上的性能提升了0.03%。

綜合來看,這三個模塊的加入不僅提升了模型的整體性能,而且通過實(shí)驗(yàn)證明了它們各自對模型性能的積極貢獻(xiàn)。這些實(shí)驗(yàn)結(jié)果直觀地展示了ESF-ViT模型中各個模塊的作用,并為模型在實(shí)際應(yīng)用中的優(yōu)化提供了重要的參考。

4.3""超參數(shù)實(shí)驗(yàn)

為了深入理解模塊中參數(shù)對ESF-ViT模型性能的影響,在IP102數(shù)據(jù)集上進(jìn)行了細(xì)致的實(shí)驗(yàn),特別關(guān)注了注意力裁剪模塊中的超參數(shù)閾值θc。表5詳細(xì)展示了不同θc取值對模型分類效果的影響。

實(shí)驗(yàn)結(jié)果顯示,當(dāng)訓(xùn)練精度達(dá)到最高時(shí),θc的取值范圍為0.4到0.6。在這個范圍內(nèi),模型能夠?qū)崿F(xiàn)最佳的性能表現(xiàn)。這一發(fā)現(xiàn)強(qiáng)調(diào)了參數(shù)選擇對模型性能的重要性。如果閾值設(shè)置過高,可能會導(dǎo)致重要信息的丟失,而如果閾值設(shè)置過低,則可能會引入過多的噪聲,從而影響模型的性能。

4.4""可視化結(jié)果

為了直觀展示ESF-ViT模型的有效性,進(jìn)行了在枸杞蟲害數(shù)據(jù)集上的可視化結(jié)果展示,如圖5所示。圖中,第一行展示了原始的枸杞蟲害圖像;第二行和第三行分別展示了基準(zhǔn)模型和增加了數(shù)據(jù)增強(qiáng)模塊的模型生成的注意圖;第四行則是ESF-ViT模型生成的注意圖。通過對比,可以清晰地觀察到ESF-ViT模型在注意力分配上的顯著優(yōu)勢。它不僅更加集中地關(guān)注了蟲害的前景區(qū)域,而且更準(zhǔn)確地識別出了蟲害的四肢邊界,并且邊緣特征更加清晰。這種對細(xì)節(jié)的精確捕捉,使得ESF-ViT模型在細(xì)粒度蟲害識別上表現(xiàn)出色。

具體來說,ESF-ViT模型通過數(shù)據(jù)增強(qiáng)模塊提升

了模型對前景目標(biāo)的識別能力,從而使注意力更加聚焦。同時(shí),通過空間信息學(xué)習(xí)模塊,模型能夠更有效地處理不同視角下蟲害的復(fù)雜姿態(tài),并最終通過特征融合學(xué)習(xí)蟲害的空間姿態(tài)特征。這些改進(jìn)使得ESF- ViT模型在枸杞蟲害數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于基準(zhǔn)模型,從而驗(yàn)證了本文所提出方法的有效性。

5 "結(jié)論與展望

本文針對枸杞蟲害細(xì)粒度圖像分類的挑戰(zhàn),提出了一種新的視覺Transformer模型ESF-ViT。該模型引入了數(shù)據(jù)增強(qiáng)模塊,可以有效誘導(dǎo)模型增強(qiáng)模型對前景目標(biāo)的識別能力;同時(shí),空間信息學(xué)習(xí)模塊有助于減少不同視角下蟲害復(fù)雜姿態(tài)的影響;最后通過特征融合,模型能夠?qū)W習(xí)蟲害的空間姿態(tài)特征,以適應(yīng)自然環(huán)境枸杞蟲害分類。在與HAVT和FFVT模型在數(shù)據(jù)集IP102上的對比中,ESF-ViT模型分別提升了0.24%和0.58%的準(zhǔn)確率。這一結(jié)果表明,該方法能夠保持較高的準(zhǔn)確率,有效提高農(nóng)業(yè)蟲害識別的預(yù)警能力,并為農(nóng)業(yè)蟲害細(xì)粒度分類領(lǐng)域提供了新的解決方案。

在可視化對比中,模型在處理顏色背景與蟲子色差不大的情況下表現(xiàn)不佳,這可能是限制模型識別能力的一個因素。在數(shù)據(jù)集的限制下,枸杞細(xì)粒度圖像分類上的潛力未能完全發(fā)揮。因此,構(gòu)建大規(guī)模、高質(zhì)量的專業(yè)蟲害數(shù)據(jù)集對于進(jìn)一步提升模型的性能至關(guān)重要。此外,結(jié)合大模型,利用其強(qiáng)大的通用知識,有望進(jìn)一步提升模型的識別能力。盡管當(dāng)前所提出的模型在細(xì)粒度識別能力上存在一定的不足,但通過進(jìn)一步的研究和優(yōu)化,相信可以提升模型的性能,使其能夠更好地在多樣化環(huán)境中學(xué)習(xí)和適應(yīng)。未來工作將重點(diǎn)關(guān)注構(gòu)建大規(guī)模、高質(zhì)量的專業(yè)蟲害數(shù)據(jù)集,并在此基礎(chǔ)上結(jié)合大模型,以期提供更優(yōu)的農(nóng)業(yè)病蟲害識別和防控解決方案。

參考文獻(xiàn)

[1] LEHMANN"P, AMMUNET"T, BARTON"M,"et al."Complex responses of global insect pests to climate warming[J]. Frontiers in Ecology and the Environment,"2020,18(3):141-150.

[2] HADDI"K, TURCHEN"L,"JUMBO L, et al."Rethinking biorational insecticides for the pest management: Unintended effects and consequences[J]. Pest"Management Science."2020,76(7):2286–2293.

[3] FILHO F, HELDENS W, KONG Z,"et al."Drones: Innovative technology for use in precision pest management[J]. Journal of Economic Entomology,"2020,113(1):1-25.

[4] THENMOZHI K, REDDY U. Crop pest classification based on deep convolutional neural network and transfer learning[J]. Computers and Electronics in Agriculture,"2019,"164:104906.

[5] 周國民. 迎接農(nóng)業(yè)農(nóng)村領(lǐng)域數(shù)字經(jīng)濟(jì)的提速發(fā)展[J]. 農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào), 2023, 5(1): 1-1.

[6] DAWEI W, LIMIAO D, JIANGONG N, et al. Recognition pest by image‐based transfer learning[J]. Journal of the Science of Food and Agriculture, 2019, 99(10): 4524-4531.

[7] JIN X, TAO Z, KONG J. Multi-stream aggregation network for fine-grained crop pests and diseases image recognition[J]. International Journal of Cybernetics and Cyber-Physical Systems, 2020, 1(1):52-67.

[8] 周國民. 我國農(nóng)業(yè)大數(shù)據(jù)應(yīng)用進(jìn)展綜述[J]. 農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào), 2019, 1(1): 16-23.

[9] 張凌栩,韓銳,李文明,等. 大數(shù)據(jù)深度學(xué)習(xí)系統(tǒng)研究進(jìn)展與典型農(nóng)業(yè)應(yīng)用[J]. 農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào), 2019, 1(2): 88-104.

[10] YANG G, CHEN G, LI C,"et al."Convolutional rebalancing network for the classification of large imbalanced rice pest and disease datasets in the field[J]. Frontiers in Plant Science,"2021,12:671134.

[11] LIU J, WANG X, MIAO W,"et al."Tomato pest recognition algorithm based on improved yolov4[J]. Frontiers in Plant Science,"2022,"13: 814681.

[12] LIU B, DING Z, TIAN L,"et al."Grape leaf disease identification using improved deep convolutional neural networks[J]. Frontiers in Plant Science,"2020,"11:"1082.

[13] GU Y, YIN H, JIN D,"et al."Image-based hot pepper disease and pest diagnosis using transfer learning and finetuning[J]. Frontiers in Plant Science. 2021,"12:"724487.

[14] DAI G, FAN J, DEWI C."ITF-WPI: Image and text based cross-modal feature fusion model for wolfberry pest recognition[J]."Computers and Electronics in Agriculture."2023,"212:108129.

[15] YANG G, HE Y, YANG Y,"et al."Fine-grained image classification for crop disease based on attention mechanism[J]. Frontiers in Plant Science,"2020,"11:"600854.

[16] YANG J, ZHANG F, QIAN T. Attention-based hierarchical convolution neural network for fine-grained crop image classification[C]//2020 International Conferences on Internet of Things, 2020:"106-112.

[17] ZHANG X, GAO H, WAN L."Classification of fine-grained crop disease by dilated convolution and improved channel attention module[J]. Agriculture,"2020,12(10):1727.

[18] ZENG Q, NIU L, WANG S,"et al."SEViT: a large-scale and fine-grained plant disease classification model based on transformer and attention convolution[J]. Multimedia Systems,"2022, 29(3): 1001-1010.

[19] DOSOVITSKIY A, BEYER L, KOLESNIKOV A,"et al."An image is worth 16x16 words: Transformers for image recognition at scale[OL]."arXiv:2010.11929. DOI:10.48550/arXiv.2010.11929.

[20] WAH C, BRANSON S, WELINDER P,"et al."The caltech-ucsd birds-200-2011 dataset[J]. 2011.

[21] WU X, ZHAN C, LAI Y,"et al."Ip102: A large-scale benchmark dataset for insect pest recognition[C]//"2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition."2019:"8779-8788.

[22] 陳磊,劉立波,王曉麗.2020年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集[J].中國科學(xué)數(shù)據(jù),2022,7(3):149-156.

[23] VASWANI"A, SHAZEER N, PARMAR N,"et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017.

[24] 孫露露,劉建平,王健,等.細(xì)粒度圖像分類上Vision Transformer的發(fā)展綜述[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(10):30-46.

[25] BERA A, WHARTON Z, LIU Y,"et al."SR-GNN:"Spatial relation-aware graph neural network for fine-grained image categorization[C]//"IEEE Transactions on Image Processing, 2022.31: 6017-6031. DOI: 10.1109/TIP.2022.3205215.

[26] LIU H, ZHANG C, XIE B,"et al."Affinity relation-aware fine-grained bird image recognition for robot vision tracking via transformers[C]//"2022 IEEE International Conference on Robotics and Biomimetics (ROBIO), Jinghong, China, 2022: 662-667. DOI: 10.1109/ROBIO 55434.2022.10011861.

[27] ZHANG Z"C, CHEN Z"D, WANG Y,"et al."ViT-FOD: A vision transformer based fine-grained object discriminator[OL].arXiv: 2203. 12816.

[28] XU Q, WANG J, JIANG B, et al."Fine-grained visual classification via internal ensemble learning transformer[J]."IEEE Transactions on Multimedia, 2023,25:9015-9028. DOI: 10.1109/TMM.2023.3244340.

[29] LIU H, ZHANG C, DENG Y,"et al."TransIFC: Invariant cues-aware feature concentration learning for efficient fine-grained bird image classification[OL]. IEEE Transactions on Multimedia. DOI: 10.1109/ TMM.2023.3238548.

[30] 李佳盈,蔣文婷,楊林,等."基于ViT的細(xì)粒度圖像分類[J]."計(jì)算機(jī)工程與設(shè)計(jì),"2023, 44(3):916-921.

[31] WANG Q, WANG J, DENG H,"et al."AA-trans: Core attention aggregating transformer with information entropy selector for fine-grained visual classification[J]. Pattern Recognition, 2023,140: 109547."https://doi.org/10.1016/j.patcog.2023.109547.

[32] SUN H, HE X, PENG Y."SIM-Trans: Structure information modeling transformer for fine-grained visual categorization[C]"http://Proceedings of the 30th ACM International Conference on Multimedia. 2022:"5853-5861.

[33] HE J, CHEN J, LIU S,"et al."TransFG: A transformer architecture for fine-grained recognition[C]//Proceedings of the AAAI conference on artificial intelligence. 2022, 36(1): 852-860.

[34] WANG J, YU X, GAO Y."Feature fusion vision transformer for fine-grained visual categorization[J]. arXiv preprint arXiv:2107.02341, 2021.

[35] HU"X, ZHU"S, PENG"T. Hierarchical attention vision transformer for fine-grained visual classification[J]."Journal of Visual Communication and Image Representation,"2023. 91:"103755."https://doi.org/10.1016/ j.jvcir.2023.103755.

[36] DIAO Q, JIANG Y, WEN B, et al. Metaformer: A unified meta framework for fine-grained recognition[OL]. arXiv:2203.02751.

[37] TOUVRON"H, CORD"M, DOUZE"M,"et al."Training data-efficient image transformers distillation through attention[OL].arXiv:2012.12877.

引用格式:孫露露,劉建平,周國民,王健,劉立波. 基于空間特征融合ViT的枸杞蟲害細(xì)粒度分類方法[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2024,6(4):"522-531. DOI: 10.19788/j.issn.2096-6369.000066.

CITATION:"SUN LuLu, LIU JianPing, ZHOU GuoMin, WANG Jian, LIU LiBo. Spatial Feature Fusion-Based ViT Method for Fine- Grained Classification of Wolfberry Pests[J]. Journal of Agricultural Big Data, 2024,6(4): 522-531. DOI: 10.19788/j.issn.2096-6369.000066.

Spatial Feature Fusion-Based ViT Method for Fine-Grained"Classification of Wolfberry Pests

SUN"LuLu1,"LIU JianPing1,2*,"ZHOU GuoMin3,4,"WANG Jian5, LIU LiBo6

1. College of Computer Science and Engineering, North Minzu University, Yinchuan 750021, China; 2. The Key Laboratory of Images and Graphics Intelligent Processing of State Ethnic Affairs Commission, Yinchuan 750021, China; 3. Nanjing Institute of Agricultural Mechanization, Ministry of Agriculture and Rural Affairs, Nanjing 210014, China; 4. National Agriculture Science Data Center, Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081, China; 5. Agricultural Information institute of CAAS, Beijing 100091, China; 6. School of Information Engineering Ningxia University, Yinchuan 750021, China

Abstract:"To address the fine-grained pest classification challenge faced in wolfberry cultivation, we propose an agricultural pest fine-grained classification model—Spatial Feature Fusion-based Data Augmented Visual Transformer (ESF-ViT). The model first utilizes the self-attention mechanism to crop images of the foreground targets to enhance image input and supplement more detailed representations. Secondly, it combines the self-attention mechanism with a Graph Convolutional Network (GCN) to extract spatial information from the pest regions, learning the spatial posture features of the pests."To validate the effectiveness of the proposed model, we conducted experimental research on the CUB-200-2011, IP102, and Ningxia wolfberry pest dataset WPIT9K. The experimental results show that the proposed method outperforms the baseline ViT model by 1.83%, 2.09%, and 2.01% respectively, and surpasses the existing state-of-the-art pest classification models. The proposed model effectively solves the fine-grained pest image classification problem in the field of agricultural pest recognition, providing a visual model for efficient pest monitoring and early warning.

Keywords:"wolfberry"berry; vision transformer; fine-grained image classification;"spatial feature fusion; data augmentation

主站蜘蛛池模板: 国产精品欧美激情| 亚洲AV无码乱码在线观看代蜜桃| 亚洲VA中文字幕| 国产成人午夜福利免费无码r| 国产午夜人做人免费视频| 一级毛片免费播放视频| 亚洲欧洲免费视频| 毛片三级在线观看| 日韩高清一区 | 美女免费黄网站| 日本黄网在线观看| A级毛片高清免费视频就| 亚洲无码37.| A级全黄试看30分钟小视频| 无码免费视频| 国产美女91视频| 精品少妇人妻av无码久久 | 狠狠亚洲婷婷综合色香| 免费国产高清精品一区在线| 久操线在视频在线观看| 97视频免费看| 婷婷午夜天| 亚洲黄色视频在线观看一区| 久久综合九色综合97婷婷| 国产精品成人一区二区不卡| 亚洲天堂2014| 国产精品久久久免费视频| 亚洲精品成人7777在线观看| 亚洲人视频在线观看| 国产99视频精品免费视频7| 国产一区亚洲一区| 9久久伊人精品综合| 污网站在线观看视频| 国产XXXX做受性欧美88| 天堂在线www网亚洲| 国产97视频在线观看| 亚洲欧洲日韩久久狠狠爱| 日本精品中文字幕在线不卡| 视频一本大道香蕉久在线播放| 91福利免费| 99久久精品国产麻豆婷婷| 亚洲色图在线观看| 一区二区自拍| 免费不卡在线观看av| 国产精品美人久久久久久AV| 国产精品免费福利久久播放| 欧美国产日产一区二区| 亚洲va视频| 97青草最新免费精品视频| 试看120秒男女啪啪免费| 免费视频在线2021入口| 99er精品视频| 2020国产免费久久精品99| 国产成人三级在线观看视频| 91精品啪在线观看国产| 91福利免费视频| 日韩av在线直播| 日韩精品中文字幕一区三区| 人妻精品久久无码区| 欧美福利在线| 老司机久久精品视频| 中文字幕无码电影| 亚洲精品无码av中文字幕| 一区二区日韩国产精久久| 在线视频一区二区三区不卡| 九九免费观看全部免费视频| 伊人AV天堂| 久久综合一个色综合网| h视频在线观看网站| 国产鲁鲁视频在线观看| 国产黑丝视频在线观看| 国产精品私拍99pans大尺度| 九月婷婷亚洲综合在线| 欧洲欧美人成免费全部视频| 91在线国内在线播放老师| 久久久久久久97| 91午夜福利在线观看| 免费国产一级 片内射老| 91麻豆久久久| 婷婷激情五月网| 91久久天天躁狠狠躁夜夜| 亚洲首页国产精品丝袜|