


















摘要:隨著多模態基礎模型(大模型)的發展,如何高效地將其遷移到特定領域或任務中成為目前的熱點、難點問題。該研究以多模態大模型CLIP為基礎模型,使用參數高效微調方法Prompt、Adapter將CLIP遷移到枸杞蟲害識別任務中,提出了用于枸杞蟲害識別的跨模態參數高效微調模型D-PAG。D-PAG模型首先在CLIP編碼器的輸入層或隱層中嵌入了可學習的Prompt與Adapter,用于訓練,學習蟲害特征;然后利用門控單元將Prompt、Adapter集成到CLIP編碼器網絡中,平衡兩者對特征提取的影響大小,在Adapter中設計了GCS-Adapter注意力用以加強跨模態語義信息融合。為了驗證方法的有效性,在枸杞蟲害數據集和細粒度數據集IP102上進行了實驗。驗證實驗結果表明,在枸杞數據集上僅用20%樣本數量訓練便可達到98.8%的準確率,使用40%樣本數量訓練準確率達到了99.5%;在IP102上驗證,準確率達到75.6%,與ViT持平。該方案可在少樣本條件下,通過引入極少額外參數,將多模態大模型基礎知識高效遷移到特定蟲害識別領域,為高效使用大模型解決農業圖像處理問題提供了新的技術方案。
關鍵詞:枸杞;蟲害識別;參數高效微調;大模型;CLIP
1""引言
枸杞及其他一些農作物易受多種蟲害侵襲且抗蟲性較差,病蟲害會嚴重影響它們的產量和質量,從而造成經濟損失。因此,精確快速地識別農業蟲害,并及時采取適當的防治措施,以減少農藥使用,對于控制病蟲害的進一步擴散和提升農作物的產量與質量至關重要。
人工病蟲害識別通常依賴農業專家和技術人員的觀察和鑒定,受限于時間、人力和設備成本等因素,推廣難度較大[1]。近年來,以農業大數據為核心、人工智能技術為引擎的深度學習農業應用發展迅速[2-3],深度病蟲害識別方法在農業應用中已取得一些成功案例[4-5],尤其是基于遷移學習的方法。傳統的深度學習方法多針對單一場景作物或單模態信息進行訓練,例如BAO 等[6]將棉花受蚜蟲侵害的嚴重程度分為四個等級,并建立了棉花蚜蟲數據集,將坐標注意(CA)機制嵌入到特征提取結構中,提出了CA_DenseNet_BC_40輕量級網絡模型,對自然田間條件下棉蚜危害程度進行分類,準確率達97.3%。Sheng Y等[7]在卷積架構中引入了Transformer結構,設計了用于各種植物病害識別的Inception卷積視覺Transformer (ICVT)。SUDHESH K等人[8]研究了基于動態模式分解(DMD)的注意力驅動預處理機制來定位感染區域,他們使用遷移學習和機器學習模型對原始圖像和DMD預處理圖像的深度特征進行學習。DEVI M C等[9]提出使用人工特征提取結合序列處理神經網絡進行棉鈴蟲和稻蟲檢測,首先采用模糊c均值分割對圖像進行分割,然后采用灰度共生矩陣(GLCM)、Sobel算子和多通道特征提取混合集合進行手動特征提取,最后送入長短期記憶(LSTM)網絡和循環神經網絡(RNN)處理特征并實現分類。梁煒健等[10]提出了一種基于空間注意力增強ResNeSt- 101網絡和遷移元學習算法的小樣本害蟲分類器,在未知與已知的害蟲圖像有著優秀的性能。如表1所示,為該研究依據遷移方法調查的農作物病蟲害研究進展,這些方法雖然表現優秀,但泛化能力不足,遷移能力有限,且模型設計和訓練成本高。隨著大模型技術的發展,涌現出一批優秀的大型預訓練模型(Large pre-trained model,LPTM),例如,多模態大模型CLIP[11]在4億圖文對上進行對比自監督預訓練,具有強大的特征提取能力。通過微調將通用知識遷移至特定領域,成為一種有效解決方案。因此,該研究將大模型CLIP的遷移學習能力應用于農業,進行病蟲害的跨模態識別,具有更大的前景,更能滿足農業發展的實際需求。
然而全量微調大模型不僅對GPU資源要求高,而且需要較大規模的數據避免過擬合,這大大限制了大模型在農業蟲害領域的使用。為此該研究引入了參數高效微調(Parameter-Efficient Fine-Tuning , PEFT)方法,僅需少量算力和參數就能達到全微調的性能,并且無需大規模的數據集。然而,不同的PEFT方法以及不同模態端的設置作用大小不同,盲目的組合可能會造成性能下降,因此有必要進行實驗研究。通過解決上述問題,得到如下進展:
1)提出了基于參數高效微調方法的跨模態枸杞
蟲害識別模型——D-PAG模型,并且在枸杞蟲害、IP102數據集上進行廣泛評估。如圖1所示,D-PAG僅使用大約總數據集的20%便超過原SOTA結果,準確率提高0.86%,F1分數提高5.53%。
不同部分對特征表示產生的貢獻。
4)設計GCS-Adapter模塊加強圖文信息融合。該模塊利用自注意力和跨注意力將text adapter和image adapter連接起來,并嵌入門控單元自動控制注意力的殘差連接比例。
2""原理與方法
2.1 "圖像識別研究范式
目前,遷移學習是圖像識別的主流方法。LPTM作為遷移學習的基礎發展迅速,圖像識別研究范式從有監督到無監督、自監督預訓練不斷演變,微調方式也從全量微調發展為少樣本學習。本研究介紹兩種先進的研究范式:無監督/自監督預訓練—全量微調/少樣本學習—預測和預訓練模型—PEFT—預測。后者是本研究采用的范式。
2.1.1 "無監督/自監督預訓練—全量微調/few-shot學習—預測
如圖1-a所示,這一研究范式擺脫了數據標簽的限制,使用無監督或自監督預訓練。無監督學習的核心是聚類,目的是學習無標簽數據之間的相似性。經典的無監督預訓練模型有生成對抗網絡(GAN)[16]、Auto-Encoder[17]、VAE[18]等。由于缺少監督信號,無監督預訓練學習知識不夠豐富。一種特殊的無監督學習方式——自監督學習彌補這一缺點,它利用Pretext tasks從原始的圖片或文本中挖掘潛在的監督信息,從而學習更豐富的知識。目前主流的自監督方式有對比式[8]、生成式(MAE[19]、BERT[20])和預測式。本研究選擇的是在4億圖文對上進行對比預訓練的CLIP模型。由于預訓練模型能力提高,微調數據數量與質量要求也降低,開展了少樣本學習(few-shot)。
2.1.2 "預訓練模型—PEFT—預測
如圖1-b所示,該范式通過PEFT將LPTM豐富的通用知識遷移到特定領域中。該方法僅更新PEFT模塊就能夠達到與全微調相當的性能,節省了大量時間和算力。PEFT方法主要分為基于增量式的[21-23]、基于選擇的[24]、以及基于重參數化的[25]等等。本研究選用基于增量式的方法Prompt與Adapter。
2.2 "PEFT方法
PEFT方法通過增加或微調少量參數來激發大模型的通用表示能力,以適應特定下游任務數據集。本研究選擇了Prompt和Adapter,兩者在微調時均凍結預訓練模型的權重,僅更新額外引入的參數。不同之處在于:Prompt作用于輸入層或隱層,Adapter作用于網絡結構內部,與原模型串行。
2.2.1""Prompt
起初Prompt僅是帶有未填充槽的離散文本,但
其表現并不穩定[24],語法措辭細微變化就會影響遷移學習效果,因此出現了可學習的連續向量形式的Soft Prompt(Prompt-tuning)[26]。后來發現,文本信息的Prompt只能影響視覺端的分類器,而不會影響圖像編碼器的視覺特征,因此JIA等[27]提出將Soft Prompt用于視覺主干的Visual Prompt。如圖2-左所示,Prompt本質上是幫助預訓練模型在不同下游任務中獲得有效的分類器。Soft"Prompt抽象為一般式子t,t經過文本編碼器之后,與圖片特征計算相似
權重,公式如(1)(2)所示:
t=[V]1[V]2[V]3…..[V]M[CLASS] """"""""""""(1)
(2)
其中M表示prompt長度,[CLASS]表示要預測的單個token類別標簽或長文本。ti表示第i個類的Prompt,g(·)為文本編碼器,x是圖像特征。
2.2.2 "Adapter
Adapter[22]是一個在Transformer層中添加的 網絡結構。如圖2-右所示,Adapter由Feedforward down-project、Nonlinearity、Feedforward up-project、skip-connection構成。通過殘差連接的方式使Adapter與原網絡近乎相同的初始化,從而保證穩定訓練。Adapter定義了一個新函數φw,v(x),其中w是預訓練權重且凍結,在訓練期間僅ν被調整。Adapter能自適應調整特征,并促進模態交互或融合,對復雜跨模態任務有很大幫助。
2.3 "CLIP
本方法在大型多模態預訓練模型CLIP上構建,利用其強大的Zero-shot圖像識別能力,通過對比學習計算文本和圖像向量的相似度來預測對應關系。在微調中,也采用這種方法。CLIP作為雙塔框架,它由基于Transformer的圖像編碼器(V)和文本編碼器(T)組成。
2.3.1 "圖像編碼
圖像編碼器是基于patch嵌入的由K個(12個)Transformer層組成。它將圖像I∈RH×W×3分割為M個固定大小的patch,然后將他們投影到patch"embedding層E∈RM×dv中。這些圖像嵌入Ei與一個可學習的類別token cti(i∈{1,…K})一同送入到Transformer層中,公式如(3)所示:
[cti+1,"Ei+1]=Vi+1([cti,"Ei]) "i∈(1,"k) """"""""(3)
最后一層Transformer輸出的類別token"ctk通過圖像投
影層Vproj后,映射到公共的視覺語言嵌入空間,得
到最終的圖像特征表示如公式(4)所示:
x=Vproj(ctk) x∈Rdvl """"""""""""""""""""""""(4)。
2.3.2 "文本編碼
首先單詞進行標記并將其投影到單詞嵌入Wi= "[w1 i,"w2 i,…,"wM"i]∈RN×dl。在K層Transformer中,每一階段Wi輸入到第(i+1)個Transformer層Ti+1中,如公式(5)所示:
[Wi+1]=Ti+1([Wi]) ""i∈(1,"k) (5)
與編碼圖像類似,最后一個Transformer層WK輸出的最后一個token對應的文本嵌入wM"K經過文本投影層Tproj投影到公共的視覺語言嵌入空間,從而得到最終的文本特征表示如公式(6)所示:
y=Tproj(wM"K) "y∈Rdvl"""""""""""""""""(6)。
2.4 "D-PAG
單一模態的信息無法完全激發CLIP模型的跨模
態特征學習能力,因此采用了多模態設置的PEFT方法。為了增強模型的圖像表征,本研究設置了深層Image-Prompt。先前的工作[28]發現Adapter能夠增強和融合特征,因此本研究在Image adapter和Text adapter之間加入了自注意力和跨模態注意力,以增強跨模態融合。
在實驗中發現Image"prompt在一般農業病蟲害識
別任務中表現突出,但在細粒度病蟲害識別中異常落后,這表明在不同任務中盲目組合PEFT方法、設置模態端可能會對性能產生負面影響,對于這種不可控性,花費大量時間手動調整影響比例是不合理的,因此本研究引入了門控單元,在訓練中自動控制每種PEFT方法以及不同模態端的內在影響。圖3所示為提出的模型D-PAG。
2.4.1 "文本Prompt與深層圖像Prompt
本研究第一次將text"prompt與deep"visual"prompt結合,兩者結合有著優異的表現,前者起到調節跨模態特征學習的作用,后者用于提取更深層次的圖像特征。為了學習語言上下文提示,本研究在CLIP語言分支引入了Class-Specific Context提示[26],CSC將每個類別的上下文向量獨立([V][V]….."[V]≠[V][V]….."[V]i,j∈{1,……,k}),CSC對細粒度任務有一定的作用,CSC提示向量pcsc表達式如(7)所示:
pcsc=[V]1,…..[V]M[CLASS] """"""""""""""""(7)
將CSC提示向量pcsc傳入文本編碼器T,可以獲得表
示視覺概念的分類權重向量,它仍然來自ctk的token位置。
本研究在視覺端Transformer層的輸入空間引入提示符,對于具有k層Transformer的圖像編碼器V,deep visual prompt集合表示為pdeep visual={pdeepvisual k∈Rdv|k∈N, 1≤k≤m},k個prompt被插入到每一層Transformer中,如此深層提示的ViT前向傳播公式為(8):
[cti+1,"Ei,__]=Ti+1(cti,"Ei-1,"pdeepvisual i)"i∈(1,k) "" """(8)。
2.4.2""門控機制融合PEFT
為了自動調節PEFT方法對圖文模態信息提取的影響大小,在每個子模塊mvisual"i∈{Pvisual, Avisual}, mtext"j∈{Ptexet, Atexet}中添加了可訓練的門控單元gm={mvisual"i, mtext"j},如圖4所示。P,"A分別代表Prompt和Adapter。從作用上來說,如果mvisual"i和mtext"j對于給定的任務和數據集作用較大,則gm則會控制子模塊更大比例輸出,發揮更大的作用。
具體來說,對于text"prompt"Ptexy,它與位置嵌入pe結合,作為文本編碼器的輸入[Wi]=Ptexy+pe然后一同送入文本編碼器提取特征,因此在prompt與位置嵌入前插入門控函數gPtext∈(0,1),它通過處理Ptexy來估計其本身的重要性,然后其輸入縮放為[Wi]=gPtexyPtexy+ pe。類似的,對于deep"visual prompt,本方法設計了門控函數gPvisual∈(0,1),將其作用于最后一層輸出。
對于Adapter,門控函數g1"A,"g2"A={gAvisual,"gAtext}作用于兩個地方:1)Adapter模塊的輸入是單一模態特征的自注意力輸出和跨模態注意力輸出與原始特征的殘差連接(歸一化后):h′ f=Norm(g1"Ahself+(1-g1"A)hcross),門控函數控制自注意力和跨注意力的重要性,最終的輸入為:h′ f=Norm(hself+hcross)。2)前饋神經網絡與Adapter模塊之間存在一個殘差連接過程,該過程將Adapter的歸一化前的輸入h′ f和輸出ha相加作為最終輸出:h′ a=ha+hf,門控函數將其縮放為:h′ a=g2"aha+hf"。
2.4.3 "門控跨模態注意力Adapter(GCS-Adapter)
如圖4,受CoPrompt[29]的啟發,本研究在圖像和文本編碼器中分別添加了image"adapter和text"adapter。不同的是,為了加強圖文模態信息交互,我們額外引入了自注意和跨模態注意結合的方法,這既能夠保留自身特征,又能夠融合跨模態信息,進一步引入門控單元控制自注意特征和跨模態交叉注意特征的殘差連接比例,引入了門控單元,詳細過程見2.4.2。
3 "農作物蟲害數據集
3.1 "2020年寧夏枸杞蟲害圖文跨模態檢索數據集
陳磊等人[30]提出了2020年寧夏枸杞蟲害圖文跨模態檢索數據集(簡稱“寧夏枸杞蟲害數據集”),研究了寧夏地區17種常見枸杞蟲害。圖像數據子集通過實地調研拍照、網絡爬蟲和書籍掃描三種方法采集。為解決樣本過少導致的過擬合問題,數據集采用數據增廣技術擴充原始數據,包括垂直翻轉、隨機調整亮度、隨機裁剪和隨機旋轉,最終得到9496張圖像。該數據集不僅包含蟲害圖像,還有對應的文本描述,填補了農業蟲害多模態數據的空缺,促進寧夏枸杞蟲害跨模態信息學習、識別和檢索。如圖5所示為該數據集的詳細樣例。
3.2""IP102細粒度蟲害識別數據集
IP102[31]是現存類別最多,樣本數量最大的農作物細粒度蟲害識別公共數據集,共有102類,超過75000張圖片,并且有19000張圖像標注了邊界框。該數據集包含8種農作物(水稻、玉米、小麥等)的蟲害。這些蟲害具有類間差異小(特征相似)類內差異大(病蟲害生命周期有不同階段,有幼蟲、蛹等不同形態)的特征,有利于研究不同農作物的蟲害災變機制。
4 "實驗結果
本研究使用實驗設置如下:Python3.8.18、Pytorch1.13.1+cu116、TorchVision版本0.14.1 + cu116。操作系統為Linux Ubuntu 18.04.4、顯卡NVIDIA A30 24GB顯存。
4.1 "對比實驗
4.1.1 "PEFT方法少樣本 VS 非PEFT方法全數據訓練
D-PAG與多個PEFT方法和非PEFT方法在枸杞蟲害數據集上進行比較,包括:CoOp[26]、CLIP-Adapter[32]、LoRA[25]、MaPLe[33]、ITF-WPI[15]以及零樣本學習CLIP(zero-shot)。實驗進行了64、96、128"shots三種few-shot學習,分別約占總數據集的10%、15%、20%。實驗目的是在少量樣本下超過非PEFT方法。如表2顯示,在零樣本下CLIP準確率僅3.3%,并不具備害蟲識別能力;而D-PAG僅使用約20%的樣本數量就能夠達到SOTA水平,D-PAG在40%樣本數量下的準確率和F1分數達到99.5%,如圖6所示。推測PEFT方法能夠快速激發大模型CLIP的學習能力。并且D-PAG全線優于其他PEFT方法。
4.1.2 "細粒度識別
本研究還對比了D-PAG與ResNet-50[34]、ViT[35]、零樣本學習CLIP以及多個PEFT方法在IP102上的表現。對PEFT方法,進行了128 shots(樣本數量約占40%)、256 shots(約占57%)、384 shots(約占66%)以及全樣本學習。如表3所示,在零樣本下,CLIP同樣不具備細粒度識別蟲害能力,準確率僅12.0%;而在40%數據樣本下準確率大幅提升,在全樣本下達到與ViT相當的水平。
4.1.3 "t-SNE可視化結果
如圖7所示,研究將D-PAG與零樣本學習的CLIP與基于PEFT的工作、CoOp、CLIP-Adapter、LoRA、MaPLe利用t-SNE技術進行了可視化比較。特別說明,由于CoOp與CLIP的視覺分支不參與訓練,因此兩者的圖像特征相同。結果表明,D-PAG的圖像特征具有更強的可分離性。
4.2 "消融實驗
為了探究D-PAG的有效性和廣泛性,我們在寧夏枸杞蟲害和IP102數據集上進行了消融實驗。
跨模態注意力:如表4所示,加入跨模態注意力的Adapter(Prompt + CS-Adapter)優于Prompt與Adapter的簡單組合,在WPIT9K取得了較為明顯的提升,這表明在對特征進一步的自注意和跨模態注意有助于學習更細致的圖像特征。
門控機制:實驗結果表明,CS-Adapter在IP102上并沒有起到作用,推斷是自注意力和跨注意力的殘差連接比例不合適造成的注意力失衡。為了驗證,我們在每個PEFT方法和CS-Adapter中引入了門控機制(GCS-Adapter)。如表4所示,引入門控機制的方法(即D-PAG)在WPIT9K和IP102上都有明顯提升,證明門控機制能夠有效協調不同PEFT方法之間的內部影響以及注意力失衡問題。
5""參數量與推理時間討論
全量微調需要海量的數據和算力資源,如表5所示,D-PAG僅使用20%的樣本數量,就達到SOTA,證明本方法有效遷移了CLIP的通用知識,并且僅僅額外引入6.42 M的參數量(占CLIP總參數 4.29%)。
表5展示了不同模塊設置下的參數量對比,加入CS-Adapter后,參數量明顯上升,準確率大大提高。門控單元以不足0.01 M的參數量,明顯提升了識別準確率。Adapter是一個即插即用的網絡結構,具有極強的靈活性和可嵌入性,能夠嵌入多種自設計方法(如GCS-Adapter),擴展模型,進而提高模型的上限。
表5同樣顯示,在加入PEFT方法后增加了一定推理時間,尤其是CS-Adapter增加的時間相對較長。相比基礎模型CLIP,D-PAG推理時間增加約21.8%,相對其帶來的性能提升而言,是可接受的。
6 "結論與展望
本研究主要面向枸杞蟲害識別任務,提出了基于PEFT方法的跨模態模型D-PAG,將LPTM的通用表示能力引入到農作物蟲害識別領域。D-APG將Prompt和Adapter集成到統一的框架中,在農作物蟲害數據識別上呈現出優異的少樣本學習能力。為增強圖文模態信息融合,設計了GCS-Adapter模塊,在image"adapter與text"adapter之間加入自注意力和跨模態注意力,并利用門控單元控制注意力比與殘差連接比,平衡Prompt與Adapter在不同模態端的影響。
對寧夏枸杞蟲害數據集和細粒度蟲害數據集IP102進行驗證對比實驗。在枸杞蟲害數據集上D-PAG僅使用20%的樣本數量訓練便超過SOTA(ITF-WPI),達到98.8%的準確率和98.5的F1分數。在IP102上準確率達到75.6%。GCS-Adapter也分別為寧夏枸杞蟲害數據集、IP102上帶來1.8%和1.1%的
收益。
不同于先前的農作物蟲害識別研究方法,本研究利用PEFT方法遷移LPTM,將快速發展的大模型引入農業領域,極具發展前景和實際應用價值。D-PAG模型能夠大大加快收斂速度,減少算力資源的投入(微調訓練僅需4-8"G的GPU內存)。D-PAG既適用于只有蟲害圖片的場景,也適用于蟲害圖像和文本都易獲得的場景。
然而,D-PAG仍具有一定的局限性,對少樣本的細粒度學習能力有所欠缺,利用PEFT方法解決少樣本細粒度識別仍是一個開放的問題;Adapter層的輕量化也是一個問題:如表5所示,Adapter約增加6 M參數量,明顯占據了大部分額外參數,同時Adapter與網絡模型是串行關系,會延長一定的推理時間,因此,避免過度參數化和縮短推理時間是將是后續工作中需要重點優化的內容;另外,現有研究對文本端的優化較少,也考慮嘗試利用大語言模型進行文本增強,以便提高農業蟲害細粒度識別能力,這同樣是我們后續工作持續開展的研究內容。
參考文獻
[1] DAI G,"FAN J,"TIAN Z, et al."PPLC-Net:"Neural network-based plant disease identification model supported by weather data augmentation and multi-level attention mechanism[J].Journal of King Saud University - Computer and Information Sciences,"2023,35(5):101555.https://doi.org/10.1016/j.jksuci.2023.101555.
[2] 周國民.我國農業大數據應用進展綜述[J].農業大數據學報,2019, 1(1):16-23.DOI:10.19788/j.issn.2096-6369.190102.
[3] 張凌栩,韓銳,李文明,等.大數據深度學習系統研究進展與典型農業應用[J].農業大數據學報, 2019,1(2):88-104. DOI:10.19788/j.issn. 2096-6369.190208.
[4] HUANG M L, CHUANG T C, LIAO Y C. Application of transfer learning and image augmentation technology for tomato pest identification[J]. Sustainable Computing: Informatics and Systems,"2022, 33:100646. https://doi.org/10.1016/j.suscom.2021.100646.
[5] SAPNA N,"RAJNI J,"SUDEEP M, et al.Deep transfer learning model for disease identification in wheat crop[J]. Ecological Informatics,2023,75:102068. https://doi.org/10.1016/j.ecoinf.2023. 02068.
[6] BAO W, CHENG T, ZHOU X G, et al. An improved DenseNet model to classify the damage caused by cotton aphid[J]. Computers and Electronics in Agriculture, 2022, 203:107485.https://doi.org/10.1016/j. compag.2022.107485.
[7] SHENG Y, LI X, QILEI H. Inception convolutional vision transformers for plant disease identification[J]. Internet of Things, "2023,21:100650. https://doi.org/10.1016/j.iot.2022.100650.
[8] SUDHESH K M, SOWMYA V, SAINAMOLE KURIAN P, et al. AI based rice leaf disease identification enhanced by Dynamic Mode Decomposition[J]. Engineering Applications of Artificial Intelligence, 2023,120:105836. https://doi.org/10.1016/j.engappai. 2023.105836.
[9] CHODEY M D, SHARIFF N C. Pest detection via hybrid classification model with fuzzy C-means segmentation and proposed texture feature[J]. Biomedical Signal Processing and Control, 2023,84:104710.
[10] 梁煒健,郭慶文,王春桃,等.基于空間注意力增強ResNeSt-101網絡和遷移元學習的小樣本害蟲分類(英文)[J].農業工程學報, 2024, 40(6):285-297.
[11] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning, PMLR. 2021:8748-8763. arXiv.2103.00020.
[12] COULIBALY S, KAMSU-FOGUEM B, KAMISSOKO D, et al. Explainable deep convolutional neural networks for insect pest recognition[J]. Journal of Cleaner Production,2022,371:133638. https://doi. org/10.1016/j.jclepro.2022.133638.
[13] NIGAM S, JAIN R, MARWAHA S, et al. Deep transfer learning model for disease identification in wheat crop. Ecological Informatics, 2023, 75, 102068. https://doi.org/10.1016/j.ecoinf. 2023.102068.
[14] ZHOU C, ZHONG Y, ZHOU S, et al. Rice leaf disease identification by residual-distilled transformer[J]. Engineering Applications of Artificial Intelligence,2023,121:106020. https://doi.org/10.1016/j. engappai.2023.106020.
[15] DAI G, FAN J, DEWI C. ITF-WPI: Image and text based cross-modal feature fusion model for wolfberry pest recognition[J]. Computers and Electronics in Agriculture,2023,212:108129. https://doi.org/10.1016/ j.compag.2023.108129.
[16] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[OL]. arXiv.1312.6199.
[17] TRIPATHY S, TABASUM M. Autoencoder: An unsupervised deep learning approach[M]//Dutta P, Chakrabarti S, Bhattacharya A, et al(Eds.). Emerging Technologies in Data Mining and Information Security. Springer, 2023:261-267.
[18] KINGMA D P, WELLING M. Auto-encoding variational bayes[OL]. "arXiv:1312.6114.
[19] HE K, CHEN X, XIE S, et al. 2021. Masked autoencoders are scalable vision learners[OL]. 2021. arXiv:2111.06377.
[20] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pretraining of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019:4171-4186. DOI:10.18653/v1/N19-1423.
[21] ZHONG Z, FRIEDMAN D, CHEN D. Factual probing is [MASK]: Learning vs. learning to recall[C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2021: 5017-5033. DOI:10.18653/v1/2021.naacl-main.398.
[22] HOULSBY N, GIURGIU A, JASTRZEBSKI S, et al."Parameter efficient transfer learning for NLP[C]//International Conference on Machine Learning, PMLR. 2019: 2790-2799. https://proceedings. mlr.press/v97/houlsby19a.html.
[23] LIU H, TAM D, MUQEETH M, et al. Few-shot parameter-efficient fine-tuning is better and cheaper than in-context learning[C]// Proceedings of the 36th International Conference on Neural Information Processing Systems, Curran Associates Inc., Red Hook, NY, USA. 2024. DOI:10.5555/3600270. 3600412.
[24] BEN ZAKEN E, GOLDBERG Y, RAVFOGEL S. BitFit: Simple parameter-efficient fine-tuning for transformer-based masked language-models[C]// MURESAN S, NAKOV P, VILLAVICENCIO A (Eds.). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Dublin, Ireland. 2022:1–9. DOI:10.18653/v1/2022.acl-short.1.
[25] HU E J, SHEN Y, WALLIS P, et al. Lora: Low-rank adaptation of large language models[OL]. 2021. arXiv.2106.09685.
[26] ZHOU K, YANG J, LOY C C, et al. Learning to prompt for vision-language models[J]. International Journal of Computer Vision, 2022,130:2337-2348. https://doi.org/10.1007/s11263-022- 01653-1.
[27] JIA M, TANG L, CHEN B C, et al. Visual prompt tuning[C]// Computer Vision - ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23 - 27, 2022, Proceedings, Part XXXIII,"Springer-Verlag: 709–727. DOI:10.1007/978-3-031-19827-4_41.
[28] XING J, LIU J, WANG J, et al. A survey of efficient fine-tuning methods for vision-language models - prompt and adapter[J]."Computers Graphics, 2024, 119: 103885. DOI: 10.1016/j.cag.2024. 01.012.
[29] ROY S, ETEMAD A. Consistency-guided prompt learning for vision-language models. 2024. arXiv:2306.01195.
[30] 陳磊,劉立波,王曉麗. 2020年寧夏枸杞蟲害圖文跨模態檢索數據集[J].中國科學數據(中英文網絡版),2022,7(3):149-156.
[31] WU X, ZHAN C, LAI Y K, et al. Ip102: A large-scale benchmark dataset for insect pest recognition[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), "2019: 8779 - 8788. DOI:10.1109/CVPR.2019.00899.
[32] GAO P, GENG S, ZHANG R, et al."Clip-adapter: Better vision- language models with feature adapters[J]. International Journal of Computer Vision,2021. DOI:10. 1007/s11263-023-01891-x.
[33] KHATTAK M U, RASHEED H, MAAZ M, et al. Maple: Multi-modal prompt learning[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023:19113 - 19122. DOI: 10.1109/CVPR52729.2023.01832.
[34] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), "2016: 770 - 778. DOI:10.1109/CVPR. 2016.90.
[35] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[OL]. arXiv:2010.11929.
引用格式:邢嘉璐,劉建平,周國民,劉立波,王健.基于參數高效微調的跨模態枸杞蟲害識別模型D-PAG研究[J].農業大數據學報,2024,6(4):"509-521.""DOI: 10.19788/j.issn.2096-6369.000067.
CITATION:"XING JiaLu, LIU JianPing, ZHOU GuoMin, LIU LiBo, WANG Jian. D-PAG: Cross-modal Wolfberry Pest Recognition Model Based on Parameter-Efficient Fine-Tuning[J]. Journal of Agricultural Big Data, 2024,6(4): 509-521. DOI: 10.19788/j.issn.2096-6369.000067.
D-PAG: Cross-modal Wolfberry Pest Recognition Model Based on Parameter-Efficient Fine-Tuning
XING JiaLu1, LIU JianPing1,2*, ZHOU GuoMin3,4, LIU LiBo5, WANG Jian6
1. College of Computer Science and Engineering, North Minzu University, Yinchuan 750021, China;"2. The Key Laboratory of Images and Graphics Intelligent Processing of State Ethnic Affairs Commission, Yinchuan 750021, China;"3. Nanjing Institute of Agricultural Mechanization, Ministry of Agriculture and Rural Affairs, Nanjing 210014, China;"4. National Agriculture Science Data Center, Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081, China;"5. School of Information Engineering Ningxia University, Yinchuan 750021, China;"6. Agricultural Information institute of CAAS, Beijing 100081, China
Abstract:"With the development of multimodal foundation models (large models), efficiently transferring them to specific domains or tasks has become a current hot topic. This study uses the multimodal large model CLIP as the base model and employs parameter-efficient fine-tuning methods, such as Prompt and Adapter, to adapt CLIP to the task of goji berry pest identification. It introduces a cross-modal parameter-efficient fine-tuning model for goji berry pest recognition, named D-PAG. Firstly, learnable Prompts and Adapters are embedded in the input or hidden layers of the CLIP encoder to capture pest features. Then, gated units are utilized to integrate the Prompt and Adapter, further balancing the learning capacity. A GCS-Adapter is designed within the Adapter to enhance the attention mechanism for cross-modal semantic information fusion. To validate the effectiveness of the method, experiments were conducted on the goji berry pest dataset and the fine-grained dataset IP102. The experimental results indicate that with only 20% of the sample size, an accuracy of 98.8% was achieved on the goji dataset, and an accuracy of 99.5% was reached with 40% of the samples. On IP102, an accuracy of 75.6% was attained, comparable to ViT. This approach allows for efficient transfer of the foundational knowledge of multimodal large models to the specific domain of pest recognition with minimal additional parameters, providing a new technical solution for efficiently addressing agricultural image processing problems.
Keywords: wolfberry; pest identification; parameter-efficient fine-tuning; large model; CLIP