999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向視覺-語言模型的遞進互提示學習

2025-08-03 00:00:00陶俊杰張衛鋒王玉霞繆翌徐領
計算機應用研究 2025年6期
關鍵詞:集上層間編碼器

doi: 10.19734/j. issn. 1001-3695.2024.10.0446

ProgCoPL: progressive co-prompting learning for vision-language models

Tao Junjie1,Zhang Weifeng1,2+,Wang Yuxia3,Miao Yi1 ,Xu Ling1 (1.Schoolofueceamp;o(lflellgee),ZgSUesit,g;2. Schoolfeeamp;niUitinZ;i Institute,Jiaxing Zhejiang 31400o,China)

Abstract:Thelarge-scalepre-trainedvision-language modelCLIPaligns imagesandtexts inasharedsemanticspace,demonstratingrobust generalizationcapabilitiesacrossdiversedownstream tasks.However,existing promptlearning methodsoftenindependently insert learnable prompt vectors intoeach layerofCLIP's visualand text encoders.This appoach results in limitedcross-modalinteraction,withindependentpromptsacrosslayersfailing toefectivelyguidetheencoders incapturing taskrelevant information.Toaddress these isses,thispaper proposedProgCoPL.This method introduced text-guided promptvectorsintothevisualencoderlayersandvision-guidedpromptvectorsintothetextencoderlayers,therebyenhancingcro-modal interactionandalignment.Furthermore,ProgCoPL incorporated informationtransmissionchannelsbetweenpromptvectors acrosslayers,enablinghierarchicalandprogressiveintegrationof taskspecificinformation.Experimentson11datasetsshow thatProgCoPLeficientlyadaptsCLIPtodownstreamtasks,significantlyimprovingitscros-datasetgeneralizationability. ProgCoPLoutperforms existing methods in multiplegeneralization tests,particularlyachieving notable advancements incrossdataset scenarios.

Key Words:multimodal;prompt learning;vision-language model; Transformer encoder

0 引言

大規模視覺-語言模型(visual languagemodel,V-L Model)已經成為當今計算機跨模態智能領域的核心技術之一。其中,以CLIP[1]為代表的模型通過圖像和文本的對比學習,使得模型能夠學習魯棒的跨模態特征表示,并在圖像識別等下游任務[2]中展現出較好的泛化能力。然而,直接應用預訓練的CLIP模型往往無法充分適應特定的下游任務場景。由于CLIP模型的參數規模較大,傳統的全參數微調方法需要大量的計算開銷和訓練樣本,難以高效地將CLIP模型適配到特定的下游任務。

近年來,參數高效微調方法(parameter efficient fine tuning,

PEFT),如提示學習(promptlearning),提出了一種在大規模預訓練模型中適配下游任務的新范式。提示學習只需在模型的輸入層或中間層添加少量可學習的提示向量,并訓練過程中凍結預訓練模型參數,使用少量下游任務訓練樣本即可完成預訓練模型的適配。這種全新的適配方法不僅保留了預訓練模型中蘊含的豐富知識,還可以將參數高效和數據高效的方式應用到多種類型的相關下游任務中。目前,針對CLIP的提示學習大致可分為三種類型;a)文本提示學習,如 CoOp[3] (如圖1(a)所示),通過在輸入文本中插入可學習的提示向量,將預訓練CLIP模型適配到下游任務,但其在零樣本分類任務上出現了較大性能損失;b)視覺提示學習,如 VPT[4] (如圖1(b)所示),則是通過在視覺編碼器中引入可學習的視覺提示,使得模型能夠更好地捕獲視覺特征,該方法僅針對視覺表征進行調優,在領域泛化任務上表現欠佳;c)視覺-文本聯合提示學習,如Co-CoOp[5] 、MaPLe[6] UPT[7] (如圖1(c)所示),該類方法可視為文本提示學習和視覺提示學習的整合,同時在文本分支和視覺分支插入可學習的提示向量,并且通過引入文本到視覺提示之間的簡單單通道組合信息,進一步增強了多模態提示的協同作用,但這種簡單的聯合提示無法實現多模態之間的強交互。

上述幾種方法在跨模態交互方面依然存在不足。首先,這些方法通常是獨立地對文本或視覺提示進行優化,即使是視覺-文本聯合提示學習也缺乏充分的跨模態信息交互,導致模型在整合視覺和文本信息時存在不一致或不充分的問題。其次,這些提示學習方法往往只在編碼器的若干層進行提示優化,而沒有在不同層次之間建立有效的連接和協同。這種層與層之間提示的獨立性,限制了提示信息在模型各層次中的作用,無法有效引導編碼器在獲取特征時的信息連貫性。通過前期研究表明[8],在編碼器層之間添加信息共享機制可增強編碼器的特征學習能力和泛化能力,同時通過文本和視覺聯合提示學習能更準確地學習到多模態之間的特征信息。受Ma-PLe[6] 的啟發,本文提出了一種新的視覺-文本聯合提示學習方法,即遞進互提示學習方法(progressiveco-prompting leaming,ProgCoPL),如圖1(d)所示。該方法首先分別在文本分支和視覺分支插入隨機初始化的提示向量,為了增強視覺-語言跨模態交互,ProgCoPL在文本分支和視覺分支之間插入聯合提示生成(jointprompt generation,JPG)模塊,包括:a)跨模態交互提示(crossmodal prompt interaction,CMPI),隨機初始化的文本提示向量和視覺提示向量分別輸人至此模塊,獲得與另一模態相關的提示向量和,并將兩個向量分別輸入到視覺和文本編碼器中,實現充分的跨模態信息交互;b)層間遞進提示(inter-layerprogressiveprompting,IPP),將提示向量傳遞至下一層編碼器中,結合本層的信息共同提示下一層,增強不同層間提示學習的協同能力。在11個數據集上的廣泛實驗驗證了ProgCoPL的優越性,與當前較優的MaPLe相比,ProgCoPL在11個數據集的分類、識別任務中均有提高,在域泛化能力和跨數據集泛化能力測試上表現良好。

綜上所述,本文主要有以下三點貢獻:

a)提出了一種新穎的提示機制,使視覺編碼器和文本編碼器能夠相互提示。這種雙向提示方法增強了視覺-語言跨模態交互,從而增強視覺和文本兩種模態之間的信息對齊。

b)針對傳統提示學習中層間提示相互獨立的問題,本文設計了一種遞進提示機制,使提示在編碼器的不同層級之間逐層傳遞和融合。通過這種層級間的協同作用,模型能夠更快速精準地捕獲任務相關信息,從而提高對下游任務的適應性。

c)本文方法不僅在單一任務上表現出色,還展示了強大的跨數據集泛化能力。通過模塊化設計和提示機制的優化,本文模型在不同類型的數據集上均取得了優異的性能,表明該框架在處理多樣化任務時具有廣泛的應用潛力。

1相關工作

1.1視覺-語言預訓練模型

在過去的幾年中,視覺-語言預訓練模型(vision-languagepretrainedmodels,VLP)已成為人工智能研究的前沿領域之一。這類模型一般由文本分支和視覺分支組成,可同時處理視覺和語言兩種模態數據,與僅依賴圖像或文本監督訓練的單模態模型相比,視覺-語言預訓練模型能夠編碼更為豐富的多模態表示。在預訓練階段,通過在海量圖像-文本對上進行多種類型的預訓練任務的學習,VLP獲得了豐富的語義和視覺知識,使得它們能夠更好地適應跨模態任務,如圖像描述生成[9]、視覺問答[10]和跨模態檢索[11]等。CLIP(contrastive lan-guage-imagepretraining)、ALIGN(a large-scale imageand noisytextembedding)[12]等代表性模型通過在大規模圖像-文本對上的對比學習訓練,展示了在圖像分類、跨模態檢索等任務中的強大性能。其中,CLIP是最廣泛應用的預訓練模型之一,采用雙塔結構,包含視覺編碼器和文本編碼器,對輸人的圖像和文本進行特征編碼和提取。隨后,通過計算這些特征之間的余弦相似度來衡量圖文匹配度。對于匹配的圖文對,其特征向量之間的余弦相似度較高,反之,對于不匹配的圖文對,其相似度則較低。這些模型的成功推動了視覺-語言模型在眾多下游任務中的廣泛應用,但其在各類下游任務的高效適配仍是一個亟待解決的難題。本文提出了一種遞進式的相互提示學習方法,提高模型在多模態之間的交互能力,更高效地適應CLIP在小樣本和零樣本視覺識別任務中的應用。

1.2 提示學習

由于CLIP模型的參數規模較大,使用傳統的全參數微調方法進行CLIP的下游任務適配需要大量的計算開銷和下游任務訓練樣本,無法高效地將CLIP模型適配到特定的下游任務。所以,利用提示學習[13]將預訓練CLIP模型適配到下游任務已成為領域內的研究熱點,并且在少樣本圖像學習[14]、目標檢測[2]等下游任務中展示出強大的性能。提示學習方法首先在自然語言處理領域被提出,用于實現大模型在下游任務中的高效應用,隨后被應用到圖像識別等視覺任務及視覺語言多模態領域。提示學習中的指令通常以句子的形式給出,被稱為文本提示,通常用于視覺-語言模型的語言分支,以幫助其更好地理解任務。目前常見的模型中, CoOp[3] 通過為每個下游任務設計統一的提示向量,并將其添加到預訓練模型中,提升了模型對下游任務的適應性。然而,由于其提示是固定的,導致在面對新類或域泛化數據時性能下降。 VPT[4] 通過在模型的視覺輸入端添加可訓練的視覺提示信息,充許模型在視覺空間中自主學習提示信息,這種方法在特定任務中表現較好,但在多模態交互和文本提示利用方面的靈活性有所欠缺。 CoCoOp[5] 學習特定于輸入圖像樣本的提示信息,并且整合到純文本的連續提示向量上,實現靈活且泛化性強的提示學習。MaPLe[在文本和視覺分支分別設計了各自的提示向量并將文本信息通過耦合函數傳遞到視覺空間,實現了模態之間的單向交互。本文提出的ProgCoPL,不僅實現了模態雙向交互,將文本提示和視覺提示通過函數相互映射到對方的模態空間中,并且設計了層間的信息傳遞機制,在多層次上更精準地捕獲任務相關信息,從而提高對下游任務的適應性。

2方法

2.1 CLIP模型回顧

CLIP由一個文本編碼器和一個視覺編碼器組成,視覺編碼器用于將高維度的圖像映射到低維度的嵌入空間,文本編碼器用于將自然語言編碼為文本特征表示。

2.1.1 文本編碼器

CLIP文本編碼器TE由 L 層Transformer層構成,首先將輸入文本進行截斷或補零處理,使其成為長度為 N 的序列,并通過BPE(bytepairencoding)[15]方法將該序列投影為詞嵌入序列 ,然后將 W0 輸人到文本編碼器。在編碼過程中,第 ξl 層編碼器層 TEl 將輸入的 Wl-1 通過多頭注意力機制輸出 Wι ,并作為下一編碼層的輸入:

[Wl]=TEl(ΨWl-1)l=1,2,…,L

最后一層編碼器層輸出的 wNL 經全連接層FC線性投影到dvt 維的公共語義空間中,即可獲得全局文本表示z:

2.1.2 視覺編碼器

視覺編碼器VE同樣由 L 層編碼層組成,它首先將輸入圖像 I 分割為 M 個固定大小的圖像塊,然后將這些圖像塊投影

后獲得嵌人序列 。嵌入序列 El-1 作為視覺編碼器第 l 層 VEl 的輸人,與一個可學習的CLS標記cl-1 一起被處理:

[cl,El]=VEl([cl-1,El-1])l=1,2,…,L

將最后一層編碼器 VEL 輸出的類別標記 cL 投影到公共語義空間中即可獲得全局視覺表示 x

2.1.3 零樣本分類

在進行零樣本分類時,將類別標簽 yi 嵌入到提示模板(例如“Aphotoofa[class]\")中生成輸入文本并輸入到文本編碼器提取文本全局表示 ?zyi 。同時使用圖像編碼器獲取圖像 I 的全局表示 x ,則輸人圖像 I 屬于類別 yi 的概率為

其中: cos(.) 表示余弦相似度; c 為類別總數。

2.2 ProgCoPL

為了更好地微調CLIP以適應下游任務,本文探討了多模態提示調優的潛力。目前已有的針對CLIP的提示學習方法缺乏充分的跨模態信息交互,并且在編碼器層之間缺乏信息傳遞機制,導致模型在各類下游任務上的適配性和泛化能力受限。

針對上述問題,本文提出一種新穎的面向CLIP的提示學習方法-遞進互提示學習方法(progressiveco-prompting lear-ning,ProgCoPL),該方法通過對提示信息的增強,來強化模型的能力。如圖2所示,ProgCoPL模型的核心思想是在視覺和文本分支之間添加聯合提示生成模塊(joint prompt generation,JPG),在不同模態的編碼器之間、編碼器不同層之間搭建信息交互橋梁。首先,為了增強提示學習的視覺-語言跨模態交互,設計了跨模態提示交互(cross modal prompt interaction,CMPI)機制,文本或視覺提示信息經過該模塊生成與另一模態相關的提示信息并共同經過本層的編碼器處理,增強了提示信息在視覺和語言兩種模態之間的聯系。同時在編碼器層間添加層間遞進提示(inter-layerprogressiveprompting,IPP)機制,使提示信息在層級之間傳遞融合,增強學習信息的有效性。在訓練階段,僅需學習JPG模型權重參數及插入的提示向量,而CLIP模型本身的模塊和參數保持凍結。

圖2ProgCoPL總體架構及模塊 Fig.2Overall architecture and modulesofProgCoPL

2.2.1 聯合提示生成

在ProgCoPL中,視覺分支側和文本分支側采用對稱結構,其信息處理流程類似,因此這里以視覺分支為例進行詳細闡述。對于視覺編碼器的第l層,其輸入由視覺向量 El-1

、視覺提示 、文本引導的視覺提示 Pl-1tv 組成,其中 b 為插入的提示向量個數,視覺提示 Pl-1v 隨機生成,并在訓練過程中優化。文本引導的視覺提示 Pl-1rv 如下:

文本引導的視覺提示 Pltv 的計算過程包括跨模態提示交互和層間遞進提示。

1)跨模態提示交互式(6)中的 CMPI(Pl-1t) 項即為跨模態提示交互,該運算以文本分支對應層的文本提示 Plt 為輸入,通過多頭自注意力運算和線性投影獲取來自文本模態的指導信息,其計算方法如下:

CMPI(Pl-1t)=MA(Pl-1t)=FC([head1,…,headH]Wo

其中:MA表示多頭自注意力運算。該運算采用 H 個并行的自注意力機制頭,每個自注意力機制頭的計算方法為

其中 為權重矩陣; 為輸出權重矩陣; dH=dv/H 是每個頭輸出的維度特征。圖3展示了多頭注意力機制的過程,最后的矩陣Z 即為式(7)的結果。上述操作實現了跨模態提示交互,將文本分支的提示信息引人到視覺分支,有效增強了文本編碼器和視覺編碼器的跨模態交互。

圖3多頭注意力機制過程演示Fig.3Demonstration ofmulti-head attention mechanism

2)層間遞進提示傳統的針對CLIP的提示學習算法中,編碼器各層插入的提示向量相互獨立。而文獻[8]的研究結果表明,在編碼器層間添加信息傳輸機制有利于提高編碼器的學習能力。因此,本文在編碼器不同層的提示向量之間添加了層間遞進提示(IPP)機制。具體地,上一層的提示向量 經衰減后,與上述CMPI模塊的輸出融合,最終獲得文本引導的視覺提示 ,從而實現了編碼器不同層級之間提示信息的逐層傳遞和融合:

類似地,對于文本編碼器的第 l 層,其輸入由文本向量 、文本提示 、視覺引導的文本提示 組成,其中文本提示 Pl-1t 隨機初始化,而視覺引導的文本提示 Pl-1vt 如下:

Pl-1vt=IPP(CMPI(Pl-1v),Pl-2vt

特別地, P0tv 均為零向量。

2.2.2文本分支提示學習

對于編碼層 TEl ,文本提示 Pl-1t 、視覺引導的文本提示 與輸入文本的嵌入序列 Wl-1=[w1l-1,w2l-1,…,wNl-1]∈ (20 拼接構成 [Pl-1t,Pl-1vt,Wl-1] 輸入到編碼器層 TEι ,經編碼器處理后輸出:

[--,Wl]=TEl([Pl-1t,Pl-1vt,Wl-1])l=1,…,K (11)其中:[.,.]表示張量拼接操作。在經過 K 層的提示學習之后,后續編碼層對文本特征作進一步處理,并通過全連接層投影獲得文本全局特征z:

2.2.3圖像分支提示學習

同樣地,對于編碼層 VEl ,首先插入 b 個可學習提示向量

Pl-1v 和文本引導的提示向量 Pl-1tv ,并與上一編碼層輸出的圖像嵌入序列 起構成 [cl ,Pl-1v,Pl-1tv,El-1] 。首先經 K 層編碼器的提示學習:

[cl,..,.,El]=VEl([cl-1,Pl-1v,Pl-1tv,El-1])

上述在視覺提示之下學習到的圖像嵌入序列 Eκ 通過后續編碼層進一步處理后經線性投影,即可獲得全局視覺表示 x

上述文本分支和圖像分支的提示學習采用了跨模態提示交互與層間遞進提示相結合的方法,能夠逐步增強模型在視覺編碼器和文本編碼器之間的跨模態交互能力,解決現有方法存在的跨模態交互不足和提示信息無法實現跨層傳播的問題,從而使模型更好地捕獲下游任務所需的多模態信息。

2.3偽代碼流程分析

輸入:文本提示 Pl-1t ,視覺引導的文本提示 Pl-1vt ,文本的嵌入序列Wl-1 ,視覺提示 Pl-1v ,文本引導的提示向量 Pl-1tv ,圖像嵌入序列 El-1

輸出:文本側 ,視覺側

1 if( ll-1t) )與視覺提示 (Pl-1v )endif

2跨模態提示交互CMPI:文本側 Q,K,V=Pl-1tWQ,Pl-1tWK,Pl-1tWV for( h=1 to H ) end for 視覺側: Q,K,V=Pl-1vWQ,Pl-1vWK,Pl-1vWV for( h=1 to H ) end for

3層間遞進提示 IPP 保留提示信息并融合上一層提示信息:

5生成嵌入序列:文本序列 (204號圖像序列

6將文本序列 W 和圖像序列 E 輸人各自編碼器

3實驗結果與分析

3.1 前置工作

3.1.1 數據集簡介

為了驗證本文方法的可行性和先進性,在現有工作常用的11個數據集上進行了實驗驗證。這些數據集包括ImageNet[16]和Caltech101[17]兩個通用圖像分類數據集;OxfordPets[18]StanfordCars[19]、Flowers1O2[20]、Food101[21]和 FGVCAircraft[22]五個細粒度分類數據集;一個場景識別數據集 SUN397[23];一個動作識別數據集UCF101[24];一個紋理數據集 DTD[25] ,以及一個衛星圖像數據集EuroSAT[26]。對于領域泛化,使用Ima-geNet 作為源數據集,并將其四個變體(包括ImageNetV2[27]ImageNetSketch[28]、ImageNet-A[29]和 ImageNet ?R[30] )作為目標數據集。

3.1.2任務及評價指標簡介

1)基類到新類的泛化為了評估ProgCoPL模型的泛化能力,將數據集劃分為基類和新類,模型僅使用基類中每類 T 個樣本進行訓練,然后在基類和新類的測試集上進行測試。

2)跨數據集泛化為了驗證本文方法在跨數據集泛化中的有效性,使用在ImageNet上訓練獲得的模型,不經過任何微調,直接在其他數據集上進行評估測驗。與其他方法類似[5],本文方法在ImageNet的1000個類別上進行了少樣本訓練。

3)領域泛化此外,對本文方法在分布外的數據集上的魯棒性進行了測試。與跨數據集評估類似,以ImageNet為源域,將在ImageNet上訓練好的模型,直接應用于目標域數據集,包括ImageNetV2[27]、ImageNetSketch[28]、ImageNet-A[29]和ImageNet- ?R[30] ,評估模型在數據分布特征不同的目標域數據集上的表現。

4)評價指標遵循文獻[3]的做法,采用與 CoOp 、MaPLe等相同的評價標準[5],在11個數據集上評估了本文方法的性能。在上述任務中,均測試得到基類準確率、新類準確率和諧波均值(HM),測試結果取三次實驗的平均值。其中諧波均值(HM) σ=σ ( 2× 基類準確率 × 新類準確率)/(基類準確率 + 新類

準確率)。

3.1.3 實現細節

在所有實驗中,使用少樣本訓練策略,即每個類別隨機抽樣16個訓練樣本,即 T=16 。在預訓練的ViT-B/16CLIP模型上進行提示調優,其中 dt=512,dv=768,dvt=512 。傳遞參數α=0.1 ,編碼器層數 L=12 ,提示層數 K=9 。所有模型均訓練5個epoch,批量大小為4,學習率固定為0.0035,使用SGD優化器在單塊NVIDIA3090GPU上進行訓練和測試。

3.2 實驗結果

3.2.1基類到新類的泛化能力評估

表1展示了ProgCoPL在基類到新類泛化任務上的表現。將本文提出的 ProgCoPL 與近年提出的CLIP[1] CoOp[3] 、Co-CoOp[5] 、MaPLe[6]、PRO[31]、PLOT[32]、UNIGRAM[33]、 VPT[4] IVLP[34] 等經典方法進行了對比,加粗項表示最優結果。

Tab.1Comparison with existing works on ProgCoPL/%

在基類上, ProgCoPL 在9個數據集上的結果均高于當前最佳方法MaPLe,基類上的平均準確率從 82.28% 提高到82.78% 。在新類識別上,ProgCoPL在所有11個數據集的平均準確率上均高于MaPLe,從75. 14% 提高至 75.6% ,表明本文提出的ProgCoPL通過層間遞進的跨模態交互提示,有效增強了CLIP模型在下游任務上的泛化能力。當同時考慮基類和新類,即諧波均值時,在11個數據集上的平均表現優于現有的大部分模型。得益于ProgCoPL的交互提示信息與遞進信息傳遞機制, ProgCoPL 在11個數據集上的諧波均值從 78.55% 提高至 79.02% 。

圖4展示了實驗的總體平均結果,在11個數據集上的廣泛實驗驗證了ProgCoPL的優越性,與當前較優的方法MaPLe相比,ProgCoPL在11個數據集的分類、識別任務中平均提高0.47百分點,在域泛化能力上平均提高0.76百分點,在跨數

根據表1結果發現,即使ProgCoPL在平均結果上表現較好,但仍在FGVCAircraft和DTD數據集上表現較差。同時其他現有方法在這兩個數據集上的表現也同樣欠佳。這兩個數據集屬于細粒度圖像分類,不同類別之間的特征差異較小,基于CLIP的分類框架難以捕捉到類間的細微差異。因此,設計面向細粒度圖像分類任務的提示學習方法是亟待解決的問題之一。

3.2.2跨數據集泛化能力評估

為了測試本文提出的ProgCoPL的跨數據集泛化能力,在ImageNet數據集上分別訓練ProgCoPL、 CoOp 、CoCoOp、MaPLe模型,并在其余10個數據集上進行測試,測試結果如表2所示。實驗結果表明,ProgCoPL不僅在ImageNet測試集上取得了最高的識別準確率,同時在其他數據上也普遍超越了現有方法。MaPLe在其他10個數據集上的平均測試結果為 66.30% ,而ProgCoPL取得了3.41百分點的顯著提升,達到了 69.71% 的準確率,體現出更強的跨數據集泛化能力。這表明本文提出的ProgCoPL可以學習到更加通用的視覺表征。

表2ProgCoPL在跨數據集任務上與現有工作的準確率對比

3.2.3領域泛化能力評估

領域泛化能力是人工智能模型的重要指標之一。為了驗證ProgCoPL在領域泛化能力上的優越性,展示了ProgCoPL在分布外數據集上的良好泛化能力。以ImageNet為源域,將在ImageNet上訓練好的模型直接應用于目標域數據集,包括復雜圖像內識別特定物體的ImageNetV2,手繪簡筆圖像集ImageNetS,涵蓋現實圖像、非完整性物體的ImageNet-A以及包括卡通形象、玩偶形象和繪畫圖像的ImageNet-R,具體見表3中數據集圖片示例。表3中的實驗結果表明,ProgCoPL達到了與當前最佳模型相當的水平,在4個目標域數據集上的平均準確率超越了現有的主流方法,達到了 63.12% 。

表3ProgCoPL在跨域數據集任務上與現有工作的準確率對比"
3.2.4消融實驗1)跨模態提示交互與層間遞進提示對模型性能的影響分析

為驗證跨模態提示交互和層間遞進提示機制的有效性,本文設計了多種變體模型,并在11個數據集上進行了消融實驗測試:a)如表4第一組實驗所示,去除ProgCoPL中的跨模態交互提示和層間遞進提示后,模型退化為VPT,其在基類和新類上的準確率僅有 80.56% 和 71.72% ;b)在第二組實驗中,僅使用跨模態提示交互,可使模型準確率總體提高2.14百分點;c)第三組對比實驗中,僅使用層間遞進提示而去除跨模態提示交互,最終使模型準確率總體提高1.53百分點。第4組實驗為完整的ProgCoPL,通過跨模態提示交互機制和層間遞進提示機制的結合,其在基類和新類上的表現均得到了顯著提升。

表4ProgCoPL模塊消融實驗

圖5進一步直觀地展示了各個模塊的作用。圖5中,對比了上述不同變體模型的視覺編碼器各層學習到的注意力圖的區別,這些注意力圖分別來自第3、6、9、12編碼層。在無層間遞進提示時,視覺編碼器無法快速準確地捕捉到識別“cat”類別需要關注的關鍵圖像區域。去除跨模態交互提示后,模型的最終結果更傾向于捕捉顏色梯度劇變的圖像區域和直觀特征,如貓眼部位的特征,而忽略了貓身體上其他區域的有效信息。當給模型添加上跨模態交互提示和層間遞進提示后,模型可快速捕獲識別“cat”所需的關鍵區域和信息,如貓的眼睛和耳朵區域。

圖5在消融實驗中ProgCoPL的可視化結果 Fig.5VisualizationresultsofProgCoPLinablationexperimen 2)提示深度對模型性能的影響分析

為了檢測不同提示深度 K 對模型性能的影響,將式(11)和(14)中的參數 K 分別設置為1、3、6、9、12,重復3.2節的實驗,實驗結果如圖6所示。實驗結果表明,當 Klt;9 時,模型在基類和新類上的分類準確率隨提示深度的增大而增大,表明深度提示優于淺層提示,這一結果與文獻[4,6]相同。當 K=9 時,即在編碼器的1\~9層插入可學習的提示向量時,模型取得了最佳效果。

圖6提示深度對ProgCoPL性能的影響Fig.6Impact of depth on ProgCoPL performance

3)傳遞參數 α 對模型性能的影響分析

對于本文在層間遞進提示所使用的參數 α 也同樣進行了消融實驗。如圖7所示,當 α=0.0 時,即切斷了層間遞進提示學習模塊;當 α=1.0 時,即僅使用了第一層的學習結果。當α=0.1 時,模型效果達到最佳。之后,隨著 α 的增大,模型在基類上的準確率逐步下降,而在新類上差異波動較大。

圖8所展示的是參數 α 在不同設置下跨數據集實驗上的表現結果。跨數據集實驗中源數據集來源為ImageNet,目標數據集為其余10個數據集。從圖8中看出, α 在源數據集上波動較小,可能是因為ImageNet數據集中數據較多,涉及種類廣,且跨數據集實驗訓練輪次較少導致的。但從訓練后的模型在其余數據集上的實驗能夠看出,當 α=0.1 時,跨數據集的泛化能力優于其他設置。

圖7傳遞參數 α 對模型性能的影響分析

3.2.5模型計算復雜性分析

1)模型收斂速度分析在兩個通用對象數據集Caltechl01和ImageNet上進行了模型收斂速度對比實驗,對比的基準模型為 MaPLe 。如圖9和10所示,本文提出的ProgCo-PL在兩個數據上的訓練收斂速度都明顯快于MaPLe。對比MaPLe模型,ProgCoPL模型在編碼器不同層的提示之間加入了信息傳輸通道,有利于模型訓練過程中梯度的反向傳遞,提高了模型收斂速度。

圖9在ImageNet上ProgCoPL收斂速度分析Fig.9Analysis of ProgCoPL convergence speed on ImageNet

2)模型復雜度分析表5展示了 ProgCoPL 與其他方法在模型復雜度上的對比結果,包括模型參數量和推理速度。Co0p,CoCoOp 和VPT中可學習的參數只有插人的提示向量,因此參數量較少。而ProgCoPL和MaPLe需要在編碼器各層插入用于生成提示向量的提示生成模塊,因此需要學習的參數量較大。

圖10在Caltech1O1上ProgCoPL收斂速度分析Fig.10Analysis of ProgCoPL convergence speed on Caltech10
表5ProgCoPL與其他方法復雜度分析Tab.5Complexity analysis of ProgCoPL and other methods

3)模型參數量為了驗證ProgCoPL的性能提示并不是源于模型參數量的提升,設計了ProgCoPL*模型,即第1\~9層編碼器共用同一個聯合提示生成模塊JPG,因此ProgCoPL*的模型參數只有ProgCoPL的約1/9。實驗發現,只要保持ProgCoPL模型的架構不變,即使模型參數量大幅減少,其在下游圖像分類任務上的表現并未出現明顯下降,超越了現有主流方法,且其推理速度與現有主流方法相近。

4結束語

本文針對CLIP模型高效適配下游任務進行探討,并提出了新的方法ProgCoPL。ProgCoPL在提示信息通路中增加了聯合提示生成模塊,通過跨模態交互提示和層間遞進提示兩個部分優化編碼器的提示信息。跨模態交互提示通過視覺-文本編碼器間的相互提示,使兩種模態的信息通過多頭注意力機制實現互相引導,打破了單一提示的局限性。此外,層間遞進提示機制讓提示信息在編碼器各層中逐步傳遞與增強,進一步提高了模型在深層次上的適應能力。這一機制賦予了模型更強的跨數據集泛化能力,特別在處理不同領域的任務時效果顯著。ProgCoPL通過在各編碼層中協調視覺和文本提示,在通用數據集上和跨數據集上表現優異,但在細粒度圖像分類任務上并未取得顯著進步,這可能是由于CLIP專注于圖像與文本的整體描述,得到全局性特征;細粒度分類需要局部性差異特征,導致正確率較低。在后續改進中,可以使用提示多樣性的方法(例如在描述鳥類時,使用“birdwitharedtail\"代替“redbird\")來提升模型對細節的敏感性;或者類別細分嵌入(如描述時分為“大型鳥類”“小型鳥類”等)。因此,設計合理的提示學習方法,挖掘大規模預訓練跨模態模型在少樣本細粒度圖像分類任務上的潛能是具有挑戰和研究價值的。

參考文獻:

[1]RadfordA,KimJW,HallacyC,etal.Learningtransferablevisual models from natural language supervision[C]//Proc of International Conference on MachineLearning.[S.1.]:PMLR,2021:8748-8763.

[2]Feng Chengjian,Zhong Yujie,Jie Zequn,et al.PromptDet:towards open-vocabulary detection using uncurated images[C]//Proc of European Conference on Computer Vision. Cham:Springer,2O22:701-717.

[3]Zhou Kaiyang,Yang Jingkang,Loy C C,et al.Learning to prompt forvision-languagemodels[J]. International Journal of Computer Vision,2022,130(9):2337-2348.

[4]Jia Menglin,Tang Luming,Chen B C,et al. Visual prompt tuning [C]//Proc of European Conference on Computer Vision.Cham: Springer,2022:709-727.

[5]Zhou Kaiyang,Yang Jingkang,Loy C C,et al.Conditional prompt learning for vision-language models [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2022:16795-16804.

[6]Khattak M U,Rasheed H,Maaz M,et al. MaPLe:multi-modal prompt learning[C]// Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway,NJ: IEEE Press,,2023: 19113-19122.

[7]Zang Yuhang,Li Wei, Zhou Kaiyang,et al.Unified vision and language prompt learning [EB/OL]. (2022-10-13). htps://arxiv. org/abs/2210.07225.

[8]Wang Yujing,Yang Yaming,Bai Jiangang,et al.Evolving atention with residual convolutions [C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2021:10971-10980.

[9]Yang Linjie,Tang K,Yang Jianchao,et al. Dense captioning with joint inference and visual context[C]//Proc of IEEE Conference on Computer Vision and Patern Recognition. Piscataway,NJ:IEEE Press,2017: 1978-1987.

[10]Anderson P,Fernando B,Johnson M,et al.Botom-up and top-down attention for visual question answering[EB/OL].(2017- 07- 25) [2024-12-10].htps://arxiv.org/abs/1707.07998.

[11]Cho J,Lei Jie,Tan Hao,et al.Unifying vision-and-language tasks via text generation[C]// Proc of International Conference on Machine Learning.[S.1.]:PMLR,2021:1931-1942.

[12]Jia Chao,Yang Yinfei,Xia Ye,etal.Scaling up visual andvisionlanguage representation learning with noisy text supervision[C]// Proc of International Conference on Machine Learning.[S.1.]: PMLR,2021:4904-4916.

[13]Jin W,Cheng Yu,Shen Yelong,et al.A good prompt is worth millions of parameters:low-resource prompt-based learning for visionlanguage models[EB/OL].(2021-10-16)(2024-12-10). https:// arxiv.org/abs/2110.08484.

[14]Kim K,Laskin M,Mordatch I,et al. How to adapt your large-scale vision-and-language model[EB/OL].(2022-01-29).https://openreview. net/forum? id EhwEUbzynla.

[15] Sennrich R,Haddow B,Birch A.Neural machine translation of rare words with subword units[EB/OL].(2015-08-31)[2024-12-10]. https://arxiv.org/abs/1508.07909.

[16]Deng Jia,Dong Wei, Socher R,et al. ImageNet:a large-scale hierarchical image database[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2009:248-255.

[17]Li Feifei,FergusR,Perona P.Learning generative visual models from few training examples:an incremental Bayesian approach tested on 101 object categories[C]// Proc of Conference on Computer Vision and Pattern Recognition Workshop.Piscataway,NJ: IEEE Press, 2005:178.

[18]ParkhiOM,VedaldiA,ZissermanA,etal.Catsanddogs[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:3498-3505.

[19] Krause J,Stark M, Jia Deng,et al.3D object representations for fine-grained categorization [C]// Proc of IEEE International Confe2013:554-561.

[20]Nilsback M E,Zisserman A.Automated flower classification over a large number of classes[C]// Proc of the 6th Indian Conference on Computer Vision, Graphics amp; Image Processing. Piscataway,NJ: IEEE Press,2008:722-729.

[21]BossardL,Guillaumin M,Van Gool L.Food-10l-mining discriminative components with random forests[C]//Proc of the 13th European Conference on Computer Vision. Cham:Springer,2014:446-461.

[22]Maji S,RahtuE,Kanade T,etal.Fine-grained visual classification of birds through tree-structured learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2013:555-562.

[23]Xiao Jianxiong,Hays J,Ehinger K A,et al. SUN database:largescale scene recognition from abbey to zoo[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattrn Recognition.Piscataway,NJ:IEEE Press,2010: 3485-3492.

[24]Soomro K,Zamir A,Shah M. UCF101:a dataset of 1O1 human actions classes from videos in the wild[EB/OL].(2012-12-03) [2024-12-10].https://arxiv.org/abs/1212.0402.

[25]CimpoiM,Maji S,KokkinosI,et al.Describing textures in the wild [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:3606-3613.

[26]HelberP,BischkeB,Dengel A,etal.EuroSAT:a novel dataset and deep learning benchmark for land use and land cover classification [J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2019,12(7):2217-2226.

[27]Recht B,RoelofsR,SchmidtL,et al.Do ImageNet classifiers generalize to ImageNet?[C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2019: 5389-5400.

[28]Wang Haohan,Ge Songwei,Xing EP,et al.Learning robust global representations by penalizing local predictive power [EB/OL]. (2019-05-29). htps://arxiv.org/abs/1905.13549.

[29]Hendrycks D,Zhao K,Basart S,et al.Natural adversarial examples [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021:15262-15271.

[30]Hendrycks D,Basart S,Mu N,et al.The many faces of robustness: a critical analysis of out-of-distribution generalization[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021:8320-8329.

[31]LeeDongjun,SongS,Suh J,et al.Read-only prompt optimization for vision-language few-shot learning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:1401-1411.

[32]Chen Guangyi,Yao Weiran,Song Xiangchen,etal.PLOT:prompt learning with optimal transport for vision-language models [EB/OL]. (2022-10-03)[2024-12-10]. https://arxiv.org/abs/2210.01253

[33]LiJuncheng,Gao Minghe,WeiLonghui,etal.Gradient-regulated meta-prompt learning for generalizable vision-language models[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2023: 2551-2562.

[34]RasheedH,Khattak MU,MaazM,et al.Fine-tuned CLIP models are efficient video learners[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:6545-6554.

猜你喜歡
集上層間編碼器
鋼橋面UHPC基層與SMA面層層間施工處理方法研究
UHPC模塊建筑結構抗震性能數值分析
針入度試驗
科學導報(2025年55期)2025-08-19 00:00:00
基于Transformer模型的圖書館借閱量預測研究
基于位置掩碼引導的換裝行人重識別模型
基于Transformer與權重令牌引導的雙分支無參考圖像質量評價網絡
微型全國產化精密單軸轉臺設計
機電信息(2025年14期)2025-08-05 00:00:00
外部知識與內部上下文語義聚合的短文本新聞虛假檢測模型
基于多層特征融合與增強的對比圖聚類
基于多模態表征學習的自動音頻字幕方法
主站蜘蛛池模板: 58av国产精品| 国产精品思思热在线| 亚洲综合九九| 天天综合网色中文字幕| 欧美精品成人一区二区在线观看| 国产真实二区一区在线亚洲 | 久久久久亚洲AV成人网站软件| 欧美日韩午夜| 亚洲综合18p| 国产成人精品日本亚洲| 91精品国产情侣高潮露脸| 日韩欧美国产区| 国产精品毛片一区视频播| 日韩第一页在线| 亚洲精品黄| 91精品国产麻豆国产自产在线| 亚洲无卡视频| 国产粉嫩粉嫩的18在线播放91| 国产乱子伦手机在线| 91视频99| 天天摸天天操免费播放小视频| a毛片在线播放| 男人的天堂久久精品激情| 精品小视频在线观看| A级毛片无码久久精品免费| 亚洲香蕉久久| 国产国产人免费视频成18| 9丨情侣偷在线精品国产| 欧美日韩国产成人高清视频 | 无码中字出轨中文人妻中文中| jizz在线观看| 国产成人综合亚洲网址| 久夜色精品国产噜噜| 国产美女在线观看| 国产成人亚洲毛片| 一区二区三区成人| 久久婷婷六月| 国产国产人成免费视频77777| 成年免费在线观看| 欧美一区国产| 99精品国产自在现线观看| 亚洲九九视频| 婷婷午夜天| 亚洲欧美在线综合图区| 欧美人与性动交a欧美精品| 国产精品第三页在线看| 中文字幕欧美日韩| 国产综合无码一区二区色蜜蜜| 国产视频自拍一区| 亚洲精品视频在线观看视频| 成人精品午夜福利在线播放| 午夜视频免费试看| 欧美色图久久| 成人综合网址| 欧美激情视频二区| 欧美特黄一免在线观看| 亚洲综合天堂网| 欧美午夜一区| 国产主播在线一区| 亚洲伊人久久精品影院| 精品国产成人a在线观看| 欧美精品一区在线看| 欧美日韩国产高清一区二区三区| 日韩黄色在线| 日本人妻一区二区三区不卡影院| 午夜精品区| a毛片基地免费大全| 国产精品短篇二区| 小说 亚洲 无码 精品| 精品国产免费观看一区| 在线色国产| 精品视频91| 啪啪免费视频一区二区| 亚洲愉拍一区二区精品| 国产在线小视频| 日韩免费成人| 国产免费久久精品44| 欧美人与牲动交a欧美精品| 午夜小视频在线| 国产一二视频| 久久久久国产精品熟女影院| 国产拍揄自揄精品视频网站|