








摘要 針對中國非物質文化遺產美術作品分類中處理效率低、數據復雜等問題,提出了一種基于預訓練視覺語言大模型的上下文提示微調策略,以提升小樣本情況下的分類性能并應對當前任務的挑戰。該方法通過引入可學習的上下文優化提示(軟提示),使模型能夠在少量樣本條件下快速適應下游分類任務,從而有效縮短訓練時間并提升收斂速度。具體而言,利用注意力機制,將由軟提示生成的文本特征與預訓練視覺語言模型的原始特征相結合,并通過對比損失優化嵌入表示。這一機制減少了不同特征之間的嵌入差異,避免了模型對已知類別的過度擬合,提升了在未見類別上的泛化能力。此外,保留原始特征信息幫助模型避免訓練過程中遺忘基礎知識,確保即便在小樣本條件下,模型仍能保持較高的分類準確率。實驗結果表明,所提出方法在非遺美術圖像分類任務中的準確率提升了1.79%,泛化識別能力提升了10.4%,同時具備較低的計算成本。
關鍵詞 非物質文化遺產;圖像分類;上下文優化;注意力機制
中圖分類號:TP391" DOI:10.16152/j.cnki.xdxbzr.2025-01-009
Research on a prompt learning method for intangiblecultural heritage art image classification
ZHANG Qinyu1,2, LIU Xinda1,2, LU Zhuoming3, ZHOU Mingquan1,2,4
(1.National and Local Joint Engineering Research Center for Cultural Heritage Digitization, Northwest University, Xi’an 710127, China;
2.School of Information Science and Technology, Northwest University, Xi’an 710127, China;
3.College of Letters and Science, University of California, Davis CA 95616, USA;
4.Virtual Reality Research Center of Ministry of Education, Being Normal University, Bejing 100875, China)
Abstract To address the issues of prolonged processing time, low efficiency, and high data complexity in the classification of Chinese intangible cultural heritage (ICH) artworks, this paper proposes a context-based text prompt tuning strategy based on a pre-trained vision-language model. This approach introduces trainable context optimization soft prompts, enabling the model to quickly adapt to downstream classification tasks under limited sample conditions, thereby effectively reducing training time and improving convergence speed. Specifically, the proposed method integrates text features generated by the soft prompts with the original features of the pre-trained vision-language model through an attention mechanism, and optimizes the embedded representations via a contrastive loss function. This mechanism significantly reduces the embedding discrepancy between the two types of features, preventing the model from overfitting to visible base categories and enhancing its generalization ability to unseen classes. Moreover, the retention of original features helps mitigate catastrophic forgetting during training, ensuring high classification accuracy even under few-shot conditions. Experimental results demonstrate that the proposed method improves classification accuracy by 1.79%, enhances generalization by 10.4%, and maintains low computational cost.
Keywords intangible cultural heritage; image classification; contextual optimization; attention mechanism
當前,非物質文化遺產(以下簡稱“非遺”)的保護與傳承愈發受到重視。非遺不僅承載了深厚的歷史和文化價值,同時也是民族身份認同和文化多樣性的關鍵體現。為有效保護和傳承這些寶貴的文化遺產,構建科學合理的分類體系至關重要[1]。王燕妮的研究指出,民俗類非遺在我國國家級非遺名錄中占有重要地位,科學分類對非遺的申報、管理、傳承和活化具有顯著意義[2]。然而,現有的非遺分類體系仍存在不足,如缺乏對文化空間的分類,體系過于復雜,且依賴人工整理的效率較低[2]。
隨著深度學習技術的發展,圖像分類領域涌現出一系列高度自動化且高效的特征提取算法,為民俗非遺美術作品的分類提供了新的思路[3]。其中,卷積神經網絡(convolutional neural networks, CNN)作為圖像分類的核心技術之一,通過逐層卷積操作能夠提取圖像的多層次特征,在復雜視覺任務中表現卓越。諸如LeNet[4]、AlexNet[5]、VGG[6]和ResNet[7]等模型通過增加網絡深度和引入創新結構模塊(如Inception模塊和殘差連接)不斷優化性能,EfficientNet[8]則通過復合縮放策略在保持高精度的同時降低了計算成本,使其適用于計算資源受限的環境。然而,這些傳統方法在非遺美術圖像分類任務中依然面臨諸多挑戰。首先,CNN的有效性通常依賴于大規模標注數據集,但非遺美術圖像數據稀缺且種類繁多,構建大規模數據集的成本較高。例如,剪紙和皮影雖然在視覺上有顯著差異,但現有模型難以通過少量數據訓練完成二者的準確區分。此外,數據集的有限性容易導致模型過擬合,從而限制其泛化能力,難以應對新類別增長的需求。同時,傳統分類方法高度依賴人工標注,增加了成本與難度[9-10]。近年來,諸如SimCLR[11]等對比學習方法通過無監督預訓練利用無標簽數據進行特征學習,并通過微調完成下游分類任務,減少了對大規模標注數據的依賴。盡管如此,這些方法在處理非遺美術圖像等特定數據時,無法充分利用預訓練過程中學到的圖像通用特征,仍舊需要大量任務相關的圖像數據進行微調。因此,它們在小樣本分類任務中的適用性較為有限,難以滿足非遺圖像分類中圖像數據獲取困難的實際需求。
在此背景下,視覺-語言預訓練模型為非遺美術圖像分類帶來了新的突破。通過在大規模圖像-文本配對數據集上進行預訓練,這些模型能夠學習到豐富的視覺和語言特征表示,從而在零樣本或少樣本條件下實現高效的下游任務識別[12-13]。如OpenAI開發的CLIP模型利用4億圖像-文本對進行訓練,已在多個圖像分類任務中展示了出色的表現,并實現了零樣本遷移[14]。相比于傳統對比學習方法,這類視覺-語言模型在處理小樣本分類任務時表現出了更強的泛化能力和適應性。為進一步提升視覺-語言大模型在下游任務中的表現,研究者們借鑒自然語言處理領域提示微調方法的思路,通過引入可學習的文本提示信息優化模型,以更好地適應封閉數據集上的特定任務[15]。上下文優化提示方法(CoOp)通過將提示中的上下文詞轉換為可學習文本向量,進而對預訓練模型進行高效微調[16],與視覺特征對齊。該方法在少樣本分類任務中可以得到較高的準確率,但易導致模型過度擬合訓練過的類別,進而影響在未見新類別上的泛化能力[17]。為此,周等提出了條件上下文優化提示方法(CoCoOp),該方法通過在可學習提示中引入圖像特征信息,增強了模型對未知類別的泛化能力[17]。盡管如此,CoCoOp中提示詞的共享性干擾了模型對不同類別特征的區分能力,進而在已知類別的識別精度上存在一定損失[18]。
針對上述挑戰,本文提出了一種基于注意力機制的視覺-語言提示微調方法,并將其應用于陜西非遺美術圖像分類任務。陜西的非遺美術作品類型豐富多樣,包括剪紙、皮影、泥塑、刺繡等。這些作品不僅在視覺特征上差異顯著,還蘊含著豐富的文化背景和語義信息,傳統的圖像分類方法難以有效區分。本文基于預訓練的視覺-語言大模型(如CLIP),利用其已學習的通用文本特征,在小樣本環境下實現高效識別。CLIP模型具備強大的圖像特征提取能力,無需依賴大規模標注數據進行訓練,只需少量數據(每類1至16張圖片)對圖像特征與文本特征進行微調對齊,即可適應下游任務,克服了傳統數據驅動算法對大規模標注圖像依賴的局限性。此外,預訓練模型的泛化能力更強,有效防止數據偏差或數據質量問題導致的過擬合風險。相比傳統方法,本方法在小樣本訓練中顯著降低了對計算資源和時間的需求,為非遺美術圖像分類任務提供了天然的優勢,尤其在數據有限的情況下,依然能夠獲得較高的識別精度與泛化性能。
具體而言,本文方法通過結合可學習的上下文提示與人工設計的文本提示,并引入注意力機制,顯著增強了模型對不同類別和復雜場景的適應性。盡管剪紙和壁畫等類別在視覺特征上存在較大差異,但通過視覺-語言對齊和提示微調策略,本方法能夠更好地捕捉其潛在的語義關聯。與現有方法相比,本文方法不僅在準確率上實現了顯著提升,還增強了模型對未知類別的泛化能力,降低了泛化性能與基礎準確率之間的權衡。實驗結果表明,本文提出的方法在陜西非遺美術圖像分類任務中的準確率提升了1.79%,泛化能力提升了10.4%。
1 相關方法
1.1 視覺語言預訓練模型
近期研究顯示,向預訓練模型引入大規模的圖像-文本數據對是構建強大視覺-語言模型的關鍵,這些模型能夠在下游任務中實現零樣本和少樣本學習。CLIP模型[14]便是其中的代表,它采用了對比損失來訓練,基于從互聯網上收集的4億個圖像-文本對,通過這種方式,CLIP成功地訓練了其視覺編碼器和文本編碼器。同期的研究,例如ALIGN[19],也采用了相似的策略,它利用了18億個帶噪聲的圖像-文本對,并應用對比損失來預訓練模型。這些視覺-語言模型均采用了雙編碼器架構,包括一個圖像編碼器和一個文本編碼器,這種架構使得模型能夠通過文本和圖像特征的對齊,在多種視覺分類任務中展現出卓越的基于提示的零樣本性能。
本研究提出的模型亦采用CLIP進行知識遷移。與當前的最新研究如CoOp[16]和CoCoOp[17]一樣,這些方法都依賴于CLIP模型強大的視覺-語言聯合表示能力,以實現對新任務的快速適應和學習。具體來說,本研究在CLIP的基礎上,通過引入注意力機制優化的視覺-語言提示微調方法,進一步提升模型的泛化能力和分類性能。
1.2 提示微調
為提升預訓練視覺-語言模型在特定下游任務中的適應性,研究者們常采用與任務緊密相關的文本標記進行提示微調,以此推斷任務特定的文本知識。例如在CLIP模型中,手工設計的模板“a photo of a [CLASS]”被廣泛用于構建零樣本預測的文本嵌入。然而,這種手工提示存在局限性,因為它們未能充分考慮特定任務的知識細節,導致其在描述任務時的能力受限[20]。
針對這一挑戰,CoOp方法應運而生。CoOp通過少量樣本學習,用可學習的軟提示替代了原先的手工提示,從而提高了模型對任務文本的推斷能力。然而,CoOp方法存在其固有缺陷:它生成的可學習提示是針對每個任務獨特且固定的,這意味著CoOp在推斷任務相關提示時,未能充分考慮不同圖像之間的特征差異[17]。為了克服CoOp的這一局限,CoCoOp方法被提出。CoCoOp通過為每個圖像生成特定的圖像條件上下文,并將其與文本條件上下文相結合,進行提示調整。具體來說,CoCoOp利用一個輕量級的神經網絡,為每個圖像學習生成一個向量,這個向量作為可學習的文本提示的一部分。這種方法顯著提升了模型在未知類別上的泛化能力,但與此同時,也帶來了對基類識別精度的一定損失。
總之,CoCoOp方法通過動態調整提示,增強了模型對不同圖像特征的敏感度,從而在一定程度上解決了CoOp方法在泛化性方面的不足。盡管如此,CoCoOp在提升泛化能力的同時,同樣犧牲了對基類的識別精度,無法實現模型性能的全面優化[21]。
1.3 注意力機制融合特征
在視覺-語言模型的研究領域,注意力機制已經成為一種至關重要的技術手段。它賦予了模型在處理多模態數據時能夠動態地聚焦于相關信息的能力,從而顯著提升了模型對數據的理解和表征能力。特別是在視覺-語言聯合表示學習任務中,注意力機制通過學習輸入特征之間的相關性權重,實現對關鍵信息的有效篩選和整合[22]。
注意力機制的工作原理通常涉及以下幾個步驟:首先,通過線性變換,將輸入的文本特征轉換為查詢(Query)、鍵(Key)和值(Value)的表示形式[23]。這一步驟通常通過全連接層實現,目的是在空間中重新表達輸入特征。其次,計算Query和Key之間的點積,得到未歸一化的注意力分數,這一分數反映了查詢與鍵之間的相關性。接著,應用SoftMax函數[24]對這些分數進行歸一化處理,確保得到的注意力權重之和為1,從而為后續的加權求和做好準備。然后,利用這些歸一化的權重與值(Value)進行加權求和,生成與上下文相關聯的特征表示,這一步驟實現了輸入特征與相關信息的融合,產生了更為豐富的特征表示。最后,通過特征融合策略,將上下文特征與原始文本特征結合,并通過線性層進一步變換,產生最終的特征表示。
注意力機制的這些特性,不僅增強了模型對多模態信息的整合能力,而且為視覺-語言模型在圖像描述生成、視覺問答、零樣本學習等任務中的應用開辟了新的道路。實際應用結果表明,基于注意力機制的模型在多個視覺-語言任務中均取得了顯著的性能提升[25]。例如:在圖像描述生成中,模型能夠更準確地捕捉圖像內容,生成更豐富、更準確的描述;在視覺問答任務中,模型能夠更有效地識別與問題相關的圖像區域,從而提高回答的準確性;在零樣本學習任務中,通過有效的特征融合,模型對未見類別的識別能力得到了顯著提升。這些成果證明了注意力機制在視覺-語言模型中的有效性[25]。
2 非遺美術圖像分類方法
本文提出了一種改進的上下文優化提示算法(見圖1)。為全面解釋該模型的工作機制,首先將詳細描述CoOp方法中上下文優化提示的具體步驟和原理。接著,將深入定義注意力機制,解析其在模型中的應用與作用。最后,闡述本文所提出的優化策略及其實現細節,展示其如何有效提升模型的性能與泛化能力。
2.1 上下文優化提示
在現有的視覺語言模型中,CLIP是一個具有強大功能的預訓練模型,它通過對4億對圖片文本對進行訓練,具有強大的零樣本圖片識別能力。由于CLIP是基于文本圖像對進行訓練的,因此它包含了兩種類型的編碼器,其一是視覺編碼器,另一種是文本編碼器。其中,視覺編碼器通過將給定的圖像映射到視覺嵌入空間,與通過文本編碼器嵌入的文本進行相似度匹配以獲得二者的相似度。提示微調是一種通過凍結視覺和文本編碼器參數來適應下游任務的技術方法。在這一過程中,模型的核心結構保持不變,不進行大規模的參數更新,而是依賴于精心設計的提示詞或可學習的提示詞來引導模型的表現。具體而言,手工設計的提示詞是由人工根據任務需求構造的短語或句子,旨在引導CLIP模型理解和適應特定的任務場景。而可學習的提示詞則允許模型自動學習最適合當前任務的上下文,通過優化提示詞的表示,使CLIP能夠在不改變編碼器的情況下高效適應新的下游任務。這種方法有效地減少了對大規模數據和訓練資源的需求,同時保留了CLIP強大的通用性與遷移能力,在少樣本學習方面表現出顯著優勢。
形式化來說,視覺編碼器與文本編碼器分別定義為α和β,下游任務包含Nc個分類類別,CLIP使用手工提示進行文本嵌入,即zclip={zclipi}Nci=1表示所有的文本嵌入,ziclip就表示第i個文本嵌入。具體來說,假設第i個類別為[CLASSNAME],那么其對應的文本嵌入ziclip是由手工設置的提示詞“a photo of a [CLASSNAME].”通過Transformer編碼器γ(·)與文本編碼器β(·)得到,其中γ(·)可以將提示詞作為輸入并輸出向量化的文本標記。所以,第i個提示詞定義如式(1)所示。
tclipi=γ(a photo of a [CLASSNAME].)(1)
然后將tclipi進一步通過文本編碼器β投影到文本特征嵌入ziclip上,zclipi=β(tclipi)。
給定圖像I及其標簽y,通過視覺編碼器α(·)提取視覺特征嵌入x=α(I)。之后,計算視覺嵌入x和文本嵌入wclipi之間的預測概率進行預測結果如式(2)所示。
Pclip(y|x)=[SX(]exp[JBlt;2(][SX(]d(x,zclipy)[][SX)][JBgt;2)][]∑[DD(]N[]i=1[DD)]exp[JBlt;2(][SX(]d(x,zclipi)[][SX)][JBgt;2)][SX)](2)
其中,d(·)表示余弦相似度[26],是一個可學的溫度參數。雖然CLIP可以很容易被應用與零樣本下游任務,但是由于它固定的手工提示,使得CLIP在很多下游任務中表現不佳。為了解決這個問題,CoOp通過自動學習一組連續的文本向量來生成下游任務需要的文本嵌入[27]。具體來說CoOp首先定義了M個文本向量V={v1,v2,…,vM}作為可學習的提示。然后將類別詞嵌入ci與可學習提示V連接得到完整的向量化文本標記tcoopi形式化描述為
tcoopi={v1,v2,…,vM,ci}(3)
其中,i表示第i個類別。所以最終得到的文本特征嵌入為zcoopi=β(tcoopi)。通過引入下游任務少量樣本,CoOp可以最小化圖片特征x和類別文本嵌入zcoopy之間的負對數似然[28]來優化可學習的向量V過程如公式(4)所示:
Pcoop(y|x)=[SX(]exp[JBlt;2(][SX(]d(x,zcoopy)[][SX)][JBgt;2)][]∑[DD(]n[]i=1[DD)]exp[JBlt;2(][SX(]d(x,zcoopi)[][SX)][JBgt;2)][SX)](4)
需要注意的是,在訓練過程中視覺編碼器與文本編碼器都處于凍結狀態,CoOp只推斷出合適的與任務相關的提示tcoopi來增強其泛化能力和區分能力。
2.2 注意力機制
在現有的視覺語言模型研究領域中,注意力機制已成為提升模型性能的關鍵技術。注意力機制能夠動態地聚焦于多模態數據中的相關信息,從而顯著提高模型對數據的理解和表征能力[29]。特別是在視覺語聯合表示學習任務中,注意力機制通過學習輸入特征之間的相關性權重,實現了對關鍵信息的有效篩選和整合[30]。
本文提出一種基于注意力的文本特征融合方法。通過設計Q,K,V值的線性變換,構建了注意力網絡,并使用Softmax函數生成相應的標準化注意力權重。
該模塊首先對輸入的文本特征進行線性變換,生成查詢(Q)、鍵(K)和值(V)的表示形式。形式化地,Q=WQ·zy;K=WK·zy;V=WV·zy其中W表示權重參數,zy表示文本特征嵌入。接著計算查詢Q和鍵K之間的點積,進行縮放,得到注意力分數為
Attention=Softmax[JB((][SX(]Q·KT[][KF(]dk[KF)][SX)][JB))](5)
利用歸一化的注意力權重與值V進行加權求和,生成上下文相關的特征Zf表示為
Zf=Attention·V(6)
最后,將上下文特征與原始文本特征相結合,并通過線性層進行進一步的特征變換,以產生融合后的特征zfused表示為
zfused=Wf·[zf,zy](7)
其中,Wf代表一個用于特征變換的線性變換矩陣。
2.3 基于注意力機制的上下文優化提示
盡管現存的基于CoOp的提示微調算法能夠有效使預訓練的CLIP模型適應下游任務,但由于訓練過程中只使用了少部分標注圖片,該算法容易對看見的類別產生過擬合。現有的改進方法CoCoOp通過在文本嵌入中引入圖像特征信息來增強對未知類別的識別能力,但這種方式也會干擾模型對不同類別的特征區分能力,從而降低基類識別能力。本文通過深入分析CLIP和CoOp在未知類別上的準確性,發現可學習的文本嵌入會在一定程度上對基礎類別過擬合,從而遠離未知類別。
為了解決這一問題,本文引入注意力機制來融合CLIP和CoOp的文本嵌入,以增強可學習提示和固定提示之間的相似性,減少對通用文本知識的遺忘,從而提高對未見領域的通用性。與CoCoOp在詞嵌入階段引入圖像信息不同,本方法通過在文本編碼器后進行處理,不會破壞模型對細粒度信息的捕獲,因此在基類上的表現不會因為額外信息的引入而下降。總結來說,本文提出了一種基于注意力機制的上下文優化新型提示微調方法,以推斷出在已見類別上具有高區分度、在未見類別上具有高通用性的可學習提示。具體流程如圖1所示。
首先,手工提示詞通過凍結的文本解碼器獲得第1組文本嵌入,該過程與CLIP一致,然后讓可學習的提示詞通過凍結的文本解碼器獲得第2組文本嵌入;二者分別作為注意力機制模塊的查詢(Q)、鍵(K)和值(V)輸入,最終得到融合的文本嵌入。輸入圖片I經過凍結的圖像解碼器獲得圖像特征嵌入,然后將可學習提示得到的文本嵌入與圖像嵌入相結合,計算余弦相似度Lcoop,以獲取可見類別的信息,從而獲得較好的準確率。接著,通過融合的文本嵌入與圖像嵌入結合,計算二者的余弦相似度Lattention,以防止模型對基類過擬合。
形式上,手工提示詞的文本嵌入和可學習的文本嵌入分別定義為zclipi=β(tclipi)和zcoopi=β(tcoopi),其中tclipi表示手工提示詞向量化文本標記,tcoopi表示可學習的向量化文本標記,i表示第i個類別。則經過注意力模塊的融合文本嵌入zfused表示為
zfused=Attention(zcoop,zclip,zclip)(8)
用于擬合基類的標準對比損失Lcoop表示為
Lcoop=-∑[DD(X]x∈X[DD)]log[SX(]exp[JBlt;2(][SX(]d(x,zcoopy)[][SX)][JBgt;2)][]∑[DD(]n[]i=1[DD)]exp[JBlt;2(][SX(]d(x,zcoopi)[][SX)][JBgt;2)][SX)](9)
同樣地,為了有效防止模型在基類數據上產生過擬合,模型引入了對比損失,其作用機制如式(10)所示。通過這種損失函數的引導,模型能夠更好地捕捉類間差異,避免在基類上過度擬合。
Lattention=-∑[DD(X]x∈X[DD)]log[SX(]exp[JBlt;2(][SX(]d(x,zfused)[][SX)][JBgt;2)][]∑[DD(]n[]i=1[DD)]exp[JBlt;2(][SX(]d(x,zfused)[][SX)][JBgt;2)][SX)](10)
通過結合標準交叉熵損失Lcoop,最終的目標損失函數如式(11)所示。
L=(1-θ)·Lcoop+θ·Lattention(11)
其中θ用于平衡L在最終目標任務中的效果。
3 實驗與分析
本文遵循以下兩組實驗設置來評估算法優劣性:①少樣本的圖像分類;②在數據集中從基礎類別到不可見新類別的泛化。所有實驗都是基于預訓練的CLIP模型進行的。
數據集:本文在5個圖像細粒度分類數據集上進行了從基礎類別到新類別的泛化能力測試。其中4個通用公共數據集Flowers102 [31]、Stanford Dogs [32]、Fruit92 [33]、Veg200[33]用于細粒度視覺分類,這些數據集廣泛應用于細粒度視覺分類研究,涵蓋了從植物(如Flowers102、Fruit92、Veg200)到動物(如Stanford Dogs)的多個領域,具有顯著的類別區分細微性和樣本分布不均性特點。這些特性為模型在處理類別間差異較小、視覺特征高度相似的數據時提供了充分驗證的基礎。此外,這些數據集為研究基礎類到新類別的泛化性能提供了多樣化的實驗場景,有助于探索模型在應對跨域或新類別任務時的表現。特別地,為了衡量該模型在非遺美術圖像分類任務上的能力,我們收集并整理了共12 000張陜西省非物質文化遺產美術作品圖像數據集如圖2所示,該分類方式是依據陜西非物質文化遺產保護中心發布的陜西民俗藝術官方分類標準而建立的,其中包含了鳳翔木版年畫、延川布堆畫、農民畫(安塞民間繪畫,澄城手繪門簾)、麥秸畫(黃陵麥秸畫、吳起糜粘畫工藝)、泥塑(鳳翔泥塑、吳起泥塑工藝)、面塑(黃陵面花、華州面花、澄城面花)、綏德石雕、民間木雕(閻良核雕技藝、佳縣廟宇木雕雕刻技藝)、西秦刺繡、剪紙(定邊剪紙藝術、延川剪紙、黃陵剪紙、洛川剪紙)、皮影(華縣皮影、禮泉皮影)、寶雞陳倉區寶雞社火臉譜、乾州布玩具、合陽提線木偶戲、鳳翔草編共計15個類別25種品類陜西本土非物質文化遺產美術作品分類數據。與通用細粒度數據集相比,該數據集具有強異質性、高視覺相似性、文化背景復雜性等特點,能夠真實反映實際應用場景中復雜分類任務的挑戰性。例如,某些類別之間在材質、紋理和色彩上高度相似,僅在細節上有所差異。此外,數據集中包含多個品類和地區工藝的變體,進一步提升了任務的難度。通過在此非遺美術作品分類數據集上的實驗,不僅可以驗證所提出模型在處理精細差異和視覺特征復雜性時的表現,還能夠展示其在高異質性實際場景中的應用潛力。這種設計同時突出了細粒度分類任務與非遺美術圖像分類任務在需求上的一致性,為實驗設置的合理性提供了有力支撐。
訓練細節:算法的實現基于CoOp和CLIP模型,并在具有Vit-B/16[14]的視覺骨干網絡上進行實驗。受CoOp啟發,上下文文本向量的長度始終固定為4,并使用模板\"a photo of a []\"初始化上下文向量。最終性能是在三個隨機種子上平均得出的,以進行公平比較。此外,實驗遵循CoOp的訓練計劃和數據增強設置。超參數θ被設置為0.1。所有實驗都是在一張RTX 4090顯卡上進行。
基線模型:實驗使用3種基于CoOp的方法與本文提出的算法進行比較。
·CLIP使用手工制作的模板 “a photo of a []” 來生成用于知識遷移的提示。
·CoOp 用下游數據集推斷出的一組可學習提示替換了手工制作的提示。
·CoCoOp 通過結合每張圖片的圖像上下文和CoOp中的可學習提示來生成條件性圖像提示。
·AttentionCoOp 該模型即本文使用的方法,通過注意力機制融合可學習文本嵌入與手工文本嵌入來生成文本提示。
3.1 少樣本學習實驗
和近期的CoOp工作的實驗相似,實驗遵循 CLIP中采用的少樣本評估協議,分別使用1,2,4,8和16個樣本進行訓練,并在完整的測試集上部署模型。報告了3次運行的平均結果以供比較。詳細的結果如圖3所示。圖3給出了4個基線模型在5個數據集上的表現以及5個數據集的平均表現實驗結果顯示,改進的模型在5個數據集上,數據集訓練樣本數量為1,2,4,8,16時均獲得了最高的準確率。其原因在于,通過在反向傳播階段前引入注意力機制融合的文本嵌入不但可以保持可學習文本嵌入學習到的分類細節信息,還能額外補充CLIP模型捕獲的信息,使得該模型在不同的樣本數量下均有著優秀的表現。
3.2 基類到新類的泛化實驗
與先前的工作CoOp和CoCoOp類似,每個數據集類別被平均分成兩組:基礎類別和新類別。與零樣本設置相似,新類別與基礎類別不重疊。為了驗證本文方法的泛化能力,所有比較的方法和本文提出的方法都使用基礎類別進行提示調整,并在新類別上進行評估。詳細的結果展示在表1中。表1給出了基于ViT-B/16[14]骨干網絡和16-shot樣本的所有5個數據集的詳細性能。
結果如表1所示,本文提出的AttentionCoOp在所有數據集上的調和平均值H均獲得了比現有方法更高的平均性能,這展示了該模型在基礎類別和新類別識別性能平衡方面的優越性。在現有的CoOp與CoCoOp算法中,本文方法無論是基類還是新類都有超過CoOp的識別表現。這也證明了AttentionCoOp在保留基類識別準確率的同時,可以有效提高未見類別的泛化能力。盡管在一部分數據集上,CoCoOp在新類的識別率略高于本文方法,但可以看出,CoCoOp在基類上的識別率大幅度損失。其原因在于CoCoOp通過結合每張圖片的圖像上下文和CoOp中的可學習提示來生成條件性圖像提示。這種方法使得CoCoOp在新類別上相對于CoOp有所改進,但也干擾了其在基類的表現。
3.3 超參數θ實驗
在本文的研究中,超參數θ的關鍵作用如公式(11)在于通過提示調整機制,將可學習的文本特征向通用文本特征逼近,從而直接影響最終損失函數在最終任務的表現,這種調整過程受到參數θ的嚴格約束。為深入分析參數對模型性能的影響,本文評估了不同參數值下模型的表現,結果如圖4所示。
具體而言,我們考察了模型在5個數據集的基礎類(Base)上的平均識別準確率、未知類別(New)的平均泛化準確率及其調和平均值(H),并將所有結果取平均值以分析參數對模型性能的整體影響。實驗結果表明,當參數θ退化至0時,模型的泛化性能降至最低。這表明在沒有正則化項的情況下,模型退化為原始的CoOp方法,難以有效捕捉文本特征的通用性。此外,這種性能下降可能與單一文本離散提示生成的嵌入特征空間表示過于稀疏有關,從而限制了模型的泛化能力。隨著正則化項θ的引入,模型訓練過程受到融合特征的約束,能夠有效防止基礎知識的遺忘,從而顯著提升泛化能力。實驗結果顯示,模型性能隨著θ值的增加呈現出先升后降的趨勢。當θ取值為0.1時,模型在基礎類、未知類別以及調和平均的3項關鍵性能指標上均達到最優表現。然而,隨著θ值進一步增大,盡管正則化項強化了特征的通用性,但過強的正則化可能削弱模型對基礎類細粒度特征的表達能力,導致性能有所下降。上述結果進一步驗證了合理設置超參數在提升模型泛化能力方面的重要性。
3.4 消融實驗
為了深入驗證所提出的基于注意力機制的特征融合模塊在增強模型整體性能方面的實際效果,我們設計并執行了一系列詳盡的消融實驗。這些實驗主要針對5個具有代表性的細粒度圖像分類數據集展開,旨在考察模型從基類到新類的泛化能力。具體來說,本實驗著重比較了模型在引入注意力機制前后的識別準確率的性能變化,這種比較主要體現在基類(Base)、新類(New)以及二者的調和平均值(H)這3個關鍵性能指標上。以這些指標的變化值(即引入注意力機制后的性能指標值與未引入時的性能指標值之差)作為衡量模型性能提升或下降的標準。若變化值為正,則意味著引入注意力機制后,模型的性能得到了顯著提升;反之,若變化值為負,則表明引入注意力機制后,模型的性能出現了下降。實驗結果詳見圖5所示。
實驗結果表明,在基類數據〔圖5(a)〕上,除 Flowers102 數據集外,其余4個數據集的模型分類準確率均出現了不同程度的提升。其中,Flowers102 數據集準確率僅略微下降了 0.14%,這一變化可能與該數據集內部樣本特征分布的獨特性或注意力機制對其基類特征表示的適配性有關。值得注意的是,在非遺美術圖像分類數據集上,基類的準確率提升了1.79%,顯示出該模塊在處理異質性較強的數據集時的顯著優勢。在不可見類別(New)的泛化性能方面〔圖5(b)〕,所有數據集的模型準確率均有所提升,進一步驗證了注意力機制在增強模型特征提取和跨類別推廣能力上的優勢。尤其是在非遺美術圖像分類數據集上,新類準確率的提升幅度高達 10.2%,為5個數據集中增幅最高的結果。這表明注意力機制能夠有效聚焦于關鍵特征,從而提高模型在復雜、細粒度分類任務中的泛化能力。此外,在綜合性能指標調和均值 H 上〔圖5(c)〕,相較于未引入注意力機制的基線模型,加入注意力機制后模型在所有數據集上均取得了顯著的性能提升。這一結果進一步說明,通過融合注意力機制,模型不僅能夠更好地保留基類的特征表示,同時在新類的泛化性能方面也得到了全面優化。
4 結論
本文提出的注意力機制驅動的上下文提示微調技術,有效解決了非遺美術圖像分類中的數據獲取難題和人工成本問題。在僅使用有限數據集和較低計算資源的情況下,該方法展現出了優異的分類表現。該方法通過結合可學習的文本嵌入與通用文本信息,僅需每個類別不超過16張圖片的數據量,便能實現高識別精度。此外,它在維持基礎類別識別精度的同時,顯著提高了對新類別(未在訓練中出現)的泛化能力,克服了CoOp和CoCoOp方法的缺陷。通過對多個基準測試的廣泛評估,本方法被證實是一種既高效又精確的提示調整策略,其泛化能力尤為突出。考慮到其對資源的低需求和高運算效率,該策略在數字文化遺產保護領域具有極大的應用前景。
參考文獻
[1] 黃永林.中國非遺傳承保護的四重價值[J].人民論壇·學術前沿,2024(1):76-83.
HUANG Y L. The protection and inheritance of Chinese intangible cultural heritage:Its quadruple values[J]. People’s Forum: Academic Frontier, 2024(1): 76-83.
[2] 王燕妮.中國民俗類非物質文化遺產分類研究[J].湖北民族學院學報(哲學社會科學版),2017,35(2):115-120.
WANG Y N. A study on the classification of chinese folklore intangible cultural heritage [J]. Journal of Hubei Minzu University (Philosophy and Social Sciences Edition), 2017, 35(2):115-120.
[3] 季長清,高志勇,秦靜,等.基于卷積神經網絡的圖像分類算法綜述[J].計算機應用,2022,42(4):1044-1049.
JI C Q, GAO Z Y, QIN J, et al. Review of image classification algorithms based on convolutional neural network[J]. Computer Applications, 2022, 42(4): 1044-1049.
[4] LE CUN Y, BOSER B, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[C]∥Proceedings of the 3rd International Conference on Neural Information Processing Systems. ACM, 1989: 396-404.
[5] ISMAIL FAWAZ H, LUCAS B, FORESTIER G, et al. InceptionTime: Finding AlexNet for time series classification[J].Data Mining and Knowledge Discovery, 2020, 34(6): 1936-1962.
[6] SENGUPTA A, YE Y T, WANG R, et al. Going deeper in spiking neural networks: VGG and residual architectures[J].Frontiers in Neuroscience, 2019, 13: 95.
[7] ZHU Y, NEWSAM S. DenseNet for dense flow[C]∥2017 IEEE International Conference on Image Processing (ICIP). September 17-20, 2017. Beijing, China. IEEE, 2017: 790-794.
[8] KOONCE B. Convolutional Neural Networks with Swift for Tensorflow: Image Recognition and Dataset Categorization[M].Berkeley, CA: Apress, 2021.
[9] 昝楠楠.基于全局CNN與局部LSTM的國畫圖像分類算法[J].自動化技術與應用,2024,43(4):115-117.
SUI N N. Chinese painting image classification algorithm based on global CNN and local LSTM[J]. Automation Technology and Application, 2024, 43(4): 115-117.
[10]生龍,馬建飛,楊瑞欣,等.基于特征交換的CNN圖像分類算法研究[J].計算機工程,2020,46(9):268-273.
SHENG L, MA J F, YANG R X, et al. Research on CNN image classification algorithm based on feature exchange [J].Computer Engineering, 2020, 46(9): 268-273.
[11]CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations[C]∥Proceedings of the 37th International Conference on Machine Learning. PMLR, 2020: 1597-1607.
[12]LIU X, ZHU Y, LIU L, et al. Feature-suppressed contrast for self-supervised food Pre-training[C]∥Proceedings of the 31st ACM International Conference on Multimedia. 2023: 4359-4367.
[13]朱若琳,藍善禎,朱紫星.視覺-語言多模態預訓練模型前沿進展[J].中國傳媒大學學報(自然科學版),2023,30(1):66-74.
ZHU R L, LAN S Z, ZHU Z X. Asurvey on vision-language multimodality pre-training[J]. Journal of Communication University of China (Natural Science Edition), 2023, 30(1):66-74.
[14]RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]∥International conference on machine learning. PMLR, 2021: 8748-8763.
[15]LEI Y, LI J, LI Z, et al. Prompt learning in computer vision: A survey[J]. Frontiers of Information Technology & Electronic Engineering, 2024, 25(1): 42-63.
[16]ZHOU K Y, YANG J K, LOY C C, et al. Learning to prompt for vision-language models[J]. International Journal of Computer Vision, 2022, 130(9): 2337-2348.
[17]ZHOU K Y, YANG J K, LOY C C, et al. Conditional prompt learning for vision-language models[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 16816-16825.
[18]YAO H T, ZHANG R, XU C S. Visual-language prompttuning with knowledge-guided context optimization[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 6757-6767.
[19]LI J, SELVARAJU R, GOTMARE A, et al. Align before fuse: Vision and language representation learning with momentum distillation[J]. Advances in neural information processing systems, 2021, 34: 9694-9705.
[20]GONDAL M W, GAST J, RUIZ I A, et al. Domain aligned CLIP for few-shot classification[C]∥Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision,2024: 5709-5718.
[21]LONG S F, ZHAO Z, YUAN J K, et al. Task-oriented multi-modal mutual leaning for vision-language models[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision,2023: 21959-21969.
[22]PHAM C, NGUYEN V A, LE T, et al. Frequency attention for knowledge distillation[C]∥Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision,2024: 2277-2286.
[23]CHORDIA S, PAWAR Y, KULKARNI S, et al. Attention is all you need to tell: Transformer-based image captioning[M]∥Advances in Distributed Computing and Machine Learning: Proceedings of ICADCML 2022. Singapore: Springer Nature Singapore, 2022: 607-617.
[24]LU J C, ZHANG J G, ZHU X T, et al. Softmax-free linear transformers[J]. International Journal of Computer Vision, 2024,132(8): 3355-3374.
[25]ZHANG J Y, HUANG J X, JIN S, et al. Vision-language models for vision tasks: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024,46(8):5625-5644.
[26]XIA P P, ZHANG L, LI F Z. Learning similarity with cosine similarity ensemble[J]. Information sciences, 2015, 307: 39-52.
[27]SUN G Y, CHENG Y N, ZHANG Z X, et al. Text classification with improved word embedding and adaptive segmentation[J]. Expert Systems with Applications, 2024, 238: 121852.
[28]LASTRAS L A. Information theoretic lower bounds on negative log likelihood[EB/OL].2019:1904.06395.https:∥arxiv.org/abs/1904.06395 vl.
[29]YU M X, WANG J, YOU R, et al.Multiple-local feature and attention fused person re-identification method[J].Intelligent Data Analysis, 2024, 28(6): 1679-1695.
[30]GUO A Y, SHEN K, LIU J J. FE-FAIR: Feature-Enhanced Fused Attention for Image Super-Resolution[J]. Electronics, 2024, 13(6): 1075.
[31]NILSBACK M E, ZISSERMAN A. Automated flower classification over a large number of classes[C]∥2008 Sixth Indian Conference on Computer Vision, Graphics & Image Processing. Bhubaheswar, India, IEEE, 2008: 722-729.
[32]ZHAO P S, XIE L X, ZHANG Y, et al. Universal-to-specific framework for complex action recognition[J]. IEEE Transactions on Multimedia, 2020, 23: 3441-3453.
[33]PINZN-ARENAS J O,JIMNEZ-MORENO R,PAC-HN-SUESCUN C G.ResSeg: Residual encoder-decoder convolutional neural network for food segmentation[J].International Journal of Electrical & Computer Engineering (IJECE),2020,10(1):1017.
(編 輯 亢小玉)
基金項目:虛擬現實技術與系統全國重點實驗室(北京航空航天大學)開放課題基金(VRLAB2024C02);文化和旅游部重點實驗室項目(1222000812、cr2021K01);西安市科技計劃社會發展科技創新示范項目(2024JH-CXSF-0014);國家自然科學基金(62271393)。
第一作者:張秦瑜,男,從事多模態大模型提示學習研究,zhangqinyu@stumail.nwu.edu.cn。
通信作者:劉鑫達,男,博士,講師,從事虛擬現實、人工智能與數字文化遺產保護等研究,liuxinda@nwu.edu.cn。