999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CLIP文本特征增強的剪紙圖像分類

2025-07-28 00:00:00張新生陳鼎秦一冰
計算機應用研究 2025年7期
關鍵詞:類別剪紙模板

關鍵詞:視覺語言大模型;剪紙分類;小樣本分類;模態融合;提示學習 中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)07-010-1994-09 doi:10.19734/j.issn.1001-3695.2024.11.0485

Abstract:Toaddressthechallengesoflarge modalitygaps between textand image featuresand insuficient classprototype representationin paper-cut image clasification,this paper proposed a CLIP-based textfeature enhancement method(CLIP visualtextenhancer,C-VTE).Themethdextractedtext featuresthrough manualprompttemplates,designedavisual-textenhancement module,andemployedCrosssAtentionand proportionalresidualconnections tofuseimageandtextfeatures,therebyreducing modalitydiscrepancyandenhancing the expressiveabilityofcategoryfeatures.Experimentsonapaper-cutdataset andfourpublicdatasets includingCaltech01validatedits efectivenessForbase-classclasificationonthepaper-cutdataset, C-VTE achieved 72.51% average accuracy,outperforming existing methods by 3.14 percentage points. In few-shot classification tasks on public datasets,it attained 84.78% average accuracy with a 2.45 percentage-point improvement.Ablation experimentsdemonstratethatboth themodalityfusion moduleand proportional residual components contribute significantlytoperformanceimprovement.Themethodofersnovelinsightsforeficientadaptationof vision-languagemodelsindownstreamclassification tasks,particularly suited for few-shot learning and base-class dominated scenarios.

Key words:visual language large model;paper-cut classification;few-shotclasification;multimodal fusion;prompt learning

0 引言

在非遺領域中,剪紙主要是以圖片的形式存在,且種類復雜,數量繁多。然而如今剪紙圖像的采集工作主要是靠人工進行分類和歸納,造成了大量的人工、時間以及資金等資源的浪費。此外,現有的剪紙數據庫主要是按照作者所屬地來對剪紙圖像作分類,對剪紙的檢索造成困難。因此,如何利用圖像分類技術高效完成剪紙圖像的分類歸納工作是當前的研究重點之一。藝術作品具有數量零散性和內容主觀性,導致市面上缺乏對藝術圖像分類的相關研究,而非遺數字化的到來,誕生了大量煩瑣的藝術作品,找到合適的分類算法就顯得尤為重要。

在以往的研究中,主要是基于機器學習對剪紙圖像進行分類,如王曉云等人[1提出了一種基于多分辨Fourier-Mellin的剪紙紋樣識別算法;許鑫等人[2則是基于機器學習,研究剪紙圖像的自動分類識別。然而,這些算法存在精度低、準確率差的情況。而基于深度學習的圖像分類算法一般需要大量的標注數據集進行訓練才能保證模型的性能,在剪紙圖像中,類別數量不均,使用傳統的方法容易帶來長尾效應,因此可使用小樣本學習[3]的方法應對此問題。隨著Transformer[4]在計算機視覺領域的應用,圖像和文本之間的聯系更加密切,使得在圖像分類時能夠充分利用更多的文本信息,從而更好地完成圖像分類工作。在計算機視覺領域\"預訓練-微調\"范式是最常用的方式之一,不過這種方法的樣本需求量較大,在實驗樣本不足的情況下難以實現高效率微調。因此,如何使預訓練模型利用少量數據或者直接適用于下游任務,是當前一個重要的研究問題。使用基于視覺語言大模型的提示學習方法則可以很好地解決此問題。

例如 CoOp[5] 和 CoCoOp[6] 等提示學習方法,過多地強調模型在新類上的泛化能力,然而在實際用途中,例如剪紙圖像分類任務中,主要是根據現有的類別對大量無標簽圖像進行分類識別,對模型在新類上的泛化能力并無要求;此外,由于剪紙圖像的藝術抽象性和創作主觀性的影響,導致剪紙數據的文本與圖像關聯程度不高,類原型的表達能力較弱,致使現有的方法表現較差。此外,由于剪紙圖像的自由創造性強,隨著時間的推移會出現更多現在不存在的類別,出現新類別之后對原模型的微調又是一個問題。而利用基于 CLIP[7] 視覺語言大模型的提示學習則可以解決此問題,模型能夠對新類具有強大的泛化能力,其次由于訓練不會改變CLIP模型本身的參數信息,所以重新訓練的成本也不高。

針對以上問題,本文提出了一種基于CLIP將圖像特征融合到文本特征中的方法,與以往工作不同的是,本文并未對提示文本的上下文向量進行建模,而是對經過特征提取之后的文本特征進行處理。采用類似“aphotoofa|class.”的人工提示模板作為類別文本信息,通過文本編碼器得到文本特征。將圖像特征與文本特征進行模態融合,以此增強文本類別特征的表達能力,進而增強模型的分類能力。本文的主要貢獻有如下三點:

a)提出了一種利用多模態融合來增強CLIP的文本類別特征的表達能力的方法:CLIPvisualtextenhancer(C-VTE)。該方法將圖像特征整合到提示文本的特征向量中,從而減小剪紙數據文本-圖像兩種模態之間的差異性,提高圖像文本特征之間的關聯程度,增強類別原型特征的表達能力,進而在分類任務計算相似度(距離)時,能夠更準確地判斷其類別歸屬。

b)提出了一種比例殘差連接的結構,能夠根據數據集的不同自動調整殘差連接比例,在保留人工提示模板的優越性能的同時增強文本類別特征的表達能力。

c)在剪紙數據集和4個公開圖像分類數據集上進行了實驗驗證,在公開數據集中進行了小樣本分類、基類到新類泛化性的實驗,證明了C-VTE在平均性能上的優越性,并且在基類上表現突出。

1相關方法

本文方法是一種基于CLIP模型的提示學習,現有的基于CLIP模型的算法主要以提示學習為主要的研究方向。因此,本章首先介紹了視覺語言大模型的相關理論知識,其次描述了提示學習的相關概念和現有的一些研究。

1.1視覺語言大模型

在計算機視覺研究的早期,人們專注于探索特定問題的解決方法,如圖像描述[6\~8]、視覺問答[9,10]、圖文匹配[11,12]等。這些任務都需要模型具備對圖像內容的理解能力和文本生成的能力。隨著研究的深人,人們開始研究如何學習到圖像和文本的聯合表示,進而捕捉到視覺和語言的深層相關關系。近年來,隨著硬件的突破,人們開始訓練參數更大的模型,這些模型在海量的圖像文本數據集上進行預訓練,能夠捕捉到更加豐富和細致的圖文之間的內在聯系。這種利用海量數據集訓練出來的模型有著強大的泛化能力,被稱為視覺語言大模型,能夠快速地在各種下游任務中應用[13.14]

CLIP作為一個視覺語言預訓練大模型,被廣泛應用在各項下游任務上。例如,在圖像生成領域, BLIP[15] 通過預訓練框架統一了視覺語言任務的理解和生成,使其在圖形描述生成和視覺問答方面表現優異;StyleCLIP[1]利用CLIP模型作為損失函數,通過優化輸入的潛在向量來響應用戶提供的文本提示,進而引導圖像的生成;CLIPDraw[17]使用預訓練的CLIP模型實現了文本到繪圖的轉換;GLIP[18]和GLIPv2[19]通過結合CLIP的特征來增強圖像生成的質量。在語義分割領域,Lseg(lan-guage-drivensemantic segmentation)[20]利用CLIP的文本編碼器來引導圖像分割任務,實現了zero-shot的語義分割。在視頻理解領域,CLIP4Clip[21]將CLIP模型的知識遷移到了視頻語言檢索中,通過端到端的方式進行訓練,證明了其在視頻文本檢索任務重的有效性;ActionCLIP[22]則是一個基于CLIP的視頻理解動作識別模型,將視頻和標簽分別編碼計算相似度,利用分布的相似度計算損失,取得了優越的結果。在目標檢測領域,CLIP系列通過將目標檢測任務定義為短語定位任務,利用聯合訓練的圖像編碼器和語言編碼器來預測區域和單詞的正確匹配,提高了模型在目標檢測任務上的性能[23]。

這些研究足以證明CLIP模型在視覺語言多模態領域的重要地位和優秀的性能潛力。

1.2 提示學習

提示學習的概念最早出現在自然語言處理領域,如今在多模態領域也是一個重要的研究方法。其主要目的是通過精心設計的提示來引導預訓練模型解決特定任務。這種方法的核心是在不顯著改變預訓練模型參數的情況下,通過向模型輸入增加“提示信息”來解決問題。這種方法可以減少對大量標注數據的依賴,提高模型在小樣本甚至zero-shot情況下的性能。例如徐春等人[24提出了一種充分利用預訓練語言模型的基于提示學習的方法,驗證了模型在小樣本分類任務中的有效性。何麗等人[25]提出了一種語義調優的提示學習的方法,進而增強模型在小樣本識別的準確性。

在視覺語言多模態領域,提示學習主要是通過參數高效的方法使模型適應下游任務,提示學習分為文本提示學習和視覺提示學習兩種。例如 Coop[5] 就屬于純文本提示學習,通過不斷地建模生成文本提示,以此改進模型對圖像和文本的匹配。不過純文本提示學習容易導致模型泛化性差,因此研究人員嘗試將視覺信息引人到文本空間中作為文本提示學習的引導,如CoCoOp[6] DPL[26] 和 StyLIP[27]等,通過將圖像特征整合到文本的提示向量中,增強了模型的泛化性和靈活性。

此外,很多研究人員在CLIP的基礎上進行了提示學習方法的研究,如 MaPLe[28] 作為一個微調CLIP的多模態提示方法,提出了使用耦合函數,將文本和圖像編碼器中的提示學習聯系起來,作為兩種模式之間的橋梁,允許梯度的相互傳播,以促進協同作用。LASP(language-awaresoftprompting)[29]使用了一種新的圖文匹配的優化損失方法,并設計了對應的文本與外部知識的相似度損失,從而保留提示調優的泛化能力。KgCoOp(knowledge-guidedcontextoptimization)[30」提出了一種知識引導上下文優化的微調方法,通過減少可學習提示和人工提示之間的差異來緩解對一般文本知識的遺忘,以此緩解模型的過擬合問題。PL-UIC(prompt-based learningforunpairedimagecaptioning)[31]利用CLIP模型,通過不對齊的視覺語言樣本學習圖像描述,以此強化模型的圖像文本理解能力。UPT(unifiedprompttuning)[32]使用一個很小的神經網絡對視覺和文本模態的提示詞進行了優化,在few-shot上展現了較好的性能。TCP(textual-based class-aware prompt)[33]通過結合關于類的先驗知識,增強其可辨別性。CPL(concept-guidedpromptlearning)34利用CLIP模型,創建了一個視覺概念緩存,提高了在不同領域和任務之間傳遞視覺概念的能力。

綜上所述,這些研究都證明了CLIP模型強大的潛力,以及基于CLIP模型的提示學習的研究重要性。本文基于CLIP模型提出了一種新的提示學習,相較于CoOp和CoCoOp等基于CLIP模型的相關算法,C-VTE在基類上展現出了明顯的優勢。

2模型

本文模型是一個基于CLIP模型的提示學習方法,整體結構如圖1所示,與CoCoOp相似,它們都是通過圖像特征整合到文本提示向量中,以此增強類原型的表達能力。

所提出的方法主要由兩個特征適配器和一個模態融合模塊組成。其主要是利用實例圖像的特征動態與類別文本的特征進行特征融合,以此提高文本向量的表達能力。

圖1C-VTE 整體結構Fig.1Overall structure of C-VTE

2.1 理論分析

CLIP模型在zero-shot領域取得了極大的成果,證明了其強大的泛化能力,如何將其快速應用到下游任務中是當前的研究重點。針對此問題, CoOp (contextoptimization)[5]使用可以從數據端到端學習的連續向量對每個上下文令牌建模。具體來說, CoOp 并未使用“aphotoofa\"作為提示文本,而是通過 M 個可學習的上下文向量 {v1,v2,…,vM} ,作為提示文本的輸入,每個向量與單詞具有相同的輸入維度,通過訓練找到最合適的上下文向量作為提示文本的輸入,從而實現CLIP模型在下游任務中的高效應用。然而研究人員發現, CoOp 在未見類上的應用效果較差,因此在此基礎上提出了CoCoOp(conditionalcontextoptimization)[6]

CoCoOp的設計思路很簡單,它提出了一個輕量化的神經網絡Meta-Net,在訓練過程中,為每一個輸入圖像生成一個詞牌向量,然后與 CoOp 中提到的上下文向量相結合,將模型關注重點從特定類別轉移到每個輸入實例(圖像),從而提高模型對未見類的識別能力。

而 KgCoOp 發現 CoOp 中可學習的文本信息與人工提示模板在嵌入空間的距離越近,效果越好,即學習的文本信息是向著人工提示模板的方向進行的,提高可學習提示與固定的人工提示之間的相似度,可以增強模型的性能。因此,本文認為最佳的類別文本特征信息在嵌入空間的分布接近人工提示模板的特征向量所處位置,以人工提示模板為基礎中心,不斷優化和調整類別文本特征信息,能夠提高其類別原型的表達能力,以提高模型性能。

剪紙圖像的內容相較于真實圖像具有藝術抽象性和夸張性。受到創作者的主觀性影響,剪紙數據的類別文本與圖像之間的差異性較大,因此縮小模態之間的差異性,提高類別文本的表達能力是提高剪紙圖像分類準確率的重點。

綜上所述,本文提出的CLIP-visualtextenhancer(C-VTE),直接使用人工提示模板作為提示向量,放棄可訓練的上下文向量,以保存CLIP優秀的zero-shot能力。此外將每個輸入實例的特征整合到類別文本的特征向量中,以調整類別文本的空間分布情況,增強類原型的表達能力,并提高圖像和文本特征之間的關聯,減少模態差異性。

2.2 C-VTE

模型中,輸入被劃分為圖像和文本信息兩部分。將輸入數據集記為

其中: Strain 表示模型的訓練數據集; xi 表示第 χi 張輸人圖像; yi 是與第 i 張圖像相對應的類別文本; c 表示所有數據集; n 表示參與模型訓練的數據集數量。

將CLIP模型利用文本編碼器和圖像編碼器提取特征的過程分別寫成 Te(?) 和 Ie(?) 。對于文本信息,采用“Aphotoofa {class} .\"作為提示模板,在分類任務中,為每個類別使用提示模板進行文本信息的擴充得到 t 對輸人的數據進行特征提取,可以得到文本嵌入 w=Te(t) 和圖像特征 Ii=Ie(xi) 。對于CLIP模型,下一步就可以計算 Ii 和 w 之間的相似度,進而完成分類任務。這與度量學習相似,在度量學習中,是通過圖像數據集求得每個類別的類原型,之后計算輸人圖像與各個類原型之間的相似度(或者距離)關系,來判斷其類別。類似地,CLIP中的文本嵌人可以看作是度量學習中的類原型。

因此,本文提出了一種多模態融合的方法,即利用圖像特征,對文本信息的嵌人向量進行自適應的調整。這種方法使得文本嵌入向量,或者說“類原型”,能夠同時具備文本信息特征和圖像信息特征,從而提高嵌入向量的表達能力,增強模型的分類能力。設計了一種名為visualtextenhancer(VTE)的機制,通過融合輸入實例的圖像特征來增強文本嵌入向量的表達能力,使用 E(???) 表示這種變化,如式(2)所示。

其中: w 是 wi 的集合, wi 表示第 i 個類別的文本特征表示; T 是最終的類別文本向量; 是進行特征調整之后的圖像特征。通過最終文本嵌人向量 T 和調整之后的圖像特征 ,計算相似度關系,預測圖像的類別。預測類別的概率公式如式(3)所示。

其中: Ty 表示類別 y 所對應的文本嵌入向量; x 表示輸人的圖像; Nc 表示類別總數量; τ 是一個溫控變量。

對于損失函數,通過圖像真實標簽 y 和預測標簽 構建,通過最小化 y 和 之間的差值來優化參數。 的計算公式如式(4)所示。

其中: Max(?) 是一個最大值求取函數。此外,模型通過交叉熵損失函數來完成參數更新的過程。

VTE模塊是本研究的核心,主要由兩大關鍵部分組成:適配器和模態融合模塊,分別負責模態融合之前調整和執行模態融合任務。

適配器主要是由兩層線性層和激活層組成,并使用殘差結構連接。對于輸入圖像,利用CLIP的圖像編碼器進行特征提取,得到特征 Ii ,表示第 i 張圖像的特征向量,對其進行特征調整,如式(5)所示。

其中: 表示第 χi 張圖像進行特征調整之后的圖像特征向量;fimg(Ii) 表示通過一個輕量級的網絡對原始圖像特征進行調整的過程; α 和 β 表示殘差的比例系數,兩者的和為1。同樣地,對于類別文本的特征向量,如式(6所示。

其中: w 表示類別文本特征向量; W 表示特征調整之后的類別文本特征向量 :ftext(w) 表示對文本特征進行調整的輕量級網絡,與fimg(I) 參數不共享; λ 和 η 表示殘差的比例系數,兩者的和為1。

模態融合模塊的主要目的是將圖像特征 Ii 整合到類別文本特征 W 中,從而得到最終的類別文本特征表達向量 T 模塊采用了crossattention和殘差的思想,如式(7)所示。

其中: CA(?) 表示特征融合的過程; Q(W),K(Ii),V(Ii) 分別表示 Q,K,V 的輸人; δ 和 ε 表示殘差的比例系數,兩者的和為1;這里采用 w 作為殘差連接的參數,可以緩解梯度消失或梯度爆炸的可能,同時保留人工提示模板的特征信息。

2.3 實驗過程

實驗過程如圖2所示。首先,通過CLIP預訓練模型將輸入圖像和人工類別提示信息分別進行特征編碼得到 I 和 w ,利用VTE中的適配器將 I 進行調整得到 ,之后利用VTE的特征融合機制將 I 的特征信息融合到 w 中,從而得到用于分類的類別特征原型 T ,并通過最后的結果更新VTE的參數。需要注意的是,每次訓練的文本信息的輸人是相同的,都是針對數據集的人工提示模板。

訓練過程中除了調節VTE網絡模型本身的超參數外,對殘差比例的調節是提高模型性能的重要方向。在模型訓練時,將殘差比例設定為一個可參與訓練的超參數,通過設定不同的初始值篩選最合適的殘差比例,這種方法可以使模態融合更充分,得到的類別特征原型 T 的表達能力更加突出。

圖2實驗過程流程 Fig.2Experiment process flowchart

3實驗

傳統的提示學習方法,例如 CoOp 和 CoCoOp ,往往過分強調模型在處理未見類別時的泛化能力。然而,在現實世界的應用場景中,例如對大量圖像數據庫的分類整理,只要求利用現有類別對其進行分類歸納,這就要求模型對基類(即模型訓練時已見過的類別)的處理能力更為關鍵。通過一系列實驗,驗證了本文方法在處理基類時的性能優于現有的基于CLIP模型的提示學習方法。

在本章中,首先詳細介紹了實驗中使用的剪紙數據集和四個公開數據集,隨后在剪紙數據集上進行了對比實驗。之后為了進一步評估模型的泛化能力,利用公開數據集設計了小樣本分類實驗和從基類到未見類的泛化實驗。最終,通過消融實驗,探討了不同模塊對實驗結果的具體影響,以分析各個組件對整體性能的貢獻。

3.1實驗數據集

本文采用的剪紙數據集共2500張,分為27個類別,每個類別的數量分布不均,最多的有188張,最少有25張,部分數據集如圖3所示。

圖3剪紙數據集部分類別Fig.3Partial categories of the paper-cutting dataset

本文選擇四個公開數據集作為實驗對象:Caltech101、DTD(describingtexturesinthewild)、EuraSAT和UCF1O1。這些數據集涵蓋了多個分類任務,如常規的分類任務數據集Caltech101,用于衛星圖像分類的EuraSAT,用于動作識別的UCF101,以及用于紋理分類的DTD數據集等。

針對不同的實驗目標,對數據集進行相應的劃分。在研究模型處理常規小樣本圖像分類問題時,讓所有類別參與模型的訓練過程中。而在利用公開數據集進行實驗評估模型的泛化能力時,將數據集細致地劃分為基類(已見類)和新類(未見類)。使用基類進行模型的訓練,并用新類來測試模型對未見數據的泛化性能。此外,在進行消融實驗以探究各個模塊的必要性時,選擇了所有類別參與模型的訓練,以確保實驗結果的全面性和準確性。通過這樣的實驗設計,能夠全面評估模型在不同場景下的表現,并深入理解各個組件對模型性能的具體貢獻。

3.2 實驗細節

在實驗階段,統一采用CLIP模型作為所有實驗的特征提取基礎,特別選擇了視覺編碼器為ViT-B16版本的模型。為了減少實驗中隨機性因素的影響,對每項實驗重復進行了三次,并采用這些實驗的平均值作為最終結果。實驗全部在一臺裝備有RTX4090顯卡的服務器上進行。

在相似度計算方面,采用了余弦相似度函數來衡量不同特征之間的相似性。損失函數的設計則基于交叉熵損失函數,以優化模型的性能。模型的優化過程中,選擇了Adam優化器。實驗中,將Epoch數設定為200,每批處理的樣本數(batch-size)設定為32,殘差比例系數統一設置為0.0。在初始學習率的設定上,通過在剪紙數據集上進行廣泛的實驗分析,以確定最佳的學習率。根據實驗結果(詳見表1),當學習率設置為0.0001時,模型在分類任務上的表現最為優異。因此,選擇了這一學習率進行后續的實驗。這些精心設計的實驗參數,確保了實驗結果的可靠性和模型性能的最大化。

表1不同學習率的實驗結果 Tab.1Experimental results with different learning rates

選取一系列基于CLIP模型的提示學習方法作為對比模型,包括 CoOp[5] 、 CoCoOp[6] 、 KgCoOp[30] 和 ProGrad[35] ,以及CLIPZero-shot和CLIP-Linear。這些方法代表了當前基于提示學習的前沿技術。特別地,公開數據集中,CLIPZero-shot在實驗中使用了文本提示模塊“Aphotoofa {Class} .”,這一模板旨在引導模型正確識別和分類圖像中的對象。在剪紙數據集中,采用了“This isapaper-cuting imageabout{Class|.\"作為提示模板。在 KgCoOp 方法中,每個提示符的優化是通過使用6個令牌來實現的。而基于 CoOp 的算法則采用了原論文中的最佳搭配,每個提示符使用16個令牌進行優化,以期達到更精細的調整效果。

3.3 剪紙圖像分類

為了更全面比較不同方法在剪紙數據集上的表現,本文分別在1、2、4、8和 16-shot 以及all(全部數據)條件下進行實驗,并使用分類準確率和 F1 作為評價標準,實驗結果如表2所示。

表2剪紙圖像分類結果 Tab.2Paper-cutting image classification results/%

通過深入分析實驗結果,發現從整體性能角度來看,C-VTE在平均分類準確率和平均 F1 分數上分別達到了72.51% 和 65.58% ,這一成績顯著優于其他模型。進一步分析不同樣本數量條件下的表現,C-VTE在1、2、4、8、16-shot以及all條件下均展現出了領先的準確率和 F1 分數。這不僅證明了本文方法在剪紙圖像分類任務上具有卓越的性能,也凸顯了其在處理小樣本數據時的有效性,且無論在小樣本學習還是傳統分類任務中,都能夠保持穩定的高性能。

比較 16-shot 和all條件下的性能表現,發現雖然樣本數量有著很大的增加,但是準確率提高的幅度較小,例如CoCoOp的準確率僅僅提升了 0.7% 的水平,這是因為剪紙圖像數據集類別分布不均造成的結果,使用全部數據集進行分類實驗時,數據會呈現輕微的長尾效應,進而影響模型的性能表現。隨著未來剪紙數據庫的不斷填充,類別數量隨之豐富,可能會出現更強烈的長尾效應,因此,根據數據集的特點,使用合適的小樣本學習,能夠使模型具有高效穩定的性能表現。

3.4公開數據集驗證

為了進一步驗證模型的性能表現,選擇在四個不同領域的公開數據集進行一系列的實驗驗證,主要包括Few-shot實驗和Base-to-New泛化實驗。

3.4.1Few-shot實驗

為了探究模型對已見類別的分類性能,對于實驗數據集,選擇所有類別參與模型的訓練和測試,并采用16-shot的方式測試模型的性能,實驗結果如表3所示。

表3在4個數據集上的few-shot實驗Tab.3Few-shot experiments on four datase1%

表3中的M-Avg表示各方法在4個數據集上的平均性能,將這一指標作為不同模型性能優劣的評判標準。通過分析實驗數據,C-VTE展現出了最佳的性能。具體來說,在Caltech101數據集中相較于表現最好的 ProGrad 有0.67百分點的提升;在DTD數據集中相較于表現最好的KgCoop有2.59百分點的提升;在EuroSAT數據集中相較于表現最好的 CoOp 有2.3百分點的提升;在UCF101中相較于表現最好的ProGrad有2.45百分點的提升;在四個數據集上的平均性能表現相較于表現最優的 CoOp 有2.45百分點的提升。

為了進一步明確各模型間的性能差異,在不同的 n -shot條件下進行了實驗,分別在1-shot、2-shot、4-shot、8-shot和16-shot條件設置下,在4個數據集中進行了實驗,并將平均準確率作為評判標準,結果以折線圖的形式展示,如圖4所示。分析實驗結果,折線圖直觀地展示了在few-shot條件下不同方法的性能對比,能夠更清晰地觀察到各種方法在小樣本學習環境下的表現差異,可以看出C-VTE在各種few-shot條件下均表現最優。

圖4few-shot下的性能變化圖Fig.4Performance variation chart under few-shot conditions

綜合以上分析,可以得到以下結論:在基于CLIP模型處理下游任務的應用中,本文提出的C-VTE方法在多個方面相較于現有技術實現了顯著的性能提升。無論是在1-shot還是更高階的 n -shot學習條件下,C-VTE均展現出了卓越的性能。

3.4.2 base-to-new 實驗

參考CoCoOp對基類到新類的泛化性實驗,將每個公開數據集劃分為基類和新類兩組。所有方法在基礎類別上訓練,并在基類和新類上分別進行測試。實驗結果匯總于表4和5,其中表4展示了四個數據集上的具體性能,而表5提供了這些數據集的平均精度。

表4四個數據集基類到新類的泛化性實驗Tab.4Experiments on the generalization of four datasets from baseclassesto newclasses
表5基類到新類的泛化實驗在四個數據集上的平均精度 Tab.5Average accuracy of generalization experiments from baseclasses to new classes across four datasets

從表4中可以觀察到,在基類性能 Δbase(%) )方面,本文的C-VTE在所有數據集上均表現出卓越的性能,具體來說,C-VTE在Caltech1O1DTD、EuraSAT和UCF101數據集上的準確率分別為 98.45% (20 .83.10% 93.07% 和 86.40% ,其中在DTD、EuraSAT和UCF101數據集上均取得了最優結果。這些結果表明,C-VTE在處理訓練集中已見過的類別時,具有極高的準確度和穩定性。從表5中的整體性能來看,C-VTE在基類上的平均精度為 90.26% ,要高于其他方法。在新類泛化能力(new)方面,C-VTE雖然不是最佳,但仍然展現出了良好的性能。

綜上所述,C-VTE在基類性能上的優勢明顯,能夠高效地提高CLIP模型在下游任務中的應用效率,盡管在新類泛化能力上略遜于CLIP的zero-shot,但其整體平均性能仍然最為出色。這些結果表明,C-VTE在處理訓練集中已見過的類別時具有極高的準確度,同時在處理未見過的類別時也展現出了良好的泛化能力和優越性。未來的工作將致力于進一步提升C-VTE在新類泛化能力上的表現,以實現更全面的優化,提高模型的整體性能。

3.5消融實驗

本節中,主要對所提出的C-VTE方法進行了深入的模塊化分析,以探討不同組件對模型性能的影響。分析的重點包括主干網絡的選擇、人工提示模板與 CoOp 的性能對比、不同人工提示模板的效果差異、不同殘差比例初始化的比較,以及適配器結構的優化選擇。為了全面評估這些因素,本文選用了剪紙圖像數據集和四個數據集進行實驗,并以模型的平均性能作為評判標準。

實驗在 16-shot 的樣本設置下進行,確保每個數據集中的所有類別都參與到訓練和測試過程中。為了保持實驗的一致性和可比性,所有實驗均采用32的批次大小,并設定迭代次數為200。這樣的實驗設置旨在提供一個標準化的環境,可以準確地衡量不同模塊選擇對模型性能的具體影響,找到最佳的參數和模塊搭配。

3.5.1主干網絡(ViT,ResNet)的選擇

在探究不同視覺主干網絡對C-VTE方法性能影響的實驗中,選用了ResNet系列和visionTransformer(ViT)系列作為圖像特征提取的基礎架構,并在 16-shot 的實驗設置下,在剪紙數據集和四個公開數據集數據集上進行了全面的對比實驗。實驗結果如表6所示,M-Avg表示在所有數據集的平均性能,ViT-B-16主干網絡在各個數據集以及整體平均性能上均表現優異。

具體來看,ViT-B-16在Paper_cuter(剪紙數據集)、Caltech101DTD、EuroSAT和UCF101數據集上的分類準確率分別為 77.69%.96.87%.70.74%.87.35% 和 82.68% ,這些數據反映出其在不同類別的圖像識別任務中均能保持較高的準確度。將這些數據匯總后,ViT-B-16的主干網絡在所有數據集上的平均分類準確率達到了 82.87% ,這一結果明顯優于其他所測試的主干網絡。因此,得出結論:ViT-B-16作為視覺主干網絡,能顯著提升C-VTE方法在小樣本學習環境下的圖像分類性能,不過在實際應用中,應根據數據集的特點選擇合適的主干網絡,才能更全面地展現模型的性能。

表6不同視覺主干網絡的實驗結果Tab.6Experimental results of different visual backbone networks/%
3.5.2基于 CoOp 的變形

C-VTE方法主要采用了人工設計的提示模板作為模型的文本輸入,這與主流的基于 CoOp 的提示學習方法形成對比,后者通常依賴于模型自動生成的文本向量作為輸人。為了探索最適合C-VTE結構的文本提示組合,本部分選取了三種模型進行深入討論: CoOp,CoOp+VTE 和 CoOp+C-VTE 。

如第2章中圖1所示,VTE結構接收兩個輸入:text和image。在C-VTE模型中, text 輸入采用了一個固定的提示模板——“Aphotoofa丨class|”,該模板經過CLIP文本編碼器的特征提取過程,生成了用于模型的文本向量。這種方法利用了人工設計的提示模板來引導模型更好地理解和分類圖像。

相較之下, CoOp+VTE 模型采用了一種混合策略:首先通過 CoOp 方法生成文本提示向量,然后將這些向量作為VTE模型的text輸人。這種方法嘗試結合自動生成的提示和VTE結構的優勢,讓模型學習最合適的提示信息,以期達到更好的分類效果,結構如圖5所示。

圖5 CoOp+VTE 和 CoOp+C-VTE 結構Fig.5 CoOp+VTE and CoOp+C-VTE structure diagrams

進一步地, CoOp+C-VTE 模型將基于人工提示模板得到的文本向量與 CoOp 生成的文本向量相結合,形成了一個融合的text輸入。這種融合方法旨在匯聚人工設計和自動生成提示的優點,以進一步提升VTE模型的性能。在兩種情況下,image輸入保持相同的輸人,確保了實驗的公平性和可比性,結構如圖5所示。

C-VTE的實驗結果如表3所示,基于 CoOp 變形的實驗結果如表7所示。通過分析實驗結果,以M-Avg作為模型的評判標準可以發現,C-VTE(表3)模型整體表現最為出色,主要是由于人工設計的提示模板與VTE模塊的協同作用。 CoOp+ C-VTE模型,即融合了人工提示模板與 CoOp 生成的文本向量,排名第二,表明混合提示策略同樣能提升模型性能。最后是 CoOp+VTE 模型,它利用 CoOp 生成的文本向量并結合VTE模塊,性能略低于前兩者,但仍優于基礎的 CoOp 模型。Coop模型在這些方法中表現相對最低,這凸顯了VTE模塊在增強文本特征表達能力方面的重要性,以及VTE在增強特征表達能力方面的卓越性能。

最終,得出結論:人工設計的提示模板平均性能優于基于CoOp自動生成的文本提示方法。此外,VTE模塊的加入顯著提升了文本特征的表達能力,從而增強了模型的整體性能。這一點通過比較不同模型變體的性能得到了進一步的驗證,證明了VTE模塊在提升分類準確率方面的有效性。

表7基于CoOp的對比實驗 'ab.7Comparative experiments based on CoOl

3.5.3不同人工提示模板的對比

不同的文本提示模板會對模型的性能產生不同程度的影響,選擇符合圖像類別信息的文本提示能夠大幅度增強模型的分類效果。

對于剪紙數據集,本文設計了一種“Thisisapaper-cuttingimageabout {Class} .\"提示模板。對于公開數據集,參考Pro-Grad[35] 中對每個數據集的提示文本,如表8所示。選擇不同的三個提示模板所對應的數據集:DTD、EuraSAT和UCF101,在16-shot的實驗設置下,選擇使用不同的提示模板進行對比實驗,網絡模型選擇C-VTE。

表8手工提示模板Tab.8Hand-crafted prompt templates

實驗結果如表9所示,顯示出了不同數據集對提示模板的敏感性。在剪紙數據集和DTD數據集中,特定的提示模板表現較優,而在EuroSAT和UCF101數據集中,統一的提示模板效果更好。從平均性能方面分析,根據數據集特意設計的提示模板表現更好。平均性能與特定設計的提示模板僅相差0.1% ,表明統一的提示模板和特定設計的提示模板性能相差不大,即不同的人工提示模板對模型性能有一定影響,但這種影響相對有限。

3.5.4不同殘差比例初始化的比較

本文的適配器和模態融合時都用到了一種殘差比例結構連接方式。在訓練過程中,將殘差比例作為一種可參與訓練的超參數,用模型來調節殘差比例的大小。然而不同的初始化值對最終的結果影響較大,因此本文對殘差比例的初始值展開了討論,并進行了實驗分析,本文的模型共有三處使用了這種殘差比例連接的方式(見式(5)\~(7)),將三者的殘差比例初始值設為相同的數值,相對應的另一個殘差比例使用類似 1-μ 表示,其中 μ 表示殘差比例,實驗結果如表10所示。

表9不同手工提示模版性能Tab.9Performance of different manually crafted prompt templates 1%
表10不同殘差比例初始值的實驗結果

通過分析實驗結果,可以看出不同的殘差比例初始值對于模型的效果影響較大,對于剪紙圖像數據集,最優的殘差比例初始值為0.6,能夠達到 78.91% 的準確率。

3.5.5適配器結構的選擇

適配器的輸入和輸出尺寸需要保持一致,除線性層之外,使用自注意力機制也能達到此目的,分別采用兩種結構作為模型的適配器,在剪紙數據集上進行實驗。

實驗結果如表11所示,清晰地展示了兩種適配器結構在剪紙數據集中的準確率。使用線性層作為適配器的基礎網絡,模型達到了 77.69% 的準確率,而采用自注意力機制的適配器結構,其準確率為 77.58% 。雖然兩種結構的平均準確率非常接近,但線性層適配器以微弱的優勢勝出。

表11不同結構的適配器實驗結果Tab.11Experimental resultsof adapterswith different structures

最終,得出結論:在適配器的設計中,線性層因其簡潔性和較低的計算復雜度,在保持輸入輸出尺寸一致的同時,能夠略微提升模型的整體性能。自注意力機制雖然在某些情況下能夠捕捉到更復雜的特征關系,但在本實驗的設定下,它并沒有帶來預期的性能提升,反而由于其更高的計算成本,導致平均準確率略有下降。

4結束語

針對剪紙圖像的分類問題,提出了一種基于CLIP文本特征增強的提示學習方法,具體來說,本文利用人工提示模板作為模型的文本類別信息輸入,通過CLIP的文本編碼器進行特征提取,得到其在嵌人空間中的特征向量。在模型訓練過程中,通過CLIP的圖像編碼器得到每個輸入實例(圖像)的特征信息,將其與文本信息的特征向量通過VTE進行特征融合,得到的結果作為進行分類任務的文本類別特征。這一過程使得文本類別特征中存在相對應的圖像特征信息,減少兩種模態之間的差異性,提高圖像與文本之間的關聯程度,增強類原型的表達能力,進而在分類任務計算相似度(距離)時,能夠更準確地判斷圖像的類別歸屬。

在剪紙數據集上進行了實驗驗證,結果表明,本文方法相較于同類方法具有明顯的性能優勢。此外,為了進一步驗證模型的性能,本文在四個公開圖像分類數據集進行了小樣本分類、base-to-new等實驗驗證模型的性能,結果顯示,C-VTE在4個數據集中的平均性能均優于現有的相關方法。同時通過多組消融實驗驗證所提方法的有效性,以及分析各個模塊之間的最佳搭配。進一步證明了本文提出的C-VTE方法能夠顯著提升CLIP模型在下游分類任務中的應用效率,特別是在基類分類方面。雖然C-VTE在新類的泛化性方面還有待提高,但其在基類任務上的優勢已經為相關領域的研究和應用提供了重要的價值。未來的工作將考慮如何進一步提升模型對新類別的泛化能力,以及探索殘差比例最佳初始值,以增強模型的可遷移性,從而在更廣泛的應用場景中發揮其潛力。

參考文獻:

[1]]王曉云,韋月瓊,秦芳遠,等.基于多分辨Fourier-Mellin 變換的剪 紙紋樣識別算法[J].計算機科學,2010,37(5):268-270. (Wang Xiaoyun, Wei Yueqiong,Qin Fangyuan,et al. Algorithm for recognition methods of paper-cutting's patterns based on multiresolution Fourier-Mellin transform[J].Computer Science,2010,37 (5):268-270.)

[2]許鑫,鮑小春.基于機器學習的剪紙圖像自動分類研究[J].圖書 館雜志,2018,37(7):88-96.(Xu Xin,Bao Xiaochun.Research on automatic classification of paper cuting images based on machine learming[J]. Library Journal,2018,37(7) :88-96.)

[3]Wang Yikai,Xu Chengming,Liu Chen,et al.Instance credibility inference for few-shot learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattrn Recognition.Piscataway,NJ:IEEE Press,2020:12833-12842.

[4]Vasuwani A,Noam S,Niki P,et al. Attention is all you need[C]// Proc of the 31st International Conferenceon Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000- 6010.

[5]Zhou Kaiyang,Yang Jingkang,Loy C C,et al.Learning to prompt for vision-language models [J]. International Journal of Computer Vision,2022,130(9):2337-2348.

[6]Zhou Kaiyang,Yang Jingkang,Loy C C,et al. Conditional prompt learning for vision-language models [C]//Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway,NJ: IEEEPress,2022:16795-16804.

[7]Radford A,KimJW,HallacyC,etal.Learning transferable visual models from natural language supervision[C]//Proc of the 38th International Conference on Machine Learning.2021:8748-8763.

[8]劉天義,吳祖煊,陳靜靜,等.面向視覺語言理解與生成的多模態預 訓練方法[J].軟件學報,2023,34(5):2024-2034.(Liu Tianyi,Wu Zuxuan,Chen Jingjing,et al. Multimodal pre-training method for visionlanguage understanding and generation[J]. Journal of Software, 2023,34(5) :2024-2034.)

[9]Jin W,Cheng Yu,Shen Yelong,et al.A good prompt is worth millons of parameters :low-resource prompt-based learning for vision-language models[C]//Proc of the 6Oth Annual Meeting of the Association for Computational Linguistics.2022:2763-2775.

[10]Wang Ning,Xie Jiahao, Wu Jihao,et al. Controllble image captioning via prompting[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2023:2617-2625.

[11]Tsimpoukelli M,Menick J,Cabi S,et al. Multimodal few-shot learning with frozen language models[EB/OL]. (2021-07-03).htps://arxiv. org/abs/2106.13884.

[12]Guo Jiaxian,Li Junnan,Li Dongxu,etal.From imagesto textual prompts ;zero-shot visual question answering with frozen large language models[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:10867-10877.

[13] Liu Tianyi,Wu Zuxuan,Chen Jingjing,et al.Multimodal pre-training method for vision-language understanding and generation[J]. International Journal of Software and Informatics,2023,13(2):143- 155.

[14]He Xuehai,Yang Diji,Feng Weixi,et al. CPL:counterfactual prompt learning for vision and language models[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2O22 :3407-3418.

[15]Li Junnan,Li Dongxu,Xiong Caiming,et al. BLIP:bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//Proc of International Conference on Machine Learning.2022;3407-3418.

[16]Patashnik O,Wu Zongze,Shechtman E,et al. StyleCLIP: text-driven manipulationof StyleGAN imagery[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press, 2021:2065-2074.

[17]Frans K,SorosL B,Witkowski O.CLIPDraw:exploring text-to-drawing synthesis through language-image encoders [EB/OL].(2021-06- 29).https://arxiv.org/abs/2106.14843.

[18]Mallik M,GaillotDP,ClavierL.GLIP:electromagnetic field exposure mapcompletionbydeep generativenetworks[C]//Proc of the 35th IEEE International Symposium on Personal,Indoor and Mobile Radio Communications.Piscataway,NJ:IEEE Press,2024:1-5.

[19]Zhang Haotian,Zhang Pengchuan,Hu Xiaowei,et al. GLIPv2:unifying localization and vision-language understanding[EB/OL].(2022-10- 11).https://arxiv.org/abs/2206.05836.

[20]Li B,Weinberger KQ,Belongie SJ,et al. Language-driven semantic segmentation[EB/OL].(2022-01-10).htps://arxiv.org/abs/ 2201. 03546.

[21]Luo Huaishao,JiLei,Zhong Ming,et al.CLIP4Clip:an empirical study of CLIP for end to end video clip retrieval and captioning[J]. Neurocomputing,2022,508:293-304.

[22]Wang Mengmeng,Xing Jiazheng,Mei Jianbiao,et al. ActionCLIP: adaptinglanguage-image pretrained models for video action recognition [J].IEEE Trans on Neural Networks and Learning Systems, 2025,36(1) :625-637.

[23]Shen S,LiLH,TanH,et al.How much can CLIPbenefit vision-andlanguage tasks [EB/OL].(2021-07-13). https://arxiv.org/abs/ 2107.06383.

[24]徐春,吉雙焱,馬志龍.基于提示學習和超球原型的小樣本ICD 自 動編碼方法[J].計算機應用研究,2024,41(9):2670-2677.(Xu Chun,Ji Shuangyan,Ma Zhilong. Few-shot ICD automatic coding method based on prompt learning and hypersphere prototypes [J]. Application Research of Computers,2024,41(9) :2670-2677.)

[25]何麗,曾曉勇,劉杰,等.面向小樣本命名實體識別的實體語義優 先提示學習方法[J].計算機應用研究,2024,41(12):3622- 3627.(He Li,Zeng Xiaoyong,Liu Jie,et al. Entity semantic-priority prompt learning method for few-shot named entity recognition [J]. ApplicationResearchofComputers,2024,41(12) :3622-3627.)

[26]Hénaff OJ,SrinivaS,FauwJD,etal.Data-efficient imagerecognition with contrastive predictive coding[EB/OL].(2019-05-23). https:// arxiv.org/abs/1905.09272.

[27]BoseS,FiniE,Jha A,etal.StyLIP:multi-scale style-conditioned prompt learning for CLIP-based domain generalization [C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ:IEEE Press,2024:5530-5540.

[28]Khattak MU,Rasheed HA,Maaz M,etal.MaPLe:multi-modal prompt learming[C]//Proc of IEEE/CVF Conference on Computer Visionand Pattern Recognition.Piscataway,NJ:IEEE Press,2023: 19113-19122.

[29]Bulat A,Tzimiropoulos G.LASP:text-to-text optimization for languageaware soft prompting of vision amp; language models [C] //Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:23232-23241.

[30]Yao Hantao,Zhang Rui,Xu Changsheng.Visual-Language prompt tuning with knowledge-guided context optimization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:6757-6767.

[31]Zhu Peipei,Wang Xiao,Zhu Lin,et al.Prompt-based learning for unpairedimagecaptioning[J].IEEETransonMultimedia,2O22,26: 379-393.

[32]Zang Yuhang,Li Wei,Zhou Kaiyang,et al.Unified visionand language prompt learning [EB/OL]. (2022-10-14). https://arxiv. org/ abs/2210.07225.

[33]Yao Hantao,Zhang Rui,Xu Changsheng,et al. TCP: textual-based class-awareprompt tuning forvisual-language model[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2024:23438-23448.

[34]Zhang Yi,Zhang Ce,Yu Ke,et al. Concept-guided prompt learning for generalization in vision-language models[C]//Proc of AAAI Conferenceon Artificial Intelligence.Palo Alto,CA:AAAI Press,2024: 7377-7386.

[35]Zhu Beier,Niu Yulei,HanYucheng,etal.Prompt-aligned gradient for prompt tuning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:15613-15623.

猜你喜歡
類別剪紙模板
特大跨徑寬幅PC部分斜拉橋箱梁內模配模設計研究
我國中醫全科醫生隊伍發展現狀及統計優化建議
刺槐蜂蜜的高特異性PCR檢測技術體系的建立
中國測試(2025年7期)2025-08-20 00:00:00
剪紙
基于大語言模型的汽車故障記錄自動標注方法研究
壯壯有多少張剪紙
基于GraspNet的物體平鋪場景下類別導向抓取算法
商品說明書語言文字使用情況的調查與分析
今古文創(2025年20期)2025-08-08 00:00:00
中職生心理健康素養類別及其對主觀幸福感的潛在轉變分析
混凝土澆筑施工技術在建筑工程施工中的應用分析
主站蜘蛛池模板: 怡红院美国分院一区二区| 国产96在线 | 亚洲综合二区| 她的性爱视频| 亚洲色成人www在线观看| 国产乱子伦无码精品小说| 亚洲精品制服丝袜二区| 久久久久青草线综合超碰| 国产成人精品2021欧美日韩| 精品少妇人妻一区二区| 国产尤物jk自慰制服喷水| 2020最新国产精品视频| 欧美成人手机在线观看网址| 日韩小视频在线播放| 亚洲资源站av无码网址| 亚洲手机在线| 亚洲综合第一区| 少妇高潮惨叫久久久久久| 亚洲国产清纯| www.国产福利| 国产人人射| 午夜a视频| 久青草免费在线视频| 成人免费一级片| 精品日韩亚洲欧美高清a | 九色视频最新网址| 欧美日韩国产在线观看一区二区三区 | 玩两个丰满老熟女久久网| 无码免费的亚洲视频| 最新痴汉在线无码AV| 亚洲一区二区约美女探花| 亚洲黄色成人| 毛片网站观看| 69精品在线观看| 伊人91视频| 青青草原国产免费av观看| 国产午夜在线观看视频| 亚洲九九视频| 毛片视频网| 久久成人18免费| 在线观看精品国产入口| 亚洲AV无码不卡无码| 国模私拍一区二区三区| 夜夜拍夜夜爽| 看国产毛片| a级毛片免费看| 新SSS无码手机在线观看| 亚洲综合精品香蕉久久网| 久久特级毛片| 国产福利小视频高清在线观看| 国产成人综合日韩精品无码首页| www.亚洲一区二区三区| 国产免费久久精品99re丫丫一| 99视频精品全国免费品| 91国内在线视频| 国产区在线观看视频| 国产精品一老牛影视频| 国产欧美日韩资源在线观看| 免费国产高清视频| 四虎国产永久在线观看| 国产成人1024精品| 99热国产这里只有精品9九| www.99精品视频在线播放| 91精品综合| 成人一区专区在线观看| 欧美亚洲网| 黄色片中文字幕| 91在线一9|永久视频在线| 欧美一级专区免费大片| 欧美一级视频免费| 91丨九色丨首页在线播放| 青青青视频免费一区二区| 欧美丝袜高跟鞋一区二区| 日韩欧美中文在线| 亚洲国产天堂久久综合226114| 色综合天天综合| 日韩精品一区二区三区swag| 日韩av手机在线| 91福利片| 四虎影视无码永久免费观看| 免费高清a毛片| 国产精品对白刺激|