999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖像-文本大模型CLIP微調(diào)的零樣本參考圖像分割

2025-04-30 00:00:00劉杰喬文昇朱佩佩雷印杰王紫軒
計算機應用研究 2025年4期

摘 要:近年來,以CLIP為代表的視覺-語言大模型在眾多下游場景中顯示出了出色的零樣本推理能力,然而將CLIP模型遷移至需要像素水平圖-文理解的參考圖像分割中非常困難,其根本原因在于CLIP關注圖像-文本整體上的對齊情況,卻丟棄了圖像中像素點的空間位置信息。鑒于此,以CLIP為基礎模型,提出了一種單階段、細粒度、多層次的零樣本參考圖像分割模型PixelCLIP。具體地,采取了多尺度的圖像特征融合,既聚集CLIP中不同視覺編碼器提取的圖像像素級特征,同時又考慮CLIP中固有的圖像整體語義特征。在文本信息表征上,不但依靠CLIP-BERT來保持物體種類信息,還引入LLaVA大語言模型進一步注入上下文背景知識。最后,PixelCLIP通過細粒度跨模態(tài)關聯(lián)匹配,實現(xiàn)像素水平的參考圖像分割。充分的數(shù)值分析結(jié)果驗證了該方法的有效性。

關鍵詞:零樣本;CLIP;像素級;單階段;參考圖像分割

中圖分類號:TP391"" 文獻標志碼:A""" 文章編號:1001-3695(2025)04-038-1248-07

doi: 10.19734/j.issn.1001-3695.2024.06.0254

Zero-shot referring image segmentation based on fine-tuning image-text model CLIP

Liu Jie1, 2, Qiao Wensheng1, Zhu Peipei1, Lei Yinjie3, Wang Zixuan3

(1. Southwest China Institute of Electronic Technology, Chengdu 610036, China; 2. School of Resources amp; Environment, University of Electronic Science amp; Technology of China, Chengdu 611731, China; 3. School of Electronics amp; Information Engineering, Sichuan University, Chengdu 610065, China)

Abstract:

In recent years, large vision-language models represented by CLIP have demonstrated excellent zero-shot inference capabilities in numerous downstream scenarios. However, transferring the CLIP model to reference image segmentation, which requires pixel-level image-text understanding, is very challenging. The fundamental reason lies in the fact that CLIP focuses on the overall alignment between images and text while discarding the spatial position information of pixels in the image. In view of this, this paper proposed a single-stage, fine-grained, multi-level zero-shot reference image segmentation model called Pixel-CLIP based on the CLIP model. Specifically, this paper adopted multi-scale image feature fusion, which not only aggregated pixel-level image features extracted by different visual encoders in CLIP, but also considered the inherent overall semantic features of images in CLIP. In terms of textual information representation, this paper relied not only on CLIP-BERT to maintain object category information, but also introduced the LLaVA large language model to further inject contextual background knowledge. Ultimately, PixelCLIP achieves pixel-level reference image segmentation by realizing fine-grained cross-modal associative matching. Extensive experiments indicate the validity of PixelCLIP.

Key words:zero-shot; CLIP; pixel-level; one-stage; referring image segmentation

0 引言

深度學習的最新進展徹底改變了計算機視覺和自然語言處理,并解決了視覺和語言領域的各種任務[1]。最近多模態(tài)模型(如CLIP[2])取得成功的一個關鍵因素是在大量圖像和文本對上進行對比圖像-文本預訓練。它們在廣泛的任務上表現(xiàn)出了顯著的零樣本可移植性,如目標檢測[3]、語義分割[4]、圖像字幕[5]、視覺問答[6]等。盡管預訓練的多模態(tài)大模型具有良好的可移植性,但在處理諸如參考圖像分割等像素級密集預測任務時依舊具有挑戰(zhàn)性。參考圖像分割[7]是指在給定一個描述某區(qū)域的自然語言表達式的參考下實現(xiàn)分割圖像特定部分,是眾所周知的具有挑戰(zhàn)性的視覺和語言任務之一。參考圖像分割通常是零樣本分割任務,由于該任務不再受預定義類的限制,所以可以實現(xiàn)人機交互式圖像編輯等多種應用。然而,參考圖像分割比語義分割等任務更具挑戰(zhàn)性,因為它需要理解單個實體及其在語言表達式中表達的關系(例如,“一輛車在出租車和建筑后面”),并在分割過程中充分利用這種結(jié)構化關系信息。因此,任務模型應該能夠捕獲圖像和文本兩種模態(tài)語義實體之間的交互、聯(lián)合推理以及像素級預測。

經(jīng)典的零樣本參考圖像分割[8]采取一種“先融合,再分割”的流程:首先通過串聯(lián)-卷積操作進行跨模態(tài)特征交互,具體地,它們分別采用卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡提取圖像和文本特征,依靠可學習的融合算子將高維圖像、文本特征映射至非單一模態(tài)的空間中;接著,將跨模態(tài)特征送至像素水平的語義注釋模塊中以實現(xiàn)圖像分割,但是它們的魯棒性不高,只能限制在預定義好且有可學樣本的閉集中。

目前,已經(jīng)存在少量工作,聚焦于以CLIP為基礎,并將參考圖像分割拓展至零樣本的場景中[9],它們的主要工作流程為:a)依靠關鍵區(qū)域篩選網(wǎng)絡從自然圖像中提取一系列大小各異的框,以表示潛在的目標位置;b)將候選目標框送入CLIP框架中,采取圖像-文本匹配的方式,以零樣本范式為各個框中的像素點賦予語義標簽。然而,前述方法為兩階段的架構,需耗費大量的推理時間。一種可行的能提高效率的方案是基于CLIP框架的單階段的語義分割。但是,CLIP最初是為圖像-文本匹配場景構建的,它只是關注圖像-文本整體上的對齊情況,而丟棄了圖像中像素點的空間位置信息,故而將CLIP的零樣本能力直接從“圖像域”泛化至“像素域”非常困難,是領域內(nèi)一個亟待解決的難題。

本文針對微調(diào)CLIP實現(xiàn)零樣本參考圖像分割,提出全新框架和模型PixelCLIP。所提框架基于預訓練的CLIP微調(diào),其中視覺和文本編碼器為凍結(jié)狀態(tài),即在微調(diào)的過程中,兩種編碼器的權重參數(shù)均不更新,從而保證了CLIP零樣本能力的有效保留。模型主要貢獻如下三點:

a)充分挖掘CLIP圖像編碼器的潛力。一個凍結(jié)的CLIP模型可以有效提取視覺和語言特征,保留其對圖像和文本之間關系的豐富理解。當CLIP得到的圖像特征通過后續(xù)深度神經(jīng)網(wǎng)絡處理圖像時,直接使用CLIP最終輸出的圖像特征的視覺向量,會丟失關于物體相對位置的精確空間信息;然而,CLIP圖像特征提取采用的圖像編碼器的中間特征映射保留了空間信息和局部圖像語義[10]。本文提出一個框架多層細粒度特征融合網(wǎng)絡。

b)彌補CLIP文本編碼器的不足。CLIP的文本編碼器注重文本的類別信息;然而,在參考圖像分割任務中,參考文本通常只包含位置、邏輯等信息,因此CLIP的文本編碼器不能有效地利用參考文本。本文提出使用大型語言和視覺助手(large language and vision assistant,LLaVA)[11]的文本編碼器將豐富復雜的參考文本進行特征編碼,最終將CLIP和LLaVA得到的文本特征進行1D小波變換后在頻域融合進行反變換,從而得到增強后包含類別、位置、復雜邏輯的高級文本特征。

c)使用對比損失來學習像素及其相應文本的豐富語義聯(lián)合表示空間。CLIP自身將圖像作為一個整體,也將文本作為一個整體來獲取相關表征,依靠最小化相匹配的圖像-文本表征,最大化不相匹配的圖像-文本表征來進行訓練。但是,本文聚焦的是參考圖像分割,是一個像素水平的場景,需要得到像素點和文本中單詞的一致關系。因此,本文提出了一種基于文本-像素的對比損失作為目標函數(shù),以優(yōu)化視覺和語言兩種模態(tài)的跨模態(tài)查詢關系。

1 相關工作

1.1 視覺語言預訓練大模型

視覺語言預訓練大模型連接圖像表征和文本嵌入[12],在圖像檢索[13]、密集預測[14]、視覺表達[15]、視覺問答[16]等下游任務上取得了顯著的效果。其大致可以分為兩種主要類型:第一種是將視覺模態(tài)整合到大語言模型(LLMs)中,形成綜合性的LVLMs[17];第二種通過使用兩個不同的編碼器在潛在空間對齊大量圖像和原始文本。對于第一種類型, BLIP-2[18]通過使用輕量級查詢轉(zhuǎn)換器來彌合模態(tài)差距,并采用強大的LLM模型有效增強LVLM在視覺-文本任務中的強大能力。最近的LLaVa模型通過純語言 GPT[19]生成多模態(tài)語言圖像指令數(shù)據(jù)進行模型微調(diào),展示了令人印象深刻的多模態(tài)聊天能力。在第二種類型的背景下, CLIP作為目前最流行的視覺語言模型之一,通過文本-圖像對和對比學習對4億參數(shù)模型進行預訓練,將圖像和文本映射到一個共享的向量空間中,從而使得模型能夠理解圖像和文本之間的語義關系,該模型展示了圖像級分類的卓越能力。

1.2 零樣本學習

如今,監(jiān)督學習在很多任務上都達到了讓人驚嘆的結(jié)果,但其限制是:往往需要足夠多的樣本才能訓練出足夠好的模型,并且利用特定目標訓練出來的分類器就只能對該類目標進行分類,其他的目標都無法識別。這樣的模型顯然并不符合人們對人工智能的終極想象,人們希望模型具有通過推理進而識別新類別的能力。廣義的零樣本學習旨在通過轉(zhuǎn)換在見過的類上訓練的知識來預測以前沒有見過的類。早期的研究[20]利用類名或?qū)傩缘念A訓練詞嵌入[21],通過圖像的視覺表示與該詞嵌入之間的映射進行零樣本預測。最近,通過大規(guī)模圖像-文本預訓練對樣本學習有了新的進展,如CLIP、ALIGN[22]等。值得一提的是,CLIP展示了通過零樣本學習進行知識轉(zhuǎn)移在各種圖像級下游任務上的優(yōu)秀結(jié)果,如圖像字幕[23]、視頻動作定位[24]等。此外,CLIP處理像素級任務的潛力仍有待挖掘,因為從CLIP中解鎖可用性知識并不簡單,它在全局層面上將圖像表示與文本描述對齊,卻丟棄了空間信息。這使得它的嵌入不適合根據(jù)文本提示定位特定對象、細節(jié)等像素級任務。誠然,使用CLIP并進行微調(diào)從而實現(xiàn)處理像素級預測任務也已有非常成功的先例,例如目標檢測、語義分割等。

1.3 零樣本參考圖像分割

零樣本參考圖像分割是一種高級語義分割任務,其目標不是預定義的類,而是根據(jù)自然語言參考來標記圖像中表示對象實例的像素,由于文本和圖像之間具有不同的數(shù)據(jù)屬性,此常見模型很難很好地對齊文本和像素級特征。對于該任務,已經(jīng)有幾種完全監(jiān)督的方法,傳統(tǒng)的模型[25]首先分別通過CNN和LSTM提取視覺和語言特征,并直接將兩種模態(tài)連接起來,通過FCN以預測密集的分割蒙版。而后,MCN[26]嘗試設計了一個框架,同時優(yōu)化兩個相關的任務,即參考表達理解和切分,取得了令人印象深刻的效果。隨著注意力機制引起越來越多的關注,人們提出了一系列采用注意力機制的工作,如EFNet[27]設計了一種共注意力機制,利用文本逐步細化多模態(tài)特征,可以促進跨模態(tài)信息表示的一致性。最近,VLT[28]采用Transformer構建具有編碼器-解碼器注意力機制的網(wǎng)絡,以增強全局上下文信息。然而這些全監(jiān)督參考圖像分割方法總體上表現(xiàn)出良好的性能,但需要對目標蒙版進行密集的標注和對目標對象進行全面的描述。在零樣本參考圖像分割類的任務中,CLIP極具潛力,它是一個強大的預訓練多模態(tài)模型。本文嘗試保留其對圖像和文本之間關系的豐富理解,恢復提煉CLIP的空間、局部圖像語意等信息,精煉其輸出的特征以獲得精確定位的細粒度空間信息。

2 方法

本文對CLIP這個強大的預訓練多模態(tài)模型進行潛力挖掘,提出了一種像素級高特征細粒度的參考圖像分割模型Pixel CLIP。該框架擯棄了區(qū)域建議的雙階段方案,實現(xiàn)了單階段的參考圖像分割,具體結(jié)構如圖1所示。模型主要包含基于CLIP圖像編碼器的多層次細粒度特征提取融合模塊、基于LLaVA和CLIP文本編碼器的增強文本特征提取模塊和基于文本-像素對比學習損失三個部分。

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集介紹

實驗中雖然凍結(jié)了CLIP的編解碼器,但多層次細粒度圖像特征提取部分需要通過訓練才能夠?qū)LIP的圖像級推理與像素級預測聯(lián)系起來。訓練使用到的數(shù)據(jù)集是RefCOCO[30]、RefCOCO+[31]和RefCOCOg[32],這三個數(shù)據(jù)集是參考圖像分割的重要基準。

a)RefCOCO數(shù)據(jù)集(referring expressions for COCO)基于Microsoft COCO數(shù)據(jù)集,包含142 210個目標指示表達(referring expressions),這些表達用于描述19 994張圖像中的50 000個對象。本數(shù)據(jù)集遵循train/validation/test A/test B的拆分,其中test A的圖像包含了多人,test B的圖像包含了所有其他對象。RefCOCO數(shù)據(jù)集主要用于評估模型在目標檢測和自然語言理解方面的性能,特別是在圖像中準確定位特定對象的能力。

b)RefCOCO+數(shù)據(jù)集與RefCOCO類似,但有一個關鍵的不同之處:在描述中禁止使用絕對位置詞(如“左邊的”或“右邊的”)。這使得RefCOCO+數(shù)據(jù)集更具挑戰(zhàn)性,因為模型必須依賴對象的屬性和相對位置來確定目標。RefCOCO+包含141 564個目標指示表達,覆蓋19 992張圖像中的49 856個對象。這個數(shù)據(jù)集進一步評估了模型在處理更具描述性和復雜性的自然語言指示時的表現(xiàn)。

c)RefCOCOg數(shù)據(jù)集(referring expressions for google)由Google收集,包含85 474個目標指示表達,涵蓋26 711張圖像中的54 822個對象。與RefCOCO和RefCOCO+相比,RefCOCOg中的描述更長且更詳細,平均長度為8.4個單詞,而RefCOCO和RefCOCO+的平均長度分別為3.5和3.6個單詞。RefCOCOg數(shù)據(jù)集允許使用絕對位置詞和更復雜的描述,測試模型在處理更自然且詳細的語言表達時的性能。

這三個數(shù)據(jù)集各有特點,結(jié)合使用可以全面評估模型在圖像中目標指示和自然語言理解方面的能力。RefCOCO提供了基本的目標指示任務,RefCOCO+增加了描述性挑戰(zhàn),而RefCOCOg則提供了更詳細和復雜的自然語言表達。

3.3 實驗設置

本文中依靠加載權重存儲點的方法,采取預先訓練好的CLIP模型,其中視覺編碼器為ResNet-50和Vit-B,文本編碼器為BERT。本文在RefCoCO、RefCoCo+和RefCoCog三個數(shù)據(jù)集上微調(diào)模型,并進行相關實驗,微調(diào)過程中優(yōu)化器為Adam,訓練輪數(shù)為50,學習率為0.000 1。本文中,模型的輸入圖像大小為416×416,在RefCoCO和RefCoCo+上文本的長為17字符,而在RefCoCog上文本的長為22字符,其中句子中包括開頭標識符和結(jié)尾標識符[33]。本文采取oIoU和mIoU兩種定量指標和結(jié)果可視化來分析模型效果,為模型優(yōu)化提供支撐。本文中實驗的硬件配置為24 GB 3090Ti GPU顯存的。軟件配置為Ubuntu 20.04操作系統(tǒng),PyCharm集成開發(fā)環(huán)境,Python的版本為3.8。數(shù)據(jù)集劃分采用官方常用數(shù)據(jù)集劃分,測試集包含的實例對象即分割目標類別(例如蘋果)與訓練集不完全相同。提出的模型通過訓練集訓練后,在淺層空間實現(xiàn)了文本和圖像的對齊,從而在面對測試集未見過的分割目標類別(例如橘子)也能通過參考文本的引導實現(xiàn)分割,從而展示其零樣本能力。

3.4 定量性能對比實驗

將本文方法與其他結(jié)合CLIP編碼器實現(xiàn)圖像分割的方法進行比較。

a)Crad-CAM[34]。該方法依托于Crad-CAM機制,生成梯度加權類激活映射。在獲取了圖像與文本匹配的相似度得分后,會對所有預測的掩碼進行評估,并選擇得分最高的那一個。這種方法提供了一種基于梯度的可視化視角。

b)score map[35]。此方法從MaskCLIP中提取score map。類似MaskCLIP的結(jié)構,把注意力池化中的線性層和最后一層轉(zhuǎn)變?yōu)閮蓚€連續(xù)的1×1卷積層后,將ResNet提取的特征直接連接至這兩層,并通過CLIP的文本特征進行余弦相似度匹配。在本次實驗中,采取預測掩碼的平均化方法,選取得分最高的預測掩碼。

c)region token[36]。此方法基于Grad-CAM生成梯度加權類激活映射。利用圖像和文本對的相似度得分獲得激活映射后,會對所有預測的掩碼進行評估,選取得分最高的掩碼。

d)cropping方法[37]。與其他方法不同的是,其進行了局部特征的提取。通過使用CLIP的零樣本密集型預測任務,通常會用到cropping。本實驗也選擇將其作為零樣本任務預測掩碼的對比方法之一。

e)FDFR方法[38]。該方法在結(jié)合CLIP和NLTK分別提取圖像和文本特征的基礎上,使用了小波變換來進一步提取深層特征。

本文PixelCLIP分別使用ResNet-50和Vit-B/32作為CLIP編碼器,在RefCOCO、RefCOCO+和RefCOCOg三個數(shù)據(jù)集上,通過oIoU、mIoU和Dice指標進行評估,PixelCLIP在很大程度上超越了其他方法,對比結(jié)果如表1~3所示。

3.5 定性可視化分析

為了進一步直觀展示本文方法的有效性,圖3展示了將PixelCLIP與之前的對比模型應用于三例待分割圖像和參考文本的情況,并通過可視化的方式展示了這些方法與實際標簽間的對比。可以明顯看出,本文方法在理解參考文本和提取圖像細節(jié)方面表現(xiàn)得更為出色,實現(xiàn)了更高細粒度的圖像分割。

這種改進的方法能夠更精確地捕捉到圖像中的關鍵信息,尤其是在處理包含復雜細節(jié)和多對象場景的圖像時。此外,這些實驗結(jié)果不僅驗證了方法的高效性,也展示了其在實際應用中的潛力,特別是在需要精確圖像解析的應用場景中。

為了驗證模型中單個模塊的有效性,本文將分別對文本編碼器的選擇、小波變換進行探討并做消融實驗。CLIP部分本文使用的是ResNet-50圖像編碼器對圖像進行編碼,消融實驗結(jié)果如表4所示。

3.6 消融實驗

對于一維的小波變換,如果在模型特征融合之前不對文本編碼結(jié)果作小波變換,在ReFCOCO中消融后,oIoU下降了0.23,mIoU下降了0.68,在其他數(shù)據(jù)集也出現(xiàn)了類似的情況。具體結(jié)果在表4中顯示。

從上面的結(jié)果可以看出來,分別使用CLIP和LLaVA編碼以及CLIP+LLaVA來進行文本編碼部分的任務,還有在文本編碼后做一維小波變換這些模塊,系統(tǒng)的性能都會在添加對應模塊后有所提升。從圖3可以看到,只有CLIP TEXT文本編碼器對文本類別敏感,其能有效地指導模型分割出圖中的人,而LLaVA TEXT文本編碼器能對文本的綜合信息(包含復雜的位置關系)進行有效提取,能有效地指導模型分割出圖像中正確的地方,但存在類別特征不突出導致分割不夠精確的問題。此外,加入了1D小波變換的對比結(jié)果可以看到,小波變換能有效地在頻域上結(jié)合兩個文本編碼器的提取,進而有效地結(jié)合兩個編碼器提取的特征。

4 結(jié)束語

本文提出了一種基于CLIP圖像編碼器和小波變換文本特征融合的新方法PixelCLIP,用于零樣本參考圖像分割任務。首先,利用CLIP圖像編碼器提取圖像的粗特征和中間層細粒度特征,并通過多層次特征融合網(wǎng)絡將這些細粒度特征與圖像粗特征融合,從而保留圖像的空間信息和局部細節(jié)。其次,使用LLaVA的文本編碼器提取全局文本特征,通過小波變換將類別特征與全局特征融合,得到增強后的高級文本特征。最后將圖像特征和文本特征在匹配模塊中進行對齊和匹配,生成最終的分割掩碼。

通過實驗驗證,PixelCLIP在多個數(shù)據(jù)集上均表現(xiàn)出色,尤其在處理復雜的語言描述和長文本時具有明顯優(yōu)勢。這表明本文提出的網(wǎng)絡模塊在捕捉圖像和文本的細粒度信息以及在兩個模態(tài)之間建立精確的對應關系方面具有重要的價值。未來的研究方向可以進一步優(yōu)化模型結(jié)構,提升計算效率。

參考文獻:

[1]劉建偉, 劉媛, 羅雄麟. 深度學習研究進展 [J]. 計算機應用研究, 2014, 31(7): 1921-1930, 1942. (Liu Jianwei, Liu Yuan, Luo Xionglin. Research and development on deep learning [J]. Application Research of Computers, 2014, 31(7): 1921-1930, 1942.)

[2]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2021: 8748-8763.

[3]趙永強, 饒元, 董世鵬, 等. 深度學習目標檢測方法綜述 [J]. 中國圖象圖形學報, 2020, 25(4): 629-654. (Zhao Yongqiang, Rao Yuan, Dong Shipeng, et al. Survey on deep learning object detection [J]. Journal of Image and Graphics, 2020, 25(4): 629-654.)

[4]田萱, 王亮, 丁琪. 基于深度學習的圖像語義分割方法綜述 [J]. 軟件學報, 2019, 30(2): 440-468. (Tian Xuan, Wang Liang, Ding Qi. Review of image semantic segmentation based on deep learning [J]. Journal of Software, 2019, 30(2): 440-468.)

[5]佟國香, 李樂陽. 基于圖神經(jīng)網(wǎng)絡和引導向量的圖像字幕生成模型 [J]. 數(shù)據(jù)采集與處理, 2023, 38(1): 209-219. (Tong Guo-xiang, Li Yueyang. Image caption generation model based on graph neural network and guidance vector [J]. Journal of Data Acquisition and Processing, 2023, 38(1): 209-219.)

[6]包希港, 周春來, 肖克晶, 等. 視覺問答研究綜述 [J]. 軟件學報, 2021, 32(8): 2522-2544. (Bao Xigang, Zhou Chunlai, Xiao Kejing, et al. Survey on visual question answering [J]. Journal of Software, 2021, 32(8): 2522-2544.)

[7]羅希平, 田捷, 諸葛嬰, 等. 圖像分割方法綜述 [J]. 模式識別與人工智能, 1999, 12(3): 300-312. (Luo Xiping, Tian Jie, Zhuge Ying, et al. A survey on image segmentation methods [J]. Pattern Recognition and Artificial Intelligence, 1999, 12(3): 300-312.)

[8]沃焱, 韓國強, 張見威. 基于自適應預處理的圖像分割方法 [J]. 電子與信息學報, 2007, 29(1): 87-91. (Wo Yan, Han Guoqiang, Zhang Jianwei. Image segmentation method based on adaptive preprocessing [J]. Journal of Electronics and Information Technology, 2007, 29(1): 87-91.)

[9]Zhou Ziqin, Lei Yinjie, Zhang Bowen, et al. ZegCLIP: towards adapting CLIP for zero-shot semantic segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 11175-11185.

[10]Liang Feng, Wu Bichen, Dai Xiaoliang, et al. Open-vocabulary semantic segmentation with mask-adapted CLIP [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscata-way, NJ: IEEE Press, 2023: 7061-7070.

[11]Liu Haotian, Li Chunyuan, Wu Qingyang, et al. Visual instruction tuning [EB/OL]. (2023-12-11).https://arxiv.org/abs/2304.08485.

[12]Zhang Jingyi, Huang Jiaxing, Jin Sheng, et al. Vision-language mo-dels for vision tasks: a survey [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2024, 46(8): 5625-5644.

[13]Desai K, Johnson J. VirTex: learning visual representations from textual annotations [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 11157-11168.

[14]Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]// Proc of European Conference on Computer Vision. Cham: Springer, 2020: 213-229.

[15]Xu K, Ba J, Kiros R, et al. Show, attend and tell: neural image caption generation with visual attention [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2015: 2048-2057.

[16]Tan Hao, Bansal M. LXMERT: learning cross-modality encoder representations from Transformers [EB/OL]. (2019-12-03). https://arxiv.org/abs/1908.07490.

[17]Xu Peng, Shao Wenqi, Zhang Kaipeng, et al. LVLM-EHub: a comprehensive evaluation benchmark for large vision-language models [J/OL]. IEEE Trans on Pattern Analysis and Machine Intelligence. (2023-06-15). https://arxiv.org/abs/2306.09265.

[18]Li Junnan, Li Dongxu, Savarese S, et al. BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2023: 19730-19742.

[19]Yenduri G, Ramalingam M, Selvi G C, et al. GPT (generative pre-trained Transformer)—a comprehensive review on enabling technologies, potential applications, emerging challenges, and future directions [J]. IEEE Access, 2024, 12: 54608-54649.

[20]Han Zongyan, Fu Zhenyong, Chen Shuo, et al. Contrastive embedding for generalized zero-shot learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 2371-2381.

[21]Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality [C]// Proc of the 26th International Conference on Neural Information Processing Systems. New York: ACM Press, 2013: 3111-3119.

[22]Jia Chao, Yang Yinfei, Xia Ye, et al. Scaling up visual and vision-language representation learning with noisy text supervision [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR, 2021: 4904-4916.

[23]Mokady R, Hertz A, Bermano A H. ClipCap: clip prefix for image captioning [EB/OL]. (2021-11-18). https://arxiv.org/abs/2111.09734.

[24]Wang Mengmeng, Xing Jiazheng, Liu Yong. ActionClip: a new paradigm for video action recognition [EB/OL]. (2021-09-17). https://arxiv.org/abs/2109.08472.

[25]Li Ruiyu, Li Kaican, Kuo Yichun, et al. Referring image segmentation via recurrent refinement networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 5745-5753.

[26]Luo Gen, Zhou Yiyi, Sun Xiaoshuai, et al. Multi-task collaborative network for joint referring expression comprehension and segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 10031-10040.

[27]Feng Guang, Hu Zhiwei, Zhang Lihe, et al. Encoder fusion network with co-attention embedding for referring image segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2021: 15501-15510.

[28]Ding Henghui, Liu Chang, Wang Suchen, et al. Vision-language transformer and query generation for referring segmentation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 16301-16310.

[29]Bird S. NLTK: the natural language toolkit[EB/OL]. (2002-05-17). https://arxiv.org/abs/cs/0205028.

[30]Nagaraja V K, Morariu V I, Davis L S. Modeling context between objects for referring expression understanding" [C]// Proc of the 14th European Conference on Computer Vision. Cham: Springer, 2016: 792-807.

[31]Kazemzadeh S, Ordonez V, Matten M, et al. ReferItGame: referring to objects in photographs of natural scenes [C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 787-798.

[32]Mao Junhua, Huang J, Toshev A, et al. Generation and comprehension of unambiguous object descriptions [C]// Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 11-20.

[33]Yu Licheng, Poirson P, Yang Shan, et al. Modeling context in referring expressions [C]// Proc of the 14th European Conference on Computer Vision. Cham: Springer, 2016: 69-85.

[34]Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization [C]// Proc of IEEE International Conference on Computer Vision. Piscata-way, NJ: IEEE Press, 2017: 618-626.

[35]Zhou Chong, Loy C C, Dai Bo. Extract free dense labels from CLIP [C]// Proc of European Conference on Computer Vision. Cham: Springer, 2022: 696-712.

[36]Li Jiahao, Shakhnarovich G, Yeh R A. Adapting CLIP for phrase localization without further training [EB/OL]. (2022-04-07). https://arxiv.org/abs/2204.03647.

[37]Ding Jian, Xue Nan, Xia Guisong, et al. Decoupling zero-shot semantic segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11573-11582.

[38]林浩然, 劉春黔, 薛榕融, 等. 基于多模態(tài)特征頻域融合的零樣本指稱圖像分割 [J]. 計算機應用研究, 2024, 41(5): 1562-1568. (Lin Haoran, Liu Chunqian, Xue Rongrong, et al. Zero-shot referring image segmentation based on multimodal feature frequency domain fusion [J]. Application Research of Computers, 2024, 41(5): 1562-1568.)

主站蜘蛛池模板: 久久人搡人人玩人妻精品| 欧美狠狠干| 日韩区欧美区| 黄色在线网| 一本色道久久88亚洲综合| 国产成人精品一区二区| 香蕉视频国产精品人| 亚洲精品在线观看91| 久久久久亚洲精品无码网站| 日韩精品一区二区深田咏美| 凹凸国产熟女精品视频| 亚洲制服丝袜第一页| 久久精品国产999大香线焦| 色妞www精品视频一级下载| 四虎成人在线视频| 国产成人1024精品下载| 国产麻豆va精品视频| 91口爆吞精国产对白第三集| 国产99在线| 国产系列在线| 国产高清自拍视频| 欧美区国产区| 丰满人妻久久中文字幕| 国产大片黄在线观看| 国产人成在线观看| 国产久草视频| 中国丰满人妻无码束缚啪啪| 在线看片免费人成视久网下载| 亚洲最猛黑人xxxx黑人猛交 | 欧美区一区| 成人夜夜嗨| 伊人激情综合网| 尤物午夜福利视频| 无码日韩人妻精品久久蜜桃| 韩日午夜在线资源一区二区| 在线中文字幕日韩| 亚洲天堂自拍| 亚洲天堂日韩在线| 欧美日韩国产系列在线观看| 亚洲欧美成人影院| 久久香蕉国产线看观| 国产在线一二三区| 日韩一区精品视频一区二区| 色妞永久免费视频| 国产亚洲男人的天堂在线观看| 成年免费在线观看| 国产美女无遮挡免费视频网站 | 98精品全国免费观看视频| 97国产在线播放| 国产亚洲精品无码专| 一级毛片无毒不卡直接观看| 成年人国产网站| 在线观看国产精品日本不卡网| 国产99在线| 国产色偷丝袜婷婷无码麻豆制服| 九色在线观看视频| 久久一级电影| 中文成人在线| 欧美中文字幕在线播放| 国产超薄肉色丝袜网站| 好吊色妇女免费视频免费| 经典三级久久| 婷婷五月在线| 无码精油按摩潮喷在线播放 | 久久综合亚洲鲁鲁九月天| 亚洲精选高清无码| 亚洲精品动漫| 热久久这里是精品6免费观看| 久久午夜夜伦鲁鲁片无码免费| 99精品热视频这里只有精品7 | 欧美国产中文| 欧美日韩国产综合视频在线观看| 久久无码高潮喷水| 国产精品白浆无码流出在线看| 99热这里只有精品免费国产| 女人一级毛片| 91九色国产在线| 亚洲福利视频一区二区| 成人午夜久久| 91精品国产自产在线观看| 久久九九热视频| 国产丝袜精品|