999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向圖像文本的多模態處理方法綜述

2024-06-01 12:54:18姜麗梅李秉龍
計算機應用研究 2024年5期
關鍵詞:融合

姜麗梅 李秉龍

摘 要:在深度學習領域,解決實際應用問題往往需要結合多種模態信息進行推理和決策,其中視覺和語言信息是交互過程中重要的兩種模態。在諸多應用場景中,處理多模態任務往往面臨著模型架構組織方式龐雜、訓練方法效率低下等問題。綜合以上問題,梳理了在圖像文本多模態領域近五年的代表性成果。首先,從主流的多模態任務出發,介紹了相關文本和圖像多模態數據集以及預訓練目標。其次,考慮以Transformer為基礎結構的視覺語言模型,結合特征提取方法,從多模態組織架構、跨模態融合方法等角度進行分析,總結比較不同處理策略的共性和差異性。然后從數據輸入、結構組件等多角度介紹模型的輕量化方法。最后,對基于圖像文本的多模態方法未來的研究方向進行了展望。

關鍵詞:多模態; 架構; 融合; 輕量化

中圖分類號:TP18?? 文獻標志碼:A?? 文章編號:1001-3695(2024)05-001-1281-10

doi:10.19734/j.issn.1001-3695.2023.08.0398

Comprehensive review of multimodal processing methods for image-text

Abstract:In the field of deep learning, solving problems often requires combining multiple modal information for reasoning and decision-making, among which visual and language information are two important modalities in the interaction process. In many application scenarios, processing multi-modal tasks often faces problems such as complex model architecture organization and inefficient training methods. Based on the above problems, this paper reviewed the representative achievements in the field of multimodal image text in the past five years. This paper first started from the mainstream multi-modal tasks and introduced related text and image multi-modal datasets and pre-training targets. Secondly, considering the visual language model based on Transformer and the feature extraction method, this paper analyzed from the perspectives of multi-modal organization architecture and cross-modal fusion methods, and summarized and compared the commonalities and differences of different processing strategies. Then it introduced the lightweight method of the model from data input, structural components and other aspects. Finally, it prospected the future research direction of multimodal methods based on image text.

Key words:multimodal; architecture; fusion; lightweight

0 引言

隨著互聯網規模的逐步擴大,待挖掘的數據信息呈爆炸式增長,傳統的機器學習算法無法對大規模復雜數據集進行擬合和運算。另外,隨著高性能和計算設備(GPU、TPU等)的換代發展,為深度學習挖掘大規模數據的能力提供了充分的硬件支撐。在多模態分支領域中,模型需要綜合處理不同模態的數據,提升深度學習模型接收多模態信息和理解多模態信息的能力,從而進行決策和推理。研究人員提出了一系列的多模態相關任務,如視覺問答(visual question answering)[1]、基于圖像的文本描述生成(image captioning)[2]等。針對各項任務,傳統的方式多由相關領域的專家手動構建標準數據集再進行訓練和評估。目前,深度學習模型大多是按照預訓練(pre-training)-微調(fine-tuning)的架構實現。通過在大規模數據集上完成預訓練目標來得到一組具有優異遷移能力的權重參數,然后在下游任務中對預訓練模型參數進行微調。預訓練-微調的架構提供了模型初始化方案,使模型無須對每個新的子任務都重新進行訓練,節省了訓練資源。因此,這種成熟優秀的模型訓練范式也可以很好地應用到多模態任務中。

2017年,Vaswani等人[3]提出了具有編碼器-解碼器(encoder-decoder)結構的Transformer模型,不僅很好地解決了機器翻譯問題,還為自然語言處理和圖像處理等領域提供了新的思路和方法。目前,預訓練微調方法大多采用Transformer模型為基礎模塊,其中,GPT[4]以Transformer的解碼器為基礎模型,通過無監督的學習方法,在沒有標簽的文本上訓練一個比較大的語言模型,在9個下游任務中得到最好的性能表現(state of art,SOTA);ViLT[5]同時將文本和圖像的embedding嵌入作為輸入,由Transformer的編碼器進行模態之間的交互,以Transformer為基礎的預訓練模型和自監督學習方式的結合,擺脫了模型對于大量標注數據的依賴和下游任務應用的局限性。當前,多模態任務面臨著模型架構組織方式龐雜、訓練方法效率低下等問題。本文面向圖像和文本兩種模態,系統地介紹了相關處理技術。首先介紹主流的多模態任務和多模態圖像文本數據集,分析重要的預訓練目標和方法;其次闡述視覺和文本信息特征各提取方法的優略;接著重點比較多模態架構中對于不同處理模塊的設計策略,從單流架構、雙流架構以及混合架構來分類闡述,并從融合時期的角度對模態融合方法進一步分析說明;然后從不同角度來分析輕量化構建大模型的思路;最后對多模態模型的研究方向以及發展趨勢進行了探討。

1 多模態任務及相關工作

1.1 視覺問答

視覺問答(visual question answering,VQA)以圖像和關于圖像開放式的自然語言問題作為輸入,以生成一個答案作為輸出,簡單來說,VQA任務就是對給定的圖片作出問答。該任務在實踐中有著廣泛的應用,如幼兒教育、商品搜索等。Gao等人[6]提出了一種將多模態特征在模態內和模態之間動態融合的框架(dynamic fusion with intra- and inter-modality attention flow,DFAF)。DFAF由Inter-MAF和Intra-MAF組成,該工作采用了Faster R-CNN[7]提取目標圖像的視覺特征,門控循環單元(GRU)[8]來提取圖像對應問題的文本特征。相較于Transformer,基于卷積的區域特征以及基于LSTM的文本解碼器并不能從全局角度對輸入信息進行關注,無法捕捉全局的依賴關系,從而無法充分進行跨模態學習。在第4章中將詳細介紹不同特征提取方式的優劣。

1.2 圖像-文本檢索

圖像-文本檢索(image-text retrieval)就是搜尋配對的圖像文本對,圖像文本檢索任務可以分為圖像查詢文本和文本查詢圖像兩種。不同模態之間的檢索主要是通過對圖像-文本數據進行相似度計算來實現,即同時利用單一模態和跨模態之間的聯系來挖掘語義關系。現有的大多數圖像文本檢索方法可以分為兩種:a)將整個圖像和文本嵌入到共享空間中挖掘語義關系;b)對圖像和文本進行單獨處理之后進行跨模態融合。目前,多采用第二種方式。ALIGN[9]在超過10億的有噪聲數據集上使用了雙編碼器結構,將視覺和語言的模態特征在共享嵌入空間中進行對齊,通過對比學習獲得了具有遷移能力的模型。區別于對比學習,Ma等人[10]充分利用了圖像和文本信息不同層級的匹配關系,使模型可以學習圖像與單詞、短語以及句子三個層級的文本信息之間的模態匹配關系。但雙編碼器的特征處理結構耗時更長,因此ViLT[5]將視覺特征和文本特征拼接,即將完整的圖像文本對嵌入到共享空間中,采用注意力機制進行跨模態處理,極大地簡化了網絡結構。

1.3 圖像字幕

圖像字幕(image captioning)任務是對目標圖像生成相關內容的文本描述,該任務的一個重要下游應用是以圖像生成字幕獲得低噪聲的圖像文本數據集。受機器翻譯任務的啟發,編碼器-解碼器的架構也可以用來解決圖像字幕任務。Vinyals等人[11]通過CNN提取圖像特征后,使用LSTM結構將其解碼為字幕,但LSTM無法并行處理數據的特點導致其不能很好地用于大數據背景下的預訓練學習。Huang等人[12]提出了attention on attention(AoA)模塊,該模塊擴展了傳統的注意力機制,在并行計算與全局注意力機制的基礎上進一步挖掘了注意力計算結果與查詢之間的關系。Pan等人[13]引入了雙線池化來改進傳統一階交互的注意力機制,即X-linear attention,從而實現了高階特征交互。BLIP[14]綜合以上工作提出一種多模態編碼器-解碼器混合模型,該結構可以有效地應用于多任務預訓練,其文本解碼器作為字幕生成器,使用語言模型預測目標(language modeling)來進行預訓練;文本編碼器用于去除圖像-文本數據集中噪聲(不匹配圖像文本對),實驗結果在COCO以及Nocaps的表現均達到了SOTA。

1.4 視覺-語言導航

Anderson等人[15]首次提出了視覺-語言導航(vision-and-language navigation,VLN)任務,并公開了基于真實環境的room-to-room數據集。視覺-語言導航任務要求智能體根據給定的自然語言指令在3D模擬環境中導航到目標位置,其大多被定義為一個文本到圖像的順序問題:位于預定義連接圖上的特定節點處,智能體通過選擇圖像表示和指令之間具有最大對應關系的相鄰節點來遍歷環境。因此,圖像文本匹配被認為是解決導航任務的關鍵。VLN-BERT方法[16]通過預測指令和視覺軌跡的兼容性來進行預訓練;Air-BERT方法[17]在室內圖像-文本對數據集上訓練路徑和指令的匹配任務,提出了從指令或者視覺觀察中挖掘時間信息對于預測智能體的動作很重要;HOP[18]提出了歷史感知代理任務和指令感知代理任務來幫助智能體理解歷史內容和時間順序以作出行為預測。大多數的VLN工作都集中在離散或者連續的環境當中,連續的空間導航更接近于真實世界,但是訓練的成本要遠超離散空間中的訓練成本,然而離散空間的訓練也很難轉換到連續的導航任務中。Hong等人[19]為了彌補連續環境到離散環境的差距,提出了在導航過程中使用候選路徑點將智能體轉移到連續環境中進行訓練的思想,實驗結果表明該工作極大地降低了離散到連續的差距,在R2R-CE和RxR-CE數據集上達到了SOTA。

其余相關多模態任務如表1所示。

2 多模態數據集

多模態視覺語言任務是一個具有極大潛力的發展方向。VLP大模型常常具有數據饑餓(data-thirst)的特性,即當模型具有大量的可學習參數和網絡架構層數,往往模型的性能和喂入的數據量成正相關趨勢,因此相關研究人員和學術組織為特定任務收集生成了大量的訓練數據。主要的圖像文本多模態任務的數據集如表2所示[1,25~36]。

伊利諾伊大學厄巴納香檳分校計算機系研究團隊認識到,來自于Web的圖像文本對數據,其中文本的描述可能與圖像并不匹配,甚至完全區別于人類所能從圖像中得到的信息,這種具有嚴重噪聲的圖像-文本數據會影響模型正確的學習能力和下游的泛化能力[25]。該團隊通過使用AmazonsMechanical Turk(MTurk) 來進行標注,而對MTurk標注任務前的資格測試可保證數據集的質量。參與標注的MTurk大多為非專業人員,也保持了相應字幕內容的豐富性。

Open Images V4[33]用于圖像分類、對象檢測、視覺關系等任務,該數據集擁有9 178 275張圖像,每張圖像具有包含多個對象的復雜場景。Open Images V7[36]提出了一種可以擴展到數千個類的語義分割注釋策略:從給定的圖像級別標簽開始,注釋者只回答由計算機模型自動生成的對每像素點的二值問題,從而更加高效地將分割注釋擴展到了更多的類。

VQA v1.0 [1]收集了MS COCO數據集中包含多個對象和豐富上下文信息的圖像,為了擴充VQA數據集對于高級推理的需求,創建了一個包含50 000種場景的抽象場景數據集,并且為每個場景都收集了5個標題。VQA中的視覺問題有選擇地針對圖像的不同區域,包括背景細節和潛在背景,通過提供準確的自然語言答案來反映真實世界的場景。Goyal等人[31]提出數據集的固有結構和語言中的偏見會導致模型忽略視覺信息,因此在VQA v2.0中通過收集互補圖像來平衡VQA數據集,從而使新數據集中的每個問題不僅與單個圖像相關,還與一對相似的圖像相關,使得問題擁有兩個不同答案。

Conceptual 12M(CC12M)[35]是一個具有1 200萬圖像文本對的數據集,專門用于視覺語言預訓練,CC12是由CC3M[37]進一步擴大而來。CC3M的構建使用基于圖像、基于文本和基于文本圖像三種基本的過濾類型,CC12M保留圖像文本過濾器,通過調整圖像過濾器和文本過濾器來達到CC12M的數據規模。

3 多模態預訓練目標

預訓練目標的選擇對整個訓練過程的成本以及最終模型的性能有著決定性的作用,以下將對匹配式預訓練目標(3.2節)和生成式預訓練目標(3.3~3.5節)兩類預訓練目標進行闡述。

3.1 圖像文本對比學習

在預訓練階段,圖像-文本對比學習(image-text contrastive learning,ITC)[38]用于學習圖像和文本在特征空間中更好的表示方式。對比學習將匹配的圖像文本看作正樣本對,不匹配的圖像文本看作負樣本對,使用余弦相似度來計算圖像特征和文本特征之間的相似度,即不斷優化正樣本之間的相似度,減小負樣本對之間的相似度,從而使得模型可以理解不同模態之間的共性和差異性,在特征空間中可以很好地匹配文字和圖像特征。圖像-文本對比學習的方式可以應用于多模態檢索類型的下游任務。本文將從一個批量的圖像文本對來介紹對比學習的具體實現方式。

利用式(1)(2)計算圖像文本正樣本對之間的softmax歸一化相似度,得到式(3)(4)。

其中:σ為溫度參數;pi2ti表示圖像到文本的第i個正樣本的相似度;pt2ii表示文本到圖像的第i個正樣本對的相似度。

通過訓練交叉熵損失H來最大化正樣本對之間的相似度以訓練模型,得到最終的期望結果如式(5)所示。

其中:D為預訓練數據集;yi2t、yt2i分別表示文本圖像ground-truth的獨熱相似度向量,相似度最高的圖像文本對概率為1,其余為0。

3.2 圖像文本匹配

圖像文本匹配(image-text matching,ITM)[39]可以看作是二分類問題,其主要目標是為了預測圖像和文本是否匹配。ITM可以讓模型學習視覺和語言模態之間的細粒度對齊。通常將圖像特征與文本經過模態融合處理后得到的跨模態Token [CLS]通過一個全連接層和softmax層來得到二分類的結果,其輸出結果用pi2m(I,T)表示,通過訓練交叉熵函數H得到損失公式為

Litm=E(I,T)~D[H(yi2m,pi2m(I,T))](6)

其中:yi2m為ground-truth標簽的獨熱向量;D為預訓練數據集。

在實際的訓練過程當中,部分負樣本同樣具有相近的語義信息,只在細粒度上的細節有所不同,也可以理解成最接近正樣本的負樣本,稱為難負樣本(hard negatives)。ALBEF[40]進行ITM訓練時,通過計算圖像文本之間的相似度來尋找每個批次中的難負樣本,這樣就能提升模型理解不同模態信息的能力。

3.3 遮罩語言模型預測

其中:ymsk為詞分布的獨熱向量,代表ground-truth的Token概率為1,其余Token的概率為0;D為預訓練數據。MLM在大規模的語料庫中可以高效地從上下文來提取文本中的語義信息,使用MLM預訓練的文本特征提取器可以很好地進行不同子任務的遷移,MLM無須任何標簽和額外的標注信息,是一種自監督的學習方式,降低了數據采集和標注的成本。因此,MLM在很多工作中[42~44]都起到了很好的預訓練效果。

3.4 語言模型預測

與VLP中廣泛使用的MLM損失相比,LM預訓練目標使模型泛化能力得到了進一步的增強。LM在stable diffusion[45]中也得到了應用,BLIP[14]中文本解碼器的訓練同樣采用LM預訓練目標,Laion COCO 600 million數據集的團隊也采用了該bootstrapping方法構建數據集。

3.5 遮罩數據模型預測

遮罩數據模型預測(masked data modeling,MDM)將文本和圖像都看作是統一模態的數據,同時對單模態圖像和文本,以及多模態圖像文本對進行遮蔽操作,即在預訓練期間隨機地遮蔽掉文本Tokens和圖像patches,通過預測遮蔽部分來訓練模型。MDM的訓練方式不僅可以學習到單模態的特征表達和映射,加入masked image還能使模型在預訓練階段額外學習到不同模態之間的對齊和聯合語義。BEiT v3[46]改進BEiT[47],將圖像、文本、圖像文本對不同模態進行統一的遮蔽與預測恢復,從而利用自監督的學習方式來恢復遮蔽Tokens。在VL-BEiT[48]中,分別采取遮罩語言模型預測、遮罩圖像模型預測以及遮罩視覺語言模型預測三種預訓練目標,統一了不同模態之間的預訓練方式,也證明了生成式預訓練目標的良好效果。

4 特征提取方法

4.1 圖像特征提取

4.1.1 基于目標檢測器的區域特征

圖文檢索、視覺問答、視覺蘊涵等任務與圖像的區域性特征有很高的相關性,大多數的VLP模型將圖像區域性特征的提取設置為視覺嵌入系統(visual embedding schema)的基本工作[49],采用目標檢測系統得到具有語義和離散化的特征表現形式。VL-BERT[50]、UNITER[51]等相關工作在進行圖像體征提取時,基于目標檢測得到離散、序列化的具有bounding box的區域特征。例如:YOLO[52]使用檢測頭和非極大值抑制算法,從圖像中提取出目標物體的位置和類別信息;Faster R-CNN[7]使用區域候選網絡(region proposal network,RPN)來生成候選目標區域。在實驗過程中,為了提升訓練效率,區域特征通常在訓練時預先緩存,盡管使用目標檢測器可用于檢測精度要求較高的場景,但由于提前緩存的局限性,無法實現子任務的靈活泛化。

4.1.2 基于卷積的網格特征

目標檢測器模塊給VLP任務造成了高昂的計算成本,提取基于卷積的網格特征能夠減少計算量。網格卷積網絡(grid convolutional neural network,Grid-CNN)[53]的核心思想是將圖像劃分為多個網格,然后對每個網格進行特征提取,從而得到整張圖像的特征表示。Grid-CNN通常采用多層網格卷積和池化操作,逐層提取細粒度的局部特征,然后通過全局特征的融合實現對整張圖像的分類。Pixel-BERT[54]選擇直接將圖像像素與文本對齊,其關注點不再局限于目標檢測器得到的區域特征,而更注重于更為全面的圖形形狀和空間關系信息,充分利用了原始圖像的視覺信息。注意力機制和圖像卷積操作的結合也是較為熱門的研究方向:residual attention network[55]將注意力機制和殘差網絡進行結合,提高了網絡對于圖像中目標物體的關注;NLNet[56]結合了卷積神經網絡和自注意力機制,通過學習不同特征圖的權重,從而自適應地選擇最相關的特征圖。

使用卷積網絡來提取特征,雖然在一定程度上減輕了使用檢測器提取區域特征帶來的負擔,但卷積網絡的計算復雜度同樣不能作為輕量強大的視覺編碼器去使用。

4.1.3 基于Vi-Transformer的圖像patch特征提取

2020年,Dosovitskiy等人[57]基于BERT提出了Vi-Transformer,直接將原大小為224×224的三通道圖片處理為規格為16×16×3的patch塊,經過線性映射(linear projection)層便得到了圖像Token序列,添加位置編碼等輔助Token就可以得到圖像patch特征。

Vi-Transformer簡化了視覺特征的提取過程。VLP模型受Vi-Transformer工作啟發,也采用了類似的方法將圖像扁平化成patch序列,僅僅采用嵌入層的映射處理,從而減少了卷積操作和特征提取器的操作開銷,大大提升了模型在圖像處理的運行時間。Vi-Transformer利用自注意力機制進行全局的建模,可以更好地捕捉目標圖像中不同像素的長程依賴關系。但是傳統Vi-Transformer的設計與實現都是基于固定大小的圖像塊進行的,Swing Transformer[58]采取了移動窗口實現了層級式的Transformer處理,從而可以處理不同尺度的圖像。相比于Vi-Transformer窗口內的信息交互,由于引入了窗口之間的patch交互,增加了每個圖像patch的感受野,一定程度上避免了信息的丟失。DeiT[59]、LeVi-Transformer[60]都基于Vi-Transformer進行了改進,提升了模型在數據集上的表現。

4.2 文本特征提取

4.2.1 基于CNN的文本特征提取

卷積神經網絡除了在圖像處理工作中被廣泛使用,在自然語言處理領域也有著出色表現。Kim等人訓練了一個精簡的CNN,由無監督神經語言模型得到詞向量矩陣后,使用卷積核對該矩陣進行卷積操作,從而得到文本特征圖[59]。基于卷積的文本特征提取方法可以很好地處理文本中的局部信息,也可以使用多個卷積核得到不同尺度的特征,并且卷積模型的結構相對簡單,容易進行訓練。但是卷積操作無法處理文本中的序列信息,可能會造成文本的語義丟失,并且全局最大池化操作也存在長文本信息丟失的問題。

4.2.2 基于RNN的文本特征提取

循環神經網絡(recurrent neural network,RNN)常用于處理序列文本數據,即結合歷史信息對當前的輸入進行處理,但傳統的RNN具有梯度消失和梯度爆炸的問題[61],因此模型處理較長序列的文本數據會有很大限制。為了解決以上問題,提出了很多變體RNN。長短期記憶網絡有效解決了RNN在反向傳播的過程中梯度消失和爆炸的問題,能更加高效地處理長序列文本數據。Bi-LSTM[62]是長短期記憶網絡的進一步變體,其從兩個方向來處理文本數據,可以更好地理解上下文的信息。

SSAE工作將注意力機制和Bi-LSTM結合,將文本輸入經過Bi-LSTM進行雙向運算,在每個詞的兩個方向均進行注意力得分運算,從而得到特征表示[63]。文獻[64~66]均將注意力機制引入文本特征提取過程中。

4.2.3 基于BERT的文本embedding向量

BERT是基于Transformer的雙向編碼器預訓練模型,BERT將特殊的Token [CLS]和[SEP]分別作為輸入文本對(也可以將單個句子作為輸入)的特征表示和分割結束符。BERT通過對輸入文本進行詞嵌入操作、分句編碼和位置編碼,以此來得到詞序列[41]。預訓練過程中,通過遮罩語言模型預測、next sentence prediction(NSP)兩種預訓練目標進行無監督訓練。MLM隨機遮蓋或替換一句話里面的任意字或詞,然后讓模型通過上下文預測被遮蓋或替換的部分;NSP任務判斷這兩個句子是否是連續的,并且在判斷時需要考慮上下文信息。這兩個任務的聯合訓練可以充分地提取文本特征,從而提升下游任務的性能。RoBERTa[67]通過改進BERT模型的細節,如數據清洗、學習率調度等因素來提升模型的性能。基于BERT預訓練模型設計多模態任務中文本編碼器可以減少訓練時間和數據需求,有效捕捉上下文之間的依賴關系,進一步提升模態內和模態之間的理解能力。

5 多模態架構比重策略

將圖像文本多模態架構抽象為三個組成部分,即文本嵌入模塊(textual embed,TE)、視覺嵌入模塊(visual embed,VE)、模態融合模塊(modality interaction,MI)。其中TE處理文本模態信息,VE處理圖像模態信息,MI負責不同模態間的交互。如圖1所示,不同模塊在整體架構的不同比重體現了該模塊在整體架構中的模型參數量和訓練成本,下文以及圖1中的“>”表示模塊具有更高的參數量和更加復雜的結構。因此,根據不同的比重分布來介紹以下四種多模態融合策略。

5.1 VE>TE>MI

如圖1(a)所示,在VSE++[68]模型中,VE使用預訓練好的CNN模型,TE直接使用預訓練的詞嵌入模型將文本序列轉換為文本特征,在VSE++使用了難負樣本的訓練技巧來增強視覺語義嵌入模型(VSE)的魯棒性,MI模塊使用余弦相似度計算損失函數,即簡單的直接點積計算來實現。類似的多模態結構策略工作還有Unicoder-VL[69]、stacked cross attention for image-text matching(SCAN) [70]等,都使用較為魯棒的視覺嵌入模塊來組織多模態架構。

在多模態任務中,突出視覺嵌入模塊可以更好地利用視覺信息,但由于視覺模塊自身的復雜性,使得多模態任務計算需要較長的訓練時間和更加高昂的計算成本。此外,由于忽略了視覺信息以及模態之間的交互,導致在場景文本理解類的下游任務中表現不佳。

5.2 VE=TE>MI

如圖1(b)所示,CLIP[71]模型采用了相同比重的TE和VE模塊。模型的輸入是一組配對的文本對,分別通過TE和VE得到圖像特征和文本特征,MI模塊采用較為簡單的對比學習的方式,最大化正樣本對的相似度以及最小化負樣本對的相似度。相較于模態MI計算相似性來進行跨模態對齊,TE和VE都采用了較魯棒的特征提取器。CLIP模型將圖像特征和文本特征映射到統一特征空間來計算相似性得分,使得該模型在圖文檢索任務上有著很好的表現,但是模型的泛化能力相對較差,同時直接遷移到新任務也存在著性能表現較差的問題。

類似地,ALIGN[9]采用了視覺語言雙編碼器架構,使用超過10億張圖像替代文本對的噪聲數據集,其中將BERT-Large[41]和EfficientNet-L2[72]分別作為文本和圖像編碼器,圖像和文本編碼器通過對比損失函數進行權重的更新,使得特征嵌入空間中正樣本對具有相似的嵌入表征。圖1(a)的架構策略中,圖像和文本編碼器有著較為復雜的參數和結構,這需要大量的計算資源,并且簡單的模態交互無法充分地學習到不同模態之間的共性和差異性。在有限的訓練資源限制下,“頭重腳輕”的結構,即單一高性能單模態嵌入器與簡單的模態融合并不足以學習復雜的視覺和語言任務,往往無法很好地達到預期性能。

5.3 VE>MI>TE

MI對模態信息交互和理解有著舉足輕重的作用,是下游任務性能和模型泛化能力提升的重要因素之一。區別于圖1(a)(b)兩種淺交互的模型架構,ALBEF采用了BERT前六層Transformer結構作為TE,后六層作為MI,在適當降低TE的比重的同時VE采用Vi-Transformer[57],綜合權衡模型的復雜度,提升多模態的任務性能,并在各種下游任務上證明了ALBEF的有效性,包含圖像文本檢索、視覺問答、視覺推理、視覺蘊涵等任務[40]。VL-BERT[50]從預訓練的對象檢測網絡中提取邊界框及其視覺特征來生成圖像區域特征,文本表征采用BERT方法,通過擴展BERT來聯合表示圖像和文本進行跨模態的交互。LXMERT[73]對圖像區域特征和文本嵌入進行自注意力編碼,其MI使用雙向交互模塊來融合文本和圖像的信息,在雙向交互過程中,文本注意力機制將圖像特征投影到文本空間中,用于計算文本-圖像的相似度,而視覺注意力機制則將文本特征投影到圖像空間中,用于計算圖像-文本的相似度,從而更好地捕捉多模態輸入之間的關聯信息。

由上述分析可知,在多模態任務中,MI模塊是提升下游任務性能的重要因素,無論是生成式的任務還是理解式的任務,都需要以模態特征之間的對齊和充分融合為前提。

5.4 MI>VE=TE

正如以上工作中,大多數多模態框架對于文本的處理多是通過一個嵌入層直接映射到特征空間,圖像的處理往往會先使用一個Backbone網絡進行特征提取。注意力機制在NLP和CV領域的突破,BERT和Vi-Transformer使得文本和視覺模態信息的處理有了較為統一的方式,在ViLT模型中,對文本和視覺模態的信息均使用線性嵌入層將模態信息映射到特征空間中的方法,直接將圖文特征進行拼接送入注意力層進行模態的交互和理解。MI>VE=TE的架構設計簡化了模型的結構,提升了文本嵌入的性能,并且相對魯棒的MI模塊也保證了對于模態信息的理解,該模型也首次在多模態的學習中采用了數據增強的方式[5]。ViLT是一個相當輕量級的VLP模型,該模型舍棄了龐大復雜的視覺和文本編碼器,將多模態任務的工作重心更多地關注于MI模塊,在COCO、Flickr 30K以及Visual Genome等數據集上均取得了SOTA,也證明了簡化特征提取工作的有效性,使用精簡的網絡結構實現高效的模態融合處理是可行的研究思路。

6 多模態交互架構

6.1 單流結構

單流模型是指將多個模態的輸入通過一個共享的網絡模型進行編碼,能夠同時處理多種形式的輸入,并且學習不同模態之間的交互信息,如圖2(a)所示。單流結構對于模態之間的潛在關系進行了較為簡單的假設。MMBT模型 [74]將圖像和文本的特征直接輸入到共享模型參數的bidirectional Transformer網絡中,并沒有在模態融合之前進行單模態的模態內處理。Unicoder-VL[69]將文本嵌入層和視覺嵌入層輸出的圖像embedding和文本embedding進行拼接,由基于Transformer的交互模塊進行跨模態處理。單流結構雖然可以充分地將多模態信息融合進行推理分類,但缺失了模態對齊的操作,因而不適合進行檢索任務[5]。

單流模型還可結合早期融合的角度來分析,不同的模態通常是在全局的層級進行融合,此融合方式可以充分考慮模態之間的關聯性,但也忽略了模態內部的細節信息。在一些多模態的應用場景中,一些下游任務需要更好地從模態內部理解直接出發,例如圖文檢索、視覺推理等。因此,盡管早期融合的方法可以高效地進行特征的聯合學習,但是模態內部預處理的不足可能導致后續跨模態學習時出現信息丟失。OSCAR[75]對VLP任務中的圖像文本對表示為[輸入信息Token,對象標簽,區域特征],經過嵌入操作后由multi-layers Transformers模塊進行模態交互。該工作改進了傳統的單流結構的輸入,添加了物體標簽,豐富了公共嵌入空間的語義信息,提高了模型的遷移性,在一定程度上解決了模型早期融合時對模態內部理解不充分的問題。

6.2 雙流結構

雙流模型通常具有兩個獨立的數據處理模塊,在不同模態進行融合交互之前進行模態內學習,如圖2(b)所示。例如CLIP模型中,文本編碼器采用了GPT-2[76]中的12層的Transformer塊,視覺編碼器采用5個ResNet塊和3層的Vi-Transformer塊;ALBEF模型同樣采用了兩個獨立的圖文編碼器進行特征的提取,特征在送入交叉注意力層之前進行了基于MoCo[38]的對比學習,將圖像和文本特征進行對齊,目的是提高特征空間中匹配的正樣本對的相關度,降低負樣本的相關性。相較于單流結構,雙流結構中每個模態都有相應的組件進行特征提取,能夠充分地捕捉模態內部的特征和細節,并且針對不同模態的數據類型可以有不同的處理方式,可以關注到不同模態之間的差異性,因此雙流結構的模型可以很好地完成檢索型任務。然而,引入單模態處理過程也會消耗更多計算資源,訓練時間也會變長,并且對不同結構處理后的模態特征進行對齊和融合也是具有挑戰性的任務。Miyawaki等人[77]提出了一種改進雙流結構的思路,在圖像特征編碼器中引入了光學字符識別(OCR)系統,將Faster R-CNN從圖像中提取的特征與OCR系統提取的圖像場景文本進行聯合解釋。實驗表明,聯合場景文本和語義表示提高了雙編碼器的檢索性能。因此在雙編碼器的結構基礎上,可以通過添加對應的輔助信息來幫助模型編碼輸入信息,從而更好地理解模態之間的聯合語義信息。

晚期融合的思路與雙流結構基本一致,對兩個模態特征進行全局的融合計算之前會分別對圖像特征和文本特征進行學習,更加關注于從單模態內部得到更加豐富的原始信息和模態特征。晚期融合結構可以在視覺和文本模態融合之前進行充分的特征提取和理解。HERO[78]使用了cross-modal Transformer結構對文本嵌入和視覺序列進行特征處理,然后由共享的temporal Transformer進行模態交互,實現了視覺特征和文本特征的有效對齊和交互。實驗結果證明了可以在犧牲部分訓練資源和時間的基礎上,學習模態內部的信息再進行模態融合能夠很好地完成視覺問答、字幕生成、圖文檢索等任務。

6.3 單雙流混合結構

從上文的分析中可以得出,雙流結構適合用來完成檢索類任務,單流結構在推理任務中表現出色。為了提升模型的普適性和泛化性,單雙流混合結構的思想在VLMo[79]得到了實現。VLMo模型是基于一種混合專家網絡(MOME)實現的。該模型改進了Transformer塊中的前向神經網絡,該網絡被替換為了視覺專家、語言專家和視覺語言專家三個模態專家網絡,模型根據不同的輸入選擇對應的專家網絡。當處理檢索任務時,則采用模型中的雙流架構,分別得到圖像和視覺的嵌入結果,計算兩者的相似性得分來完成檢索任務;當處理推理等分類任務時,則使用視覺專家和語言專家來編碼各自的模態向量,然后由融合編碼器進行模態交互。總的來說,模態混合專家(MOME)基于一個特定模態的專家池和共享的self-attention層,靈活地對不同的輸入作出不同的處理,可以很好地完成檢索任務和推理任務。

同樣地,也可以用早晚期融合的角度來分析單雙流融合結構,根據下游任務和輸入模態的特殊性,融合方案能靈活地選擇模態內處理和模態間融合的前向路徑和網絡模塊,如圖2(c)所示。綜合早期和晚期的優點的同時,也不可避免地帶來了模型結構太過復雜、預訓練模型難以訓練的問題。因此,可以根據具體的任務進行結構選擇。

7 輕量化參數微調方法

隨著基于Transformer的大語言模型以及視覺處理模型等研究的不斷發展,為解決多模態任務提供了諸多具有強大性能且開箱即用的預訓練模型,如Visual ChatGPT[80]將ChatGPT(InstructGPT[81])與不同的視覺模型進行結合,使得用戶與ChatGPT之間不單使用語言來進行交流,進而可以提供復雜的視覺問題或視覺編輯指令。但隨著模型越來越大,在常規的硬件設備上實現對大模型的微調變得極為昂貴和耗時。在大模型盛行的趨勢下,如何利用這些龐大參數量的模塊泛化到一般的實驗或應用場景當中是一個值得研究的問題。參數效率微調(parameter-efficient fine-tuning,PEFT)旨在減少需要微調的模型參數的同時避免災難性遺忘問題的出現。本章將從Adapters組件、提示符學習(prompting learning)以及專家集合模型(Prismer)三種方法來展開討論。

7.1 Adapter組件

使用大規模預訓練模型初始化模型參數是一種比較高效的遷移方法,但在遷移過程中對模型進行微調往往需要更新模型的所有參數,這需要相當龐大的計算資源和時間成本。因此,提出了凍結大部分模型,只更新少量模型參數的方法。因為不同下游任務往往關注于相同模型的不同部分,設計具有泛化性的局部參數微調方法很難實現,并且更新預訓練模型的部分參數也可能導致精度的消失以及災難性遺忘的問題。所以,Houlsby等人[82]提出了Adapter結構,將其作為訓練模塊插入到Transformer中。圖3為一種簡易的組件微調方法,凍結Transformer的網絡參數,在多頭注意力層之后添加可訓練的Adapter組件,這樣既保留了原始模型的參數內容,又能夠以極小的訓練代價將大模型的能力泛化到子任務當中。

Adapter有著清晰簡單的結構,其輸入首先會通過前向下采樣映射進行輸入特征維度的下采樣操作,再通過非線性層和前向上采樣映射將特征恢復到輸入維度,最終通過跳躍連接將Adapter的原始輸入與輸出相加作為最終的輸出結構。AIM[83]通過凍結預訓練好的圖像模型,在模型中添加輕量級的Adapter使得模型可以通過更少的可調參數來獲得更好的性能,其簡單高效的改進能夠普遍適用不同的圖像預訓練模型,以進一步應用到多模態的圖像特征處理階段。

7.2 提示符學習

除了添加可訓練的輕量化組件,也可以從信息的輸入端來驅動優化模型。例如以提示符學習的方式來提升模型的性能,CLIP[70]在文本編碼器處理文本信息之前會添加文字提示(prompt)。即當圖像標簽的文本為“dog”,則會被處理為“a photo of {dog (object)}”,再對應圖像特征進行對齊操作。但每張圖片可能有多種描述,如“a photo of a {object}”“a type of {object}”等,以上在預訓練過程中被固定好的提示符被稱為hard-prompt。但在研究CoOP[84]中,作者發現不同的提示符對最終的實驗效果有著不可忽視的影響,因而提出了將文本提示符設置為可學習可優化的一組參數,將其成為軟提示符學習方式(soft-prompt)。

如圖4所示,提出了兩種提示符學習思路:一是統一上下文學習,二是特定于預測類的上下文學習。統一上下文學習為所有的類共享相同的learnable context,也就是對某個子任務數據集只訓練一個固定的提示符;特定于預測類的上下文學習對數據集中每一個類都會訓練一個不同的learnable context。最終實驗結果表明,CoOP的性能都超過了作為基線模型的CLIP,并且作者還實驗了{object}在輸入中的位置,發現在句中或句尾都具有較為平衡的性能,不同的語句結構順序并不會對實驗結果造成太大的影響。

這種在輸入端的處理技巧很好地提供了優化學習參數的思路,僅通過設置很輕量的可訓練模塊便強有力地將大模型作為基礎模型來應用,既保持了其原有性能,又可以通過輕量化可訓練模塊進一步提升性能,同時可以防止災難性遺忘問題的出現。

7.3 專家集合模型

Adapter組件在較為簡單的工作場景中可以起到很好的優化效果,但其簡單的結構屬性并不能實現集合復雜的預訓練模型。在此基礎上,為了實現在更復雜場景下對大模型的有力串聯和組合使用,需要提出更高層級的網絡組件。Liu等人[85]引入Prismer網絡來集成預訓練領域的專家模型,即通過單獨的子網絡來學習技能和領域知識,并且每個專家都可以針對特定的任務進行獨立優化。相較于大多單雙流模型使用多個預訓練目標進行訓練,Prismer 只需要一個單一的自回歸預測文本作為訓練目標,僅專注于微調性能和參數效率。這種方法可以充分利用預訓練專家網絡,將可訓練參數的數量保持在最低限度,在保持專家模塊完整性的同時防止微調過程中出現災難性遺忘問題。

Prismer主要由兩個可訓練組件構成,專家重采樣器在視覺編碼器中用于將可變長度的多模態信號映射到具有固定長度的多模態特征序列;輕量級適配器增強了模型的視覺語言推理表達能力。適配器被插入到模型的視覺和語言部分的每個Transformer層中,使預先訓練的專家模塊適應新的任務和模式。區別于VLMo以及ALBEF混合專家(MoME)結構,在Prismer中,“專家”是獨立預訓練的模型。這種通過設計一個輕量模塊來串聯強大預訓練模型的思路為實驗資源有限的研究提供了強有力的方向指導。ClipCap[86]引入一個映射網絡,將CLIP的視覺編碼器提取的圖像特征通過映射網絡得到了與GPT-2的解碼器相同的嵌入Token序列,無須額外對編碼器和解碼器作訓練,很好地利用了在上億文本對訓練的預訓練模型,該方法僅使用GTX1080訓練72 h就能超過基線模型(VLP[87])在V100訓練1 200 h的表現效果。

8 多模態領域發展趨勢

在VLP領域,根據下游任務構建模型結構、設置預訓練目標、構建子任務數據集進行微調等步驟都是研究人員需要思考的重要問題。綜上所述,模型的結構與下游任務有著強關聯性,單雙流的結構決定了模型主要用于進行檢索或推理任務,解碼器或編碼器的選擇取決于解決理解式或生成式任務;除了模型結構的設計,公開數據集與任務適配度低、構建下游專用任務數據集困難都是在處理多模態任務時難以解決的問題;在訓練過程中,往往設定多個預訓練目標進行聯合使用,這在大參數的架構中會消耗難以估量的計算成本。因此,多模態任務還面臨著很多亟待解決的問題[88]。

綜上,在明確解決子任務和搭建模型結構的研究過程中,多模態領域的工作呈現了趨向統一的發展態勢,包含且不局限于多模態。對于單模態的自然語言處理、計算機視覺領域等模型都可以從三個方面進行分析:一是以Transformers為基本模塊的網絡的構建方式;二是生成式的預訓練目標在預訓練-微調的范式中成為至關重要的參數更新方法;三是大模型大數據釋放了模型的能力的同時,高效的組件方法降低了實驗成本。

a)模型架構的統一是大一統的重要基礎,雙流結構適用于檢索類的任務;單流結構在完成分類推理等任務具有優勢;基于編碼器-解碼器結構的模型可以用于生成任務。在之前的工作中,大多數模型必須根據特定的任務特性手動調整不同模型結構,并且也無法做到高效地共享模型參數。BLIP[14]對于不同的任務共享部分參數,采用多路Transformer作為骨干網絡,類似于VLMo中的共享多頭自注意力層。CoCa[89]融合了單雙流的encoder-decoder模型結構,既能生成圖像模態和文本模態的表示,又能進行更深層次的圖像、文本信息融合以及文本生成,適用于更加廣泛的任務。編碼器-解碼器架構的融合以及靈活的單雙流架構前向選擇過程使得模型從backbone的層面實現了大一統。

b)遮罩數據建模(masked data modeling)預訓練目標在多種模態都取得了的成功應用。如第2章中所介紹,目前的VLP的預訓練目標通常包含ITC、ITM等,過多的訓練目標導致數據在模型的訓練過程中需要很多次前向計算,增加了運算成本。BEiT v3[44]也將圖像視作一種語言,以相同的方式來處理文本和圖像,從而沒有了基本的建模差異,將圖像文本視為“平行語句對”,以此來學習模態之間的對齊,這種處理方法在視覺和視覺語言任務上都達到了先進的性能,并證明了生成式預訓練的優越性。綜上,構建雙流模型時,往往使用對比學習進行模態的對齊,以此來解決檢索式的理解任務;在解碼器單流結構的訓練中使用生成式自監督目標。清晰簡單的訓練目標可以提高訓練效率,同時保證模型在下游任務上的優秀性能。

c)大模型、大數據集的概念已經成為了提升模型性能的關鍵。BEiT[44]系列的工作由40層的多路Transformer組成,整個模型包含近19億個參數,如此龐大的參數量在訓練過程中使用的訓練數據均來自于公開數據集,打破了以往模型對高成本構建的專業數據集的依賴,僅僅使用了公共數據資源便在多個子任務中達到了SOTA。這一工作在架構、建模、泛化能力上實現了真正意義上的統一,對之后的多模態工作起到了一個規范化的影響。同時,在海量數據以及大模型堆疊的深度學習趨勢下,尋找模型的優化方法也是頗具意義的思路之一。在訓練資源有限的情況下,可以從模型輸入端、組件優化以及網絡串聯來利用預訓練模型的優點,以較小的代價實現大模型優勢的同時保證整體結構的輕量化。

多模態領域中通用基礎模型的研究有著廣闊的前景和空間去發展和完善,設計子任務泛化性好以及訓練高效的多模態范式是多模態領域發展的趨勢。并且,在以數據為主要驅動的深度學習背景下,引入知識圖譜等輔助驅動也是值得思考的研究方向之一[90]。

參考文獻:

[1]Antol S, Agrawal A, Lu Jiasen, et al. VQA: visual question answe-ring[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2015: 2425-2433.

[2]Vinyals O, Toshev A, Bengio S, et al. Show and tell: lessons lear-ned from the 2015 MSCOCO image captioning challenge[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2017,39(4): 652-663.

[3]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc., 2017:6000-6010.

[4]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[EB/OL]. (2018). https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.

[5]Kim W,Son B,Kim I. ViLT:vision-and-language Transformer without convolution or region supervision[C]//Proc of the 38th International Conference on Machine Learning.[S.l.]: PMLR, 2021: 5583-5594.

[6]Gao Peng, Jiang Zhengkai, You Haoxuan, et al. Dynamic fusion with intra-and inter-modality attention flow for visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019: 6632-6641.

[7]Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press, 2015:91-99.

[8]Cho K, Van Merriёnboer B, Gulcehre C, et al. Learning phrase re-presentations using RNN encoder-decoder for statistical machine translation[EB/OL]. (2014). https://arxiv.org/abs/1406.1078.

[9]Jia Chao, Yang Yinfei, Xia Ye, et al. Scaling up visual and vision-language representation learning with noisy text supervision[C]//Proc of International Conference on Machine Learning.[S.l.]:PMLR, 2021: 4904-4916.

[10]Ma Lin, Lu Zhengdong, Shang Lifeng, et al. Multimodal convolutional neural networks for matching image and sentence[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press, 2015:2623-2631.

[11]Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2015:3156-3164.

[12]Huang Lun, Wang Wenmin, Chen Jie, et al. Attention on attention for image captioning[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision. 2019: 4634-4643.

[13]Pan Yingwei, Yao Ting, Li Yehao, et al. X-linear attention networks for image captioning[C]//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition. 2020: 10971-10980.

[14]Li Junnan, Li Dongxu, Xiong Caiming, et al. BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//Proc of International Conference on Machine Learning. 2022: 12888-12900.

[15]Anderson P, Wu Qi, Teney D, et al. Vision-and-language navigation:interpreting visually-grounded navigation instructions in real environments[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 3674-3683.

[16]Hong Yicong, Wu Qi, Qi Yuankai, et al. VLN BERT: a recurrent vision-and-language BERT for navigation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1643-1653.

[17]Guhur P L, Tapaswi M, Chen Shizhe, et al. AirBERT: in-domain pretraining for vision-and-language navigation[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 1634-1643.

[18]Qiao Yanyuan, Qi Yuankai, Hong Yicong, et al. HOP: history-and-order aware pre-training for vision-and-language navigation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 15418-15427.

[19]Hong Yicong, Wang Zun, Wu Qi, et al. Bridging the gap between learning in discrete and continuous environments for vision-and-language navigation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 15439-15449.

[20]Das A, Kottur S, Gupta K, et al. Visual dialog[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 326-335.

[21]Xie Ning , Lai F , Doran D ,et al.Visual entailment task for visually-grounded language learning[EB/OL].(2018). https://arxiv.org/abs/1811.10582.

[22]Suhr A, Lewis M, Yeh J, et al. A corpus of natural language for visual reasoning[C]//Proc of the 55th Annual Meeting of Association for Computational Linguistics. 2017: 217-223.

[23]Zellers R, Bisk Y, Farhadi A, et al. From recognition to cognition: visual commonsense reasoning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6720-6731.

[24]王麗安, 繆佩翰, 蘇偉, 等. 圖像-文本多模態指代表達理解研究綜述[J]. 中國圖象圖形學報, 2023,28(5): 1308-1325. (Wang Lian, Liao Peihan, Su Wei, et al. Multimodal referring expression comprehension based on image and text: a review[J] Journal of Image and Graphics, 2023,28(5):1308-1325.)

[25]Rashtchian C, Young P, Hodosh M, et al. Collecting image annotations using Amazons mechanical Turk[C]//Proc of NAACL HLT Workshop on Creating Speech and Language Data with Amazons Mechanical Turk. 2010: 139-147.

[26]Welinder C, Branson S, Welinder P,et al.The Caltech-UCSD birds-200-2011 dataset[DB/OL]. (2011).https://gwern.net/doc/ai/dataset/2011-wah.pdf.

[27]Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Proc of the 13th European Conference on Computer.Berlin: Springer, 2014: 740-755.

[28]Krishna R, Zhu Yuke, Groth O, et al. Visual genome: connecting language and vision using crowdsourced dense image annotations[J]. International Journal of Computer Vision, 2017, 123: 32-73.

[29]Zhu Yuke, Groth O, Bernstein M, et al. Visual 7W: grounded question answering in images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 4995-5004.

[30]Plummer B A, Wang Liwei, Cervantes C M, et al. Flickr30k entities: collecting region-to-phrase correspondences for richer image-to-sentence models[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2015: 2641-2649.

[31]Goyal Y, Khot T, Summers-Stay D, et al. Making the v in VQA matter: elevating the role of image understanding in visual question answering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 6904-6913.

[32]Hudson D A, Manning C D. GQA: a new dataset for real-world visual reasoning and compositional question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6700-6709.

[33]Kuznetsova A, Rom H, Alldrin N, et al. The open images dataset v4:unified image classification, object detection, and visual relationship detection at scale[J]. International Journal of Computer Vision, 2020, 128(7): 1956-1981.

[34]Wu Hui, Gao Yupeng, Guo Xiaoxiao, et al. Fashion IQ: a new dataset towards retrieving images by natural language feedback[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 11307-11317.

[35]Changpinyo S, Sharma P, Ding N, et al. Conceptual 12M: pushing Web-scale image-text pre-training to recognize long-tail visual concepts[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 3558-3568.

[36]Benenson R, Ferrari V. From colouring-in to pointillism: revisiting semantic segmentation supervision[EB/OL]. (2022). https://arxiv.org/abs/2210.14142.

[37]Sharma P,Ding N,Goodman S, et al. Conceptual captions: a cleaned, hypernymed, image alt-text dataset for automatic image captioning[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics. 2018: 2556-2565.

[38]He Kaiming, Fan Haoqi, Wu Yuxin, et al. Momentum contrast for unsupervised visual representation learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 9729-9738.

[39]Lu Jiasen, Batra D, Parikh D, et al. VilBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks[C]//Advances in Neural Information Processing Systems. 2019.

[40]Li Junnan, Selvaraju R, Gotmare A, et al. Align before fuse: vision and language representation learning with momentum distillation[C]//Advances in Neural Information Processing Systems. 2021: 9694-9705.

[41]Kenton J D M W C, Toutanova L K. BERT: pre-training of deep bidirectional Transformers for language understanding[C]//Proc of NAACL-HLT. 2019: 4171-4186.

[42]Lan Zhenzhong, Chen M, Goodman S, et al. ALBERT: ALite BERT for self-supervised learning of language representations[EB/OL]. (2019). https://arxiv.org/abs/1909.11942.

[43]Yang Zhilin, Dai Zihang, Yang Yiming, et al. XLNet: generalized autoregressive pretraining for language understanding[C]//Advances in Neural Information Processing Systems. 2019.

[44]Joshi M, Chen Danqi, Liu Yihan, et al. SpanBERT: improving pre-training by representing and predicting spans[J]. Trans of the Association for Computational Linguistics, 2020,8: 64-77.

[45]Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.

[46]Wang Wenhui, Bao Hangbo, Dong Li, et al. Image as a foreign language: BEiT pretraining for all vision and vision-language tasks[EB/OL]. (2022). https://arxiv.org/abs/2208.10442.

[47]Bao Hangbo, Dong Li, Piao Songhao, et al. BEiT: BERT pre-training of image transformers[C]//Proc of International Conference on Lear-ning Representations. 2021.

[48]Bao Hangbo, Wang Wenhui, Dong Li, et al. VL-BEiT: generative vision-language pretraining[EB/OL]. (2022). https://arxiv.org/abs/2206.01127.

[49]陳天鵬,胡建文.面向深度學習的遙感圖像旋轉目標檢測研究綜述[J].計算機應用研究, 2024,41(2):329-340. (Chen Tianpeng, Hu Jianwen. Overview of deep learning for oriented rotating object detection in remote sensing images[J].Application Research of Computers, 2024,41(2):329-340.)

[50]Su Weijie, Zhu Xizhou, Cao Yue, et al. VL-BERT: pre-training of generic visual-linguistic representations[C]//Proc of International Conference on Learning Representations. 2019.

[51]Chen Yenchun, Li Linjie, Yu Licheng, et al. Uniter: universal image text representation learning[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 104-120.

[52]Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 779-788.

[53]Lu Qishou, Liu Chonghua, Jiang Zhuqing, et al. G-CNN: object detection via grid convolutional neural network[J]. IEEE Access, 2017, 5: 24023-24031.

[54]Huang Zhicheng, Zeng Zhaoyang, Liu Bei, et al. Pixel-BERT: aligning image pixels with text by deep multi-modal Transformers[EB/OL]. (2020). https://arxiv.org/abs/2004.00849.

[55]Wang Fei, Jiang Mengqing, Qian Chen, et al. Residual attention network for image classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 3156-3164.

[56]Wang Xiaolong, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 7794-7803.

[57]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2020).https://arxiv.org/abs/2010.11929.

[58]Liu Ze, Lin Yutong, Cao Yue, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 10012-10022.

[59]Touvron H, Cord M, Douze M, et al. Training data-efficient image Transformers & distillation through attention[C]//Proc of International Conference on Machine Learning. 2021: 10347-10357.

[60]Graham B, El-Nouby A, Touvron H, et al. LeVIT: a vision Transformer in convnets clothing for faster inference[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 12259-12269.

[61]Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]//Proc of InterSpeech. 2010: 1045-1048.

[62]Huang Zhiheng, Xu Wei, Yu Kai. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. (2015). https://arxiv.org/abs/1508.01991.

[63]Lin Zhouhan, Feng Minwei, Dos Santos C, et al. A structured self-attentive sentence embedding[C]//Proc of International Conference on Learning Representations. 2017.

[64]Hu Yongli, Chen Puman, Liu Tengfei, et al. Hierarchical attention Transformer networks for long document classification[C]//Proc of International Joint Conference on Neural Networks. Piscataway,NJ:IEEE Press, 2021: 1-7.

[65]Wang Wei, Yan Ming, Wu Chen. Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering[C]//Proc of the 56th Annual Meeting of Association for Computational Linguistics. 2018: 1705-1714.

[66]Ma Dehong, Li Sujian, Zhang Xiaodong, et al. Interactive attention networks for aspect-level sentiment classification[C]//Proc of the 26th International Joint Conference on Artificial Intelligence. 2017: 4068-4074.

[67]Liu Yinhan, Ott M, Goyal N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. (2019). https://arxiv.org/abs/1907.11692.

[68]Faghri F, Fleet D J, Kiros J R, et al. Improving visual-semantic embeddings with hard negatives[EB/OL]. (2017). https://arxiv.org/abs/1707.05612.

[69]Li Gen, Duan Nan, Fang Yuejian, et al. Unicoder-VL: a universal encoder for vision and language by cross-modal pre-training[C]//Proc of AAAI Conference on Artificial Intelligence. 2020: 11336-11344.

[70]Lee K H, Chen Xi, Hua Gang, et al. Stacked cross attention for image text matching[C]//Proc of European Conference on Computer Vision. 2018: 201-216.

[71]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//Proc of the 38th International Conference on Machine Learning.[S.l.]:PMLR, 2021: 8748-8763.

[72]Tan Mingxing, Le Q. EfficientNet: rethinking model scaling for con-volutional neural networks[C]//Proc of the 36th International Confe-rence on Machine Learning.[S.l.]:RMLR, 2019: 6105-6114.

[73]Tan Hao, Bansal M. LXMERT: learning cross-modality encoder representations from Transformers[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019: 5100-5111.

[74]Kiela D,Bhooshan S,Firooz H,et al. Supervised multimodal bitransformers for classifying images and text[EB/OL]. (2019). https://arxiv.org/abs/1909.02950.

[75]Li Xiujun, Yin Xi, Li Chunyuan, et al. Oscar: object-semantics aligned pre-training for vision-language tasks[C]//Proc of the 16th European Conference Computer Vision.Berlin:Springer,2020:121-137.

[76]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019,1(8): 9.

[77]Miyawaki S, Hasegawa T, Nishida K, et al. Scene-text aware image and text retrieval with dual-encoder[C]//Proc of the 60th Annual Meeting of Association for Computational Linguistics: Student Research Workshop. 2022: 422-433.

[78]Li Linjie, Chen Yenchun, Cheng Yucheng, et al. HERO: hierarchical encoder for video+ language omni-representation pre-training[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2020: 2046-2065.

[79]Bao Hangbo, Wang Wenhui, Dong Li, et al. VLMo: unified vision-language pre-training with mixture-of-modality-experts[C]//Advances in Neural Information Processing Systems.2021.

[80]Wu Chenfei, Yin Shengming, Qi Weizhen, et al. Visual ChatGPT: talking, drawing and editing with visual foundation models[EB/OL]. (2023). https://arxiv.org/abs/2303.04671.

[81]Ouyang Long, Wu J, Jiang Xu, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022,35: 27730-27744.

[82]Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP[C]//Proc of International Conference on Machine Learning. 2019: 2790-2799.

[83]Yang Taojiannan, Zhu Yi, Xie Yusheng, et al. AIM: adapting image models for efficient video action recognition[C]//Proc of the 11th International Conference on Learning Representations.2023.

[84]Zhou Kaiyang, Yang Jingkang, Loy C C, et al. Learning to prompt for vision-language models[J]. International Journal of Computer Vision, 2022,130(9): 2337-2348.

[85]Liu Shikun, Fan Linxi, Johns E, et al. Prismer: a vision-language model with an ensemble of experts[EB/OL]. (2023). https://arxiv.org/abs/2303.02506.

[86]Yu Jiahui, Wang Zirui, Vasudevan V, et al. CoCa: contrastive captioners are image-text foundation models[EB/OL]. (2022-05-04). https://arxiv.org/abs/2205.01917.

[87]Mokady R, Hertz A, Bermano A H. Clipcap: clip prefix for image captioning[EB/OL]. (2021). https://arxiv.org/abs/2111.09734.

[88]Zhou Luowei, Hamid P, Zhang Lei, et al.Unified vision-language pretraining for image captioning and VQA[C]//Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020:13041-13049.

[89]張浩宇,王天保,李孟擇,等. 視覺語言多模態預訓練綜述[J].中國圖象圖形學報, 2022,27(9):2652-2682. (Zhang Haoyu, Wang Tianbao, Li Mengze, et al. Comprehensive review of visual-language-oriented multimodal pre-training methods[J].Journal of Image and Graphics, 2022,27(9):2652-2682.)

[90]李源,馬新宇,楊國利,等. 面向知識圖譜和大語言模型的因果關系推斷綜述[J].計算機科學與探索, 2023,17(10):2358-2376. (Li Yuan, Ma Xinyu, Yang Guoli, et al. Survey of causal inference for knowledge graphs and large language models[J].Journal of Frontiers of Computer Science and Technology, 2023,17(10):2358-2376.)

猜你喜歡
融合
一次函數“四融合”
兩個壓縮體融合為一個壓縮體的充分必要條件
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
寬窄融合便攜箱TPFS500
寬窄融合便攜箱IPFS500
從創新出發,與高考數列相遇、融合
寬窄融合便攜箱IPFS500
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
“四心融合”架起頤養“幸福橋”
福利中國(2015年4期)2015-01-03 08:03:38
主站蜘蛛池模板: 亚洲国产精品无码久久一线| 色欲综合久久中文字幕网| 亚欧美国产综合| 麻豆国产在线不卡一区二区| 亚洲国产成人久久精品软件 | 天堂va亚洲va欧美va国产| 91色在线视频| 国产成人精品高清不卡在线| 亚洲天堂在线视频| 欧美亚洲一二三区| 久久亚洲国产最新网站| 欧美日韩一区二区三区四区在线观看| 爱爱影院18禁免费| a天堂视频| 另类欧美日韩| 欧美在线网| 精品国产99久久| 欧美国产在线看| 亚洲天堂高清| 国产福利不卡视频| 26uuu国产精品视频| 97se亚洲综合在线韩国专区福利| 精品久久久久久成人AV| 国产精品久久久久鬼色| 久久人妻xunleige无码| 麻豆a级片| 国产成人乱无码视频| 亚洲日韩欧美在线观看| 亚洲色精品国产一区二区三区| 亚洲欧美成aⅴ人在线观看| 999国内精品视频免费| 免费国产小视频在线观看| 韩日无码在线不卡| 久久天天躁夜夜躁狠狠| 这里只有精品在线播放| 亚洲性影院| 亚洲有无码中文网| 在线观看视频一区二区| 日韩无码视频播放| av在线5g无码天天| 伊人婷婷色香五月综合缴缴情| 在线中文字幕日韩| 欧美黄色a| 日韩在线欧美在线| 色135综合网| 亚洲国产欧洲精品路线久久| 国产成人在线无码免费视频| 久久精品国产亚洲麻豆| 久久这里只有精品23| 久草热视频在线| yy6080理论大片一级久久| 精品少妇人妻一区二区| 极品私人尤物在线精品首页| 亚洲色图另类| 国产色偷丝袜婷婷无码麻豆制服| 国产毛片一区| 中国黄色一级视频| 欧美精品影院| 综合网天天| 69综合网| 亚洲最猛黑人xxxx黑人猛交 | 性欧美久久| 无码中字出轨中文人妻中文中| 精品无码国产一区二区三区AV| 久久精品丝袜| 亚洲国产亚洲综合在线尤物| 亚洲专区一区二区在线观看| 亚洲人人视频| 国产精品国产主播在线观看| 色婷婷在线播放| 毛片卡一卡二| 欧美精品成人| 99热这里只有精品在线播放| 国产欧美专区在线观看| 国产精品毛片一区视频播| 四虎免费视频网站| 99热最新网址| 在线欧美一区| 欧美不卡视频一区发布| 日本AⅤ精品一区二区三区日| 一本一道波多野结衣一区二区| 日韩成人在线视频|