999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態融合的城市道路場景視頻描述模型研究

2023-01-01 00:00:00李銘興徐成李學偉劉宏哲閆晨陽廖文森
計算機應用研究 2023年2期

摘 要:城市道路視頻描述存在僅考慮視覺信息而忽視了同樣重要的音頻信息的問題,多模態融合算法是解決此問題的方案之一。針對現有基于Transformer的多模態融合算法都存在著模態之間融合性能低、計算復雜度高的問題,為了提高多模態信息之間的交互性,提出了一種新的基于Transformer的視頻描述模型多模態注意力瓶頸視頻描述(multimodal attention bottleneck for video captioning,MABVC)。首先使用預訓練好的I3D和VGGish網絡提取視頻的視覺和音頻特征并將提取好的特征輸入到Transformer模型當中,然后解碼器部分分別訓練兩個模態的信息再進行多模態的融合,最后將解碼器輸出的結果經過處理生成人們可以理解的文本描述。在通用數據集MSR-VTT、MSVD和自建數據集BUUISE上進行對比實驗,通過評價指標對模型進行驗證。實驗結果表明,基于多模態注意力融合的視頻描述模型在各個指標上都有明顯提升。該模型在交通場景數據集上依舊能夠取得良好的效果,在智能駕駛行業具有很大的應用前景。

關鍵詞:視頻描述;多模態融合;注意力機制;智能駕駛

中圖分類號:TP391.41 文獻標志碼:A 文章編號:1001-3695(2023)02-049-0607-05

doi: 10.19734/j.issn.1001-3695.2022.06.0275

Multimodal fusion for video captioning on urban road scene

Li Mingxinga,b, Xu Chenga,b, Li Xueweia,b, Liu Hongzhea,b, Yan Chenyanga,b, Liao Wensena,b

(a. Beijing Key Laboratory of Information Service Engineering, b. Institute for Brain amp; Cognitive Sciences, Beijing Union University, Beijing 100101, China)

Abstract:Multimodal fusion algorithm is one of the solutions to the problem of urban road video caption which only considers visual information and ignores the equally important audio information. Existing multimodal fusion algorithms based on Transformer all have the problem of low fusion performance between modes and high computational complexity. In order to improve the interaction between multimodal information, this paper recently proposed a new Transformer based model called multimodal attention bottleneck for video captioning(MABVC). Firstly, this paper used pre-trained I3D and VGGish networks to extract visual and audio features of video and input the extracted features into Transformer model. Then, the decoder part would train the information of the two modes respectively and perform multimodal fusion. Finally, the model processed the results of the decoder and generated text captions that people could understand. This paper conducted a comparison experiments using data sets MSR-VTT, MSVD and self-built data sets BUUISE, and validated model results using evaluation metrics the model. The experimental results show that the video caption model based on multimodal attention fusion has obvious improvement in all indicators. The model can still achieve good results on traffic scene data sets, and has great application prospects, which can be promoted and applied in intelligent driving industry.

Key words:video caption; multimodal fusion; attention mechanism; intelligent driving

0 引言

伴隨著人工智能領域的快速發展,人工智能領域也逐漸劃分出了不同的研究領域,如計算機視覺方向(computer vision,CV)、自然語言處理方向(natural language processing,NLP)等。視頻描述(video captioning,VC)便是結合CV和NLP兩個領域,通過對CV的識別算法對視頻進行識別與使用NLP的生成器算法輸出視頻的描述[1]。目前視頻描述領域具有非常多樣的應用前景,在城市道路場景下視頻描述可以通過文字實時匯報車輛行駛環境的狀況以及交通場景下物體與物體之間的交互關系,并且可以對危險場景進行預警。在輔助視覺障礙人群和輔助安全駕駛危險預警等方面具有重要意義。

人們的感知是復雜、多模態的,且大多數算法的應用場景同樣是復雜多樣的。例如在自動駕駛場景下,無人車的駕駛環境十分復雜,僅憑借單一的模態對無人車前攝像頭拍攝的視頻進行精確的描述是十分困難的。因此科學家們提出將多模態信息應用到復雜多樣的應用場景中。隨著近幾年深度學習的不斷發展,多模態信息的應用也取得了顯著成績。但是在復雜場景下如何利用好不同模態之間的互補性,同時避免不同模態之間的冗余性仍然是具有挑戰性的問題。

本文基于注意力瓶頸(attention bottlenecks,AB)[2]提出了一個新的視頻描述生成模型用來解決現有的基于Transformer的多模態融合算法都存在著模態之間融合性能低、計算復雜度高的問題。采用了音頻和圖像兩種模態,通過注意力機制對視頻進行建模,使得模型能夠充分學習兩種模態的特征信息,從而生成更加精準的自然語言描述。

1 研究現狀

1.1 通用視頻描述模型發展現狀

視頻描述的研究主要可以分為基于模板[3]的方法和基于序列到序列(sequence to sequence)[4]的方法。現在基本都是使用序列到序列的方法來進行建模。基于序列的方法,通過將視覺特征信息和文本特征信息映射到同一個向量空間,并學習其分布,實現了序列到序列的映射。Venugopalan等人[4]先使用卷積神經網絡(CNN)提取視覺圖像特征,再通過長短時記憶網絡(LSTM)學習向量空間中的分布從而生成單詞序列。Olivastri等人[5]在前者的基礎上增加了inception-ResNet-V2提取視頻的動作特征,然后使用軟注意(soft attention LSTM,SA-LSTM)作為解碼器。王金金等人[6]使用擴張的卷積神經網絡提取視頻的動作特征,將提取到的動作特征和經過詞嵌入處理的單詞向量一起輸入到基于擴張卷積的注意力機制中,再通過LSTM生成視頻的自然語言描述。苗教偉等人[7]設置了三種特征提取器從三個角度處理視頻數據,分別提取了視頻幀的視覺特征、視頻的動作特征和視頻的語義特征,將視覺特征和動作特征作為整體特征,再將整體特征和語義特征通過解碼器生成文本描述。

隨著Transformer[8] 在自然語言處理、計算機視覺、音頻處理等許多人工智能領域都取得了巨大成功,越來越多的科研工作者開始使用Transformer解決問題,現在已有各種各樣的Transformer 變體被提出。Transformer的成功也為視覺—文本的跨模態研究帶來了新的思路,圖像描述和視頻描述相繼出現了以Transformer為模板的模型。Chen等人[9]直接使用CNN提取視頻幀的特征輸入到原始的Transformer中,再經過softmax層輸出下一個單詞在詞匯表上的分布。然而,視頻描述是一個多模態學習問題,視頻特征在不同的時間步長之間有很大的冗余,因此Jin等人[10]基于此問題將稀疏邊界感知策略(sparse boundary-aware strategy,SBS)引入到編碼器和解碼器中的所有多頭注意塊中來減少視頻表示中的冗余,但是此方法還存在耦合缺陷。Gao等人[11]針對此問題提出了一種名為D2的雙層解耦Transformer模型,通過將時空表示解耦為first-spatial-then-temporal范式用來連接預訓練任務和下游任務,使整個模型能夠進行端到端的訓練。

上述方法大多采用單一的模態信息作為輸入,忽略了模態信息之間的互補性,個別方法采用了多種模態信息作為輸入,但是多模態信息的處理方法略顯單一,在提升了性能的同時也大大增加了模型的計算復雜度。

1.2 基于注意力機制的多模態融合算法發展現狀

多模態融合是現代人工智能研究的熱點之一,許多領域都在使用多模態融合來解決問題,尤其是在視頻理解領域。模態(modality)通常是指某種信息的存在方式,例如人用眼睛可以收集到圖像信息,用耳朵可以收集到音頻信息以及激光雷達可以收集到點云信息。多模態(multimodal)則是指多種模態信息進行特定形式的組合。不同的模態信息代表著看待事物的角度不同,正如人們所看到的和所聽到的信息都具有獨自的特點,因此不同模態信息之間具有互補性,如果能合理地應用不同模態信息之間的互補性,就能得到豐富特征信息。常見的模態信息有視覺、點云、文本和音頻等。Jin等人[12]提出了采用多模態融合的方法去描述視頻內容,在編碼器處采用了視頻、圖像、音頻、對話語音和種類信息,然后使用一個融合網絡進行融合之后再輸入到解碼器端得到句子。Ramanishka等人[13]對文獻[4]進行了擴展,以利用額外的多模態特征,并使用C3D提取的動作特征、MSR-VTT自帶的視頻標簽信息和pyAudioAnalysis提取的音頻特征。Xu等人[14]基于LSTM設計了一個新的融合模塊稱做子和融合單元,它利用多層次的注意力機制,即在時間序列層和模態信息層進行兩種模態信息的交互。井佩光等人[15]使用自注意力機制來解決多模態信息融合過程中信息流失的問題,并對單一模態進行監督學習用于模態信息差異較大的部分,同時利用不同模態之間的交互信息獲取更加全面的特征表示。

自Transformer取得巨大成功之后,注意力機制[16,17]已經被廣泛應用在機器視覺和自然語言處理領域中,現如今已經成為人工智能領域最受歡迎的模塊之一。同時科學家們也發現,注意力機制的運算過程會進行多個向量之間的加權求和,這種運算方式非常適合多模態信息之間的融合。Zhang等人[18] 在機器翻譯的過程中使用了圖片作為輔助特征,即在Transformer的解碼器端將圖片信息和文本信息同時作為輸入,然后通過注意力機制將文本特征和圖片特征進行融合再輸入到解碼器中。這種方法雖然做到了不同模態信息之間的交互,但是忽略了單一模態自身之間的影響。Xu等人[19]對文本和圖片特征進行編碼,使用兩個交互式記憶網絡學習單一模態的特征信息,再使用多交互注意力機制(multi-interactive attention mechanism)學習多模態之間的交互信息。 但是這種方法由于每一層都需要進行一次融合計算,所以運算成本十分巨大。

上述多模態融合方法普遍計算成本高、計算復雜度大,為了減少運算成本,同時兼顧單一模態自身的影響以及不同模態信息之間的交互,文獻[2]提出一種全新的應用于視頻理解領域的多模態融合方案,使用注意力瓶頸(attention bottleneck,AB)模塊,先將視頻信息和音頻信息分別進行自注意力機制編碼,然后再引入AB模塊接收兩個模態的信息,通過交叉注意力機制進行多模態之間的交互。由于僅在解碼器的中期進行了不同模態信息之間的融合,所以大大降低了運算成本,還計算了單一模態信息對自身的影響。

1.3 城市交通場景下的視頻理解算法發展前景分析

視頻到文本的跨模態學習發展至今,在許多領域具有廣泛的應用價值,例如視頻推薦,不再僅限于視頻標簽的視頻檢索,以及通過將視覺信息轉換為文本信息來幫助視聽障礙人士[20]。以此為啟發提出將其應用到智慧交通領域,用于保障聽覺障礙等殘障人士進行危險交通信息的預警。然而目前視頻描述算法在城市交通場景下的應用相對較少,因此具有很好的研究空間與前景。

視頻描述算法不僅可以實時地將道路當前時間段的狀態用文字表達出來,還能夠進行危險場景的預警,例如行人和電瓶車橫穿馬路,前方車輛突然變道等危險情況都可以作出危險預警,并且還能夠通過文本的行駛進行表達。城市交通場景的視頻描述還能保障殘障人士輔助駕駛的安全性。然而城市交通場景十分復雜多變,交通道路元素和交通參與者種類繁多,因此本文將采用擁有龐大的城市交通場景視頻數據的BUUISE數據集進行訓練。

2 基于多模態融合的MABVC模型

現今已有諸多學者采用多模態信息進行視頻描述[6,8,9,21]算法的研究,但大多是采用后期融合的方式進行多模態信息的融合。后期融合并不能充分利用多模態信息之間的互補性而且會累計冗余性。因此本文提出了一種中期融合的視頻描述網絡結構,增加互補信息的利用率,并盡量去除冗余信息帶來的影響。首先通過I3D[22]和VGGish網絡提取視頻的視覺特征和音頻特征;然后輸入到引入了注意力瓶頸模塊的Transformer模型當中,讓模型網絡通過自注意力機制分別學習視覺和音頻的特征信息;再通過引入注意力瓶頸的交叉注意力機制實現多模態信息的融合。

2.1 MABVC模型結構

該模型分為編碼器、解碼器和生成器三部分。首先解碼器部分以一組特征V=(v1,v2,…,vT)為輸入,將V映射到一系列的內在表征Z=(z1,z2,…,zT)。然后解碼器以編碼器的輸出Z和一段描述w≤t=(w1,w2,…,wt)的詞嵌入表示e≤t=(e1,e2,…,et)為輸入,編碼器生成g。生成器通過解碼器輸出的g≤t=(g1,g2,…,gt)建模下一個單詞在詞匯表上的分布p(wt+1∣g≤t),通過獲取概率最高的單詞貪婪地選擇下一個單詞,直到對一個特殊的結尾標記進行采樣。字幕由起始標記初始化。該模型解碼器分為早期和后期兩個階段,早期為自注意力機制解碼器,后期為交叉注意力機制解碼器。MABVC模型結構如圖1所示。

2.2 基于多模態融合的編碼器

本文提出的多模態融合模型基于Transformer結構,多模態信息的融合在編碼器部分進行,本文的編碼器共分為早期和后期兩部分,如圖2所示。首先是早期部分模型對長t的視頻采樣出F幀圖像,然后使用I3D和VGGish對視頻進行特征提取,再將視覺和音頻的特征表示拼接并作為一個單獨的序列。假設從視頻幀中提取的特征為Vrgb,音頻特征為Vspec,那么最終的序列可表示為

其中:‖表示拼接操作。然后采用原始的Transformer對上述序列進行處理。

編碼器由L層組成。第一層輸入一組特征V,輸出內部表示Zl,而下一層將前一層的輸出作為其輸入。

每個編碼器層l由多頭自注意力機制和全連接網絡兩個子層組成,并使用層歸一化對兩個子層的輸入進行歸一化,對每個子層的輸入輸出進行殘余連接。因此第l層編碼器層定義如下:

原始的Transformer編碼器如圖2(a)所示,其中自注意力模塊能夠自由地提取和處理來自不同模態的所有信息。多頭自注意力機制(multi-head self-attention,MSA)可表示為

2.3 改進的多模態融合編碼器

在編碼器后期部分將原始Transformer中的自注意力機制換成交叉注意力機制(cross-attention)來進行信息交換,其余部分與原始Transformer的編碼器相同,每一層的輸出表示為

其中:zl是zlrgb、zlspec的拼接;θrgb、θspec為每個模塊自己的專屬參數。多頭交叉注意力機制(multi-headed cross attention,MCA)使用了張量X和Y,其中X表示查詢值q,Y用于重新加權查詢值q的鍵值k、v,可表示為

用交叉注意力機制替換了原始注意力機制,同時為了降低注意力機制的計算復雜性,本文在Transformer的輸入序列中引入了B個AB(attention bottleneck)模塊,記為

則后期編碼器輸入序列變為

因此,視覺和音頻的特征向量更新只能通過AB模塊來進行,通過限制AB模塊的數量遠小于原始tokens的數量來降低計算復雜度,并且通過較少的AB模塊傳遞跨模態信息時,模型迫使每個模態濃縮自己的信息,且僅傳遞最重要的信息給另一個模態,從而避免了模態中冗余信息的傳遞和計算。

3 實驗結果與分析

3.1 實驗環境和參數設置

本文實驗環境為Ubuntu 18.6,64位操作系統,Intel Xeon CPU E5-2637 v4 @ 3.50 GHz,內存64 GB,顯卡NVIDIA Titan V以及CUDA10.0.130、cuDNN 7.5、PyTorch 1.7和Python 3.6的軟件平臺。

訓練模型的epoch和訓練批量處理分別設定為100和128,單詞嵌入大小設置為512,AB模塊數量B=2,使用動態調整學習速率的ADADELTA來學習參數,并將波束搜索大小設置為5。

模型驗證采用常用的MSVD和MSR-VTT公共數據集,以及交通場景數據集BUUISE進行訓練。本文實驗采用以下四種評價指標,分別是METEOR、BLEU-4(bilingual evaluation understudy)、ROUGE-L和CIDEr,結果如表1所示。

3.2 視頻描述數據集

MSVD是由微軟研究院于2010年公開的公共數據集,該數據集由1 970個視頻片段構成,平均每個視頻片段包含40個人工標注語句。

MSR-VTT是由微軟于2016年公開的一個用于測試視頻描述模型的公共數據集。該數據集由10 000個視頻片段構成,平均每個視頻片段包含20個人工標注語句。模型訓練均采用上述數據集中的英文標注語句。

BUUISE是由北京聯合大學北京市信息服務工程重點實驗室團隊建立的真實場景的道路數據集,本文從中抽取3 000個視頻,并隨機截取每個視頻中的6~20 s的內容作為原始數據集,并對其進行人工標注,每個短視頻包含10個人工標注語句。

3.3 實驗結果與分析

將本文提出的MABVC模型與其他的視頻描述模型進行了對比,表1展示了在MSVD、MSR-VTT兩個數據集上的結果。從結果可以看出,本文方法在兩個數據集中各個指標都取得了最好的結果。對比同樣使用I3D提取視頻特征的TVT和SBAT算法可以看出,對于僅有單一模態的,本文的多模態融合方法有著明顯的優勢。表2展示了本文模型與其他模型之間參數量和訓練時間的對比,其中V表示視頻信息,A表示語音信息。本文模型與同樣使用Transformer結構的TVT模型相比,在采用相同兩種模態信息的情況下,降低了參數量和模型訓練時間。

在MSR-VTT數據集中,不同方法的參數和訓練時間以及CIDEr值比較如圖3所示。圖3中橫坐標表示模型訓練時間,縱坐標表示模型編碼器參數量,氣泡面積表示CIDEr值。通過圖3可以清楚看出,本文方法與僅使用單一模態的TVT(base)的參數量十分接近,同時具有更好的性能表現和更短的訓練時間。

表3展示了在BUUSIE數據集上本文方法與其他開源算法結果的比較。可以看出,在更加復雜的場景下采用多模態信息進行訓練的方法明顯優于單一模態的方法。

本文方法在BUUSIE數據集上的視頻描述實例如表4所示,展示了一部分數據的人工標注語句和本文方法生成的語句。

可以看出,模型自動生成的語句能夠包含十分豐富的語言要素并且能夠適應內容更加復雜的場景。這歸功于更加多樣化的模型輸入,這更加符合人們本身對視頻進行描述的習慣,故使得模型產生較好的效果。

3.4 消融實驗分析

本文采用AB模塊對Transformer網絡進行改進,對比現有方法SBAT、TVT等在各項指標均有提升。通過消融實驗在MSVD和MSR-VTT兩個數據集上進行了驗證,從實驗結果來反映AB模塊帶來的影響。

由表5可以看出,在使用多模態信息的情況下僅使用自注意力機制多模態信息之間缺少信息交互,而且兩種模態之間存在冗余信息,所以結果并不如單一模態下的結果。而引入了交叉注意力機制后,多模態的信息可以進行交互,結果好于單一模態的結果,并且好于同樣使用視頻和音頻模態的Att-TVT模型。而引入了AB模塊,哪怕僅使用自注意力機制不同模態之間的信息依舊可以通過AB模塊進行傳遞,因此結果有所提升。而自注意力機制和交叉注意力機制在使用了AB模塊后取得了最好的結果。

4 結束語

為解決多模態信息融合時計算量大以及可用信息利用率低的問題,本文使用Transformer架構并采用交叉注意力機制進行多模態信息的融合,通過AB模塊進行多模態融合信息的傳遞,進而生成對整個視頻的描述。實驗證明,使用視頻信息和音頻信息可以實現信息的互補從而作出更加精準的文本描述。該網絡的優勢在于能夠更好地利用多模態之間的有用信息。在MSVD和MSR-VTT兩個數據集上進行實驗驗證,本文方法在常用的METEOR、BLEU-4、ROUGE-L和CIDEr評價指標上均獲得了良好的效果,并在BUUSIE的交通道路場景數據集上同樣取得了較好的結果。證明本文方法在交通道路場景下同樣適用,具有較好的泛化性。

視頻描述發展至今,單一模態的信息已經無法滿足科研人員的需求,采用多模態信息進行實驗已經逐漸成為主流。更多模態信息的加入往往會帶來更多的可用信息,同時也會增加更多的冗余信息,因此在加入一個新的模態信息后如何降低其冗余信息帶來的影響,并且保證可用信息的利用效率和模型的參數量是未來研究的重點。

參考文獻:

[1]Lin K,Li Linjie,Lin C C,et al. SwinBERT: end-to-end transformers with sparse attention for video captioning [EB/OL].(2021). https://arxiv.org/2111. 13196.

[2]Nagrani A,Yang Shan,Arnab A,et al. Attention bottlenecks for multimodal fusion [EB/OL].(2021-06-30). https://arxiv.org/abs/2107.00135.

[3]Rohrbach M,Qiu Wei,Titov I,et al. Translating video content to na-tural language captions [C]// Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2013: 433-440.

[4]Venugopalan S,Rohrbach M,Donahue J,et al. Sequence to sequence-video to text [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2015: 4534-4542.

[5]Olivastri S,Singh G,Cuzzolin F. End-to-end video captioning [C]// Proc of IEEE/CVF International Conference on Computer Vision Workshops. Piscataway,NJ:IEEE Press,2019.

[6]王金金,曾上游,李文惠,等. 基于擴張卷積的注意力機制視頻描述模型 [J]. 電子測量技術,2021,44(23): 99-104.(Wang Jinjin,Zeng Shangyou,Li Wenhui,et al. Video caption model of attention mechanism based on dilated convolution [J]. Electronic Mea-surement Technology,2021,44(23): 99-104.)

[7]苗教偉,季怡,劉純平. 基于視覺特征引導融合的視頻描述方法 [J]. 計算機工程與應用,2022,20:124-131. (Miao Jiaowei,Ji Yi,Liu Chunping,et al. Video captioning method based on visual feature guided fusion [J]. Computer Engineering and Applications,2022,20:124-131.)

[8]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc.,2017: 6000-6010.

[9]Chen Ming,Li Yingming,Zhang Zhongfei,et al. TVT: two-view transformer network for video captioning [C]// Proc of Asian Conference on Machine Learning. 2018: 847-862.

[10]Jin Tao,Huang Siyu,Chen Ming,et al. SBAT: video captioning with sparse boundary-aware transformer [C]// Proc of the 29th International Conference on International Joint Conferences on Artificial Intelligence. 2021: 630-636.

[11]Gao Yiqi,Hou Xinglin,Suo Wei,et al. Dual-level decoupled transformer for video captioning [EB/OL].(2022). https://arxiv.org/ 2205. 03039.

[12]Jin Qin,Chen Jia,Chen Shizhe,et al. Describing videos using multi-modal fusion [C]// Proc of the 24th ACM International Conference on Multimedia.New York:ACM Press,2016: 1087-1091.

[13]Ramanishka V,Das A,Park D H,et al. Multimodal video caption [C]// Proc of the 24th ACM International Conference on Multimedia. New York:ACM Press,2016: 1092-1096.

[14]Xu Jun,Yao Ting,Zhang Yongdong,et al. Learning multimodal attention LSTM networks for video captioning [C]// Proc of the 25th ACM International Conference on Multimedia.New York:ACM Press,2017: 537-545.

[15]井佩光,葉徐清,劉昱,等. 基于雙向深度編碼網絡的短視頻流行度預測 [J]. 激光與光電子學進展,2022,59(8):290-298. (Jing Peiguang,Ye Xuqing,Liu Yu,et al. Micro-video popularity prediction with bidirectional deep encoding network [J]. Laser amp; Optoelectronics Progress,2022,59(8):290-298.)

[16]Tsotsos J K. A computational perspective on visual attention [M]. Cambridge,MA:MIT Press,2021.

[17]Tsotsos J K,Sciences B. Analyzing vision at the complexity level [J]. Behavioral and Brain Sciences,1990,13(3): 423-445.

[18]Zhang Zhuosheng,Chen Kehai,Wang Rui,et al. Neural machine translation with universal visual representation [C]//Proc of International Conference on Learning Representations. 2019.

[19]Xu Nan,Mao Wenji,Chen Guandan. Multi-interactive memory network for aspect based multimodal sentiment analysis [C]// Proc of AAAI Conference on Artificial Intelligence. 2019: 371-378.

[20]Voykinska V,Azenkot S,Wu Shaomei,et al. How blind people interact with visual content on social networking services [C]// Proc of the 19th ACM Conference on Computer-Supported Cooperative Work amp; Social Computing. New York:ACM Press,2016: 1584-1595.

[21]Le H,Sahoo D,Chen N,et al. Multimodal transformer networks for end-to-end video-grounded dialogue systems [C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 5612-5623.

[22]Carreira J,Zisserman A. Quo vadis,action recognition?A new model and the kinetics dataset [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017: 6299-6308.

[23]Zheng Qi,Wang Chaoyue,Tao Dacheng. Syntax-aware action targeting for video captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020: 13096-13105.

[24]Tu Yunbin,Zhou Chang,Guo Junjun,et al. Enhancing the alignment between target words and corresponding frames for video captioning [J]. Pattern Recognition,2021,111: 107702.

[25]Ryu H,Kang S,Kang H,et al. Semantic grouping network for video captioning [C]// Proc of AAAI Conference on Artificial Intelligence. 2021: 2514-2522.

[26]Zhao Hong,Chen Zhiwen,Guo Lan,et al. Video captioning based on vision transformer and reinforcement learning [J]. PeerJ Computer Science,2022,8: e916.

[27]Zhang Ziqi,Shi Yaya,Yuan Chunfeng,et al. Object relational graph with teacher-recommended learning for video captioning [C]// Proc of IEEE/CVF conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 13278-13288.

收稿日期:2022-06-08;修回日期:2022-07-27 基金項目:國家自然科學基金資助項目(62171042,62102033,61906017,61802019);北京市重點科技項目(KZ202211417048);協同創新中心資助項目(CYXC2203);北京聯合大學學術研究項目(BPHR2020DZ02,ZB10202003,ZK40202101,ZK120202104)

作者簡介:李銘興(1999-),男,山東臨沂人,碩士研究生,主要研究方向為機器視覺、智能駕駛;徐成(1988-),男,重慶人,講師,博士,主要研究方向為機器視覺、智能駕駛;李學偉(1962-),男,河南洛陽人,教授,博導,博士,主要研究方向為無人駕駛、計算機視覺、高鐵大數據;劉宏哲(1971-),女(通信作者),河北涿州人,教授,博導,博士,主要研究方向為計算機視覺、深度學習(liuhongzhe@buu.edu.cn);閆晨陽(1998-),男,河北唐山人,碩士研究生,主要研究方向為智能駕駛、計算機視覺、多目標跟蹤;廖文森(1996-),男,江西贛州人,碩士研究生,主要研究方向為機器視覺、圖像分割.

主站蜘蛛池模板: 国产激情无码一区二区APP| 萌白酱国产一区二区| 成人伊人色一区二区三区| 五月天天天色| 国产成人一区在线播放| 亚洲精品欧美重口| 天堂亚洲网| 欧美亚洲一区二区三区导航| 婷婷亚洲最大| 国产精品美女自慰喷水| 国产精品999在线| 日韩视频福利| 亚洲欧美日韩中文字幕一区二区三区| 亚洲国产日韩在线成人蜜芽| 亚洲熟女偷拍| 中文字幕va| 日日拍夜夜操| 精品国产自在在线在线观看| 亚洲国产清纯| 亚洲男人天堂网址| 日本一区二区三区精品视频| 免费一看一级毛片| 中文纯内无码H| 国产噜噜噜| 无码福利视频| 国产自视频| 日韩a级片视频| 最新日韩AV网址在线观看| 久久国产成人精品国产成人亚洲 | 韩日免费小视频| 99久久精品国产麻豆婷婷| 国产精品视频猛进猛出| 国产青榴视频| 久久久91人妻无码精品蜜桃HD| 久草网视频在线| 日韩精品一区二区三区中文无码| 就去色综合| 国产流白浆视频| 97青草最新免费精品视频| 亚洲日产2021三区在线| 伊人成人在线| 青青草国产一区二区三区| 少妇精品在线| 狠狠亚洲婷婷综合色香| 毛片久久久| 无码AV日韩一二三区| 亚洲一区免费看| 日韩毛片免费| 91精品国产91久久久久久三级| 国产91精品最新在线播放| 国产高清精品在线91| 67194亚洲无码| 国产一区在线观看无码| 永久天堂网Av| 亚洲人成影院午夜网站| 三上悠亚一区二区| www.亚洲一区| 欧美一区福利| 妇女自拍偷自拍亚洲精品| 欧美成人区| 精品国产香蕉在线播出| 中文字幕调教一区二区视频| 欧美色亚洲| 无遮挡一级毛片呦女视频| 国产精品浪潮Av| 久久黄色视频影| 国产成人精品免费av| 日韩在线欧美在线| 99热这里只有免费国产精品| 亚洲愉拍一区二区精品| 91精品国产综合久久香蕉922| 色综合成人| 欧美69视频在线| 成人va亚洲va欧美天堂| 在线一级毛片| 二级特黄绝大片免费视频大片| 色欲色欲久久综合网| 久久网欧美| 色老二精品视频在线观看| 国产一级毛片高清完整视频版| 国内精品免费| 又猛又黄又爽无遮挡的视频网站|