999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

反向聚焦細粒度多模態語義對齊的視頻字幕模型

2025-07-28 00:00:00蔡霞羅會蘭萬斯奇
計算機應用研究 2025年7期
關鍵詞:字幕語義模態

中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)07-009-1986-08

doi:10.19734/j. issn.1001-3695.2024.11.0492

Abstract:Existingvideocaptioningoftenintroducemultimodal informationtoassistmodelsinextractingcriticalandfinegrained details fromcomplex anddynamic visual content.However,these methods tendtooverlook thesemantic gapscaused by representationaldiferencesamong modalities.Tobridgethesegaps,facilitateefectivecross-modalalignmentandeficientfusion,andenancetheextractionoffine-grainedsmanticinformatio,thispperproposedareverse-focusfingranedultio dal semanticalignmentforvideocaptioning(RM4Cap).Thismodelcombinedanimage-textpaircorpusand facilitatedsemanticalignmentbetweenvideoandimage,indirectlyaligningvideorepresentationswithtextintheimage-textpairs.Anditdesignedareverse attention focusing algorithm to suppress redundant scene informationwhile highlighting inconspicuous objects and their interactions.Experimentsconductedonthe MSVDand MSRVTTdatasetsshow thatthe model significantlyoutperforms existing methods in metricssuch as CIDErand BLEU-4.It efectivelyresolves thealignmentchallenges andredundancy issues in multimodal fusion,further demonstrating its ability to narrow the cross-modal semantic gap.

Key words:video captioning;multimodal; reverse attention;semantic alignment; semantic gap

0 引言

視頻字幕是一個連接視覺和語言并將視覺內容以自然語言描述的跨模態任務。視頻字幕在多個領域都有廣泛的應用,尤其是在無障礙輔助系統的設計和多媒體教學任務[1.2]中具有重要作用。然而,理解視覺內容是一項非常具有挑戰性的任務。與圖像視覺內容的固定不變和文本語句主旨的直接表述不同,視頻內容由于具有時序性,其表現形式在不同場景和時間點上會有所變化。例如,一只倉鼠在不同的鏡頭下可能有不同的姿態和難以避免的遮擋,而模型往往無法正確識別其類別,通常會用籠統的詞語,如用“動物”來描述。同樣地,對于細微的動作變化,模型也可能無法察覺,進而用簡化的動作描述,如用“isplaying”或“iswith”概括所有的變化。這一局限性不僅妨礙了細粒度信息的呈現,還影響了模型對關鍵視覺關系的準確推理。因此,如何有效地將學習到的這些細粒度的視覺信息轉換為更精確的文本描述成為一大挑戰。

為了應對上述挑戰,近期的研究[3\~5]探索了引入額外模態信息以彌補視覺內容表達的不足,其中最廣泛應用的是引人文本模態。文本不僅能彌合視覺內容在變化過快或過慢時引發的理解不穩定,還能在視覺信息稀缺的情況下提供語義支持,從而幫助模型準確識別并表達關鍵信息。引入文本模態的模型常采用圖像-文本匹配方法,或者通過額外構建支持集語料庫[]供模型參考,并引人注意力機制[89]以實現視覺與文本的跨模態融合。注意力機制能夠融合來自不同特征提取器的信息,并動態地總結視覺與文本特征,定位視頻中與目標文本標簽高度相關的視覺區域,從而增強對全局信息的捕捉。然而,這些方法仍然面臨信息冗余的問題,例如,視頻幀序列中可能包含大量不同的對象或場景,但并非所有的對象或細節都對字幕生成具有實質性貢獻。模型通常難以有效篩選并聚焦于關鍵對象,導致一些不相關或次要信息被過度關注,影響了字幕生成的準確性。此外,現有方法在處理細粒度目標時,往往未能深入捕捉同類對象之間的微小差異。這種忽視細節的做法可能導致生成的描述過于籠統,無法充分表達視頻中的復雜變化和細節。

盡管現有方法在視覺與文本的跨模態融合上有所嘗試,但依然未能有效解決視覺與文本之間的語義鴻溝問題。具體來說,視覺模態中包含的細粒度信息和復雜的語義關系在轉換為文本描述時,往往未能完全反映或準確傳達,導致視覺內容中的深層次信息無法與文本特征充分對齊。這種語義鴻溝使得模型難以準確捕捉視頻中的微小變化和細節,從而影響字幕生成的精確度與多樣性。雖然現有對齊方法能夠在一定程度上緩解信息融合的難題,但仍未能徹底消除視覺和文本模態間的語義差異。為解決上述所說的現有方法中存在的視覺和文本模態之間的對齊與融合難題,以及兩種模態間的語義鴻溝問題,本文提出了一種新穎的跨模態目標語義對齊方法,并稱之為RM4Cap。

RM4Cap不同于傳統的圖像-文本匹配檢索,而是通過將原始視頻幀特征與圖文對中提取的圖視覺輔助特征進行匹配,結合語料庫信息識別目標對象的最接近類別。這種方法不僅顯著提升了尾部類別的生成能力,還在語義對齊和視覺關系推理中展現了更高的細粒度表現。由于視覺特征間的匹配相比跨模態的視覺-文本對齊更加直觀且具可解釋性,此策略有效緩解了視覺與文本語義間的鴻溝問題。此外,本文檳棄了傳統注意力機制中只關注幀間顯著目標的學習方式,創新性地引入反向注意力機制,以捕捉小類別之間的細微差異,而非完全不同類別的顯著差異。這種機制有效緩解了語義簡化的傾向,從而提升了模型的描述細粒度和多樣性。本文的貢獻可以總結如下:

a)提出了一個新穎的多模態視頻字幕模型,通過引人額外的圖像-文本對,彌合圖像對中圖像的距離,實現圖像與視頻幀的對齊,間接實現低級視覺與跨模態高級語義的對齊,從而解決了語義鴻溝問題,實現了多模態信息的高效融合。

b)在引入多模態信息的基礎上,本文設計了反向注意力聚焦算法,在傳統注意力上進行改動,提高模型發現視覺細微動態變化的能力,同時減少視覺冗余以及額外模態帶來的冗余。

c)在兩個廣泛使用的公共數據集MSVD和MSRVTT上進行實驗,除了在大數據MSRVTT上的BLEU-4指標,本文模型在所有其他指標上都取得了顯著的提升。

1相關工作

a)視頻字幕。最早的視頻字幕任務基于SVO三元組[10]該方法不僅需要耗費大量的人工設計語言規則,且生成的字幕缺乏豐富性和準確性,逐漸被深度學習的方法所取代,常見的視頻字幕任務范式是使用兩階段的編碼器解碼器架構,使用經過預訓練的2DCNN[11]以及3DCNN[12]來編碼視頻幀序列的視覺、運動信息,然后使用RNN或者 LSTM[13~15] 按順序解碼出單詞。如RLHMN[14]提出了一個層級式的模塊化網絡,編碼視頻中的對象、動作以及上下文信息配合LSTM解碼生成字幕。MGRMP[16]設計了一個循環區域注意模塊,以提取不同的空間特征,并通過使用運動引導的跨幀消息傳遞,建立不同區域之間的高階關系,共同鼓勵信息交流產生強大的視頻表示。SAAT[15]則是額外地引入了預訓練對象檢測器,并設計了動作引導模塊,通過學習注意力分布,動態融合謂詞與先前預測單詞的信息,使模型能精準地描述動作。

以上工作都圍繞數據集本身開展,外部知識和構建額外的語料庫的思想被引人到視頻任務中,如ORG-TRL[17]創新地設計了一種教師推薦學習方法,將外部知識集成到字幕模型當中,結合對象關系圖編碼器以捕獲更詳細的交互信息。Open-Book[13]構建了可插入的視頻到文本檢索器,從訓練語料庫中檢索句子作為提示,增強模型字幕生成能力。另外,視頻內的視覺關系也是值得關注的,這關乎對視頻內容的總結。

TVRD[18] 提出了一個傳遞視覺關系的檢測模塊,細化視覺對象的動作,并構造對象-動作圖來描述對象和動作之間的淺層關系,通過動作來彌合對象之間的差距。

視頻字幕任務是多模態任務的先驅,所以近期的視頻字幕研究開始引人多模態知識以輔助生成。如MGSA[19]提出了一種利用運動引導空間注意的新型視頻字幕框架,并結合了數據集的音頻信息來生成更細致的字幕。 HRNAT[20] 提出了帶有輔助任務的分層表示網絡,其中跨模態匹配任務能夠在語言三級表示的指導下學習視頻的層級表示,以獲得具有語法感知的視頻字幕。SMRE提出了一種基于支持集的視頻字幕多模態表示增強模型,在樣本之間共享的語義子空間中構建靈活的映射關系和挖掘信息。

b)語義引導視頻字幕。字幕生成的關鍵是對視頻內語義信息的準確把握,所以視覺語義嵌人在視頻字幕任務中有著至關重要的作用。研究人員通過構建從視覺特征獲取視覺表示向量的視覺模型和把字幕投射到語言表示向量的語言模型兩個模型,將兩種表示映射到聯合的空間當中以生成字幕。Sib-Net[21] 使用雙分支架構對豐富的視頻信息進行編碼,利用了視覺信息的自動編碼器和語義信息的視覺語義嵌入。 SGN[22] 提出了一種用于視頻字幕的語義分組網絡。該網絡通過將視頻編碼為由部分解碼的標題和相關幀組成的語義組來全面了解字幕上下文。RSFD[23]提出了一種針對頻率擴散的新型細化語義增強方法,并設計了一個不同的語義監督器(DSS)模塊來補償擴散過程帶來的高頻標記的信息丟失,進一步強調低頻標記的語義來緩解長尾問題。相比之下,本文提出了一種多模態的方法,通過結合額外的圖文對來提供語義信息指導,輔助模型準確地學習到視頻內容的語義信息。

2方法

本文RM4Cap框架如圖1所示,主要由多模態特征編碼器、跨模態目標語義關聯、字幕生成器三個模塊組成,充分利用視頻幀圖像與圖像之間的高效對齊,間接達到視頻幀與文本的跨模態的高效融合。

首先,通過多模態編碼器獲取原始視頻的全局視覺表示,同時對額外引入的圖像-文本對語料庫中的圖像和文本進行編碼,得到圖像輔助特征表示和文本標簽語義信息。隨后,在跨模態目標語義關聯過程中,本文提出了跨模態目標-語義關聯模塊CTSAM,以圖像輔助特征為橋梁,實現視頻與文本標簽目標語義的對齊與關聯,并采用反向注意力聚焦算法對關聯后的新視覺語義進行建模,在與不同幀的交互中,學習到細微差異,實現更加細粒度的特征表示。最后字幕生成模型將這些表示映射到文本空間,生成相對應的描述。

2.1多模態特征編碼器

為了更好從視頻中獲取豐富的視覺表示,以及對圖像-文本對進行特征編碼,本文使用了預訓練的CLIP模型來搭建本文的多模態特征編碼器,CLIP模型并不是單純的視覺特征提取骨干網絡,如文獻[24]所述,該模型對大量的Image-Text即圖文對進行訓練,通過對比學習,使得當其在編碼視覺模態信息時可以更加趨向文本表示,同樣地,當其在編碼文本信息時,同時向圖像表示空間靠攏。如圖1所示,多模態編碼器主要由兩部分組成:a)對輸入的視頻幀序列進行處理,采用的是CLIP模型中的視覺編碼器,并選擇 ViT[25] 作為視覺編碼器的特征提取骨干;b)對輸入的圖文對進行處理,對于圖像,依舊采用和視頻處理一樣的視覺編碼器,對于文本,則采用CLIP模型中的文本編碼器來進行編碼。編碼視頻特征、圖文對圖像特征以及文本標簽語義特征的具體實現如下:

a)采用視覺編碼器提取視頻特征。在這一步中,為了確保模型能夠有效捕獲視頻幀細粒度信息,在采樣階段執行均勻采樣來避免過多相似視頻幀被輸入到編碼器。首先,從給定視頻片段提取 L 個關鍵幀,組成新的視頻幀序列 Fi(01,x2,…,x1p1} ,通過線性投影將每個塊展平并映射到 dv 維的向量空間,得到每一個圖片的塊嵌入表示。

其中: Epos 是所有圖像塊的位置編碼; Z0 是Transformer初始輸入序列;Transformer由 N 層多頭自注意力層和MLP塊交替堆疊而成,負責對這些嵌入表示即初始輸人序列進行特征編碼。具體實現公式如下:

Z'n=MSA(LN(Zn-1))+Zn-1

Zn=MLP(LN(Z'n))+Z'n

其中: Zn 是Transformer重復 n 層的輸出結果; ZclsN 是最后一層輸出的分類特征,然后對其進行歸一化,得到最終的全局視覺特征 Gi 。需要注意的是,為了節約計算成本和訓練時間,該過程的所有參數都采用凍結的預訓練參數,不參與模型訓練。

b)分別采用視覺編碼器、文本編碼器提取圖像輔助特征和文本標簽語義特征。在編碼視瀕幀序列的同時,從圖像-文本對中采樣的圖像集 {I1,I2,…,IM} 也被輸入到視覺編碼器visionTransformer(ViT-L/14)進行處理,以提取輔助圖像特征 Vj

其中: M 為圖像對中圖像集的總數; Vj 為圖像集中第 j 張圖像對應的圖像視覺輔助特征。

類似地,從圖像-文本對中采樣的文本標簽集 {[token]1 [token]2,…,[token]M} 由CLIP模型中的文本編碼器將其編碼為語義表示。文本編碼器同樣基于Transformer結構,由于文本標簽是一個一個單獨存在的單詞,并沒有像圖像那樣需要結合上下文語義信息進行編碼,所以Transformer中多頭自注意力層并沒有起什么作用。在這一步中,本文丟棄多頭自注意力層,僅保留MLP塊作為Transformer的關鍵組件,通過多次疊加,生成類別標簽的語義特征。其簡化的計算過程如下:

En=MLP(LN(En))+Enn=1,2,…,N

其中: M 為圖文對中類別標簽的總數; Tj 為圖文對中第 j 個文本類別標簽。

2.2CTSAM跨模態目標-語義關聯模塊

為了實現視覺和語義之間更好的對齊以及減少視覺冗余的負面影響,本文提出了CTSAM跨模態目標-語義關聯模塊,分別由跨模態語義對齊(cross-modal semanticalignment,CMSA)和反向聚焦幀間特征細化(reverse-focusedframe-levelrefinement,RFFR)兩個關鍵組件組成。CMSA引入圖片進行對齊來輔助文本對齊和融合,與直接對文本信息進行注意力不同,CMSA可以提供更加豐富的包含準確目標的語義信息;同時結合使用了反向注意力的RFFR,又可以對模態存在的冗余信息進行刪減,保留可以反映視覺關系的動態視覺變化,從而進一步增強視頻幀的特征表達能力。圖2展示了CMSA的跨模態對齊融合以及RFFR的反向注意力簡略對比圖,各自的性能結果將在消融實驗3.3節中的2)進行敘述,其中“visual\"代表視覺模態信息;“text”代表文本模態信息;“sem”代表語義信息。

圖2不同的融合注意力算法Fig.2Different fusionattentionalgorithms

2.2.1CMSA跨模態語義對齊組件

CMSA組件框架如圖1和圖2(b)所示,與傳統方法直接對接視頻與文本表示不同,CMSA通過構建視頻與圖像-文本對中圖像的間接橋梁,實現視頻與文本的對齊和融合。此方法不僅有效對齊不同模態,還緩解了因模態不同步而產生的語義鴻溝問題。CMSA的跨模態語義對齊過程具體實現如下:

在跨模態語義對齊之前,多模態特征編碼器已將全局視覺特征、圖像輔助特征和文本特征映射到共享的語義空間中,并分別用 Gi,Vj 和 Tj 表示經過映射后的特征。然后CMSA通過余弦相似度衡量視頻幀 Gi 與語料庫中圖像特征 Vj 的關聯性:

其中: Si,j 表示第 χi 幀視頻幀與第 j 個輔助圖像特征之間的相似度。得到每一視頻幀與圖像集所有圖像的相似度之后,為進一步確定視頻幀與圖像特征之間的語義匹配關系,使用softmax函數對該相似度進行歸一化,得到每幀視頻幀對所有圖像特征的匹配概率分布Pij:

通過匹配概率 Pi,j ,模型能夠量化每幀視頻與圖像標簽之間的匹配程度。接下來,選擇與每幀視頻最相關的前 K 個圖像對應的文本類別標簽,這些類別標簽表示為 {Tj,1i,Tj,2i,… ,將這些類別標簽與原始視頻幀關聯起來,得到新的圖像對集合:

C(V,T)=(Gi,T(j,1)i,T(j,2)i,…,T(j,K)i

同時讓這些類別標簽通過加權的方式串接在一起,生成既

包含初始視覺信息又包含補充的文本類別標簽信息的跨模態全局語義表示:

其中: Pi,jK 是第 i 幀匹配度第 K 高的輔助圖像,即匹配度第 K 高的文本類別的匹配概率; Tj,κi 是對應的文本類別特征。在對文本類別特征加權后,利用生成的語義表示對原始視覺特征進行增強,得到包含豐富語義信息的增強視覺特征 R(K+1)xdv

2.2.2RFFR反向聚焦幀間特征細化組件

為進一步捕捉視頻幀之間描述對象的細微差異,RFFR組件基于跨模態語義對齊(CMSA),在不同幀之間執行反向注意力操作,以去除冗余背景信息并突出非冗余的細節部分,RFFR組件框架如圖3所示。

圖3RFFR組件結構Fig.3Structure of RFFR component

具體來說,RFFR通過比較幀間特征,將當前幀與其他幀進行比較,突出當前幀與其他幀的不同之處,即當前幀中不顯著的特征,例如視頻中呈現的目標對象發生變化或有新的場景出現時,該方法就可以凸顯視頻幀的動態變化,避免靜態冗余信息干擾,從而生成更精細的幀特征表示。RFFR的具體實現細節如下:

首先,RFFR利用CMSA組件生成的增強視覺特征 ,逐幀比較與相鄰幀之間的相似和不相似之處,構建幀間的關系矩陣 Aij

其中 ?Aij∈R(K+1)×(K+1) 表示第 i 幀與第 j 幀關聯的文本標簽的關聯得分,能夠幫助模型區分哪些幀之間的內容相似,哪些幀內容變化較大。

接下來,為了強化與當前幀內容不同的部分,減少冗余信息,并進一步精細化幀間的特征表示,RFFR利用反注意力機制,使用公式 1-Aij 來量化幀間的差異性:

為進一步明確幀間相似關系,RFFR對關系矩陣應用soft-max操作對幀間相似度進行歸一化處理,得到歸一化的相似度矩陣。最后,將當前幀與其他剩余幀的歸一化矩陣進行相加,并讓其作為一個權重,返回給當前幀:

其中: D 表示第 χi 幀中與其他幀之間需要學習的差異化信息; 則是修正后的細粒度特征; ω 和 b 是可學習的參數。通過加權的方式調整學習權重,使得模型能夠在幀間進行細粒度的特征修正。將每一幀修正后的細粒度特征 Ri 進行拼接,得到融合了全局視覺表示和與之高度相關的文本標簽信息的新視頻表示V。

2.3字幕生成器(解碼器)

為了將修正后且融合了多模態文本標簽信息的細粒度特征編碼為描述性語句,以文字形式展示視覺內容,在CTSAM模塊之后,設計了一個字幕生成器。字幕生成器的實現過程如下:

字幕生成器旨在生成字幕 y={y1,y2,…,yt} ,每個詞 yt 的生成依賴于視頻表示V和前 χt 個時間步生成的單詞 y 。在步驟 χt ,首先計算前一時間步生成單詞的嵌入 et ,具體公式如下:

V是結合了低級全局視覺特征和細粒度修正后的視覺特 征,接下來,將 E?t={e1,e2,…,et} 和V輸入到字幕解碼器以生 成詞的隱藏狀態 ht ·

其中: Wq?Wk 和 Wv 是可學習矩陣。最后,將 ht 輸入到分類頭以預測下一個單詞 yt

P(yt|Y,w)=ClsHead(ht)=softmax(htWcls

其中: (yt|Y,w)∈R|w| 表示當前單詞在詞匯表 w 上的概率分布; Wcls∈RD×1w! 是可學習矩陣。

2.4 訓練

通過計算生成字幕與真實字幕 Y?={y1?,y2?,…,yT?} 的交叉熵損失來優化整個視頻字幕生成模型:

其中: T 是預定義的最大序列長度; δ(yt*)∈R|w| 是 yt* 的one-hot編碼,這意味著僅在位置 yt* 的值為1,其余為 0 。

3實驗

3.1 實驗設置及實現細節

a)實驗設置。關于視頻字幕任務,目前主流的數據集有MSVD[26]、MSR-VTT[27]和VaTeX[28]。考慮到實驗成本及評估方法的全面性和公平性,本次實驗選擇了MSVD和MSR-VTT作為數據集,并采用BLEU-4[29]、ROUGE-L[30]、METEOR[31]和CIDEr[32]四個常用評價指標來進行評分。

MSVD數據集是最早流行的一個視頻字幕基準數據集,由來自不同生活領域的1970個視頻片段組成。每個視頻片段都配有若干個長度不等的句子注釋。與現有工作一致,本實驗選取前1200個視頻片段作為訓練數據,100個視頻片段作為驗證數據,剩余670個視頻片段作為測試數據。MSR-VTT數據集是另一個流行的視頻字幕基準數據集,數據集大小是MSVD的五倍多,共由10000個視頻片段組成,每個視頻片段配有20個不同長度的句子注釋。相較于MSVD,MSR-VTT中的句子注釋更加豐富,內容更為多樣。因此,本次實驗選擇MSR-VTT作為主數據集,以考察本文模型在生成準確且多樣的描述性語句方面的能力。與現有工作一致,本實驗選取前6513個視頻片段作為訓練數據,497個視頻片段作為驗證數據,剩余2990個視頻片段作為測試數據。

b)實現細節。在特征提取之前,首先從每個視頻片段中選擇相同數量的視頻幀,以構成新的輸入序列。在本文中,選取的視頻幀數量設置為 L=15 。為了提取每一幀的視頻特征,采用了預訓練的CLIP模型的ViT-L/14網絡。需要強調的是,

CLIP模型僅用于特征表示學習,并不參與本文所提出網絡的訓練過程。同時,圖像-文本對中的圖像樣本也采用了相同的處理方式,以確保視覺和文本模態之間的有效對齊。

在特征提取具體實現中,視覺模態的特征維度遵循ViT-L/14 設置 dv=768 ,即每個視頻幀的視覺表示被嵌人到一個768維的空間中,從而保留了足夠的視覺信息,以供后續的多模態處理使用。此外,文本模態的編碼采用了CLIP模型中預訓練的文本編碼器,文本特征維度設置為 ,以確保文本特征能夠與視覺特征對齊,并在后續的跨模態對齊與融合中起到關鍵作用。在CTSAM的實現中,除非另有說明,否則在跨模態語義對齊(CMSA)過程中,選擇與每幀視頻最相關的文本類別標簽的數量設置為 K=3 。對于字幕生成器,詞嵌入的維度設置為 D=768 ,以保持與視覺特征維度的一致性,整個詞匯表的大小設定為 ∣w∣=49408 。

本文基于深度學習框架PyTorch來構建RM4Cap模型,并使用一塊11GB顯存的GeForceRTX2080TiGPU來加速網絡模型的訓練和測試。在模型訓練過程中,采用Adam優化器,初始學習率設置為1E-4,訓練批次大小設定為128,訓練周期設定為20。

3.2 實驗結果

為了確保實驗的公平性和全面性,將本文模型分別和“只使用單個模態信息”的方法、“使用了多模態信息”的方法進行了對比,實驗結果如表1(單模態)表2(多模態)所示。

表1展示了僅使用視覺模態特征的方法,包括2D外觀特征、3D運動特征以及目標檢測特征等。從結果中可以看出,不使用目標檢測特征的方法(如MGRMP和TVRD)在性能上往往遜色于使用目標檢測特征的方法(如RLHMN),這一優勢在小數據集MSVD上更為明顯。這從側面表明,豐富的視覺信息類型(包括目標檢測特征)的加入有助于模型生成更高質量的字幕。

表1在MSVD、MSR-VTT數據集上與單模態方法的比較結果

本文模型在提供更豐富的視覺信息的同時,還提供了更加精確的文本模態信息,從表1最后一行可以看到,剩余其他評分指標都高過目前分數最高的RLHMN,相比于只采用單個模態的方法,本文方法有非常明顯的優勢。在表1中最后一行可以看到,除了BLEU-4(B4)評分指標,本文模型在METEOR(M)ROUGE(R)和CIDEr(C)等評分指標上均顯著超越其他單模態方法,尤其是在CIDEr指標上,比得分最高的RLHMN方法有大幅提升,展示了多模態方法比單模態方法具有更加強大的性能。

表2展示了采用多模態信息方法的性能表現。這些方法中,有的結合了視覺和音頻模態(如RSFD),而有的結合了視覺和文本模態(如HRNAT)。本文采用視覺和文本信息的建模方式,與最佳的視覺和音頻結合方法(如MGSA)相比,除了在BLEU4指標上略遜于MGSA,其余指標均略勝一籌,尤其是CIDEr指標,提升了高達7.2分。使用視覺和音頻結合方法的CIDEr分數較低、其他指標略高的原因在于音頻信息雖然有助于準確描述內容,但其語義信息的多樣性不如文本豐富,而CIDEr分數主要考察字幕生成的多樣性。

表2在MSVD、MSR-VTT數據集上與多模態方法的比較結果Tab.2 Comparisonresultswith multimodal methodsMSVDandMSR-VTTdatasets

HRNAT、RSFD和CAT與本文模型一樣,通過輸人文本信息,來輔助模型訓練。從表2的最后一行可以看出,本文模型在MSVD的所有評估指標中獲得了最高分,在MSR-VTT數據集上,四個指標中有三個領先于其他方法。值得注意的是,與小型MSVD數據集相比,MSR-VTT大型數據集的性能提升更為顯著。盡管本文模型在MSR-VTT數據集上的BLEU-4分數并非最高,但在其他評估指標上表現最佳,這些結果進一步驗證了本文模型的有效性。

3.3消融實驗

本文CTSAM模塊中包含CMSA跨模態目標語義對齊和RFFR反向注意力聚焦兩個核心組件(步驟)。跨模態目標語義對齊旨在解決多模態任務中常見的語義鴻溝問題,即文本信息與視覺信息的不一致。通過精細對齊高級語義和低級語義,該組件可以有效地提升模型對多模態語義信息的融合能力。反向注意力聚焦則專注于通過捕捉幀間的細微差異,減少冗余的視覺信息,從而更精準地突出動態變化。為驗證這兩個核心組件對模型性能的貢獻及其影響,本文設計了兩個消融實驗:a)評估各個組件在模型中的具體作用;b)評估各個組件算法組成對生成字幕效果的影響(詳情如圖2所示)。

1)CTSAM各個組件的作用

實驗結果如表3所示,其中“√”表示使用該模塊,“ x \"表示未使用該模塊。表3的五種設置分別驗證了CMSA跨模態語義對齊與RFFR反向注意力聚焦兩種模塊的獨立作用及其交互效果:第一行既不使用CMSA,也不使用RFFR;第二行僅使用CMSA進行多模態信息融合,未引人RFFR;第三行與第一行相反,只使用RFFR以去除視覺冗余,但未使用CMSA對齊多模態信息;第四行則同時結合了CMSA與RFFR,是本文模型完整架構組成。

表3在MSVD、MSR-VTT數據集上CTSAM各個組件的消融研究

研究CMSA的作用,可以參考第一行和第二行的結果。從第一行與第二行的對比可以看出,在使用多模態信息的情況下,采用跨模態語義對齊進行融合的方式,能夠有效對齊不同模態的信息。如圖4所示,采用CMSA跨模態語義對齊進行多模態對齊比單純視覺信息更具針對性,從而更有助于視頻內容的視覺語義交互。然而,僅依賴跨模態語義對齊的方式可能面臨視覺信息本身的冗余問題,或者多模態信息之間存在冗余的挑戰,因此生成字幕的質量仍未達到最佳。當引入反向注意力聚焦后,模型的性能得到了顯著提升。

同樣地,研究RFFR的作用,可以通過對比第一行與第三行的結果進一步研究RFFR的優勢。從第一行與第三行的對比可以看出,在未使用CMSA的情況下,僅引入RFFR的模型顯著優于引入傳統注意力機制的模型,這說明RFFR通過捕捉幀間細微差異,能夠有效去除冗余背景信息并保留關鍵動態特征,從而在沒有跨模態語義對齊的情況下仍能提升字幕生成效果。然而,通過對比第三行和最后一行的結果可以看出,單獨使用RFFR的方式也存在一定的局限性。由于缺乏對多模態語義信息的全局對齊,僅依靠反向注意力機制可能無法充分利用文本模態中豐富的語義信息,導致在一些場景下生成的字幕缺乏上下文的深度語義關聯。

通過最后一行與其他行的對比可以更直觀地驗證兩模塊的協同效果,圖4展示了單獨使用CMSA或RFFR時的可視化結果,可以發現CMSA能夠更好地對齊語義信息,而RFFR則更擅長于處理視覺冗余和動態變化。這兩個模塊各有側重,且作用相輔相成。當引入CMSA或RFFR后,相對于之前單獨使用某個模塊,模型的性能都相應地得到了顯著提升。這也就說明跨模態語義對齊與反向注意力聚焦的結合能夠顯著提升模型性能,不僅實現了多模態信息的精準對齊,還有效減少了冗余,進一步提升了字幕生成的語義準確性和多樣性。

2)CMSA、RFFR組件算法組成對視頻模型的影響

實驗結果如表4所示,為了便于觀察結果,除最后一行外,表格的奇數行來自表3的結果,并將來自表3的結果添加下畫線以作區分。其中:“√”表示該模塊使用了原始模型提出的注意力或跨模態融合算法;“ × ”表示未使用該模塊;“區”表示使用傳統注意力機制替換該模塊原始算法,即使用圖2(a)。

表4在MSVD、MSR-VTT數據集上CMSA和RFFR組件算法組成的消融研究Tab.4Ablation studies of the CMSA and RFFR components ontheMSVDandMSR-VTTdatasets

第一行和第二行顯示的是在使用原始CMSA的情況下,RFFR分別采用傳統注意力機制和反注意力聚焦算法的結果。通過對比可以發現,使用傳統注意力機制生成字幕的效果并沒有很好的性能提升,性能反而還下降。這是由于注意力機制的作用是聚焦或更多地關注有用的信息,而視頻有視覺冗余這一局限性存在,不作細分地對任何問題都采用注意力機制并不理想,CIDEr分數下降1.1分這一現象,很好地佐證了本文的觀點:當處理豐富的視覺內容時,模型的工作重點不宜放在看似非常重要的重復的視覺自標,而是要學會從相同中我不同,從靜態內容中找動態內容。

另外,將第二行和最后一行進行對比,可以發現反注意力聚焦算法可以凸顯特征差異、細化視覺特征,對模型有顯著的正向影響。其中CIDEr指標分數顯著提高,較使用傳統注意力機制提升了1.2。實驗結果說明,本文提出的反注意力聚焦算法能夠在保證學習內容的準確性的情況下,聚焦視頻中細微的動態變化,成功減少額外模態帶來的信息冗余,保留關鍵視覺信息。

接下來,通過觀察第三行和第四行的對比結果,探討在使用原始RFFR的情況下,在CMSA使用不同的跨模態融合機制對模型的影響。當第四行采用傳統注意力直接對文本和視頻幀進行建模時,在大數據集MSR-VTT上生成結果的CIDEr分數有明顯下降的趨勢,而準確性卻有比較大幅度的提升,這樣的結果恰好說明了:當視頻數據內容復雜多變時,模型無法分辨主旨目標,易將不顯著的其他目標當成描述主體,故加入多模態信息去提供更加有指代性的語義信息,有助于模型學習到真正的目標主體。但又由于文本和視覺之間在表示空間存在語義鴻溝,所以模型會傾向用籠統的詞語介紹主體,從而降低了生成文本的多樣性,反過來也因為生成詞語可描述的內容范圍變大,也會提高模型生成的準確性。

而通過與最后一行即本文提出的反注意力聚焦算法對比,更加驗證了前文的說法:通過引入額外的圖像-文本對,彌合圖像對中圖像的距離,實現圖像與視頻幀的對齊,間接實現低級視覺與跨模態高級語義的對齊,從而解決了語義鴻溝問題,有效實現多模態信息的高效融合。

3.4 性能分析

將本文方法與兩個單模態方法(SAAT、RLHMN)及三個多模態方法(SGN、HRNAT、RSFD)在FLOPs、推理時間(time)和CIDEr(C)指標上進行了對比和排名,具體實驗結果如表5所示。

在計算復雜度方面,RM4Cap的計算復雜度為1.02G,在所有對比方法中排名第二,僅次于RSFD的 1.01G 相比復雜度更高的RLHMN,RM4Cap在保持較低FLOPs的同時,展現出更優的性能。這得益于反向注意力聚焦算法,該算法通過對輸入視頻的視覺特征進行動態篩選,有效剔除了冗余信息,從而大幅減少了計算開銷。相比之下,RLHMN由于其分層模塊化網絡需要在句子、謂詞和實體層面進行獨立監督,反而增加了模型的復雜性。RSFD盡管在計算復雜度上表現最佳,但其頻率感知擴散模塊主要聚焦于低頻標簽語義信息,未能充分利用多模態特征的全局信息,在一定程度上限制了其CIDEr得分。

表5在MSR-VTT數據集上與最先進方法的綜合性能比較結果 Tab.5Comprehensiveperformance comparison resultswith state-ofthe-artmethodsonMSR-VTTdatasets

在推理速度方面,RM4Cap以 62ms 的推理時間排名第二,僅次于SAAT的 32ms 。SAAT能夠取得最優推理時間,主要得益于其對語法成分的顯式定位,從而顯著簡化了處理流程。然而,SAAT在CIDEr得分上表現較為遜色,表明其簡化的處理機制雖然提升了速度,但未能捕捉到更深層次的細粒度語義信息。相比之下,本文RM4Cap通過引人多模態語義對齊機制,在語義層面實現了對視覺特征和語言特征的精準匹配。這種機制不僅提升了生成字幕的語義質量,同時在推理效率上也達到了良好的平衡。而SGN則由于語義組構建過程中依賴于復雜的視覺-文本對齊計算,其推理時間顯著較長,高達 194ms 是本文模型推理時間的3倍之多,這表明直接對視覺-文本進行對比并不能夠在速度和性能之間取得平衡,也從側面說明RM4Cap提出通過實現視頻-圖像對齊來達到視覺-文本對齊思想的有效性。

在模型生成性能方面,RM4Cap在CIDEr得分上取得了57.3的最佳成績,高于所有對比方法。這一優勢可以歸因于RM4Cap提出的反向注意力聚焦機制和多模態語義對齊模塊,它們共同增強了對視頻中細粒度動作變化的捕捉能力,顯著提升了字幕生成的質量。相比之下,RLHMN雖然在分層監督下對語義特征有較強的捕捉能力,但其復雜的層次化結構導致了信息冗余問題。HRNAT則通過分層學習語義和語法特征,提升了語法感知能力,但多級特征生成過程的復雜性影響了對視頻中精細語義的捕捉能力。RSFD在CIDEr得分上次于RM4Cap,主要原因在于其對高頻標簽的處理能力不足,未能充分展現視頻內容的語義豐富性。

綜上所述,RM4Cap在推理時間、計算復雜度和生成質量三方面實現了良好的平衡,并在CIDEr得分和綜合排名上表現出色。這不僅驗證了反向注意力聚焦算法在消除冗余信息、提升生成質量上的有效性,也表明本文所提的多模態語義對齊機制在細粒度動作捕捉和語義表達優化方面的潛力。

3.5 定性分析

圖5、6展示了本文模型在MSVD和MSR-VTT數據集上的生成字幕結果。為了更直觀地分析模型在生成字幕上的改進與性能優勢,將本文模型和SAAT模型進行定性比較。SAAT模型采用的是額外的目標檢測特征,在同樣的計算成本下,可視化多模態相比于單模態視頻字幕更具優勢。在生成的結果中,特殊單詞被特別標注,這些單詞通常是能夠反映視頻主題的名詞或體現內容變化的動詞。從這些示例可以看出,本文模型相比使用單個模態的情況,生成的字幕更加貼合視頻內容,且符合句法規律。定性分析表明,多模態信息的有效融合顯著提升了字幕生成的性能和多樣性。同時,得益于反向注意力聚焦模塊,模型能夠更加準確地捕捉關鍵細節,生成更精準、不籠統的描述結果。

圖5在MSVD數據集的定性結果Fig.5QualitativeresultsontheMSVD dataset
圖6在MSR-VTT數據集的定性結果Fig.6QualitativeresultsontheMSR-VTTdataset

4結束語

本文提出了一種基于多模態信息融合的創新視頻字幕生成方法,名為RM4Cap。該方法提出了CTSAM跨模態目標-語義關聯模塊,具體來說通過引人跨模態語義對齊組件CMSA,增強了視覺特征與語言特征的協同表征能力;設計了反向注意力聚焦組件RFFR提高了模型對細粒度差異的捕捉能力,另外通過這種方式,能夠有效去除冗余背景信息并保留關鍵動態特征。CTASM模塊的提出有效對齊了視頻的視覺內容與對應的文本語義信息,從而提升了字幕生成的質量和多樣性。實驗結果表明,RM4Cap在多個標準評估指標上,如CIDEr和BLEU-4,顯著優于現有的主流方法,表明該方法在多模態視頻字幕生成任務中的有效性和潛力,尤其是在捕捉細粒度對象差異和生成字幕的精細度上,RM4Cap展示出卓越的能力。遺憾的是,該模型并未將多模態特征編碼模塊一起進行端到端訓練,若可以進行端到端訓練,并將CTASM模塊中的CMSA或RFFR放入編碼器中發揮作用,預期效果應該會好很多。未來,研究工作會集中在進一步改進視覺和語義對齊的精度方面,并通過更高效的訓練方法提升模型的應用能力。

參考文獻:

[1]趙博程,包蘭天,楊哲森,等.面向慕課視頻的關鍵信息檢索系統 設計[J].計算機科學,2024,51(10):79-85.(ZhaoBocheng,Bao Lantian,YangZhesen,etal.Keyinformation retrievalsystemfor MOOCvideos[J].ComputerScience,2024,51(10):79-85.)

[2]祝媚儀,蔣朱翊.多模態口譯教學改革探索:視頻字幕的認知負荷 研究[J].現代英語,2023(21):13-16.(ZhuMeiyi,JiangZhuyi. Subtitles’effecton the cognitive loadof multimodal interpreting teaching[J].Modern English,2023(21) :13-16.)

[3]Wang Bairui,Ma Lin,Zhang Wei,et al. Controlable video captioning with POS sequence guidance based on gated fusion network [C]/′ Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2019:2641-2650.

[4]Xu Jun, Yao Ting,Zhang Yongdong,et al. Learning multimodal attentionLSTM networks for video captioning[C]//Proc of the 25th ACM International Conference on Multimedia.NewYork:ACMPress,2017: 537-545.

[5]Wu Bofeng,Liu Buyu,Huang Peng,etal.Conept parser with multimodal graph learning for video captioning[J].IEEE Trans on CirCuits and Systems for Video Technology,2023,33(9):4484- 4495.

[6]Sarto S,Barraco M,Cornia M,et al.Positive-augmented contrastive learning for image and video captioning evaluation [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:6914-6924.

[7]Chen Xiaoya,Song Jingkuan,Zeng Pengpeng,et al.Support-set based multi-modal representation enhancement for video captioning [C]/′ (204號 Proc of IEEE International Conferenceon Multimedia and Expo.Piscataway,NJ:IEEE Press,2022:1-6.

[8]郭寧寧,蔣林華.基于硬注意力機制的多模態視頻字幕的處理 [J].計算機應用研究,2021,38(3):956-960.(Guo Ningning, Jiang Linhua.Hard attention based multi-modal fusion for video caption generation[J].Application Research of Computers,2021,38 (3) :956-960. )

[9]李銘興,徐成,李學偉,等.基于多模態融合的城市道路場景視頻 描述模型研究[J].計算機應用研究,2023,40(2):607-611,640. (LiMingxing,XuCheng,LiXuewei,etal.Multimodal fusionforvideo captioning on urban road scene[J].Application Research of Computers,2023,40(2) :607-611,640.)

[10]Thomason J,VenugopalanS,Guadarrama S,et al.Integratinglanguage and vision to generate natural language descriptions of videos in the wild[C]//Proc of the 25th International Conference on Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2014:1218-1227.

[11]Szegedy C,Iofe S,VanhouckeV,etal.Inception-v4,inceptionResNet and the impact of residual connections on learning[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2017 :4278 - 4284.

[12] Tran D,BourdevL,Fergus R,et al.Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:4489- 4497.

[13]Zhang Ziqi,Qi Zhongang,Yuan Chunfeng,et al. Open-Book video captioning with retrieve-copy-generate network[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2021 :9832-9841.

[14]Li Guorong,Ye Hanhua,Qi Yuankai,et al.Learning hierarchical modular networks for video captioning[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2024,46(2):1049-1064.

[15] Zheng Qi,Wang Chaoyue,Tao Dacheng. Syntax-aware action targeting for video captioning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020: 13093-13102.

[16]Chen Shaoxiang,Jiang Yugang. Motion guided region message passing for video captioning[C]//Proc of IEEE/CVF International Conference on ComputerVision.Piscataway,NJ: IEEE Press,2O21:1523- 1532.

[17]Zhang Ziqi,Shi Yaya,Yuan Chunfeng,et al.Object relational graph with teacher-recommended learning for video captioning[C]//Proc of IEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway,NJ:IEEE Press,2020:13275-13285.

[18]Wu Bofeng,Niu Guocheng,Yu Jun,etal.Towards knowledge-aware video captioning via transitive visual relationship detection[J].IEEE Trans on Circuits and Systems for Video Technology,2022,32 (10) :6753-6765.

[19]Chen Shaoxiang,Jiang Yugang.Motionguidedspatialatentionforvideo captioning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA : AAAI Press,2019:8191-8198.

[20]Gao Lianli,Lei Yu,Zeng Pengpeng,et al.Hierarchical representation network with auxiliary tasks forvideocaptioningandvideo question answering[J]. IEEE Trans on Image Processing,2022,31:202- 215.

[21]Liu Sheng,Ren Zhou,Yuan Junsong.SibNet:sibling convolutional encoder for video captioning[J].IEEE Trans on Pattern Analysis andMachine Intelligence,2021,43(9) :3259-3272.

[22]Ryu H,Kang S,Kang H,etal.Semantic grouping network for video captioning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA : AAAI Press,2021 :2514-2522.

[23]Zhong Xian,Li Zipeng,Chen Shuqin,et al. Refined semantic enhancement towards frequency diffusion for video captioning[C]//Proc of AAAI Conference on Artificial Intellgence.Palo Alto,CA:AAAI Press,2023 ;3724-3732.

[24]Radford A, Kim J W,Hallacy c,et al. Learning transferable visual models from natural language supervision[C]//Proc of International Conference on MachineLearning.[S.1.]:PMLR,2021:8748-8763.

[25]Alexey D.An image is worth 16× 16 words:Transformers for image recognition at scale[EB/OL].(2021-06-03).https://arxiv.org/abs/ 2010.11929.

[26]Chen D,Dolan W B. Collecting highly parallel data forparaphrase evaluation[C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg,PA:Asociation for Computational Linguistics,2011:190- 200.

[27]Xu Jun,MeiTao,Yao Ting,et al. MSR-VTT:alarge video deseription dataset for bridging video and language[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2016 :5288-5296.

[28]Wang Xin,Wu Jiawei,Chen Junkun,et al. VaTeX:a large-scale,highquality multilingual dataset for video-and-language research[C]// Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:4580-4590.

[29]Papineni K,Roukos S,Ward T,et al. BLEU:a method for automatic evaluation of machine translation[C]//Proc of the 4Oth Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA: Association for Computational Linguistics,2Oo2:311-318.

[30]Lin C Y.ROUGE:a package for automatic evaluation of summaries [C]//Text Summarization Branches Out. Stroudsburg,PA: Association for Computational Linguistics,2004:74-81.

[31]BanerjeeS,Lavie A.METEOR:an automatic metric forMT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA:Association for Computational Linguistics,20o5:65-72.

[32] Vedantam R,Zitnick C L,Parikh D.CIDEr: consensus-based image description evaluation[C]//Proc of IEEE Conference on Computer Vision and Patern Recognition.Piscataway,NJ: IEEE Press,2015: 4566-4575.

[33]Li Liang,Gao Xingyu,Deng Jincan,etal.Long short-term relation Transformer with global gating for video captioning[J].IEEETrans on Imaqe Processinq.2022.31:2726-2738.

猜你喜歡
字幕語義模態
功能對等理論視下電影字幕翻譯
新楚文化(2025年21期)2025-08-26 00:00:00
交際翻譯理論視域下的字幕翻譯
文教資料(2025年14期)2025-08-21 00:00:00
翻譯熵與生態翻譯學視角下《懸崖之上》電影字幕翻譯研究
跨文化視角下看《戰狼2》漢譯德字幕翻譯
三角洲(2025年20期)2025-08-05 00:00:00
語言與語義
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
認知范疇模糊與語義模糊
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 中文字幕在线永久在线视频2020| 中文字幕乱码二三区免费| 国产91在线|中文| 国产精品分类视频分类一区| 欧美、日韩、国产综合一区| 亚洲人成在线免费观看| 精品三级在线| 国内毛片视频| 国产一线在线| 国产打屁股免费区网站| 波多野结衣在线se| 熟妇无码人妻| 亚洲欧美激情另类| 97在线免费| 老司机午夜精品视频你懂的| 四虎成人精品在永久免费| 91免费在线看| 丝袜亚洲综合| 美女潮喷出白浆在线观看视频| 亚洲成人手机在线| 国产欧美日韩va| 波多野结衣爽到高潮漏水大喷| 亚洲精品人成网线在线 | 亚洲欧美日本国产综合在线| 国产性精品| 毛片基地视频| 国产亚洲精品自在线| 高清色本在线www| 国产福利免费在线观看| 国产成人无码综合亚洲日韩不卡| 国产精品免费入口视频| 青青操视频免费观看| 狠狠色丁香婷婷综合| 无码一区二区三区视频在线播放| 欧美成人日韩| 国产91九色在线播放| 91久久偷偷做嫩草影院| 亚洲欧美另类中文字幕| 亚洲国产成人无码AV在线影院L| 国产精品视频猛进猛出| 狠狠色丁婷婷综合久久| 亚洲欧美综合另类图片小说区| 国产一区二区网站| 色欲国产一区二区日韩欧美| 毛片免费网址| 亚洲无线视频| 国产丝袜啪啪| 免费A级毛片无码免费视频| 国产精品自在在线午夜区app| 欧美日韩资源| 真实国产乱子伦视频| 凹凸精品免费精品视频| 五月婷婷伊人网| 日韩二区三区| 亚洲综合一区国产精品| 亚洲色精品国产一区二区三区| 亚洲男女在线| 中文纯内无码H| 精品视频一区在线观看| 亚洲国产精品久久久久秋霞影院 | 国产精品丝袜在线| 亚洲国产中文精品va在线播放| 伊人国产无码高清视频| 久久婷婷综合色一区二区| 色哟哟国产成人精品| 国禁国产you女视频网站| 91午夜福利在线观看| 99久视频| 亚洲成人在线免费观看| 一个色综合久久| 日韩欧美国产成人| 国产日本视频91| 亚洲视频四区| 国产成人超碰无码| www.日韩三级| 亚洲精品视频免费看| 久久综合九色综合97网| 精品国产91爱| 97se亚洲| 伊人久热这里只有精品视频99| 97国产精品视频自在拍| 亚洲国产AV无码综合原创|