999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

動態(tài)視音場景下問答模型研究

2024-03-25 02:05:08段毛毛連培榆史海濤
計算機技術(shù)與發(fā)展 2024年3期
關(guān)鍵詞:特征提取模態(tài)特征

段毛毛,連培榆,史海濤

(中國石油大學(北京)克拉瑪依校區(qū) 石油學院,新疆 克拉瑪依 834000)

0 引 言

日常生活中,人類無時無刻處于視音場所中。但在復雜的視音場景下,跨視音視圖關(guān)聯(lián)對象或聲音事件,其中大多數(shù)仍然僅具有有限的跨模態(tài)推理能力。因此,整合多模態(tài)信息以獲得類人的客觀場景感知和理解能力是一個有趣而有價值的研究課題。

近年來,深度學習的逐步發(fā)展使其被應用于多模態(tài)特征融合。深度學習模型可以處理高維復雜的多模態(tài)信息,而多模態(tài)深度學習具有在人類層面處理多模態(tài)數(shù)據(jù)的潛力。

早期的問答任務(wù)主要以自然語言的形式進行提問和回答,后來隨著人工智能、深度學習、多模態(tài)等技術(shù)發(fā)展逐漸演變?yōu)槲淖?、圖片、音頻、視頻等多種模態(tài)間信息查詢的廣義問答系統(tǒng)。

Heeseung Yun等人[1]提出了一種新的基于360度空間和視音問答的基準任務(wù),結(jié)果表明球形空間嵌入和多模態(tài)訓練目標有助于更好地理解數(shù)據(jù)集上的全景環(huán)境,正確率達到68.93%。Jing L等人提出的自監(jiān)督[2]學習方法為多模態(tài)視音場景分析模型的建立提供了新的思路,通過將視頻信號中的視音信息進行融合,成功地解決了視音信息能否在同一時間上[3]的問題。Hori等人[4]提出了一種對話問答系統(tǒng),使用注意力機制對視音場景進行感知。Li Guangyao等人[5]提出了基于動態(tài)視音場景下的問答模型,正確率達到了71.5%。

視音問答模型仍存在以下問題:(1)一些與問題無關(guān)的視覺物體或聲源均參與單模態(tài)編碼,需尋找更適合后續(xù)融合的特征提取方式。(2)在融合學習的過程中,需尋找其他多模態(tài)融合方式,以提高模態(tài)間的互補性,進而提高問答模型的正確率。

為解決上述問題,該文通過分析現(xiàn)有視音問答模型得知文本所含信息量最大,因此先對視頻和音頻信息進行融合獲得更多信息以支撐文本特征信息。首先,分別使用Resnet_18,VGGish和Bi-LST對音頻、視頻和文字進行單模態(tài)特征提取;然后,通過空間融合模塊對視頻和音頻特征進行融合,將復雜的場景分解為具體的視音關(guān)聯(lián);最后,通過聯(lián)合注意力機制對文字、視頻和音頻進行混合學習,實現(xiàn)視頻特征、音頻特征和文字特征的融合,增強三種模態(tài)之間的關(guān)聯(lián)關(guān)系?;诼?lián)合注意力建立空間時序模型,進一步提高了動態(tài)視音場景下問答的準確率,提升了模型場景感知和時空推理能力。

1 相關(guān)工作

對多模態(tài)問題進行深入研究,充分利用多種模態(tài)之間的互補性和冗余性,是推動人工智能更好地了解和認知周圍世界的關(guān)鍵。多模態(tài)學習中的兩個重點問題是多模態(tài)數(shù)據(jù)的異質(zhì)性差距[6]和模態(tài)間的信息融合[7]。在研究多模態(tài)問題時,如何充分挖掘模態(tài)之間的信息和消除數(shù)據(jù)異構(gòu),一直是多模態(tài)任務(wù)的主要挑戰(zhàn)[8]。

在多模態(tài)問答任務(wù)中主要以視頻問答(Video Question Answer)[9]和視覺問答(Visual Question Answer)[10]為主,視頻問答早于視覺問答。視頻問答根據(jù)序列的圖像信息和時間線索,針對不同問題提取不同數(shù)量的幀求取答案,多采用融入注意力機制[11-12]和融入記憶網(wǎng)絡(luò)的思路構(gòu)建問答模型[13-14]。視覺問答基本分為聯(lián)合嵌入、注意力機制、神經(jīng)網(wǎng)絡(luò)架構(gòu)和知識庫增強[15],以一幅圖像和一個問題作為輸入,通過對多模態(tài)信息進行融合與推理,以自然語言的形式給出問題的答案[16]。

在視音場景的研究中,合適的多模態(tài)融合方式尤為重要。曲志等人[17]提出了一項裂紋檢測方法,使用多尺度卷積特征融合模塊進行裂紋信息提取實現(xiàn)特征的全面融合。李釗[18]提出一項基于深度學習的跨模態(tài)檢索方法,實現(xiàn)更好的跨模態(tài)相似度度量。Fu等人[19]提出了一種基于雙注意網(wǎng)絡(luò)場景分割結(jié)果,該方法將局部特征與其全局依賴性相結(jié)合,并且可以捕獲豐富的上下文信息。Peng等人[20]提出了一種基于注意力引導的多視圖融合網(wǎng)絡(luò)來解決三維物體識別問題,可以在更為復雜的場景下取得更好的效果。

注意力機制在多模態(tài)融合任務(wù)中也展現(xiàn)出了其重要性。Schwartz等人[21]提出的高階注意力模型是一種將文本、圖像和文本答案三種不同的模態(tài)信息進行多模態(tài)融合的模型,得到更準確的答案。Chen等人[22]提出了一種條件注意力融合策略在連續(xù)維度情緒預測中的應用,提高預測的準確性和可靠性。Li等人[23]提出了一種針對多模型多標簽分類任務(wù)的通用策略,通過選擇更好的特征組合來實現(xiàn)更精確的分類。楊清溪等人[24]提出了一種基于注意力機制的場景識別模型,大大提高了場景識別的準確度。該文亦將采用注意力機制實現(xiàn)各模態(tài)特征的提取與融合。

2 基于聯(lián)合注意力機制的視音問答模型

模型使用補充約束的特征來應對單模態(tài)數(shù)據(jù)不足,同時采用多模態(tài)聯(lián)合表示的思想,使得不同模態(tài)信息相互補充、相互學習、相互制約。通過拼接和矩陣點乘法將三個模態(tài)特征混合為一個特征,建立視音字空間時序模型。

2.1 整體結(jié)構(gòu)

注意力機制能夠?qū)斎霐?shù)據(jù)的每個部分提供不同的權(quán)重信息,從而抽取出重要關(guān)鍵的特征信息,使得模型獲得更加準確的捕捉判斷。該文所提出的基于聯(lián)合注意力機制的視音場景下的問答模型結(jié)構(gòu)如圖1所示。模型主要包括三個組成部分:

圖1 整體結(jié)構(gòu)

(1)視音字單模塊:含視頻模塊、音頻模塊、和文字模塊,分別采用適合各個模態(tài)的網(wǎng)絡(luò)結(jié)構(gòu),對視頻、音頻、文字三種模態(tài)數(shù)據(jù)進行特征提取,以便后續(xù)進行融合學習。

(2)空間融合模塊:采用多模態(tài)聯(lián)合表示的思想,使用矩陣叉乘法對視頻特征和音頻特征進行融合學習得到混合特征,完成視音融合,建立空間模型。

(3)空間時序融合模塊:采用一種新的多模態(tài)協(xié)同表示方法,通過聯(lián)合注意力機制對文字、視頻和音頻進行混合學習,實現(xiàn)視頻特征、音頻特征和文字特征的融合。

視頻模塊、音頻模塊和文字模塊分別選用視頻、音頻和文字嵌入向量作為各自模塊分支的輸出數(shù)據(jù),并將其作為空間融合模塊中視頻分支的輸入數(shù)據(jù)。

2.2 視頻模塊

視頻模塊使用Resnet_18進行視頻特征提取。為了保持所有視頻的信息完整,對所有視頻片段采樣固定數(shù)量的幀。

Resnet_18的具體結(jié)構(gòu)如圖2所示,包含17個卷積層和1個全連接層,使用兩種不同大小的卷積核(7×7和3×3)提取視頻圖像特征。在卷積層中,采用了非線性的Relu激活函數(shù),最終輸出的數(shù)據(jù)維度設(shè)置為320,512,14,14。視頻特征提取的具體步驟如下:

圖2 Resnet_18結(jié)構(gòu)

(1)提取全局特征:使用7×7卷積核提取特征后,采用最大池化層降維。

(2)提取細節(jié)特征:使用3×3卷積核提取特征后,為獲得更完整的圖像信息加入平均池化層。

2.3 音頻模塊

音頻模塊使用VGGish進行音頻特征提取,對每個音頻片段進行編碼,為音頻信息賦予語義信息。VGGish的具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 VGGish結(jié)構(gòu)

VGGish由四個卷積層、四個池化層和一個全連接層組成,卷積核大小為3×3,池化層選擇最大池化法,卷積層采用了非線性激活函數(shù)Relu,方便進行卷積處理,最終輸出的數(shù)據(jù)維度為64,10,512。音頻特征提取的具體步驟如下:

(1)將數(shù)據(jù)重塑為4維,便于進行卷積運算。

(2)使用3×3卷積核和最大池化層得到音頻特征。

2.4 文字模塊

文字模塊使用Bi-LSTM進行文字特征提取,對文字特征進行更細粒度的分類。該文對每個問答對進行詞嵌入,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 Bi-LSTM結(jié)構(gòu)

該模塊中Bi-LSTM模型由兩層雙向LSTM和一個全連接層組成,詞嵌入后先選用非線性激活函數(shù)Tanh激活函數(shù),再通過含有一個隱藏層的Bi-LSTM提取文字特征,最終輸出數(shù)據(jù)維度為64,512。

2.5 空間融合模塊

聲音及其視源的位置能夠反映視音模態(tài)之間的空間關(guān)聯(lián),因此引入基于聲源定位的空間融合模型,將復雜的場景分解為具體的視音關(guān)聯(lián)[5]。具體模型結(jié)構(gòu)如圖5所示。

圖5 空間融合網(wǎng)絡(luò)結(jié)構(gòu)

該模塊具體處理步驟如下:

(1)為了方便后續(xù)的聯(lián)合表示,先使用線性變換將之前得到的配對視頻音頻特征轉(zhuǎn)換為512,512。

(2)為了防止視頻信息丟失,先對視頻特征進行平均池化,得到全局視頻特征。

(3)將視頻特征和音頻特征進行歸一化處理后進行矩陣叉乘,使用softmax激活函數(shù)再與音頻特征進行矩陣叉乘,得到混合視頻特征維度為512,512。

(4)拼接兩個視頻特征,得到最終混合的視頻特征1,建立空間模型。

2.6 空間時序融合模塊

為了突出與問題密切相關(guān)的關(guān)鍵時間戳,使用聯(lián)合注意力機制進行視聽特征與文字特征的協(xié)同表示。首先加入relu激活函數(shù)和dropout層,得到關(guān)鍵時間戳下的視聽特征;然后拼接視聽特征,將其聯(lián)合表示為一個混合特征,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

圖6 空間時序融合結(jié)構(gòu)

空間時序融合模塊數(shù)據(jù)處理步驟如下:

(1)以文字特征為查詢增強關(guān)鍵時間戳下的視頻特征1,得到視頻特征2。

(2)以文字特征為查詢增強關(guān)鍵時間戳下的音頻特征,得到音頻特征1。

(3)以文字特征為查詢,以音頻特征1為鍵值,增強關(guān)鍵時間戳下視頻特征2中與音頻相關(guān)的信息,得到視頻特征3。

(4)以文字特征為查詢,以視頻特征3為鍵值,增強關(guān)鍵時間戳下音頻特征1中與視頻相關(guān)的信息,得到音頻特征2。

(5)將協(xié)同表示后的視頻特征3和音頻特征2進行歸一化處理,再與空間融合后的視頻特征1和音頻特征相加,以防止信息丟失。

(6)將視頻特征3和音頻特征2進行拼接,再與文字特征點乘得到聯(lián)合表示的混合特征1。

(7)以文字特征為查詢增強混合特征中的文字信息,得到混合特征2。

該文采用兩階段訓練策略,先建立空間模型,損失函數(shù)使用交叉熵損失函數(shù)Ls,公式如下:

(1)

其中,pi為真實值,qi為預測值。

第二階段建立空間時序模型,損失函數(shù)L的計算公式如下:

L=Lqa+0.5Ls

(2)

其中,Ls為第一階段的交叉熵損失,Lqa為第二階段的交叉熵損失。

3 實驗和模型優(yōu)化

3.1 實驗環(huán)境

實驗采用了Pytorch框架,具體實驗環(huán)境如表1所示。

表1 實驗環(huán)境

3.2 數(shù)據(jù)集及其預處理

MUSIC-AVQA(Spatial-Temporal Music AVQA)大規(guī)模視聽數(shù)據(jù)集總計包含9 288個演奏視頻,真實視頻和合成視頻分別占79.9%和20.1%。其中,真實視頻由14.8%的單人視頻、71.7%的二重唱視頻和13.5%的其他合奏視頻組成。數(shù)據(jù)集涵蓋22種不同樂器(如吉他、鋼琴、二胡、嗩吶等),總時長超過150小時。

此外,MUSIC-AVQA具有45 867個問答對,平均每個視頻約5個問答對,這些問答對涵蓋了3種不同場景(聲音(Audio)、視覺(Visual)和視音(Audio-Visual))下的9類問題類型(以存在Existential、計數(shù)Counting、位置Location、比較Comparative和事件Temporal為主)以及33個不同的問題模板。3種場景及對應的問題類型如表2所示。

表2 MUSIC-AVQA數(shù)據(jù)集問答對類型劃分

將數(shù)據(jù)集隨機分為訓練集、驗證集和測試集,分別包含32 087,4 595和9 185對問答對。在特征提取前,對每段視頻中的聲音和視頻幀進行采樣,采樣率分別為16 kHz和1 fps,將其分為長度相等、互不重疊的1幀視頻段。此外,使用6 s取1 s的方式對視頻進行采樣,使用normalize函數(shù)對圖像進行標準化。

3.3 模型訓練

(1)音頻特征提?。簩⒁纛l文件載入VGGish網(wǎng)絡(luò),得到64,10,512維音頻特征,完成音頻嵌入。

(2)視頻特征提取:將視頻文件載入Resnet_18網(wǎng)絡(luò),先得到16,20,3,244,244維特征,后重組維度為320,512,14,14,以便后續(xù)統(tǒng)一為512-特征。

(3)文字特征提取:將問答對文件載入Bi-LSTM網(wǎng)絡(luò),先得到64,512維特征,完成詞嵌入,后通過詞特征組成問答對特征,完成問答嵌入。

(4)建立空間融合模型:構(gòu)建空間融合模型網(wǎng)絡(luò)結(jié)構(gòu),將視頻特征和音頻特征調(diào)整為相同維度,訓練得到維度512,512混合特征。

(5)建立空間時序模型:構(gòu)建空間時序模型網(wǎng)絡(luò)結(jié)構(gòu),設(shè)置批大小和輪次分別為64和30。學習率初始為e-4,每訓練十輪乘0.1,學習率下降,使用Adam優(yōu)化器,得到最終的混合特征,完成模型建立。

3.4 模型評估與測試

使用答案預測精度作為度量標準,評估模型在回答不同類型問題時的表現(xiàn)。答案詞匯表由42個可能的答案(22個對象,12個計數(shù)選擇,6個未知類型,是/否)組成,用于回答數(shù)據(jù)集中不同類型的問題。

評估測試步驟具體如下:

(1)在每輪訓練完畢進行模型評估,對評估集中的問題進行預測,得到評估結(jié)果。

(2)在完成所有訓練后進行模型測試,對測試集中的問題進行預測,得到測試結(jié)果。

(3)設(shè)置基線。在相同環(huán)境下訓練MUSIC-AVQA的網(wǎng)絡(luò)結(jié)構(gòu)并評估測試,以便與文中模型進行比對。

3.5 不同模態(tài)消融實驗

如表3所示,實驗結(jié)果表明V+Q比A+Q效果更好,表明視頻特征是問答模型中的強信號。加入視音字空間時序融合模塊(CTG)后,雖然獨立的音頻問答和視頻問答準確率稍差,但是視音問答的準確率最佳,證明了視音字空間時序融合模塊的有效性。

表3 不同模態(tài)與不同模塊消融研究

(Q:問答文字,A:音頻模態(tài),V:視頻模態(tài),AV:視音模態(tài),TG:時序融合模塊,SG:空間融合模塊,CTG:視音字空間時序融合模塊)

3.6 不同方法對比實驗

為了驗證模型的有效性,分別從聲音問答、視覺問答和視音問答出發(fā),對比了各種方法在計數(shù)、比較或空間等類型問題回答的準確率,結(jié)果如表4所示。其中文獻[5]為MUSIC-AVQA數(shù)據(jù)集官方空間時序問答模型。進一步優(yōu)化官方模型,該文在文本特征融入后,加入關(guān)鍵時間戳下的視頻和音頻特征的輔助學習,從而提高三種模態(tài)之間的關(guān)聯(lián)程度。

表4 問答方法對比

實驗結(jié)果表明,文中方法的性能在音頻問答和視頻問答上相比文獻[5]的略次,但在視音問答上,除存在類問題準確率較差,其余類型問題的準確率均高,視音問答的平均準確率達73.67%,為最佳。

該文建立的空間時序模型更有效地互補了單個模態(tài)的信息缺失,加強了通過問題查找關(guān)鍵圖像和聲音能力,從而增強了模型的時空推理的能力,提升了視音問答的準確率。然而由于模型過于關(guān)注三種模態(tài)的關(guān)聯(lián)關(guān)系,對于不需要三種模態(tài)的問答增加了干擾信息,導致單模態(tài)音頻問答和視頻問答準確率降低,仍需進一步完善。

4 結(jié)束語

該文主要使用聯(lián)合注意力機制對多模態(tài)信息進行融合,建立動態(tài)視音場景下的空間時序問答模型。實驗結(jié)果表明該模型性能較好,有助于視音問答的準確率。文中工作存在以下缺陷和改進空間:

(1)實驗僅使用MUSIC-AVQA數(shù)據(jù)集,在其它數(shù)據(jù)集和場景上的應用效果不得而知,需增加數(shù)據(jù)集測試以驗證模型的性能。

(2)單模態(tài)特征提取方式有待改進,后期可以選取更匹配的特征提取方式來進行特征提取,以提高后續(xù)多模態(tài)特征融合的效率。

(3)使用聯(lián)合注意力機制進行多模態(tài)特征融合,后續(xù)可以改進多模態(tài)融合方式,進一步提高多模態(tài)視頻問答任務(wù)的性能。另外,選用集成模型策略也可作為該模型的一個發(fā)展方向,以進一步提高性能并拓展應用范圍。

猜你喜歡
特征提取模態(tài)特征
如何表達“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
國內(nèi)多模態(tài)教學研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
基于MED和循環(huán)域解調(diào)的多故障特征提取
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
線性代數(shù)的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美综合成人| 久久久久亚洲精品无码网站| 国产亚洲精久久久久久久91| 亚洲精品777| 国产一级毛片在线| 亚洲天堂网在线播放| 国产乱人免费视频| 日韩久久精品无码aV| 香蕉eeww99国产在线观看| 色悠久久久| 香蕉视频在线观看www| 欧美激情第一欧美在线| 欧美精品在线视频观看| 日韩免费视频播播| 日韩精品无码免费一区二区三区 | 91精品免费高清在线| 99久久精品免费观看国产| 欧美黄色网站在线看| 99精品国产电影| 亚洲中文字幕国产av| 久久精品一品道久久精品| 8090成人午夜精品| aaa国产一级毛片| 国产真实乱了在线播放| 一本大道东京热无码av| 日韩av高清无码一区二区三区| 欧美三级不卡在线观看视频| 狼友视频一区二区三区| 亚洲一级无毛片无码在线免费视频| 日韩精品高清自在线| 国产精品永久在线| 玖玖精品在线| 人人妻人人澡人人爽欧美一区 | 精品一区二区三区自慰喷水| 国产黄网站在线观看| 免费啪啪网址| 精品国产免费观看| 高潮毛片免费观看| 久久黄色毛片| 亚洲AV无码久久天堂| 国产亚洲第一页| 午夜精品久久久久久久99热下载| 亚洲精品第1页| 91成人在线观看| 亚洲永久色| 国产综合网站| 精品国产成人高清在线| 欧美色99| 欧美日韩在线成人| 日本爱爱精品一区二区| 日韩人妻精品一区| 精品无码人妻一区二区| 久久情精品国产品免费| 日韩免费中文字幕| 国产精品久久久久无码网站| 欧美性色综合网| 国产欧美视频在线观看| 欧美一级大片在线观看| 国产呦精品一区二区三区下载 | 欧美三級片黃色三級片黃色1| 波多野结衣久久精品| 国产迷奸在线看| 特级做a爰片毛片免费69| 美女扒开下面流白浆在线试听| 国产精品中文免费福利| 日韩视频福利| 国产福利在线免费观看| 国产精品永久久久久| 一区二区三区在线不卡免费| 国产成人一区免费观看 | 国产人妖视频一区在线观看| 国产日韩丝袜一二三区| 亚洲日韩欧美在线观看| 99久久国产综合精品2023| 免费国产高清精品一区在线| 中文无码毛片又爽又刺激| WWW丫丫国产成人精品| 久久综合婷婷| 婷婷五月在线| 久久精品免费看一| 91久久性奴调教国产免费| 国产欧美一区二区三区视频在线观看|