999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于跨模態融合ERNIE的多模態情感分析研究

2022-12-12 10:47:56陶全檜安俊秀陳宏松
成都信息工程大學學報 2022年5期
關鍵詞:模態特征文本

陶全檜 安俊秀 陳宏松

(成都信息工程大學軟件工程學院,四川 成都 610225)

0 引言

隨著新媒體技術的迅速發展,具有豐富情感的多模態數據也日益巨增,例如圖片、短視頻、音頻和文本等,利用大量數據進行多模態情感分析已成為一個新興領域,并且情感分析的研究有利于疫情防控。新冠肺炎疫情期間,國務院倡議要充分發揮科技支撐作用,運用技術手段積極有效地開展疫情防控,及時加強輿論引導,積極挖掘情感分析的研究價值。

早期情感分析任務主要使用單模態文本數據,首先使用傳統的統計學方法提取詞語特征進行文本表征,然后使用機器學習算法實現情感分類和預測,隨后使用深度學習技術,例如卷積神經網絡(convolution neural network,CNN)或詞向量提取文本數據特征,解決特征提取困難問題,特別是傳統統計機器方法無法解決大數據量的情況。然而目前這些方法只關注單模態文本數據,信息含量有限,數據特征質量低,在如今多媒體時代下很難通過單模態(文本信息)來準確地判斷情緒,無法滿足多模態的社交網絡環境中情感分析問題。

已有的微調預訓練模型方法可實現大規模音頻與文本的聯合表示。然而這類方法不能對上下文相關詞加以區分,忽視了構建文本和音頻上下詞之間語義相關的重要性,導致預訓練語言模型無法充分表示所需要的語義信息。最近,微調預訓練語言模型ERNIE(enhanced language representation with informative entities)作為一種高效的預訓練語言模型,與傳統的預訓練語言模型不同,ERNIE通過對所有層的上下文進行聯合調節來生成上下文詞特征表示。因此,單詞的表征可表達文本上下文內容。ERNIE在句子級[1]和分詞級任務上都取得了較高的結果。然而,大多數微調策略僅基于單模態文本[2]設計,如何將其從單模態擴展到多模態并獲得更好的表示,結合多模態信息進行實驗研究是一個亟待解決的問題。

本文提出一種跨模態Cross Modality ERNIE(CMERNIE)模型,即通過引入音頻模態的信息,以幫助文本模態微調預訓練ERNIE模型,進而進行多模態情感分析。Masked multi-modal attention作為CM-ERNIE的核心單元,旨在通過跨模態交互動態調整詞的權重。實驗結果表明,CM-ERNIE比以前的基線和ERNIE等的純文本微調模型能較顯著提高性能。

1 相關工作

1.1 多模態情感分析

多模態情感分析在不同模式之間具有內部相關性以及數據上下文具有時序相關性,多模態融合可以更有效全面地捕獲情緒特征,結合不同模態數據的相關性以及互補性來進行情緒分析。多模態融合的關鍵點是如何有效地融合多模態之間的信息進行互補,目前主要的融合方式為特征層融合和決策層融合兩種,特征層融合是通過連接和其他模態數據的有效特征來融合不同模態數據的特征或者補全不同模態之間的特征差異,由于不同特征交互融合,使情感信息更豐富,因此可以顯著地提高性能。不同模態融合可明顯提高其分類效果,Borth等[3]提出了利用詞性對組合特征補充表達圖像包含的語義信息。Guillaumin等[4]發現圖像特征結合文本特征信息(例如文本上下文與時序性)可獲得更豐富的情感信息。多模態數據(圖像與文本)在處理多模態數據分析可提高準確度[5]。考慮到上下文以及話語之間的關系,Poria等[6]引入語境長短時期記憶網絡,可以利用話語水平的話語情境信息來捕捉更多的情緒特征。隨著注意力機制的普及以及它在多模態融合中起著越來越重要的作用,Tsai等[7]在多模態轉換模型中使用定向成對的跨模態注意。文獻[8]通過跨時間步長的多模態序列的相互作用,并潛在地從一種模態調整到另一種模態。文獻[9]通過對視頻彈幕進行聚類分析,實現文本與視頻的結合進行多模態情感分析。

1.2 預訓練語言模型

微調預訓練語言模型兩種主要方法為基于特征的方法和基于微調預訓練模型。

早期工作[10]專注于采用基于特征的方法,將單詞轉換為分布式表示。由于這些預訓練的詞表示捕獲語料庫中的句法和語義信息,通常用作輸入嵌入和各種NLP模型的初始化參數,并提供對隨機初始化參數的顯著改進[11]。由于這些詞級模型經常遭受多義詞,Peters等[12]采用序列級模型(ELMo)來捕捉跨不同語言的復雜詞特征上下文。

隨著人工智能技術的快速發展,Lai等[13]提出了一種用于中文微博情感分類的圖卷積神經網絡體系結構,該體系的F1值達到了83.32%。Pal等[14]用基于邏輯回歸技術,對文本情緒(喜悅、憤怒、悲傷、懸念)進行分類,準確率為73%。Puposh等[15]用支持向量機(svm)對單模態文本進行情感六分類,獲得73%的準確率。文獻[16]用Elmo對單模態文本數據進行情感分類。文獻[17]通過用Bert和BiLSTM結合模型,實現文本情感分類。文獻[18]使Bert和BiLSTM相結合,對新媒體時代網絡文本情緒趨向進行歸類。文獻[19]利用Bert與Transformer相結合,處理名詞隱喻識別實現情感分類問題。

盡管基于特征和微調的語言表示模型都取得了很大的成功,但忽略了多模態預訓練信息的融合。融合多模態信息可以顯著提升原始模型學習能力,例如閱讀理解[20]、機器翻譯[21]、自然語言推理[22]、知識獲取[23]和對話系統[24]。因此,融合信息可以有效地使現有的預訓練語言模型受益。事實上,有些工作試圖聯合詞和實體的表示學習,充分利用多模態信息并取得了可觀的成果。Yu等[25]提出了屏蔽語言的知識模型,引入場景圖片模態信息增強語言表征。基于此,本文提出利用多模態語料庫和多模態融合方式來訓練基于ERNIE的模型。

2 方法論

提出的跨模態ERNIE(CM-ERNIE),首先挖掘單模態文本以及音頻內部的特征,對單模態文本及音頻數據進行特征表示,并提取音頻模態信息。然后,采用屏蔽多模態注意作為其核心,通過跨模態交互作用來動態調整單詞的權重。結合來自文本和音頻模態的信息微調預先訓練過的ERNIE模型。

2.1 CM-ERNIE模型

輸入字符級別序列長度為n的文本序列:T=[T1,T2,…,Tn]。由于ERNIE模型的嵌入層將在輸入序列之前附加一個特殊的分類embedding([CLS]),因此最后一個encoder層的輸出是一個n+1長度的序列,記為Xt=[E[CLS],E1,E2,…,En],為了與文本模態一致,在分詞級任務上對齊音頻特征之前附加一個零向量,對音頻特征進行特征表示:Xa=[A[CLS],A1,A2,…,An]。其中,A[CLS]是一個零向量,利用Xt和Xa之間的交互作用來調整每個單詞的權重,以便更好地微調預先訓練過的ERNIE模型,提高情緒分析的性能,模型的總體架構如圖1所示。

2.2 模型細節

2.2.1 模態輸入表征

CM-ERNIE模型的輸入包括兩部分:字塊令牌(word-piece tokens)的文本序列和字級(word-level)對齊音頻特征。首先,文本序列將經過ERNIE模型,并使用最后一個Encoder層的輸出作為文本特征,其定義為Xt=[E[CLS],E1,E2,…,En]。其次,音頻首先經過卷積神經網絡:

將CNN處理后的音頻數據輸入到BiGRU中,提取與文本對應的音頻特征:

因為Xt的維數明顯高于,所以在訓練過程中,的值會越來越大于,為了防止點積變大,將文本特征t縮放到和音頻特征a縮放到。

2.2.2 屏蔽多模態注意力

首先,評估每個詞在不同模態下的權重。QueryQt和KeyKt文本模態為,其中為縮放后文本特征。QueryQa和音頻模態的KeyKa為,其中是縮放后的詞級對齊音頻特征。然后,文本注意力矩陣αt和音頻注意力矩陣βa定義為:

為通過文本和音頻模態之間的信息交互來動態調整特征單詞權重,對αt和βa加權求和,加權融合注意力矩陣Wf為

其中,wt為文本模態權重,wa為音頻模態權重,b為偏差。然后引入Mask矩陣M,減少padding序列的影響,然后將多模態注意力矩陣Wm定義為:

得到多模態注意力矩陣后,將Wm與屏蔽多模態注意力Vm的值相乘,得到注意力XAtt的輸出。其中Vm是ERNIE最后一個Encoder層的輸出,定義為Vm=Xt。

3 實驗

在本節中評估了跨模態ERNIE在公共多模態情緒分析數據集CMU-MOSI和CMU-MOSEI上的性能,和在公共數據集(ChnSentCorp)和(Nlpcc2014-Sc)上的準確性。

3.1 數據集與實驗設置

實驗使用CMU多模態觀點級情緒強度(CMUMOSI)和CMU多模態意見情緒和情緒強度(CMUMOSEI)數據集進行評估,并且使用另外兩個官方團隊提供的文本單模態公共數據集(ChnSentCorp)和(Nlpcc2014-Sc)驗證模型的準確性。

(1)CMU-MOSI是由關于YouTube電影評論觀點視頻組成,視頻共包含93個觀點,共計2199條話語,每個話語的標簽值由人工注釋且標簽值在(-3~3),其中,-3表示負面最大值,3表示正面最大值。另外考慮到說話者話語不應同時出現在訓練集和測試集中,以及正負數據的平衡,將訓練、驗證和測試集視頻數量拆分為52、10、31,且對應的話語數量分別對應為1284、229 和686。

證明 記δQk(x,t)=Qk+1(x,t)-Qk(x,t),δuk(x,t)=uk+1(x,t)-uk(x,t),將式(3)改寫為:

(2)CMU-MOSEI由來自YouTube的23454個電影評論視頻剪輯組成。

(3)ChnSentCorp為情感分析任務的中文句子評論級情感分類數據集。

(4)Nlpcc2014-Sc是微博短文本情感分析數據集。

為防止預訓練ERNIE模型過擬合,encoder層的學習率設置為0.01,其余層的學習率設為2e-5。為提升實驗性能,凍結嵌入層的參數。為訓練CM-ERNIE模型,將批量大小和最大序列長度分別設置為24和50,epoch數設置為3。此外,使用Adam優化器和均方誤差損失函數。

3.2 特征以及模型對齊

為與文本模態一致,在詞級對齊音頻特征之前附加一個零向量,然后分別對文本與音頻進行特征提取。其中,音頻提取過程中需重點注意與對應的文本對齊。

3.3 評價指標

實驗中,用相同的評價指標來評估基線和提出模型的性能。情緒評分分類任務采用7類精度(),二元情緒分類任務采用2類精度()和F1評分()。指標值越高,模型的性能就越好。為了使實驗結果更具準確性,最終的實驗結果為隨機選擇5次運行的平均結果。

3.4 對比實驗模型

EF-LSTM:early fusion LSTM(EF-LSTM)是融合早期輸入特征,也稱前期融合特征,然后送入LSTM模型來學習多模態上下文交互相關信息。

LMF:低秩多模態融合(LMF)是一種利用低秩權重張量,在不影響實驗性能的情況下,使多模態數據高效融合的方法。

MARN:multi-attention recurrent network(MARN)使用多頭注意力塊和長短時混合記憶網絡來挖掘不同模式之間的交互信息。

RMFN:循環多級融合網絡(RMFN)將多級融合過程與循環神經網絡相結合,以對時間和模態數據特征的進行交互建模。

MFM:多模態分解模型(MFM)幫助多模態判別因子和模態特定生成因子中每個因子的提取,專注于從跨多模態數據和標簽的聯合信息學習表示提取多模態數據特征。

MCTN:多模態循環翻譯網絡(MCTN)不同模態之間進行轉換,聯合表示數據特征。

MulT:multimodal transformer(MulT)使用定向成對交叉模式注意力跨不同時間步長的多模式序列之間的交互,并潛在地將數據流進行模式轉換,它是MOSI數據集上當前最先進的方法。

T-BERT:是改進 Transformers(Bert)的雙向 Encoder表示,僅使用文本模態信息進行微調。

4 結果與討論

本節展示了實驗結果,討論了提出的方法與前期成果的差異。此外,將屏蔽多模態注意力可視化,以及在單模態數據集上的結果對比,并討論了引入音頻模態信息后注意力矩陣的變化。

4.1 對比實驗結果

表1顯示了在 CMU-MOSI數據集上評估 CMERNIE模型的實驗結果。由表1知,CM-ERNIE模型在MOSI數據集上創建了一個新的最好的結果,并提高了所有評估指標的性能。在二元情感分類任務中,CM-ERNIE模型在上達到了83.9%。在情感評分分類任務中,CM-ERNIE模型的提升效果更加明顯。CM-ERNIE的模型在上達到了42.9%,另外,除T-BERT之外的其他基線模型都使用三模態數據信息,但本文提出的模型僅使用雙模態數據(文本和音頻)取得了新的最好的結果。

表1 CM-ERNIE模型在CMU-MOSI上的實驗結果 單位:%

類似地,在CMU-MOSEI數據集上進行了實驗。為了便于比較,繼之前數據集實驗的工作之后,將表1中后3個模型的和進行了比較。首先,MulT在上達到了82.5%,為82.3%。T-BERT表現出更好的性能,它在上達到了83.0%,為82.7%。但是,CM-ERNIE在上與T-BERT相比,在上達到了83.6%。因此,在CMU-MOSEI數據集上的實驗結果也說明本文所提的方法在其他多模態數據集上也有不錯的泛化性。

為驗證所提模型在多模態數據集上的提升,在單模態數據集上進行對比實驗,驗證模型的準確性,并與TextCnn、FastText、ERNIE、Bert模型對比,結果如表 2所示。

表2 CM-ERNIE模型在單模態數據集的實驗結果 單位:%

從表2可以看出,CM-ERNIE模型將預訓練的ERNIE模型從單模態擴展到多模態,并引入了音頻模態的信息,幫助文本模態有效地調整詞的權重。由于CM-ERNIE模型可以更全面地反映說話者的情緒狀態,并且可以通過文本和音頻模態之間的交互來捕捉更多的情感特征,因此它在所有評估指標上的表現都得到了顯著的提升。

4.2 多模態屏蔽注意力可視化

為證明屏蔽多模態注意力的效率,分別可視化對比了單模態文本數據注意力矩陣αt和多模態數據注意力矩陣Wm中詞語權重的差異,并且容易得知在引入多模態音頻數據信息后,Masked multimodal attention可以合理調整詞權重。例如從CMU-MOSI數據集中選擇一個句子,將其單模態文本數據注意力矩陣和多模態數據注意力矩陣可視化,如圖2所示,顏色梯度代表單詞的重要性。

圖2例句為“THERE ARE SOME FUNNY MOMENTS”,圖2(a)和(b)是對應的注意力矩陣。很明顯,圖2(a)和(b)之間存在很多差異。例如,圖2(a)中“FUNNY”這個詞在“ARE”這個詞上的注意力得分很高。然而,AER這個詞不包含任何情感信息。引入音頻信息后的圖2(b),Masked multi-modal attention降低了“ARE”的分數。相比之下,它更多地關注“SOME”和“MOMENTS”這兩個詞。為了充分說明CM-ERNIE模型的性能,分別統計比較了Bert和CMERNIE模型在兩個不同數據集10輪結果的加權F1值,其性能如圖2(c)和(d)所示。通過實驗發現,結合音頻的語音語調信息,音頻詞與文本交互可挖掘更豐富的情感信息,對于情感極性判斷結果更準確。

5 結束語

提出一種新穎的多模態情感數據交互分析模型CM-ERNIE。將預訓練的ERNIE模型從單模態文本數據擴展到多模態文本加語音數據,引入音頻模態信息(例如語音,語調)來輔助文本模態微調預訓練模型ERNIE,通過屏蔽多模態注意力為CM-ERNIE的核心單元,動態調整文本和音頻跨模態交互數據特征權重。實驗結果表明,CM-ERNIE在多模態數據集上的性能比以前的基線有顯著提高,并且在單模態數據集上的性能也超越ERNIE、Bert、FastText等。此外,將注意力矩陣可視化,可以清楚地表明在引入音頻模態后,能更有效地提升準確度。事實上,CM-ERNIE也適用于文本和圖片模態,也可應用于兩種以上的模態。未來,由于大多數多模態數據通常是未對齊,并且數據具有時序性,將會更多地關注如何對齊不同模態數據,挖掘數據的時序特征以及數據的上下文特征,以及如何使用預訓練語言模型從未對齊的多模態數據中學習更好的表示。

猜你喜歡
模態特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚欧乱色视频网站大全| 中文字幕不卡免费高清视频| 精品国产一二三区| 亚洲乱码在线播放| 5555国产在线观看| 99热精品久久| 国产免费久久精品99re不卡 | 中文字幕无码av专区久久| 亚洲精品国产综合99久久夜夜嗨| 91国内在线观看| 欧美成人一级| 18禁影院亚洲专区| 国产SUV精品一区二区| 色噜噜狠狠狠综合曰曰曰| 激情午夜婷婷| 青青青国产视频手机| 精品国产成人高清在线| 国产av无码日韩av无码网站| 国禁国产you女视频网站| 欧美一区福利| 中文成人无码国产亚洲| 欧美区一区| 一本久道久综合久久鬼色| 呦女精品网站| 日韩在线欧美在线| 欧美成人精品一级在线观看| 日本a∨在线观看| 欧美日韩国产高清一区二区三区| 欧美成人免费| 亚欧成人无码AV在线播放| 最新精品久久精品| 国产亚洲视频在线观看| 欧美激情伊人| 国产一区二区三区在线精品专区| 人妻精品久久无码区| 欧美激情第一欧美在线| 2020最新国产精品视频| 看国产毛片| a级毛片免费看| 精品福利视频导航| 超碰aⅴ人人做人人爽欧美| 国产精品视频导航| 亚洲日韩精品无码专区97| 成人精品免费视频| 五月激情综合网| 亚洲丝袜中文字幕| 丝袜国产一区| 色哟哟国产成人精品| 亚洲性视频网站| 免费一级毛片在线观看| 久久99国产乱子伦精品免| 亚洲欧美精品日韩欧美| 免费人成网站在线高清| 呦系列视频一区二区三区| 九九热精品视频在线| 国产chinese男男gay视频网| 又爽又黄又无遮挡网站| 精品视频91| 欧美va亚洲va香蕉在线| 亚洲区视频在线观看| 天天综合色网| 国产精品思思热在线| 午夜性刺激在线观看免费| 久久精品无码一区二区日韩免费| 视频在线观看一区二区| 五月激激激综合网色播免费| 国产极品美女在线| 欧美成人影院亚洲综合图| 国产尤物jk自慰制服喷水| 国产自产视频一区二区三区| 最新国语自产精品视频在| 免费女人18毛片a级毛片视频| 亚洲男人的天堂在线观看| 青青久在线视频免费观看| 国产黄在线观看| 香蕉99国内自产自拍视频| 91精品小视频| 亚洲视频a| 天天躁日日躁狠狠躁中文字幕| 久久精品国产精品青草app| 欧美性猛交一区二区三区| 亚洲最黄视频|