999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力的多層次混合融合的多任務多模態(tài)情感分析

2022-01-01 00:00:00宋云峰任鴿楊勇樊小超
計算機應用研究 2022年3期

摘 要:針對多模態(tài)情感分析中的模態(tài)內(nèi)部特征表示和模態(tài)間的特征融合問題,結合注意力機制和多任務學習,提出了一種基于注意力的多層次混合融合的多任務多模態(tài)情感分析模型MAM(multi-level attention and multi-task)。首先,利用卷積神經(jīng)網(wǎng)絡和雙向門控循環(huán)單元來實現(xiàn)單模態(tài)內(nèi)部特征的提取;其次,利用跨模態(tài)注意力機制實現(xiàn)模態(tài)間的兩兩特征融合;再次,在不同層次使用自注意力機制實現(xiàn)模態(tài)貢獻度選擇;最后,結合多任務學習獲得情感和情緒的分類結果。在公開的CMU-MOSEI數(shù)據(jù)集上的實驗結果表明,情感和情緒分類的準確率和F1值均有所提升。

關鍵詞:多模態(tài);情感分析;注意力機制;多任務學習

中圖分類號:TP391.1 文獻標志碼:A

文章編號:1001-3695(2022)03-012-0716-05

doi:10.19734/j.issn.1001-3695.2021.08.0357

基金項目:新疆維吾爾自治區(qū)自然科學基金資助項目(2021D01B72);國家自然科學基金資助項目(62066044)

作者簡介:宋云峰(1995-),男,安徽六安人,碩士研究生,主要研究方向為多模態(tài)情感分析、自然語言處理;任鴿(1986-),女,河南蘭考人,講師,碩士,主要研究方向為數(shù)據(jù)挖掘、自然語言處理;楊勇(1979-),男,陜西漢中人,教授,博士,主要研究方向為自然語言處理、軟件工程;樊小超(1982-),男(錫伯族)(通信作者),新疆塔城人,講師,博士,主要研究方向為文本情感分析(37769630@qq.com).

Multimodal sentiment analysis based on hybrid feature fusion of multi-level

attention mechanism and multi-task learning

Song Yunfeng,Ren Ge,Yang Yong,F(xiàn)an Xiaochao?

(School of Computer Science amp; Technology,Xinjiang Normal University,Urumqi 830054,China)

Abstract:Aiming at the problem of intra-modality feature representation and inter modality feature fusion in multimodal sentiment analysis,this paper proposed a multi-level hybrid fusion multi-modal sentiment analysis model based on attention mechanism and multi-task learning.Firstly,the model used convolution neural network and bi-directional gated unit to extract the single-modality internal feature.Secondly,it used the cross-modality attention mechanism to realize the pairwise feature fusion between modalities.Thirdly,it used the self-attention mechanism to select the modality contribution at different levels.Finally,combining with multi-task learning,the model obtained both sentiment and emotion classification results.The experimental results on CMU-MOSEI dataset show that this method can improve the accuracy and F1-score of sentiment and emotion classification.

Key words:multimodal;sentiment analysis;attention mechanism;multi-task learning

0 引言

情感分析是對帶有情感色彩的主觀性數(shù)據(jù)進行分析、處理、歸納和推理的過程,在傳統(tǒng)的情感分析研究中針對的主要媒介是文本。雖然單模態(tài)情感分析在輿情監(jiān)控、產(chǎn)品分析等多方面取得了成功,但隨著近年來社交媒體的快速發(fā)展,網(wǎng)絡上涌現(xiàn)出大量的多模態(tài)數(shù)據(jù),基于文本的單模態(tài)情感分析已經(jīng)不能滿足處理多模態(tài)數(shù)據(jù)的要求。因此,基于多模態(tài)數(shù)據(jù)的情感分析應運而生,并且有著重要的現(xiàn)實意義和應用價值[1

人類認識世界的方式是多模態(tài)的,每一種信息載體都可以被稱之為一種模態(tài)。多模態(tài)情感分析是指對包含情感信息的多模態(tài)數(shù)據(jù)進行情感分析的過程[2,3。社交媒體是多模態(tài)數(shù)據(jù)的海量來源,以視頻為例,視頻中包含了文本、音頻和圖像這三種信息載體,文本能攜帶語義信息,音頻能攜帶語氣、音調等信息,圖像能攜帶表情、手勢等信息。三種模態(tài)的關系是相互補充、相互解釋的,單從一種模態(tài)上來分析其情感色彩是不全面的,因此相較于傳統(tǒng)的情感分析方法,利用多模態(tài)數(shù)據(jù)來解決情感分析任務有著很大的優(yōu)勢。

在多模態(tài)情感分析領域,已經(jīng)提出了大量的深度學習模型。Poria等人[4提出了BC-LSTM(bi-directional contextual long short-term memory),利用雙向LSTM網(wǎng)絡結構捕捉上下文信息;Zadeh等人[5提出了張量融合網(wǎng)絡,使用多視圖門控記憶模塊來同步多模態(tài)序列;同時提出了記憶融合網(wǎng)絡6,在時間尺度上建模視圖內(nèi)和視圖間的交互。雖然研究者對多模態(tài)情感分析模型提出了許多改進方法,但仍然存在許多不足。在多模態(tài)特征表示中,既需要考慮單模態(tài)內(nèi)部特征的表示,也要考慮到模態(tài)之間的交互,以前的方法大多不能很好地兼顧模態(tài)內(nèi)部特征的表示和模態(tài)之間的交互;此外,多種模態(tài)信息的引入會引起信息冗余的問題,使模型無法有效地辨別對分類任務來說最重要的特征信息。因此,識別模態(tài)貢獻度對多模態(tài)情感分類也是一個重要的問題。

針對以上的問題,本文提出一種基于注意力的多層次混合融合的多任務多模態(tài)情感分析模型MAM。主要的貢獻有如下幾點:a)跨模態(tài)層次注意力機制,通過跨模態(tài)注意力機制得到各模態(tài)之間的交互信息,再通過自注意力機制層層篩選出對分類任務最重要的跨模態(tài)特征,賦予不同模態(tài)貢獻度權重,減少了模態(tài)噪聲的干擾;b)多任務學習框架,將預測目標納入多任務學習框架中,在底層共享參數(shù),進行情感和情緒的雙重識別,使網(wǎng)絡學習到更泛化的模態(tài)特征表示。

1 相關工作

1.1 多模態(tài)情感分析

根據(jù)所使用的融合方法可以將多模態(tài)情感分析模型大體分為兩類:

a)用于建模單模態(tài)序列數(shù)據(jù)的模型,如隱馬爾可夫模型、RNN(recurrent neural network)和LSTM,使用的融合方式主要為早期融合、晚期融合和混合融合。早期融合是將得到的不同模態(tài)特征簡單地拼接,并將其視為單模態(tài),這類模型不能很好地學習到模態(tài)內(nèi)的關系;與早期融合相反,晚期融合在每個子模型的輸出結果之后進行投票,由于該方法的融合過程與特征無關,子模型的誤差通常也是無關的[7,8;混合融合結合了早期和晚期融合方法,雖然結合了兩種方法的優(yōu)點,但是增加了模型的結構復雜度和訓練難度9,10。Poria等人[4提出了BC-LSTM模型,該模型使用雙向的LSTM來捕獲全局上下文信息;Chen 等人[11提出了GME-LSTM(gated multimodal embedding long short-term memory),將加入了門控機制的LSTM結合注意力機制在單詞級別上進行模態(tài)融合。但是以上研究方法均忽視了單模態(tài)內(nèi)部信息的建模。

b)用于處理多模態(tài)信息的模型。文獻[5]提出了TFN(tensor fusion network)模型,使用多視圖門控記憶模塊來同步多模態(tài)序列,該多視圖門控記憶模塊記錄隨時間變化的模態(tài)內(nèi)部視圖和模態(tài)間的視圖交互;Zadeh等人[6提出MFN(memory fusion network),在多視圖的序列建模中有視圖內(nèi)的交互和視圖間的交互,MFN在時間尺度上持續(xù)建模這兩種交互;Graph-MFN(graph memory fusion network)[12是建立在MFN上的一種動態(tài)融合圖,它是一種用來解決多模態(tài)語言中的跨模態(tài)交互的融合方式,其對每個模態(tài)進行建模,根據(jù)每個模態(tài)的重要性來更改其結構以選擇合適的融合圖;Cai等人[13提出了層次融合模型,將文本、圖像和圖像的屬性視為三種不同類型的模態(tài),在不同層次上進行表征融合和模態(tài)融合,充分利用模態(tài)之間的關系。

1.2 多任務學習

多任務學習[14是從人類歸納學習到的知識來認識新事物的方式受到的啟發(fā),是指同時學習包含在多個相關聯(lián)的任務中的信息,實現(xiàn)信息共享,從而提升了模型的總體泛化性能。深度學習模型通常都需要大量的訓練樣本以達到很高的分類精確度,但是收集大量的訓練樣本通常耗時耗力,因此在有限的樣本數(shù)量的情況下,多任務學習是學習多個相關聯(lián)的任務很好的解決方法[15,16

He等人[17提出交互式的多任務學習模型IMN(interactive multi-task learning network),能夠在標記層和文檔層同時學習多個相關任務,它不依賴于學習不同任務的共同特征,而是通過一組共享的隱變量迭代地傳遞給不同的任務。多模態(tài)數(shù)據(jù)在決策過程中通常具有不同的貢獻度,Akhtar等人[18提出了一個深度多任務學習框架,同時進行情感和情緒分析,利用GRU來捕捉對話的全局上下文信息,利用注意力機制實現(xiàn)模態(tài)間的交互,結合多任務學習同時預測情感和情緒。

2 多層次混合融合的多任務多模態(tài)情感分析

圖1為本文提出的基于注意力的多層次混合融合的多任務多模態(tài)情感分析模型MAM的模型結構圖,模型結構主要由以下五個部分組成:

a)單模態(tài)特征提取層。每段對話是由一系列的句子組成的,它們之間有相互依賴的語義關系。因此,利用CNN(convolutional neural network)和雙向的GRU(gated recurrent unit)獲得全局的上下文特征信息,實現(xiàn)單模態(tài)內(nèi)部特征的提取。

b)跨模態(tài)特征融合層(第一層次)。通過跨模態(tài)注意力機制將步驟a)中所獲得的文本、音頻和視頻三種模態(tài)的特征兩兩進行模態(tài)交互。

c)模態(tài)內(nèi)的自注意力(第二層次)。將步驟b)所得跨模態(tài)注意力矩陣拼接后,通過自注意力機制捕捉模態(tài)特征的內(nèi)部相關性。

d)模態(tài)間的自注意力(第三層次)。將步驟c)所得的模態(tài)特征矩陣拼接后,經(jīng)過第二次的自注意力機制進行二次融合,捕捉三種模態(tài)特征間的相關性,識別任務貢獻度高的模態(tài)信息。

e)多任務學習。將步驟d)所得的特征矩陣,通過兩個不同的全連接子網(wǎng)絡同時進行情感和情緒的分類。

2.1 單模態(tài)特征提取

對于具有n段對話組成的視頻Ui=Ui1,Ui2,…,Uin,使用CMU-Multi-modal Data SDK 來下載和提取特征。文本、音頻和視頻分別通過GloVe、 CovaRep以及Facet提取對應的特征,將得到的特征按詞的維度取均值,最終得到句子級別的特征表示為

其中:m∈{L,A,V}。多模態(tài)序列通常涉及語言(L)、音頻(A)和視頻(V)三種主要形式。

不同的模態(tài)特征是以不同的采樣率獲得的,其序列長度T∈{L,A,V}和維度特征d∈{L,A,V}均不相同。在多模態(tài)情感分析中常用CNN作為序列對齊工具,具有與全連接層類似的效果,將輸入序列傳遞給一維卷積層:

其中:k{L,V,A}是模態(tài)的卷積核大小;T是一個一致的序列長度。

GRU模型由重置門和更新門組成,結構簡單,能有效緩解梯度爆炸和梯度彌散問題。可表示為

其中:xit為視頻i中第t個元素的輸入特征值;ht為模態(tài)序列t時刻的隱藏層狀態(tài);U、W和b分別為權重和偏置系數(shù)。雙向的GRU相比于單向的GRU不僅能記住前向的序列依賴關系,也能記住后向的依賴關系,因此具有更好的捕獲上下文的優(yōu)勢。將CNN處理過后輸入序列傳遞到雙向GRU中,表示為

2.2 多層次模態(tài)特征融合

多模態(tài)特征融合一直是多模態(tài)研究領域的核心問題,早期研究提出了早期融合、晚期融合和混合融合等融合方式。在多模態(tài)情感分類任務中,針對不同的任務,每種模態(tài)的重要性并不是相同的,有時是通過面部表情,有時則是語言表達。所以,每種模態(tài)的貢獻度對最終的分類結果起著很重要的作用。注意力機制借鑒了人類的思維方式,被廣泛應用于深度學習的各個領域。跨模態(tài)注意力擅長捕獲模態(tài)間的相關性,可以實現(xiàn)模態(tài)間的動態(tài)交互,自注意力機制減少了對外部信息的依賴,擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關性。因此,本文結合跨模態(tài)注意力和自注意力的優(yōu)勢,提出了一種多層次跨模態(tài)特征融合方式。當有兩種模態(tài)α和β,表示為Xα∈?Tα×dα、Xβ∈?Tβ×dβ;將查詢向量表示為Qα=XαWQα,鍵向量表示為Kβ=XβWKβ,值向量表示為Vβ=XβWVβ。其中,WQα∈?dα×dk,WKβ∈?dβ×dk,WVβ∈?dβ×dk。β到α的跨模態(tài)注意力可以表示為

通過跨模態(tài)注意力獲得語言對音頻、視頻,音頻對語言、視頻,視頻對語言、音頻六組模態(tài)交互特征,如下所示:

為了獲取單模態(tài)的完整表示,將六組跨模態(tài)交互特征矩陣拼接,表示為

其中:[⊕]表示拼接操作。

transformer[19中最基礎的模塊單元是放縮的點積注意力(scaled dot product),又被稱為自注意力機制,可以表示為

其中:查詢矩陣Q、鍵矩陣K以及值矩陣V均從輸入矩陣映射而來;dk是一個用來放縮的比例因子;操作QKT會得到一個注意力權重矩陣。為了獲取跨模態(tài)特征矩陣數(shù)據(jù)的內(nèi)部相關性,確定模態(tài)內(nèi)的貢獻度,通過自注意力機制進行第一次的自注意力融合,可以表示為

為了進一步獲得不同模態(tài)間的相關性和貢獻度分配,再次拼接L、A和V,通過自注意力機制進行第二次的融合,可以表示為

其中:[⊕]表示拼接操作;ZI為模態(tài)的最終融合總特征。

2.3 情感和情緒多分類

多任務學習能通過共享表示層參數(shù)實現(xiàn)信息共享,從而同時提高多個任務的性能。本文采用硬參數(shù)共享將模型中絕大部分的隱藏層參數(shù)共享,只保留相應任務層的隱層參數(shù)獨立。分類結果如下所示:

其中:Si為情感分類的最終結果;Ei為情緒分類的最終結果;Wt和bt分別為全連接層的權重和偏置矩陣;Wsi、bsi和Wso、bso分別為sigmoid和softmax層的權重和偏置。

3 實驗及分析

3.1 數(shù)據(jù)集

CMU-MOSEI(CMU multi-modal opinion sentiment and emotion intensity)數(shù)據(jù)集是由Zadeh等人[12提出的,該數(shù)據(jù)集從YouTube收集了1 000多條視頻,從中提取出了23 000多段對話。訓練集、驗證集和測試集分別包含了16 216、1 835、4 625條對話,表1列出了CMU-MOSEI數(shù)據(jù)集的基本信息。在粗粒度上每段對話的情感極性被標記為一個從-3~+3的值,同時在細粒度上每段對話又被分成六個情緒標簽,分別是憤怒、厭惡、恐懼、快樂、悲傷、驚喜。實驗中,將情感極性值lt;0作為負向情感,≥0時作為正向情感。此外,對于該數(shù)據(jù)集中無情緒標簽的對話,將無情緒作為一個額外的標簽加入到六種情緒中,組成了七種情緒標簽。

3.2 參數(shù)設置和評價指標

本實驗使用Python 3.7編寫,使用的深度學習框架為PyTorch 1.2.0,使用顯卡為Telsa K80。在深度學習中,超參數(shù)的設置十分重要,本文模型的主要超參數(shù)如表2所示。對于情感二分類問題使用F1值和準確率作為評估矩陣。對于情緒分類,與文獻[18,20]保持一致,使用F1值和加權準確率作為評估矩陣,情緒的閾值分別設置為0.4和0.2。由于數(shù)據(jù)集中各情緒的比例是不平衡的,加權準確率能更好地衡量模型的實際表現(xiàn)效果。

3.3 實驗結果

本文選用以下幾種經(jīng)典的多模態(tài)分析模型作為基準模型:a)EF-LSTM(early fusion LSTM),通過早期融合將不同模態(tài)特征拼接后,用LSTM來捕捉上下文信息;b)LF-DNN(later fusion DNN),通過晚期融合將不同子網(wǎng)絡訓練得到的特征進行拼接,進行投票分類;c)MFN(memory fusion network)[6,在多視圖的序列建模中有視圖內(nèi)的交互和視圖之間的交互,記憶融合網(wǎng)絡在時間尺度上持續(xù)建模這兩種交互;d)Graph-MFN(graph memory fusion network)[12,將MFN模型中的注意網(wǎng)絡轉換成動態(tài)的融合圖來實現(xiàn)模態(tài)之前的交互;e)CIM(contextual inter-modal attention)[18,利用雙向GRU和注意力機制分別建模模態(tài)內(nèi)和模態(tài)間的動態(tài)交互。

表3給出了本文模型在CMU-MOSEI數(shù)據(jù)集上的F1值、準確率以及加權準確率的對比。在情感分類上,與基準模型相比,F(xiàn)1值提升了0.1%~19.2%,準確率提升了0.5%~22.9%。在情緒分類上,與基準模型相比,憤怒的加權準確率提升了3%~19.5%;厭惡的F1值和加權準確率分別提升了0.7%~60.3%和1%~23.1%;快樂的F1值提升了2.3%~30.4%,悲傷的F1值和加權準確率分別提升了0.3%~61.5%和3.1%~14.4%;驚訝的F1值提升了0.1%~55.7%,情緒的平均F1值和加權準確率分別提升了0.4%~45.5%和0.8%~10.9%。其中,在憤怒、快樂和悲傷三種情緒的識別準確度上提升較大。

從實驗結果可知,EF_LSTM和LF_DNN在情感和情緒的分類性能上都較差,在情感分類任務上與其他模型的差距達到了10%以上。這說明基于早期融合和晚期融合的模型均有很明顯的缺陷,不能兼顧模態(tài)內(nèi)的特征建模和模態(tài)間的特征建模。MFN、Graph-MFN和CIM-Att的性能相對較優(yōu),與本文模型差距較小,MFN在驚喜的加權準確率仍表現(xiàn)最優(yōu),Graph-MFN在恐懼的F1值和快樂的加權準確率上表現(xiàn)最好,CIM-Att在憤怒的F1值和恐懼的加權準確率上表現(xiàn)最優(yōu)。本文基于注意力的多層次混合融合的多任務多模態(tài)情感分析模型MAM不僅在情感分類上取得了最好的實驗結果,而且在厭惡、快樂、悲傷和驚訝的情緒分類任務中的表現(xiàn)都優(yōu)于對比方法,充分驗證了本文MAM模型的有效性。

3.4 消融實驗

為了驗證模型中每個模塊的有效性,分別移除多任務學習模塊和多層次自注意力模塊來確定其對模型整體效果的影響。實驗結果如表4所示,移除了多任務學習模塊后,情感分類的F1值和準確率分別下降了2.6%和 3.3%,情緒分類的平均F1值下降了1.4%。可以看到,情感分類和情緒分類的F1值和準確率均有一定幅度的下降,這說明加入了多任務學習框架能有效地提高模型分類的性能。在移除了第一層自注意力后,情感分類的F1值和準確率分別下降了1.8%和3.4%,情緒分類的平均F1值和準確率分別下降了0.3%和0.2%;移除二層自注意力,情感分類的F1值和準確率下降了1.6%和2.9%,情緒分類的平均F1值和準確率分別下降了0.5%和0.4%。移除一層和二層的自注意力層均會使模型的性能下降,說明加入自注意力可以幫助模型更好地識別模態(tài)間的相關性和模態(tài)貢獻度,提升模型性能。由以上實驗結果可知,移除模型中任意一個模塊都會降低模型的性能,充分驗證了本文模型為達到最好的分類效果每個模塊的必要性。

3.5 實例分析

為了體現(xiàn)模態(tài)貢獻度的重要性和本文模型的泛化性能,從Mustard數(shù)據(jù)集[21上選取一些樣例進行測試。如表5所示,分別列出了每個實例的文本、音頻和視頻的信息,使用單模態(tài)和多模態(tài)數(shù)據(jù)的預測結果以及實例的真實標簽。例1中,僅使用文本或音頻信息模型會將其情感極性推斷為積極的,但從視頻畫面中可以看到人物的面部表情是輕蔑的,其真實情感標簽是消極的,綜合使用三種模態(tài)信息的MAM模型能預測出其真實情感標簽為消極。對于模態(tài)之間相互矛盾的樣本,跨模態(tài)注意力機制將會為矛盾的模態(tài)之間建立較弱的相關性,而自注意力機制將會為能反映真實情感的模態(tài)特征分配更高的權重。因此,MAM相比于其他模型有能動態(tài)挖掘模態(tài)間關系的優(yōu)勢。例2中,同樣是模態(tài)間出現(xiàn)矛盾,文本中“Great”一詞以及人物說話語氣強烈、興奮都顯示出積極的情感傾向,但人物的面部表情猙獰,其真實情感是消極的,MAM也能預測出其真實情感標簽。例3和4中,對模態(tài)間關系一致的樣本,其預測結果也是正確的。通過以上實例分析,本文模型能有效結合文本、音頻和視頻的多模態(tài)的信息,發(fā)掘出其中的矛盾并識別出貢獻度最大的以及決定性的模態(tài)特征,從而準確預測出真實的情感極性。

4 結束語

多模態(tài)情感分析是計算機領域近年來的一個新興熱點,給傳統(tǒng)基于文本的情感分析研究帶來了新的機遇和挑戰(zhàn),它不僅要求能理解不同模態(tài)之間的交互關系,還要能正確找出與任務貢獻度最高的模態(tài)特征表示。本文提出了一種基于注意力的多層次混合融合的多任務多模態(tài)情感分析模型MAM,首先使用卷積神經(jīng)網(wǎng)絡和雙向門控循環(huán)單元來獲取單模態(tài)序列數(shù)據(jù)的局部信息和上下文信息;其次,使用跨模態(tài)注意力機制實現(xiàn)模態(tài)融合;再次,通過多層次的自注意力機制識別出模態(tài)間的相關性和任務貢獻度最高的模態(tài);最后,通過多任務學習共享任務信息實現(xiàn)情感和情緒的多分類。通過在CMU-MOSEI數(shù)據(jù)集上的實驗結果表明,模型在情感分類和情緒分類問題上,性能都有所提升,但模型在恐懼的識別精度上表現(xiàn)不佳。未來的工作將會繼續(xù)研究提高情緒分類的準確率。

參考文獻:

[1]何俊,劉躍,何忠文.多模態(tài)情感識別研究進展[J].計算機應用研究,2018,35(11):3201-3205.(He Jun,Liu Yue,He Zhongwen.Research progress of multimodal emotion recognition[J].Application Research of Computers,2018,35(11):3201-3205.)

[2]劉建偉,丁熙浩,羅雄麟.多模態(tài)深度學習綜述[J].計算機應用研究,2020,37(6):1601-1614.(Liu Jianwei,Ding Xihao,Luo Xionglin.Survey of multimodal deep learning[J].Application Research of Computers,2020,37(6):1601-1614.)

[3]Huddar M G,Sannakki S S,Rajpurohit V S.A survey of computational approaches and challenges in multimodal sentiment analysis[J].International Journal of Computer Sciences and Engineering,2019,7(1):876-883.

[4]Poria S,Cambria E,Hazarika D,et al.Context-dependent sentiment analysis in user-generated videos[C]//Proc of the 55th Annual Mee-ting of the Association For Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2017:873-883.

[5]Zadeh A,Chen Minghai,Poria S,et al.Tensor fusion network for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2017:1103-1114.

[6]Zadeh A,Liang P P,Mazumder N,et al.Memory fusion network for multi-view sequential learning[C]//Proc of the 32nd AAAI Confe-rence on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:5634-5641.

[7]Snoek C G M,Worring M,Smeulders A W M.Early versus late fusion in semantic video analysis[C]//Proc of the 13th Annual ACM International Conference on Multimedia.New York:ACM Press,2005:399-402.

[8]Vielzeuf V,Pateux S,Jurie F.Temporal multimodal fusion for video emotion classification in the wild[C]//Proc of the 19th ACM International Conference on Multimodal Interaction.New York:ACM Press,2017:569-576.

[9]Wu Hao,Mao Jiayuan,Zhang Yufeng,et al.Unified visual-semantic embeddings:bridging vision and language with structured meaning representations[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:6609-6618.

[10]Andreas J,Rohrbach M,Darrell T,et al.Learning to compose neural networks for question answering[EB/OL].(2016-06-07).https://arxiv.org/pdf/1601.01705.pdf.

[11]Chen Minghai,Wang Sen,Liang P P,et al.Multimodal sentiment ana-lysis with word-level fusion and reinforcement learning[C]//Proc of the 19th ACM International Conference on Multimodal Interaction.New York:ACM Press,2017:163-171.

[12]Zadeh A A B,Liang P P,Poria S,et al.Multimodal language analysis in the wild:CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2236-2246.

[13]Cai Yitao,Cai Huiyu,Wan Xiaojun.Multi-modal sarcasm detection in Twitter with hierarchical fusion model[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:2506-2515.

[14]Caruana R.Multitask learning[J].Machine Learning,1997,28(7):41-75.

[15]Yu Zhang,Qiang Yang.A survey on multi-task learning[J/OL].IEEE Trans on Knowledge and Data Engineering.(2021).https://doi.org/10.1109/TKDE.2021.3070203.

[16]Ruder S.An overview of multi-task learning in deep neural networks[EB/OL].(2017-06-15).https://arxiv.org/pdf/1706.05098v1.pdf.

[17]He Ruidan,Lee W S,Ng H T,et al.An interactive multi-task learning network for end-to-end aspect-based sentiment analysis[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:504-515.

[18]Akhtar M S,Chauhan D S,Ghosal D, et al.Multi-task learning for multi-modal emotion recognition and sentiment analysis[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:370-379.

[19]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.

[20]Tong E,Zadeh A,Jones C,et al.Combating human trafficking with multimodal deep models[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2017:1547-1556.

[21]Castro S,Hazarika D,Pérez-Rosas V,et al.Towards multimodal sarcasm detection(an_obviously_perfect paper)[EB/OL].(2019-06-05).https://arxiv.org/pdf/1906.01815.pdf.

主站蜘蛛池模板: jizz亚洲高清在线观看| 手机在线看片不卡中文字幕| 成人在线天堂| 日韩高清成人| 欧美人与牲动交a欧美精品| 日本午夜网站| 午夜无码一区二区三区| 午夜国产不卡在线观看视频| 亚洲国产成人超福利久久精品| 国产欧美中文字幕| 国产欧美日韩专区发布| 五月婷婷伊人网| 欧美精品1区| 国产aaaaa一级毛片| 亚洲欧美日本国产专区一区| 全午夜免费一级毛片| 国内精品九九久久久精品| 日本精品视频| 国产爽爽视频| 久久久久国产一级毛片高清板| 高清不卡毛片| 国产清纯在线一区二区WWW| 亚洲福利片无码最新在线播放| 国产精品粉嫩| 欧美精品亚洲二区| 国产手机在线小视频免费观看| 丁香六月激情综合| 国产在线八区| 亚洲男人在线天堂| 日韩亚洲高清一区二区| 2018日日摸夜夜添狠狠躁| 免费观看三级毛片| 久久国产高潮流白浆免费观看| 91啪在线| 国产麻豆精品久久一二三| 亚洲人成影院在线观看| 亚洲欧洲日产无码AV| 一级高清毛片免费a级高清毛片| 久99久热只有精品国产15| 毛片在线播放a| 国产在线观看人成激情视频| 手机精品福利在线观看| 色婷婷亚洲综合五月| 伊大人香蕉久久网欧美| 久久国产精品夜色| 欧美色伊人| 国产办公室秘书无码精品| 久久久亚洲国产美女国产盗摄| 2021国产精品自产拍在线| 99精品久久精品| 亚洲福利一区二区三区| 新SSS无码手机在线观看| 国产成人你懂的在线观看| 国产精品19p| 在线色综合| 91在线免费公开视频| av手机版在线播放| 中文字幕亚洲另类天堂| 欧美午夜小视频| 91精品国产一区| 久久人人97超碰人人澡爱香蕉| 国产成人亚洲综合A∨在线播放 | 日韩欧美一区在线观看| 狼友视频一区二区三区| 免费视频在线2021入口| 国产高潮流白浆视频| 美女高潮全身流白浆福利区| 天天综合网色中文字幕| 国产精品第一区| 国产激情国语对白普通话| 免费国产不卡午夜福在线观看| 黄色福利在线| 国产免费好大好硬视频| 欧美精品亚洲精品日韩专区va| 精品一區二區久久久久久久網站 | 一级毛片免费高清视频| 亚洲天堂在线免费| 欧美日本在线一区二区三区| 欧美一区日韩一区中文字幕页| 国产91久久久久久| 精品国产Ⅴ无码大片在线观看81| 综合亚洲网|