孫 鵬,彭敦陸
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
開發(fā)具有情商的聊天機(jī)器人一直是人工智能的一個(gè)長(zhǎng)期目標(biāo)[1].近十年來(lái),情感識(shí)別領(lǐng)域致力于理解情緒的聲學(xué)表現(xiàn),并追求對(duì)語(yǔ)音內(nèi)容更穩(wěn)健的識(shí)別[2].然而,隨著此類系統(tǒng)在移動(dòng)設(shè)備上的普及,尤其是微信語(yǔ)音等實(shí)時(shí)對(duì)話軟件的普遍應(yīng)用,用戶對(duì)此類系統(tǒng)的期望值也有所提高.一個(gè)重要的表征就是,人們期待機(jī)器能夠理解對(duì)話中所攜帶的情感和意圖,并能夠以一定的同理心做出回應(yīng),從而可以改善整個(gè)人機(jī)交互體驗(yàn).
然而,想要跟蹤對(duì)話中的情感動(dòng)態(tài)是一項(xiàng)較大的挑戰(zhàn).因?yàn)閷?duì)話人之間的情感是會(huì)被互相影響的,兩者之間存在復(fù)雜的依賴關(guān)系.根據(jù)Morris和Keltner的研究表明,對(duì)話中的情感動(dòng)態(tài)變化主要由兩個(gè)因素影響:自我依賴和他人依賴[3].自我依賴也被稱作情感慣性,指的是對(duì)話過(guò)程中自身對(duì)自身造成的情感影響.他人依賴則指的是其他人的情感狀態(tài)也會(huì)引起自身的情感狀態(tài)變化.因此,在對(duì)話過(guò)程中對(duì)話雙方更傾向于考慮對(duì)方的情感表達(dá)從而建立更融洽的對(duì)話情境.圖1中來(lái)自數(shù)據(jù)集的一段對(duì)話很好的印證了自我依賴和他人依賴對(duì)情感動(dòng)態(tài)的影響.然而現(xiàn)有的大多數(shù)對(duì)話系統(tǒng)只考慮到了自身依賴.例如Berter提出的根據(jù)當(dāng)前的會(huì)話推斷情緒的上下文無(wú)關(guān)系統(tǒng).Poria提出的利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)對(duì)上下文語(yǔ)境進(jìn)行建模等[4].

圖1 Pa最終的情感受到了Pb的影響Fig.1 Pa′s final emotion is affected by Pb
本文提出的E2E-CER綜合考慮到了上述的兩種情感依賴.可將本文的貢獻(xiàn)可以總結(jié)為以下幾點(diǎn):
1)本文提出了一種基于端到端的對(duì)話情感識(shí)別模型E2E-CER,以原始數(shù)據(jù)作為輸入,充分考慮了自我依賴和他人依賴對(duì)情感檢測(cè)的影響;
2)本文針對(duì)語(yǔ)音和文本的多模態(tài)融合,提出了基于注意力機(jī)制的融合方法,以不同模態(tài)數(shù)據(jù)對(duì)分類結(jié)果的貢獻(xiàn)值不同,為每種模態(tài)輸出一個(gè)注意力評(píng)分,生成融合特征;
3)實(shí)驗(yàn)結(jié)果表明,該方法在IEMOCAP數(shù)據(jù)集上表現(xiàn)明顯高于基線模型平均水平.
多年以來(lái),情感識(shí)別一直是一個(gè)跨學(xué)科的研究領(lǐng)域[5].這一領(lǐng)域的初步研究主要涉及視覺(jué)和聽覺(jué)處理.隨著Alm等人的研究,文本在情感分析中的作用越來(lái)越明顯[6,7].目前該領(lǐng)域的研究主要是從多模態(tài)的角度,分析不同模態(tài)對(duì)識(shí)別結(jié)果的影響,以獲得更好的識(shí)別效果.由于最近在機(jī)器智能任務(wù)中應(yīng)用深度學(xué)習(xí)方法的激增,相關(guān)工作進(jìn)一步證明了對(duì)話情感識(shí)別率的顯著提高.例如Han等人使用深度神經(jīng)網(wǎng)絡(luò)對(duì)話語(yǔ)層面的情緒進(jìn)行建模[8].Trigeorgis等人將卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶相結(jié)合,學(xué)習(xí)到對(duì)原始數(shù)據(jù)更好的表示[9].Mirsamadi等人使用基于注意力機(jī)制的CNN提取幀級(jí)特征實(shí)現(xiàn)語(yǔ)音情感識(shí)別[10].雖然已有的工作對(duì)語(yǔ)音情感取得了較好的識(shí)別效果,但其建立的模型往往側(cè)重于孤立地對(duì)語(yǔ)音段里的語(yǔ)音信息進(jìn)行建模而忽略了考慮上下文對(duì)最終語(yǔ)音情感識(shí)別的影響.
因此在本文的研究中,著重考慮上下文中隱含的語(yǔ)境信息,通過(guò)注意力機(jī)制將上下文信息嵌入到聲音表現(xiàn)中,以進(jìn)一步提高語(yǔ)音對(duì)話中的情感識(shí)別.例如,Hazarika等人利用一個(gè)記憶網(wǎng)絡(luò)模擬對(duì)話雙方當(dāng)前話語(yǔ)和歷史話語(yǔ)的相關(guān)性實(shí)現(xiàn)情感語(yǔ)音識(shí)別[11].Ruo等人提出了一種基于框架級(jí)聲學(xué)特征的交互轉(zhuǎn)換模型[12].雖然這些工作都有對(duì)語(yǔ)境信息進(jìn)行建模,然而,這些研究使用的都是手工制作的特征或預(yù)處理特征作為輸入的深度學(xué)習(xí)方法.其實(shí)深度神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠自己提取這些特征,比如Marcel AJ等人采取了一種不同的方法,將原始音頻和視頻樣本提供給網(wǎng)絡(luò)[13].然而,他們主要是為計(jì)算機(jī)視覺(jué)設(shè)計(jì)網(wǎng)絡(luò),沒(méi)有進(jìn)行任何調(diào)整或考慮不同模態(tài)的融合方式.
相比之下,本文提出的E2E-CER利用了一種新的基于端到端的深度學(xué)習(xí)方法,將原始數(shù)據(jù)作為輸入,將最終的分類結(jié)果作為輸出,能夠自動(dòng)地學(xué)習(xí)特征的最佳表示,不受任何由預(yù)處理引起的約束.另外,E2E-CER的不同之處在于融合不同模態(tài)特征時(shí)引入了一個(gè)注意力機(jī)制,根據(jù)不同模態(tài)對(duì)最終情感分類的貢獻(xiàn)值不同,為不同模態(tài)分別輸出一個(gè)注意力評(píng)分.而且本文模型可擴(kuò)展到多人會(huì)話中.
本文提出的E2E-CER可以作為對(duì)話語(yǔ)音情感識(shí)別的通用框架.網(wǎng)絡(luò)完整的體系結(jié)構(gòu)可以分為以下幾個(gè)模塊:多模態(tài)特征提取,多模態(tài)融合,情緒語(yǔ)境建模,多跳記憶網(wǎng)絡(luò).如圖3所示.
由于本文研究的是二元對(duì)話,所以將對(duì)話雙方分別表示為Pa和Pb,U可以表示為對(duì)話雙方在一組對(duì)話中的有序集合,U={u1,u2,…,uT},T表示一段對(duì)話中有幾句話.ui(i∈1,2,…,T)代表Pa或者Pb的發(fā)言,所以可將U中Pa的發(fā)言由集合Ua表示,Ua={ui|ui∈U},其中ui是由Pa說(shuō)的話,Pb的發(fā)言由集合Ub表示,Ub={ui|ui∈U},其中ui是由Pb說(shuō)的話,且有U=Ua∪Ub.
本文的研究目的在于推測(cè)出當(dāng)前對(duì)話中的語(yǔ)句情感.假設(shè)在一個(gè)時(shí)間步長(zhǎng)t∈[1,T],本文的模型需要推斷的就是t時(shí)刻話語(yǔ)的情感,也就是話語(yǔ)ut的情感.Pa和Pb的歷史對(duì)話分別由Ha和Hb表示,將選取的歷史對(duì)話上下文窗口設(shè)為K,則Ha={ui|i∈[t-K,t-1],ui∈Ua},同理Hb={ui|i∈[t-K,t-1],ui∈Ub},并且由|Ha|+|Hb|≤K,表1可以更清晰的看出當(dāng)上下文窗口K=4時(shí)對(duì)話雙方的歷史對(duì)話表示.

表1 當(dāng)上下文窗口K=4時(shí),歷史會(huì)話集合Table 1 Historical session collection when context window K=4
對(duì)于輸入文本,先進(jìn)行清洗和預(yù)處理,利用Tokenizer方法對(duì)文本分詞,生成單詞索引對(duì),利用預(yù)先在谷歌新聞數(shù)據(jù)訓(xùn)練好的300維詞嵌入[14].這使我們能夠考慮到更多的上下文信息,然后進(jìn)行匹配得到嵌入矩陣輸入到CNN中.CNN的結(jié)構(gòu)受到Kim的啟發(fā)[15].卷積層包括大小為3、4和5的過(guò)濾器,每個(gè)過(guò)濾器有50個(gè)特征圖,再執(zhí)行最大池化,滑動(dòng)窗口大小為2×2.最后,利用由50個(gè)神經(jīng)元組成的全連接層,激活函數(shù)為RELU,將激活值作為輸出文本對(duì)話的特征,生成50維特征向量.
而音頻通道關(guān)注的更多是語(yǔ)音中的聲學(xué)和韻律信息,即非語(yǔ)言信息.端到端的方法直接采用語(yǔ)音原始波形作為輸入,用一維向量表示,而不是常用的光譜圖或手工調(diào)整的特征,因?yàn)镃NN可以直接從音頻中自動(dòng)提取相關(guān)特征[16].本文為了計(jì)算速度,將音頻波形降采樣到8kHz并標(biāo)準(zhǔn)化均值為0和方差為1.選取32000個(gè)采樣點(diǎn),則輸入向量長(zhǎng)度為32000,設(shè)置第一個(gè)卷積層感受野為80,卷積步長(zhǎng)為4,過(guò)濾器為256,然后通過(guò)一個(gè)池化層,池化窗口大小為4.第二個(gè)卷積層設(shè)感受野為3,過(guò)濾器為100,卷積步長(zhǎng)為1,再通過(guò)第二個(gè)池化層,池化窗口為4,輸出向量維度為(500,256),最后使用全局平均池化層平均256個(gè)特征映射,最終得到一個(gè)256維向量.
同一個(gè)對(duì)象有不同的表現(xiàn)形式是很自然的事情.但是由于不同模態(tài)的數(shù)據(jù)大小和表示方式不統(tǒng)一,很難直接集成.所以如何通過(guò)融合方法揭示模態(tài)之間的語(yǔ)義信息是很關(guān)鍵的問(wèn)題.注意力機(jī)制能夠?qū)⒆⒁饬性谂c分類結(jié)果最相關(guān)的部分,從而提高深度神經(jīng)網(wǎng)絡(luò)的性能[17].但并不是所有的模態(tài)在情緒分類中都是同等重要的.以往的關(guān)于語(yǔ)音會(huì)話情緒的研究,對(duì)模態(tài)之間的融合只是簡(jiǎn)單的拼接,忽略了不同模態(tài)對(duì)情緒分類結(jié)果影響的大小.所以為了優(yōu)先考慮重要的模態(tài),本文引入了一個(gè)注意力網(wǎng)絡(luò),將音頻和文本作為輸入,并為每個(gè)模態(tài)輸出一個(gè)注意力評(píng)分.
在將文本和語(yǔ)音兩種模態(tài)輸入到注意力網(wǎng)絡(luò)之前,通過(guò)一個(gè)全連接層將維數(shù)均衡到d=300,V=[Va,Vt].其中Va表示語(yǔ)音特征,Vt表示文本特征,V∈Rd×2.如圖2所示.

圖2 文本與語(yǔ)音特征處理過(guò)程Fig.2 Text and speech feature processing
注意力權(quán)重向量和融合后的多模態(tài)特征向量F計(jì)算方法如下:
PF=tanh(WF.V)
(1)
(2)
(3)
為了對(duì)當(dāng)前話語(yǔ)ui進(jìn)行分類,需要先獲取到對(duì)話雙方的歷史對(duì)話記錄Ha和Hb,對(duì)話雙方分別表示為Pa和Pb,同樣用多模態(tài)特征向量表示Rd,在對(duì)話部分建模的時(shí)候,分成三個(gè)部分,首先是將對(duì)話雙方的歷史對(duì)話利用GRU建模到記憶單元中,也就提供了會(huì)話的上下文信息,也稱作語(yǔ)境建模.下一步為了考慮情感在對(duì)話過(guò)程中的傳遞性以及對(duì)話者之間情感的依賴性,引入了一個(gè)全局GRU,用來(lái)對(duì)全局的情緒狀態(tài)進(jìn)行建模.然后利用注意力機(jī)制將需要預(yù)測(cè)的當(dāng)前話語(yǔ)與記憶單元匹配,生成一個(gè)注意力向量P∈RK.最后利用一個(gè)多跳機(jī)制,不斷迭代計(jì)算,根據(jù)注意力機(jī)制過(guò)濾出與話語(yǔ)ui相關(guān)的內(nèi)容,每一跳的輸出都會(huì)成為下一跳的輸入.E2E-CER模型如圖3所示.

圖3 E2E-CER模型Fig.3 E2E-CER model
3.4.1 對(duì)話人GRU
本模塊主要處理會(huì)話雙方的歷史對(duì)話Ha和Hb,利用GRU針對(duì)歷史對(duì)話建模,嘗試從中模擬出說(shuō)話者的情感慣性.對(duì)于每句歷史對(duì)話ui GRU是Cho等人(2014)引入的門控循環(huán)單元,在時(shí)間步j(luò),GRU通過(guò)計(jì)算個(gè)門單元重置門rj和更新門zj以及之前的狀態(tài)sj-1可得到隱層狀態(tài)sj.計(jì)算公式如下所示: zj=σ(Vzxj+Wzsj-1+bz) (4) rj=σ(Vrxj+Wrsj-1+br) (5) vj=tanh(Vrxj+Wh(sj-1?rj)+bh) (6) sj=(1-zj)?vj+zj?sj-1 (7) 上式中,輸入xj=ui,sj=hj. 3.4.2 全局GRU 為了考慮情感在對(duì)話過(guò)程中的傳遞性和對(duì)話者之間情感的依賴性,引入了一個(gè)全局GRU對(duì)全局的情感狀態(tài)進(jìn)行建模,接受對(duì)話歷史紀(jì)錄GRU建模的輸出作為輸入,并在每個(gè)時(shí)間步上遞歸更新,將每個(gè)時(shí)間步的輸出存儲(chǔ)到一個(gè)記憶單元中.全局GRU的狀態(tài)gk同樣由當(dāng)前輸入和之前的狀態(tài)計(jì)算得到,對(duì)于任意k∈[1,K],當(dāng)前的輸入會(huì)話為u(t-K+k-1),之前的狀態(tài)為gk-1,則全局狀態(tài)gk可由下式計(jì)算得: (8) 由全局GRU建模生成的記憶序列可表示為M=[g1,g2,…,gk]∈Rd×K.利用注意力機(jī)制從記憶庫(kù)中讀取記憶,將每個(gè)記憶單元mk∈M和當(dāng)前測(cè)試語(yǔ)句進(jìn)行匹配,生成一個(gè)注意力向量Vatt∈RK,標(biāo)準(zhǔn)化后的評(píng)分代表著記憶單元和測(cè)試語(yǔ)句的相關(guān)性.計(jì)算過(guò)程如下: Vatt=softmax((M)Tut) (9) 上式中softmax(xi)=exi/∑jexj.式(9)得到的注意力評(píng)分可以計(jì)算出記憶單元的加權(quán)表示. (10) 最后通過(guò)將測(cè)試話語(yǔ)和記憶單元的加權(quán)表示合并進(jìn)行更新: (11) 在本文中,還應(yīng)用到了一個(gè)多跳機(jī)制,將記憶單元M作為輸入重新生成序列M′,公式表示為M′=GRU(M),其中GRU的各項(xiàng)參數(shù)是互相共享的.則經(jīng)過(guò)R跳后,測(cè)試會(huì)話表示為: (12) (13) 式(13)中,Wo為轉(zhuǎn)換矩陣,bo為偏置.為了更好的分類,一般將O的維數(shù)設(shè)定等于類C的數(shù)目,O∈C.利用分類交叉熵作為損失函數(shù). (14) 在林業(yè)發(fā)展的過(guò)程中,林業(yè)技術(shù)推廣體系是不完善的,這嚴(yán)重阻礙了林業(yè)的發(fā)展。如果沒(méi)有制度上的支持,林業(yè)工作將不能有序的開展,嚴(yán)重阻礙了林業(yè)技術(shù)的推廣。此外,有一部分的領(lǐng)導(dǎo)人并重視林業(yè)技術(shù)的推廣,而且還有一部分林業(yè)戶并沒(méi)有認(rèn)識(shí)到林業(yè)技術(shù)推廣的重要性,這將不利于林業(yè)工作的發(fā)展。 記憶網(wǎng)絡(luò)可以用如下算法1概括: 算法1.多跳記憶網(wǎng)絡(luò)算法 輸入:預(yù)測(cè)話語(yǔ),歷史記憶,上下文窗口,跳數(shù) 輸出:最后話語(yǔ)的情感分類結(jié)果 1. (ui,Ha,Hb,K,R)/*預(yù)測(cè)ui的情感*/ 3.forrin[1,R]do/*多跳機(jī)制*/ 4.M(r)←M(r-1) 本文實(shí)驗(yàn)所選用的數(shù)據(jù)集為IEMOCAP,這是一個(gè)由多段二元對(duì)話組成的多模態(tài)數(shù)據(jù)集,包括10個(gè)對(duì)話人(5男5女),分成了五組,每組在多個(gè)不同的對(duì)話場(chǎng)景進(jìn)行對(duì)話并為每段語(yǔ)句都被打上情感標(biāo)簽.本文為了能和之前的語(yǔ)音會(huì)話識(shí)別框架做比較,取憤怒、快樂(lè)、悲傷、中立、興奮、沮喪六類做實(shí)驗(yàn).使用1-4組的對(duì)話作為訓(xùn)練集,第5組的對(duì)話作為測(cè)試集.表2為具體數(shù)據(jù)集劃分. 表2 實(shí)驗(yàn)數(shù)據(jù)集分割Table 2 Experimental data set segmentation 本文采用20%的訓(xùn)練集作為超參調(diào)優(yōu)的驗(yàn)證集.使用Adam優(yōu)化器優(yōu)化參數(shù)[18].初始學(xué)習(xí)率設(shè)為0.001. 使用準(zhǔn)確率P(Precision)、召回率R(Recall)、F1值(F1-Score)以及微平均對(duì)模型做出評(píng)估,微平均的計(jì)算公式如下所示[19]: (15) (16) (17) 式(17)i表示分類情緒,gold(emotion=i)表示樣本標(biāo)注情緒為i的數(shù)目,sys_correct(emotion=i)表示模型預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果一致的數(shù)目,sys_proposed(emotion=i)表示模型預(yù)測(cè)情緒為i的數(shù)目. 本文一共進(jìn)行了4組實(shí)驗(yàn),第1組實(shí)驗(yàn)將本文提出的端到端模型與非端到端模型進(jìn)行對(duì)比.第2組實(shí)驗(yàn)將本文提出的模型與基線模型做比較.第3組實(shí)驗(yàn)驗(yàn)證了多模態(tài)特征的重要性.第4組實(shí)驗(yàn)反應(yīng)了兩個(gè)重要的超參數(shù)K(上下文窗口大小),R(跳數(shù))取值不同對(duì)實(shí)驗(yàn)結(jié)果的影響. 實(shí)驗(yàn)1.E2E-CER模型與非端到端模型的比較 為了驗(yàn)證端到端方法的有效性,同NAACL2018任務(wù)Emotion Recognition in Conversation結(jié)果做對(duì)比,該任務(wù)模型輸入為TextCNN提取的文本特征向量和OpenSmile提取的音頻特征向量.從表3的結(jié)果數(shù)據(jù)可以看出,本文提出的E2E-CER模型性能較好,相比表4非端到端模型的實(shí)驗(yàn)結(jié)果,其MicF1提高了3.8%. 表3 E2E-CER模型實(shí)驗(yàn)結(jié)果Table 3 E2E-CER model experiment results 表4 對(duì)比模型實(shí)驗(yàn)結(jié)果Table 4 Compare the results of model experiments 圖4可以更清晰的看出對(duì)比模型對(duì)各個(gè)類F1值的比較結(jié)果.但是也可以發(fā)現(xiàn),在對(duì)情緒分類時(shí),唯獨(dú)對(duì)happy這個(gè)類的分類效果表現(xiàn)不夠理想.從數(shù)據(jù)集來(lái)說(shuō),數(shù)據(jù)分布不平衡可能是導(dǎo)致這種現(xiàn)象的主要原因. 圖4 F1值對(duì)比圖Fig.4 F1 comparative diagram 實(shí)驗(yàn)2.與基線模型比較 本文將所提出的模型與當(dāng)前對(duì)話情緒識(shí)別領(lǐng)域的基線模型進(jìn)行了比較,橫軸為情緒分類,縱軸表示F1值.由圖5可知,本文提出的E2E-CER模型在各類情緒的F1值均明顯高于平均水平,與NAACL2018對(duì)話情感識(shí)別任務(wù)中第1名DialogueRNN的分?jǐn)?shù)接近,比第2名ICON分?jǐn)?shù)略高,比第3名CMN的F1值提高了7.3%,驗(yàn)證了本文方法的有效性.其中添加了注意力模塊的bc-LSTM模型表現(xiàn)相比bc-LSTM也有所提升,再一次說(shuō)明了注意力機(jī)制在對(duì)話情感識(shí)別中的重要性,可以很好的模擬出上下文語(yǔ)境信息. 圖5 對(duì)比基線模型實(shí)驗(yàn)結(jié)果Fig.5 Compare baseline model results 實(shí)驗(yàn)3.不同模態(tài)特征對(duì)模型性能的影響 從表5可以看出文本加音頻特征的各項(xiàng)性能都比單模態(tài)特征表現(xiàn)要好.而對(duì)于單模態(tài)特征,可以看出文本特征的表現(xiàn)比音頻特征要好,可能是因?yàn)橄鄬?duì)于視聽資源,文本的噪聲信號(hào)更少,因此在多模態(tài)方法中提供了更好的特征.也說(shuō)明了文本特征在多模態(tài)方法中的重要性.在融合方法方面,拼接是最常用的融合方法之一,但可以從表5中看出,加入了注意力機(jī)制的融合相比拼接融合提高了1.7%,說(shuō)明采用注意力機(jī)制進(jìn)行融合可以進(jìn)一步提高模型的性能. 表5 不同模態(tài)及融合機(jī)制對(duì)MicF1值影響Table 5 Influence of different modes and fusion mechanism on the experimental MicF1 value 實(shí)驗(yàn)4.超參數(shù)值對(duì)模型性能的影響 從圖6可以看出本文提出的模型在超參數(shù)K(上下文窗口)和R(跳數(shù))的不同值下的性能趨勢(shì).圖6(a)中,可以看出當(dāng)R取值較小時(shí)準(zhǔn)確率明顯提高,體現(xiàn)了多跳機(jī)制在整個(gè)模型中的重要性.然而隨著R值的進(jìn)一步增加,每增加一跳都會(huì)產(chǎn)生一組新的參數(shù),從而導(dǎo)致模型總參數(shù)的增加,使模型更容易發(fā)生過(guò)擬合,本文選取跳數(shù)為3時(shí)模型表現(xiàn)最好.上下文窗口大小的取值也很重要.隨著K值不斷增加,有更多的歷史話語(yǔ)參與模型建模作為歷史記憶,圖6(b)中可以觀察到當(dāng)K值取40時(shí),模型效果最好,但如果歷史話語(yǔ)過(guò)多同樣會(huì)導(dǎo)致模型性能飽和,從而導(dǎo)致模型的性能下降. 圖6 R(跳數(shù))和K(上下文窗口大小)值變化時(shí)模型的性能趨勢(shì)Fig.6 Trends of the model as R(number of hops)and K(context window size)values change 本文提出的端到端對(duì)話情感分類模型E2E-CER,利用端到端的方法對(duì)原始文本和原始波形進(jìn)行處理,并在多模態(tài)融合過(guò)程中運(yùn)用到注意力機(jī)制,考慮到了不同模態(tài)特征對(duì)分類結(jié)果的影響大小,對(duì)于對(duì)話雙方的情感依賴性.利用一個(gè)記憶網(wǎng)絡(luò)對(duì)其進(jìn)行模擬,并通過(guò)多組對(duì)比實(shí)驗(yàn),證明了本文方法的有效性. 對(duì)多模態(tài)對(duì)話情感分類的研究仍然可待拓展,例如針對(duì)主題的特定說(shuō)話人的情感檢測(cè),多元對(duì)話,對(duì)話的諷刺性檢測(cè)等都可以成為新的研究方向.
4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)參數(shù)
4.2 實(shí)驗(yàn)結(jié)果與分析






5 總結(jié)與展望