



























摘 要:情感對話系統的成功取決于語言理解、情感感知和表達能力,同時面部表情和個性等也能提供幫助。然而,盡管這些信息對于多輪情感對話至關重要,但是現有系統既未能夠充分利用多模態信息的優勢,又忽略了上下文相關性的重要性。為了解決這個問題,提出了一種基于雙層解碼的多輪情感對話生成模型(MEDG-DD)。該模型利用異構的圖神經網絡編碼器將歷史對話、面部表情、情感流和說話者信息進行融合,以獲得更加全面的對話上下文。然后,使用基于注意力機制的雙層解碼器,以生成與對話上下文相關的富含情感的言辭。實驗結果表明,該模型能夠有效地整合多模態信息,實現更為準確、自然且連貫的情感話語。與傳統的ReCoSa模型相比,該模型在各項評估指標上均有顯著的提升。
關鍵詞:圖神經網絡編碼器; 注意力機制; 雙層解碼; 對話生成
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2024)06-025-1778-06
doi:10.19734/j.issn.1001-3695.2023.10.0519
Multi-turn emotion dialogue generation model based on dual-decoder
Abstract:The success of emotional dialogue systems relies on the ability to comprehend, perceive, and express emotions, while facial expressions and personality can also help. However, despite the crucial importance of this multi-modal information in multi-turn emotional dialogues, existing systems still need to be improved to leverage multi-modal information’s advantages and overlook the significance of contextual relevance. To address this issue, this paper proposed a multi-turn emotional dialogue generation model based on a dua-decoding method(MEDG-DD). The model utilized a heterogeneous graph neural network encoder to integrate historical dialogue, facial expressions, emotion flow, and speaker information, obtaining a more comprehensive dialogue context. Subsequently, it employed a dual-decoding mechanism based on attention to generate emotionally rich expressions relevant to the dialogue context. Experimental results demonstrate that the proposed model effectively integrates multi-modal information, achieving more accurate, natural, and coherent emotional expressions. Compared to the traditional ReCoSa model, this model exhibits significant improvements across various evaluation metrics.
Key words:graph neural network encoder; attention mechanism; dual-decoder; dialogue generation
0 引言
響應生成(response generation,RG)指的是在對話系統中為給定的輸入生成合適的響應,被廣泛應用于智能助手、車載系統、智能家居等多種場景,顯著提升了用戶體驗的品質。然而,用戶更愿意將對話模型看作情感伴侶,而不只是執行任務的文件[1]。因此,為了滿足用戶的情感需求,生成相應情感反應成為個性化對話系統的關鍵。人機對話可以分為單回合和多回合兩種形式[2]。單回合對話生成是在每一輪對話中,系統生成一次性的回復,不依賴之前的對話歷史或上下文信息。這種對話模型主要關注當前輸入,而不涉及跨多輪對話的上下文保持。相比之下,多回合對話生成的目標是在連續的對話中保持上下文一致性,提供有意義、連貫且富有邏輯性的回復,以實現更自然、有效的人機交互體驗。研究者在多回合對話系統的響應生成方面取得了令人滿意的研究效果。例如,文獻[3]首先利用注意力機制對每個時刻隱藏層的狀態進行加權求和,以獲得加權向量,然后將其作為Intention RNN模型的輸入。這種加權向量能夠更好地表示每個時刻的重要信息,從而提高了意圖識別的準確性。文獻[4]進一步采用層次模型來執行上下文編碼和解碼,以生成響應。
然而,上述研究并未充分考慮多回合對話中的情感信息。許多人認為多回合對話可以滿足用戶的情感需求,促進擬人化響應的生成。然而,在解決對話系統中的情感因素方面仍然存在挑戰。首先,情感分類是一項主觀的任務,因此在對話數據集中獲得高質量的情感標注是很困難的[5]。與一些常見的自然語言處理任務不同,情感分類受到許多因素的影響,例如語言、面部表情和說話者性格等。這些因素的差異會導致同一句話在不同情境下被賦予不同的情感標簽,因此很難獲得一致性的情感標注。其次,人們如何在句子中平衡語法和情感表達方面仍然沒有得到很好地研究,因為獲得語義一致的反應是具有挑戰的[6]。在對話系統中,生成的反應不僅需要表達正確的情感,還需要符合語法和語義規則。這種平衡需要對句子的結構和意義進行全面分析,是一個非常具有挑戰的任務。
為了應對這些挑戰,文獻[7]提出了一種情緒聊天機(emotion chat machine,ECM),旨在以自然而連貫的方式考慮情感,并且根據不同的情緒標簽自動生成話語。文獻[8]提出了情感捕捉聊天機器(emotion-capturing chat machine,ECCM),該模型能夠捕捉上下文中顯式和潛在的情緒信號。文獻[9]提出了基于異構圖的情感會話生成模型(heterogeneous graph neural network,HGNN),將多模態信息融入到情感對話系統。
總的來說,在情感感知情境下的多回合對話中,有些研究忽略了面部表情和說話者性格對情感對話領域的影響,而其他一些則缺乏對句子上下文相關性的充分響應。因此,為了解決上述問題,本文提出了一種基于雙層解碼的多輪情感對話生成模型MEDG-DD,它能夠充分地感知來自多模態信息的情感,從而增強了生成的句子之間的相關性。具體來說,首先,該模型通過異構的圖編碼器將歷史對話、面部表情、對話的情感流和說話者進行融合,旨在充分地感知對話過程中說話者的情感,并獲得恰當的情感反饋。其次,該模型使用基于注意力機制的雙層解碼器,使得生成的響應更具相關性且情感豐富。為了驗證本文模型的有效性,在MELD數據集上進行了實驗,并通過自動評估和人工評估將本文模型與其他多個模型進行了比較。結果表明,本文模型在充分感知情感并作出恰當反饋的同時,所生成的響應具有連貫性且富有情感。此外,本文模型在評價指標方面表現出了出色的性能,優于其他實驗模型。
本文的主要貢獻如下:a)提出異構的圖編碼器,將歷史對話、面部表情、對話的情感流和說話者進行融合,以在對話過程中更充分地感知說話者的情感;b)采用基于注意力機制的雙層解碼器,使生成的響應更加相關和情感豐富;c)通過在兩個數據集上的實驗表明,本文模型在情感對話生成方面展現了先進的性能,這也驗證了其良好的泛化能力,能夠輕松適應不同數據集的信息源。
1 相關工作
盡管已有許多關于單回合對話生成的研究工作,但越來越多的關注開始集中在多回合對話生成領域。其中一個原因是它更符合真實的應用場景,例如聊天機器人和客戶服務。更重要的是,生成過程更復雜,因為有更多的上下文信息和約束需要考慮,這對該領域的研究人員提出了巨大的挑戰。
文獻[10]提出了分層遞歸編碼器-解碼器(hierarchical recurrent encoder-decoder,HRED)框架,用于對所有上下文句子進行建模。自提出以來,HRED已在各種多回合對話生成任務中得到了廣泛應用,并提出了許多不變量。例如,Serban等人[11]提出了一種名為變量分層遞歸編碼器-解碼器(variable hierarchical recurrent encoder-decoder,VHRED)的改進模型,以及一種名為多分辨率遞歸神經網絡(multiresolution recurrent neural network,MrRNN)[12]的模型。這些模型通過引入潛在變量,改進了中間狀態的生成方式,從而增加了生成響應的多樣性。這些模型為對話生成任務的發展和改進提供了重要的思路和方法。隨著Transformer[13]在建模長距離依賴關系方面表現出強大的能力,越來越多的研究者開始將其應用于多回合對話模型中。其中,文獻[14]提出了一種名為ReCoSa的模型,該模型采用Transformer作為上下文級編碼器,可以有效地處理對話中的長依賴關系。之后,文獻[15]提出了名為分層自注意力的網絡HSAN(hierarchical self-attention network),在多回合對話建模中進一步應用Transformer替代了字級別的編碼器,構建了多級自注意力機制。
針對以往的研究中只有有限的工作關注提高對話的情感質量這一問題,文獻[16]提出了一種情感對話生成模型,將情感信息納入對話生成模型,根據情感類別生成相應的回復句。文獻[17]認為同情心反應通常在不同程度上模仿用戶的情感,這取決于它的積極或消極以及內容。因此,研究者提出的MIME模型考慮了基于極性的情感集群和情感模仿,可改善同理和反應的上下文相關性。為了解決由于缺乏對內容一致性的考慮,導致響應生成任務的共性問題,文獻[18]提出了一種新雙向學習模式框架,將情感可控的反應生成擴展為雙重任務,以交替生成情感反應和情感查詢。文獻[19]提出了一個基于任務角色的共情對話的新任務,并提出了第一個關于人物角色對情感共鳴影響的實證研究。文獻[20]采用帶有注意力機制的編解碼器框架,通過融合模塊將情感因素和主題信息整合到對話系統中,以增加回復內容的多樣性。雖然有一系列相關的工作對人機交互中的多輪情感對話生成系統作出貢獻,但還是存在許多常見的限制。例如,在上述文獻中,研究者們只從文本中感知情感,而忽略了其他來源的信息(例如面部表情和說話者),并且生成的響應缺乏上下文相關性。
與先前關注單一模態的多輪對話生成研究不同,本文強調面部表情和說話者對情感感知在多輪對話生成中的至關重要作用,并認為它們與生成的對話密切相關。因此,本文提出了一個基于雙層解碼的多輪情感對話生成模型,該模型不僅考慮了面部表情和說話者的影響,還通過引入雙層解碼器來考慮其與對話上下文的相關性。
2 模型與方法
本章將詳細描述基于雙層解碼的多輪情感對話生成模型。如圖1所示,該模型由節點初始化、基于異構的圖神經網絡編碼器、情感預測和基于注意力機制的雙層解碼器構成。具體來說:a)節點初始化,初始化不同類型的節點;b)基于異構的圖神經網絡編碼器,構建圖結構以感知情緒,并對會話上下文進行表示;c)情感預測器,借助圖表示,情感預測合適的情感,以獲取反饋;d)基于注意力機制的雙層解碼器,將圖表示、情感預測結果以及當前說話者作為輸入,以產生適當的情緒反應。
2.1 節點初始化
在MEDG-DD中,每個節點都被表示為一個向量。初始階段,這些向量會獨立地進行初始化,不考慮圖中的邊緣關系。以一個對話為例,假設該對話已經進行了n輪,本節將闡述如何初始化四種類型的節點。這四種類型的節點分別是話語節點、面部表情節點、情感流節點和說話者節點。
1)話語節點
給定上下文集U={u1,u2,…,uN},U中的每個句子定義為ui={x1,x2,…,xM}。對于上下文中的每個話語ui,單詞級別的編碼器采用長短期記憶(long short-term memory,LSTM)網絡,首先將每個輸入上下文編碼為一個固定的維度向量vM,具體計算公式如下:
it=σ(Wi[vt-1,wt]),ft=σ(Wf[vt-1,wt])
ok=σ(Wo[vt-1,wt]),lt=tanh(Wl[vt-1,wt])
ct=ftct-1+itlt,vi=ottanh(ct)(1)
其中:it、ft和ot分別代表輸入、內存和輸出門;wt是xt的單詞嵌入;vt為LSTM在t時刻結合wt和vt-1計算出的向量;ct是t時刻的單元格;σ表示的是激活函數;Wi、Wf、Wo和Wl是超參數。用向量vM作為句子的表示,因此話語節點得到句子表示為
其中:將Xu作為話語節點的初始化表示。
2)面部表情節點
其中:df是面部表情節點所表示的維數。將Xf作為面部表情節點的初始化表示。
3)情感流節點與說話者節點
2.2 基于異構的圖神經網絡的編碼器
異構的圖編碼器旨在捕獲不同類型節點之間的關系,并輸出異構圖中所有節點的表示。這些節點的表示被饋送給解碼器以生成響應。
2.2.1 圖的構建
如圖2所示,本文構造異構的圖G=(V,S),其中V表示節點的集合,S表示相鄰兩節點之間的邊。具體來說,本文考慮了四種類型的異質節點,分別為:a)對話歷史U;b)面部表情F;c)情感類別E;d)說話者S。然后,在這些節點之間建立了邊S,因為兩個節點之間存在著緊密聯系:a)同一說話者相鄰或說的兩個話語之間;b)在話語和相應的面部表情之間;c)話語和相應的情感之間;d)話語和相應的說話者之間;e)相鄰說話者的兩個面部表情之間;f)面部表情和相應的說話者之間;g)同一句話對應的面部表情和情緒之間。
2.2.2 異構的圖編碼
然后,在進行HGNN的處理過程中,該網絡考慮各種不同類型的節點,并且通過使用可訓練矩陣將這些節點映射到一個共同的隱式空間。這個共同的隱式空間是HGNN的核心,因為它能夠將節點間的關系和相互作用轉換為數學上可處理的形式,從而使得網絡能夠更好地進行學習和預測。
其中:σ是激活函數;Wlτ是變換矩陣;blτ為偏置;Hl為相鄰節點的特征,初始H0=[Xu;Xf;Xe;Xs]。
2.2.3 聚合異構鄰居節點
通過堆疊這樣的Lg層,即多次對相鄰節點進行特征聚合和變換,HGNN可以聚合來自各個節點的特征,并且HGNN包含所有節點的表示。因此,可以得到最終的輸出Henc為
2.3 情感預測器
在充分感知來自多個不同來源的情緒后,異構的圖編碼器將表示存儲在最后一層。情感預測通常需要考慮文本中的上下文信息,以更準確地預測情感,因此將雙向循環神經網絡(bidirectional recurrent neural network,BiRNN)集成到該模型,使其更好地捕捉文本中的上下文信息。為了將不同的表示向量轉換為固定大小的向量,該模型采用了maxpooling的方式將表示Henc轉換為固定大小的向量:
然后采用一個全連接層來預測合適的情感:
P=softmax(WpHmax)(8)
2.4 基于注意力機制的雙層解碼器
為了增強生成句子之間的相關性且富有情感,本文引入了雙層的注意力解碼器,逐詞生成響應。對于第一層解碼器,在異構的圖編碼器后融合一個解碼注意力模塊(AoA_attention),圖4是解碼注意力模塊的結構。
如圖4所示,在多頭注意模塊上引入了另一個注意函數來度量注意結果V′和Q之間的關系。通過兩次單獨的線性變換生成信息向量(I)和注意門(G),可以表示為
為了得到第t個單詞yt,首先將前面的單詞y1:t-1作為輸入,得到帶有多頭注意的表示Hr:
Hr=MultiHead(R,R,R)(12)
其中:R為目標響應r已生成單詞的嵌入序列。然后,采用另一個多頭注意,再加上一個FFN層,以響應表示Hr為查詢,以Hatt作為鍵和值輸出表示O:
將預測的情感和說話者融入到生成過程中:
其中:Ep是由情感分布P與情感參數矩陣EMB1的加權和產生的混合情感表示;Sp是從說話者參數矩陣EMB2中檢索到的當前說話者sN+1的特征。
最后,利用softmax層以情感-個性感知表示Oes作為輸入,獲取單詞概率。因此,單詞yt的概率計算如下:
P(yt|y1:t-1;G;Ep;Sp;θ)=softmax(WoOest)(16)
2.5 損失函數
該模型可以端到端訓練,整個訓練目標由響應生成損失LMLL和情感分類損失LCLS組成,如下所示。
其中:λ是平衡生成損失和分類損失的折現系數;eN+1是最佳標簽。
3 實驗結果與分析
3.1 實驗環境介紹
本文算法通過使用Python包裝在TensorFlow 2.5.0框架中實現。TensorFlow是由Google開發的一款開源軟件庫,廣泛用于多種機器學習任務,包括圖像分類、自然語言處理、語音識別等領域。它具有靈活性高、可移植性強、可擴展性好等特點。在使用TensorFlow框架的過程中,可以充分利用其強大的工具集,加速模型的訓練過程,提升模型的精度和魯棒性。本文的實驗過程中,軟硬件配置設計如下:a)處理器為Intel Core i7-10700 CPU;b)操作系統為64位的Ubuntu 20.04.1;c)顯卡為NVIDIA GeForce RTX 3090 GPU。
3.2 對比模型
對MEDG-DD進行多模態情感對話生成實驗,并與當前對話生成任務和情感對話生成任務主流的模型進行了比較,包括ReCoSa、HGNN、seq2seq、E-HRED等。
a)ReCoSa[14]。該模型采用了詞級別LSTM編碼對對話上下文進行編碼,然后采用自注意力機制進一步捕獲對話上下文表示,最后通過交叉注意力機制計算上下文和響應之間的關系。為了使比較更具說服力,本文擴展了該模型,通過將面部表情、情感類別和說話人的個性特征連接到對話歷史表示來利用了多源信息,并使用了相同的損失函數進行訓練。
b)HGNN[9]。該模型涵蓋了異構的圖編碼器,通過異構的圖卷積網絡表達對話內容,以及情感-個性感知解碼器,用于生成與對話上下文相關且帶有情感的回應。
c)E-HRED[21]。它是一個分層的編碼器-解碼器網絡,通過添加額外的編碼器來表示對話的情感標簽作為解碼器的情感上下文,由于其上下文建模能力而表現良好。
d)BART[22]。它是基于當前最新文本生成器,該生成器在大規模文本數據上進行了預訓練模型。
3.3 數據集
a)MELD數據集[23]。其源自電視劇《老友記》,包含了情感豐富的多輪對話數據,涵蓋了多個發言者參與的對話,并分為訓練集、驗證集和測試集,分別包含1 039、114和280個對話。其中每個樣本都包含對話視頻、對話文本和響應的情感標簽。數據集中共涵蓋了憤怒、厭惡、悲傷、喜悅、中性、驚訝和恐懼七種情感標簽。
b)DailyDialog數據集[24]。為了驗證本文模型在數據集上的泛化性,在DailyDialog上進行了實驗。該數據集包含13 118個多回合對話,反映了日常交流方式。每個對話的參與者平均進行了約8個回合,且只包含與MELD數據集相同情感類別的文本話語。為了使本文模型適應DailyDialog,在構建的圖中刪除了面部表情和說話者節點。
3.4 評價指標與參數設置
本實驗使用了多種評價指標來對模型的性能進行評估,其中包括三種評價情感性能的指標(accuracy、recall和weight F1-score)及兩種自動評價對話生成質量的指標(BLEU和distinct)。
a)accuracy。其指分類器正確分類的樣本數占總樣本數的比例,公式如下:
其中:TP表示真正例(true positive);FN表示假反例(false negative)。
b)recall。其指分類器正確分類為正例的樣本數所占真正例樣本數的比例,公式如下:
c)F1-score。其指precision和recall的調和平均數,用于綜合評價分類器的性能,公式如下:
d)BLEU。其使用一種改進的詞組匹配方法來衡量生成的回復與一個或多個參考答案之間的相似度。
e)distinct。本文實驗使用與文獻[25]相同的方法,將不同字母的數據除以總字母數和總單詞數。本實驗中分別用distinct-1和distinct-2表示這兩個度量指標。
f)人工評價。本實驗中采用了文獻[15]的人工評分標準作為參考。人工評價過程中邀請三名研究自然語言處理的同學作為人工注釋。
在MELD數據集上實驗的超參數設置如表1所示。
3.5 實驗結果與分析
1)自動評價結果
MELD數據集上的自測評價指標結果如表2所示。
表2的結果顯示,在MELD數據集上,通過異構的圖神經網絡編碼和雙層解碼,MEDG-DD在情感對話生成方面表現優于當前最新的基線模型。由表2可以得出以下結論:
a)在情感預測指標中,與ReCoSa相比,本文模型的accuracy提高了4.85%,F1-score提高了4.77%,recall提升了3.31%;與HGNN相比,本文模型的accuray提高了4.7%,F1-score提高了4.08%,recall提升了3.04%。從表2的結果可以看出,通過利用異構的圖神經網絡,本文模型能夠更充分地感知不同說話者之間的情感,從而獲得更恰當的情感反饋。
b)在生成對話指標中,與ReCoSa相比,本文模型在BELU上提升了1.5%,PPL降低了3.89;與HGNN相比,本文模型在BELU上提升了1.2%,PPL降低了0.6。與預訓練模型BART相比,本文模型在性能上稍微遜色一些,主要是因為BART在大規模無標注文本數據上進行了預訓練,學習到了豐富的語言表示和上下文信息。表2的結果進一步表明,將多模態知識融入到多輪情感對話中,可以更充分地感知不同說話者之間的情感,并且表明使用雙層解碼器可以生成更相關的響應。
為了進一步測試生成句子的多樣性,本實驗利用distinct-1和distinct-2在MELD數據集上評估生成的句子。實驗結果如圖5所示。與ReSoCa相比,本文模型在distinct-1和distinct-2上分別提升了2.06%和3.45%;與HGNN相比,本文模型在distinct-1上降低了0.21%,但是在distinct-2上提高了1.18%。實驗證實,本文模型不僅能夠準確地捕捉語義和上下文信息,還能夠生成多樣性豐富的句子。
為了驗證MEDG-DD的泛化性,在一個更大的數據集DailyDialog上進行了實驗,實驗結果如表3所示,顯示了本文模型的泛化性。在DailyDialog數據集上,通過異構的圖神經網絡編碼和雙層解碼,MEDG-DD在情感對話方面表現優于當前最新的基線模型。其中,本文模型在accuracy上可以達到81.4%,BELU達到了0.73,這意味著它在識別和回答情感對話中的相關信息時更加準確和全面。
2)人工評價結果
在表4中,更佳的百分比始終高于較差的百分比,這表明MEDG-DD能夠生成更加連貫和自然的響應。在MELD數據集上,與ReCoSa和HGNN相比,MEDG-DD的偏好增益(更佳相對較差)分別為33%和8.2%。
3)消融實驗
為了更好地說明多種模態對對話生成的影響,本文在多模態情感會話數據集MELD上進行了實驗。表5展示了MEDG-DD在MELD數據集上進行消融實驗的結果。在實驗過程中,本文每次刪除一個模態,考察模型在不同條件下的表現。完整模型包含對話歷史、情感流、面部表情(圖像)和說話者信息。表5的第2~4行呈現了刪除相應節點信息后的實驗結果。通過對第1和第2~4行的實驗結果進行比較,可以得出以下結論:在去除每個異構節點信息后,內容和情感的反饋質量都會不同程度地降低,這表明面部表情、情感流和說話者對于理解內容、情感感知和表達,尤其是情感流的重要性不可忽視。
4)案例分析
為了更加深入地了解生成的響應是否相關和連貫,以及情感是否得到恰當的表達,本文提供了MELD測試數據集的示例,如圖6所示。從結果來看,HSAN的性能明顯優于其他兩個模型,在圖6中,說話者們正在討論有關猴子進化成人的話題,所有基線模型都可以生成相關的響應。然而,相比于ReCoSa生成的響應“I am not to!(我不會!)”,MEDG-DD生成的響應在情感表達上更為恰當且更與話題相關;相比于HGNN生成的響應“I mean, it is so annoying. (我的意思是,這太煩人了。)”,MEDG-DD生成的響應則成功地捕捉了對話歷史中說話者們的情感和話題的連貫性。綜上所述,MEDG-DD可以像人類一樣生成恰當情感并具有連貫性的響應,同時更多關注上下文中的重要部分。
4 結束語
本文提出了一種基于雙層解碼的多輪情感對話生成模型,該模型主要由異構的圖神經網絡編碼器模塊和基于注意力機制的雙層解碼器模塊組成。異構的圖神經網絡編碼器模塊用于理解對話內容,并從對話歷史、面部表情、說話者個性和情感流中充分感知復雜和微妙的情感,然后預測合適的情感進行反饋。基于注意力機制的雙層解碼器模塊通過將當前說話者和預測情感融入作為輸入,可以生成一個響應,它不僅與對話上下文相關,而且具有恰當的情感表達。實驗結果表明,MEDG-DD不僅可以從多模態的知識中充分地感知說話者們的情感,而且可以生成更有吸引力和更令人滿意的響應。在未來的工作中,首先希望從更多的模態中感知說話者們的情感,例如肢體動作、突然地打斷插話等。此外,還計劃優化這一模型,并將其應用于中文數據集。
參考文獻:
[1]Li Mei, Zhang Jiajun, Lu Xiang, et al. Dual-view conditional variational auto-encoder for emotional dialogue generation[J]. Trans on Asian and Low-Resource Language Information Processing, 2021,21(3): 1-18.
[2]曹亞如, 張麗萍, 趙樂樂. 多輪任務型對話系統研究進展[J]. 計算機應用研究, 2022, 39(2): 331-341. (Cao Yaru, Zhang Liping, Zhao Lele. Research progress on multi-turn task-based dialogue systems[J]. Application Research of Computers, 2022,39(2): 331-341.)
[3]Serban I, Sordoni A, Bengio Y, et al. Building end-to-end dialogue systems using generative hierarchical neural network models[C]//Proc of the 30th AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2016:3776-3783.
[4]Poria S, Majumder N, Mihalcea R, et al. Emotion recognition in conversation: research challenges, datasets, and recent advances[J]. IEEE Access, 2019,7: 100943-100953.
[5]Li Yang, Wang Yuanzhi, Cui Zhen. Decoupled multimodal distilling for emotion recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2023: 6631-6640.
[6]譚曉聰, 郭軍軍, 線巖團, 等. 基于一致性圖卷積模型的多模態對話情緒識別[J]. 計算機應用研究, 2023, 40(10): 3100-3106. (Tan Xiaocong, Guo Junjun, Xian Yantuan, et al. Multimodal dialogue emotion recognition based on consistency graph convolution model[J]. Application Research of Computers, 2023,40(10): 3100-3106.)
[7]Wei Wei, Liu Jiayi, Mao Xianling, et al. Emotion-aware chat machine: automatic emotional response generation for human-like emotional interaction[C]//Proc of the 28th ACM International Confe-rence on Information and Knowledge Management. New York:ACM Press,2019: 1401-1410.
[8]Mao Yanying, Cai Fei, Guo Yupu, et al. Incorporating emotion for response generation in multi-turn dialogues[J]. Applied Intelligence, 2021,52: 1-12.
[9]Liang Yunlong, Meng Fandong, Zhang Ying, et al. Infusing multi-source knowledge with heterogeneous graph neural network for emotional conversation generation[C]//Proc of the 35th AAAI Confe-rence on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2021: 13343-13352.
[10]Sordoni A, Bengio Y. A hierarchical recurrent encoder-decoder for generative context-aware query suggestion[C]//Proc of the 24th ACM International Conference on Information and Knowledge Management. New York:ACM Press, 2015:553-562.
[11]Serban I, Sordoni A, Lowe R, et al. A hierarchical latent variable encoder-decoder model for generating dialogues[C]//Proc of the 31st AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2017:3295-3301.
[12]Serban I, Klinger T, Tesauro G, et al. Multiresolution recurrent neural networks: an application to dialogue response generation[C]//Proc of the 31st AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2017:3288-3294.
[13]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc., 2017:6000-6010.
[14]Zhang Hainan, Lan Yanyan, Pang Liang, et al. ReCoSa: detecting the relevant contexts with self-attention for multi-turn dialogue generation[EB/OL]. (2019). https://arxiv.org/abs/1907.05339.
[15]Kong Yawei, Zhang Lu, Ma Can, et al. HSAN: a hierarchical self-attention network for multi-turn dialogue generation[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2021: 7433-7437.
[16]Zhou Hao, Huang Minlie, Zhang Tianyang, et al. Emotional chatting machine: emotional conversation generation with internal and external memory[C]//Proc of the 32nd AAAI Conference on Artificial Intel-ligence. Palo Alto,CA:AAAI Press, 2018:730-738.
[17]Majumder N, Hong Pengfei, Peng Shanshan, et al. MIME: MIMicking emotions for empathetic response generation[EB/OL]. (2020). https://arxiv.org/abs/2010. 01454.
[18]Shen Lei, Feng Yang. CDL: curriculum dual learning for emotion-controllable response generation[EB/OL].(2020).https://arxiv.org/abs/2005.00329.
[19]Zhong Peixiang, Zhang Chen, Wang Hao, et al. Towards persona-based empathetic conversational models[EB/OL].(2020).https://arxiv.org/abs/2004. 12316.
[20]楊豐瑞, 霍娜, 張許紅, 等. 基于注意力機制的主題擴展情感對話生成[J]. 計算機應用, 2021, 41(4): 1078-1083. (Yang Fengrui, Huo Na, Zhang Xuhong, et al. Topic-extended emotional dialogue generation based on attention mechanism[J]. Journal of Computer Applications, 2021,41(4): 1078-1083.)
[21]Lubis N, Sakti S, Yoshino K, et al. Eliciting positive emotion through affect-sensitive dialogue response generation: a neural network approach[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2018:5293-5300.
[22]Lewis M, Liu Yinhan, Goyal N, et al. BART: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension[EB/OL].(2019).https://arxiv.org/abs/1910.13461.
[23]Poria S, Hazarika D, Majumder N, et al. MELD: a multimodal multi-party dataset for emotion recognition in conversations[EB/OL].(2018). https://arxiv.org/abs/1810.02508.
[24]Li Yanran, Su Hui, Shen Xiaoyu, et al. DailyDialog: a manually labelled multi-turn dialogue dataset[C]//Proc of the 8th International Joint Conference on Natural Language Processing.[S.l]: Asian Federation of Natural Language Processing, 2017: 986-995.
[25]Li Jiwei, Monroe W, Ritter A, et al. Deep reinforcement learning for dialogue generation[EB/OL].(2016).https://arxiv.org/abs/1606.01541.