何俊 饒方喜 周志豪 徐秋



摘 要:人工智能驅動的對話是當前研究熱點,有著廣泛的應用前景。但目前這類對話系統普遍缺乏情感交互能力,限制了其在心理關愛、抑郁癥等精神障礙疾病方面的應用。如何讓對話系統充分理解用戶情緒并生成帶有共情的回復是目前對話系統面臨的主要挑戰之一。首先介紹了共情對話研究中情感感知和共情對話生成兩大挑戰,并分別調研歸納了相關研究方法。情感感知任務大致可分為基于規則、基于機器學習和基于深度學習三類方法,共情對話生成大致可分為基于檢索和基于動態生成兩類方法。接著介紹了共情對話的最新發展動向,并總結了共情對話數據集、通用對話數據集和多模態數據集的特點和鏈接,歸納了當前共情對話研究中不同的評估方法便于后續研究。最后對共情對話的研究工作進行了總結和展望。
關鍵詞:共情對話; 情感感知; 對話生成
中圖分類號:TP391.1?? 文獻標志碼:A?? 文章編號:1001-3695(2024)01-001-0001-09
doi:10.19734/j.issn.1001-3695.2023.05.0206
Research progress of empathetic dialogue system
Abstract:Artificial intelligence-driven dialogue is a current research hotspot with a wide range of promising applications. However, such dialogue systems currently generally lack emotional interaction capabilities, limiting their application in psychological care, depression and other mental disorders. How to make dialogue systems fully understand users emotions and generate responses with empathy is one of the main challenges facing dialogue systems today. This paper first introduced two major challenges in empathic dialogue research: emotion perception and empathic dialogue generation, and summarised the relevant research methods in separate studies. Emotion perception tasks could be broadly classified into rule-based, machine-learning and deep-learning approaches, while empathic dialogue generation could be broadly classified into retrieval-based and dynamic generation-based approaches. Then this paper introduced the latest developments in empathic dialogue, and summarised the features and links of empathic dialogue datasets, generic dialogue datasets and multimodal datasets, and summarised different evaluation methods in current empathic dialogue research to facilitate subsequent research. Finally, this paper presented a summary and outlook of the research work on empathic dialogue.
Key words:empathetic dialogue; emotional perception; dialogue generation
0 引言
隨著人工智能驅動的移動社交網絡的發展,智能對話系統已經進入人們的日常生活,人們也已經習慣與機器進行交流[1]。人工智能的發展促進了對話系統語音識別和語義理解的準確性,極大地提高了人機對話的體驗,不只在日常生活,還涉及商業、業務支持、教育和醫療保健等多個應用領域[2]。早期的對話系統起源于20世紀60年代,對話系統被設計為執行特定任務,如機票預訂[3]、醫療保健[4]、政治辯論[5],因此被稱為任務特定對話系統,或者被設計為與用戶進行閑聊,被稱為聊天機器人[6],故對話系統也被分為任務型對話系統和非任務型對話系統[7]。由人工智能實驗室OpenAI發布的對話式大型語言模型ChatGPT[8]最近在各大媒體平臺受到極大關注,短短兩個月其用戶量過億。它不只能夠學習和理解人類的語言,還能夠根據用戶對話的上下文進行交流。目前國內市場上也有大量的聊天機器人,如圖靈、小微、思知、小冰等機器人[9],它們通常也會具備一定的任務型對話能力,同時,也有著一定的閑聊能力。但這些語言模型普遍缺乏情感交互能力,限制了其在老年人心理關愛服務、抑郁癥、焦慮等精神障礙疾病方面的應用。與此同時,人們對對話系統提出了越來越高的要求,其中一個關鍵目標就是使系統人性化[10],即對話系統能夠理解用戶對話中的情感,并生成帶有共情的回復,以促進與人類進行更好、更有意義的情感交互。清華大學CoAI課題組在2018年提出了情感聊天機器人(emotional chatting machine,ECM)系統[11],旨在構建一個能夠表達情緒反應的對話系統,但卻并沒有實現共情。情感對話系統是為了在用戶中產生情感反應而設計的[12],它更加側重識別情緒和產生情緒對應的反應。而共情對話系統側重于設身處地為用戶著想,理解他們的感受、情緒和精神狀態,模仿用戶的思維模式,它的目標是創造一個更像人類的互動。
共情最早是由人本主義創始人羅杰斯提出,也被稱為同感、同理心、投情等,指的是能夠想象自己置身于對方處境,并體會對方感受的能力[13],情感狀態與對方一致。共情是一個寬泛的概念,包括情感共情、認知共情和同情同理心[14]三方面。情感共情涉及對用戶體驗的情感模擬,當看到別人傷心難過,自己也跟著傷心難過,情感共情是一種能夠真正感受到他人的感受或至少感受到與他人相似的情緒的能力。認知共情旨在理解用戶的處境和隱性的情感,當身邊的人情緒低落時,通常還會對在腦海中猜想和理解對方的感受:為什么會哭?是因為難過嗎?還是因為受了什么委屈?這些推理和理解,更多是認知共情在起作用。同情同理心是指雙方有過共同的經歷,能夠理解對方目前的感受。共情對話系統要求具備情緒疏導或心理疏導的能力,有助于更好地理解人際關系,以完成復雜的情感交流任務[15~17]。一個完整的共情對話系統不只是包括情感,還必須要包含個性和知識[18]。個性化可以使系統根據用戶的喜好量身定制回答,增加對話系統的連貫性和一致性。如Zhong等人[19]提出了一個基于個性的共情對話系統,研究人物個性對共情反應生成的影響。而外部知識補充了對話背景,使得生成回復更加豐富。近年,小米人工智能實驗室在這方面做了一些探索并取得了初步成果,如小愛同學[20]創建了首個融合了社會常識知識和對話流信息的中文常識性對話知識圖譜,來與用戶進行合理的溝通,提高用戶的滿意度[21,22]。
近年來,不斷有學者嘗試將共情融入對話系統中,但關于共情對話的綜述較少。如Pamungkas等人[23]只是介紹了加入情感的對話系統研究方法。Wardhana等人[24]對共情對話特征、對話系統模型和統計推斷技術進行了回顧。Spring等人[25]只介紹了一個包括情緒表達、情緒檢測分類、反應生成和反應表達四個階段的框架,并沒有對其中的算法進行介紹。本文以共情對話為研究對象,首先概述了共情的概念,詳細說明了情感感知和共情對話生成的技術,以及共情對話的發展動向,接著總結了共情對話研究所需要的數據集和評價指標,最后總結了共情對話系統目前所存在的問題,以及未來的研究方向。
1 共情對話系統
共情對話系統是由多種技術共同構建的系統[18],包括自然語言預處理(nature language processing,NLP)、自然語言理解(natural language understanding,NLU)、對話管理(dialog ma-nagement,DM)和響應生成等多個模塊[26]。原始的語料無法直接進行訓練,需要進行前期預處理,NLP能夠對原始文本進行預處理,使之標準化,而NLU就是讓機器能夠準確地理解人類生成自然語言的技術。DM可以通過理解對話上下文信息,生成對用戶的反應。最常見的對話一般都是任務驅動型的多輪對話,如用戶有著明確目的的訂餐或者訂票等,由于用戶需求復雜,限制條件較多,需要分為多輪進行陳述。這類對話不但可以使用戶在對話過程中完善自己的需求,也可以使對話系統在與用戶交流中不斷明確用戶的目的,輸出正確的結果。響應生成則是對話系統能夠自動生成響應的過程或技術,一般也稱做文本生成。共情對話系統的兩大挑戰分別為情感感知和共情對話生成,情感感知是指對話系統能夠檢測到用戶當前的情緒狀態;共情對話生成是指對話系統理解用戶情感后,以人類的思維方式站在用戶角度回應用戶的情感需求。以下將對這兩類任務所用的技術進行概述。
1.1 情感感知技術
對話系統與用戶的對話中蘊涵著豐富的情感,獲得對話語句的情感信息是更好地與用戶溝通的關鍵[27]。目前的情感感知技術大致可以分為基于規則的、基于機器學習的和基于深度學習的三種方法[25]。
1.1.1 基于規則的方法
基于規則的方法是通過人工制定一套規則,根據對話中的一些單詞或者短語來識別情緒,主要包括情感詞典或詞嵌入。
a)情感詞典。情感詞典是一種對文本進行情感分析的工具,它列出了包含情感的單詞,并將它們分為單個或多個情感類別。基于情感詞典,可以通過統計文本中出現的積極和消極情感詞匯數量來計算文本的情感傾向。情感詞典可以從頭構建,如使用電影對話[28]或者故事讀物[29]來構建情感詞典,也可以使用現成的方案,如WordNet-Affect[30]。這些現成的解決方案在數量方面差別很大:WordNet-Affect包含近5 000個單詞,而另一個流行詞匯DepecheMood[31]則包含超過3.5萬個單詞。然而,詞匯的質量并不僅僅取決于它的大小,詞匯的使用也會影響詞匯的質量。Bandhakavi等人[32]認為,WordNet-Affect等通用詞匯的表現不如特定領域的情感詞匯。因此,較小領域的特定詞匯表可能比較大的通用詞匯表產生更好的結果。而Wang等人[33]為了提高語音情感感知的能力,提出了一種原生詞情感詞典,該方法從不同情緒類別的原生詞對情感信息進行建模,選擇每個情緒中的頂級單詞以生成向量;然后通過將話語級聲學特征與特征相結合來構建模型。情感詞典的構建可以分為人工和自動兩種方式。人工構建獲得數據之后進行人工標注,根據情感表達將詞語進行正負向和強弱程度的區分。人工構建詞典的方法在擴充詞條方面比較方便,但需要耗費大量人工成本,且研究范圍有限。自動構建包括基于知識庫、基于語料庫或者兩者結合的方法。基于知識庫就是對人工構建的詞典進行拓展,加入動詞、名詞等,使情感詞更加全面。基于語料庫的方法就是利用相關領域的大量語料和相關度的計算規則,結合機器學習的相關方法,自動統計情感詞的情感極性,自動構建情感詞典。
b)詞嵌入。詞嵌入是將詞轉換為向量的方法。每個單詞都表示為向量空間中的一個向量。因此,經常同時出現的單詞被認為語義相似,在向量空間中接近。其中最流行的詞嵌入方法是Mikolov提出的word2vec[34]和Pennington提出的GloVe[35]。word2vec有兩種訓練方式,即通過上下文來預測當前詞或者通過當前詞來預測上下文。但由于其訓練出來的向量與單詞是一對一的關系,沒有考慮單詞在不同上下文具有不同含義,無法解決一詞多義的問題。GloVe是對word2vec的改進,它將全局詞頻統計和后者的基于局部信息的學習結合起來,有效解決了word2vec的部分缺點。
1.1.2 基于機器學習的方法
基于機器學習是一種使用給定數據訓練模型,再通過模型得出結果的方法。機器學習方法大致可以分為無監督學習和監督學習。
a)無監督學習。無監督學習是指在沒有標注情感數據的情況下,從數據本身中發現規律的一類機器學習方法,通常可以省去大量人工標注所耗費的成本。如文獻[36]使用一種無監督的方法來自動檢測文本中的情緒,如憤怒、恐懼、快樂和悲傷等。Barros等人[37]提出了一個無監督學習的神經框架,該框架通過學習如何描述個人的連續情感行為來提高情感感知能力。
b)監督學習。監督學習是指使用帶有情緒標簽的數據集來對模型進行訓練,使模型能夠根據給定輸入得到一個預期輸出。即在監督學習過程中,訓練數據既要有特征,又要有標簽,通過訓練可以讓機器找到特征和標簽之間的關聯,這樣在給定沒有標簽的輸入時就能根據其特征判斷其標簽。所以Seyeditabari等人[38]認為監督方法的主要挑戰之一就是要有高質量的情感訓練數據,比較著名的數據集有EmotiNet[39]和Sem-Eval2007[40]。除此之外,Banchs[28]分析了大量電影的對話,得到了數據集MovieDiC。Vijayaraghavan等人[41]就通過人們對藥物評價的分析收集數據。而Wang等人[42]使用情感相關的標簽創建了一個大型數據集,并通過兩種機器學習方法進行情感感知。此外,由于傳統基于監督的方法可能會在有限的標記數據下存在過度擬合的問題。為了解決上述問題,Wu等人[43]提出了一種新的監督學習框架,通過五個信號變換自動為大量未標記數據分配標簽,并以信號變換識別對所提模型進行預訓練。Pan等人[44]也提出了一種用于語音情感感知的模型,首先利用各種基于監督學習的預訓練模型,構建了一個有效的情緒模型,然后將語音信號的情感和性別信息進行整合,提高了模型的情感感知能力。
1.1.3 基于深度學習的方法
目前,在情感感知領域最先進的方法就是深度學習。基于深度學習的情感感知方法主要是通過神經網絡來進行的,故本文討論的算法包括:卷積神經網絡(convolutional neural network,CNN)、循環神經網絡(recurrent neural network,RNN)、注意力機制、深度強化學習、seq2seq和Transformer等。
a)卷積神經網絡。CNN是一種用于特征提取的神經網絡。CNN由卷積、池化和全連接層三種結構組成。卷積層應用卷積核來進行卷積計算,滑動窗口特性使卷積層減少模型的計算參量,捕獲局部特征。池化層主要用于特征降維,壓縮數據和參數的數量,減小過擬合,同時提高模型的容錯性。目前主要有最大池化和平均池化兩類池化操作,最大池化指采取輸入區域的最大數量,平均池化指采取輸入區域的平均數量。全連接層的主要作用就是將前面計算得到的特征空間映射樣本標記空間。換句話說,就是將特征表示整合成一個值,減少特征位置給分類帶來的影響。
b)循環神經網絡。RNN是一種用于處理序列的神經網絡結構,它是基于“人的認知是基于過往的經驗和記憶”這一觀點提出的[45],即當前的輸出與前一個時刻的輸出有關。普通的神經網絡只能單獨處理一個輸入,前一個輸入和后一個輸入是完全沒有關系的,這樣的神經網絡是無法解決一些問題的,比如預測句子的下一個單詞是什么,一般需要用到前面的單詞,因為一個句子中前后單詞并不是獨立的。而RNN對于處理此類問題非常有效。在RNN中,每個輸出都是由當前輸入和之前的信息共同決定,即隱藏層的輸入不只包括當前的輸入,還包括上一個隱藏層的輸入。RNN的一些變體在對話系統中取得不錯的結果,如LSTM、seq2seq(sequence to sequence)、GRU(gate recurrent unit)和BRNN(bidirectional recurrent neural network)等。Madasu等人[46]融合了CNN和RNN的優點,提出了順序卷積關注循環網絡(SCARN),與傳統的RNN相比,在處理情感感知問題上有著更好的效果。
c)注意力機制。注意力機制是一種用來計算輸入數據對輸出數據的貢獻大小的結構。當輸入語句較長,信息較多的時候,傳統的序列到序列模型有一定局限性,注意力機制則能夠在很多的信息中注意到對當前任務更關鍵的信息,而對于其他的非關鍵信息就不需要太多的注意力側重。即對于模型的輸入,給每一個部分分配一個權重,這個權重的大小就代表模型對這一部分的重視程度。這樣既提高了模型的性能,也在一定程度上降低了計算量。深度學習中的注意力機制大概可以分為軟注意、硬注意和自注意機制三類。軟注意機制是指對大部分信息都進行考慮,但有的部分關注多一點,有的部分關注少一點,關注程度是不一樣的。硬注意機制是指只考慮需要關注的部分,對于那些不需要關注的部分直接舍棄,這樣能夠減少一定的時間和計算成本,但可能丟失一些本該需要關注的信息。自注意機制是指輸入項分配的權重取決于輸入項的相互作用,即通過輸入項的相關性來決定應該關注哪些輸入項。
d)深度強化學習。深度強化學習是一種結合深度學習和強化學習的方法,它的目的是讓機器能夠自行決策和行動。強化學習是指在與環境的交互過程中通過學習策略來達成回報最大化,而深度神經網絡則有助于提取特征并增強模型的表達能力。因此,深度強化學習可以通過不斷地在環境中嘗試,并使用神經網絡優化策略以最大限度地獲得期望獎勵。深度強化學習的算法比較多,常見的有:DQN(deep Q-network)、DDPG(deep deterministic policy gradient)、PPO(proximal policy optimization)等。
e)seq2seq。seq2seq模型是動態生成常用的模型,是一種能夠根據給定的序列,通過特定的方法生成另一個序列的方法。它的實質是利用兩個RNN組成encoder-decoder模型,一個RNN作為encoder,另一個RNN作為decoder。encoder將輸入序列轉換為固定維度的隱藏狀態向量,該向量包含輸入序列中的所有信息。而decoder則接收這個隱藏狀態向量,并生成目標序列。
f)Transformer。Transformer是利用注意力機制來提高模型訓練速度的模型。Vaswani等人[47]在2017年提出了Transformer,它完全利用了注意機制,沒有任何循環單元,完全消除了遞歸和卷積,并部署了更多的并行化來加速訓練。Transformer的結構由六個encoder和六個decoder組成。模型的第一步就是得到輸入句子的每一個單詞的表示向量,將得到的單詞表示向量矩陣輸入encoder中,經過六個encoder block后就可以得到句子所有單詞的編碼信息矩陣,然后再將編碼矩陣傳遞到decoder中去,decoder會依次根據當前翻譯過的單詞翻譯下一個單詞。
目前情感對話研究主要基于文本數據庫開展。Chen等人[48]提出了一個基于多層次的CNN模型,首先,使用CNN對每條獨立的語句進行信息的提取,然后用另一個CNN 來處理對話中連續的句子表示,與單CNN模型相比,在Friends數據集上的加權準確率從59.2%提高到63.9%,在EmotionPush數據集上的加權準確率從71.5%提高到77.4%。Cheng等人[49]提出了一種交互式卷積神經網絡(ICNN),將輸入特征圖分解為許多不同的頻率尺度以獲得交互式卷積。對ICNN的性能進行了大量實驗評估,當卷積層數相同時,ICNN的情感感知準確率比CNN提高了17.5%。
近年,越來越多的情感對話研究基于語音數據庫開展。Lyu等人[50]提出了一種基于BiLSTM和CNN的特征融合方法,用于識別語音情感特征,該方法結合了空間特征和上下文特征。利用BiLSTM提取語音信號的上下文特征,并利用頻譜圖提取語音信號的空間特征作為CNN的輸入,以便一起學習特征,從而獲得更好的情感識別率,在IEMOCAP數據集上的加權準確率和未加權準確率分別為74.14%和65.62%。Zhang等人[51]提出了一種用于語音情感識別的多尺度LSTM框架。首先,采用深度LSTM模型捕捉話語中所有分割片段之間的時間依賴關系,實現對話級情感識別。然后采用分數級融合策略,將CNN與LSTM結合在多個片段級頻譜圖上實現情感識別,在AFEW5.0數據集上的準確率達到了40.73%,在BAUM-1s數據集上的準確率達到了50.22%。對于標注數據較少的問題,Yi等人[52]提出了一種基于Transformer的模型來實現情感識別。首先,使用wav2vec 2.0來提取語音特征。然后,采用微調策略和基于自注意力的特征融合策略。最后,使用RoBERTa通過改進的加權策略進行情感識別,在IEMOCAP數據集上的加權準確率和未加權準確率分別為72.28%和74.01%,在CASIA數據集上的加權準確率和未加權準確率分別為99.17%和99.17%。
對以上情感感知模型的對比如表1所示。
1.2 共情對話生成
共情對話生成是一個生成任務,旨在使對話系統以人類的思維方式站在用戶角度回應用戶的情感需求。目前的共情對話生成技術大致可以分為基于檢索和動態生成[25]兩類。
1.2.1 基于檢索的方法
基于檢索的方法就是指從預定義響應的數據庫中檢索出最相關的響應,就是把一個對話問題等價成為一個搜索問題,然后從數據集中搜索答案。Henderson等人[53]就是在Reddit數據集上預訓練了一個通用的回復選擇模型,然后針對不同的對話領域對其進行微調,并通過實驗證明了這種方法的有效性。在此基礎上,Henderson等人[54]又提出了一個更輕量級的預訓練回復選擇模型ConveRT(conversational representations from Transformers),模型引入了更多對話歷史信息。但是基于檢索的方法從對話數據集中查找與用戶話語有關的常見反應,為了得到一個較好的結果,往往需要大量的情感對話數據集。所以,基于檢索的方法并不是共情對話生成研究中主要的響應生成方法。
1.2.2 基于動態生成的方法
基于動態生成的方法與情感感知的深度學習模型算法密切相關,不只涉及神經網絡算法,還包括使用深度學習的encoder-decoder架構。生成的回復不依賴于特定的模板或者數據庫,而是通過在大量語料中學習來進行對話。encoder的作用是將詞序列轉換成詞向量,然后通過decoder將該向量轉換成目標序列。換句話說,首先對句子進行編碼,然后再將編碼后的句子進行解碼。Miao等人[55]提出了一種基于seq2seq的對話生成模型,并在解碼器中添加了情感嵌入,以達到產生共情對話的目的。但是只使用基于RNN的seq2seq模型來實現生成式對話的結果往往是不盡如人意的。Zhou等人[11]首次將情感因素引入了基于深度學習的生成式對話系統,提出了基于記憶網絡的對話系統。在傳統的seq2seq模型的基礎上,使用了靜態的情感向量嵌入表示,使得模型可以根據用戶的輸入以及指定情感分類生成適當的回復。Sordoni等人[56]提出在encoder部分采用多層前向神經網絡代替RNN模型,這樣就能夠把上下文的信息引入模型,使得模型能夠處理長序列問題。注意力機制通常用于解決長期依賴的問題。利用注意力,解碼器可以直接訪問每個編碼詞的隱藏狀態,并相應地對每個詞進行加權。這使得解碼器在生成輸出時可以關注輸入句子的重要部分。該機制也應用于神經機器翻譯。Bahdanau等人[57]提出了加入注意力機制的seq2seq,可以最大限度地提高翻譯性能。Serban等人[58]介紹了一種新的分層隨機潛變量神經網絡結構(VHRED)來解決序列之間的復雜依賴關系。VHRED在HRED的基礎上,將潛變量結合到解碼器中,將解碼過程轉換為對潛變量進行采樣和有條件地生成響應兩步生成過程。
Transformer是共情對話系統研究中響應生成模塊中比較常用的模型。還包括其他基于Transformer改進的模型:GPT(generative pre-training)、GPT-2(generative pre-training-2)和text-to-text transfer Transformer。除此之外,BERT(bidirectional encoder representation from Transformers)模型及其不同的變體,如CoBERT(code BERT)、RoBERTa(a robustly optimized BERT pretraining approach)和ALBERT(a lite BERT for self-supervised learning of language representations)也被用于創建響應生成模型。DialoGPT(dialogue generative pre-trained Transformer)模型[59]在預訓練的反應生成模型中被認為是較先進的。Zhao等人[60]以綜合的方式構建了基于知識的對話系統。使用BERT和GPT-2共同進行知識選擇和響應生成,其中BERT用于知識選擇,GPT-2基于對話上下文和選擇的知識生成響應。與此同時,RoBERTa-GPT2[61]被提出用于共情對話生成,其中預訓練的自動編碼RoBERTa用作編碼器,預訓練的自動回歸GPT-2用作解碼器。但是,其過于專注知識而忽視情感,只能片面理解用戶的意思,無法使模型更好地表達情感。Chen等人[62]針對這個問題,提出了一種新的情感特征知識交互模型,用來增強響應生成性能。首先利用情感特征和常識知識來豐富對話歷史以獲得情感交互上下文。然后,利用情感互動上下文編碼器來學習更高層次的情感互動信息,最后,提煉情緒狀態特征以指導共情反應的產生。
共情是理解和關注他人感受和體驗的能力,為了完整地生成共情對話,還需了解用戶情緒背后的原因。為此,Li等人[20]開發了一個基于用戶情感原因的共情對話系統,以GPT對文本進行預處理,根據對話歷史、檢測到的情緒類別以及情緒原因產生共情反應。而Qian等人[63]認為這些方法側重于理解和復制上下文中的情緒原因,并沒有真正過渡到以情緒為中心,理解情緒原因的邏輯性,為了解決這個問題,其提出了一個情感原因過渡圖,以明確地模擬共情對話中兩個相鄰回合之間情感原因的自然過渡,而且下一個回合中的情感原因的概念詞可以被預測,并專門設計一個概念感知解碼器產生共情反應。對共情對話生成模型的對比如表2所示。
1.3 共情對話的發展動向
1.3.1 基于多模態的共情對話
目前較為常見的共情對話基本上是基于文本或者基于語音的這樣單一模態的形式,但是這種單一模態的形式往往很難準確判斷出情感狀態。就比如,反諷往往結合中性或者積極的文本內容和與內容不匹配的音頻表達來完成一個消極的情感表達,這種情形僅靠單模態很難從根本上解決。其次,單模態模型容易受噪聲影響而導致效果問題,例如由自動語音識別轉寫的文本,上游出現的錯誤很多時候會對下游分類任務產生較大影響。因此,多模態模型策略在共情對話任務中是十分必要的,多模態情感感知旨在從不同的視覺、音頻和文本模式中識別人類的各種情感。
Cai等人[64]則提出了一種將語音和面部表情的情感數據融合的方法。首先利用CNN和LSTM學習語音情緒特征;同時,設計了多個小規模核卷積塊進行面部表情特征提取;最后融合語音特征和面部表情特征實現情感識別,與語音和面部表情的單一模態相比,模型的整體識別準確率分別提高了10.05%和11.27%。Dong等人[65]提出一種基于BiLSTM的多模態情緒識別方法,在視頻序列中引入ResNeXt50網絡和協調注意力機制,以獲取視頻圖像的位置和空間的長期依賴信息,利用具有自我注意力機制的CNN來捕捉音頻序列的語義特征。與此同時,為了消除冗余,采用了嵌入自我注意機制的雙序列LSTM跨模態網絡進行情感特征融合,最終實現情感感知,在eNTERFACE05數據集[66]上的準確率達到了81.04%。
在多模態融合模型中,特征來源單一容易導致模型過擬合,為了解決這個問題,Liu等人[67]提出了一種特征融合模型。首先,使用一維卷積將不同長度和維度大小的特征作為輸入;然后,使用注意力機制捕獲兩個特征之間的相應關系;最后,使用雙向時間序列模塊來增強融合特征的上下文信息。實驗結果證明,該模型有效地將不同長度和維度的聲學特征與預訓練特征融合在一起,在EMO-DB數據集上的識別準確率和F1得分分別達到了64.9%和84.1%。
近年也有研究將視覺、語音、文本三個模態融合識別情感,Firdaus等人[68]提出了一個Affect-GCN(affect-graph convolutional network)框架,該框架利用RNN-GCN作為話語編碼器,然后使用多模態分解雙線性池(MFB)來增強不同模態的表示,以便捕獲上下文信息以及多模態知識,從而更好地進行情感感知。模型使用ResNet(deep residual network)來捕獲視覺特征,VGG(visual geometry group)用于捕獲音頻特征,文本特征由RNN-GCN框架捕獲,所有特征都作為MFB塊的輸入,輸出作為任務特定層的輸入進行分類,同時預測情感。如圖1所示,與現有的多模態方法分析,準確率提高到了69.73%。
1.3.2 基于外部知識的共情對話
早期基于深度學習的共情對話生成大多是純數據驅動的基于seq2seq框架的模型,生成的對話看上去很接近自然語言,但是往往缺乏實質信息的內容。比如,當人們在日常生活中與別人對話時,為了更好地理解對話中的情感,肯定會在對話的過程中加入個人的經驗、常識等超出上下文內容的信息。因此,如果想要構建一個類似人類交流的共情對話模型,將外界知識引入是必不可少的。如小米人工智能實驗室[20]為了更好地利用外部知識,構建了一個知識圖譜。這個知識圖譜的數據來源是一個大規模的常識知識庫,涵蓋了以事件為中心的社會方面有關的推理知識元組。但由于這個數據庫中的知識元組存在多個尾實體,且每個知識元組也是孤立的,在構建知識圖譜后可能會存在無法推測情感狀態或者難以產生連貫回答的情況出現。為此,小米收集了日常場景中的大規模多輪對話,并手動注釋對話的情感信息,根據標注信息提取與數據庫中與對話相關的事件,可以讓對話系統明白當前的狀態,又定義了新的四種對話流關系,即事件流、概念流、情感原因流和情感意圖流,把知識庫中的事件歸為事件流,把知識庫的實體歸為概念流,事件產生的原因歸為情感原因流,事件發生后怎么做歸為情感意圖流,可以讓對話系統明白下一步怎么樣回復。如圖2所示,這個知識圖譜是以常識知識元組為基礎,而且添加了小米人工構建的對話語料庫的漢語常識對話知識圖譜,圖譜可以通過識別對話中的情感分類來定位知識庫中對應的答案,舉一個例子,知識庫中有{x收養了一只貓,x effect,感到開心}和{x收養了一只貓,x effect,x對貓過敏}這樣兩個知識元組,當說出:我最近收養了一只貓,感到很煩惱。知識圖譜就能夠根據人工制定的語料庫識別出對話的情感是悲傷的,就能夠在知識庫中精確定位到“x對貓過敏”,然后根據情感意圖來選擇合適的對話流,如當描述對話中的壓力時,知識圖譜可能會輸出“減輕壓力”之類的對話。實驗結果表明引入外部知識后,情感感知和意圖識別的準確率分別達到了93.6%和71.3%,與其他算法相比實現了更高的準確率。
2 共情對話系統的性能評價
2.1 數據集
隨著深度學習技術水平的提高,共情對話系統也得到了越來越多的關注。本節總結了與共情對話系統相關的數據集,有助于接下來的研究。關于對話數據集大致可以分為共情對話數據集、通用數據集和多模態數據集,相關數據集的介紹和下載地址如表3所示。
適用于共情對話系統的數據集包括:EMPATHETICDIALOGUES[69]、CPED(Chinese personalized and emotional dialogue)[70]、XiaoAI empathetic conversation[71]和ESConv (emotional-support-conversation)[72]。EMPATHETICDIALOGUES包含24 850個對話,這個數據集是通過眾包方法準備的,即公司或者機構把過去由員工執行的工作任務,以自由自愿的方式外包給大眾志愿者處理。每個參與者講述與所分配的情緒類別相對應的對話,并限制在4~8個話語中。CPED由與情感和個性相關的多源知識組成。這些知識包括性別、五大人格特征、13種情緒、19種對話行為和10個場景,包含超過1.2萬段對話。XiaoAI empathetic conversation包含16 873個對話,它是通過對小愛在線日志的基礎數據提取而成。基礎數據被注釋為四種情緒類別(悲傷、憤怒、快樂和其他)。ESConv包括了1 053個對話、31 410個語句,提供了7種負向情緒、5個負向情緒問題以及8種情感支持策略。
通用的對話數據集包括DailyDialog[73]、BookCorpus[74]、PersonaChat[75]和豆瓣conversation corpus[76]。DailyDialog數據集由13 118個關于日常生活的多輪對話組成,源數據提取自各個網站。這些對話有交換信息和加強社會聯系兩個目的,并且還有四個對話行為(通知、問題、指示和慰問詞)。BookCorpus由11 038本書構建,包含大約7 400萬句話。這些書分為不同的內容,如愛情小說、奇幻小說和科幻小說。PersonaChat數據集包括隨機配對的眾包參與者之間的162 064次對話,總共考慮了1 155個角色,每個角色都由至少五個句子來表示,這些句子給出了關于特定角色的描述。豆瓣conversation corpus是由國內流行的社交網站豆瓣群構建的開放領域數據集,包括110萬段超過兩回合的雙人對話。
多模態情感數據集包括MELD(multimodal multi-party dataset)[77]、CMU-MOSEI[78]、PhotoChat[79]和IEMOCAP(interactive emotional dyadic motion capture)[80]。MELD數據集由電視劇《老友記》中的超過1 400個對話和13 000個句子組成,其中的對話是多模態的,包括音頻和視覺模態以及文本。CMU-MOSEI數據集由1 000個不同說話者的22 856個視頻片段組成。每個視頻本身包含視覺、音頻和文本三種形式,同時注釋了憤怒、厭惡、恐懼、快樂、悲傷和驚喜六種離散的情緒。Photo-Chat數據集由10 917張圖像和12 286個對話組成,每個圖像都與對話過程中共享的用戶圖像配對,每個圖像與其文本描述配對。數據集被分成10 286個訓練實例、1 000個開發實例和1 000個測試實例。IEMOCAP包含了大約12 h的多模態情感分類數據,通過對10名男演員和女演員基于劇本的即興演出進行錄制得到,每個場景包含兩個說話人。
2.2 共情對話系統常用評價指標
根據共情對話生成語句的質量來判斷共情對話系統模型的性能。當前的評價指標可以分為自動評價指標或人工評價指標兩類。
a)自動評價指標。目前主流的自動評價指標包括詞重疊評價指標和詞向量評價指標。詞重疊評價指標主要有BLEU(bilingual evaluation understudy)[81]和METEOR(metric for eva-luation of translation with explicit ordering)[82]。BLEU常用于衡量機器翻譯的性能,通過機器翻譯的結果和標準人工翻譯的結果比較是否相似,若相似,則機器翻譯性能好。而METEOR解決了BLEU標準中的一些固有缺陷,擴展了BLEU有關“共現”的概念,同時將詞序納入評估范疇,設立基于詞序變化的罰分機制。最終通過計算共現次數的準確率、召回率與F值,并考慮罰分,得到待測譯文的METEOR值。詞向量評價指標則是通過word2vec等方法將句子轉換為向量表示,向量在一定程度上表達了句子的含義,在通過余弦相似度等方法就可以計算兩個句子之間的相似程度。詞向量評價包括greedy ma-tching[83]、embedding average[84]和perplexity困惑度[85]。greedy matching是在生成的句子和真實句子中尋找最相似的一對單詞,把這對單詞的相似度近似為句子的距離;embedding average是將每個單詞的詞向量取平均來作為句子的特征,計算生成語句和真實語句之間相似度;perplexity困惑度就是通過估算句子出現的概率或者語句是否通順來評價模型的性能,模性能型越好,困惑度越小。
b)人工評價指標。人工評價的人力成本高,但準確率是最高的。最早期的對話系統是在實驗室進行評價的,如文獻[86]通過招募36名受試者,受試者被要求使用語音對話系統解決一項任務,并根據任務的完成度進行打分。此外,由于實驗室環境是非常受控制的,這并不一定能與現實世界的實驗環境一致,這導致結果有一定的局限性。現在主流的人工評估主要為眾包的方式,平臺通過大量招募員工,員工根據質量、流暢性或適當性對系統進行評分。如文獻[87]評估了使用眾包來評估對話系統的有效性,其實驗表明,使用足夠多的眾包用戶,評估的質量與實驗室條件相當。共情對話系統評價指標的對比如表4所示。
3 共情對話系統存在的問題及未來研究方向
a)建立共情對話系統的目的是為了讓用戶與對話系統的交流更加流暢、準確。然而,目前大多數系統僅僅圍繞文本數據構建,單一模態的數據是有限的,無法覆蓋到大多數情況的情緒狀態。因此,下一步可以從多模態數據入手,把對話系統的輸出擴展到圖像、視頻、語音和文本等多種模式,以使其更具共情能力。現有的研究表明,多模態有助于提高對話中情感檢測的能力,增強共情對話系統的共情回復生成能力。
b)由于數據集的來源不同,當前的共情對話系統可能不適應所有場景。如通過眾包獲得的數據集、注釋媒體數據獲得的數據集和注釋公開可用的相關數據集,這些數據集來源不同,內容不同,復雜程度也不同。因此,下一步可以從跨領域的數據集入手,提高共情對話系統在不同數據集中的性能。
c)目前大多數共情對話都集中于顯式的文本情感研究,采用的數據集也是帶有明顯的情感詞匯,而對于一些情感傾向不是特別明顯的文本識別率不佳。因此,下一步可以通過構建隱式情感詞詞典,或者通過使用更好的深度學習方法來更深層次識別文本中的隱式情感。
d)由于大多數對話語料庫中存在個性化稀疏性問題,這使得對話系統在與人類交流時難以體現出人物的個性,而擁有個性化的共情對話系統是能夠理解用戶的個性化信息是精確感知用戶的意圖和內在狀態并因此產生適當回復的關鍵,因此,下一步可以從融合個性化知識的共情對話出發,讓對話系統以不同方式與用戶進行互動。
4 結束語
本文回顧了近年來共情對話系統的研究進展。首先,本文介紹了共情對話系統的情感感知和共情對話生成兩大挑戰,并且分別使用不同的方法來解決這兩個問題。隨著對話系統的不斷發展,共情功能給這個研究領域帶來了更多挑戰。近年共情對話系統索日益受到關注,并取得了相當不錯的成果,越來越多相關研究成果出現在人工智能頂會上。但總體來說該領域研究仍處于初級階段,有待進一步研究和探索。
參考文獻:
[1]Cai Zhipeng, Xu Zheng. A private and efficient mechanism for data uploading in smart cyber-physical systems[J].IEEE Trans on Network Science and Engineering,2018,7(2):766-775.
[2]Motger Q, Franch X, Marco J. Conversational agents in software engineering: survey, taxonomy and challenges[EB/OL].(2021-06-21)[2023-06-26].https://doi.org/10.48550/arxiv.2106.10901.
[3]朱映波,趙陽洋,王佩,等.融合馬爾科夫決策過程與信息熵的對話策略[J].計算機工程,2021,47(3):284-290.(Zhu Yingbo, Zhao Yangyang, Wang Pei, et al. A dialogue strategy incorporating Markovian decision processes and information entropy[J].Computer Engineering,2021,47(3):284-290.)
[4]王雨,袁玉波,過弋,等.情感增強的對話文本情緒識別模型[J].計算機應用,2023,43(3):706-712.(Wang Yu, Yuan Yubo, Guo Yi, et al. An emotionally enhanced model of conversational text emotion recognition[J].Journal of Computer Applications,2023,43 (3):706-712.)
[5]Khatua A, Cambria E, Khatua A, et al. Lets chat about Brexit! A politically-sensitive dialog system based on Twitter data[C]//Proc of IEEE International Conference on Data Mining Workshops.Pisca-taway,NJ:IEEE Press,2017:393-398.
[6]Adamopoulou E, Moussiades L. Chatbots: history, technology, and applications[J].Machine Learning with Applications,2020,2:100006.
[7]曹亞如,張麗萍,趙樂樂.多輪任務型對話系統研究進展[J].計算機應用研究,2022,39(2):331-341.(Cao Yaru, Zhang Liping, Zhao Lele. Progress in research on multi-tasking dialogue systems[J].Application Research of Computers,2022,39(2):331-341.)
[8]Guo Chao, Lu Yue, Dou Yong, et al. Can ChatGPT boost artistic creation: the need of imaginative intelligence for parallel art[J].IEEE/CAA Journal of Automatica Sinica,2023,10(4):835-838.
[9]Zhou Li, Gao Jianfeng, Li Di, et al. The design and implementation of Xiaoice, an empathetic social chatbot[J].Computational Linguistics,2020,46(1):53-93.
[10]徐暉,王中卿,李壽山,等.結合情感信息的個性化對話生成[J].計算機科學,2022,49(S2):99-104.(Xu Hui, Wang Zhongqin, Li Shoushan, et al. Personalised conversation generation combined with emotional information[J].Computer Science,2022,49(S2):99-104.)
[11]Zhou Hao, Huang Minlie, Zhang Tianyang, et al. Emotional chatting machine: emotional conversation generation with internal and external memory[C]//Proc of AAAI Conference on Artificial Intelligence.2018:730-738.
[12]Madasu A, Firdaus M, Eqbal A. A unified framework for emotion identification and generation in dialogues[EB/OL].(2022-05-31)[2023-06-26].https://doi.org/10.48550/arxiv.2205.15513.
[13]楊建華,彭楊,楊茜.同理心地圖聯合情景教學在護患溝通技巧教學的應用[J].護理學雜志,2022,37(24):47-50.(Yang Jianhua, Peng Yang, Yang Qian. The use of empathy maps combined with scenario-based teaching in teaching nurse-patient communication skills[J].Journal of Nursing,2022,37(24):47-50.)
[14]Powell P A, Roberts J. Situational determinants of cognitive, affective, and compassionate empathy in naturalistic digital interactions[J].Computers in Human Behavior,2017,68:137-148.
[15]YalcinN, DiPaola S. A computational model of empathy for inte-ractive agents[J].Biologically Inspired Cognitive Architectures,2018,26:20-25.
[16]Yang Cai. Ambient intelligence in everyday life[M].Berlin:Springer-Verlag,2006:67-85.
[17]Aziz A, Jemili M F. Conceptual design of a socially intelligent agent with triadic empathy and theory of mind for mental health support[J].Journal of Human Centered Technology,2022,1(1):23-33.
[18]Ma Yukun, Nguyen K L, Xing F Z, et al. A survey on empathetic dialogue systems[J].Information Fusion,2020,64:50-70.
[19]Zhong Peixiang, Zhang Chen, Wang Hao, et al. Towards persona-based empathetic conversational models[EB/OL].(2020-04-26)[2023-06-26].https://doi.org/10.48550/arxiv.2004.12316.
[20]Li Dawei, Li Yanran, Zhang Jiayi, et al. C3KG: a Chinese commonsense conversation knowledge graph[EB/OL].(2022-04-06)[2023-06-26].https://doi.org/10.48550/arxiv.2204.02549.
[21]張雄濤,祝娜,郭玉慧.基于圖神經網絡的會話推薦方法綜述[J/OL].數據分析與知識發現.(2023-06-25).http://kns.cnki.net/kcms/detail/10.1478.g2.20230623.1003.002.html.(Zhang Xiongtao, Zhu Na, Guo Yuhui. A review of session recommendation me-thods based on graph neural networks[J/OL].Data Analysis and Knowledge Discovery.(2023-06-25).http://kns.cnki.net/kcms/detail/10.1478.g2.20230623.1003.002.html.)
[22]Brave S, Nass C, Hutchinson K. Computers that care: investigating the effects of orientation of emotion exhibited by an embodied compu-ter agent[J].International Journal of Human-Computer Studies,2005,62(2):161-178.
[23]Pamungkas E W. Emotionally-aware chatbots:a survey[J/OL].(2019-06-24)[2023-06-26].https://doi.org/10.48550/arxiv.1906.09774.
[24]Wardhana A K, Ferdiana R, Hidayah I. Empathetic chatbot enhancement and development:a literature review[C]//Proc of International Conference on Artificial Intelligence and Mechatronics Systems.Piscataway,NJ:IEEE Press,2021:1-6.
[25]Spring T, Casas J, Daher K, et al. Empathic response generation in chatbots[C/OL]//Proc of the 4th Swiss Text Analytics Conference.(2019-06-18)[2023-06-26].http://arodes.hes-so.ch/record/4525.
[26]McTear M F, Callejas Z, Griol D. The conversational interface[M].Cham:Springer,2016.
[27]Wong M Y. Emotion as a language of universal dialogue[J].Dialogue and Universalism,2019,29(3):41-56.
[28]Banchs R E. On the construction of more human-like chatbots: affect and emotion analysis of movie dialogue data[C]//Proc of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Piscataway,NJ:IEEE Press,2017:1364-1367.
[29]Inkpen D, Strapparava C. Proceedings of the NAACL HLT 2010 workshop on computational approaches to analysis and generation of emotion in text[M].Stroudsburg,PA:Association for Computational Linguistics,2010.
[30]Strapparava C, Valitutti A. WordNet-Affect:an affective extension of WordNet[C]//Proc of the 4th international conference on language resources and evaluation.[S.l.]:European Language Resources Association,2004:1083-1086.
[31]Liu Bin, Zhang Lei. A survey of opinion mining and sentiment analysis[M]//Aggarwal C, Zhai C. Mining Text Data. Boston:Springer,2012:415-463.
[32]Bandhakavi A, Wiratunga N, Massie S, et al. Lexicon generation for emotion detection from text[J].IEEE Intelligent Systems,2017,32(1):102-108.
[33]Wang Wei, Cao Xinyi, Li He, et al. Improving speech emotion re-cognition based on acoustic words emotion dictionary[J].Natural Language Engineering,2021,27(6):747-761.
[34]Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL].(2013-01-16)[2023-06-26].https://doi.org/10.48550/arxiv.1301.3781.
[35]Pennington J, Socher R, Manning C D. GloVe: global vectors for word representation[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2014:1532-1543.
[36]Mac Kim S, Valitutti A, Calvo R A. Evaluation of unsupervised emotion models to textual affect recognition[C]//Proc of NAACL HLT Workshop on Computational Approaches to Analysis and Generation of Emotion in Text.Stroudsburg,PA:Association for Computational Linguistics,2010:62-70.
[37]Barros P, Barakova E, Wermter S. Adapting the interplay between personalized and generalized affect recognition based on an unsupervised neural framework[J].IEEE Trans on Affective Computing,2020,13(3):1349-1365.
[38]Seyeditabari A, Tabari N, Zadrozny W. Emotion detection in text:a review[EB/OL].(2018-06-02)[2023-06-26].https://doi.org/10.48550/arxiv.1806.00674.
[39]Balahur A, Hermida J M, Montoyo A, et al. EmotiNet: a knowledge base for emotion detection in text built on the appraisal theories[C]//Proc of the 6th International Conference on Applications of Natural Language to Information Systems.Berlin:Springer-Verlag,2011: 27-39.
[40]Strapparava C, Mihalcea R. Semeval-2007 task 14: affective text[C]//Proc of the 4th International Workshop on Semantic Evaluations.Stroudsburg,PA:Association for Computational Linguistics,2007:70-74.
[41]Vijayaraghavan S, Basu D. Sentiment analysis in drug reviews using supervised machine learning algorithms[EB/OL].(2020-03-21)[2023-06-26].https://doi.org/10.48550/arxiv.2003.11643.
[42]Wang Wenbo, Chen Lu, Thirunarayan K, et al. Harnessing Twitter “big data” for automatic emotion identification[C]//Proc of International Conference on Privacy,Security,Risk and Trust and Internatio-nal Conference on Social Computing.Piscataway,NJ:IEEE Press,2012:587-592.
[43]Wu Yujin, Daoudi M, Amad A, et al. Transformer-based self-supervised multimodal representation learning for wearable emotion recognition[J/OL].IEEE Trans on Affective Computing.(2023-04-03).https://doi.org/10.1109/TAFFC.2023.3263907.
[44]Pan Yu, Hu Yanni, Yang Yuguang, et al. Gemo-clap: gender-attribute-enhanced contrastive language-audio pretraining for accurate speech emotion recognition[EB/OL].(2023-09-13).https://arxiv.org/abs/2306.07848.
[45]Lipton Z C, Berkowitz J, Elkan C. A critical review of recurrent neural networks for sequence learning[EB/OL].(2015-10-17).https://arxiv.org/abs/1506.00019.
[46]Madasu A, Rao V A. Sequential learning of convolutional features for effective text classification[EB/OL].(2019-09-12).https://arxiv.org/abs/1909.00080.
[47]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[48]Chen S Y, Hsu C C, Kuo C C, et al. Emotionlines: an emotion corpus of multi-party conversations[EB/OL].(2018-05-30).https://arxiv.org/abs/1802.08379.
[49]Cheng Huihui, Tang Xiaoyu. Speech emotion recognition based on interactive convolutional neural network[C]//Proc of the 3rd International Conference on Information Communication and Signal Proces-sing.Piscataway,NJ:IEEE Press,2020:163-167.
[50]Lyu Huilian, Hu Weiping, Wang Yan. Speech emotion recognition based on BLSTM and CNN feature fusion[C]//Proc of the 4th International Conference on Digital Signal Processing.New York:ACM Press,2020:169-172.
[51]Zhang Shiqing, Zhao Xiaoming, Tian Qi, et al. Spontaneous speech emotion recognition using multiscale deep convolutional LSTM[J].IEEE Trans on Affective Computing,2019,13(2):680-688.
[52]Yi Yufan, Tian Yan, He Cong, et al. DBT: multimodal emotion re-cognition based on dual-branch transformer[J].The Journal of Supercomputing,2023,79(8):8611-8633.
[53]Henderson M, Casanueva I, Mrkic' N, et al. Convert: efficient and accurate conversational representations from transformers[EB/OL].(2020-04-29).https://arxiv.org/abs/1911.03688.
[54]Henderson M, Vulic' I, Gerz D, et al. Training neural response selection for task-oriented dialogue systems[EB/OL].(2019-06-07).https://arxiv.org/abs/1906.01543.
[55]Miao Yisheng, Zhang Liu. Emotional dialogue generation with emotion embedding[C]//Proc of the 5th International Conference on Advanced Electronic Materials,Computers and Software Engineering.Piscataway,NJ:IEEE Press,2022:201-205.
[56]Sordoni A, Galley M, Auli M, et al. A neural network approach to context-sensitive generation of conversational responses[EB/OL].(2015-06-22).https://arxiv.org/abs/1506.06714.
[57]Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[EB/OL].(2016-05-19).https://ar-xiv.org/abs/1409.0473.
[58]Serban I, Sordoni A, Lowe R, et al. A hierarchical latent variable encoder-decoder model for generating dialogues[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:3295-3301.
[59]Zhang Yizhe, Sun Siqi, Galley M, et al. DialoGPT: large-scale ge-nerative pre-training for conversational response generation[EB/OL].(2020-05-02).https://arxiv.org/abs/1911.00536.
[60]Zhao Xueliang, Wu Wei, Xu Can, et al. Knowledge-grounded dialogue generation with pre-trained language models[EB/OL].(2020-10-17).https://arxiv.org/abs/2010.08824.
[61]Liu Ye, Maier W, Minker W, et al. Empathetic dialogue generation with pre-trained RobERTa-GPT2 and external knowledge[M]//Sto-yanchev S, Ultes S, Li H. Conversational AI for Natural Human-Centric Interaction.Singapore:Springer,2022:67-81.
[62]Chen Ensi, Zhao Huan, Li Bo, et al. Affective feature knowledge interaction for empathetic conversation generation[J].Connection Science,2022,34(1):2559-2576.
[63]Qian Yushan, Wang Bo, Lin T E, et al. Empathetic response generation via emotion cause transition graph[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Pisca-taway,NJ:IEEE Press,2023:1-5.
[64]Cai Linqin, Dong J, Wei Min. Multi-modal emotion recognition from speech and facial expression based on deep learning[C]//Proc of Chinese Automation Congress.Piscataway,NJ:IEEE Press,2020:5726-5729.
[65]Dong Danyang, Ji Ruirui, Mei Yuan. Dual-sequence LSTM multimodal emotion recognition based on attention mechanism[C]//Proc of China Intelligent Robotics Annual Conference.Berlin:Springer,2022:145-157.
[66]Martin O, Kotsia I, Macq B, et al. The enterface05 audio-visual emotion database[C]//Proc of the 22nd International Conference on Data Engineering Workshops.Piscataway,NJ:IEEE Press,2006:8.
[67]Liu Zheng, Kang Xin, Ren Fuji. Dual-TBNet: improving the robustness of speech features via dual-transformer-BiLSTM for speech emotion recognition[J].IEEE/ACM Trans on Audio, Speech, and Language Processing,2023,31:2193-2203.
[68]Firdaus M, Singh G V, Ekbal A, et al. Affect-GCN:a multimodal graph convolutional network for multi-emotion with intensity recognition and sentiment analysis in dialogues[J/OL].Multimedia Tools and Applications.(2023-04-27)[2023-06-26].https://doi.org/10.1007/s11042-023-14885-1.
[69]Rashkin H, Smith E M, Li M, et al. Towards empathetic open-domain conversation models: a new benchmark and dataset[EB/OL].(2019-08-28).https://arxiv.org/abs/1811.00207.
[70]Chen Yirong, Fan Weiquan, Xing Xiaofen, et al. CPED:a large-scale Chinese personalized and emotional dialogue dataset for conversational AI[EB/OL].(2022-05-29).https://arxiv.org/abs/2205.14727.
[71]Li Yanran, Li Ke, Ning Hongke, et al. Towards an online empathetic chatbot with emotion causes[C]//Proc of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2021:2041-2045.
[72]Liu Siyang, Zheng Chujie, Demasi O, et al. Towards emotional support dialog systems[EB/OL].(2021-06-02).https://arxiv.org/abs/2106.01144.
[73]Li Yanran, Su Hui, Shen Xiaoyu, et al. Dailydialog: a manually labelled multi-turn dialogue dataset[EB/OL].(2017-10-11).https://arxiv.org/abs/1710.03957.
[74]Zhu Yukun, Kiros R, Zemel R, et al. Aligning books and movies: towards story-like visual explanations by watching movies and reading books[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:19-27.
[75]Zhang Saizheng, Dinan E, Urbanek J, et al. Personalizing dialogue agents: I have a dog, do you have pets too?[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2204-2213.
[76]Wu Yu, Wu Wei, Xing Chen, et al. Sequential matching network:a new architecture for multi-turn response selection in retrieval-based chatbots[EB/OL].(2017-05-15).https://arxiv.org/abs/1612.01627.
[77]Poria S, Hazarika D, Majumder N, et al. MELD:a multimodal multi-party dataset for emotion recognition in conversations[EB/OL].(2019-06-04).https://arxiv.org/abs/1810.02508.
[78]Zadeh A A B, Liang P P, Poria S, et al. Multimodal language analysis in the wild:Cmu-mosei dataset and interpretable dynamic fusion graph[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2236-2246.
[79]Zang Xiaoxue, Liu Lijuan, Wang Maria, et al. PhotoChat:a human-human dialogue dataset with photo sharing behavior for joint image-text modeling[EB/OL].(2021-07-06).https://arxiv.org/abs/2108.01453.
[80]Busso C, Bulut M, Lee C C, et al. IEMOCAP:interactive emotional dyadic motion capture database[J].Language Resources and Evaluation,2008,42:335-359.
[81]Lin C Y. ROUGE: a package for automatic evaluation of summaries[M]//Text Summarization Branches Out.Stroudsburg,PA:Association for Computational Linguistics,2004:74-81.
[82]Banerjee S, Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg, PA: Association for Computational Linguistics,2005:65-72.
[83]Tang Zhihao, Wu Xiaowei, Zhang Yuhao, et al. Towards a better understanding of randomized greedy matching[C]//Proc of the 52nd Annual ACM SIGACT Symposium on Theory of Computing.New York:ACM Press,2020:1097-1110.
[84]Wieting J, Bansal M, Gimpel K, et al. Towards universal paraphrastic sentence embeddings[EB/OL].(2016-03-04).https://arxiv.org/abs/1511.08198.
[85]Bengio Y, Ducharme R, Vincent P. A neural probabilistic language model[J].The Journal of Machine Learning Research,2000,3:1137-1155.
[86]Zen H, Tokuda K, Kitamura T. Reformulating the HMM as a trajectory model by imposing explicit relationships between static and dynamic feature vector sequences[J].Computer Speech & Language,2007,21(1):153-173.
[87]Jurccek F, Keizer S, Gaic M, et al. Real user evaluation of spoken dialogue systems using Amazon Mechanical Turk[C]//Proc of the 12th Annual Conference of the International Speech Communication Association.2011:3061-3604.