999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大語言模型的多任務生成式重構對話情緒識別

2025-07-28 00:00:00龍禹辰勾智楠陳宇欣秦樂
計算機應用研究 2025年7期
關鍵詞:語句檢索話語

中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)07-006-1964-08

doi:10.19734/j. issn. 1001-3695.2024.12.0486

Abstract:Emotionrecognition inconversation(ERC)isakey task indialogue systems research.However,existing models oftensuferfromoverfittng tospecificdatasetsanddialoguepatersduetothecomplexityofpipelinedsign,hichlimitstheir generalizationability.Toaddress thisisse,thisstudyproposedamulti-task generativeemotionrecognitioninconversatin(MGERC)model basedonlarge language models.The model introduced two auxiliarytasksbasedon pre-trained large language models;speakeridentifcationandtopic-basedemotionprediction.Thespeakeridentificationtaskaimed toimplicitlymodelthe relationshipsbetweeconversationaloles,lpingthemodelbeterunderstandmotionalxchangesbetween diffrentparticipants.The topic-based emotionprediction task predicted theglobalthemeoftheconversation,capturing thepotentialconnectionbetweentopicsandemotions,thusimproving emotionrecognitionaccuracybyincorporatingcontextualinformation.Aditionaly,M-GERCintroducedaknowledgeretrieval modulethatretrieveddomain-specificknowledgeandintegratedexteral knowledge to further enhance the model’sunderstanding ofcontext.Experimentalresultsshow that M-GERC significantlyoutperforms existing mainstream ERC models,achieving W-F1 improvements of 3.1% , 4.3% and 3.7% on the DailyDialog, MELD and EmoryNLP datasets,respectively.

Key Words:emotion recognition in conversation;large language models;topic;external knowledge

0 引言

“如果想要真正的智能機器,那么必須讓它們能夠理解情緒,而不僅僅是執行特定的任務。”正如Minsky[在《Thesocie-tyofmind》中所強調的內容,賦予機器在不同環境中理解情緒能力的努力一直是研究人員持續關注的焦點。智能技術中的情緒識別在自然語言處理(NLP)領域引起了極大的興趣,特別是在人機交互和對話系統2.3領域。對話中的情緒識別(ERC)由于其在增強對話體驗和優化對話系統功能方面具有巨大的潛力,已成為NLP中的一個突出課題。

對話中每個句子的情緒深受上下文的影響,當前句子的情緒傾向與上下文對話的主題聯系尤為密切。例如,圖1(a)展示相同話語的解釋可能會根據所涉及的具體場景而有所不同。此外,某些主題背景傾向某種主要情緒(積極、消極和中性)的情緒反應,如圖1(b)展示了不同主題與對話中出現的顯著關系。因此,在ERC任務中分析上下文主題是十分重要的,越來越多的學者關注對話話語中的主題信息來進行情緒分析。盡管這些研究取得了一定的進展,但是效果尚不理想,并且基于大語言模型(largelanguagemodels,LLMs)的ERC方法未對對話主題信息進行有效利用,這是當前學術界和產業界尚未探索的研究方向。不同說話者感知和表達情緒存在顯著差異[4]例如,一個樂觀的人可能會用幽默的方式表達相同的信息,而一個更為嚴肅的人可能會傳達出嚴厲或批判的情緒。Kim等人[5]的研究表明,在ERC任務中結合說話者特征,可以更好地捕捉對話中的情緒變化。因此,引入說話人識別可提升情緒識別模型的準確性,捕捉對話中情緒表達的微妙差異,使模型更能理解情緒的多樣性。

圖1主題與情緒聯系 Fig.1Connection between topics and emotions

檢索知識庫信息一直是ERC任務有效的方法,核心思想是找到與待識別語句最相似的語句并查看其情緒標簽。Reim-ers等人[提出的基于BERT模型構建的Sentence-BERT采用孿生網絡和三元組網絡結構,以生成語義上有意義的句子嵌入,通過余弦相似度計算語句相似度。另外,對話者之間共享的常識知識也是ERC任務中不可或缺的信息。如Ghosal等人[提出COSMIC模型試圖整合常識知識,但其缺乏分析上下文信息的過程。不僅如此,知識庫的開發擴展了社會知識,Sap等人8設計ATOMIC知識庫,其包括事件為中心的因果關系和個體的心理狀態,被認為有助于情緒理解。盡管基于ATOMIC知識庫的常識推理模型如 COMET[9] 已被開發,但其所應用的場景較為局限且處理多元化信息的能力有限。本文通過檢索查詢與補充結合的方法,基于LLMs,即時檢索出與待識別語句具有相似情緒的語句,利用知識庫中的背景信息來補充當前語境中的情緒理解,能夠在多樣化和復雜的對話情境中發揮重要作用。LLMs的出現顯著提升了對話生成的質量,通過使用生成架構,LLMs能夠統一不同任務的輸入和輸出。0penAI[10] 等成功的應用不斷增強LLMs在自然語言推理任務的效果。然而,盡管這些模型具備強大的能力,Wei等人[]研究表明要使其在特定子任務中表現出色,仍然需要高質量的提示和精心的設計來填補推理空白。基于上述研究分析,本文提出一個基于LLMs的多任務生成重構對話情緒識別模型M-GERC來解決上述問題。M-GERC主要分為兩個階段:a)通過識別說話人和主題預測作為輔助任務來細化預訓練過程;b)M-GERC中含有一個簡單而高效的檢索模塊,其充分地利用所有的信息(對話歷史、主題背景、外部知識),結合在ATOMIC知識庫預訓練的COMET常識知識推理模型來豐富檢索后的對話文本,在知識庫中檢索出與當前語句最相似的句子以及對應的情緒。最后,結合檢索的情緒信息通過預訓練后的LLMs對當前話語進行高效的情緒識別。M-GERC在三個基準數據集上的嚴格評估,驗證了該模型的性能和優勢。據本文所知,M-GERC是第一個在基于LLMs重構ERC任務中引入主題信息。

綜上所述,本文貢獻包括:a)提出一個基于LLMs的多任務生成重構對話情緒識別模型(M-GERC),通過設計多樣化的任務指令,充分利用LLMs以生成式任務的方式識別對話中的情緒;b)引入了說話人識別任務和主題預測任務作為輔助任務,與對話情緒識別任務進行聯合優化,以便更好地學習對話中的主題與情緒之間的潛在聯系;c)提出檢索查詢與補充結合的知識增強方法,并設計一個基于知識庫的檢索模塊生成更有效的提示信息,結合外部常識知識增強LLMs的推理能力;d)M-GERC通過利用LLMs強大的推理能力在三個公開的數據集上進行實驗,結果表明提出方法優于基準模型。

1相關工作

1.1對話系統中的主題信息

對話系統中各個任務,理解對話的主題信息具有重要意義。在LLMs出現之前,大多數研究采用特征提取方法獲取主題表示。如 ΔZhu 等人[12]提出了TODKAT模型,利用變分自編碼器的編碼器部分來提取代表主題的潛在變量。Li等人[3提出了TMKF模型,通過VAE、關系圖卷積等技術提取話語的常識知識與對話話題信息,提升對話情感識別模型的準確性。而主題信息大多數結合對話生成,在近期對話生成領域中, Xu 等人提出了DeTiME模型,通過集成基于編碼器-解碼器的大語言模型來增強主題建模,生成具有高度聚類性和語義連貫性的主題,同時實現基于主題的文本生成。雖然這些模型在對話領域取得了較好的效果,但它們忽略了主題和情緒之間潛在的相關性,并且在ERC領域中基于LLMs對主題信息的探索尚不清楚。

1.2利用常識知識識別對話情緒

知識庫的應用對對話場景產生了影響,尤其在情緒檢測等常識任務的整合中。在ERC任務中,基于常識的方法旨在通過直接使用或調整原始的Transformer塊,在會話情境中建立持久的情緒相關性。其中,Sap等人8提出了COSMIC模型,通過將常識知識納入門控循環中,COSMIC有效地捕獲了與內部、外部和意圖狀態相關的特征,從而為情緒檢測等任務提供了更全面的背景。相比之下,Zhong 等人[15]提出的KET模型提高了利用常識知識的效率,其利用了一個知識豐富的Trans-former架構,通過一個分層的自注意機制和上下文圖注意機制,整合了常識知識,從而提高了在對話場景中的情緒識別等任務中的表現。Hao等人[16]提出DCEG 模型,通過引人對話話語結構和社會常識知識來增強對話情感識別模型的表現,并結合圖卷積網絡構建圖結構以更好地理解話語間的情感交互。

在已有研究的基礎上,結合常識知識可以大大提高該模型的情緒識別能力。本文采用廣泛使用的ATOMIC知識庫來訓練自適應生成模型COMET,以補充檢索知識庫的信息。

1.3利用生成模型識別對話情緒

在LLMs出現前,利用生成模型實現ERC任務屢見不鮮。Ide等人1實現了一種針對BART的多任務訓練方法,強調以情緒識別為輔助任務的反應生成。在此框架上,Li等人[1引入了CoG-BART模型,利用預先訓練的BART編碼器-解碼器子作為基礎,將話語生成作為輔助情緒識別的任務。同樣,Zhu等人[12]提出了TODKAT模型,利用VAE生成模型的編碼器來提取代表主題的潛在變量,突出了主題與情緒之間的顯著關系,并提取常識知識信息,通過整合主題和外部知識來增強ERC的方法。然而,BART和VAE這種生成模型在情緒文本生成過程中存在缺乏保持連續動態引導的缺陷,導致情緒表達前后的文本與上下文無關或不連貫,最終削弱了模型的情緒表達能力。

隨著LLMs的發展,與BART等生成模型相比,LLMs更為高效,在各種任務中都表現出了令人印象深刻的性能。GPT-3[11] 、LLaMA[19]和 GPTA[20] 等LLMs的出現顯著改變了NLP的格局。Zhang等人[21提出DialogueLLM,利用LLMs高效的訓練能力,在情感對話數據上進行微調提升情感識別的精度。Lei等人[22]提出InstructERC作為一種新的方法,通過利用LLM重新定義生成框架,將注意力從ERC任務轉移到歧視任務。然而,InstructERC未能充分考慮常識知識對ERC任務的影響。在此基礎上, Fu[23] 考慮說話人的反應和意圖提出CKERC,通過歷史發言設計提示大型語言模型生成對話者的常識來幫助模型識別情緒。接著, Fu[24] 根據說話人的心理和行為特征提出LaERC-S模型,通過引入兩階段學習,使得模型能夠更好地處理復雜對話場景中的情感動態來提高情緒預測的準確性。但是其效果也是針對特定條件,未考慮主題與情緒潛關系,顯然不能滿足大多數的情景語句,主題、外部知識和說話人特征都影響對話情緒識別的準確性。因此,本文提出一個基于LLMs的多任務生成重構對話情緒識別模型M-GERC,通過設計一個基于知識庫的檢索模塊生成更有效的提示信息,并引人說話人識別和主題預測任務更深入探究LLMs在ERC任務的表現。

2 本文方法框架

本文M-GERC基于知識庫結合檢索模塊提高知識選擇的合理性,生成符合邏輯的回應。本章首先簡要介紹了ERC的任務定義。接下來討論了M-GERC的框架,如圖2所示,包括兩個輔助情緒對齊任務和一個常識知識檢索模塊。

兩個輔助任務分別是說話人識別任務和主題預測情緒任務,先通過說話人識別任務預熱LLMs參數,再將主題預測情緒任務和主任務聯合訓練得到最后LLMs參數,通過兩個輔助任務使得LLMs學習說話人特征以及主題和情緒之間的潛在聯系。知識檢索模塊基于四個數據集內容構建知識域,使用Sentence-BERT來找到語義最相似的檢索,并用在ATOMIC知識庫預先訓練好的COMET模型補充話語的常識信息,得到一個知識相似語句作為LLMs的提示信息。最后,介紹了該框架的主任務ERC的訓練和推理過程。如圖2右側展示實現流程,具體流程如算法1所示。

算法1M-GERC 實現流程

輸入:對話內容 U=[u1,u2,…,un] 、知識域 Ddomain"、LLMs、COMET。輸出:所有語句的情緒預測 ε=[ε1,ε2,…,εn] 。a)for ui"in U ://說話人識別任務生成說話人識別指令并執行,獲取說話人標簽預測結果;

說話人識別訓練;return θp

b)for ui in U ://主題預測情緒任務生成主題預測指令;預測主題標簽;存儲預測內容 ui,Le 主題預測情緒與主任務聯合訓練;retun θall

c)for ui in U ://知識檢索模塊使用 Sentence-BERT對 ui 和 Ddomain 進行編碼;計算余弦相似度,選擇與 ui 最相似的知識實例 drvl ·使用COMET模型生成知識補充文本 ui,D return ui,D

d)for ui in U ://推理話語情緒構造輸入到LLM返回情緒標簽;return ε

2.1 問題定義

為了更好地傳遞和利用預先訓練過的LLMs的推理能力,利用文獻[25]的思路,將ERC任務重構為 seq2seq 形式,并通過微調LLMs來求解。假設對話文本 U=[u1,u2,…,un] 長度為 n ,對話中包括 M 個說話者 p1,p2,…,pM(M≥2) ,以及相應的說話者 pK(ui) 所說的每個話語 ui 。利用函數 K 建立每個話語與其對應的說話者之間的映射。

2.2 LLMs指令

M-GERC中構建的有效指令可以彌補將LLMs應用到特定的NLP子任務時的差距。本節展示了本文針對ERC主任務的指令細節以及輸入對話文本的標準化格式,指令設計的目標是根據不同任務設計精確的指令,ERC主任務指令如圖3所示。另外,針對各個輔助任務設計的指令在2.3節具體給出,引人知識檢索模塊后主任務指令模板由2.5節給出。

2.2.1 輸入語句

輸入一個對話中的話語,包含說話人信息和話語信息,這是需要模型判斷情緒的當前話語,記為 ui 。示例如圖3所示,當前對“speaker_O:Ohmygod,itwas just last weekend\"這句話進行情緒識別。

2.2.2歷史內容

為了在實際的ERC場景中有效建模上下文,本文方法引入了一個反映歷史窗口大小的超參數 w ,用于表示歷史對話的具體回合,包括當前的話語及相應的說話者信息。在目標話語情緒識別問題中,歷史內容記為 ui,H ,示例如圖3所示,歷史內容為:“speaker_O:Guesswhat?、speaker :What?、speaker_O:Ididit,Iasked her to marryme.\"等。

2.2.3標簽語句

為了提升情緒識別模型的準確性,本文方法為模型設定了明確的角色身份,并要求其以“情緒專家”的視角進行分析,從而幫助模型更好地專注于情緒判斷任務。此外,模型的輸出被限制在有限的情緒標簽范圍內,并通過引導模型關注當前被識別的話語,進一步提高識別效果。具體地,標簽語句記為 ui,L ,示例如圖3所示,“Pleaseselecttheemotional labelof〈speaker_0:Oh my god,it was just last weekend.〉from{happy,sad,neutral,angry,excited,frustrated}”

2.3 情緒輔助任務

為了更好地捕捉對話中的對話角色關系以及主題和情緒潛在聯系,通過設計專門的指令來提示LLMs,通過兩個輔助任務(說話者識別任務和主題預測情緒任務)協助主任務實現情緒對齊。主任務的目標是完成對話情緒識別,而引入輔助任務后,模型的訓練過程被劃分為兩步:a)通過說話者識別任務對LLMs參數進行預熱,幫助模型建立對話角色之間關系的初步理解;b)將主任務(對話情緒識別)與輔助任務(對話主題預測情緒)聯合訓練,進一步建模對話主題和情緒之間的潛在聯系,從而提升模型的整體性能。經過步驟b)訓練后的模型參數即為最終大語言模型的設置,如圖4所示。

2.3.1說話人識別任務

文獻[26]表明不同說話者之間的情緒表達是不同的。以往的模型使用了基于說話者的掩蔽注意模塊或多個GRU等技術來捕捉不同角色的情緒表達特征。這種任務中的情緒表達建模也可以通過M-GERC轉換為生成性任務。為了使LLMs能夠捕捉不同個體的說話風格,模型在給定的話語下識別相關的說話者,而不考慮歷史背景下對說話者進行訓練。對于給定的數據集,提供了一組預定義的說話者標簽。與主任務一致,該任務的指令文本輸入 xip 構造如下:

\" Now you are an expert of sentiment and emotional analysis. Please select the speakerlabel of the utterance ?Speaker;ui?from?p1,p2,…,pM??

訓練說話人識別任務的損失函數如下:

其中 σ:μi 表示給定的說話者識別任務輸人樣本 xip 對應的說話者標簽的標記; N 表示數據集中的話語總數; θ* 表示LLMs在不同時期的參數。該任務的指令模板如圖5所示。

2.3.2主題預測情緒任務

在日常對話中,個體之間錯綜復雜的關系會對后續對話的情緒狀態產生重大影響。先前的研究試圖通過構建對話關系圖和利用復雜的圖神經網絡來模擬這些關系的情緒影響以解決這個問題。雖然這些模型在某些領域取得了一定的效果,但它們都忽略了主題和情緒之間的相關性。并且這些方法通常與高度復雜的數據預處理管道相關聯,容易在某些數據集上進行過擬合。為了解決這些問題,提出了一個主題預測情緒任務的生成框架,隱式地捕捉了對話情緒和主題之間的相互作用。主題預測情緒任務包括兩個階段,第一階段通過說話人識別任務預熱的LLMs預測主題,輸入包括輸入語句、歷史內容和主題預測指令語句三個部分,其模板如圖6所示。LLMs生成的主題內容被表示為 ui,Ht ,要求不超過10個單詞,其指令表示ui,Lt

\"Based on the above historical utterances,the next utterance is spoken by ?PK(ui) ,please generate the topic in less than 1O words: \"

在第二階段,通過生成的主題內容 ui,Ht 進一步建模主題與情緒之間的潛在聯系。為了和主任務意圖保持一致,主題情緒預測指令根據輸人話語、標簽話語、對話歷史內容(用 ui,He 表示)組成,其中歷史內容窗口大小為 w ,且不包括當前需要識別的語句,如圖6所示。與主任務不同的是,該任務通過主題影響進行情緒預測,其標簽語句根據任務不同進行更改,記為ui,Le ,如下所示。

\"Based on the above historical utterances,the next utterance is spoken by ?PK(ui)? ,the possible topic of the next utterance : ?Topic(ui)?

Predict the emotion states of ?PK(ui)?from?e1,…,eo? =因此,第二階段主題對情緒影響預測的總體輸入為

其中: ui?ui,Ht?ui,He 和 ui,Le 表示當前話語、主題內容、歷史內容、預測情緒標簽任務;[;]表示文本連接。

情緒影響預測任務的損失計算如下:

其中: 表示與格式化的輸入話語 xi 對應的文本標簽 ei 的情緒標簽標記。

2.3.3聯合訓練

在連接大語言模型后,給定輸入話語 xi ,模型將返回生成的日志 gi 和整個句子的文本 yi ,包括輸入和輸出的tokens。這個過程可以用式(4)表示。

yi,gi=LLM(xi,θall

其中: θ 是訓練LLMs的參數。LLMs預測生成的文本 yi 的每個標記 γi 的條件概率 p(γi∣xi,θ) ,直到結束符號〈eosgt;被輸

出。對于日志 gi∈RL×V ,其中 L 和 V 分別表示整個句子的長度和LLMs使用的詞匯的大小。

根據LLMs的原始訓練方法,采用下一個token預測損失來測量模型的輸出誤差。因此,主任務的損失計算記為 Lmain

通過上述方法將主題預測情緒任務與主任務聯合優化。同時,使用ERC主任務和主題預測任務對LLMs進行微調,以提高整體表現。本階段的訓練損失為 Lmain+α×Le ,其中: α 是一個超參數,用于調整第二次整體訓練損失中主題影響情緒預測任務損失的權重。具體來說,主任務負責識別當前對話語句的情緒,而輔助任務通過捕捉生成主題與情緒之間的潛在關系,為模型提供額外的監督信號,從而提升整體性能。這種設計使得生成的主題不僅可以幫助情緒識別任務的意圖保持一致,還能通過多任務學習提升模型對復雜情緒關系的理解能力。

2.4知識檢索模塊

為了更好地整合情緒信息以輔助推理,設計一個知識檢索模塊,如圖7所示,采用三個數據集中的對話內容以及該話語對應的情緒構建知識域,記為 Ddomain 。使用Sentence-BERT方法從知識庫中檢索與當前話語語義最為相似的語句,為模型提供相關的背景信息。基于ATOMIC知識庫預訓練的COMET豐富該語句的知識信息,這種結合知識的檢索模塊提高大語言模型示例的準確性,具體流程如下。輸人當前語句 ui 和知識域。Sentence-BERT對輸入語句進行編碼,并檢索出與語句最相似的若干候選句子,其通過相似性計算對候選句子排序,選擇 top-k 個(默認 k=1 )最相關語句作為輸人,為后續模塊提供相關語境。使用COMET對top-k檢索出的語句進行常識性知識補充,生成豐富的上下文和語義信息,提供因果關系、意圖和反應線索。最終,整合知識增強后的數據,進一步輸入到M-GERC模型進行訓練或推理。訓練和推理過程采用不同的標簽訓練,在訓練階段,知識域由相似標簽訓練數據構成,而在推理階段,知識域由所有標簽訓練數據構成。訓練階段僅使用相似標簽的知識域,目的是為模型提供針對性強、與當前情緒標簽最相關的數據,從而提升模型對特定情緒類別的辨別能力。推理階段擴展到全標簽數據域,讓模型在未知情緒場景下具有更好的泛化能力,確保其能在多樣化的對話中精準預測情緒。

為了執行檢索,使用Sentence-BERT(SBERT)來找到語義最相似的 ERC 示例 drvl 。通過 SBERT將目標話語 ui 與 Ddomain 中的每個元素 dj 生成獨立的CLS嵌入。再使用余弦相似度對所有目標演示對進行排序,選擇得分最高的對作為最相關的元素 drvl 。對這一過程的抽象數學描述如下:

在這個基礎上,對檢索出的語句進行知識補充,使用ATOMIC知識庫預先訓練的COMET模型根據檢索出的語句drvl 生成知識補充后的話語,這種方法能夠結合輸入的情境信息和所需的關系類型(如 xIntent、xReact或oReact)[8],提供自然語言的輸出以更好地識別相似情緒。檢索后知識生成部分的文本輸入記為 ui,D ,公式如下所示。

ui,D=COMET(drvl

2.5 訓練和推理

在上一節,通過兩個輔助任務微調LLMs參數以提高整體表現。訓練損失為 Lmain+α×Le,α 超參數與上一節保持一致。

在推理的過程中,通過將2.4節基于相似度檢索的示例增加到ERC主任務指令模板,作為LLMs的上下文參考,優化提示工程。M-GERC中構建的有效知識檢索模板可以彌補將LLMs應用到特定的NLP子任務時的差距。推理過程給語言模型的指令輸人包括目標話語、歷史內容、標簽語句和檢索實例四個部分,如圖8所示。在構建檢索模板后,對主任務ERC的輸入進行了簡化:

xi=[ui,I;-ui,H;-ui,L;-ui,D]

其中:對于給定的一個句子 ui ,則 ui,I?ui,H,ui,L 和 ui,D 表示指令、歷史內容、標簽語句、演示知識檢索;[;]表示文本連接。

基于2.3節預訓練后的LLMs的參數 θall ,在連接檢索模板drvl 后給出輸入話語 xi ,模型返回日志 gi 和生成的整個句子的文本 yi ,包括輸入和輸出tokens。這一點可以用下式來表示:

yi,gi=LLM(xi,θall

其中: θ 是訓練LLMs的參數。LLMs預測生成的文本 yi 的每個標記 γi 的條件概率 p(γi∣xi,θ) ,直到結束符號被輸出。對于日志 gi∈RL×V ,其中 L 和 V 分別表示整個句子的長度和LLMs使用的詞匯的大小。采用下一個token預測損失來測量模型的輸出誤差。引人知識檢索模塊后的ERC訓練階段的損失計算記為 Lfinal ,定義如下:

3實驗

3.1數據集和評價指標

本文實驗是在三個公開的數據集中進行的。三個數據集的統計數據見表1。數據集的詳細信息介紹如下。

DailyDialog[27]是從日常互動中匯編而來的,并使用埃克曼的六種主要情緒類別進行注釋,分別為憤怒、厭惡、恐懼、高興、悲傷和驚訝,另外,任何模糊的情緒都被歸類為中性,總共歸類為7種情緒。 MELD[28] 是一個來自著名電視劇《老友記》的多模式集合,其文本數據集包括超過1400個對話和13000個句子。該數據集中的情緒分類包括高興、憤怒、恐懼、厭惡、悲傷、驚訝和中性七種情緒。EmoryNLP[29]也是從電視劇《老友記》中收集的數據集。該數據集分為中性、高興、平靜、堅定、害怕、瘋狂和悲傷七個不同的情緒類別。

為了保持與基準方法的一致性,使用加權 F1 ( W-F1 )和mirco- ?F1 來評估實驗中的所有模型。由于這些數據集中嚴重的類不平衡, W-F1 比傳統的精度(Acc)指標更準確。此外,micro- ?F1 通過考慮每個樣本的貢獻,提供了更全面的評價。因此,為了評估M-GERC模型的有效性,對三個數據集的 W-F1 和mirco- ?F1 得分進行了比較分析。

3.2 實驗設置

本文實驗過程中使用的硬件設備和軟件環境如表2所示。實驗部分基于Autodl平臺中的4塊RTXA100GPU加速訓練。實驗中使用ChatGLM-6B和Llama2-7B作為LLMs的基底模型。考慮到參數高效微調的效率和有效性,采用LoRA[30微調,并在自注意層后插入循環適配器,并將適配器的維度設置為16,學習速率設置為2E-4。所有參微調的學習速率設為2E-5。在所有實驗中,DailyDialog、MELD和EmoryNLP的組織窗口分別設置為5、12、20。檢索參數top ?k 自然設置為top1。在訓練時,超參數 α 被設置為0.1。如果沒有指定,則在推理過程中使用貪婪搜索。此外,實驗是在沒有超參數搜索的情況下,在 4×80 GB的NVIDIA-A100-GPU上進行FP16精度訓練,取三次運行的平均值。

3.3 基準模型

本節將本文模型與DialogueGCN、KET、COSMIC、TODKAT、CoG-BART和InstructERC六個解決ERC任務的經典基準模型進行比較。以下詳細描述了幾種基準模型:

DialogueGCN[31]是一種創新的對話建模方法,通過從說話者的互動中創建圖表來構建對話結構。其核心思想是利用圖卷積網絡和圖卷積網絡對說話者進行編碼,以便更全面地捕捉會話中的信息。該模型還通過結合全局情境和說話者狀態來預測情緒標簽,從而能夠更好地完成情緒分析等任務。

COSMIC[8是一種先進的情緒檢測方法,利用ATOMIC來提高模型的性能。COSMIC利用ATOMIC和COMET將檢索到的常識知識注人GRU,有效地提高了情緒檢測的性能,同時清晰地捕捉了內部、外部狀態和意圖狀態的關聯特征。

KET[15]是一種高級的對話模型,它首先將從概念網絡中提取的常識知識和從情緒詞匯中提取的情緒信息整合到會話文本中。該模型利用一個變壓器編碼器來有效地處理過去的話語對當前對話的影響。該模型集成了常識知識,并利用層次的自注意機制和上下文軟件圖注意過程,使其在對話中更全面地考慮上下文和情緒信息。

TODKAT[12]利用生成模型VAE的編碼器—解碼器結構,增加一個主題檢測層捕捉主題信息,并利用常識知識增強模型理解上下文信息的能力,提高ERC任務的準確率。

CoG-BART[1]使用預先訓練好的編碼器-解碼器模型BART作為主要結構。引入了輔助任務來生成響應,以增強對上下文信息的理解。

InstructERC[21]將情緒識別任務從傳統框架改為基于大型語言模型的生成式框架。它通過引入檢索模板整合對話信息,添加說話人識別和情緒預測任務建模角色關系,并統一情緒標簽以適應實際應用場景。

3.4對比實驗結果與分析

將M-GERC與六個基準模型在DailyDialog、MELD和Emo-ryNLP數據集上的表現進行比較,分析其在W ?F1 和micro ?F1 指標上的優勢,如表3所示。值得注意的是,表中顯示的Instruct-ERC和本文M-GERC結果是將LLaMa2-7B作為基底模型,并使用LoRA進行參數微調后的結果。

在 W-F1 值的對比中,M-GERC在三個數據集上均表現優異,尤其是在MELD和EmoryNLP數據集上取得了領先。具體而言,M-GERC在DailyDialog數據集上的W ?F1 提高到0.5406,相較于InstructERC的0.5245提升了1.61百分點。這表明,M-GERC中引入的多任務學習方法,通過結合說話人識別和主題預測任務,有效增強了模型對情緒表達的理解。而在MELD數據集上,M-GERC的W- ?F1 達到了0.7215,相比In-structERC(0.6915)提升了 4.3% ,并顯著超越其他模型,如CoG-BART(O.6487)和TODKAT(O.6133),分別高出 11.3% 和17.6% 。這種提升可能得益于M-GERC利用了對說話人和主題信息的建模,使其更適合處理對話情境中的復雜情緒。在Emo-ryNLP數據集中,M-GERC的 W1 達到0.4228,同樣超越InstructERC(0.4137)和其他基準模型,這說明其多任務框架特別適用于主題信息豐富的對話數據。

表3不同模型對比結果Tab.3Comparison of resultsfromdifferentmodels

在micro- ?F1 值的對比中,M-GERC在所有數據集上均取得了顯著提升。以DailyDialog數據集為例,M-GERC的micro ?F1 為0.6270,相比InstructERC的0.5974提升了約 5.0% ,且明顯優于COSMIC(0.5840)和CoG-BART(0.5704),分別高出7.4% 和 9.9% 。這一表現再次證明了多任務學習在情緒識別任務中的有效性。在MELD數據集中,M-GERC的micro ?F1 為0.6541,較InstructERC(0.6230)提升了 5.0% ,并超過了表現較強的TODKAT(0.6475)。這種改進可能與 M -GERC更全面地捕捉了對話中隱含的情緒線索有關。最后,在EmoryNLP數據集上,M-GERC以0.4514的micro ?F1 分數領先于In-structERC(0.4266)和其他基準模型,提升幅度達 5.8% ,進一步說明了結合說話人和主題任務對情緒建模的益處。

3.5消融實驗結果與分析

3.5.1M-GERC各基底消融實驗結果

從表4的結果可以看出,本實驗分析了不同基底模型(ChatGLM2和LLaMa2)在是否引入LoRA微調情況下的性能表現對比。結果顯示,無論是DailyDialog、MELD還是EmoryNLP數據集,引入LoRA后的模型性能均顯著提升。在DailyDialog 數據集中,未使用LoRA時,LLaMa2的 W?F1 和Micro ?F1 分別僅為0.2245和0.2056,而引入LoRA后,這兩個指標分別提升至0.5406和0.6270,增幅顯著。相比之下,ChatGLM2的W- ?F1 和micro ?F1 在未使用LoRA時也表現不佳(分別為0.2865和0.2736),引人LoRA后雖然提升至0.5142和0.6033,但整體性能仍低于LLaMa2。這表明LoRA微調通過優化模型參數,使其更貼合情緒識別任務需求,能夠有效彌補大語言模型在零樣本生成情況下的局限性。在MELD數據集中,LLaMa2引入LoRA后的 W-F1 和micro ?F1 分別達到0.7215和0.6541,顯著高于ChatGLM2的0.6916和 0.636 5 。同樣,在EmoryNLP數據集中,LLaMa2的W- ?F1 和Micro- ?F1 分別為0.4290和0.4514,也領先于ChatGLM2的0.4126和0.402 1 。這種差距可以歸因于LLaMa2在預訓練架構中更注重長文本建模和復雜上下文關系的捕捉能力,與LoRA的結合進一步放大了其在對話情緒建模任務中的優勢。總的來說,引入LoRA后,模型能夠更好地完成任務相關的特征提取,其中LLaMa2+LoRA+M. -GERC表現最優,驗證了高效微調在大語言模型情緒識別任務中的重要性。

表4 M -GERC各基底消融實驗結果 'ab.4Ablation study results of M-GERC with base models

3.5.2M-GERC各模塊消融實驗結果

從表5的消融實驗結果可以看出,M-GERC模型的不同模塊對最終性能有顯著影響,其中, w/0 表示沒有特定模塊的模型性能,在不同數據集上的表現有所差異。以下對各模塊的實驗結果和原因進行具體分析。

表5M-GERC各模塊消融實驗結果Tab.5Ablation study results of M-GERC modules

在未使用LoRA時,模型依賴于大語言模型的預訓練知識。盡管這些模型在許多任務中具有強大的生成能力并且經過M-GERC多個任務預熱大語言模型的參數,但在情緒識別等任務中,缺乏任務相關的微調仍會導致模型無法有效理解特定任務的特性。LoRA通過高效調整預訓練權重的低秩矩陣,能夠以較少參數更新模型,使其更貼合情緒識別任務的特定需求,同時避免了對整模型的過度調整。在去除主題預測情緒任務后,模型性能普遍下降。例如,在DailyDialog數據集中,W-Fi 從0.5406降至0.5220,在MELD和EmoryNLP數據集中也分別下降至0.7079和0.4098。這表明,主題預測任務對情緒識別的輔助作用顯著,因為主題信息可以提供情緒變化的背景線索,有助于模型更準確地理解話語的情緒表達。

去除說話人識別任務后,性能進一步下降,DailyDialog數據集的W- F1 降至O.5163,MELD和EmoryNLP的 W-F1 分別降至0.7082和 0.401 9 。這表明,說話人信息在對話上下文中具有重要作用,可以幫助模型區分不同說話人的情緒表達。特別是在對話場景中,不同說話人的情緒通常與其角色身份或上下文相關聯,忽略這一信息會導致模型對情緒分類的混淆。

當模型不再采用聯合訓練策略時,性能下降尤為明顯。在DailyDialog數據集中, W-F1 降至0.4829,MELD和EmoryNLP數據集分別降至0.6187和 0.3884 。聯合訓練能夠通過多任務協同學習提高模型對情緒、主題和說話人信息的綜合理解能力,這一策略的移除會削弱模塊間的協作效果,導致整體性能下滑。

去除知識檢索模塊后,性能出現大幅下降。例如,在Dai-lyDialog數據集中, W-F1 為0.5269,在MELD和EmoryNLP數據集上分別下降至0.7110和 0.4228? 。這表明,知識檢索模塊對于情緒識別任務至關重要,沒有知識檢索模塊,模型只能依賴于內在的語言模型知識,導致對情緒細節的捕捉能力減弱。

當僅使用 LLaMa2+LoRA 而不包含M-GERC模型時,性能大幅下降。例如,在DailyDialog數據集中, W-F1 僅為0.4718,而在MELD和EmoryNLP數據集中則分別下降至O.5436和0.3661 。這表明,M-GERC框架對情緒識別任務有決定性貢獻。M-GERC提供了對情緒識別的專門優化,結合多任務預熱和LoRA微調策略,使模型能夠有效捕獲對話中的細粒度情緒。

消融實驗結果表明,M-GERC模型的性能提升來源于多個模塊的協同作用。其中,主題預測任務和說話人識別任務為情緒識別提供了豐富的上下文信息,聯合訓練策略進一步增強了各任務間的協作能力,而M-GERC框架的設計是性能提升的核心。各模塊的協作使得模型在DailyDialog、MELD 和 Emory-NLP數據集上均展現出優秀的性能。

3.6 k 值選取的結果與分析

關于top ?k 選取問題,在MELD數據集上使用LLaMa2作為基底模型,LoRA微調后,對比了 k 選取 1~5 時 W-F1 值的大小,具體如表6所示。可以觀察到當 k 選取1\~2時,結果相較于沒有引入知識檢索模塊效果提升明顯,當 k 選取3以上時,引人知識檢索模塊的 W-F1 值相較于后者反而降低,可能由于以數據集構建知識域的信息相對匱乏導致COMET生成信息的冗余,反而影響大語言模型的判斷,所以后續需要構建更完善的知識域或優化算法來解決這些問題。

表6不同 k 值在MELD數據集W- F1 值的對比Tab.6 Comparison W. ?F1 fordifferent k valueson the MELD datase

3.7 主題對LLMs的影響

主題和情緒之間存在潛在聯系,主題在一定程度上對建模的上下文依賴性有促進作用。圖9案例研究表明,使用LLaMa2作為LLM基底,與InstructERC相比,帶有主題策略的M-GERC使模型正確預測情緒。如圖9所示,沒有主題幫助的模型InstructERC將一個標簽\"That'sso interesting!\"錯誤地歸類為\"surprise”,而M-GERC預測正確。案例研究表明,在沒有考慮主題的情況下,模型可能僅基于話語本身不能準確地評估話語的情緒,主題和情緒之間的潛在聯系提示模型考慮上下文信息,從而導致更準確的預測,本案例進一步驗證了M-GERC的有效性。

圖9主題對LLMs影響的案例分析 Fig.9Case study of the impact of topics on LLMs

4結束語

本文提出了一種基于多任務生成輔助的大語言模型情緒識別框架(M-GERC),以應對對話情緒識別中相似情緒難以區分以及傳統模型未能充分利用常識知識的問題。通過構建知識檢索與增強模塊、引入多任務學習設計以及優化大語言模型的提示工程,M-GERC在情緒識別任務中表現出了更高的魯棒性和準確性。實驗結果表明,該方法能夠有效地利用對話上下文、角色關系以及主題情緒的相關性,不僅顯著提升了對相似情緒的區分能力,還緩解了傳統模型在特定數據集上的過擬合問題。這一研究為對話情緒識別提供了一種新思路,同時展示了大語言模型在多任務生成學習中的潛力與應用價值。

未來研究將進一步優化M-GERC模型,探索基于多模態數據(如音頻、視頻)的情緒識別方法,結合語音和視覺信息以提高情緒識別的精度。此外,結合知識圖譜也是ERC的研究熱點,利用外部常識和領域知識來提升模型的推理能力,并評估其在更多真實對話場景中的應用效果。

參考文獻:

[1]Minsky ML. The society of mind[M].1st ed.[S.1.]:Simon amp; Schuster,1988.

[2]趙妍妍,陸鑫,趙偉翔,等.情感對話技術綜述[J].軟件學報, 2024,35(3) :1377-1402.(Zhao Yanyan,Lu Xin,ZhaoWeixiang,et al.Survey on emotional dialogue techniques[J]. Journal of Software,2024,35(3):1377-1402.)

[3]趙陽洋,王振宇,王佩,等.任務型對話系統研究綜述[J].計算機 學報,2020,43(10):1862-1896.(Zhao Yangyang,Wang Zhenyu, WangPei,et al.A survey on task-oriented dialogue systems[J]. Chinese Joumal of Computers,2020,43(10) :1862-1896.)

[4]ShenWeizhou,Wu Siyue,YangYunyi,etal.Directedacyclic graph network for conversational emotion recognition[EB/OL].(2021-05- 27).https://arxiv.org/abs/2105.12907.

[5]KimT,Vossen P.EmoBERa:speaker-aware emotion recognition in conversation with RoBERa[EB/OL].(2021-08-26).https://arxiv. org/abs/2108.12009.

[6]Reimers N, Gurevych I. Sentence-BERT: sentence embeddings using Siamese BERT-networks[EB/OL].(2019-08-27).https://arxiv. org/abs/1908.10084.

[7]Ghosal D,Majumder N,Gelbukh A,et al. COSMIC:commonsense knowledge for emotion identification in conversations[C]//Findings of the Association for Computational Linguistics:EMNLP.Stroudsburg,PA: Association for Computational Linguistics,202O:2470-2481.

[8]Sap M,Le BrasR,AllawayE,et al.ATOMIC:anatlas of machine commonsense forif-thenreasoning[C]//ProcofAAAI Conferenceon Artificial Intelligence.Palo Alto,CA:AAAIPress,2019:3027-3035.

[9]Bosselut A,Rashkin H,Sap M,et al. COMET:commonsense Transformers for automatic knowledge graph construction[C]//Proc of the 57th AnnualMeeting of the Association for Computational Linguistics. Stroudsburg,PA:Association for Computational Linguistics,2019:4762- 4779.

[10]Brown TB,Mann B,Ryder N,et al.Language modelsare few-shot learners[EB/OL].(2020-07-22).htps://arxiv.org/abs/2005. 14165.

[11]Wei J,Bosma M,ZhaoVY,et al.Finetuned language models are zeroshotlearners[EB/OL].(2022-02-08).https://arxiv.org/abs/ 2109.01652.

[12] Zhu Lixing,Pergola G,Gui Lin,et al. Topic-driven and knowledgeaware Transformer for dialogue emotion detection[EB/OL].(2021- 06-02).https://arxiv.org/abs/2106.01071.

[13]Li Xiaoyang,Yang Zhenyu,Li Yiwen,et al. Topic-based multi-layer knowledge filtering for emotion recognition in conversation[C]//Proc of the 27th International Conference on Computer Supported Cooperative Work in Design.Piscataway,NJ:IEEE Press,2024:1960-1967.

[14]Xu Weijie,Hu Wenxiang,Wu Fanyou,etal.DeTiME:difusionenhanced topic modeling using encoder-decoder based LLM[C]// Findings of the Asociation for Computational Linguistics:EMNLP. Stroudsburg,PA: Association for Computational Linguistics,2023: 9040-9057.

[15]Zhong Peixiang, Wang Di,Miao Chunyan. Knowledge-enriched Transformer for emotion detection in textual conversations[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th InternationalJointConferenceonNaturalLanguageProcessing. Stroudsburg,PA:Association for Computational Linguistics,2019: 165-176.

[16]Hao Jiawang,Kong Fang,Kang Junjun.Enhancing emotion recognition in conversation with dialogue discourse structure and commonsense knowledge[ M]// Huang Deshuang,Si Zhanjun,Zhang Chuanlei. Advanced Intelligent Computing Technology and Applications. Singapore:Springer,2024:257-268.

[17]Ide T,Kawahara D.Multi-task learning of generation and classification for emotion-aware dialogue response generation[ C]//Proc of Conferenceof the North American Chapter of the Association forComputational Linguistics:Student Research Workshop.Stroudsburg,PA:Association for Computational Linguistics,2O21:119-125.

[18]Li Shimin,Yan Hang,Qiu Xipeng. Contrast and generation make BART a good dialogue emotion recognizer[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2022 :11002-11010.

[19]Touvron H,Lavril T,Izacard G,et al.LLaMA :open and efficient foundation language models[EB/OL]. (2023-02-27). https://arxiv.org/ abs/2302.13971.

[20]Achiam J,Adler S,Agarwal S,et al. GPT4 technical report[EB/ OL].(2024-03-04). https://arxiv. org/abs/2303.08774.

[21] Zhang Yazhou,Wang Mengyao,Wu Youxi,et al. DialogueLLM :context and emotion knowledge-tuned LLaMA models for emotion recognition in conversations[EB/OL].(2024-01-17).https://arxiv.org/abs/ 2310.11374.

[22]Lei Shanglin,Dong Guanting,Wang Xiaoping,et al. InstructERC:reforming emotion recognition in conversation with multi-task retrievalaugmented large language models[EB/OL].(2023-09-21). ttps:// arxiv. org/abs/2309.11911.

[23]Fu Yumeng. CKERC:joint large language models with commonsense knowledge for emotion recognition in conversation[EB/OL].(2024- 03-12). https://arxiv.org/abs/2403.07260.

[24]Fu Yumeng,Wu Junjie, Wang Zhongjie,et al.LaERC-S:improving LLM-based emotion recognition in conversation with speaker characteristics[C]//Proc of the 31st International Conference on Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2025 :6748-6761.

[25] Sriram A,Jun H,Satheesh S,et al. Cold fusion:training seq2seq models together with language models[EB/OL].(2017-08-21).https://arxiv.org/abs/1708.06426.

[26]Pereira P,Moniz H,Carvalho JP. Deep emotion recognition in textual conversations:a survey[J].Artificial IntelligenceReview,2024, 58(1) :10.

[27]Li Yanran,Su Hui,Shen Xiaoyu,et al.DailyDialog:a manually labelled multi-turn dialogue dataset[EB/OL].(2017-10-11).ttps:// arxiv.org/abs/1710.03957.

[28]Poria S,Hazarika D,Majumder N,et al. MELD:a multimodal multiparty dataset for emotion recognition in conversations[EB/OL]. (2019-06-04). https://arxiv.org/abs/1810.02508.

[29]Zahiri S M,Choi J D.Emotion detection on TV show transcripts with sequence-based convolutional neural networks[EB/OL].(2017-08- 14).https://arxiv.org/abs/1708.04299.

[30]Hu JE,Shen Yelong,Wallis P,et al.LoRA:low-rank adaptation of large language models[EB/OL].(2021-10-16). https://arxiv.org/ abs/2106.09685.

[31] Ghosal D,Majumder N,Poria S,et al. DialogueGCN:agraph convolutional neural network for emotion recognition in conversation[C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg,PA:Association for Computational Linguistics,2019 :154-164.

猜你喜歡
語句檢索話語
基于知識圖譜和讀者特征的圖書館智能檢索與推送研究
基于批評話語分析的社區矯正話語互動研究
跨學科視閥下的生物學單元教學內容重構
基于文本語句特點提升閱讀教學效率
認知科學視角下的高效學習法
新班主任(2025年7期)2025-08-11 00:00:00
第一回:烏龍院里鬧烏龍重點內容檢索法
社科學術期刊推動統一戰線話語體系構建圖景:現狀、不足和展望
AI+SQLiteSpy雙驅動下的數據庫教學實踐研究
核心素養導向下小學語文深度學習策略探索
思想政治教育話語敘事的邏輯遵循
三角洲(2025年19期)2025-08-04 00:00:00
主站蜘蛛池模板: 国产69精品久久久久孕妇大杂乱| 国产成人91精品免费网址在线| 午夜三级在线| 亚洲一区二区三区在线视频| 国产资源免费观看| 国产成人AV综合久久| 婷婷亚洲视频| 一级爱做片免费观看久久| 中文字幕在线看| 在线观看国产精品一区| 欧类av怡春院| 91欧美在线| 亚洲天堂久久新| 97免费在线观看视频| 中文字幕第4页| 国产一区二区网站| 国产欧美日韩资源在线观看| 欧美日本在线| 69免费在线视频| 在线国产三级| 精品欧美日韩国产日漫一区不卡| 伊人成人在线| 色婷婷在线影院| 国产在线高清一级毛片| 亚洲国产成人在线| 国产精品13页| 国产区福利小视频在线观看尤物| 99在线视频免费观看| 免费观看欧美性一级| 成人福利一区二区视频在线| 亚洲一区二区三区中文字幕5566| 亚洲精品少妇熟女| 精品国产成人高清在线| 国产黑丝视频在线观看| 国产丝袜丝视频在线观看| 999福利激情视频| 日韩在线播放中文字幕| 在线观看国产精品一区| 高清大学生毛片一级| 尤物亚洲最大AV无码网站| 韩日免费小视频| 亚洲美女一级毛片| 久久毛片基地| 青青草综合网| 国产欧美视频在线| 亚洲a免费| 亚洲综合色婷婷| 2019年国产精品自拍不卡| 综合色亚洲| 97狠狠操| 国产精品一老牛影视频| 996免费视频国产在线播放| 国产精品区网红主播在线观看| jizz在线观看| 亚洲av中文无码乱人伦在线r| 精品少妇人妻av无码久久 | 色天堂无毒不卡| 欧美成在线视频| 日韩欧美视频第一区在线观看| 在线看免费无码av天堂的| 中文字幕无码电影| 国产欧美视频一区二区三区| 日韩精品无码不卡无码| 国产小视频在线高清播放| 国产第三区| 亚洲黄色高清| 谁有在线观看日韩亚洲最新视频| 欧美亚洲国产精品第一页| 国产女人水多毛片18| 日韩国产另类| 在线观看av永久| av色爱 天堂网| 夜夜操天天摸| 114级毛片免费观看| www.亚洲一区二区三区| 91青青视频| 亚洲码在线中文在线观看| 久草性视频| 五月婷婷激情四射| 亚洲婷婷六月| 亚洲精品人成网线在线| 在线精品欧美日韩|