摘 要:[目的/意義]本文基于情緒喚醒度—效價理論,利用大語言模型構建網絡問政文本情感數據集,并提出相應的情感分類方法。[方法/過程]首先,基于情緒喚醒度—效價理論構建8個情緒區間和56個情緒標簽的情感體系。其次,利用大語言模型對網絡問政文本進行細粒度情感標注,構建高質量的情感分類數據集。最后,在此基礎上,本文提出了面向該類情感分類體系的情緒識別模型,并進行了系統評估。[結果/結論]實驗結果驗證了所構建數據集的質量和情感分類方法的有效性。研究為網絡問政領域的細粒度情感分析提供了可復制的數據資源和技術方案。
關鍵詞:大語言模型;網絡問政;情感識別;細粒度情感分析;情緒喚醒度—效價理論
DOI:10.3969/j.issn.1008-0821.2025.09.006
〔中圖分類號〕G254 〔文獻標識碼〕A 〔文章編號〕1008-0821(2025)09-0058-13
A Fine-Grained Sentiment Recognition Method for Online Government-Public
Interaction Texts Based on Large Language Models
Teng Jie1,2 He Huanglan1,2 Hu Guangwei1,2* Liu Yun3
(1.School of Information Management,Nanjing University,Nanjing 210023,China;
2.Government Data Resources Institution of Nanjing University,Nanjing 210023,China;
3.Jiangsu Provincial Peoples Hospital,Nanjing 210096,China)
Abstract:[Purpose/Significance]This study proposes a method to construct an emotional classification dataset for online government-public interaction texts and develop corresponding sentiment classification approaches based on the arousal-valence theory of emotion using large language models.[Method/Process]First,the paper established an emotion classification system with 8 emotional intervals and 56 emotion labels based on the arousal-valence theory.Next,the study utilized large language models to perform fine-grained emotional annotation on government-public interaction texts,constructing a high-quality sentiment classification dataset.Finally based on this,the paper proposed and systematically evaluated an emotion recognition model for this type of sentiment classification system.[Result/Conclusion]Experimental results validate the quality of the constructed dataset and the effectiveness of the sentiment classification method.This research provides reproducible data resources and technical solutions for fine-grained sentiment analysis in the field of online government-public interaction.
Key words:large language models;online government-public interaction;sentiment recognition;fine-grained sentiment analysis;emotion arousal-valence theory
隨著互聯網技術的快速發展和政府網絡問政平臺的廣泛建設,海量的公眾訴求和政府回應文本數據日益積累。網絡問政平臺為公眾表達訴求、參與政策討論提供了便捷渠道,但也給情感分析研究帶來了新的挑戰。一方面,網絡問政文本涉及多樣化的語言風格和表達方式,蘊含豐富的情感信息;另一方面,公眾訴求往往針對具體問題,情感表達更加細粒度化,單一的積極/消極分類難以準確刻畫[1-2]。因此,發展適用于網絡問政文本的細粒度情感分析方法,對于全面把握民意走向、提升政府治理能力具有重要意義[3-4]。
然而,細粒度情感分析面臨兩大關鍵挑戰:跨域適應性和情感粒度劃分[5-6]。不同領域的文本在語言風格、話題關注、情感表達等方面存在顯著差異,導致領域自適應問題、而公眾訴求可能同時包含多種情感,需要考慮情感的多樣性和共存性。傳統的單標簽情感分類方法,如基于情感詞典、機器學習等,在應對跨域數據和復雜情感時,表現往往會大幅下降[7-8]。如何從海量異構數據中學習魯棒的情感表示,實現更加細粒度的情感識別,是當前亟待解決的難題。
為了應對上述挑戰,本文提出了一種融合大語言模型的網絡問政文本細粒度情感識別方法。該方法以情緒喚醒度—效價理論為基礎[9]設計了8個情緒區間56個情緒標簽,實現了對網絡問政文本的多標簽、細粒度情感映射。在此基礎上,本文進一步探索了大語言模型在情感標注中的應用效果,并訓練了融合大模型的情緒識別模型,通過在真實的網絡問政數據集上的系統實驗,驗證了所提出方法的有效性和優勢。本研究的貢獻主要包括:①構建面向網絡問政的細粒度情感分類體系,融合大語言模型和多標簽學習范式,實現了細粒度、多維度的情感表示和識別;②解決大模型幻覺帶來的短板問題,構建了基于大模型的規則矯正方案,在發揮大模型優勢的同時規避其局限性,以此獲得高質量情感標注數據集;③實證分析不同分類算法在網絡問政情感分析任務中的表現,在真實的網絡問政數據集上進行了全面評估,驗證了方法的實用性和魯棒性,推動了情感分析技術在社會治理中的應用。本研究的整體思路框架圖如圖1所示。
1 理論基礎和相關綜述
1.1 情緒喚醒度效價理論
情緒喚醒度—效價理論(Arousal-Valence Theory of Emotion)是心理學和認知科學領域廣泛接受的一種情緒分類理論。該理論最早由Russell J A[10]在1980年提出,他認為情緒可以用喚醒度(Arousal)和效價(Valence)兩個維度來描述。喚醒度表示情緒的強度或激活程度,效價表示情緒的正負性或愉悅程度。這兩個維度構成了一個二維情感空間,可以用來描述和區分各種情緒狀態[10]。在Russell J A[10]的理論基礎上,后續研究者對喚醒度—效價理論進行了拓展和應用。20世紀90年代,Bradley M M等[11]開發了一個標準化的情緒圖片系統(International Affective Picture System,IAPS),用于研究情緒喚起和心理生理反應,進一步驗證了喚醒度—效價模型的有效性。21世紀初,Barrett L F等[12]提出了情緒的“核心影響”(Core Affect)概念,認為喚醒度和效價是構成各種情緒狀態的基本要素,為情緒的測量和比較提供了一個統一的框架。
近年來,隨著人工智能和大數據技術的快速發展,情緒喚醒度—效價理論在情感計算領域得到了廣泛應用,特別是在情感分析和情緒識別任務中展現出了獨特的優勢。國外研究方面,Preo瘙塅iuc-Pietro D等[13]利用喚醒度和效價對Twitter數據進行了情感表示和分類,取得了優于傳統方法的效果。Mohammad S M等[5]基于喚醒度—效價構建了一個大規模的情緒詞典,用于支持細粒度的情感分析。Buechel S等[14]提出了一種基于喚醒度—效價的多模態情感分類方法,通過融合文本、音頻和視頻特征,實現了跨模態的情緒識別。喚醒度—效價理論也受到了國內學者們的廣泛關注。黃嘉健等[15]通過對58名大學生進行E-Prime編程的金錢賭博游戲實驗來探究情緒的效價和喚醒度對不確定決策風險偏好的影響。宋曉蕾等[16]采用聯合Simon任務通過3個實驗探究不同情緒維度對聯合任務中共同表征能力的影響機制。牟元樵等[17]通過半結構化訪談法探討了碩士研究生在網絡學術信息查詢行為中的情緒效價和情緒喚醒度,豐富了情緒喚醒度—效價理論在
圖1 研究思路框架圖Fig.1 The Research Framework
信息行為領域的應用。
情緒喚醒度—效價理論經過近40年的發展,已經成為情感計算領域的重要理論基礎。從最初的心理學研究,到后來的標準化情緒測量,再到近年來與人工智能技術的結合,喚醒度—效價理論在不斷豐富和完善,其應用領域也在不斷拓展。特別是在情感分析任務中,喚醒度—效價理論憑借其簡潔、直觀、全面的特點,為情感的表示、度量和分類提供了一個統一的框架,有效提升了情感分析的性能和泛化能力。然而,目前基于喚醒度—效價理論的情感分析研究仍存在一些局限性和挑戰。一方面,現有研究主要集中在英文等資源豐富的語言上,對中文等低資源語言的支持還有待加強;另一方面,喚醒度和效價的標注成本較高,缺乏大規模、高質量的情感標注數據,限制了該理論在實際應用中的推廣。此外,如何將喚醒度—效價理論與其他情感理論和先進的人工智能技術(如深度學習、遷移學習等)深度融合,構建更加全面、系統的情感計算模型,也是一個值得探索的問題。
1.2 情感識別方法研究
情感分析是一種從文本信息中提取作者情感或觀點的技術,其核心問題是情感分類,即為文本評論的情感極性進行自動判別。過去的情感分類方法大致經歷了3個發展階段:基于情感知識、基于機器學習和基于深度學習。
基于情感知識的方法主要依賴情感詞典和情感知識庫,通過匹配文本中的關鍵詞并計算其情感得分,來判斷文本的情感極性。該類方法的關鍵在于情感詞典的構建,目前主要有人工構建和自動構建兩種方式。人工構建的情感詞典(如SentiWordNet、DUTIR情感詞匯本體庫等)從詞性、情感類別、強度等多個維度描述詞匯的情感屬性。自動構建方面,研究者們提出了基于釋義集合交集[18]、連詞否定詞和PMI等[19]方法,利用知識庫和領域語料來自動構建情感詞典。然而,基于情感知識的方法存在構建成本高、更新不及時、缺乏上下文語義利用等局限。基于機器學習的方法通過構建特征向量并訓練分類器來實現情感分類,根據訓練數據類型可分為有監督、無監督和半監督學習3種。有監督學習方面,研究者們使用樸素貝葉斯、最大熵、SVM[20]、KNN[21]等方法對不同語言的評論文本進行情感分析,并通過特征選擇和模型改進不斷提升性能[22];無監督學習方面,一些研究提出了主題情感聯合模型[23],可同時確定文檔的主題和情感;半監督學習方面,研究者嘗試整合多個半監督算法,并在多領域評估中取得了優于成員算法的效果。基于機器學習的方法雖然取得了一定進展,但仍面臨著訓練數據需求大、特征工程復雜、領域適應性差等問題,且模型訓練調優過程煩瑣,需要大量的時間、計算資源和專業經驗。隨著深度學習的發展,RNN、CNN、注意力機制等被廣泛用于情感分類任務。相比于傳統方法,深度學習模型通過學習文本的語義信息和上下文關系,可以更好地捕捉情感表達的復雜特征,有效提高了分類的準確性和泛化能力。一些研究使用LSTM進行跨語言情感分類[24],通過學習不同語言文檔的語義分布,為跨語言遷移提供了解決思路。另一些工作則結合CNN、RNN、注意力機制等設計了層次化的網絡結構,以獲取更全面的句子和文檔表示[25]。此外,研究者們還將深度學習方法應用于Twitter等社交媒體數據以及COVID-19相關討論的情感分析[26-28],進一步拓展了其應用場景。
盡管情感分析取得了長足的進展,但在處理網絡問政文本時仍面臨諸多挑戰。網絡問政文本具有非結構化、語言非正式、主題多樣等特點,傳統的情感分析方法難以充分挖掘其中蘊含的細粒度情感信息。此外,網絡問政文本的情感表達通常具有多樣性和隱晦性,單一的情感標簽難以準確刻畫文本的情感語義。因此,亟須探索融合先進自然語言處理技術的細粒度、多標簽情感分析方法,以提升網絡問政文本情感分析的精度和實用性。
2 基于大語言模型的網絡問政文本情感數據集構建
本文的實驗設計基于情緒喚醒度—效價理論將未標注數據集轉化為帶有情感標簽的數據集。對于每個標注任務,本文均設計了兩階段高質量數據標注方案:使用OpenAI的GPT4.0的接口批量處理公眾訴求數據獲得情感區間和情緒標簽結果;考慮到大模型幻覺因素,基于標注結果,根據規則對情感區間和情緒標簽結果進行糾正,具體包含以下3個關鍵步驟:
步驟1:構建情緒喚醒度—效價理論情感標簽體系。根據情緒喚醒度—效價理論,將情感劃分為高喚醒度正性情緒區、中高喚醒度正性情緒區、中性喚醒度正性情緒區、低喚醒度正性情緒區、高喚醒度負性情緒區、中高喚醒度負性情緒區、中性喚醒度負性情緒區、低喚醒度負性情緒區8個區間,每個區間均有7個情緒標簽,形成二維情感空間。
步驟2:采用多標簽情感表示方法對情感空間進行編碼。將情感空間中的8個情感區間編碼為8維多標簽向量空間,每個維度即一個情感區間,每個情感區間均有7個情緒標簽。
步驟3:設計兩條實驗路徑進行情感標注實驗。兩條實驗路徑包括單獨使用大模型和大模型與數據規則矯正協同,將原始文本反映的情緒映射到56維目標情感空間中。
2.1 基于情緒喚醒度—效價理論的情感標簽體系
為了實現跨領域的情感表示,本文利用情緒喚醒度—效價理論構建了一個統一的情感標簽體系。具體而言,本文采用Russell J A[10]提出的經典二維情感空間模型,將情感分為以下8個區間,如表1所示。
在此基礎上,本文將網絡問政數據集中公眾原有的情感與情緒映射到8個情感區間中,實現細粒度的情感空間統一。值得注意的是,研究中的任務包括單標簽情感分類和多標簽情感分類實驗。對于單標簽情感分類,會識別出訴求文本的核心情感區間和情緒標簽作為主要任務。例如,“據悉,公司一直以來周末因公出差,都是不算加班并且不給調休的,我該如何應對?并且該公司已逾兩個月沒發工資了”。該訴求的情感區間和情緒標簽為憤怒(中高喚醒度負性情緒區)。在多標簽情感分類實驗中,針對訴求文本會識別出兩個之上的情感區間和情緒標簽。例如,“電子醫保一直沒有顯示深圳的參保地,導致無法綁定社康,請問可以幫我盡快處理一下嗎?老家的城鄉居民基本醫療保險暫停參保”。這段訴求同時對應焦慮(中高喚醒度負性情緒區)、無奈(中性喚醒度負性情緒區)和期待(中性喚醒度正性情緒區)3個區間。因此,本文采用多標簽的情感表示方式,允許每個樣本被標注至多個情感區間,更加全面、靈活地刻畫樣本的情感語義。
2.2 融合大模型標注與規則矯正的情感分類方法
為了保證網絡問政情感數據集的分類質量,提高標簽的準確性和一致性,本文針對單標簽分類任務和多標簽分類任務設計情感劃分路徑。路徑涉及兩個環節工作:首先利用大模型在常識推理、知識補全方面的優勢進行數據標注,基于此,使用規則矯正彌補大模型產生的幻覺。通過兩個環節的協同互補,實現了情感細粒度標注效果的進一步提升,具體的實驗設計步驟如下:
步驟1:單獨使用大模型實現情感分類。選擇GPT-4作為情感分類的大模型,利用其在常識推理、知識補全等方面的優勢,基于其BROKE框架對數據集進行情感劃分。具體而言,通過大模型的BROKE原則與要素設計Prompt,引導GPT-4生成符合目標情感空間定義的情感標注結果(情感劃分空間和情緒標簽),并將其作為數據的情感標簽。
步驟2:基于情緒喚醒度的8個區間56個標簽對步驟1的標注結果進行規則矯正。考慮到大模型在數據標注任務中會有幻覺產生,如大模型在數據標注中會有脫離情感標簽體系的情感區間或情緒標簽產生,研究基于大模型標注的數據使用已建立的情感標簽體系規則進行數據矯正,將不符合規范和預期目標的數據標簽進行更正。
需要注意的是,在測試集的獲取任務上,研究采用雙重大模型標注方法,即在OpenAI的GPT4.0標注數據的基礎上,使用Claude 3.5 Sonnet對標注結果進行審核和糾正,并以相關領域專家團隊二次審核糾偏的方式獲得標準的情感標注結果。其中,專家團隊由2位南京大學情報領域博士生導師、1位南洋理工大學生物科學博士生導師、2名南京大學情報領域博士研究生和1名碩士研究生組成。表2展示了大模型的情感分類實驗在單分類任務和多標簽分類任務中Prompt的具體設計和應用情況。
3 面向細粒度情感分類體系的情緒識別模型
3.1 情緒識別模型架構
為了在已有情感標簽的公眾訴求分類數據集上構建高效、準確的情緒識別模型,本文設計了以下5種模型架構進行對比實驗,圖2展示了這5種情緒識別模型的總體架構。
具體來說,RoBERTa模型直接將文本輸入到預訓練的RoBERTa模型中,提取CLS向量作為文本的語義表示,然后通過一個全連接層進行情感標簽的預測。CNN模型和BiLSTM模型都是基于隨機初始化的詞嵌入,分別通過卷積神經網絡和雙向長短情感劃分路徑單標簽分類任務多標簽分類任務Prompt設計核心模塊單獨使用大模型標注使用GPT-4生成符合目標情感空間定義的標注結果使用GPT-4劃分情感空間和單標簽情感標注結果(1)任務背景:我們從“人民網_網上的《人民日報》”的互動模塊的領導留言板模塊(或中國深圳市人民政府網站的政民互動模塊的領導信箱模塊)下載了一個公開的公眾進行網絡問政的數據集,該數據集是公眾表達的訴求,希望自己的訴求能夠得到解決
(2)角色設定:假設你現在是發表這個訴求文本的人,請回憶你發表該動態時的情感和情緒
(3)目標要求:對于每一條訴求文本,輸出格式如下:原始訴求:“該部分為原始訴求內容”。該文本包含情緒:[情緒1(情緒區間1),情緒2(情緒區間2),…]。核心情緒:情緒1(情緒區間1)。該文本的情緒區間是否均來自給定的參考區間:是/否。給出的情緒標簽是否均來自上述具體的情緒標簽的示例:是/否
(4)規則與示例:對于每一條文本,請根據以下8個情感區間和每個區間的情緒標簽,將每條訴求劃分到合適的情感區間:{emotion_rules}
(5)問題輸入:原始訴求文本:“{emotion_text}”
雙重大模型+專家團隊兩個大模型迭代確定情感空間和情緒標簽,專家團隊審核修復得到標準答案:第一個大模型為GPT-4,第二個大模型為Claude 3.5 Sonnet(1)任務背景:我們從“人民網_網上的《人民日報》”的互動模塊的領導留言板模塊(或中國深圳市人民政府網站的政民互動模塊的領導信箱模塊)下載了一個公開的公眾進行網絡問政的數據集,該數據集是公眾表達的訴求,希望自己的訴求能夠得到解決
(2)角色設定:假設你現在是發表這個訴求文本的人,請回憶你發表該動態時的情感和情緒
(3)目標要求:對于每一條訴求文本,輸出格式如下:原始訴求:“該部分為原始訴求內容”。該文本包含情緒:[情緒1(情緒區間1),情緒2(情緒區間2),…]。核心情緒:情緒1(情緒區間1)。該文本的情緒區間是否均來自給定的參考區間:是/否。給出的情緒標簽是否均來自上述具體的情緒標簽的示例:是/否
(4)規則與示例:對于每一條文本,請根據以下8個情感區間和每個區間的情緒標簽,將每條訴求劃分到合適的情感區間:{emotion_rules}
(5)問題輸入:原始訴求文本:“{emotion_text}”
期記憶網絡提取文本特征,再經過全連接層輸出預測結果。RoBERTa+BiLSTM模型和RoBERTa+CNN模型則是將RoBERTa提取的詞嵌入序列分別輸入到BiLSTM和CNN中進行特征提取,充分利用預訓練語言模型的語義表示能力和序列建模模塊的特征抽取能力,實現了更加全面、精準的情感識別。
3.2 情緒模型的實驗設計與評估
本文在優化后的情感分類數據集上進行了系統的實驗和分析,以全面評估不同情感識別模型的性能。實驗設計的主要內容如表3所示,包括數據集劃分、評估指標、超參數搜索。表中詳細說明了每個設計因素的具體設置,如劃分比例、交叉驗證次數等。特別地,在超參數搜索部分,表中明確列出了各個超參數的搜索范圍,并指出了RoBERTa相關模型的特殊處理方式和最優超參數組合的選擇標準。
隨機抽取20%的樣本作為測試集,由雙重大模型+專家團隊形成標準標注結果。過程嚴格遵循第2.1節定義的情感標簽體系,采用單標簽/多標簽的情感表示方式。標注結果通過Fleiss Kappa系數進行一致性評估,確保標注質量和可靠性。
4 實驗與結果分析
4.1 數據集來源和預處理
本研究選取了深圳市人民政府網站和人民網留言板—深圳兩個具有代表性的網絡問政平臺作為數據來源。首先,這兩個平臺分別代表了政府官方和主流媒體的聲音,數據來源權威可靠,能夠真實反映政民互動的實際情況;其次,兩個平臺都擁有大量的政民互動數據,涵蓋了廣泛的公眾訴求,為開展細粒度情感分析提供了豐富的文本素材;最后,作為中國經濟特區和創新城市的代表,深圳在城市治理方面具有典型意義且網絡問政平臺的數據量充足,便于開展大規模的計算分析。表4給出了這兩個數據來源的基本信息統計。
從表2可以看出,深圳市人民政府—領導信箱模塊數據集源自政府官方網站,代表了較為正式和權威的政民互動渠道,數據量達到16 196條;而人民網留言板—深圳市模塊數據集則來自主流媒體平臺,涵蓋了更廣泛的公眾訴求,數據量為13 217條。這兩個數據集的時間跨度一致,均為2022年12月31日—2024年1月1日。在情感標簽的劃分粒度上,兩個數據集均劃分為8個區間,對應56個情深圳市人民政府—領導信箱模塊來自深圳市人民政府網站的互動交流模塊的公眾訴求數據,時間跨度為[2022-12-31,2024-01-01];數據來源鏈接:https://www.sz.gov.cn/16 196人民網留言板—深圳市模塊《人民日報》為中央部委和地方各級黨委政府搭建的公眾訴求平臺,包括10個區級領導、市長和市委書記,時間跨度為[2022-12-31,2024-01-01];數據來源鏈接:https://liuyan.people.com.cn/13 2178/56緒標簽。在相同的情感粒度下,不同來源的數據集可以更加公平地比較本文方法的性能表現,排除由于情感標簽差異導致的影響。
在數據預處理階段,研究對原始數據集進行了如下處理:①數據清洗:對文本數據進行去重、去除特殊字符、字母小寫轉換等基本的清洗操作,提高數據質量。②文本編碼:使用預訓練的詞嵌入模型RoBERTa將每個文本樣本直接編碼為固定長度的句子向量,作為模型的輸入特征。③數據劃分:對每個數據集,隨機劃分出80%的樣本作為訓練集,20%作為測試集,用于模型訓練和評估。同時,為了確保實驗結果的可靠性和可復現性,本文在數據劃分時固定了隨機種子,保證了不同方法在相同數據集上的公平比較。通過以上預處理步驟,原始數據集被轉化為適合模型訓練和優化的格式,為后續的標簽標注和模型構建奠定了數據基礎。
4.2 網絡問政文本的細粒度情感分析
本小節使用大模型和規則矯正實驗對領導信箱和留言板兩個網絡問政平臺的情感標注結果進行統計分析,從主題關聯和情緒標簽維度對比分析了公眾情緒表達的特點和差異,如表5所示。在領導信箱的高喚醒度正性情緒區,市場監督管理、醫療保障、住房建設等主題受到較多關注,公眾表現出興奮、激動等情緒。在負面情緒區,醫療保障、住房建設、公安等問題引發了強烈的焦慮、憤怒等情緒。在留言板中,公眾對住房建設、教育、交通運輸等領域的正面情緒,如著迷、滿意等較多,但在人力資源和社會保障、生態環境等領域,負面情緒如憤怒、焦慮則更為集中。
通過以上分析,可以看出:無論是領導信箱還是留言板,負性情緒的表達比例都較高,是公眾表達訴求的主要方式。公眾在留言板上的負面情緒更為強烈,多為高喚醒度;而領導信箱的負面情緒相對平和,以中性喚醒度為主。住房建設是兩個平臺共同的熱點主題,但分屬于不同的情感區間。醫療保障、人力資源和社會保障等領域引發更多負面關切。公眾對不同領域的情感表達呈現多樣性,既有積極肯定,也有強烈訴求,為政府了解民意、改進工作提供了重要依據。
4.3 基于優化數據集的情緒識別模型實驗
在上一節中,本研究通過融合大模型和規則矯正對數據集進行了情感分類。基于最優路徑下的數據集標注結果進行模型訓練并選出最優的情緒識別模型。研究設計了一系列實驗,對比測試了5種主流模型在單/多標簽分類任務上的性能表現。
4.3.1 單標簽分類任務的情緒識別模型性能對比
本研究在第5.1節經過情感區間劃分和情緒標注后的數據集上,對5種情緒識別模型進行了單標簽分類任務的性能評估。表6匯總了各個模型在數據集上的性能表現,并給出了不同數據集的最匹配模型。
在單標簽分類任務中,RoBERTa模型在領導信箱模塊上表現最好,Accuracy、Precision和F1值分別達到57.76%、54.03%和54.65%;RoBERTa+CNN模型在人民網留言板模塊上表現最好,Accuracy、Precision和F1值分別達到51.68%、42.19%和43.08%,在領導信箱模塊也有不錯的表現。從表8的結果可以看出,RoBERTa+CNN模型利用RoBERTa提取高質量語義表示,再通過CNN進行局部特征提取和分類,能夠最大限度地挖掘文本的情感語義,通過結合預訓練語言模型的語義表示能力和卷積神經網絡的特征抽取能力實現較好的情感識別效果。
上述單標簽分類任務均為32類別的情感分類,分類器需要處理的細節多,導致模型的復雜度增加。文本可能同時包含多個情感標簽,由于需要選擇可能性最大的標簽,增加了分類的難度和復雜性。基于此,0.6左右的準確率已經表明模型有較強的識別能力,Precision和F1-score的指標也說明了模型在平衡精準度和召回率方面的綜合表現。與目前細粒度情感分類任務的基線模型[29](Huggingface上高借鑒、高下載的多分類情感識別模型,28個情緒類別,模型下載量為2 103 593,模型綜合準確率為0.45)相比,本研究的情感識別模型取得了較好的效果。
4.3.2 多標簽分類任務的情緒識別模型性能對比
本研究在第5.1節經過情感區間劃分和情緒標注后的數據集上,對5種情緒識別模型進行了單標簽分類任務的性能評估。表7匯總了各個模型在數據集上的性能表現,并給出了不同數據集的最匹配模型。
在多標簽分類任務中,RoBERTa+BiLSTM模型表現優異,特別是在人民網留言板模塊中,模型的Accuracy達到了0.4233,明顯高于其他模型,其Precision和F1-score分別為0.6301和0.6321,也顯示了較強的性能。RoBERTa+BiLSTM模型的優勢在于結合了RoBERTa模型強大的語義表示能力和BiLSTM對序列信息的捕捉能力。這種結合使得模型能夠更好地理解文本的上下文和情感特征,從而在復雜的多標簽情感識別任務中表現出色。兩個板塊中的二標簽分類任務的分類數為45和40,類別數量較多,每一個文本同時包含多個標簽,進一步增加了任務的復雜程度,考慮到情感標簽的多樣性和數據集的不平衡性,盡管模型準確率不高,但在這種高難度任務中已經是較好的結果。
總體而言,RoBERTa+BiLSTM模型展現了強勁的整體性能,尤其在多標簽分類任務中表現出色,盡管RoBERTa+BiLSTM模型在某些任務中不是最優,但其性能往往接近最優模型,展示了其在復雜任務中的優勢。RoBERTa+CNN在單標簽分類任務中表現較好,能夠有效捕捉局部特征,而RoBERTa在特定的數據集上(領導信箱模塊)表現出色。在進行情感分析時,選擇合適的模型需要考慮任務的具體特點和數據集的特性。RoBERTa+BiLSTM在處理復雜情感關系和多標簽任務時表現優異,RoBERTa+CNN在單標簽任務中更具優勢,而RoBERTa在特定任務中也能展現出強大的性能。這種綜合分析有助于更好地選擇和應用模型,以提高情感分析的準確性和效果。
5 結果與討論
5.1 研究結果
本研究針對單標簽和多標簽分類任務設計不同的實驗方案,通過對比分析選擇最優的標注優化路徑,以期獲得網絡問政數據集的高質量細粒度情感標注結果。
在單標簽分類任務中,本研究分別在深圳市人民政府—領導信箱模塊和人民網留言板—深圳市模塊兩個數據集上,對比測試了兩種標注優化路徑:單獨使用大模型和大模型與規則矯正的組合方式。如表8所示,大模型與規則矯正協同在模型性能上表現突出,在領導信箱和留言板模塊上的Precision、Recall、F1-score和Accuracy均優于單獨使用大模型。以領導信箱模塊為例,規則校正后的Precision、Recall、F1-score和Accuracy均達到0.99,較大模型高出0.14、0.32、0.24和0.31。這表明使用規則校正能夠更準確地進行情感標簽的細粒度劃分。此外,組合模型在泛化能力上也優于單獨使用大模型。綜合以上因素,大模型與規則矯正的組合路徑是更優的選擇。
在多標簽分類任務中,如表9所示。本研究同樣對比了兩種標注優化路徑。與單標簽任務類似,大模型與規則矯正實驗在模型性能上具有巨大優勢。
單標簽分類任務中,在領導信箱模塊,實驗2對比實驗1情感區間減少1個,情緒標簽減少19個,例如“焦急”“焦躁”等都與“焦慮”對齊;在人民網留言板模塊,實驗2對比實驗1情感區間不變,情緒標簽減少19個。多標簽分類任務中,在領導信箱模塊,實驗2對比實驗1情感區間不變,情緒標簽減少20個;在人民網留言板模塊,實驗2對比實驗1情感區間減少1個,情緒標簽減少29個。從實驗結果來看,無論是在單標簽分類任務還是多標簽分類任務中,通過融合大語言模型和規則矯正的方法都能夠有效地降低情感區間和情緒標簽的數量,更精確地對網絡問政文本進行細粒度情感標注,減少了不必要的標簽冗余,提高標注的一致性和準確性,這樣的結果也有利于后續情感分析任務的執行。同時,實驗結果也顯示,雖然大模型在常識推理、知識補全等方面具有優勢,但仍然存在一些局限性,例如會產生與情感標簽體系脫節的情感標簽。這表明,在實際的情感分析任務中,仍然需要結合專業的情感理論和人工規則進行矯正和優化。本節通過細致的實驗和分析,證實了大模型+規則矯正的組合路徑在網絡問政數據集細粒度情感標注任務中的有效性和優越性。該路徑在保證較高標準質量的同時,展現出更好的泛化能力。這為后續構建高質量的網絡問政情感分析數據集奠定了堅實基礎。
5.2 討 論
5.2.1 研究總結
本文提出了一種融合大語言模型的網絡問政文本細粒度情感識別方法,并構建了適用于單/多標簽分類任務的網絡問政文本情感識別模型。研究成果豐富和發展了情感計算領域的理論和方法,為情感分析技術在實際場景中的應用提供了新的思路和支撐。
在數據集優化方面,本文的主要貢獻包括:第一,基于情緒喚醒度—效價理論構建了統一的細粒度多標簽情感標簽體系,實現了跨領域情感表示的對齊,為解決跨領域情感分析問題提供了新思路。第二,設計了融合大模型與預訓練模型的文本數據標注路徑,并在網絡問政數據集上系統驗證了不同路徑的情感標注效果。
在情緒識別模型方面,本文針對單標簽和多標簽分類任務,分別構建了融合RoBERTa與CNN、BiLSTM的高性能模型。實驗表明,RoBERTa+CNN模型在單標簽分類任務中展現出較優性能,RoBERTa+BiLSTM模型在多標簽分類任務中表現最佳。這兩個模型充分利用了預訓練語言模型的語義表示能力和CNN、BiLSTM在特征提取和序列建模方面的優勢,實現了細粒度的情感識別。
綜上所述,本文在情感分類數據集優化和情緒識別模型構建方面取得了創新性成果,為情感計算研究提供了新的理論和方法參考。本文構建的模型展現出了優異的性能和廣闊的應用前景,在輿情分析、客戶服務、智能推薦等領域具有重要的應用價值。同時,本文采用的文本數據標注與模型訓練相結合的研究范式,也為其他文本分析任務提供了有益借鑒。未來,仍需在數據標注、模型設計等方面進一步深化和拓展,不斷提升情感分析的性能和實用性[30-32]。
5.2.2 未來展望
本文提出的融合大語言模型的網絡問政文本細粒度情感識別方法雖然取得了積極的研究結果,但仍存在一些局限性和值得進一步探索的方向:第一,本文在網絡問政領域進行了實驗驗證,數據集的規模和領域多樣性有限。未來可以考慮擴大數據集的規模和領域覆蓋面,進一步驗證所提出方法的泛化性和魯棒性。同時,還可以探索將方法拓展應用到其他類型的文本分析任務中,如意見挖掘、用戶畫像等,以拓寬方法的適用范圍[33-34]。第二,在分類任務中,類別數量多、數據稀疏性等問題增加了任務的難度,準確度有待提升。然而,這些局限性同時也指明了本研究未來研究的方向。未來研究可以通過數據均衡和增強來改善類別眾多和數據稀疏的問題。
參考文獻
[1]Akhtar M S,Gupta D,Ekbal A,et al.Feature Selection and Ensemble Construction:A Two-Step Method for Aspect Based Sentiment Analysis[J].Knowledge-Based Systems,2017,125:116-135.
[2]Li S S,Wang Z Q,Zhou G D,et al.Semi-Supervised Learning for Imbalanced Sentiment Classification[C]//Twenty-Second International Joint Conference on Artificial Intelligence,2011.
[3]Zhao J Q,Gui X L,Zhang X J.Deep Convolution Neural Networks for Twitter Sentiment Analysis[J].IEEE Access,2018,6:23253-23260.
[4]Sun S L,Luo C,Chen J Y.A Review of Natural Language Processing Techniques for Opinion Mining Systems[J].Information Fusion,2017,36:10-25.
[5]Mohammad S M,Salameh M,Kiritchenko S.How Translation Alters Sentiment[J].Journal of Artificial Intelligence Research,2016,55:95-130.
[6]Mohammed H H,Dogdu E,Grür A K,et al.Multi-Label Classification of Text Documents Using Deep Learning[C]//2020 IEEE International Conference on Big Data(Big Data).IEEE,2020:4681-4689.
[7]Blitzer J,Dredze M,Pereira F.Biographies,Bollywood,Boom-Boxes and Blenders:Domain Adaptation for Sentiment Classification[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics,2007:440-447.
[8]Pan S J,Yang Q.A Survey on Transfer Learning[J].IEEE Transactions on Knowledge and Data Engineering,2009,22(10):1345-1359.
[9]Posner J,Russell J A,Peterson B S.The Circumplex Model of Affect:An Integrative Approach to Affective Neuroscience,Cognitive Development,and Psychopathology[J].Development and Psychopathology,2005,17(3):715-734.
[10]Russell J A.A Circumplex Model of Affect[J].Journal of Personality and Social Psychology,1980,39(6):1161-1178.
[11]Bradley M M,Lang P J.Measuring Emotion:The Self-Assessment Manikin and the Semantic Differential[J].Journal of Behavior Therapy and Experimental Psychiatry,1994,25(1):49-59.
[12]Barrett L F,Russell J A.The Structure of Current Affect:Controversies and Emerging Consensus[J].Current Directions in Psychological Science,1999,8(1):10-14.
[13]Preo iuc-Pietro D,Schwartz H A,Park G,et al.Modelling Valence and Arousal in Facebook Posts[C]//Proceedings of the 7th Workshop on Computational Approaches to Subjectivity,Sentiment and Social Media Analysis,2016:9-15.
[14]Buechel S,Hahn U.EmoBank:Studying the Impact of Annotation Perspective and Representation Format on Dimensional Emotion Analysis[J/OL].[2024-12-12].https://arxiv.org/abs/2205.01996.
[15]黃嘉健,黃輝雄,廖婉瑩,等.大學生情緒效價和喚醒度對不確定決策風險偏好的影響[J].中國健康心理學雜志,2018,26(10):1556-1561.
[16]宋曉蕾,賈筱倩,趙媛,等.情緒對聯合行動中共同表征能力的影響機制[J].心理學報,2020,52(3):269-282.
[17]牟元樵,鄧小昭.碩士研究生網絡學術信息查尋行為中的情緒作用機制[J].圖書情報工作,2019,63(23):87-96.
[18]Esuli A,Sebastiani F.PageRanking WordNet Synsets:An Application to Opinion Mining[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics,2007:424-431.
[19]Huang S,Niu Z D,Shi C Y.Automatic Construction of Domain-Specific Sentiment Lexicon Based on Constrained Label Propagation[J].Knowledge-Based Systems,2014,56:191-200.
[20]Pang B,Lee L,Vaithyanathan S.Thumbs Up?Sentiment Classification Using Machine Learning Techniques[J/OL].[2024-12-12].https://arxiv.org/abs/cs/0205070.
[21]唐慧豐,譚松波,程學旗.基于監督學習的中文情感分類技術比較研究[J].中文信息學報,2007,(6):88-94,108.