融合多粒度語義特征的中文情感分析方法

2023-11-29 04:20:52任菊香劉忠寶

華東師范大學學報(自然科學版) 2023年6期

任菊香,劉忠寶

（1.山西工程科技職業大學信息工程學院,山西晉中 030619;2.北京語言大學信息科學學院,北京 100083;3.泉州信息工程學院軟件學院,福建泉州 362000）

0 引言

近年來,中文情感分析受到研究人員的廣泛關注并取得了長足進步,但現有研究存在語義理解能力弱和情感特征表達不充分等問題.中英文語言的差異性,使得英文文本情感分析取得的研究成果無法直接遷移到中文文本,極大地增加了中文情感分析的研究難度.鑒于此,本文針對中文文本的特殊性以及情感分析的實際需求,在字、詞特征的基礎上,引入部首特征和情感詞性特征,利用雙向長短期記憶網絡(bidirectional long short-term Memory,BLSTM)、注意力機制(attention mechanism)、循環卷積神經網絡(recurrent convolutional neural network,RCNN)等模型,提出了融合字、詞、部首、詞性等多粒度語義特征的中文文本情感分析方法.

本文研究的創新點主要體現在3 個方面: 一是針對中文文本的特殊性以及情感分析的實際需求,圍繞大數據環境下中文情感分析問題展開研究,選題具有一定的新意;二是研究融合了情報學、語言學、信息科學、人工智能等學科的諸多前沿理論和方法,采用多學科交叉的模式來分析問題、解決問題,在研究方法和手段上具有一定的創新性;三是深度融合字、詞、部首、詞性等多粒度語義特征,提出了中文文本情感分析方法,進一步豐富了中文情感分析的理論體系和方法體系.具體而言,本文主要的學術貢獻: 一是針對中文文本的特殊性,利用漢字部首助力中文文本語義理解;二是深度融合字、詞、部首、詞性等多粒度語義特征,進一步提升了中文情感分析性能.

1 相關研究

現有研究主要沿著兩條技術路線展開: 傳統方法和深度學習方法.傳統方法利用情感詞典或機器學習模型進行情感分析: 基于情感詞典的方法能夠準確反映文本的非結構化特征,易于分析和理解,但隨著大量新詞的出現,情感詞典覆蓋范圍有限,無法解決詞形、詞性變化問題;基于機器學習的方法比起構建情感詞典具有一定優勢,但該方法需要事先給定大量特征,效率較為低下,且機器學習模型無法學習文本數據的深層次語義特征.鑒于深度學習模型在特征提取和語義表征方面的優勢,研究人員開始關注該模型并將其引入文本情感分析.目前,基于深度學習模型的文本情感分析主要從字、詞和詞性等不同粒度角度開展研究.

基于字粒度的文本情感分析,以字為基本單元構造字向量,通過深度學習模型提取字向量的深層次語義特征進行文本情感分析.劉文秀等[1]為解決文本情感分析對分詞的依賴性和詞的歧義性問題,提出了一種基于變換器的雙向編碼器表征技術(bidirectional encoder representations from transformer,BERT)[2]和BLSTM 的文本情感分析模型,該模型將BERT 預訓練的字向量替代傳統方法的詞向量,然后利用BLSTM 模型進行特征提取,進而實現情感識別;與長短期記憶網絡(long short-term memory,LSTM)、文本卷積神經網絡(text convolutional neural network,TextCNN)和BERT-LSTM 等模型的對比實驗表明,該模型情感分析性能優良,其F1值最高提升了6.78%.徐凱旋[3]等融合BERT 模型和TextCNN 模型,提出了BERT-TextCNN 混合模型,該模型利用BERT 模型獲取具有句子全局特征的字向量,然后將其輸入TextCNN 模型抽取局部特征.

基于詞粒度的文本情感分析,以詞為基本單元構造詞向量,通過深度學習模型提取詞向量的深層次語義特征進行文本情感分析.張海濤等[4]基于卷積神經網絡(convolutional neural network,CNN)構建微博輿情情感識別模型,微博話題數據集上的實驗結果表明,該模型相較于傳統方法具有一定的優勢,能夠實現高效的微博輿情情感分析;曹宇等[5]提出了一種基于雙向門控循環單元(bidirectional gate recurrent unit,BGRU)模型的中文文本情感分析方法,該方法相較于BLSTM 模型,其模型結構更為簡單,訓練速度更快,ChnSentiCorp 語料集上的實驗結果表明,該模型的F1值達到了90.61%.為解決財經微博文本中網民情感狀態轉移的時序分析問題,吳鵬等[6]提出了基于認知情感評價模型和LSTM 模型的財經微博文本情感識別模型,海量微博數據集上的實驗結果表明,該模型的準確率達到89.45%,遠高于支持向量機(support vector machine,SVM)和半監督遞歸自編碼器(semi-supervised recursive auto encoder,SS-RAE);胡任遠等[7]提出了多層協同卷積神經網絡模型(multi-level convolutional neural network,MCNN),并與BERT 模型相結合,提出了 BERT-MCNN 混合模型.繆亞林等[8]提出的融合CNN 與BGRU 模型的文本情感識別模型,豆瓣影視評論數據集上的實驗結果表明,該模型較于相同復雜度的CNN-BLSTM 模型,其分類準確率和訓練速度分別提高了2.52%和41.43%.

一些研究人員注意到字、詞在情感分析中的作用,提出了融合字粒度與詞粒度的情感分析方法,例如,李平等[9]提出的雙通道卷積神經網絡(dual channel convolutional neural network,DCCNN)模型,該模型采用不同通道進行卷積運算,其中一個通道為字向量,另一個為詞向量,通過不同尺寸的卷積核,提取句子特征,實驗結果表明,該模型的正確率和F1值相較于傳統方法有了顯著提升,均達到95%以上;張柳等[10]利用多尺度卷積核,構建基于字、詞向量的多尺度卷積神經網絡CNN 模型,并將其應用于微博評論情感識別;陳欣等[11]針對深度學習模型無法充分獲取文本語義特征的問題,在融合字、詞向量的基礎上,分別利用CNN 模型和BLSTM 模型進行情感正負分類和主客觀分類研究.

基于詞性粒度的文本情感分析,以中文詞語的詞性作為主要特征進行文本情感分析.趙富等[12]針對現有研究提取文本特征能力不足的問題,提出了一種融合詞性的雙注意力機制BLSTM 模型,實驗結果表明,與未融合詞性的模型相比,該模型在4 類語料集上情感識別的準確率分別提高了1.35%、1.25%、0.93%和1.5%.王義等[13]利用CNN 模型的多個通道,分別對詞向量、詞向量與詞性融合的詞性對向量以及字向量進行卷積運算,建立了細粒度的多通道CNN 模型;實驗結果表明,與CNN 模型相比,該模型的準確率和F1值上均有顯著提升.

對相關研究進行梳理可以發現,研究人員圍繞字、詞、詞性等多粒度特征進行的情感分析研究,取得了一系列研究成果.隨著研究的深入,也面臨一些重要挑戰: 首先,中文文本情感分析研究大多借鑒英文文本情感分析方法,忽略了中文(象形文字)與英文(拉丁文字)的本質區別;其次,一些研究雖然認識到字特征、詞特征、詞性特征對于情感分析的重要性,試圖將字特征、詞特征、詞性特征進行融合,但融合方式太過粗糙,嚴重影響了文本的語義理解能力;最后,除字特征、詞特征、詞性等特征外,能否引入更多特征實現更為高效的情感分析尚未深入探討.這些問題是本文嘗試解決的主要問題.

2 研究方法

中文情感分析具有2 個顯著特點: 一是漢字是組成中文文本的基本單元,每個漢字的部首蘊含了豐富的語義信息;二是詞語的詞性,特別是動詞、形容詞、副詞等,其包含了豐富的情感信息.因此,與之前的研究工作不同,本文引入深度學習模型,利用字、詞、部首、詞性等多粒度語義特征對中文文本進行全面建模,充分挖掘蘊含其中的潛在語義信息和情感信息,以期進一步提高中文情感分析性能.

本文整體研究框架如圖1 所示,由數據輸入層、向量表示層、特征提取層和結果輸出層等4 部分組成: 數據輸入層將中文文本轉換為字、字級部首、詞、詞級部首以及詞性文本等5 類輸入數據;向量表示層利用向量表示模型對輸入數據進行向量化表示,得到特征向量;特征提取層利用雙向長短期記憶網絡、注意力機制、循環卷積神經網絡等模型,從5 類特征向量中提取深層次語義特征;結果輸出層對特征提取層得到的語義特征進行融合,通過全連接層和分類函數,得到情感識別結果.

圖1 研究框架Fig.1 Research framework

2.1 數據輸入層

數據輸入層的主要作用是對中文文本進行預處理并生成輸入數據.中文文本的特點是: 首先,字與詞都能表達文本語義;其次,部首是漢字的固有屬性,也是語義信息的重要載體;最后,詞性因其包含情感信息,故在情感分析中發揮重要作用.基于上述分析,本文將中文文本轉換為字、字級部首、詞、詞級部首和詞性文本等五類輸入數據.為了便于理解,本文以“比預想的好很多”文本為例,給出如圖2 所示的文本轉換過程.

圖2 文本轉換過程實例Fig.2 Example of text transformation process

在圖2 中,對于輸入文本T,它有n個字組成,即Tc={c1,c2,···,cn},其中Tc表示字級文本,ci(i1,2,···,n)表示組成輸入文本T的字;利用jieba 分詞工具將輸入文本T切分為m個詞,即Tw={w1,w2,···,wm},其中Tw表示詞級文本,wi(i1,2,···,m)表示組成輸入文本T的詞;根據新華字典的部首映射關系,分別得到字級文本Tc和詞級文本Tw的字級部首文本Trc和詞級部首文本Trw,即Trc={cr,1,cr,2,···,cr,n},其中cr,i(i1,2,···,n)表示字級部首,Trw={wr,1,wr,2,···,wr,n},其中wr,i(i1,2,···,n)表示詞級部首;利用jieba 詞性分析工具將詞級文本Tw轉換為詞性文本Tpos,即Tpos={pos1,pos2,···,posm},其中posi(i1,2,···,m)表示詞對應的詞性.標識符號與詞性的對應關系如表1 所示.由上述分析可知,字級文本Tc與字級部首文本Trc規模相當,詞級文本Tw、詞級部首文本Trw、詞性文本Tpos規模相當,即|Tc|=|Trc|,|Tw| =|Trw| =|Tpos|. 這里|·|表示文本規模.

表1 標識符號與詞性的對應關系表Tab.1 Relationship between the identifiers and part-of-speech of words

2.2 向量表示層

向量表示層利用Word2Vec 詞嵌入方法,對5 類輸入數據{Tc,Trc,Tw,Trw,Tpos}進行訓練,得到相應的向量化表示:Ec={ec,1,ec,2,· ··,ec,n}表示字向量集合,其中ec,i(i1,2,···,n)表示字向量;Erc={erc,1,erc,2,· ··,erc,n}表示字級部首向量集合,其中erc,i(i1,2,···,n)表示字級部首向量;Ew={ew,1,ew,2,· ··,ew,m}表示詞向量集合,其中ew,j(j1,2,···,m)表示詞向量;Erw={erw,1,erw,2,···,erw,m}表示詞級部首向量集合,其中erw,j(j1,2,···,m)表示詞級部首向量;Epos={epos,1,epos,2,···,epos,m}表示詞性向量集合,其中epos,j(j1,2,···,m)表示詞性向量.

具體而言,上述輸入數據向量化表示均利用Word2Vec 系列方法中的Skip-gram 模型和層次化softmax 策略來實現.這里以詞向量為例介紹Skip-gram 模型的工作原理.Skip-gram 模型通過中心詞來預測上下文背景詞的概率.具體而言,該模型將每個詞語都表示為中心詞的詞向量和背景詞的詞向量,以此來計算中心詞和待預測背景詞之間的條件概率.相應計算公式為

式(1)中:wc表示中心詞;wo表示背景詞;vc表示中心詞的詞向量;vo表示背景詞的詞向量;N表示詞典大小;i表示單詞在詞典中的索引.

2.3 特征提取層

特征提取層利用BLSTM 模型、注意力機制、RCNN 模型對5 類特征向量進行深層次語義提取.基本思路: 利用BLSTM 模型與注意力機制,將部首向量分別與字向量、詞向量進行特征融合,得到字與字級部首的融合特征以及詞與詞級部首的融合特征;利用RCNN 模型對詞性向量進行特征提取,得到詞性特征.工作原理及工作流程如下.

(1)字、詞、部首是中文文本的固有屬性,不會隨具體下游任務的改變而改變,具有鮮明的序列化特征.BLSTM 模型具有串聯的網絡結構,非常適合處理序列化數據.因此,本文選用BLSTM 模型處理字特征、詞特征和部首特征.BLSTM 模型通過拼接具有正向和反向的LSTM 模型的特征向量,實現了上下文語義特征的有效利用.LSTM 模型工作原理對應的公式為

式(2)中:xt為時刻t的輸入向量;it、ft、ot分別表示當前時刻的輸入門、遺忘門和輸出門;Wi、Wf、Wo分別表示輸入門、遺忘門和輸出門的權重矩陣;bi、bf、bo分別表示輸入門、遺忘門和輸出門的偏置向量;ct表示當前時刻的記憶單元;t-1 表示當前時刻t的后一時刻;Wc、bc分別表示當前信息的權重矩陣和偏置向量;sigmoid(·)和tanh(·)為激活函數;ht為當前時刻的輸出向量;⊙為哈達瑪積;×表示矩陣乘法.

BLSTM 模型工作原理對應的公式為

式(3)中:xt為t時刻的輸入向量;分別表示正向和反向LSTM 模型得到的特征向量;yt為當前時刻tBLSTM 模型得到的特征向量;t+1 表示當前時刻t的前一時刻.

具體工作流程: 首先,將BLSTM 模型的初始狀態置為0;然后,將字向量集合Ec和詞向量集合Ew分別輸入BLSTM 模型,得到字特征向量集合yc、詞特征向量集合yw,以及BLSTM 模型存放的狀態值和yc={yc,1,,yc,2,· ··,yc,n},其中yc,i(i1,2,···,n)表示字特征向量;yw={yw,1,yw,2,···,yw,m},其中yw,j(j1,2,···,m)表示詞特征向量.工作流程對應的公式為

(2)注意力機制能夠對文本的某些關鍵特征賦予較高權重,以降低冗余信息的干擾并提高關鍵特征對情感分析結果的貢獻度.文本的情感極性通常由某些關鍵詞或短語決定.注意力機制通過學習文本上下文語義,自動感知有助于判別情感傾向的關鍵特征,并基于此融合不同特征.在實現方面,注意力機制通過點積方式實現字特征向量集合yc、字級部首向量集合Erc,以及詞特征向量集合yw、詞級部首向量集合Erw的融合,進而得到融合后的字級向量(i1,2,···,n),以及融合后的詞級向量(j1,2,···,m).具體實現對應的公式是

其中AAtt表示注意力機制.

(3)將字級向量erc,i(i1,2,···,n)與詞級向量erw,j(j1,2,···,m)作為輸入向量,分別輸入初始化的BLSTM 模型,并將之前BLSTM 模型存放的狀態值、傳遞給當前BLSTM 模型作為初始狀態,得到輸出字–部首特征向量集合yrc以及詞–部首特征向量集合yrw,且yrc={yrc,1,,yrc,2,···,yrc,n},其中yrc,i(i1,2,···,n)表示字–部首特征向量;yrw={yrw,1,yrw,2,· ··,yrw,m},其中yrw,j(j1,2,···,m)表示詞–部首特征向量.其工作流程相應公式為

(4)利用基于多層感知機方式實現的注意力機制分別對yrc和yrw進行特征融合,得到輸出向量Vc和Vw.計算過程是

式(7)中:α表示注意力機制;M表示經過多層感知機后的權重矩陣;W和b分別為待訓練的權重矩陣和偏置向量;tanh 為激活函數;uc和uw為隨機初始化的上下文向量.

(5)詞語的詞性包含了豐富的情感傾向,是情感分析任務關注的重要特征之一.文本情感分析需要模型具備兩大能力: 一是能夠較好地提取文本的序列特征,二是能夠準確地提取文本中的動詞、形容詞等詞性特征.BLSTM 模型只能提取文本的序列特征,無法提取詞性特征.因此,該模型無法用于詞性特征提取.RCNN 模型能夠利用RNN 模型中的串行結構學習文本的上下文依賴關系,也能夠利用CNN 模型中的池化結構保留并捕捉關鍵詞的詞性特征.因此,本文選用該模型提取詞性特征.具體而言,首先,將詞性向量集合Epos輸入BLSTM 模型,得到詞性特征向量集合Ypos,其中Ypos{ypos,1,ypos,2,···,ypos,m};然后,利用拼接方式融合詞性向量集合Epos與詞性特征向量集合Ypos,通過最大池化(max-pooling)操作得到最終的輸出向量Vpos. 其工作流程相應公式是

2.4 結果輸出層

結果輸出層負責生成情感識別結果.具體流程: 首先,對輸出向量Vc、Vw、Vpos進行特征融合,得到融合后的特征向量Vy;然后,將融合后的特征向量Vy輸入全連接(fully connected,FC)神經網絡,得到Oy;接著,利用softmax 函數進行歸一化處理,得到概率輸出P;最后,選擇概率最大的值作為情感識別結果y.其工作流程相應公式是

3 實驗分析

3.1 實驗所用的數據集

實驗采用的數據集是NLPCC(natural language processing and Chinese computing)數據集[14],該數據集共有44 875 個樣本,其情感標簽有喜好、悲傷、厭惡、憤怒、高興和其他等6 種.該數據集的清洗及預處理流程如下.

(1)文本過濾.研究對象是中文文本,故需去掉非中文數據.

(2)數據清洗.去除數據集中非文本數據類型,如控制符、表情符號、HTML(hyper text markup language)標簽、URL(uniform resource locator)等.

(3)對數字和英文字母歸一化處理.將全角字符全部轉換為半角字符.

(4)對標點符號歸一化處理.將數據集中的標點符號統一轉化為中文標點符號.

(5)大小寫轉換.將數據集中的大寫字母轉化為小寫字母.

(6)繁簡轉換.利用Python 工具包OpenCC 將數據集中的繁體字轉換為簡體字.

(7)人工合并數據集中多余的空格.

實驗中將NLPCC 數據集劃分為訓練集、驗證集和測試集,其比例為6∶2∶2.

3.2 實驗設置

(1)實驗環境: 操作系統為Window10;內存大小為16 GB;編程語言采用Python3.7.0;深度學習框架采用PyTorch1.7.1;訓練優化器為Adam;詞向量工具采用Gensim4.1.2;GPU 為NVIDIA GeForce GTX 1660Ti.

(2)參數設置如表2 所示.其中,epoch 為迭代次數,表示訓練時需要遍歷多少次訓練集;batch_size為批處理數量,表示每次訓練輸入模型的樣本數量;learning_rate 表示模型的學習率;dropout 表示丟棄率,用來避免“過擬合”,以提升模型的泛化能力;hidden_dim 表示隱藏層的神經元數目.

表2 實驗參數Tab.2 Experimental parameters

3.3 評價指標

采用精確率(precision,P)、召回率(recall,R)、調和平均值(F1-score,F1)來衡量情感識別效果,其計算分別公式為

式(10)中:NTP表示被正確分類的正例樣本(真正例(true positive,TP))的數量;NFP表示被錯誤分類的正例樣本(假正例(false positive,FP))的數量,NFN表示給錯誤分類的負例樣本(假負例(false negative,FN))的數量;P表示模型預測正確的正例樣本占預測為正例的樣本的比例,R表示模型預測正確的正例樣本中占實際為正例的樣本的比例.

3.4 實驗結果與分析

3.4.1 實驗模型

為了驗證本文所提方法的有效性,引入多個主流模型進行對比實驗.對比模型如下.

(1)FastText[15]對文本的詞向量進行平均池化,實現文本的向量化表示,并基于此進行情感識別.

(2)BLSTM[16]是雙向LSTM,為RNN 的變種,利用BLSTM(Ec)和BLSTM(Ew)分別對字文本和詞文本進行情感識別,即同時將字向量集合Ec和詞向量集合Ew作為輸入.

(3)CNN[4]通過卷積層對詞向量進行卷積運算,進而得到特征向量,并基于此進行情感識別.

借鑒文獻[17]提出的多通道雙向長短期記憶網絡,結合本文研究對象,本文提出了Two BLSTMs 和Four BLSTMs,分別對字、詞文本以及字文本、字級部首文本、詞文本、詞級部首文本建模.

(4)Two BLSTMs 使用2 個BLSTM 分別對字文本和詞文本進行建模,將二者的輸出向量進行拼接并進行情感識別.

(5)Four BLSTMs 使用4 個BLSTM 分別對字文本、字級部首文本、詞文本、詞級部首文本進行建模,將4 個通道經BLSTM 的輸出向量進行拼接并進行情感識別.

(6)BLSTM_Att[18]使用雙向LSTM,并引入注意力機制賦予特征不同的關注度.利用BLSTM_Att(Ec)和BLSTM_Att(Ew)模型分別對字文本和詞文本進行情感識別,即同時將字向量集合Ec和詞向量集合Ew作為輸入.

借鑒文獻[17]提出的多通道雙向長短期記憶網絡以及文獻[18]提出的BLSTM_Att 模型,結合本文研究對象,本文提出了Two BLSTM_Atts 和Four BLSTM_Atts,分別對字、詞文本以及字文本、字級部首文本、詞文本、詞級部首文本建模.

(7)Two BLSTM_Atts 使用2 個BLSTM-Att 分別對字文本和詞文本進行建模,將二者的輸出向量進行拼接并進行情感識別.

(8)Four BLSTM_Atts 使用4 個BLSTM-Att 分別對字文本、字級部首文本、詞文本、詞級部首文本進行建模,然后將4 個通道上的BLSTM-Att 的輸出向量進行拼接并進行情感識別.

(9)Cross BLSTM_Atts 在本文所提方法的基礎上去除詞性特征.

(10)BERT-BLSTM[1]利用BERT 模型構造字向量,然后利用BLSTM 進行特征提取,進而實現情感識別.

(11)RCNN-BLSTM_Atts 為本文所提方法.

3.4.2 結果與分析

各模型在數據集NLPCC 上的實驗結果如表3 所示.

表3 實驗結果Tab.3 Experimental results

由表3 值可以看出,FastText 的F1值最低,僅為70.15%,其主要原因是該模型對詞向量進行平均池化造成了語義丟失.BLSTM(Ec)、BLSTM(Ew)、Two BLSTMs、Four BLSTMs 的F1值分別為75.16%、79.35%、80.80%和81.19%,而BLSTM_Att(Ec)、BLSTM_Att(Ew)、Two BLSTM_Atts、Four BLSTM_Atts 的F1值分別是77.39%、80.62%、81.03%和81.23%,即引入注意力機制的模型,F1值分別提升了2.23%、1.27%、0.23%和0.04%.這表明注意力機制對于中文情感分析具有重要作用.

BLSTM(Ew)模型的F1值為79.35%,CNN 模型的F1值為79.80%,CNN 模型的F1值與BLSTM(Ew)基本相當,僅提高了0.45%.分析發現,這兩類模型均是利用詞特征的單通道模型,區別在于CNN 模型的池化結構能夠捕捉到豐富的文本語義特征,BLSTM 模型的串行結構能夠學習到上下文的長期依賴關系.

Two BLSTMs 和Two BLSTM_Atts 同時利用字特征和詞特征的雙通道模型,相較于只利用字或詞向量的單一模型BLSTM(Ec)、BLSTM(Ew)、BLSTM_Att(Ec)、BLSTM_Att(Ew),其F1值均有一定提升.其中,Two BLSTM_Atts 的F1值相較于BLSTM(Ec)提高了5.87%.這表明同時利用字、詞特征,有助于提高中文情感分析性能.

Four BLSTMs 和Four BLSTM_Atts 的F1值相較于Two BLSTMs 和Two BLSTM_Atts 均有一定提升,表明部首特征對于中文情感分析具有一定作用.

此外,Cross BLSTM_Att 的F1值相較于Four BLSTM_Atts 提高了1.52%,相較于Four BLSTMs 提高了1.56%.對比這3 類模型可以發現,Four BLSTMs 和Four BLSTM_Atts 模型只將特征向量通過簡單拼接進行特征融合,在特征提取過程中,字、詞與部首特征均未進行任何信息交互;反觀Cross BLSTM_Atts 模型,其通過BLSTM 模型提取字、詞特征,并利用點積注意力機制與字級部首向量和詞級部首向量進行信息交互與融合,使得融合后的特征向量能從字、詞、部首的深層次語義特征中感知情感傾向.

BERT-BLSTM 的F1值為83.14%,識別效果優于Cross BLSTM_Atts 模型,其主要原因是:BERT 模型可以動態地表示文本向量,并能根據情感分析任務對其語義表征能力進行微調,生成更為準確的語義特征,因此其情感識別性能更優.

本文所提模型的F1值達到了84.80%,超過了所有的對比模型: 相較于Cross BLSTM_Att 提升了2.05%;相較于BERT-BLSTM 提升了1.66%.這表明,詞性特征對于情感分析至關重要.RCNN 模型既能對詞性文本序列進行雙向建模,又能通過池化操作從詞性文本篩選出對情感表達具有顯著作用的詞性特征.通過與字–部首特征、詞–部首特征進行特征融合,可得到更優的情感分析結果.

4 結論

本研究基于中文文本的特殊性以及情感分析的實際需求,充分利用部首特征和情感詞性特征,深度融合BLSTM 模型、注意力機制、RCNN 模型,提出了一種融合字、詞、部首、詞性等多粒度特征的中文文本情感分析方法,并在數據集NLPCC 上進行了對比實驗.結果表明,本文方法的F1值較之其他模型均有一定的提升.本文研究尚存在一些不足,例如,未對中文文本的情感進行更細粒度的分析,沒有探究計算效率提升路徑與策略等.此外,如何更好地捕捉不同粒度特征之間的關聯和交互也是未來研究的重點.