劉 星,楊 波,郁 云
(南京信息職業技術學院數字商務學院,江蘇 南京 210023)
近年來,黨委政府高度重視新生態企業家的思想引領工作,習近平總書記強調“要關注他們的思想”,“同他們交思想上的朋友”。建立思想狀況分析研判與預測機制,是促進新生代企業家健康成長、促進民營經濟健康發展的有效途徑。企業家在社交網絡平臺非常活躍,對于平臺文本進行情感極性分析,能夠快速掌握民營企業家的輿論思想走向和觀點。
社交平臺使用簡單,可隨時隨地發布博文,企業家樂于在社交平臺上分享自己生活中的點滴,表達對某件事的觀點或情感,屬于最流行的溝通方式和情感傾訴工具,多年來已積累了數量巨大且富含情感色彩的文本數據。基于網絡文本數據的情感分類,可以監測社交平臺用戶的情緒走向,不僅能根據用戶的情緒變化進行針對性的內容推薦,以達到在必要情況下實施心理干預和情緒安撫的目的,還能通過監測對某一事件的大眾情緒來把控輿情走向,降低突發公共事件發生的可能性。因此,從社會層面考慮,基于社交平臺文本數據的情感分類,對民營企業家的思想動態研判具有重要研究意義。
對文本數據的情感分類大致可分為基于情感詞典、基于機器學習和基于深度學習的分類方法。情感詞典是一個具有情感傾向的詞匯集合,在該詞典中,每個詞匯代表不同的情感色彩,并使用數值化的方式標識情感的傾向程度。Wu 等[1]提出了一種有效的基于情感程度詞典的中文情感分析方法,將基本情感價值詞庫和社會證據詞庫相結合,在特定的中文文本情感分析中得到最高的準確度即88.5%。Zhang 等[2]將情感字典和統計相結合,使用逐點互信息和聚類函數進行逐層聚類以預測情緒。
近年來,隨著機器學習的快速發展,越來越多的學者將機器學習的一些算法運用到情感分類中,常用的算法有支持向量機SVM、樸素貝葉斯NB、隨機森林等[3]。Go 等[4]描述了對推特文本數據進行預處理的過程,能夠有效提高情感分類的準確率,并使用監督學習的方式在數據集上進行模型訓練,實現了超過80%的情感分類準確率。Mertiya 等[5]使用合并的樸素貝葉斯和形容詞分析方法來找出模糊推文的情感極性,在測試數據上達到了88.5%的準確率。Zhu 等[6]利用Word2Vec 提取目標語句的情感特征,并使用機器學習中的SVM 分類器進行分類,在此基礎上加入構建好的情感詞典進行集成學習,并最終用于情緒預測。
國內將深度學習應用于情感分類的研究剛剛起步,Cao 等[7]采用了連續詞袋CBOW 模型構建詞嵌入,然后輸入到CNN 和SVM 模型進行情感分類。段宇翔等[8]提出了結合詞向量、長短期記憶網絡和卷積神經網絡CNN 模型,在測試集上取得了88.02%和93.03%的微博文本情感分類效果。楊晨等[9]在在最新的預訓練語言模型BERT 基礎上,提出了一種側重學習情感特征的預訓練方法,利用情感詞典改進BERT 預訓練任務,相較于原BERT 模型,提高了1 個百分點的精度。
但是,研究發現,目前的情感分類方法仍存在以下問題:①現有的機器學習方法很大 程度上依賴于前期提取的特征,一定程度上限制了分類的準確率;②未考慮到文本分類中的時間序列因素,因此分類結果難以有效融合時間特征。本文提出了一種基于ResNet 和LSTM 的用戶情感極性分類方法。實驗結果表明,該模型在分類準確度上有較顯著提高。
對于給定序列x=(x1,x2,x3,x4,…,xn),應用標準的RNN 模型,可以計算出一個隱藏層序列h=(h1,h2,h3,h4,…,hn)和一個輸出序列y=(y1,y2,y3,y4,…,yn)。
式中:W為權重系數矩陣,b為偏置向量;fa為激活函數(激活函數可以用tanh 函數,sigmod 函數等);下標t表示時刻。
雖然RNN 能對非線性時間序列的數據進行預測,但是仍然存在梯度消失、爆炸的問題以及需要預先確定延遲窗口的長度。因此,LSTM 模型應運而生[10]。如圖1 所示,x為輸入模塊,則隱藏層計算可以表示為:
式中:i,f,c,o分別為輸入門,遺忘門,細胞狀態和輸出門。σ和tanh 分別為sigmoid 和雙曲正切激活函數。
殘差網絡作為2015 年ImageNet 競賽(Image Net Large-Scale Visual Recognition Challenge)的冠軍,其top5 錯誤率(預測的前5 個類別中不包含正確類別的比例)為3.57%。VGGNet(Visual Geometry Group Net)和GoogLeNet(Google Inception Net)的成功,說明網絡越深,模型表現越良好。然而,單純堆疊神經網絡層數會使網絡模型退化,導致后面的特征丟失了前邊特征的原本模樣,產生梯度消失或者梯度爆炸等問題,造成訓練和測試效果變差。為了解決模型“退化”的問題,何凱明等[11]提出了殘差結構(見圖2)。殘差鏈接為一根跳連線,能夠從全連接層之前直接鏈接到非線性層,即:

圖2 殘差網絡ResNet 的核心結構
將LSTM 與ResNet 進行融合,能夠在加深LSTM 層數的同時,避免層數爆炸和梯度消失的情況,因此該模型經常被應用到時間序列的預測中。如李自立等[12],結合了LSTM 和ResNet,取得了很好的預測效果,展現出較強的特征提取和預測能力。因此本文同樣將LSTM 與ResNet 進行融合,將其應用到情感分類中,網絡結構如圖3 所示。

圖3 LSTM-ResNet 模型總體結構圖
輸入層為經過預處理的文本向量,隱藏層由LSTM 層、全連接層組成,其中引入了ResNet 殘差網絡結構,ResNet 加入了一根跳連線,能夠在全連接層之前直接短接到非線性層上,直接連接過來的恒等映射x和非線性輸出F(x)兩路值元素的對應相加。這樣可以有效緩解由模型堆疊引發的梯度消失的問題。圖3 所示即為ResNet-LSTM 的總體結構,分為輸入層、隱藏層、輸出層。其中,輸入層中輸入的是經過預處理、分詞、去停用詞后的文本向量x1,x2,x3,…,xL。隱藏層為ResNet-LSTM 網絡。輸出層為預測向量P1,P2,P3,…,PL。
基于LSTM-ResNet 的文本情感分類算法如算法1 所示。其中,輸入為訓練數據集、對應情感標簽集,驗證集比例以及待檢測的樣本集;輸出為待檢測樣本集的情感分類集。主要為預處理、向量化表示、劃分訓練集測試集、訓練R-LSTM 模型及測試輸出。其中,訓練集和測試集是不能有重疊交叉的,因此,設置劃分比例參數θ,可以將數據集劃分為訓練集和測試集兩部分,訓練集主要用來訓練模型,而測試集則用來驗證模型的效果,如公式model ←RLSTM(DSVT,DSVV,YT,YV,ω),經過R-LSTM 訓練后得到模型model,并保存在本地,以備后續驗證集測試使用。
算法1 基于LSTM-ResNet 的文本情感分類模型

實驗數據來源于網絡社交平臺以及線下調研。如新浪微博是中國最大的社交媒體平臺之一,其內容具有很高的及時性和開放性,對于一些突發事件(如此次新冠疫情),可以提供大量的研究數據。線下調研,主要形式是組織企業家座談,記錄其對突發事件的評論。在獲得實驗數據后,對數據進行去重、去除無效值等處理后,對評論文本進行標注,實驗數據樣例如表1 所示,情感傾向為{消極、中性、積極},對應的標簽為{-1,0,1}。實驗模型參數如表2 所示,其中為LSTM 和改進的R-LSTM 在參數上保持一致。

表1 實驗數據樣例

表2 實驗參數說明
本文在衡量算法的準確性時采用準確率(Accuracy)和F1 值來度量不同分類模型的性能,相關定義如下:
式中:FN 為被錯分的正樣本數,FP 為被錯分的負樣本數,TN 為正確分類的負樣本數,TP 為正確分類的正樣本數。P和R分別為查準率和召回率,定義如下:
本文在對比情感分類效果時,評估數據集為TS1 和TS2,評估參數分別為F1 值和準確度Accuracy。
以單獨使用LSTM 作為基線模型,與所提出的評估模型(R-LSTM)進行對比。其中基線模型中網絡參數與所提出評估模型中的訓練參數保持一致。
如表3 所示,經過ResNet 殘差網絡改進的LSTM 模型的性能要比貝葉斯+形容詞、LR 以及SVM 方法好一些,也比單獨使用LSTM 算法的效果稍好些,同時也論證了本文所提出改進模型的有效性和可行性。因此,通過實驗結果,可以看到RLSTM 一定程度上提升了情感極性分類的精度。

表3 實驗結果
本文提出一種基于ResNet 殘差網絡改進的LSTM 長短時間序列分析方法。實驗結果表明,與支持向量機、樸素貝葉斯等傳統分類器相比,基于改進的ResNet 與LSTM 的文本情感極性分類方法在分類精度上有一定提升;與LSTM、循環神經網絡等深度學習方法相比,該方法在保證運行效率的前提下能獲得更高的分類精度。本方法能夠用來對社交平臺的文本情感進行情感極性分類和預測。在實際應用中,可實時獲取企業家發文所表達的情感極向,在熱點事件的輿論監測方面具有實用意義。企業家在社交網絡平臺非常活躍,對于平臺文本進行情感極性分析,能夠快速掌握民營企業家的輿論思想走向和觀點,并引導其健康成長,促進民營經濟健康發展。