羅嘉 王樂豪 涂姍姍 宋鴿 韓瑩
我國作為氣象災害[1-2]發生頻率較高的國家之一,各種極端天氣的頻繁發生,給人們帶來了嚴重的經濟損失,甚至會誘發災難造成人員傷亡.氣象災害的發生不僅是對國家應急治理體制的重大考驗,影響人們的日常生活,還會在網絡上引起社會輿論的爆發[3],使人產生負面焦慮的情緒[4].對于災害引起的輿論[5],若不加以干預引導,容易在網絡上演變成新的突發事件,加劇危機事件本身的負面影響.
網絡用戶數量在近幾年呈幾何趨勢增長,大大提升了輿論的產生和傳播速度,網絡輿論本身帶有的情感指向性和其內在包含的應用價值也逐漸成為專家們關注的熱點.傳統的機器學習算法諸如支持向量機(Support Vector Machines,SVM)[6]、K-means算法[7]等方法已被提出用于英語和漢語的情感極性分析,且取得了很大的進展.但是面對大量數據時,傳統算法的訓練力不從心.深度學習的發展減輕了機器學習模型手動提取特征的負擔.長短期記憶網絡(Long Short-Term Memory,LSTM)[8]具有長時記憶功能并且實現起來簡單的優勢,解決了訓練過程中存在的梯度消失和梯度爆炸的問題.文獻[9]將LSTM模型與SVM模型在相同數據集上進行對比,在情感分類方面LSTM模型的準確率遠高于基線模型.輿情文本分析[10-11]是通過度量向量空間中單詞向量之間的關系進行的,因此單詞嵌入的質量直接影響到分類結果.雖然LSTM能夠從訓練數據中挖掘出更抽象的特征,使其具有很好的泛化能力,但它的擬合能力并不理想,而且LSTM提取特征時存在語義不完整、精度不高等問題.
研究者通過引入卷積神經網絡(Convolutional Neural Networks,CNN)來彌補上述缺陷,CNN-LSTM模型[12]的提出使得處理高維數據更加輕松、精度更高.自然語言包含結合詞和短語的句法特性使得底層模型不滿足應用需求.短文包含的上下文信息往往有限,對其進行情感分類具有一定的挑戰性.文獻[13]將10層CNN和10層LSTM結合起來,使用不同的超參數和不同的預訓練策略訓練,其產生的模型比單獨使用模型的歷史最高精度更勝一籌.許杰等[14]考慮到CNN并行計算能力強的優點而將其作為特征提取器,提取到的高層次特征輸入到LSTM中得到最終結果.較之以往模型,該模型能夠在提取局部特征的同時獲取句子的時態語義,提高了情感文本分類的精度.但CNN-LSTM模型存在性能過度依賴于標記數據的數量和質量,且未考慮到單詞之間的句法依存的問題,情感文本分類的精度仍有提升的空間.
注意到寬度學習(Broad Learning System,BLS)作為一種簡單的新型快速增量學習神經網絡[15],是基于隨機向量函數連接網絡RVFL(Random Vector Functional Link Network),將原始的輸入先通過特征節點學習稀疏的映射特征,然后經由增強節點非線性擴展得到增強特征,并聯兩種特征表達作為最后的總輸入送到輸出層進行分類識別,由此可以從訓練數據中學習到重要的特征,對訓練數據達到高度擬合.
本文爬取了2020年末斷崖式降溫輿情文本并對其進行數據預處理之后,發現文本中大多是短句文本,其包含的上下文信息有限,因此底層模型不滿足應用需求.將數據集使用LSTM模型進行訓練,得到的實驗結果在擬合度方面沒有達到預期的效果,精確度不高.
考慮到深度學習模型能夠從訓練數據中挖掘出更抽象的特征,這使得它具有很好的泛化能力,而BLS具有能夠從訓練數據中學習到重要的特征,對訓練數據達到高度擬合的特點,因此使用LSTM作為本文模型的特征提取層,將文本進行初步分類,再將初步分類的文本輸入到BLS層中進一步提取重要特征,最終獲取高精度分類結果.本文提出的LSTM-BLS模型,將不同級別的特征層信息進行融合使用,既有低級紋理信息又有高級語義信息,彌補了LSTM、CNN-LSTM模型在輿情文本分析方面提取特征時存在語義不完整、精度不高和未考慮到單詞之間的句法依存等問題.實驗結果表明,本文提出的模型較之于K-means、SVM模型精度分別提高了17.23和13.46個百分點,與LSTM與CNN-LSTM模型相比精度分別提高了7.13和4.17個百分點.文中模型在經過數據集測試后取得良好的效果,并且不依賴特定領域的自然語言庫,也可以應用在其他中文文本分析驗證上,具有廣泛的適用性.
LSTM的核心概念在于細胞狀態以及“門”結構.
圖1展示了LSTM的基本架構,其包含的三個門:輸入門、遺忘門和輸出門.通過三個門的函數和細胞狀態,LSTM可以捕獲短期和長期時間序列中的復雜相關性.其中,xt是輸入向量,it是時間步長t中的輸入狀態,ft是時間步長t中的遺忘狀態,ot是時間步長t中的輸出狀態,ht(ht-1)是時間步長t(t-1)中的隱藏狀態,ct(ct-1)是時間步長t(t-1)中的單元狀態.以tanh和sigmoid激活函數σ的形式在三個門的頂部添加非線性.

圖1 LSTM的基本架構Fig.1 Basic architecture of LSTM
LSTM的數學原理在式(1)—(6)中給出:
ft=σ(Wxfxt+Whfht-1+bf),
(1)
it=σ(Wxixt+Whiht-1+bi),
(2)
ot=σ(Wxoxt+Whoht-1+bo),
(3)
(4)
(5)
ht=ot?tanh(ct),
(6)
其中,Wxf,Whf,Wxi,Whi,Wxo,Who,Wxc,Whc代表了輸入向量與輸入門、輸出門、記憶單元之間對應的權向量,bf,bi,bo,bc是偏置變量,?是矩陣的Hadamard積.
BLS網絡結構如圖2所示.

圖2 BLS網絡結構Fig.2 Network structure of BLS
假設輸入數據集X包含N個樣本,每個樣本有M個維度,Y是屬于RN×C的輸出矩陣.對于n個特征通過式(7)映射后生成k個節點:
Zi=φ(XWei+βei),i=1,…,n.
(7)
將所有特征節點表示為Zn≡[Z1,…,Zn],第m組增強節點表示為
Hm≡ξ(ZnWhj+βhj),j=1,…,m,
(8)
其中Wei,Whj和βei,βhj分別是隨機生成的連接權重和偏置值.
因此,BLS模型可以表示為
Y=[Z1,…,Zn|ξ(ZnWh1+βh1),…,ξ(ZnWhm+βhm)]Wm=
[Z1,…,Zn|H1,…,Hm]Wm=
[Zn|Hm]Wm.
(9)
針對輿情文本的歧義性或多義性的問題,考慮到深度學習能夠對每個分量進行數據特征識別與特征提取,從而實現分量的單步向前預測,達到獲取最終分類的效果的特點,本文在上述基礎模型上通過融合BLS提出了一種新的的文本情感分析模型.該模型整體結構如圖3所示.

圖3 LSTM-BLS的文本情感分析流程Fig.3 Flow chart of text sentiment analysis based on LSTM-BLS
LSTM-BLS模型(圖4)的主體是3個拼接的LSTM層、2個全連接層(Dense)和1個BLS模型通道,3層LSTM通道主要用來提取句子特征,而加入的BLS層可以和別的機器學習算法靈活地結合,即利用LSTM提取到的特征來訓練.并且,其加入的增量學習算法,允許在網絡結構中加入新的節點時,以很小的計算開銷來更新網絡權重.

圖4 LSTM-BLS模型Fig.4 LSTM-BLS public opinion analysis model
1)第1層是輸入層(input layer),將爬取到的文本進行人工數據集標注后生成的文本導入程序.
2)第2層是嵌入層(embedding layer),作用是把輸入的每個詞語映射成一個向量表示.
3)第3~5層是LSTM層,主要是為了提取句子的特征.本文詞向量維度選取300維,選擇的過濾器分別為256、128、64個,訓練次數(epochs)=50,并在LSTM的每一層都加入了dropout機制,該機制可以在訓練過程中通過讓部分神經元停止工作,而達到防止過擬合的效果.
4)第6層是Dense層,將LSTM層輸出端融合的特征作為全連接層的輸入,應用Sigmoid激活函數后的值是介于0到1之間的浮點數,表示概率或者置信度,并加入L2正則化,防止過擬合.
5)第7層為BLS層,利用前面提取到的特征進行計算,調用Softmax進行分類,其中每個映射特征點的個數N1=10、映射特征個數N2=30、增強節點個數N3=280以及正則化參數C=0.000 1.
本文主要以2020年末兩次斷崖式降溫輿情數據為例.2020年12月28—30日我國中東部大部地區迎來大風降溫天氣,局部地區遭遇了16 ℃以上的斷崖式降溫.中央氣象臺迅速發布了最高級別的寒潮橙色預警.此次寒潮影響范圍廣,以及其伴隨而來的劇烈降溫、長時間持續性大風,給各行各業,甚至人們日常的穿衣出行都帶來了極大的影響,并迅速在網絡上掀起了輿論風暴.本文基于Python的Scrapy模塊,爬取微博大V及相關媒體共計37 852條數據,包括發表評論的用戶名稱、評論內容、發表時間、轉發量、點贊量等多極化數據信息.
在對文本進行訓練前,先對爬取到的信息進行了一系列的數據清洗工作,包括繁體字簡化、刪除垃圾廣告、無效評論等,最終得到32 358條有效數據.預處理包括以下內容:
1) 去除含HTML標簽的內容;
2) 刪除純標點評論;
3) 去除表情評論;
4) 單詞詞形還原;
5) 刪除停用詞.
社交網絡的快速發展使得媒體信息在社交平臺的傳播更加迅速.災害相關信息會在事件發生短期內迅速傳播發酵,在網絡上引起輿論風波.輿情結果往往會形成兩極分化,積極的輿論引導事件朝好的方向發展,而消極的輿論將會在網絡上引發二次災害.因此,輿情文本分析的準確性,大大影響著輿情引導的走向.有鑒于此,本文將數據集分為兩個類別:積極的、消極的.
將分類結果生成詞云可以直觀地反映正面和負面評論中出現頻率最高的詞語,可以看到圖5、6中,部分詞匯可以清楚地反映用戶的積極和消極情緒.然而,網絡評論中時常包含褒義貶用以及貶義褒用的詞匯,此類詞匯經常包含在具有完全相反含義的評論中.因此,僅僅根據是否出現代表積極或者消極情緒的詞語而對評論進行簡單的分類已經達不到預想的結果時,便需要深度學習技術來分析詞語之間的關系,獲取語義從而進行分類.

圖5 積極的詞匯Fig.5 Examples of positive word

圖6 消極的詞匯Fig.6 Examples of negative word
本文使用人工標注的微博語料數據集正向和負向評論各14 000條,從中挑取正負向評論各8 000條作為訓練集,剩下的作為測試集進行測試.實驗需要通過詞袋模型將語料庫更改詞向量,之后將訓練好的詞向量輸入到搭建好的神經網絡中.
在本文搭建的輿情文本分析模型中,輸入的詞向量的效果很大程度上影響著最終訓練結果,多次實驗結果表明,將詞向量進行預訓練可以有效地提高模型的準確率.經過不斷調試模型參數,本文最終采用詞向量維度為300.數據訓練前,利用Jieba分詞工具將原文本進行分詞、去除停用詞后,將得到的詞語轉換為詞向量并進行預訓練,得到的結果將作為本文模型的輸入.
為了得到更加豐富的情感特征信息,本文在LSTM-BLS模型上進行了一系列實驗.為了防止過擬合現象,本文使用了dropout機制和L2正則化.詳細超參數設置如表1所示.

表1 模型超參數設置
為了驗證本文提出的模型的有效性,本文使用準確率(A)、召回率(R)、F1值(F1)作為評估指標.
準確率計算公式:
(10)
召回率計算公式:
(11)
F1值計算公式:
(12)
其中:ηTP為正確的匹配數目;ηFP為匹配不正確的數目;ηFN為沒有找到正確匹配的數目;ηTN為正確的非匹配數目.
將本文使用的LSTM-BLS模型分別與另外的4種模型方法在準確率上進行實驗對比:
1) K-means.K-means算法是無監督的聚類算法,因其實現簡單、聚類效果好,被廣泛應用.本文設置算法模型最大迭代次數為300,k值為2,容忍度為0.000 1.
2) SVM.SVM是機器學習中最好的現成的分類器,可以不加修改直接使用,并且能夠得到較低的錯誤率.本次試驗將句子中的單詞轉換為詞向量,再將這些向量進行加權平均作為模型的輸入進行分類.
3)LSTM.本文使用的是三層LSTM的單通道模型,將詞向量作為輸入,最后通過全連接層和Softmax層輸出分類結果.
4)CNN-LSTM.該模型由CNN和LSTM組合而成,在上述LSTM模型的基礎上,使用CNN提取特征,作為LSTM模型的輸入.
5)LSTM-BLS.本文提出的模型,是在上述三層LSTM的基礎上拼接了BLS層.將爬取到的微博評論經過預處理,分詞后經過詞嵌入生成詞向量,作為本文模型的輸入得到最終準確率結果.
實驗結果對比如表2、3所示.

表2 基線模型在斷崖式降溫數據集上的性能對比
由表2和表3可知,在斷崖式降溫數據集上,LSTM-BLS模型的網絡輿情分析準確率相比基礎的機器學習模型K-means和SVM,分別提高了17.23和13.46個百分點,比LSTM模型提高7.13個百分點,比CNN-LSTM復合模型提高4.17個百分點.準確率和召回率在實踐中會出現矛盾的情況,而F1值作為準確率和召回率的調和平均值,往往成為實驗最有效的綜合評價指標.由表2、3可知,本文提出的新模型在綜合評價方面表現最優,效果最好.綜上,LSTM-BLS模型在文本情感分析方面具有良好的性能,可以更加準確地對輿情文本進行正負向情感分類,彌補了現有的機器學習模型面對大量數據集時訓練吃力的缺陷,解決了深度學習模型擬合能力欠佳、精度不高的問題.

表3 本文模型和其他深度學習模型在斷崖式降溫數據集上的性能對比
氣象輿情分析的主要任務是為了更加精準地掌握網絡輿情動態,避免災害事件在網絡輿情方面形成二次災害.本文提出的LSTM-BLS算法模型一方面考慮到單詞之間的句法依存問題,另一方面在此次輿情文本分析經過爬取到的數據集驗證測試后,準確率、F1值均超過K-means、SVM、LSTM和CNN-LSTM模型,在短文本情感分類方面效果優異,經公開數據集驗證也同樣具有適用性.將寬度學習與深度學習相結合,對紛繁復雜的網絡輿情文本進行準確的分類,對短文本數據信息的有效分析和挖掘,提高了對網絡輿論的監管能力,有利于開展后續引導工作.