一種融合Bert預訓練和BiLSTM的場景遷移情感分析研究＊

2022-08-09 06:16:14楊秀璋宋籍文廖文婧任天舒劉建義

計算機時代 2022年8期

楊秀璋，宋籍文，武帥,3，廖文婧，任天舒，劉建義

(1.貴州財經大學信息學院，貴州貴陽 550025；2.貴州高速公路集團有限公司；3.漣水縣財政局)

0 引言

隨著微博、博客、網頁新聞等領域的出現，網絡輿情已成當下研究熱點?，F階段表現較好的機器學習方法大都依賴于標注大量原始文本數據，再對測試數據進行處理，通常訓練集和測試集均需來源于相同領域、平臺或場景的數據。然而，這些方法較難對場景遷移或跨平臺、跨領域的輿情事件進行情感分析研究，且遷移場景的輿情態勢感知越來越重要。因此，如何高效地檢測場景遷移和跨平臺輿情事件的情感傾向和走勢，將是未來研究重點，且能減少數據標注花費的精力，讓模型具有更強的魯棒性和準確性。

針對上述問題，本文提出一種融合Bert (Bidirectional Encoder Representations from Transformers)預訓練和BiLSTM(Bi-directional Long Short-Term Memory)的場景遷移情感分析模型，該模型能在少量數據標注的情況下，對未知類型進行預測并有效解決數據漂移問題。該模型將對微博輿情事件數據集進行訓練，然后遷移預測知乎輿情事件的情感傾向，最終體現模型對遷移場景具有較好的魯棒性和準確性。此外，本文通過詳細的對比實驗有效評估Bert-BiLSTM 模型的性能，這優于團隊之前的相關工作，即對“巴黎圣母院火災”輿情事件和“新冠肺炎疫情”輿情事件進行情感分析，并且該模型能應用于跨目標、跨領域、跨事件的輿情監測和情感分析。

1 相關研究現狀

二十一世紀以來，情感分析作為自然語言處理領域的重要研究熱點，在網絡輿情、文本挖掘領域均有較為廣泛的研究范疇。對網絡輿情事件進行廣義分析可分為兩類，分別是基于統計機器學習的情感分析和基于深度學習的情感分析。

1.1 基于統計機器學習的情感分析

基于機器學習的情感分析主要通過對訓練集數據選取特征進行詞性標注訓練，對測試集數據進行分類預測。根據機器學習方法的監督程度可分為監督學習、半監督學習和無監督學習。

車思琪等人在機器學習算法基礎上整合情感詞典對中美企業英文版致股東信進行分析，研究結果表明該模型準確率有效提升。楊立等人在傳統機器學習模型基礎上融合MLS需求概念模型，使得機器學習模型更好的適用于實際場景。戚天梅等人在傳統機器學習算法基礎上融合情感傾向計算方法，有效提升模型在情感傾向和強度計算方面的有效性。熱西旦木·吐爾洪太等人針對維吾爾文網絡信息不健全的問題，結合機器學習和詞典方法的優缺點，構建LCUSCM 分類器模型，有效提升維吾爾文情感分析準確率。

雖然眾多學者對傳統機器學習方法進行不斷優化，通過增加情感特征詞典、情感特征提取與分類器組合等方法提升了機器學習方法的情感分析效果。但是，傳統機器學習方法在對文本數據進行情感分析時，不能做到有效關聯上下文語義信息，一定程度上還會造成歧義。

1.2 基于深度學習的情感分析

基于深度學習的情感分析一定程度彌補傳統機器學習忽略上下文本關聯性造成的缺陷。深度學習模型通過主動學習文本數據特征，在保留原文本詞語關聯性的前提下，結合上下文語境，有效地降低語義歧義，提升文本信息情感分析效果。

楊秀璋等人針對微博輿情事件情感分析缺乏深層次語義支持的現象，在深度學習TextCNN 模型基礎上融入Attention 注意力機制，一定程度提升了對微博輿情事件的情感分析效果。孫嘉琪等人針對傳統方法無法預測情感走勢變化的現象，在現有深度學習模型基礎上構建時間序列模型，提出ARIMA-GARCH模型，實驗結果表明該模型能夠有效預測投資者的情感走勢，且誤差較小。袁勛等人融合多層注意力機制開展方面級情感分析研究，構建的BMLA 模型能增強句子與方面詞之間的長依賴關系，一定程度提升了傳統模型的準確性。

雖然眾多學者對深度學習模型進行不同程度上的優化，一定程度提高深度學習模型在進行情感分析時結果的準確性。但是，深度學習模型和監督學習的機器學習模型都必須建立在擁有準確的訓練集數據的前提下。網絡輿情分析的難題重點在于如何在不花費大量人力、時間的前提下，有效運用人工智能的方法實現對網絡輿情信息的精準預測，尤其是對少樣本標注的遷移場景進行情感分析。針對這一難點，本文提出了一種融合Bert預訓練和BiLSTM 的情感分析算法，并從微博輿情事件數據集遷移到知乎輿情事件數據集的預測和分析，最終實現數據漂移和跨平臺的輿情感知。整個遷移場景的情感分析任務用圖1表示，圖的上部分為傳統情感分析任務，下部分為遷移場景的情感分析任務。

圖1 場景遷移的輿情事件情感分析任務對比

2 模型設計

傳統方法較難對遷移場景或跨平臺、跨領域的輿情事件進行情感分析研究，并且遷移場景的輿情態勢感知越來越重要。因此本文提出了一種融合Bert預訓練和BiLSTM 的場景遷移情感分析模型，該方法能有效提升模型的魯棒性，解決海量數據標注問題，并具有更好的適應性和實用性。

2.1 總體框架

本文設計并實現了Bert-BiLSTM-Attention 情感分析模型，整個模型的總體框架如圖2 所示。該模型能對遷移場景或跨領域的輿情事件進行情感態勢感知，具體實現步驟如下。

圖2 遷移場景下輿情事件情感分析模型的總體框架圖

通過Selenium 和Xpath 技術采集微博和知乎輿情事件的評論信息，并按照積極和消極兩種情感進行標記，其中微博數據集作為訓練，知乎數據集作為預測。接著進行數據清洗，包括中文分詞、停用詞過濾、特征提取等，并利用Word2Vec轉換成詞向量。

構建Bert 模型進行預訓練，該模型能提取特征詞在句子中的關系特征，即在多個不同層次提取關系特征，從而更好地反映情感句子語義知識。本文通過Bert 模型來預訓練學習中文情感，為后續情感分析提供支撐。

構建BiLSTM 和注意力機制融合的模型，該模型通過BiLSTM 捕獲長距離依賴關系，再通過注意力機制突出情感特征詞的權重，從而更好地完成情感分類任務。

經過Bert 和BiLSTM+Att 情感分析模型處理后，接入Softmax 函數實現情感分類，最終實現對不同輿情事件的評論進行積極情感和消極情感的預測，動態感知大眾的情感傾向。

2.2 Bert預訓練模型

Bert 是一種預訓練語義表征模型，由谷歌人工智能團隊于2018 年提出。該模型通過融合文本表征能力強大的遷移學習（Transformer）模型實現，預訓練能獲得更好地向量表達。整個模型由輸入層、編碼層和輸出層構成，其中輸入層是{e,e,...,e}向量，編碼層由多個Transformer組成，最終輸出向量為{T,T,...,T}。

在Bert 模型中，預訓練旨在提前訓練好下游任務的底層知識，再用下游任務各領域樣本數據來訓練各種模型，從而加快模型的收斂速度，實現場景遷移。在自然語言處理任務中，為了更好地理解文檔中的句子和特征詞，更好地將他們轉換成詞向量，提升模型的泛化能力，因此利用Bert模型來完成語言表征，該方法優于傳統的Word Embedding、ELMO、GPT 等。Bert 模型的輸入表示包括Token、Segment、Position 三個嵌入層的疊加，分別對應單詞、句子和位置信息，最終實現句子級別的表征任務。其中，輸入向量E由三種不同向量對應元素疊加而成，每個句子第一個向量標志是[CLS]，結束標志位[SEP]。通過該結構能為句子級別的情感分析構建句向量，位置向量P記錄特征詞所在的位置，計算公式如下：

其中，pos 為特征詞在句子中的位置，d 表示特征詞向量的維度，P為輸出位置向量，2i和2i+1表示詞向量的偶數維度和奇數維度。

此外，在Bert 模型中，Transformer 編碼器是由自注意力機制和前饋神經網絡組成，能更好地解決自然語言處理任務中的長依賴問題。其方法是將輸入句子中的每一個特征詞都和句中的所有詞做Attention計算，從而提取特征詞之間的依賴關系，整個計算過程用公式⑶表示。

其中，Q、K 和V 分別表示Query 向量、Key 向量和Value 向量，對應編碼器的輸入字向量矩陣，d為輸入向量的維度。最終，通過Bert 模型實現了對輿情事件評論的預訓練提取。

2.3 BiLSTM模型

BiLSTM 模型作為一種經典的循環神經網絡，由記憶單元和門（gate）結構組成。該模型從前后兩個方向提取特征，從而捕獲長距離依賴關系及上下文語義特征。本文將它至于Bert 模型和注意力機制模型之間，從而提取微博和知乎輿情事件評論的情感特征，并實現情感分類任務。

BiLSTM 模型網絡結構可以通過公式⑷至公式⑹表示。其中，公式⑷表示t 時刻前向LSTM 層的狀態，公式⑸表示t時刻后向LSTM 層的狀態，x對應輸入向量，w表示對應的權重，f 表示激活函數，最終BiLSTM輸出的向量為y。

通過BiLSTM 模型能有效捕獲評論句子的長距離依賴關系，比如常見的情感特征詞“開心”和“真好玩”表示積極情感，“傷心”和“哭泣”表示消級情感，而傳統模型無法較好識別這些距離較長的特征詞語義關系。最后，將BiLSTM 模型得到的輸出向量傳遞至注意力機制，并接Softmax 實現情感分類，最終預測知乎輿情事件的積極和消極情感。

3 實驗與分析

為驗證本文模型在遷移場景的情感分析效果，本文構建了包含微博和知乎兩類典型社交平臺的輿情事件評論數據集，每類數據集包含積極和消極情緒，并進行對比實驗。在實驗過程中，通過Python3.7構建不同的情感分析模型，利用TensorFlow、Keras 構建深度學習模型，Sklearn 構建機器學習模型。編程環境為Anaconda，處理器為Inter(R) Core i7-8700K，GPU 為GTX 1080Ti。

3.1 數據集和數據預處理

在對輿情事件的情感分析中，社交媒體產生的評論數據將有助于研究者分析大眾的情感傾向，感知輿情事件的情感走向。本文通過Selenium 和Xpath 技術采集微博和知乎兩種典型社交媒體在2021 年的輿情事件評論信息，包括積極情感和消極情感。例如，輿情事件涉及：慶祝中國共產黨成立100周年，神舟十三號成功發射，東京奧運會，EDG 奪冠，孟晚舟歸國，云南大象遷徙，河南暴雨災害，清朗飯圈亂象治理等事件。

表1 輿情事件評論數據集

本文將采集的數據集進行數據預處理，包括中文分詞、停用詞過濾、特殊字符清洗、情感特征詞提取和權重計算等。最后將數據集隨機劃分為訓練集、驗證集和測試集，其中訓練集和驗證集是來自微博的輿情事件評論信息，積極情感和消極情感的訓練集各6000條，驗證集各2000 條；測試集是來自知乎的輿情事件評論信息，積極情感和消極情感各4000條。

為更好地學習輿情事件的情感態勢，需要分別對不同模型進行參數預設，模型超參數設置如表2所示，其中Bert 算法的預訓練模型采用中文“Chinese_L-12_H-768_A-12”。此外，為避免某些異常實驗結果的影響，本文最終的實驗結果為十次結果的平均值。

表2 模型超參數

3.2 評價指標

本文將輿情事件評論數據集劃分為積極情感（類別為0）和消極情感（類別為1）。其中，真陽性（True Positive,TP）表示評論的預測情感和真實情感都是積極的；真陰性（True Negative,TN）表示評論的預測情感和真實情感都是消極的；假陽性（False Positive,FP）表示將消極情感預測為積極情感；假陰性（False Negative,FN）表示將積極情感預測為消極。接著采用精確率（Precision）、召回率（Recall）、F值（F-score）和準確率（Accuracy）對輿情事件進行情感分析評價，計算過程如公式⑺至⑽所示。

其中，精確率用于評估情感分類被正確預測為指定類別占所預測類別評論數量的百分比，召回率用于評估情感分類被正確預測占該類別情感評論數量的百分比，F值綜合了精確率和召回率，是兩者的加權調和平均值，常與準確率用于評估模型的質量。

3.3 實驗對比

傳統深度學習和機器學習算法較難對跨場景或跨平臺的輿情事件進行情感分析，其魯棒性較差，對此本文提出一種融合Bert預訓練和BiLSTM 的微博評論情感分析算法。該算法對微博輿情事件數據集進行訓練，然后遷移預測知乎輿情事件的情感傾向。本文詳細對比了各種經典模型，其中機器學習模型包括決策樹（DT）、SVM、邏輯回歸（LR）、隨機森林（RF）和AdaBoost，深度學習模型包括卷積神經網絡（CNN）、雙向長短時記憶網絡（BiLSTM）和本文模型。

整個實驗結果如表3所示，本文融合Bert和BiLSTM模型的精確率為0.8181，召回率為0.8199，F值為0.8190，準確率為0.8181。通過對比發現，本文方法F值和精確率均高于其他方法，這表明Bert 模型能有效地對跨平臺（微博和知乎）的輿情事件進行情感分析，BiLSTM能有效捕獲長距離依賴特征。同時，為更好地對比微博和知乎輿情事件情感分析的效果，評估本文融合Bert預訓練和BiLSTM的微博評論情感分析算法，我們對積極情感和消極情感進行了詳細的對比實驗。其中，圖3為遷移場景情感分析積極情感的實驗結果，機器學習表現較好的邏輯回歸算法的F值為0.6402，CNN 的F值為0.7189，BiLSTM 的F1 值為0.7218，本文方法的F1 值為0.8246，均提升10%以上，說明本文方法能遷移到更多場景和平臺的輿情分析中，其魯棒性和準確性均較好。

表3 各模型遷移場景的情感分析實驗結果對比

圖3 遷移場景情感分析積極情感的實驗結果對比

為突出本文融合Bert預訓練和BiLSTM 的微博評論情感分析算法，本文對積極情感和消極情感進行了詳細的對比實驗。對比了深度學習模型對知乎輿情事件評論情感分析的混淆矩陣。其中，圖4(a)為CNN模型，正確預測積極情感評論29859條、消極情感評論26791 條；圖4(b)為BiLSTM 模型，正確預測積極情感評論30500 條、消極情感評論25985 條；圖4(c)為本文模型，正確預測積極情感評論34216條、消極情感評論31230 條。說明本文方法能遷移到更多場景和平臺的輿情分析中，其魯棒性和準確性均較好。

圖4 各深度學習模型混淆矩陣對比

4 結束語

針對傳統機器學習和深度學習模型較難解決場景遷移和跨領域輿情事件的情感分析問題，無法精準捕獲長距離依賴關系和語義特征，以及過度依賴數據標注等問題，本文提出了一種融合Bert 預訓練和BiLSTM 的場景遷移情感分析模型，旨在實現對跨社交平臺的輿情事件進行情感分析研究。該模型包括四個模塊，首先對微博和知乎社交媒體的輿情事件評論進行數據采集及預處理；其次，構建預訓練模型Bert來提取及表征文本的詞向量；然后構建融合BiLSTM和注意力機制的情感分析模型，捕獲長距離依賴關系和語義特征；最后，構建Softmax 實現情感分析，預測知乎輿情事件的積極情感和消極情感。

實驗結果表明，本文能有效實現跨場景和平臺遷移的情感分析任務，其精確率為0.8181，召回率為0.8199，F值為0.8190，準確率為0.8181。通過對比發現，本文方法的性能均高于其他方法，本文方法的F值比DT、SVM、LR、RF 和AdaBoost 機器學習方法分別提升0.1878、0.1779、0.1777、0.1887 和0.2210，比CNN、BiLSTM 深度學習方法分別提升0.1102 和0.1116。這表明Bert 模型能有效地對跨平臺（微博和知乎）的輿情事件進行情感分析，BiLSTM 能有效捕獲長距離依賴特征。綜上，本文方法能應用于場景遷移和跨社交媒體的情感分析任務，具有較好的魯棒性和準確率，并能有效感知大眾對輿情事件的情感走勢，具有一定的應用前景和實用價值。