張思揚,匡芳君
(溫州商學院 信息工程學院,浙江 溫州 325035)
金融恐慌是中國近代學界金融危機現象的表現,指幾乎所有金融領域的金融狀況發生突發性惡化,將導致并惡化金融危機。經濟資源和金融風險配置問題均可能導致金融恐慌,但風險配置更容易導致,另外政策變化也可能觸發金融恐慌。2018 年國家智庫報告指出,中國應警惕金融恐慌。為此,政府對此高度重視,提前采取了一系列風險管理措施。
預期管理是一種防范金融恐慌的工具,但作用有限,幾乎未涉及有關金融恐慌網絡輿情分析的研究,而輿情導向對引發金融恐慌有著不可忽視的作用。因此,研究金融恐慌輿情,設計并實現金融恐慌網絡輿情分析與預警系統,不僅能為金融市場決策者提供技術支撐,還為政府相關部門、銀行和金融市場管理者制定網絡輿情引導策略提供科學依據。
國內外學者對網絡輿情概念、內涵和發展的研究較多,存在很多輿情理論和應用研究。王丙坤等[1-2]提出一系列輿情預警模型,為網絡輿情預警機制提供解決問題的思路。劉英杰等[3-6]研究政府決策及信息發布對輿情調控的影響和網絡輿情情感識別研究,為政府決策提供參考。Wang 等[7]提出話題檢測算法,通過網絡輿情要素的多層次、多屬性、多維度等特征構建多維網絡模型。Fang 等[8]研究網絡輿情意見差異閾值的影響提出GPF-NP 模型。Yu 等[9]在大數據背景下研究網絡輿情分析,為海量輿情分析和預警研究提供有益的思路。林萍等[10]利用LDA 主題挖掘模型,挖掘網絡突發事件熱門主題與演化趨勢。吳彥文等[11]融合主題詞和LDA 進行文本分類。孫靖超等[12]研究循環神經網絡輿情預測方法。陳福集等[13]利用人工蜂群算法優化BP 模型參數,提升網絡輿情熱度趨勢預測準確率。邢云菲等[14]提出基于信息熵的負面網絡輿情監測指標體系。連芷萱等[15]結合定性、定量指標體系,構建微博輿情熱度預測模型。鄧楠等[16]結合情感詞向量和BiLSTM 進行文本情感分析。周靈等[17]提出融合情感特征的短文本分類方法。周泳東等[18]利用分段卷積神經網絡進行文本情感分析。Li 等[19]在雙向LSTM 中融合自我關注和多特征通道進行情感分析。
雖然,國內外網絡輿情研究已取得一定成果,但金融恐慌輿情隱蔽性強、爆發速度快、網絡用語不規范,輿情研究成果仍然無法完全適用,金融恐慌輿情信息的預測方法仍需完善和改進。
因此,本文提出一種基于LDA-BiLSTM 模型的金融恐慌輿情監測方法,以金融行業新聞網頁、論壇、微博、博客等為數據來源,挖掘數據中的熱點話題和網民對熱點話題的情感極性,篩選輿情數據中的有效信息,為政府相關部門和金融恐慌輿情管理者提供輿情提醒。
金融恐慌作為金融市場預期突變的產物,對社會穩定和實體經濟發展帶來了危害和挑戰。金融恐慌信息的不當傳播會造成巨大影響,可能相較于金融危機危害性更嚴重。因此,深入研究金融恐慌輿情信息傳播機理,構建金融恐慌網絡輿情分析與預警系統迫在眉睫。
本文以金融恐慌輿情信息為主線,分析在線金融交易用戶對金融恐慌網絡輿情信息的情感傾向性,充分利用大數據技術建立在線金融市場的金融恐慌輿情信息傳播中利益相關者的博弈仿真模型,制定金融恐慌信息輿情引導機制,利用仿真模型推演金融恐慌輿情的前兆和演化過程,提升金融市場和政府部門對金融恐慌輿情的預警與快速響應能力,為領導提供及時、客觀、準確的輿情信息,從體制、機制創新角度提供相應的金融恐慌網絡輿情策略與決策參考,從而積極化解金融恐慌網絡輿情危機。金融恐慌網絡輿情演化要素關系如圖1所示。

Fig.1 Relationship of evolution factors of financial panic network public opinion圖1 金融恐慌網絡輿情演化要素關系
金融恐慌輿情分析主要包括數據采集和預處理、模型構建、預測輿情趨勢等步驟。首先,針對金融行業新聞網頁、論壇、微博、博客等目標頁面編寫爬蟲程序,將采集的網頁相關數存儲在Mongo 數據庫,并對存儲文本進行預處理;然后,對預處理后的數據建立主題提取和情感分析模型;最后,根據輿情信息分析挖掘出可能的輿情數據,提醒相關金融部門和市場管理者。金融恐慌輿情分析流程如圖2所示。

Fig.2 Analysis process of financial panic public opinion圖2 金融恐慌輿情分析流程
金融恐慌輿情數據涉及領域廣,本文主要針對股市、匯市、債市、房地產等與金融行業緊密相關新聞網站、論壇、微博、博客、第三方支付等具有評論功能的網頁數據和信息進行采集和數據預處理。首先利用Scrapy 框架編寫網絡爬蟲程序,采集涵蓋圖像、視頻、音頻和文本等金融恐慌輿情數據;然后,將采集的數據存入Mongo 數據庫,通過數據清洗、合并、變換和標準化等預處理技術進行整理,刪除無效網頁數據和重復數據;最后,利用云數據存儲服務平臺Hadoop 和Mongodb 數據庫技術,結合網絡信息采集與預處理技術,收集網絡中各類金融恐慌輿情熱點的精品語料并存入系統知識庫,為金融恐慌網絡輿情預警與風險管制研究提供高質量的數據基礎。
潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一種文檔主題生成模型[20],只根據單詞在主題中出現的概率判斷相關性,然而模型提取主題的可讀性受詞性影響,可能存在較大差異。因此,本文提出結合隱馬爾可夫模型(Hidden Markov Model,HMM)和字典匹配法的基于詞性過濾的LDA 主題模型自動標注單詞詞性,過濾解釋能力較差的詞性,從而提升LDA 主題模型的可讀性。其中,字典匹配法基于前綴字典掃描詞圖,構造涵蓋所有可能分詞結果的有向無環圖,然后利用動態規劃尋找最大概率路徑,并在前綴詞典中尋找該詞詞性,最后利用HMM 處理未知詞的分詞并標注詞性。
本文利用Spark 大數據平臺和MapReduce 編程模型,結合基于詞性過濾的LDA 話題模型處理發現的輿情熱點和敏感話題,重點尋找新信息、關注特殊熱點,以提取語料庫的熱點主題和關鍵詞。通過聚類向用戶匯總信息,自動跟蹤新聞事件,提供事件發展軌跡,實現多范圍、多角度、多層次的數據分析與挖掘等,包括網絡恐慌輿情識別、網民個人行為和情緒分析等,分析網民特點和行為,跟蹤輿情熱點趨勢。
1997 年,長短期記憶網絡(Long Short-Term Memory,LSTM)被提出,它是循環神經網絡的一種特殊類型,近年來被學者們廣泛應用與改良,適用于處理、預測時間序列數據和事件[21-22]。
LSTM 的隱含層輸出ht與ht-1間存在非線性關系,可解決循環神經網絡難以訓練的問題;在記憶細胞ct和過去的ct-1間引入線性依賴性,通過引入控制門和記憶單元可解決梯度減小或爆炸問題。LSTM 中每個神經元均具有存儲記憶單元、輸入門、輸出門和遺忘門。其中,輸入門、輸出門分別應用于輸入端的非線性函數和輸出端的非線性函數[11,12];每個控制門均對前一個神經元的存儲單元賦予權重。LSTM 網絡模型公式如式(1)—式(6)所示。
式中:ct、it、ft、ot分別表示記憶細胞、輸入門、輸出門和遺忘門;σ(·)為sigmoid 函數,主要用于激活門;g(·)為tanh函數,主要用于激活block 輸入和輸出;W為權值系數;b為偏置值。
LSTM 模型不僅可彌補LDA 模型在短文本數據稀疏性方面存在的不足,還在記憶上下文信息和學習文本特征方面的效果良好,能較好地處理多個短文本語料庫、分析熱門主題情感極性,但在處理更細粒度的分類任務時,單向LSTM 無法從后向前地編碼信息。
為此,本文結合前向、后向LSTM,構建雙向長短期記憶(Bi-Directional Long Short-Term Memory,Bi-LSTM)模型[23],以更好地挖掘雙向語義依賴。Bi-LSTM 提取文本特征向量公式如式(7)所示,Bi-LSTM 模型結構如圖3所示。

Fig.3 Bi-LSTM model structure圖3 Bi-LSTM 模型結構
金融恐慌網絡輿情通過媒體報道、微博、博客、股吧等平臺影響投資者情緒和行為,導致金融市場波動,進而引發金融恐慌。本文利用Scrapy 框架爬取2022 年2 月1 日—2 月28 日有關金融行業的股市、匯市、債市、房地產等與金融行業緊密相關的新聞網站、論壇、微博、博客、第三方支付等具有評論功能的網頁數據,共獲取了輿情信息數據684 810條,如圖4所示。

Fig.4 Trend of financial public opinion information圖4 金融行業輿情信息趨勢
本文將爬取的輿情數據存入MongoDB 數據庫,再對存儲的輿情數據進行預處理。具體步驟為:①根據內容和昵稱對輿情數據進行去重;②利用機械壓縮方式壓縮文本數據;③結合詞和詞性標注方式進行分詞;④以哈爾濱工業大學停用詞為基礎構建詞典,刪除輿情數據中的停用詞。
為了更好地了解網民對經濟方面的情緒反應,利用Python 編程分析網民情感,如圖5 所示。由此可見,網民的正面情緒為46.88%,負面情緒為53.12%,其中,能保持正常較好情緒的語言占34.56%,樂觀情緒占12.32%,恐懼情緒占25.75%,厭惡情緒占20.85%,憤怒情緒占2.08%,悲哀和驚恐情緒占比均為2.22%。

Fig.5 Score of netizen sentiment analysis圖5 網民情感分析得分
人們普遍抱有負面情緒的原因主要在于:①新冠疫情期間大眾心理狀態相對脆弱,網絡傳言與猜測不斷,個別網站報道時攜帶了個人色彩,引發了網民的負面情緒;②中東國家局勢緊張,原油、黃金、軍工股大漲及美股三大指數大跌,中美貿易摩擦減緩,制造業數據的收縮將嚴重拖累經濟發展;③美聯儲的行動影響全球多數央行決策,從而造成全球貨幣政策發生輿情;④新聞媒體、相關網站、論壇、微博、博客等不斷渲染宣傳民生經濟狀況,使人們感受到生活、經濟的緊張氣氛,衍生出恐慌、悲觀、厭惡等負面情緒。
本文首先通過預處理數據,篩選數據集的數據詞性;然后去除非名詞詞性,將數據集導入LDA 主題模型;最后在LDA 模型中使用gensim 軟件包提供的方法訓練語料庫,獲得每個主題的關鍵詞。由于LDA 模型參數較多,需要自行設定,其中主題數(Topic)最重要。因此,本文利用困惑度(Perplexity)計算模型的主題數,困惑度越低聚類效果越好,即最小困惑度對應最優主題數。困惑度計算如式(8)所示:
本文將主題個數設置為[5,200),步長為5,循環遞增主題個數,根據式(8)計算不同主題數下LDA模型的困惑度并記錄相應主題數,在文本語料庫確定主題數后設置其他參數。首先,為了篩選不受歡迎的主題,將主題概率分布的最小閾值設置為0.01;然后,從語料庫中自動學習先驗知識以設置超參數α、β,并將迭代次數設置為5 000次。經過50輪訓練后,模型最終選取相關性較高的前20 個主題,文檔的預測主題則由LDA模型獲取每篇文檔相關性概率最高的主題來確定,然后選取8 個熱點主題下的文檔集作為測試語料庫,對每個熱點話題進行后續的情感傾向分析。
在模型訓練數據方面,本文在開源中文情感標注語料庫中選取正面、負面語料,按4∶1 的比例劃分訓練集和測試集,利用語料庫訓練詞向量,將其用于訓練語料庫中的字符映射。LSTM 隱藏層設置為128,學習速率設置為0.01,區域固定長度設為30,通過調整其他參數進行50 輪訓練,訓練結果如表1所示。

Table 1 Public opinion training results of LDA-BiLSTM表1 LDA-BiLSTM 模型輿情訓練結果
然后,利用訓練后的模型預測測試集,LDA-BiLSTM與LSTM、BiLSTM 模型輿情預測結果比較結果如表2 所示。由表1、表2 可知,LDA-BiLSTM 模型的正面情緒(Positive)和負面情緒(Negative)的準確率(Precision)、召回率(Recall)、F1 因子(F1-score)均在92%以上,宏平均(macro avg)和加權平均(weighted avg)均在91% 以上,證明了LDA-BiLSTM 模型能準確預測金融恐慌輿情傾向,相較于直接使用LSTM 和BiLSTM 進行訓練和測試的效果更優。

Table 2 Comparison of public opinion prediction results of various models表2 各種模型輿情預測結果比較
綜上所述,以LDA-BiLSTM 模型為基礎,完善金融恐慌網絡輿情體系,能協助輿情相關部門恢復網絡正常秩序,防止或控制金融恐慌輿情再次發生,為今后金融恐慌網絡輿情的應對和處理提供了經驗參考和決策支持。
本文以金融恐慌網絡輿情為研究對象,提出基于LDA-BiLSTM 模型的金融恐慌輿情分析和輿情預測方法,構建了結合主題挖掘和情感分析的輿情分析與預警模型。通過分析、預警金融恐慌網絡輿情,識別潛在風險,實現數據驅動決策,預防虛假信息傳播,提升管理人員聯合數據趨勢研判的能力。
同時,通過實驗研究大數據分析能力、金融市場管理者和政府應急管理之間的關系,分析輿情的內在特征和演變規律,以在新形勢下更好地控制金融恐慌網絡輿情,為管理者提供信息支持和輿情提醒。未來,將考慮利用集群、云服務技術解決輿情大數據增加導致的模型分析預測速度慢、及時性不強等問題。