廖倚雪 胡雨新 葉慕戎

摘 要:在當今的大數據時代下,股市的相關信息急速增長,對股票市場的運行產生了深刻影響。為從海量的股市要聞與股民的選擇傾向中,本文使用爬蟲技術收集股民的評論與反饋,并通過Bert模型進行預處理,再建立LDA—LSTM模型,提取出市場情緒并對觀點進行簡明扼要地總結,提高金融工作者的工作效率,幫助股民更精準地了解市場,輔助對市場輿論的引導,成為如今研究熱點之一。
關鍵詞:輿情分析;股市預測;神經網絡;LDA
1引言
在社交網絡的崛起與發展中,社會的輿情網絡起到了非常重要的作用,對于輿情的把控和分析,一直都是國家長期以來密切關注的問題,準確應對和積極引導輿情發展十分重要,關于輿論處理的方案也不斷得到發展和完善。因此,理解社交媒體、網絡輿情動態等信息對投資者行為的影響機制頗為重要。
股票市場的大數據分析,需要使用計算機技術抽取海量輿情觀點,對文本進行挖掘爬取處理,將特征進行整合,可以分析出股票市場發展動態的優劣,為投資者提供一些建議和方法。面向股票市場。隨著文本情感分析的高速發展,簡單文本極性判斷,已經不能滿足人類對于互聯網飛速發展的需求,跨學科、跨平臺的研究,將文本分析技術廣泛運用在不同的領域。將引導機制、營銷理論以及多元盈利模式融合,提高了模型的性能。提出了學習算法架構,將合適的模型嵌入算法架構中,以提高模型的語義分析能力。隨著數據挖掘的深入,面向股票市場領域的細粒度情感分析技術被得以運用,突破了隱式情感難提取、文本不規范等問題。學者們運用實踐企圖證實輿論與股票市場的相關性以及試圖運用輿論預測市場的走向。較早時期,有學者利用微博進行輿論分析,隨后,學者以華爾街為例,證明股市收益與輿情熱度存在正相關性[1]。有學者以上證50成分股為例,證明傳統金融理論已無法滿足投資者的需求,如今研究股票市場應當基于投資者情緒以及輿論[2]。
2文獻綜述
2.1 LDA
2003年,狄利克雷分布主題模型(Latent Dirichlet Allocation,LDA)由David Blei, Andrew Ng和 Michael I. Jordan提出,由于模型的簡單和快捷,如今被廣泛的使用。最早,有學者提出在新聞文檔中進行了LDA建模之后,加入貝葉斯方法,即建模后確定符合該新聞文檔的最優主題個數,提升了LDA模型擬合文檔的性能[3]。張志飛針對短文本的特征稀疏性和上下文依賴性兩個問題,提出了K近鄰方法和LDA相結合的新方法,優于傳統性能2.5%到5%[4]。隨后王春龍,張敬旭.將K-means算法與LDA模型相結合,使得迭代次數明顯減少,聚類結果更準確[5]。隨著LDA性能的提高,有學者將他運用于輿論分析。阮光冊針對用戶評論內容短、信息量少的特征,利用LDA模型從冗雜的用戶評論高效分析出有價值的信息[6]。對于LDA模型,采用無監督學習算法,無需手工標注的訓練集,僅僅利用文檔集合以及一定的數可以將每篇文檔的主題按照某種概率分布的形式顯示出來。對于文本的處理以及數據的挖掘,LDA模型起到了顯著的作用,是一個十分常用的辦法,可以有效的從文本中提取所需的重要信息。對于文本中隱含情緒的提取以及建模,LDA模型克服了傳統文本相似度的比較方法中的缺點,大大提升了提取分析的效率。
2.2 LSTM
長短時記憶網絡(Long Short-Term Memory,LSTM),它是循環神經網絡(Recurrent Neural Network,RNN)的一種。LSTM由于其設計的特點,非常適合用于文本數據的處理。傳統神經網絡中普遍存在著一個缺陷,即無法將先前的信息連接到當前的任務,因此一直以來學者們都致力于解決該問題提出了種種方案,其中RNN試圖通過循環來讓信息連續傳遞,然而遺憾的是,隨著句子距離的增加,RNN將難以連接相關信息,也就是俗稱的遠程依賴問題;因此,Hochreiter & Schmidhuber教授在1997年發明了長短時記憶網(簡寫為LSTM),該網的設計本意正是希望克服遠距離依賴問題,也在各種任務中取得了優異表現,此后學者們更是開發出了LSTM的各種變體,如Bi-LSTM,GRU等等,不斷推陳出新的模型與水漲船高的任務要求,為研究者的模型選擇也提出了挑戰。在2017年,國內學者就開始將長短時記憶網絡運用到中文文本的情感分類中[7],由于中文具有一詞多義,語法晦澀特殊,表達方式也有直接性和隱喻性等多種神經網絡難以分析的特點,突破了傳統深度學習情感分類中只采用詞特征的局限性。隨著LSTM的發展,在電子商務、信息管理、財務新聞、股票輿情分析等領域,長短時記憶網絡被不斷的運用在其中。在股票市場中,市場的波動性大,導致投資者難以把控相關信息,所以股票的預測一直是人們爭先研究的對象,最開始通過尋找線性規律得出結論。為了提高股票預測的精度,有學者提出一種基于PCA和LASSO的LSTM神經網絡股票價格預測模型,使用LSTM模型進行平安銀行股票收盤價的預測,提高了預測的精度。[8]在達到更好效果以后,有學者通過引入卷積神經網絡和雙向長短時記憶模型來挖掘股評情感傾向,提出一種深度融合股市財務數據特征和新聞情感特征的股票預測模型。[9]近年來, LSTM受到了很多科學家的青睞,其在輿情分析任務中的應用均取得了較好的效果,并在多個領域成為不可替代的一部分。
2.3 BERT
自2018年底google的AI團隊發表論文《Pre-training of Deep Bidirectional Transformers for Language Understanding》、開源全部代碼及Tensorflow實現、Google團隊發表的論文中提出了BERT預訓練網絡的概念,在11種自然語言處理任務上獲得了最新成果,被認為是NLP業內的里程碑(Jacob Devlin,2018)[10]
對比以往模型,BERT模型因其獨特的Masked語言模型和Next Sentence Prediction機制,解決了傳統word2vec模型無法解決的多義詞表達問題,真正意義上的捕捉到了雙向的詞語、句子級別語義信息,理解了詞句中的潛在含義及關系;同時,已在大規模數據集上經過預訓練的模型完全開源,這也使得Bert模型的調用相當便捷,節省了研究者大量的時間、精力與資源。
通過調用Google發布的預訓練模型chinese_L-12_H-768_A-12,根據下游任務對模型進行微調,額外添加輸出層,得到句子中每個字的向量表示,獲取字向量編碼作為底層特征。經過BERT模型訓練出的字向量可以更加準確地表示出詞語間的語義關系,方便后續神經網絡模型的訓練,提高神經網絡預測的準確性。關于正式訓練模型,團隊采用了BiGRU-CRF結構,GRU是一種特殊循環神經網絡,它將遺忘門和輸入門合成為一個單一的更新門,同時混合單元狀態和隱藏狀態,有效解決了長程依賴問題,緩解了梯度彌散。
3模型
3.1基于LDA的文本特征構建
對于分類和數據降維,應用線性判別分析是最經典常見的線性學習方法。與PCA這種無監督的數據降維方法不同,LDA是一種有監督的數據降維方法,通過充分利用訓練樣本上的類別標簽信息對樣本數據進行降維,不僅像PCA一樣達到了保留盡可能多的數據樣本信息的效果,還解決了PCA中有時無法尋找到最佳投影方向的問題,使得投影后同類樣本盡量近,不同類樣本盡量遠。
利用LDA主題模型挖掘股票文本的隱形含義,分析主題的特征關聯關系。特征關聯關系包含有情緒指數(EX)和情緒分歧度(DX)。投資者的情緒指數(EX),被定義在[0,1]之間的浮點數,這個數越接近1,代表該文本表達的積極情緒越強,反之,則代表該文本表達的消極情緒越強。得到分數之后,可以將之量化。求某一日情緒得分大于0.5的評論所占的比例可得。而投資者的情緒分歧度(DX)也可能對股票價格和收益率產生影響,分歧度越大說明投資者的意見差異較大,兩級分化嚴重,因此情緒分歧度可作為判斷金融風險特征關聯水平的參考條件。情緒分歧度可以通過將模型輸出的數據可視化來體現。得到主題的關聯關系可以進行下一步的模型預測。
3.2基于LSTM的輿情走勢預測
長短時記憶網絡(LSTM)是一種用于處理序列數據的神經網絡模型,在自然語言處理中廣泛應用于實體抽取,情感分析等方向。LSTM模型由遺忘門、輸入門、輸出門這三部分組成,引入了細胞狀態的概念。LSTM增加了對過去狀態的過濾,減少了影響的狀態,從而可以選擇哪些狀態對當前更有影響,而不是簡單的選擇最近的狀態。相比RNN只有一個傳遞狀態ht,LSTM有兩個傳輸狀態,一個ct(cell state),和一個 ht(hidden state)
關于LSTM的計算公式如下:
其中,W為權重矩陣,σ為激活函數,b為偏置項。it,ft,ot和ct分別表示輸入門、遺忘門、輸出門和單元激活向量,ht表示單元輸出激活函數。
通過LSTM模型可以更好的捕捉股票市場文本之間的依賴關系,LSTM可以通過訓練過程中學到記憶哪些信息和遺忘哪些信息。基于在LDA主題模型中得到的關聯關系,再結合股票的發布時間、漲跌情況、股民評價、公司經營狀況等軌跡,預測它們未來的發展熱度,使用神經循環網絡,能夠更好的擬合波動趨勢,誤差較小,預測精度較高,能在一定程度上為投資者提供有效的建議。
4結論
隨著互聯網信息技術的高速發展,社交平臺的迅速崛起,呈現出井噴式的增長,信息發布與傳播速度較快,導致輿情質量參差不齊,社會投資者難以辨別有效信息。社會平臺以其低成本、開放、便捷、交互等優勢為公眾的訴求提供了重要的渠道,但由于不同投資者獲取信息的渠道、面對社會話題時的偏好、立場、影響力存在諸多差異,以及在解讀信息過程中的認知偏差,傳播言論的方向、廣度等均會影響其在股票市場中的決策行為,進而對股票收益率和流動性產生影響。因此本文基于前人基礎,對股票的相關輿論信息進行數據挖掘、基于LDA構建文本特征、基于LSTM預測輿情走勢,相信在股票投資領域將發揮重要作用。
參考文獻:
[1] 王超. 輿情熱度對股市收益的影響[D].浙江大學,2020.
[2] 劉逍然. 基于網絡輿情的投資者情緒與股票市場的實證研究[D].南京郵電大學,2020.
[3] 趙愛華,劉培玉,鄭燕.基于LDA的新聞話題子話題劃分方法[J].小型微型計算機系統,2013,34(04):732-737.
[4] 張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計算機應用,2013,33(06):1587-1590.
[5] 王春龍,張敬旭.基于LDA的改進K-means算法在文本聚類中的應用[J].計算機應用,2014,34(01):249-254.
[6] 阮光冊.基于LDA的網絡評論主題發現研究[J].情報雜志,2014,33(03):161-164.
[7] 吳俊江,基于深度學習的中文文本情感分類及其在輿情分析中的應用研究,湘潭大學,2017
[8] 胡聿文.基于優化LSTM模型的股票預測[J].計算機科學,2021,48(S1):151-157.
[9] 徐月梅,王子厚,吳子歆.一種基于CNN-BiLSTM多特征融合的股票走勢預測模型[J].數據分析與知識發現,2021,5(07):126-137.
[10] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, arXiv:1810.04805 [cs.CL]
本文得到上海立信會計金融學院大學生創新創業訓練計劃(S202111047110X)基金支持
作者簡介:
廖倚雪,女,漢,2001年11月生,四川省成都人,本科在讀,上海立信會計金融學院統計與數學學院,應用統計專業,研究方向:自然語言處理。