[摘 要]金融風險的防控一直是國家重點聚焦的戰略對象,股市作為金融市場的子市場,其風險也不容忽視。在對股市的研究中,傳統的金融理論往往基于有效市場理論,認為投資者都是理性人,但實際上投資者由于認知偏差,個人風險偏好等原因,往往會作出非理性的決策。同時,由于近年來網絡迅速發展,大量投資者在股票論壇等發表自己的投資意見,這些網絡文本中蘊含著豐富的金融市場信息。結合以上兩點,文章采用自然語言處理中的情緒分析方法,通過分析一段時間內的投資者評論得出對應的情緒指標,將投資者情緒指標與傳統的股票市場指標相結合,基于LSTM構建改進的股價預測模型,以供參考。
[關鍵詞]股價預測;投資者情緒;LSTM
中圖分類號:F224 文獻標識碼:A 文章編號:1674-1722(2024)16-0082-03
★基金項目:2023年東南大學國家級SRTP項目《企業公告情感挖掘與股票價格預測研究——基于機器學習算法》(202310286076Z)
股票市場作為我國金融市場的重要組成部分,充當著國民經濟“晴雨表”的角色。對股票市場的研究可使人們更加了解宏觀經濟情況及市場變化情況。股票數據是十分典型的時序數據,關于其預測問題已有大量的學者進行研究。近年來,有學者發現,神經網絡作為復雜的非線性模型,在處理隨機且高噪聲的數據時表現出較好的效果。同時,隨著互聯網的飛速發展,大量投資者開始積極在互聯網分享投資意見,形成了蘊含著豐富金融信息的自然語言資源,通過對其進行分析,可以掌握投資者情緒的變化情況,從而為股價預測提供有效的新型指標。
Jonathan L.Ticknor在2013年提出了一種貝葉斯正則化人工神經網絡作為預測金融市場行為的新方法。市場價格和金融技術指標被用作預測個股收盤價的輸入。貝葉斯正則化網絡為網絡權重分配了概率性質,提高了網絡的預測質量和泛化性。Ha Young Kim等人在2018年提出了一種新的混合長短期記憶(LSTM)模型預測股票價格波動,該模型將LSTM模型與各種自回歸條件異方差型模型相結合,顯著提高了預測的準確率。彭燕、劉宇紅、張榮芬在2018年基于LSTM模型對股價進行建模預測與分析,對比不同神經元個數與LSTM層數的模型的準確率,找到了一種復雜度與準確率適中的預測模型[ 1 ]。近年來,有學者將LSTM模型與其他神經網絡模型結合,利用不同神經網絡的特點處理股價數據[ 2 ]。趙紅蕊、薛雷在2019年提出了一種在結合LSTM和卷積神經網絡(CNN)的基礎上引入注意力機制的股票預測混合模型,該模型使用LSTM提取數據中的時序特征,利用CNN挖掘數據中的深層特征,有效提升網絡的特征提取能力[ 3 ]。
(一)無監督的學習方法
無監督的學習方法以詞典法為典型代表,該種學習方法需要預先構建一個詞典,再統計所分析文本中各個詞出現的次數,通過對不同詞語的情感進行加權,獲取情緒指標。但是由于互聯網快速發展,股市評論中新詞不斷涌現,詞典很難及時更新這些新詞,所以詞典法的預測效果欠佳[ 4 ]。
(二)有監督的學習方法
有監督的學習方法又可分為機器學習方法及深度學習方法,常見的機器學習方法包括SVM(支持向量機)、樸素貝葉斯方法等。常見的深度學習方法包括RNN(循環神經網絡)、LSTM(長短期記憶模型)。有監督的學習方法原理相似,一般都是對文本進行分詞,再將每一句話的分詞結果轉化成向量,對該向量進行處理。例如SVM模型會將產生的向量投影到高緯度,然后對其進行劃分[ 5 ]。
(三)基于AI的分析方法
近年來,AI技術迅速發展,以ChatGPT為代表的大模型迅速崛起,AI大模型得益于其驚人的特征維度,模型規模與訓練語料庫,在情感分析領域的準確率遠高于只有若干個層數、且訓練數據很少的LSTM等模型。文章采用了百度智能云中的自然語言處理模型進行情感分析,達到了很高的準確率。

(一)輸入特征的選擇
股價的影響因素有很多種,常見的主要影響因素包括開盤價、收盤價、最高價、最低價、成交量、換手率六大因素[ 6 ],由于換手率在一定程度上代表了投資者信心,會對文章構建的情緒指標產生交叉影響,所以不選用該指標。
(二)模型結構及參數
LSTM模型包括輸入層、輸出層、隱藏層、全連接層等,主要參數為輸入維度、輸出維度、LSTM堆疊層數、隱藏層節點數、時間步長、訓練次數等。本模型選取輸入維度為5,選取輸出維度為1,輸出收盤價這一預測值。

(一)基于普通股價指標的預測模型
文章選取了格力電器從2024年2月1日到2024年4月30日的股價數據,每行數據都包含上文提到的六個特征,同時,為了對比文章構建的融合了情緒指標的LSTM模型,文章用前兩天的數據的均值代替停盤日的數據,最終構建出90天的股價數據。文章采用Max-Min方法對數據進行歸一化處理。同時將數據集的80%劃分為訓練集,20%劃分為測試集,輸入模型進行實證檢驗,最終得到的實驗結果如圖1所示。實驗證明,該模型在時序數據預測方面效果較好,可以應用在股價預測中。
(二)融合情緒指標的股價預測模型
目前常見的投資者情緒指標是由Antweile和Frank提出的指標,公式如下所示。

其中,Mt代表在某時間段內所有正負觀點的帖子的加和,該指標不僅考慮投資者的看漲看跌程度,而且包括投資者關注度,融合情感指標的預測模型結構圖如圖2所示。
在股吧選取的股票評論數據中進行AI模型情感分析,得出投資者情緒指標,將其與五個常規股價指標以日期為索引進行結合,再輸入LSTM預測模型,得出預測結果如圖3所示。
對比得出,在其他參數不變的情況下,加入情感指數能夠有效提升模型的準確率,這也證實了文章構建的情緒指標的有效性。
文章旨在通過分析股票市場論壇的評論來提取投資者情緒指標,驗證該指標在股價預測領域中的有效性。文章首先選取了格力電器吧的9000余條評論,選用百度智能云進行情感分析,其預測準確率能達到90%左右,證明了該方法的有效性與便捷性。在預測模型改進方面,文章構建了傳統的LSTM模型,以開盤價、收盤價、最高價、最低價、成交量五個特征作為輸入數據,預測收盤價。實驗結果顯示,模型的決定系數約在0.62左右。然后,文章構建了情緒指標,將此指標作為特征輸入LSTM模型,結果顯示,加入情緒指標后,模型的決定系數從0.62提高到0.74,證明了投資者情緒指標的加入確實有利于模型預測能力的提高。但是需要說明的是,文章對模型輸入特征量的說明較少,沒有探討加入其他特征是否會提高模型準確率,這一方面需要進一步改進。

[1]彭燕,劉宇紅,張榮芬.基于LSTM的股票價格預測建模與分析[J].計算機工程與應用,2019(11):209-212.
[2]Babu,C.N.,& Reddy, B. E.A moving-average filter based hybrid ARIMA-ANN model for forecasting time series data. APPLIED SOFT COMPUTING,2014.
[3]趙紅蕊,薛雷.基于LSTM-CNN-CBAM模型的股票預測研究[J].計算機工程與應用,2021(03):203-207.
[4]Cao,L.J.,& Tay, F. E. H.Support vector machine with adaptive parameters in financial time series forecasting. IEEE TRANSACTIONS ON NEURAL NETWORKS, 2003.
[5]Enke,D.,& Thawornwong, S.The use of data mining and neural networks for forecasting stock market returns.EXPERT SYSTEMS WITH APPLICATIONS,2005.
[6]許興軍,顏鋼鋒.基于BP神經網絡的股價趨勢分析[J].浙江金融,2011(11):57-59+64.