












摘" 要:針對股票價格受復雜因素及投資者情緒影響導致的預測難題,提出了一種融合情感分析與Informer模型的股票價格預測方法。首先,運用AdaBoost模型從大量數(shù)據(jù)中提取關鍵特征變量,以降低模型過擬合的風險。其次,構建金融情感詞典,對通過網絡爬蟲獲取的金融文本數(shù)據(jù)進行情感分析,并計算情緒指數(shù)。最后,利用Informer模型對中信證券、華泰證券、東方財富三只具有代表性的證券龍頭股票進行預測。評估結果顯示,該方法有效提升了預測的準確性,驗證了其有效性和實用性。
關鍵詞:情感分析;股票預測;Informer模型
中圖分類號:TP181;TP391;F832.5" 文獻標識碼:A" 文章編號:2096-4706(2025)04-0139-06
Stock Prediction Method Based on Sentiment Analysis and Informer
NI Xueyao
(School of Information Engineering, Huzhou University, Huzhou" 313000, China)
Abstract: Aiming at the prediction problem of stock price caused by complex factors and investor sentiment, a stock price prediction method based on sentiment analysis and Informer model is proposed. Firstly, the AdaBoost model is used to extract key feature variables from a large amount of data to reduce the risk of model overfitting. Secondly, a financial sentiment dictionary is constructed to analyze the sentiment of the financial text data obtained by the web crawler, and the sentiment index is calculated. Finally, the Informer model is used to predict three representative security leading stocks of CITIC Securities, Huatai Securities and Eastmoney Securities. The evaluation results show that the method effectively improves the accuracy of prediction, and verifies its effectiveness and practicability.
Keywords: sentiment analysis; stock prediction; Informer model
0" 引" 言
期投資者主要通過技術分析和經典時間序列模型預測股價。技術分析基于市場指標(如成交量和價格)來判斷股價趨勢。常用的時間序列模型包括ARIMA、GARCH和VAR。此外,灰色模型、BP神經網絡和模糊理論也被應用于股價預測,但它們對非線性、長期時間序列的效果較差。隨后,為了解決多重共線性問題,研究者們使用主成分分析(PCA)[1]或LASSO方法[2]進行變量的降維篩選。智能優(yōu)化算法也被廣泛應用于參數(shù)優(yōu)化,尤其是果蠅算法、狼群算法、遺傳算法等,常被用于優(yōu)化機器學習模型(如BP神經網絡、Elman神經網絡和SVM)的最優(yōu)權值結構[3]。由于單一模型各有局限性,有學者開始集成多個模型的預測結果,以提高預測準確性。此外,結合CNN和LSTM的方法也被提出,用于提取股價的圖像和時序特征[4]。小波分析和經驗模態(tài)分解(EMD)也被用于股價的預測與重構,并取得了良好的效果,尤其是EMD與LSTM、TSVR等模型的結合,被證實能有效預測股價[5]。
隨著人工智能的發(fā)展,深度學習在股價預測中越來越受歡迎。LSTM能夠捕捉股價序列中的關鍵信息,并克服RNN的梯度消失和梯度爆炸問題,因此在股價預測中得到了廣泛應用。此外,研究者們將技術性指標和基本面數(shù)據(jù)與LSTM、GRU模型結合,構建了新的預測模型。同時,MDT和CBAM也被有效地融入LSTM模型中[6]。近年來,研究者們開始關注投資者的心理情緒因素,例如百度搜索指數(shù)和新浪微博情緒指數(shù)等,這些因素在股價預測中發(fā)揮了重要作用。此外,研究者還利用非結構化數(shù)據(jù)信息(如新聞資訊、股吧評論等)來提取情感時間序列,以增強預測效果[7]。
近年來,Transformer及其變體模型已成為時間序列預測領域的研究熱點。這些模型憑借其獨特的編碼-解碼結構和自注意力機制,能夠有效捕捉時序特征的長時相關性,同時支持并行訓練,并具備出色的特征提取、多模態(tài)融合和可解釋性。例如,基于分層多尺度高斯改進的Transformer[8]能夠很好地刻畫股票價格的長短期相互依賴關系;而將經驗模態(tài)分解(EMD)與嵌入時間注意力網絡相結合的股票價格預測方法[9]則可以提高股票價格的預測準確率。此外,Stockformer模型[10]基于因果自注意力機制,挖掘股價與特征因素之間的時序依賴,并提出了一種基于趨勢增強模塊的預測方法,提供序列趨勢特征,同時利用編碼器直接提供輸入特征的先驗信息。
然而,根據(jù)以上文獻,目前基于Transformer的股票預測研究仍較少,且在考慮特征變量時,尚未充分結合情緒分析。本文基于流行的Informer模型,綜合考慮了基本面、技術分析和投資者情緒等多種因素作為特征,對股價進行分析和預測。為了量化投資者情緒,本文構建了金融情感詞典庫,并借助SnowNLP模型計算和分析投資者情緒。
1" 方法與原理
1.1" Informer模型
Informer模型[11]是一種專為時間序列預測設計的深度學習模型,它基于Transformer的序列建模方法,尤其擅長解決長序列預測的挑戰(zhàn)。Informer模型采用了一種新的注意力機制,即概率自注意機制,該機制在降低時間復雜度和內存使用至O(nlogn)的同時,保持了出色的序列依賴對齊性能。
如圖1所示,Informer模型的核心結構采用了編碼器-解碼器的框架。編碼器和解碼器均包含多層自注意力機制、全連接層和正則化層,這種設計使得模型能夠全面捕捉不同時間尺度的信息。此外,一個跨時間步的交互層被引入在編碼器和解碼器之間,以有效捕捉時間步之間的復雜依賴關系。
ProbSparse Self-Attention是Informer模型中的一個關鍵組件。它通過稀疏化的方式有效減少了計算量和內存使用量,同時保持了模型的性能。Self-Attention Distilling技術則進一步提高了模型的計算效率和特征提取能力。此外,Informer模型通過復制和堆疊多個相同的層,增強了模型的魯棒性和表達能力。
Informer模型的關鍵在于其獨特的注意力機制和自適應能力。自注意力機制能夠建模輸入序列中每個元素與其他元素之間的關系,從而生成一個全局性的表征。這種機制使得模型能夠學習并捕捉輸入序列中不同位置之間的相關性,有效處理長期依賴問題。同時,Informer模型具備強大的自適應能力,無須針對特定任務設計特定的模型結構,即可適應不同的時間序列預測任務。其高效處理長期依賴和缺失值問題的能力,以及出色的計算性能和自適應能力,使得Informer模型在股票預測等時間序列預測任務中表現(xiàn)出色,為相關領域的研究和應用提供了新的思路和方法。
1.2" 基于情感分析方法
情感分析的一種主要方法是基于詞典的方法,它通過對正、負兩種情緒詞匯的加權來判定一個句子的情緒極性。相對于機器學習方法,該方法具有更好的解釋性。目前,已有大量開源的情感詞典,例如Hownet和NTUSD等。然而,這些詞典大多是針對通用情緒設計的,并不能涵蓋所有具體領域的專業(yè)術語,比如金融領域的“牛市/熊市”和“背離”等。因此,研究者們常采用與領域相關的詞典相結合的方法來進行情感分析。例如,Li等人[12]將Harvard心理情緒詞典與Loughran–McDonald金融情緒詞典相結合,探討了財經新聞對股價的影響;Tan等人[13]針對財經新聞文章,提出了基于規(guī)則的情感分析方法。Day等人[14]基于四種數(shù)據(jù)集建立了一個情感詞庫,并利用Suffix Array算法對其進行擴展,用于情感分析。結果顯示,利用財經領域詞典進行情感分析能夠有效提升投資者的投資收益率。此外,Zhang等人[15]基于六種詞庫構建了微博情感詞典,并以此對微博文本進行情感分析。還有研究[16]通過構建心理情感詞典,利用字典法分析Twitter信息對股市的影響;Xu等人[17]則通過計算情感詞和語句詞向量之間的相似性來進行情感分析,進而提取股票特征并預測股票走勢。
2" 方法描述
本文所采用的方法的主要步驟如下:
1)獲取量價數(shù)據(jù)和基本面數(shù)據(jù)。
2)使用AdaBoost模型對技術指標特征進行重要性分析,提取相對重要的特征變量。
3)爬取東方財富網的財經新聞、評論和資訊。
4)使用哈工大訊飛SnowNLP模型進行情感分析,并計算情緒指數(shù)。
5)使用Informer模型對股價進行預測。
6)評估模型性能。
模型的技術路線圖如圖2所示。
2.1" 金融領域情感詞典構建
證券投資者在進行投資時,往往會參考有關股票市場的消息,例如網絡平臺上的意見等。對股票市場消息進行情緒傾向性分析是其中的一個關鍵環(huán)節(jié),對后續(xù)的預測有一定的指導作用。為了準確判斷金融文本的情感傾向,我們采用了基于詞典的方法。這種方法首先利用Jieba分詞算法將文本切分成單詞,并去除無意義的停用詞。接著,我們將正面情緒詞匯的初始權重設為1,負面情緒詞匯設為-1。如果在表示情緒的詞語前面有否定詞,則將其權重調整為相反數(shù)。如果在情感詞語之前存在程度副詞,則將該情感詞語的權重乘以對應的程度副詞權重。最后,通過對一個句子中正面和負面單詞的加權總和,我們可以判斷句子的情感極性。
情感詞典的構建對于情感分析的結果至關重要。在本文中,我們使用了多個情感詞典,如表1所示,包括HowNet、NTUSD和金融情緒詞典[18]。我們計劃進一步融合通用詞典和金融領域的情緒詞典,以提升情感分析的準確率。
2.2" 情感指數(shù)計算
通過爬蟲技術,從東方財富網等財經網站爬取新聞、資訊、評論等數(shù)據(jù)。其中,中信證券相關數(shù)據(jù)共爬取了434 134條,華泰證券相關數(shù)據(jù)共爬取了163 381條,東方財富相關數(shù)據(jù)共爬取了631 137條。對這些文本數(shù)據(jù)進行預處理,去除重復數(shù)據(jù)以及不符合要求的內容。隨后,利用哈工大訊飛SnowNLP模型計算每條數(shù)據(jù)的情緒極性,判斷其為積極或消極。
情感計算通常采用機器學習方法,通過分類模型(如SVM、樸素貝葉斯等)將文本劃分為正面和負面,并訓練這些模型以應用于實際數(shù)據(jù),從而計算每條文本的情緒得分。另一種方法是構建情感詞典,利用所建立的情感詞典篩選出文本中的正面詞和負面詞。因此,構建一個完善且詳盡的中文金融情感詞典是非常重要的。本文結合這兩種方法,利用建立的情感詞典訓練SnowNLP模型,并將其應用于情感分析。具體而言,打分大于0.55的文本被判定為積極情感(標記為1),打分小于0.45的文本被判定為消極情感(標記為-1),而打分在兩者之間的文本則被判定為中性情感(標記為0),如表3所示。
最終,每個文本數(shù)據(jù)都會被賦予一個情感極性。股市歷史數(shù)據(jù)是一個隨時間變化的序列,因此需要每天計算情緒的波動趨勢。情緒指標用于衡量事件與輿情的總體傾向,其計算式為:
(1)
其中:pn表示這一天中正面的新聞資訊、股吧評論總量,而nn表示這一天中負面的新聞資訊、股吧評論總量。
2.3" 變量篩選
為防止過擬合和多重共線性等問題,需要對各變量進行篩選。為此,采用Adaboost模型對各變量進行分類分析,評估各變量的重要性,并進行相關性和顯著性檢驗。同時,利用常見的方差膨脹因子(VIF)對變量進行判定,以完成變量的篩選。
如圖3所示,根據(jù)變量的重要性進行排序。中信證券的分析結果表明,按重要性從高到低排序,具有顯著影響的變量依次為WR、OBV、MACD、KDJ_D、MFI、RSI6等。華泰證券的分析結果表明,按重要性由高至低排序,影響較大的特征依次為OBV、MFI、MOM12、CCI、MACD、WR等。東方財富的分析結果表明,按重要性從高至低排序,影響較大的變量依次為MFI、WR、OBV、ROC、KDJ_J、MACD等。
3" 實證研究
3.1" 評價指標
為更清晰、更精確地評判該模型的有效性,本文使用以下評價指標對該模型的預測效果進行評估。
3.1.1" MSE均方誤差
MSE是一種用于衡量預測模型誤差的指標,用于評估模型的預測能力。MSE越小,說明模型的預測能力越好。其計算式為:
(2)
3.1.2" RMSE均方根誤差
RMSE是一種常用的衡量預測準確度的指標,通過計算預測值與真實值之間的平方誤差,并平均后開方。其計算式為:
(3)
3.1.3" MAE平均絕對誤差
MAE是一種衡量預測準確度的指標,計算預測值和真實值的絕對誤差的平均值,可以用于評估預測模型的精度。MAE越小表示預測模型的精度越高。其計算式為:
(4)
3.1.4" MAPE平均絕對百分比誤差
MAPE是一種衡量預測準確度的指標。它計算的是預測值與實際值之間的誤差百分比平均值,不受量綱的影響,可以用于評估預測模型的精度。MAPE越小表示預測模型的精度越高。其計算式為:
(5)
3.1.5" R2擬合優(yōu)度
決定系數(shù)(R2)是用于衡量回歸模型擬合數(shù)據(jù)好壞的一個統(tǒng)計量。R2的值介于0和1之間,值越接近1,說明模型擬合得越好。計算式為:
(6)
3.2" 預測分析
由于中信證券、華泰證券和東方財富是我國證券行業(yè)的龍頭企業(yè),具有一定的代表性,因此本文選取了中信證券、華泰證券和東方財富這三支個股的量價數(shù)據(jù)作為研究對象。研究數(shù)據(jù)涵蓋2013年至2023年的量價數(shù)據(jù),并計算了股民們較為常用的技術指標。由于股票價格屬于時間序列預測,需要保證其時序性,因此選擇前80%的數(shù)據(jù)作為訓練集,中間10%的數(shù)據(jù)用于驗證,最后10%的數(shù)據(jù)用于預測和評估。利用滾動預測法,基于前64天的特征自變量信息,預測未來5天的收盤價。由于Informer模型的特性,需要額外回顧5天的數(shù)據(jù)。基于前期研究結果,中信證券選取了以下變量:OBV、MOM6、ROC、L_line、RSI12、KDJ_D;華泰證券選取的特征變量包括:OBV、MFI、MOM12、CCI、MACD、WR;東方財富選取的特征變量包括:MFI、WR、OBV、ROC、KDJ_J、MACD。此外,還結合了根據(jù)金融詞典計算得到的情緒指數(shù)(Emotion)和初始的量價數(shù)據(jù),共13個特征變量。
隨后,將數(shù)據(jù)集輸入Informer模型進行訓練。圖4展示了中信證券的訓練損失變化和驗證損失變化。
圖5至圖7分別展示了三支股票的預測結果與實際數(shù)據(jù)的對比曲線圖。從圖中可以看出AdaBoost-Emotion-Informer模型的預測結果與真實值最接近,誤差最小。
在使用Informer模型時,我們發(fā)現(xiàn)即使不加入情感因素,Informer的預測能力已經很出色。接下來,我們對融入了AdaBoost算法和情感指數(shù)的模型進行了比較,具體評測指標的數(shù)值如表4所示。從表中可以看出,在加入AdaBoost算法和情感指數(shù)后,模型的預測性能得到了顯著提升。具體來說,AdaBoost-Emotion-Informer模型在所有5個評估指標上均表現(xiàn)更好。這表明融入情感因素和AdaBoost算法后,Informer模型的預測能力得到了進一步增強。
4" 結" 論
基于中信證券、華泰證券和東方財富等證券公司的股價變化,本文從技術指標、基本面數(shù)據(jù)、投資者情緒和關注度等方面進行了深入分析,并開展了相關的實證研究,取得了一系列具有重要價值的研究結果:
1)多源數(shù)據(jù)能夠更好地挖掘和解釋數(shù)據(jù)的內在特征,并提高股市預測的準確性。在股市預測中,需要重視與股票市場走勢緊密相關的技術指標,例如CCI、MACD、MFI、ROC等。在個股投資時,投資者應綜合考慮基本面數(shù)據(jù)和技術指標,同時注意不同股票可能適用不同的技術指標。
2)情緒指數(shù)對股票市場至關重要,它與股價波動緊密相關。投資者應關注股市情緒變化,特別是能反映投資者情緒的指數(shù),并且在市場出現(xiàn)異常情緒變化時,應及時調整投資策略以避免虧損。
本文通過Informer模型,利用過去64個交易日的數(shù)據(jù)對未來5個交易日的走勢進行預測。雖然該模型能夠有效地把握股市的長期走勢,但存在時效性和粒度較大的問題。為了更準確地揭示多源數(shù)據(jù)對股市波動性的長期影響,未來研究可以考慮采用更短的時間周期,從而更深刻地認識多源數(shù)據(jù)對股市波動性的直接作用與動態(tài)影響。
參考文獻:
[1] 謝心蕊,雷秀仁,趙巖.MI和改進PCA的降維算法在股價預測中的應用 [J].計算機工程與應用,2020,56(21):139-144.
[2] 胡聿文.基于優(yōu)化LSTM模型的股票預測 [J].計算機科學,2021,48(S1):151-157.
[3] 尹湘鋒,崔浩鋒,文雪婷.基于兩類核函數(shù)的TSVR在股價預測中的比較 [J].統(tǒng)計與決策,2021,37(12):43-46.
[4] 方義秋,盧壯,葛君偉.聯(lián)合RMSE損失LSTM-CNN模型的股價預測 [J].計算機工程與應用,2022,58(9):294-302.
[5] 劉銘,單玉瑩.基于EMD-LSTM模型的股指收盤價預測 [J].重慶理工大學學報:自然科學,2021,35(12):269-276.
[6] 曹超凡,羅澤南,謝佳鑫,等. MDT-CNN-LSTM模型的股價預測研究 [J].計算機工程與應用,2022,58(5):280-286.
[7] 許雪晨,田侃.一種基于金融文本情感分析的股票指數(shù)預測新方法 [J].數(shù)量經濟技術經濟研究,2021,38(12):124-145.
[8] DING Q G,WU S,SUN H,et al. Hierarchical Multi-Scale Gaussian Transformer for Stock Movement Prediction [C]//Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence Special Track on AI in FinTech.Yokohama:IJCAI,2020:4640-4646.
[9] 林昱,常晉源,黃雁勇.融合經驗模態(tài)分解與深度時序模型的股價預測 [J].系統(tǒng)工程理論與實踐,2022,42(6):1663-1677.
[10] 任佳屹,王愛銀. 融合因果注意力Transformer模型的股價預測研究 [J].計算機工程與應用,2023,59(13):325-334.
[11] ZHOU H Y,ZHANG S H,PENG J Q,et al. Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting [C]//Proceedings of the AAAI Conference on Artificial Intelligence [S.I.]:AAAI Press,2021,35(12):11106-11115.
[12] LI X D,XIE H R,CHEN L,et al. News Impact on Stock Price Return Via Sentiment Analysis [J].Knowledge-Based Systems,2014,69:14-23.
[13] TAN L I,PHANG W S,CHIN K O,et al.Rule-Based Sentiment Analysis for Financial News [C]//2015 IEEE International Conference on Systems, Man, and Cybernetics.Hong Kong:IEEE,2015:1601-1606.
[14] DAY M Y,LEE C C.Deep Learning for Financial Sentiment Analysis on Finance News Providers [C]//2016 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining(ASONAM). San Francisco:IEEE,2016:1127-1134.
[15] ZHANG S X,WEI Z L,WANG Y,et al. Sentiment Analysis of Chinese Micro-Blog Text Based on Extended Sentiment Dictionary [J].Future Generation Computer Systems,2018,81:395-403.
[16] LI M,YANG C,ZHANG J,et al.Stock Market Analysis Using Social Networks [C]//Proceedings of the Australasian Computer Science Week Multiconference.New York:ACM,2018:1-10.
[17] XU J W,MURATA T. Stock Market Trend Prediction with Sentiment Analysis based on LSTM Neural Network [C]//International Multiconference of Engineers and Computer Scientists.Hong Kong:IAENG,2019:475-479.
[18] 姚加權,馮緒,王贊鈞,等.語調、情緒及市場影響:基于金融情緒詞典 [J].管理科學學報,2021,24(5):26-46.
作者簡介:倪學曜(1998.03—),男,漢族,浙江湖州人,碩士研究生在讀,研究方向:股票預測與量化交易。
收稿日期:2024-09-26