融合情感分析與SVM_LSTM模型的股票指數預測

2020-09-02 06:31:23楊妥李萬龍鄭山紅

軟件導刊 2020年8期

楊妥李萬龍鄭山紅

摘要：由于股票市場變化存在著多因素、非線性、時變性等特點，傳統預測模型忽視了股指波動影響因素特征提取的合理性與準確性，導致預測效果不理想。鑒于此，提出了融合情感分析和SVM_LSTM特征提取模型的股指預測方法以提高股指預測精度，將SVM和LSTM方法相結合建立SVM_LSTM模型，提取影響股指波動的情感極性特征、漲跌趨勢特征以及股票技術指標特征，進而彌補影響股指波動的存在因素實現股指預測。通過與傳統股指預測方法相比較，該方法實驗結果的MSE（均方差）達到了0.172 2，比傳統模型的均方差縮小了約0.083 7，證明了該預測方法在準確度上效果更好。

關鍵詞：股指預測;技術指標;LSTM;情感分析

DOI：10. 11907/rjdk. 192512 開放科學（資源服務）標識碼（OSID）：

中圖分類號：TP301文獻標識碼：A 文章編號：1672-7800（2020）008-0014-05

Abstract： Due to the multi-factor， non-linear and time-varying characteristics of stock market changes， traditional prediction models ignore the rationality and accuracy of extracting the characteristics of factors that affect stock index fluctuations， resulting in unsatisfactory prediction effect. Therefore， this article puts forward the integration analysis and SVM_LSTM emotional feature extraction model of stock index prediction method to improve the predictive accuracy of the stock index. By combining the SVM and the LSTM method SVM_LSTM model is established to extract the influence of stock index volatility emotion polarity features， price trend and the characteristics of stock technical indicators so as to make up for the factors affecting the existence of the stock index fluctuation index prediction.Compared with the traditional stock index prediction method， the MSE （mean square deviation） of the experimental results of the proposed method reached 0.172 2， which is about 0.083 7 smaller than the mean square deviation of the traditional model， proving that the proposed prediction method has better accuracy effect.

Key Words： stock index prediction; technical indicators; LSTM; emotional analysis

0 引言

股指預測實際就是時間序列的預測，是指利用股市中各項技術指標的歷史數據建立預測模型，挖掘各大技術指標在時間序列上的變化規律。然而，以往的股指預測方法中，常常選用單一的股票技術指標作為影響股指波動的特征參數，忽視了股指波動存在多種影響因素的特性[1-4]，造成預測結果不理想，給予了投資者錯誤引導。由此可見，提高預測模型準確度十分重要，不僅能夠為金融領域的發展提供幫助，還可以給予投資者正確引導，從而降低投資者的投資風險。因此，股指預測研究具有重要意義[5-6]。

近年來，人們發現影響股票市場波動的因素眾多。Gilbert等[7]從LiveJournal中提取大眾焦慮指標，根據指標變化情況進行預測，發現大眾情緒在一定程度上對股票市場有一定波動影響;董理等[8]發現大眾評論信息對股票指數波動有一定影響，因此將文本信息與技術指標相結合，采用機器學習的方法（SVR）進行模型預測，并與傳統模型方法進行比較，獲得了相對較好的預測精度;Schumaker等[9]使用3種不同文本表示方法，抽取其中有價值的詞條，利用支持向量機（SVM）訓練器進行分析，發現將文字字段和股票價格一起訓練可以獲得較好表現;Nikfarjam等[10]通過采用SVM分類器對比新聞文本和股票價格兩種方法對股票預測的準確性，最終發現將新聞文本與股票價格兩種方法相結合更能提高股票預測效果;宋敏晶[11]采用文本分類技術提取股票評論數據的情感值，驗證了股票評論與股票市場存在一定聯系。

綜上可以看出，已有研究大多從某個角度進行分析，忽視了股指預測最優方法利用及特征組合利用的重要價值，僅僅依靠單一影響因素進行股指預測，很難獲得理想預測效果。同時，股票市場自身是一個非線性、不穩定的時間序列，使用線性結構模型進行預測并不能很好地表示這種復雜關系[12-16]。因此，本文在影響股票波動的特征因素上加以改進，在股票技術指標特征的基礎上，融入情感分類結果和股指漲跌趨勢預測結果作為影響股指波動的特征因素進行股指預測。在特征提取上，提出利用SVM_LSTM組合訓練模型對特征參數進行提取，同時采用BP神經網絡進行股指預測，改進了采用單一影響因素作為特征值的特征提取方式，通過與多種預測方法相比較，證明本文提出的方法能夠更好地提高模型預測效果。

1 相關工作

1.1 LSTM神經網絡

LSTM（Long short-Term Memory）全稱長短時記憶神經網絡，是一種時間循環神經網絡，也即在循環神經網絡的基礎上，在隱層的各神經單元上加入記憶單元，使時間序列上的記憶信息可以控制，使其更適用于處理和預測時間序列問題。LSTM神經網絡通過控制門（輸入門[it]、遺忘門[ft]、輸出門[ot]）調節之前信息與當前信息的記憶和遺忘程度，將短期記憶與長期記憶結合起來，使循環神經網絡具備了長期記憶能力，并且一定程度上解決了梯度消失的問題。因此，本文采用LSTM方法對技術指標數據進行特征提取，其工作過程可以表述為：

1.2 數據采集

股票的技術指標數據采用Python爬蟲進行收集處理，其中包含開盤價、成交量、MACD、KDJ、ROC、RSI 6個股票技術指標。

文本數據采集選擇以排名靠前的“東方財富網”作為收集數據來源，通過訪問移動端頁面，對股民在股吧中的言論信息進行搜索，收集每日股民對上證指數（上海證券綜合指數）的股票評論及針對股市大盤趨勢的評論，以滿足本文預測所需數據量。收集時間為2018年10月18日至12月7日，共37個交易日，約11萬條上證綜指的股民言論信息，文本數據信息內容如表1所示。

2.悲催，4天的利潤不夠今天一天跌的，清倉回家種地＼&]

2 融合情感分析與SVM_LSTM模型

本文從影響股票技術指標波動的主要因素出發，融入情感分類結果和股指漲跌趨勢分析值作為股指預測的特征因素，從而提高預測精度[17-19]。同時，基于LSTM神經網絡的長期存儲記憶優勢以及SVM處理分類問題的準確性優勢，將這兩種方法結合起來，對股指預測中訓練所需的特征參數進行提取，提出SVM_LSTM特征提取模型，以提高特征提取的準確性和有效性，進而提高股指預測效果。基本步驟如下：

（1）模型輸入包含處理好的文本數據[D={（x1，y1），][（x2，y2）][？（xn，yn）}]，其中[xi]代表每一條熱帖的文本數據，[yi]代表每條熱帖數據的情感標簽，[xi∈Rn，yi∈（-1，1），][i=1，2，3，？n]，以及收集到的股票技術指標數據[I={x1，x2，？，xi}]，其中[xi]表示第i組技術指標數據。

（2）針對輸入的文本信息D，采用支持向量機對文本數據進行情感分類，融入情感分類結果作為模型預測的特征參數（S：）。SVM_LSTM特征提取模型針對輸入的技術指標數據，采用LSTM神經網絡捕捉股票技術指標的時間序列特征，分別將前9天和當天技術指標構成的向量作為循環神經網絡每一時刻的輸入（C：），同時，針對股指漲跌趨勢特征提取問題，采用SVM分類方法對收集的股票技術指標進行趨勢分析，得到股票漲跌趨勢結果（T：），作為模型預測的特征參數。將最終特征向量[F={S：T：C}]輸入到BP神經網絡中進行股指預測，最后輸出股指預測結果。其模型訓練過程如圖2所示。

2.1 言論信息的情感特征提取

目前，情感分析方法主要有：基于詞典和規則的方法、基于機器學習的方法、基于深度學習的方法以及其它方法。基于詞典的方法主要利用情感詞典資源，該方法依賴領域、時間、語言等方面的背景知識，且很難及時捕捉新詞、變形詞，使如何構造高質量的情感詞典成為一大難點;基于規則的情感分類方法，雖然可以在訓練前加入限定規則提高分類結果的準確率，但是在數據量較大的情況下，規則的維護卻比較復雜且不易擴展;基于深度學習的方法（LSTM）可以提取到更復雜的語義特征信息，在情感分析任務上具有很好表現，但是深度神經網絡訓練需要大量樣本數據，在數據量少的情況下，訓練得到的情感分析結果往往準確率不高。基于機器學習的方法（SVM）不僅在小樣本中存在優勢，而且使用傳統的機器學習模型進行情感分析，在數據量少的情況下與深度學習對比訓練得到的模型泛化性更佳，以上情感分析方法對比實驗結果如表2所示。

本文選用支持向量機方法提取情感極性特征，基本步驟如下：

（1）將處理后的文本數據利用train_test_split函數，構建7∶3的訓練集和測試集。

（2）[D={（x1，y1），（x2，y2）？（xn，yn）}]作為訓練樣本集，其中[xi]代表第i條熱帖文本數據，[yi]代表第i條熱帖數據存在的情感因素（情感標簽），[xi∈Rn，yi∈（-1，1），i=1，2，3，][？n]。訓練模型就是基于訓練集D在樣本空間中找到一個劃分超平面，將不同類別的樣本分開。劃分超平面通過決策函數[f（x）=σ（WTx+b）]找到最大間隔超平面，其中[W=（w1，w2，？，wd）]為法向量，b為位移項。訓練結果：[f（x）>0或f（x）<0]，如果其訓練結果大于0，則訓練樣本被標記為1，反之結果小于0則訓練樣本被標記為-1。

（3）利用SVM分類器，結合本文自構建的詞典進行情感分類，得到情感極性值（用0，1表示），0代表消極情緒，1代表積極情緒。將訓練得到的結果作為股指預測的特征參數，用大寫字母S表示，記為[S={（x1，s1），（x2，s2），？，（xn，][sn）}]，其中[xi]代表第i條樣本信息，[si]代表第i條文本信息的情感極性值。

2.2 股票技術指標特征提取

LSTM神經網絡擁有記憶單元，能夠對一些有意義的信息予以長期保存，并通過“門”結構控制信息，同時LSTM神經網絡在修正權重的過程中，有些誤差可以通過門的控制直接遺忘，并且善于處理時序問題。由此，本文選用LSTM神經網絡進行特征提取。技術指標特征提取方法如圖3所示，每天的技術指標數據用[xi]表示輸入，輸入到LSTM訓練模型中通過“門”的控制進行訓練，即：[D=（x1，x2，x3，？，x10）]，其中[xi∈R，i=1，2，？10]，前一時刻的輸出[h（9）]為[x10]時刻的輸入;Y為輸出結果;[xi]表示i時刻下的樣本。利用LSTM捕捉股票技術指標的時間序列特征，分別利用前9天和當天技術指標構成的向量作為循環神經網絡每一時刻的輸入特征，提取最后一次訓練結果Y作為股指預測模型的訓練特征。

2.3 股指漲跌趨勢特征提取

漲跌趨勢特征選取主要考慮股票技術指標原有特性以及股票指數未來走勢等信息。本文充分考慮各技術指標的關聯性，選取開盤價、成交量、MACD（指數平滑異同平均線）、KDJ（隨機指標）、RSI（相對強弱指標）、ROC（變動率指標）6大指標，采用SVM方法對技術指標數據進行股票漲跌趨勢分析，提取漲跌趨勢特征信息。基本步驟如下：①在樣本空間中，尋找最大間隔劃分超平面：[wTx+b=0];②為尋找具有最大間隔的劃分超平面，就要找到能夠滿足上式的約束參數w和b：[min12w2，其中yi（wTxi+b）1，][i=1，2，？，m]。

訓練樣本結果大于0的定義為上漲趨勢，結果小于0定義為下跌趨勢。將訓練得到的結果作為股指預測的特征參數，用大寫字母T表示，記為[T={（x1，t1），（x2，t2），？，][（xn，tn）}]，其中[xi]代表第i個樣本，[ti]代表第i個訓練樣本的結果值。

3 實驗

3.1 數據處理

文本數據處理：首先將收集的文本數據按照一定規則進行處理，其中包括對原始數據的去重處理，減少冗余信息，同時對其進行標點符號及停用詞去除處理，得到凈化后的數據;然后按照日期過濾掉非當日交易時間段（收盤15：00到次日開盤9：00之間）發布的帖子，并將處理后的文本數據按照日期分別存儲在不同的文件中，得到處理后的價值信息;最后利用Jieba分詞工具并結合自主構建的詞典對預處理后的數據進行分詞處理，得到更加準確的詞信息。

根據《證券投資大辭典》[20]對金融領域專業名詞及常用術語進行總結歸納，同時對網頁中查詢到的股民常用網絡語言進行收集整理，在“知網”情感詞典的基礎上加入整理后的金融領域專業術語，自行建立金融領域情感詞典。情感詞典示例如表3所示。

3.2 融合情感分析特征有效性

本文選用情感詞典、深度學習、機器學習方法，分別對收集的文本信息進行訓練，實驗結果如表4所示。

基于機器學習的方法（SVM）在利用文本信息進行情感分析的優勢在于，它的決策函數是由支持向量確定，計算復雜度取決于支持向量的數目，而不是樣本空間的維數，從而避免了維數災難問題。同時，SVM不僅可以有效抽取關鍵樣本，還可以剔除大量冗余樣本，確保分類信息的準確性，從而得到準確的情感極性特征信息，實驗結果證明了應用SVM進行情感特征提取的合理性。同時，對不同特征下的參數應用神經網絡進行股指預測，實驗結果采用MSE以及股價損失值，證明融入情感分析特征進行股指預測準確和有效。融入情感分析特征實驗結果如表4所示，均方差[MSE=1ni=1n（yi-y）2]，損失值[loss=yi-y]，其中y是真實值，[y]是預測值，n為樣本個數。

3.3 實驗設置

選取最佳特征組合構建模型SVM_LSTM與其它特征組合預測模型進行對比，在實驗對比過程中，其它5個特征預測模型分別是：Model_SVM、Model_BP、SVR_emotion、BP_emotion、SVM_BP，以上模型均采用特征值選取和預測方法選擇這兩種方式對預測結果產生的影響進行對比。在數據預處理過程中，對特征值進行標準化處理，并將股指數據進行一定倍數的縮放。

Model_SVM和Model_BP均利用股票市場中的技術指標值作為特征，分別采用SVM算法和BP網絡方法進行模型預測;SVR_emotion和BP_emotion則是利用Jieba分詞得到的詞信息、結合情感詞典得到的情感詞信息、采用SVM分類方法得到的情感分類結果和技術指標值4種結果作為特征，分別采用支持向量機SVR的方法和BP網絡方法進行股指預測;SVM_BP模型將得到的情感分類結果和技術指標值作為特征，利用SVM方法進行情感分類，利用BP神經網絡進行股指預測。實驗結果用MSE作為評判標準以衡量以上預測模型的預測準確性。

3.4 實驗結果與分析

根據上述實驗設置，本文應用SVM_LSTM特征提取模型，以情感分析結果、漲跌趨勢結果和技術指標值相結合的方式作為股指預測的特征參數，采用BP神經網絡進行預測并與其它預測方法進行實驗對比，實驗結果如表5所示。

從實驗對比結果可以看出，模型Model_SVM和Model_BP僅僅依靠技術指標作為特征值進行股指預測，其預測效果不及采用增加其它影響因素的模型。產生這種結果的原因在于影響股票市場價格變動的因素眾多，單純依靠股票市場技術指標值并不能真正反映股票市場的變化情況。雖然，SVR_emotion和BP_emotion兩個模型融合了多種可能影響股票指數波動的因素作為特征值，但是預測效果并不理想。原因在于情感詞典構建和數據源選取不同，特征選取方法也不盡合理，造成情感分類結果值不準確，從而影響了股指預測效果。

實驗結果對比如圖4—圖6所示，從中可見融合情感分析的SVM_LSTM模型股票指數預測準確、有效，且具有相對最小的MSE值。在股票走勢變化上，以情感極性信息、漲跌趨勢信息和技術指標為特征，采用BP神經網絡進行預測，得到的預測效果更接近真實股票變化，預測值和真實值之間的離散程度較小。以上結果充分說明，本文提出的方法可以獲得更加理想的預測效果。

4 結語

本文股指預測研究中融入情感分析影響因素以及股指漲跌趨勢信息，將其作為股指預測的特征參數，增加了影響股指預測的可能因素，采用深度學習與機器學習相結合的方法，構建SVM_LSTM特征提取訓練模型并進行股指預測，提高了股指預測準確率。實驗對比分析發現，融入情感分析和漲跌趨勢特征的股票技術指標預測模型能夠獲得更好的預測效果。下一步工作是繼續收集影響股票行情波動的新聞信息數據，結合深度學習等方法進行特征提取并建立預測模型，進一步提升模型預測效果。

參考文獻：

[1] 黃霞. 基于神經網絡和遺傳算法的金融數據分析方法研究[D]. 廣州：廣東財經大學，2017.

[2] 楊春霞. 金融復雜性研究與金融市場建模[D]. 合肥：中國科學技術大學，2006.

[3] 霍咪咪. 金融風險的建模與管理方式分析及研究[J]. 現代經濟信息，2017（21）：240-241.

[4] 張栗粽，王謹平，劉貴松，等. 面向金融數據的神經網絡時間序列預測模型[J]. 計算機應用研究，2018，35（9）：2632-2637.

[5] FAMA E F. Market efficiency， long-term returns， and behavioral finance[J]. ?Journal of Financial Economics，1998，49：283-306.

[6] 孫培星. 基于情感傾向性的網絡輿情分析及演化預測研究[D]. 長春：吉林大學，2016.

[7] GILBERT E，KARAHALIOS K.Widespread worry and the stock market[C]. Fourth International AAAI conference on Weblogs and Social Media，2010：58-65.

[8] 董理，王中卿，熊德意. 基于文本信息的股票指數預測[J]. 北京大學學報（自然科學版），2017，53（2）：273-278.

[9] SCHUMAKER R P， CHEN H. Textual analysis of stock market prediction using breaking financial news： the AZFinText system[J]. ?ACM Transactions on Information System， 2009，27（2）：1139-1141.

[10] NIKFARJAM A，EMADZADEH E，MUTHAIYAH S.Text mining approaches for market prediction[C]. International Conference on Computer & Automation Engineer， 2010：256-26.

[11] 宋敏晶. 基于情感分析的股票預測模型研究[D]. 哈爾濱：哈爾濱工業大學，2013.

[12] 李玉梅. 基于互聯網評論的股票市場趨勢預測[D]. 哈爾濱：哈爾濱工業大學，2012.

[13] 陳佳，劉冬雪，武大碩. 基于特征選取與LSTM模型的股指預測方法研究[J]. 計算機工程與應用，2019，55（6）：108-112.

[14] 張世軍. 基于網絡輿情的SVM股票價格預測研究[D]. 南京：南京信息工程大學，2014.

[15] 張玲，劉臣. 基于深度記憶網絡的特定目標情感分類研究[J]. 軟件導刊，2019（12）：40-43.

[16] 李佳，黃之豪，陳冬蘭. 基于LSTM等深度學習方法的股指預測研究[J]. 軟件導刊，2019，18（9）：17-21.

[17] 黃霞. 基于神經網絡和遺傳算法的金融數據分析方法研究[D]. 廣州：廣東財經大學，2017.

[18] 謝夢蝶，秦江濤. 遺傳算法優化BP神經網絡預測股指研究[J]. 軟件導刊，2019，18（4）：41-45.

[19] 陳佳，劉冬雪，武大碩. 基于特征選取與LSTM模型的股指預測方法研究[J]. 計算機工程與應用，2019，55（6）：108-112.

[20] 韓雙林，馬秀巖. 證券投資大辭典[M]. 哈爾濱：黑龍江人民出版社，1993.

（責任編輯：孫娟）

軟件導刊2020年8期

軟件導刊的其它文章: 基于奇異值分解改進觀測矩陣的FBG傳感信號處理; 基于擴展卡爾曼濾波器的網絡隊列預測; 森林火災應急通信保障方案研究與設計; 電力計量回路虛擬現實培訓系統模擬; 教學用機器人移動底盤系統設計與實現; 疫情時期高校應急管理服務平臺設計與實現