基于百度指數和隨機森林的上證綜指預測

2020-08-13 07:17:51張程周恬恬

軟件 2020年6期

張程周恬恬

摘 ?要：股市走勢預測是金融學、統計學、機器學習等多學科交叉研究的熱點學術問題。股市走勢并不完全由自身內在規律決定，也會受到投資者的關注度的影響。本文研究了投資者關注與上海證券綜合指數之間的波動效應，提出了一種基于百度指數并結合隨機森林模型的上證指數走勢預測方法?；谝延械某跏妓阉麝P鍵詞詞庫在百度指數網站獲取相應的關鍵詞的百度指數，通過時差相關分析法篩選出具有預測意義的關鍵詞，將篩選后的關鍵詞的百度指數數據和上證指數的相關屬性數據作為預測模型的輸入數據，通過隨機森林建立預測模型并實現對上證指數的預測。對比實驗證明引入百度指數后的預測模型比傳統的預測模型具有更高的準確率。

關鍵詞：上證指數預測;百度指數;隨機森林;時差相關分析法

中圖分類號： TP391 ? ?文獻標識碼： A ? ?DOI：10.3969/j.issn.1003-6970.2020.06.012

本文著錄格式：張程，周恬恬. 基于百度指數和隨機森林的上證綜指預測[J]. 軟件，2020，41（06）：5662

【Abstract】： Stock market trend forecast is a hot academic issue that has attracted many researchers and participants in multiple disciplines such as economics， statistics， and machine learning. Stock market trend is not entirely determined by its own internal laws， and it will also be affected by the investors' attention. This paper studies the ripple effect between investors' attention and the Shanghai Composite Index， and proposes a Shanghai Composite Index forecast method based on the Baidu Index and random forest. Firstly， obtain the corresponding Baidu index of the existing initial search keyword thesaurus based on the Baidu Index website， and then screen the keyword with predictive significance by the method of time difference correlation analysis. Finally， use the keywords Baidu index and the relevant attribute data of the Shanghai Composite Index as input of forecast model that based on random forest to realize Shanghai Composite Index forecasting. The experiment results show that the proposed forecasting method has higher accuracy than the traditional method.

【Key words】： Shanghai composite index forecast; Baidu index; Random forest; Time difference correlation analysis

0 ?引言

時間序列預測、灰色模型和機器學習是常用的股市預測方法。時間序列預測是通過分析股票價格的過去收益來預測未來股價（Michel Ballings 2015）[1]。傳統的灰色模型數學雖然容易理解且計算簡單。但是，其原始模型的線性特性導致無法預測本質為非線性的急劇變化的數據（Chun-I Chen a2010）[2]。Bruno Miranda Henrique使用了支持向量機（Bruno Miranda Henrique 2018）[3]，Yi Zuo使用貝葉斯網絡（Zuo Y 2012）[4]，Leonel A.Laboissiere基于人工神經網絡進行最高和最低股價預測研究（Laboissiere L A 2015）[5]。Hsu M W證實了最好的機器學習方法比最好的計量經濟學方法產生更準確的預測（Hsu M W 2016）[6]。

事實上，這些預測方法可能使用著相似的技術指標，隨著時間的變化，這些技術指標的收益率將會有較為明顯的下降。此外，行為金融理論表明，股價不僅受歷史數據的影響，同時受投資者情緒的影響。在股票價格預測中，研究者開始考慮投資者情緒（Barberis等人，1998）[7]。如何獲取投資者的情緒呢？隨著越來越多的股票市場的投資者通過搜索引擎獲取股市相關的信息。搜索引擎記錄的用戶行為成為研究者研究投資者情緒的重要數據來源。2006年，Google公開發布了任意搜索關鍵詞的查詢數據，引起了學術界和企業界的關注。Google數據尤其適用于2008-2009年“全球衰退”之后的預測者，這次“全球衰退”帶來了宏觀經濟動蕩，（巨大的）不確定性。紐帶和獨特的沖擊使得傳統的歷史數據通常以滯后的方式發布，以反映經濟中正在進行的結構性變化（Bangwayo-Skeete P F，2015）[8]。Google的搜索數據能夠領先反映這種結構性變化，因此在流行病學（Ginsberg J，2009）[9]、失業（Askitas N，2009）[10]和私人消費（Vosen S，2011）[11]以及汽車購買（Yan Carrière㏒wallow，2013）[12]等方面的預測研究中都顯得尤為重要。Bijl L等人也開始調查谷歌搜索量數據和股票收益預測的關系（Bijl L，2016）[13]。

百度指數與谷歌趨勢相類似，是以百度網頁搜索和百度新聞搜索為基礎的免費海量數據分析服務，用以反映關鍵詞在過去一段時間里的“用戶關注度”和“媒體關注度”。通過百度指數可以發現、共享和挖掘互聯網上最有價值的信息和資訊，直接、客觀地反映社會熱點、網民的興趣和需求。百度于2006年正式推出百度指數的數據分析功能模塊?；诎俣戎笖档墓善彼阉鲾祿N含了我國股民的興趣與關注，對推斷我國投資者情緒具有良好的信息參考價值。孟雪井等發現我國股票市場的投資者情緒與市場指數之間存在聯動機制（孟雪井，2016）[14]?？娊苁褂冒俣戎笖祵?A 股 148 家公司進行分析，王京晶使用百度指數對深圳個股進行回歸分析，他們都證實了投資者關注度與股票市場存在相關性（繆杰（2014）[15]，王京晶（2012）[16]）。

總體來看，當前以百度指數為衡量指標的文獻，主要集中在投資者關注與股票市場流動性、波動性、收益率、市場表現及個股與市場整體之間的關系上。然而，百度指數對于股票指數影響的國內外文獻都非常少，而百度指數與股票指數之間的研究具有不可替代性。本文以百度指數作為投資者關注的衡量指標，結合隨機森林模型，以上海證券綜合指數預測為背景，研究了投資者關注與上海證券綜合指數之間的波動效應。實驗數據表明，本方法在上證指數T+1日預測上具有較好的效果。

1 ?論文數據概述

1.1 ?上海證券綜合指數

上海證券綜合指數簡稱“上證指數”或“上證綜指”，其樣本股是在上海證券交易所全部上市股票，包括A股和B股，綜合反映了上海證券交易所上市股票價格的變動情況，自1991年7月15日起正式發布。上證指數系列均以“點”為單位。本研究選取的上證指數的相關屬性為最高點，最低點，開盤，收盤，漲跌額，漲跌幅，成交量，成交額數據，屬性說明如表1所示（孫文存，2012）[17]。

1.2 ?百度指數描述

百度指數基于百度海量數據，一方面進行關鍵詞搜索熱度分析，另一方面深度挖掘輿情信息、市場需求、用戶特征等多方面的數據特征。百度指數每天更新，并且提供自2006年6月至今任意時間段的PC端和移動端搜索指數，2011年1月至今的移動端無線搜索指數。百度指數反映網民的主動搜索需求，所有影響網民搜索行為的活動都可能影響百度指數。搜索指數是以網民在百度的搜索量為數據基礎，以關鍵詞為統計對象，科學分析并計算出各個關鍵詞在百度網頁搜索中搜索頻次的加權和。

2 ?基于隨機森林的股指預測方法

2.1 ?預測流程

本論文的研究流程如圖1所示：首先是數據獲取部分，主要獲取兩個部分的數據：股票指數每日的屬性數據、搜索關鍵字對應的百度指數每日數據。

然后進行數據處理和特征約簡。數據處理的工作主要是為了使上證指數的數據和關鍵詞的百度指數數據對應。搜索關鍵詞的百度指數數據每天產生，而上證指數在周末和節假日期間會出現休市，即沒有對應的股市相關的數據，因此需要經過數據處理對齊兩類數據。此外，不同關鍵詞和上證指數走勢的相關性不同，且關鍵詞跟上證指數走勢呈現出領先、同步及滯后三種關系，只有與上證指數走勢具有強相關性的領先關鍵詞對預測有意義。所以，本文使用時差相關分析法從初始關鍵詞庫中選取對預測有意義的關鍵詞，不僅能提高預測精度，還能實現對特征向量的精簡和定義。

最后是進行模型訓練和模型評估。使用篩選后的關鍵詞的百度指數數據，和結合對應的上證指數相關屬性數據，建立加權樹并通過隨機森林模型進行訓練，最終實現了基于隨機森林的上證指數預測。

2.2 ?數據特征提取

2.2.1 ?搜索關鍵詞

本文在構建搜索關鍵詞時選取了孟雪井等人[14]在《基于文本挖掘和百度指數的投資者情緒指數研究》研究中整理出的與上證指數相關的關鍵詞詞庫，選取其中的55個關鍵詞，構成初始關鍵詞庫，如表2所示。

2.2.2 ?搜索關鍵詞的百度指數

打開百度指數（http：//index.baidu.com/）的網頁，在趨勢研究搜索欄中輸入待查詢的關鍵詞，輸入后點擊查詢，能夠得到該關鍵詞的百度指數信息，該信息即關鍵詞當日在百度瀏覽器上被搜索的次數。本文針對表2中提及的55個初始關鍵詞，提取了其從2015年1月5日到到2018年7月26日期間每個關鍵詞每天對應的百度指數數據。表3是部分搜索關鍵字在2017.1.9（周一）-2017.1.15（周日）一周內的百度指數數據示例。

由表3可知，“今日大盤”這個關鍵詞在周一的搜索量為1413次，其他四個工作日分別為1342次，1310次，1478次，1423次。在周六周日只有314次和253次。

2.2.3 ?搜索關鍵詞篩選

使用時差相關分析法計算得到搜索關鍵詞的百度指數和大盤指數的之間的時滯階數，同時找出對股市走勢預測有意義的有強相關性的搜索關鍵詞。根據不同關鍵詞的不同時差關系，可以將關鍵詞分為三類：先行關鍵詞，即趨勢領先于上證指數走勢的關鍵詞;一致關鍵詞，即趨勢與上證指數基本保持一致的關鍵詞;滯后關鍵詞，即滯后于上證指數趨勢的關鍵詞。通過選取其中的先行關鍵詞，可以降低在預測算法中的參數量，提高預測效率和準確性。

搜索關鍵詞篩選算法如下：

Step1：確定基準指標序列。通常選取能夠綜合反映出當前的經濟活動的時間序列指標作為基準指標，本實驗中選取上證指數的收盤數據作為基準指標序列。

Step2：根據時差相關分析法的計算公式計算被選擇的分析指標序列和基準指標序列的時差相關系數和時滯性階數。本實驗中分析指標序列是初始關鍵詞詞庫中55個關鍵詞的百度指數數據。

Step3：根據時差相關分析法的計算結果，篩選出時滯性階數小于0，相關系數大于0.5的關鍵詞，即為與上證指數走勢具有強相關性的領先關鍵詞。

時差相關系數的計算公式如下：

式中，時間序列x關鍵字的百度指數數據序列，時間序列y為上證指數的收盤數據，r 為時差相關系數，l 為時滯性階數，取值在[-L，+L]區間上，l 取負數時表示超前，取正數時表示滯后。L 是最大延遲數。L的取值可以根據實驗設定，計算出不同時滯性階數下對應的時差相關系數值，選取時差相關系數最大時的時滯性階數作為最終結果。

以關鍵詞“主力”為例計算時滯性階數和相關系數，基準指標為上證指數數據，分析指標為“主力”對應的百度指數數據，最大延遲數L設定為2，計算結果如下。

在時滯性階數為–1時，相關系數的值最大，所以關鍵詞的“主力”時滯性階數為–1，即領先一天。

同樣對初始關鍵詞詞庫的關鍵詞計算時滯性階數和最大相關系數如表5所示。

其中，時滯性階數為負數的代表該關鍵詞為領先關鍵詞，選出時滯性階數為負數且相關系數大于0.5的關鍵詞，即領先且具有強相關性的關鍵詞作為最終使用的關鍵詞如表6所示。

2.3 ?隨機森林模型

隨機森林（RF）是一種組合分類器，它利用 bootstrap 重抽樣方法從原始樣本中抽取多個樣本，對每個 bootstrap 樣本進行決策樹建模，然后將這些決策樹組合在一起，通過組合方法得出最終預測的結果（曹正鳳，2014）[18]。隨機森林的數學定義如下：

設一系列決策樹 ?…… 構成的隨機森林，X 為樣本的特征屬性， H（x）表示組合分類模型，I為指示函數。隨機森林結果如下：

回歸預測的組合方法是以所有決策樹的結果的加和平均值為最終結果作為輸出的。

本算法使用隨機森林模型進行回歸預測，預測大盤指數次日收盤價。其具體構建流程如下：

Step1：選取訓練集。把原始樣本集分為原始訓練集（M個樣本）和原始測試集，通過Bootstrap 方法有放回的隨機抽取 N個自助樣本集（即N個決策樹），每個樣本集的樣本數量與原始訓練集的樣本數量相等都為M。

Step2：生成決策樹。N個決策樹使用自己的M個樣本進行獨立訓練，每顆決策樹隨機選擇K（K<=總特征數）個特征進行分裂，訓練完成后的N個決策樹組合成為隨機森林。在分類預測時，每顆訓練完成的決策樹收到輸入測試數據獨立完成漲跌預測。在回歸預測時，每顆訓練完成的決策樹收到輸入測試數據獨立完成次日收盤價價格預測。

Step3：決策樹結果組合決策。對所有決策樹結果求平均值為最終輸出結果。

3 ?實驗

3.1 ?實驗環境及數據描述

本文實驗輸入數據包括從2015年1月5日到2018年7月26日的股指數據（屬性分類見表1）和篩選后的13個搜索關鍵詞（見表6）的2015年1月5日到2018年7月26日的百度指數數據。除去股市休市時缺失的數據，本文樣本數據集共870條，選取其中從2015年1月5號到2018年5月2號的共810條數據作為原始訓練集，剩余從2018年5月3號到2018年7月26號共60條數據作為測試集。

另外，使用無搜索關鍵詞的百度指數的輸入數據作為對比實驗，即對比實驗為僅含有從2015年1月5日到到2018年7月26日的股指數據（屬性分類見表1）作為隨機森林模型的輸入。實驗結果對比分析見下圖2和圖3。

設置bootstrap=true，代表Bootstrap采樣過程是有放回的進行的，max_features=0.5，決策樹分裂時選取int（總特征值*0.5）=int（21*0.5）=10，n_estimators=400，即隨機森林中的決策樹個數為400。

3.2 ?評價指標

均方根誤差（Root Mean Squared Error，RMSE），均方根誤差能夠準確的反映出預測值和實際狀況之間的差距，是對平均的預測誤差值做開方處理的結果，在實際分析過程中常常使用 RMSE 來對模型的預測誤差進行分析，計算公式如下（其中，n為預測次數，為預測值，為真實值）：

平均絕對百分誤差（Mean Absolute Percentage， MAPE），主要反映預測值和真實值的偏差，計算公式如下：

MAPE的值越小，說明預測模型擁有更好的精度。

決定系數，也稱為擬合優度，即回歸擬合的曲線的擬合優度，表征回歸方程在多大程度上解釋了因變量的變化。該值的變化區間在[0，1]上，該值越大模型越好。

解釋方差回歸得分（explained_variance_score），解釋回歸模型的方差得分，其值取值范圍是[0，1]，越接近于1說明自變量越能解釋因變量的方差變化，值越大則說明效果越好。

3.3 ?實驗結果分析

各項指標結果如下表7。

本次實驗和對比實驗的預測結果與實際值的對比散點圖分別對應如下圖2和圖3。

橫坐標是從1到60的自然數，代表從2018年5月3號到2018年7月27號的日期，縱坐標表示大盤指數收盤值，藍色的散點為模型預測結果，黃色的散點為實際值。圖2為包含搜索指數數據的實驗結果，圖3為不包含百度指數數據的實驗結果。由圖可知，在加入百度指數后預測值走勢與真實值的走勢更為接近，比如在橫坐標為50的數據附近，真實值是一直呈下跌趨勢，加入百度指數后的預測值呈相同趨勢，但是沒有百度指數的預測值走勢不穩定。從RMSE和MAPE指標來看，加入百度指數的實驗結果都比不加百度指數的實驗結果低，也就是具有更高的準確率?？偟膩碚f，實際的上證指數的收盤值在某些時候有較大波動，這些波動會影響RMSE和MAPE指標，但是從實驗的數據集來看上證指數的漲跌幅，有98%的數據的漲跌幅在5%以內，也就是基本波動不會超過5%，本實驗使用百度指數的數據來預測的收盤值和真實值的誤差百分比都在5%以內，表明預測值具有一定可靠性和準確性。

4 ?結語

搜索指數能夠反映投資者的關注度，同時行為金融理論表明股票市場會受到投資者的情緒的影響，因而本文提出了一種基于搜索指數和隨機森林的股市走勢預測模型，以上證指數為股市背景，從預測上證指數的收盤值和漲跌情況兩個方面來驗證模型的準確率，結果都表明加入百度指數后的預測方法比直接使用股市歷史數據的效果更優。證明了考慮投資者的情緒對研究股市走勢具有重要意義，搜索指數是衡量投資者情緒的一個有效指標。然而，本文也存在一定不足之處，衡量投資者情緒的指標不僅是搜索指數，還包括與股市相關的論壇、貼吧、微博評論等信息。本文僅對搜索指數進行了相關驗證，為進一步提高模型準確率還可以考慮在預測模型中加入更多有用的情緒指標。另外，隨著隨機森林研究的進一步發展，越來越多的基于隨機森林的回歸預測和分類預測的改進算法被提出，如何結合改進的隨機森林算法來提高預測模型準確率也是值得思考的問題。

參考文獻

[12] Michel Ballings， Dirk Van den Poel， Nathalie Hespeels， Ruben Gryp. Evaluating multiple classifiers for stock price direction prediction[J]. Expert Systems with Applications， 2015， 42（20）： 7046-7056.

[13] Chen C I， Hsin P H， Wu C S. Forecasting Taiwans major stock indices by the Nash nonlinear grey Bernoulli model[J]. Expert Systems with Applications， 2010， 37（12）： 7557-7562.

[14] Henrique， Bruno Miranda， Sobreiro， Vinicius Amorim， Kimura， Herbert. Stock Price Prediction Using Support Vector Regression on Daily and Up to the Minute Prices[J]. ?The Journal of Finance and Data Science，2018，4（3）： 183-201.

[15] Zuo Y， Kita E. Stock price forecast using Bayesian network[J]. Expert Systems with Applications， 2012， 39（8）： 6729-6737.

[16] Laboissiere L A， Fernandes R A S， Lage G G. Maximum and minimum stock price forecasting of Brazilian power distribution companies based on artificial neural networks[J]. Applied Soft Computing， 2015， 35： 66-74.

[17] Hsu M W， Lessmann S， Sung M C， et al. Bridging the Divide in Financial Market Forecasting： Machine Learners vs. Financial Economists[J]. Expert Systems with Applications， 2016， 61： 215-234.

[18] Barberis， Nicholas， Shleifer， Andrei， Vishny， Robert. A model of investor sentiment[J]. Journal of Financial Economics， 1998， 49（3）： 307-343.

[19] Bangwayo-Skeete P F， Skeete R W. Can Google data improve the forecasting performance of tourist arrivals？ Mixed-data sampling approach[J]. Tourism Management， 2015， 46： 454-464.

[20] Ginsberg J. Detecting influenza epidemics using search engine query data[J]. Nature， 2009， 457（7232）： 1012-4.

[21] Askitas N， Zimmermann K F. Google Econometrics and Unemployment Forecasting[J]. Economics Quarterly， 2009， 55（2）： 107-120.

[22] Vosen S， Schmidt T. Forecasting private consumption： survey-based indicators vs. Google trends[J]. Journal of Forecasting， 2011， 30（6）： 565-578.

[23] Carriere-Swallow Y， ?Labbe F. Nowcasting with Google Trends in an Emerging Market[J]. Journal of Forecasting， 2013， 32（4）： 289-298.

[24] Bijl L， Kringhaug G， Molnár， Peter， et al. Google searches and stock returns[J]. International Review of Financial Analysis， 2016， 45： 150-156.

[25] 孟雪井，孟祥蘭，胡楊洋. 基于文本挖掘和百度指數的投資者情緒指數研究[J]. 宏觀經濟研究， 2016， 206（01）： 146-155.

[26] 繆杰. 基于百度指數的投資者關注度對于股票市場表現的影響[D]. 廈門大學， 2014.

[27] 王京晶. 關注度對股票收益率的影響—中國證券市場的實證研究[D]. 上海交通大學， 2012.

[28] 孫文存. 基于搜索關鍵詞關注度的中國股票市場波動研究[D]. 2012.

[29] 曹正鳳. 隨機森林算法優化研究[D]. 北京：首都經濟貿易大學統計學院博士論文， 2014.

軟件2020年6期

軟件的其它文章: “MOOC+翻轉課堂”的多元化教學模式研究與實踐; UMU平臺在中職計算機專業課中的教學效果調查與分析; PPT動畫制作的信息化教學研究與實現; 基于“異步SPOC+雨課堂”的混合式教學實踐與探索; 基于關鍵詞聚類的國內個性化學習研究分析; 論項目教學法在高職計算機教學中的應用