李奮華,趙潤林(.運城學院計算機科學與技術系,山西 運城044000;2.中國科學院大學,北京0090)
一種基于時間序列分析的股票走勢預測模型
李奮華1,2,趙潤林1
(1.運城學院計算機科學與技術系,山西 運城044000;2.中國科學院大學,北京100190)
在信息爆炸時代,在股市中積累的具有時間標簽的股票交易數據越來越多,僅僅依靠傳統手工的股票數據分析辦法無法有效地獲取對投資者有價值的知識。為了能夠從海量股票歷史數據中更好地獲取對投資者有用的信息,高效地指導投資者投資,同時,為股票市場管理提供有效的決策支持,在股票分析中引入數據挖掘技術,提出一種基于時間序列的股票走勢預測模型,在真實股票數據集上的實驗表明,該模型對股票走勢的預測具有較好的效果。
信息爆炸;數據挖掘;時間序列分析;股票預測
國家自然科學基金項目(No.61272480)
隨著信息技術的迅猛發展,各行業數據庫中存儲的具有時間標簽的數據越來越多,這些數據隨著時間的推移規模越來越大,例如,醫院計算機系統中存放的關于病人的病情診斷、用藥等跟蹤信息;在股市中股票隨時間的交易數據等。如何從這些海量的時間標簽數據中挖掘出實際有價值的知識或模式成為一項重要而富有挑戰性的研究課題,這就是所謂的時間序列挖掘數據挖掘問題[1]。
作為數據挖掘研究的一項復雜任務,時間序列數據挖掘(Time series data mining)是指從海量的時間序列歷史數據中挖掘出事先未知、實際有用的信息或模式。時間序列數據挖掘在股票市場中的應用上尚處于起步階段,隨著該方法在股票市場中的普及和重視,其必將在該領域獲得更加廣泛的應用。同時,這種智能化的技術分析手段不僅能夠幫助投資者規避風險、降低投資損失,而且也能夠使得股票市場的秩序更加條理井然[2]。
為了能夠有效地指導投資者投資股市和對股票市場管理提供高效的決策支持,本文將數據挖掘技術引入到了股票數據分析中,提出了一種基于時間序列分析的股票走勢預測模型,并在真實的股票交易數據集上對其預測效果進行了驗證。第2節簡要地介紹了常用的時間序列預測方法,在此基礎上,第3節提出了一種基于時間序列的股票走勢預測模型,并在真實的股票交易數據集上進行了實驗驗證,預測效果良好。
時間序列預測方法是復雜時間序列數據分析中非常實用的一類預測方法。該類預測方法是以數學公式形式構建的模型為基礎,該模型符合時間序列特征,首先,它把時間序列數據集分為訓練集和測試集兩部分,然后,在訓練集上對構建模型進行有指導學習,當模型的預測精度達到能夠接受的程度時,就可以用該模型來對未知的時間序列數據進行預測和分析。從宏觀上來看,時間序列預測方法主要包括線性時間序列預測方法和非線性時間序列預測方法兩類,接下來,簡要介紹兩種典型且常用的時間序列預測方法[3]。
(1)指數平滑預測法
指數平滑預測法是社會生產預測中最常用的一種預測方法,該方法以移動平均法為基礎,對不同時期的數值賦予不同的權重值,最近數據賦予的權值大,時間久遠的數據賦予的權值小。根據以往的歷史時間序列數據,該方法通過計算指數平滑值,采用合適的數學公式形式預測模型來對未來值進行預測。在計算指數平滑值時,依據平滑次數的差異,該方法可以分為一次指數平滑、二次指數平滑和多次指數平滑。在實踐中,一次指數平滑預測方法用的較頻繁,因此,下面重點介紹一次指數平滑預測法。
一次指數平滑預測法的基本思想是:通過計算當前期實際值和當前期預測值的加權平均數來對下一期進行預測,如公式(1)所示:

其中,x~m+1表示m+1期的預測值,xm、x~m分別表示m期的實際值和預測值,δ∈[0,1]表示平滑系數,δ、(1-δ)分別表示m期實際值和預測值在下期的預測中所占的權重。該方法的預測精度,可以用誤差均方差來評估,如公式(2)所示:

其中,MSE表示誤差均方差,SSE表示誤差平方和,N表示誤差的個數。
指數平滑預測法是一種線性的時間序列預測方法,如果時間序列數據具有非線性的特點,采用該方法的預測精度就不很理想,在這種情況下,采用非線性的時間序列預測方法更合適。
(2)ARMA預測法
ARMA預測方法是一種非線性時間序列預測方法。因為實際社會中絕大多數的時間序列數據具有非線性的特征,所以這種方法在實踐中最為常用。該方法的基本思想是:首先,將非平穩的時間序列數據通過若干次差分運算變成平穩的時間序列數據,然后,用合適的數學模型來近似描述該序列,當該模型能夠被接受后,就可以利用該模型根據時間序列的歷史數據值和現在值來預測未來值。ARMA預測方法由AR過程和MA過程兩部分組成。通常情況下,一個m階自回歸過程AR(m)可以用公式(3)表示:

其中,yt表示第t期的觀察值,wt是第t期的隨機擾動項目,{θ1,θ2,…,θm}表示自回歸系數。一般來說,wt常被看作是一個n階的移動平均過程 MA(n),如公式(4)所示:

其中,ηt表示第t期的誤差值,{β1,β2,…,βm}表示移動平均系數。將公式(4)代入公式(3),可獲得ARMA (m,n)模型的表示形式,如公式(5)所示:

在實際的經濟和工程系統中,時間序列數據總是或多或少涉及一些非線性因素,當這些非線性因素影響較小或只對局部有較小影響時,可以采用線性時間序列方法來進行預測,當得不到滿意結果時,就需要采用非線性時間序列方法來進行預測,才能獲得滿意的預測精度[4]。
針對股票投資的高風險和股票市場管理不規范的現狀,為幫助投資者規避風險進行有效投資,進一步為股票市場管理提供有益的決策支持,本文把數據挖掘技術引入到股票分析中,基于股票數據自身的特點,提出了一種基于時間序列分析的股票走勢預測模型,如圖1所示,并在真實股票時間序列數據集上(即:2016 年5月北京利爾的股票日數據)進行了實驗驗證。
本文采用Clementine 12數據挖掘工具來構建股票走勢預測模型[5],并在北京利爾股票日數據集上進行了有效實驗。該數據集包含5個與股票交易相關的數據特征,共20條記錄,如圖2所示。
在實驗過程中,我們分別采用ARMA預測方法和指數平滑預測方法對北京利爾股票數據進行了走勢預測,圖3表示ARMA預測方法在實驗數據集上的預測結果,圖4表示指數平滑預測方法在實驗數據集上的預測結果。通過對圖3的分析,我們能夠發現:不僅預測結果的精確數據與實際數據很相近,而且預測結果走勢圖和實際股票的走勢也基本吻合。與圖3的預測結果相比較,圖4的預測結果數據與實際數據相差較大,同時,預測結果走勢圖與實際股票的走勢區別也很大。由此看來,ARMA預測方法對股票的預測效果要遠遠好于指數平滑預測方法,這也符合絕大多數時間序列股票數據具有非線性特征這一特性,這說明,與線性時間序列預測方法相比,非線性時間序列的預測方法在實際的股票市場預測中具有更好的預測效果。

圖1 基于時間序列分析的股票走勢預測模型

圖2 北京利爾的股票日數據集

圖3 ARMA方法對北京利爾股票走勢預測結果

圖4 指數平滑方法對北京利爾股票走勢預測結果
基于股票投資的高風險和股票市場管理不規范的現狀,本文從數據挖掘的角度提出了一種基于時間序列分析的股票走勢預測模型,在真實股票數據集上進行了實驗,預測效果較好,能夠在一定程度上幫助投資者規避投資風險,同時還能夠對股票市場管理提供有效的決策支持,具有一定的實用價值。
[1]陳毅恒.時間序列與金融數據分析[M].北京∶中國統計出版社,2004.
[2]章勁松.金融時間序列分析的非線性方法研究[M].安徽∶中國科技大學,2002.
[3]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:科學出版社,2009.
[4]施然.淺談數據挖掘在證券分析中的應用[J].價值工程,2011,10∶127-128.
[5]熊平.數據挖掘算法與Clementine實踐[M].北京:清華大學出版社,2011.
Information Explosion;Data Mining;Time Series Analysis;Stock Prediction
A Novel Stock Trend Prediction Model Based on Time Series Analysis
Li Feng-hua1,2,ZHAO Run-lin1
(1.Department of Computer Science and Technology,Yuncheng University,Yuncheng044000;2.University of Chinese Academy of Sciences,Beijing 100190)
In information explosion era,there are the massive stock exchange data being stored in the computer systems in stock market.However,the valuable knowledge for the investors is not obtained if there are only some traditional and manual analysis methods for stock data.It is very vital to find the potential and useful information for many investors from the massive stock data,which can instruct the investors and the stock market management decision effectively.Applies data mining technologies to stock analysis,proposes a novel stock trend prediction model based on time series analysis.Through the experiments on real stock exchange datasets,some empirical studies are shown to demonstrate the effectiveness of this model on the real stock exchange datasets.
1007-1423(2016)20-0014-04
10.3969/j.issn.1007-1423.2016.20.003
李奮華(1977-),男,山西昔陽縣人,博士,講師,研究方向為數據挖掘、社會計算和電子健康
趙潤林(1960-),男,山西運城人,本科,副教授,研究方向為計算機系統結構
2016-06-07
2016-07-05