孫德山, 王 玥
(遼寧師范大學 數學學院,遼寧 大連 116029)
基于多種統計分類方法的股票趨勢預測
孫德山, 王 玥
(遼寧師范大學 數學學院,遼寧 大連 116029)
股票市場是宏觀經濟的重要體現,也是國民經濟發展的重要體現.隨著股票市場的深入研究,統計方法逐漸用于分析股票數據.選用Fisher判別法、決策樹、隨機森林、支持向量機4種統計方法,選取粵高速B、貴州茅臺、農業銀行3只股票的數據,先進行LLE降維,然后進行實驗.Fisher判別法和支持向量機具有較好的預測精度,可以較好地判斷一定時期內的股票趨勢方向,對短期投資有一定的指導作用.
Fisher判別法;隨機森林;決策樹;支持向量機
21世紀開始,中國股票市場制度建設越來越法制化、規范化,隨著國內宏觀經濟矛盾的轉移,人們對股票市場有了更深的認識.股權分置改革的基本完成,各支大盤股的順利發行,使得股票市場對國民經濟的發展產生重要影響.
但是,中國股票市場目前尚處于發展的初級階段,股票市場仍存在諸多問題,從而限制了股票市場的進一步健康發展.比如股市的波動性較大、運行機制和市場結構不完善、機構投資者操縱市場、理性投資者比重較低、信息不真實等.以上問題都會影響股票市場的動態結構,對股票的價格走勢產生重要的影響.
對企業和投資者來說,判斷股票的未來走勢是其投資是否成功的關鍵,對股票數據的有效分析有利于降低投資的風險.統計方法在經濟、金融數據分析中發揮越來越重要的作用,研究方法也逐漸增加.本文利用多種統計方法對股票數據的運行趨勢進行比較研究,為投資者提供一些參考.
2000年以后,中國股票市場開始飛速發展和加速擴容[1],此時對中國股票市場的研究層出不窮,也越來越深入.多種統計方法被用于分析股票市場,文獻[2]使用了數據挖掘算法對股票數據進行分析預測;文獻[3]運用了聚類分析和支持向量機2種方法進行研究;陳陽[4]運用神經網絡和灰色拓撲預測方法建立了股票預測模型,可以在無法獲得全部或較多的信息時,較為準確地預測和把握信息.
本文根據幾種統計方法的特點,選用了Fisher判別法、隨機森林、決策樹和支持向量機4種統計方法,對3只股票的數據進行分析預測比較.比較不同方法帶來的結果,并分析不同方法對股票預測的不同結論.
Fisher判別準則是對樣本數據做投影,即將原來在n維空間的自變量投影到1維空間,使樣本間的投影類間離散度達到最大,而類內離散度達到最小.這里借用了一元方差分析的思想,即根據組間均方差與組內均方差之比最大的原則進行判別.
決策樹產生于20世紀60年代,最早也稱為分類樹,是用于分類的一種有監督的學習系統[5].70年代末,建立決策樹的ID3算法被提出,該算法通過引進信息論的思想,提出用信息增益作為特征選擇的度量,來選擇相關屬性作為決策樹的節點.隨著研究的深入,ID4、CART等算法也被提出,新算法對缺失值的處理、剪枝等技術都做了較大的改進.
ID3算法在樹的每個結點以信息增益來判斷選擇測試屬性.選擇具有最高信息增益(或最大熵壓縮)的屬性作為當前結點的測試屬性.


其中,pi是樣本屬于ωi的概率,用Ni/N來估計.
隨機森林是由樹型分類器{h(x,βk),k=1,2,…}的集合構成的組合分類器,是一種基于信息論和統計抽樣理論的分類器,可以用于數據的分類.基分類器h(x,βk)是用決策樹生成算法構建的分類決策樹,其中,x是輸入向量,βk是獨立同分布的隨機變量序列,決定了單棵樹(基分類器)的生長過程.其步驟如下:
①隨機選取樣本集,并隨機選取一部分作為訓練樣本.
②隨機森林構建.針對每一個訓練樣本集分別建立一棵決策樹,從而生成森林.
③輸出結果一般采用簡單多數投票法確定.
支持向量機是20世紀90年代發展起來的一種分類方法,該方法采用最優化方法解決了數據學習的問題,在較短的時間里就得到了廣泛的應用.支持向量機是一種特殊的學習算法,其特點是核函數的使用和解的稀疏性[6-7].
考慮到兩類可分訓練樣本的向量集,給定一個樣本集G={(xi,yi),i=1,2,…,N},確定一個超平面wTφ(x)+b=0,其中,xi∈Rn是第i個輸入向量,yi∈{-1,1},yi的2種取值分別代表著樣本的2種類別.
原始的SVM分類器滿足下列條件:
wTφ(xi)+b≥1,yi=1,
wTφ(xi)+b≤-1,yi=-1.
或者等價的表示方法:
yi[wTφ(xi)+b]≥1,i=1,2,…,N.
映射φ:Rn→Rm能夠把輸入的低維空間轉化為高維特征空間,在低維空間中的數據點變為在高維空間中線性可分的數據點.
股票選擇的重要方式是觀察股票指標的變化,股票指標也是衡量股票價值的重要因素.股票的指標分為3類:第一類擺動類指標,如收盤價、KDJ(隨機指標)、RSI(相對強弱指數);第二類趨勢類指標,如MACD(平滑移動平均線)、OSC(擺動指數);第三類能量類指標OBV(能量潮)、VOL(成交量).各類的指標反映了股票的不同特點,第一類指標反映了價格走向,第二類指標是行情買賣之依據,第三類指標則反映了股票的成交數量.從各類的指標各取一些,可以更好地預測股票,本文選取了收盤價、MA、VOL、MACD、CCI 5個指標來分析.
(1)收盤價
收盤價是指某種證券在1 d的交易結束前所交易的最后一筆成交價格.
(2)MA
移動平均線,將股票的某一段時期的收盤價之和除以該周期.按時間的長短分類,移動平均線可以分為長期、中期、短期3種.移動平均線可以反映出價格走勢.
(3)VOL
股市中的VOL是成交量指標,是某種股票在當天成交數量的總和.當天收盤價高于當天均價,成交柱呈紅色;反之,成交柱呈綠色.
(4)MACD
指數平滑移動平均線,通過對數型平滑移動平均線EMA的離差狀況作為判斷行情的基礎,通過乖離曲線(DIF)以及DIF值的指數型平滑移動平均線(DEA)這2條曲線走向之異同、乖離的描繪和計算,進而判斷市勢的一種技術方法.
(5)CCI
CCI指標即順勢指標,是指導股票和商品期貨投資的一種中短期指標.順勢指標的計算方法是先計算某段時間平均參考價與某段時間的平均值之間的距離,然后再計算該距離的某段時間的平均值.強調股市平均絕對偏差在股市技術分析中的重要性.
隨機選取了近期的3只股票的100個數據,分別為粵高速B,選取數據時間段為2017-01-09到2017-06-09;貴州茅臺,選取時間段為2016-12-24到2017-05-31;農業銀行,選取時間段為2016-03-04到2016-07-27.數據收盤價圖像如圖1~圖3所示,其中,貴州茅臺和農業銀行2只股票為大盤股.貴州茅臺股票呈大部分上升趨勢,農業銀行股票呈波浪形波動趨勢,粵高速B為近期發行的新股.然后選取了股票的5個經典指標(收盤價,移動平均線,成交量,平滑移動平均線,順勢指標),利用5個經典指標對選取的數據進行分析.

圖1 粵高速B收盤價Fig.1 Closing price of Guangdong Expressway B Stock

圖2 貴州茅臺收盤價Fig.2 Closing price of Kweichow Moutai Stock

圖3 農業銀行收盤價Fig.3 Closing price of Agricultural Bank Stock
實驗采用R語言程序,為了使結果更加準確,這里采用了LLE降維[8],將5維數據降維到3維再進行實驗.局部線性嵌入(簡稱LLE)試圖保持領域內樣本之間的線性關系.假定樣本點xi的坐標能通過它的領域樣本xj,xk,xl的坐標通過線性組合而重構出來,即
xi=wijxj+wikxk+wilxl.
算法的主要步驟分為3步:
(1)尋找每個樣本點的k個近鄰點(k是一個預先給定的值);
(2)由每個樣本點的近鄰點計算出該樣本點的局部重建權值矩陣,定義誤差函數

(3)由該樣本點的局部重建權值矩陣和其近鄰點計算出該樣本點的輸出值.
首先,將上述3個不同股票隨機選取的100個數據另建一列表示漲跌情況,用“0”表示跌,用“1”表示漲.然后將原始的5組數據進行降維,經實驗表明,降到3維的數據的實驗效果最好.將數據分為2組,每組為50個.第一組數據作為訓練樣本,第二組數據作為測試樣本.將訓練樣本數據做分析,用所得出的結論預測測試樣本,并表示出預測的漲跌情況.最后和原始數據的漲跌情況對比,并判斷其準確率,其結果如表1所示.

表1 測試樣本實驗結果
根據分析的結果,可以推測在一段時間內的股票動向,在將數據進行有效降維后, Fisher判別法和支持向量機分類法具有較高的分類精度.在短期預測中有一定的實用性,對股票市場的動向預測具有一定意義.但是對于長期投資來說,要綜合考慮各方面因素,以便實現更好的投資決策.
[1] 陶立,宋士云.改革開放以后中國股票市場發展史略[J].聊城大學學報(社會科學版),2003(5):42-49.
[2] 馮現坤.數據挖掘技術在股票分析預測中的應用研究[D].桂林:桂林理工大學,2012.
[3] 狄明明,孫德山.聚類分析和支持向量機在股票研究中的應用[J].計算機技術與發展,2009,19(6):229-231.
[4] 陳陽.股票預測模型研究[D].哈爾濱:哈爾濱工程大學,2007.
[5] 華勇,張云龍.決策樹算法在信息資產識別中的應用[C]∥2011年全國電子信息技術與應用學術會議論文集,2011.
[6] 王煒,郭小明.關于核函數的選取方法[J].遼寧師范大學學報(自然科學版),2008,31(1):1-4.
[7] HUANG Wei,NAKAMORI Yoshiteru,WANG Shouyang.Forecasting stock market movement direction with support vector machine[J].Computers& Operations Research,2005(32):2513-2522.
[8] 楊志偉,黃秀云.基于LLE的數據降維方法研究[J].中小企業管理與科技:上旬版,2014(9):197-200.
Stockmovementforecastingbasedonmultiplestatisticalclassificationmethods
SUNDeshan,WANGYue
(School of Mathematics, Liaoning Normal University, Dalian 116029, China)
The stock market is an important embodiment of macro economy, and it also reflects how the national economy develops.With the in-depth research of stock market, statistical methods are gradually used to select and analyze the stock data.This paper uses four statistical methods, namely, Fisher’s linear discriminant, decision tree, random forest,and support vector machine.Besides, this paper chooses the statistics of three stocks, which are Guangdong Expressway B Stock, Kweichow Moutai Stock, Agricultural Bank Stock.It first carries out LLE dimension reduction and then make experiments.Fisher’s linear discriminant and support vector machine have relatively good prediction accuracy.They can determine the stock trend direction in a certain period accurately and have some guidance on short-time investment.
Fisher’s linear discriminant;decision tree;random forest;support vector machine
O212.4
A
2017-07-30
遼寧省自然科學基金資助項目(201602461)
孫德山(1970- ),男,遼寧沈陽人,遼寧師范大學副教授,博士.
1000-1735(2017)04-0440-05
10.11679/lsxblk2017040440