袁紅
摘要:股市數據具有大數據特征、應用數據挖掘模型從海量的股市數據發現其潛在規律,預測未來發展趨勢,對于降低投資者投資風險及輔助股市管理者做出有效決策具有重要意義。文章介紹幾種當今比較流行的數據挖掘模型及其在股市中的應用。
關鍵詞:股市預測;數據挖掘;綜述;輔助決策
一、引言
股市波動存在非線性,傳統的計量經濟學模型大多屬于線性模型,需要事先知道各種參數,這些參數在數據波動情況下不能自動修正,因此傳統的計量經濟學模型不能有效的擬合股市動態變化趨勢。此外,股票市場價格波動瞬息萬變,對于數據獲取的實勢性、數據模型計算的復雜度都有著苛刻的要求。數據挖掘是從大量隨機、不完全、有噪聲的數據中,提取隱含在數據中人們事先不知道、但又是潛在有用的信息和知識的過程。伴隨第三次科技浪潮,互聯網、云計算技術的發展突破了數據的實時獲取、實時計算的瓶頸。如何應用數據挖掘模型從海量的股市數據中準確、高效的挖掘出有價值的信息輔助管理決策、規避風險成為當前研究的熱點。
二、主要模型
(一)神經網絡
人工神經網絡由大量處理單元組成,其中處理單元也可以是一個神經網絡,是一種自適應信息、非線性處理系統。網絡處理單元的類型分為三類:輸入單元、輸出單元和隱單元。輸入單元接受外部世界的信號與數據,輸出單元實現系統處理結果的輸出,隱單元是處在輸入和輸出單元之間,不能由系統外部觀察的單元。神經元間的連接權值反映了單元間的連接強度,信息的表示和處理體現在網絡處理單元的連接關系中。人工神經網絡具有非線性、非局限性、非常定性、非凸性四個基本特征。根據連接的拓撲結構,神經網絡模型可以分前向網絡、反饋網絡。在股市中的應用中,BP神經網絡常被用于股票價格預測。張秀艷等基于神經網絡分別建立了基本數據模型、技術指標模型、宏觀分析模型對股票選取、價格趨勢進行了綜合評價。
(二)支持向量機
支持向量機主要原理是通過學習訓練集數據集,將數據映射到高維的特征空間X→M,然后再M中構造最優超平面,將數據空間切分為幾個部分達到分類的目的。數據分類需要選擇合適的核函數, 在股票預測中大部分是使用徑向基函數、Guass 核函數,根據實際需求也有線性核函數、多項式核、傅里葉核、樣條核、小波核函數、Sigmoid核函數可供選擇。湯培培等人選取股東獲利水平、公司盈利水平、風險狀況、成長水平以及行業特點的相關財務指標作為輸入向量,將徑向基函數作為核函數挑選出了具有投資價值的股票。湯凌冰等對比了多層感知器、廣義回歸神經網絡、支持向量機三種模型在預測股票收益率中的表現發現支持向量機表現最優。李坤等應用小波核構建支持向量機模型預測了不同類型的股票指數或大盤指數。
(三)隨機森林
隨機森林基本思想是以隨機的方式建立一個森林,森林由許多棵決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯的。在創建完森林之后,當一個新的樣本輸入森林,就讓森林中的每一棵決策樹進行一次判斷,看看這個樣本應該屬于哪一類。在股市的應用中,隨機森林首先建立分類器從而描述因子池中各因子與下期收益表現的關系,根據各股歷史下一期收益率劃分類標準,利用歷史當期因子數據對分類器進行訓練得到相關參數。再代入當期各股因子數據對各股進行分類,得到各股的信任得分。從而達到選取優秀股的目的。李齊等應用隨機森林以企業規模、盈利能力、償債能力、股東獲利能力、成長能力、營運能力等20多個因素作為決策因子選取優了秀股票,實現28%的年化收益,王領等基于決策樹判斷股票買點和賣點。
(四)關聯規則
關聯規則基本思想是找出數據集中高頻出現幾組數據,如果這幾組數據之間存在某種關系就稱其具有關聯性。關聯分析的目的是為了找出數據間隱藏的關聯網。在股市的應用中主要用于找出各股票間的聯動性,假設A 股票與B股票具有關聯性,即A出現上漲趨勢 B 股票也隨之上漲,那么通過分析股票之間漲跌的時間關系可以對股票的漲跌進行預測。這些規律在投資者進行實際決策時有著重要的參考價值和指導意義。陳艷等基于關聯規則預測了股票價格。
(五)時間序列
時間序列將已有歷史數據按時間順序排列,發現數據內在規律或模式,再根據歷史數據的內在規律進行趨勢擬合達到預測未來的目的。指數平滑預測法是時間序列中一種常用的方法,移動平均法做為該方法的基礎,根據時間點相隔區間的大小賦予該節點對應的權重,該方法根據實際數據情況可以選擇一次指數平滑 和多次指數平滑。ARMA預測方法是一種非線性時間序列預測方法,所以這種方法在股市預測應用中最為常用 ,該方法首先將非平穩的時間序列數據通過若干次差分運算變成平穩的時間序列數據,然后用合適的數學模型來近似描述該序列,當模型能夠被接受后利用該模型根據時間序列的歷史數據值和現在的值來預測未來值。時間序列數據挖掘模型在股票市場中主要用于預測股票價格走勢、最佳交易時間確定。李奮華等建立了一種基于時間序列分析的股票走勢預測模型,蔣倩儀研究了基于時間序列預測的股票交易決策建議系統,陳錦揚建立 ARIMA模型分析股票報酬率。
(六)方法評價
由于股市數據交易量、交易價格帶有明顯的時間屬性,時間序列是股市數據挖掘的最基本模型。但當前預測模型預測準確度隨時間的延續而降低,且預測模型隨時間的變化需要不斷調整以適應數據的變化,所以目前的挖掘模型生命周期較短、不具有普適性。神經網絡預測股票已經取得了不錯的成績,但也存在不少問題,模型初始值確定比較困難,對突發事件的適應性差,學習過程較慢,容易陷入局部最優狀態,參數難以控制等。在實際應用中支持向量機相對于神經網絡而言,在泛化能力、全局最優、結構容易度等方面表現更加優秀。此外,大多數挖掘模型追求良好的穩健性,偏向于識別常規漲跌模式而忽略或者平滑了股票大幅飆升異常特征。這是模型在預測準確度和模型穩健性之間做出的一種折中妥協,雖降低了投資風險但也失去了發現高收益機會。endprint
三、未來發展方向
數據挖掘在股市中的發展方向主要體現在以下三種層面,一是搭建框架將多模型統一組織形成優勢互補。機器學習模型眾多,但在股市的實際應用中,往往是某種模型只在某一具體應用場景中表現良好。這就需要將各種模型組合起來滿足實際的需求,如何搭建統一框架組織各種模型、實現模型優勢組合是當前及未來的發展方向;二是通過機器學習,自動調整模型參數以適應股市的多波動特性。由于股票波動較快,基于股票市場指標的預測模型生命周期很短,需要不斷校正模型參數、甚至更換模型,如何結合股市波動的根本成因,分析股票所具有的潛力并建立多尺度混合分析模型實現模型參數的自動修正是未來發展研究方向;三是結合網絡爬蟲自動獲取網絡情報,從網絡情報分析出投資者信心輿情、宏觀政策、企業經營狀況、行業興衰、利率變動等相關信息對股市進行綜合評價,改變信息資源不對稱,增強投資者在股市博弈中的籌碼,也是未來研究和應用的發展方向。
參考文獻:
[1]張秀艷,徐立本.基于神經網絡集成系統的股市預測模型[J].系統工程理論與實踐,2003(09).
[2]湯凌冰,盛煥燁,湯凌霄.股票收益預測模型的比較與選擇[J].湖南科技大學學報(自然科學版),2009(02).
[3]李坤,譚夢羽.基于小波支持向量機回歸的股票預測[J].統計與決策,2014(06).
[4]李齊,楊君岐.隨機森林算法在多因子選股上的應用[J].經營管理者,2017(06).
[5]王領,胡揚.基于C4.5決策樹的股票數據挖掘[J].計算機與現代化,2015(10).
[6]陳艷,褚光磊.關聯規則挖掘算法在股票預測中的應用研究——基于遺傳網絡規劃的方法[J].管理現代化,2014(03).
[7]李奮華,趙潤林.一種基于時間序列分析的股票走勢預測模型[J].現代計算機,2016(20).
[8]張楠.基于時間序列的股票趨勢預測研究及R語言應用[J].江蘇商論,2016(23).
[9]蔣倩儀.基于時間序列預測的股票交易決策建議系統[J].計算機應用與軟件,2017(04).
[10]陳錦揚.基于R軟件對股票時間序列模型分析[J].財經界:學術版,2016(05).
(作者單位:四川師范大學經濟與管理學院)endprint