

[摘 要]股票市場在國家經(jīng)濟發(fā)展中發(fā)揮著重要作用,對于投資者來說,其有可能獲得超額收益,也有可能遭受巨大損失。因此,如何合理地對股票未來發(fā)展作出預測,是投資者關心的問題。文章基于支持向量機、邏輯回歸及BP神經(jīng)網(wǎng)絡3種機器學習算法建立分類預測模型,對工商銀行股票下一個交易日的漲跌走勢進行分析預測,并使用時間序列ARIMA模型進行預測,綜合考慮訓練模型,分析比較時間序列模型與機器學習對工商銀行股票的預測能力。
[關鍵詞]ARIMA;支持向量機;邏輯回歸;BP神經(jīng)網(wǎng)絡;股票預測
doi:10.3969/j.issn.1673 - 0194.2023.06.048
[中圖分類號]F832.5 [文獻標識碼]A [文章編號]1673-0194(2023)06-0146-03
1" " "研究目的與對象
1.1" "研究目的
股票市場每周都有大量的交易數(shù)據(jù),因為一些合作和競爭關系的存在,股票價格在一定時間范圍內(nèi)會出現(xiàn)一些不正常的波動,這會給投資者設計投資方案增加很多難度,并且投資的預期效果可能大打折扣,甚至可能造成不利的影響。所以,在股票交易日數(shù)據(jù)中結合時間序列模型和機器學習模型的預測可以為投資者進行相關決策時提供有益參考。本文主要研究股票的數(shù)據(jù)規(guī)則,有利于投資者對股票未來的發(fā)展走勢有更多的了解。本文采用傳統(tǒng)時間序列和3種不同機器學習方法,對工商銀行2019年6月到2022年6月的部分股票進行預測分析,嘗試建立一種性能較好的預測模型,進一步分析工商銀行股票的未來走勢,從而更加準確地判斷投資決策。
1.2" "研究對象
本文分析的數(shù)據(jù)來自國泰安數(shù)據(jù)庫,以工商銀行的日行情股票數(shù)據(jù)為基礎,包含有關工商銀行股票的8個不同數(shù)據(jù)指標的信息,數(shù)據(jù)的區(qū)間選取為2019年6月17日—2022年6月17日,一共785個交易日。選取的數(shù)據(jù)指標依次為“交易日期”“股票代碼”“開盤價”“收盤價”“最高價”“最低價”“交易股數(shù)”和“交易金額”。
2" " "模型構建的基礎原理
本文首先以工商銀行的日交易數(shù)據(jù)的各指標為自變量,以價格漲跌情況為因變量,以訓練支持向量機、BP神經(jīng)網(wǎng)絡和邏輯回歸為3個機器學習方法,并單獨做時間序列ARIMA模型,以比較研究機器學習模型和傳統(tǒng)時間序列在交易日中指標預測價格漲跌的能力。
2.1" "ARIMA模型
ARIMA模型被稱為求和自回歸移動平均模型,是時間序列預測分析方法之一,是由博克思(Box)和詹金斯(Jenkins)于20世紀70年代初提出的一種著名時間序列預測方法,所以又稱為box-jenkins模型、博克思-詹金斯法。ARIMA模型是差分和ARMA兩者一起,通過差分,讓非平穩(wěn)的時間序列變成平穩(wěn)的時間序列。ARIMA(p,d,q)中,AR是自回歸、I代表差分、MA是滑動平均,p為自回歸項、d為時間序列平穩(wěn)時所做的差分次數(shù)、q為移動平均項數(shù)[1]。
ARIMA模型的優(yōu)點是模型比較簡單,只需要單變量,且可使用SPSS軟件、R軟件、Python等多種軟件運行,所以在建模中對一種軟件熟練就可以;它的缺點則是要求建模的數(shù)據(jù)是平穩(wěn)的,而幾乎大部分的數(shù)據(jù)都為非平穩(wěn)數(shù)據(jù),所以需要對數(shù)據(jù)進行差分轉換為平穩(wěn)序列[2]。由于ARIMA模型的要求是序列平穩(wěn),所以對時間序列的檢驗方法一般是先進行時序圖檢驗,依靠平穩(wěn)時間序列具有常數(shù)均值和方差的原理,如果從時序圖上看出該序列始終在一個常數(shù)值附近波動,則認為該序列很可能是平穩(wěn)的,接著看該序列的自相關圖,如果自相關系數(shù)迅速趨于0,則認為該時間序列為平穩(wěn)的。
2.2" "支持向量機
支持向量機(Support Vector Machine,SVM)模型是常見的監(jiān)督機器學習算法,不僅可以用于分類,同樣適用于預測。因為該算法是將低維線性不可分的空間轉換成高維的線性可分空間,所以一般情況下?lián)碛休^好的預測準確率,在選用機器學習預測時比較受歡迎。
支持向量機算法就是建立一個最優(yōu)決策超平面,將不同類別的樣本點劃分開,使該平面兩側距離平面最近的兩樣本之間的距離最大化,不論樣本點是非線性可分的、近似線性可分的還是線性可分的,都可以利用超平面將樣本點劃分開來,并且準確率較高[3]。
模型的核心是構建一個最佳的超平面,將不同類別的數(shù)據(jù)劃分出來,以二維數(shù)據(jù)為例,如果兩個類別的樣本點之間存在比較明顯的區(qū)分度,完全可以通過直線將其分割開,并找出分類效果最佳的一條直線。
2.3" "BP神經(jīng)網(wǎng)絡預測
BP(Back Propagation)神經(jīng)網(wǎng)絡被稱為反向傳播神經(jīng)網(wǎng)絡,和支持向量機模型一樣,也是監(jiān)督機器學習算法。它是一種按照誤差反向傳播訓練的多層前饋網(wǎng)絡,并且根據(jù)梯度下降法,使實際值逼近期望輸出值,從而讓誤差值最小[4]。所以,它是一種應用較為廣泛的神經(jīng)網(wǎng)絡模型,多用于函數(shù)逼近、模型識別分類、數(shù)據(jù)壓縮和時間序列預測等。
BP神經(jīng)網(wǎng)絡的優(yōu)點就是由很多輸入層、輸出層組成映射關系,并且這種映射關系使得該模型具有高度非線性,以及具有較強的泛化能力。同時,由這個優(yōu)點帶來的缺點就是因迭代次數(shù)過多,收斂能力下降,且容易陷入局部而使全局收斂能力較差。如果出現(xiàn)陷入局部時,可以先用遺傳算法對BP神經(jīng)網(wǎng)絡進行優(yōu)化,在解析空間找出較好的搜索空間,再用BP神經(jīng)網(wǎng)絡在較小的搜索空間內(nèi)搜索,最后求出最優(yōu)解。
2.4" "邏輯回歸模型
邏輯回歸(Logistic Regression)模型是有監(jiān)督的機器學習之一,也被稱為廣義線性回歸模型。其和支持向量機一樣,主要解決二分類問題,同時也可以用于多分類,只是二分類更為常用;它同樣既可以用于分類,也可以用于預測。由于形式簡單,和BP神經(jīng)網(wǎng)絡對比,其訓練的速度有了很大的提高,可以很快得出預測結果,且模型效果都比較不錯。
Logistic回歸實際上是使用線性回歸模型的預測值逼近分類任務真實標記的對數(shù)概率。假如直接將線性回歸模型運用于 Logistic 回歸中,會因為方程兩邊取值區(qū)間不同發(fā)生矛盾。因為 Logistic 中因變量為二分類變量,某個概率作為方程的因變量估計值取值范圍為 0~1,并且方程右邊取值范圍是無窮大或者無窮小。此外,對數(shù)概率是發(fā)生概率除以沒有發(fā)生概率,再取對數(shù),就是這個不太煩瑣的變換改變了取值區(qū)間的矛盾和因變量自變量間的曲線關系。即發(fā)生和未發(fā)生的概率成為比值,這一比值起到了緩沖的作用,將取值范圍擴大,再進行對數(shù)變換,從而改變整個因變量。并且這種變換往往使因變量和自變量之間呈線性關系。所以優(yōu)點就是可以直接對分類的概率建模,不需要實現(xiàn)假設數(shù)據(jù)分布,從而避免了假設分布不準確帶來的問題,同時預測出類別,還可以得到該類別預測的概率。缺點是由于模型形式簡單,處理非線性的數(shù)據(jù)時預測準確率會較低,所以在實際的應用中,一般僅用于處理線性數(shù)據(jù)[5]。
3" " "分析模型
3.1" "機器學習分析
運用上述機器學習方法對工商銀行股票2019年6月到2022年6月的交易數(shù)據(jù)進行漲跌趨勢預測,基于以上預測指標分析數(shù)據(jù),將數(shù)據(jù)劃分為訓練集和測試集兩部分,并對指標數(shù)據(jù)進行標準化處理,最后利用機器學習算法進行訓練和測試,獲得模型的準確率和預測結果,為后續(xù)計算預測準確率、結果分析及模型之間的對比分析做準備。3種機器學習模型結果如表1所示。
3.2" "ARIMA模型
運用ARIMA模型對股票數(shù)據(jù)做如下處理:先進行平穩(wěn)性檢驗,由于檢驗后看出模型不是很符合平穩(wěn)時間序列,所以需對其進行一階差分,差分后得出序列圖,如圖1所示;自相關圖如圖2所示。從兩個圖中可以看出數(shù)據(jù)大部分在0上下波動,所以該序列趨于平穩(wěn)。
差分后序列趨于平穩(wěn),因此進一步通過ADF檢驗對一階差分后的序列進行平穩(wěn)性檢驗。ADF檢驗原假設:存在單位根。如果序列平穩(wěn),就不存在單位根,所以只要ADF檢驗的t值小于1%水平下的臨界值,就可以拒絕原假設,即差分后序列平穩(wěn)。由檢驗結果可以知道ADF檢驗的t值是-29.181 2,小于1%水平下的臨界值-3.438 7 ,故拒絕原假設,即該序列為平穩(wěn)序列。
接下來進行白噪聲檢驗(白噪聲檢驗的原假設是隨機的,即序列是白噪聲序列,且p值大于0.05,則接受原假設),由運行出來的結果得出p值為0.449 4,因此接受原假設,也就是說,此時差分后收盤價序列是平穩(wěn)白噪聲序列。
最后進行模型定階,一階差分后平穩(wěn)可以定階為AR(1)模型,并通過拖尾和截尾來判斷MA模型。最后定階模型為ARIMA(1,1,1),并得出如表2所示的模型定階診斷。
由表2可以看出,p值除了常數(shù)項,其他均小于0.05,說明模型有效,有研究意義。
最后求取均方誤差(MSE)(量化模型的預測性能,結果接近0,說明模型擬合效果較好),其值約為0.006 196,說明預測模型ARIMA(1,1,1)有效,且模型預測準確率較高。
4" " "結束語
本文選取了銀行股票系列中綜合理財能力、發(fā)行能力、產(chǎn)品研發(fā)等位居銀行排行榜前列的工商銀行展開預測,因為工商銀行從上市后第二年開始持續(xù)分紅,所以本文選取前復權的股票收盤價來作預測。從3種機器學習的模型準確率和預測準確率結果來看,3種模型預測效果都較為良好,但都沒有達到80%的準確率,需要繼續(xù)優(yōu)化參數(shù)、改進模型,從而提高模型預測準確率。在傳統(tǒng)時間序列中,選用了ARIMA模型進行預測,可以從p值結果看出,除了常數(shù)項都是小于0.05的,所以模型具有現(xiàn)實意義。另外,用MSE來評判預測準確率,均方誤差MSE僅為0.006 196,非常趨近于0,說明模型預測準確率很高。因此,在對工商銀行股票進行預測時,建議投資者使用ARIMA模型進行預測,并結合機器學習來判斷。
主要參考文獻
[1]馮盼,曹顯兵.基于ARMA模型的股價分析與預測的實證研究[J].數(shù)學的實踐與認識,2011(22):84-90.
[2]劉松,張帥.運用ARIMA模型對股價預測的實證研究[J].經(jīng)濟研究導刊,2021(25):76-78.
[3]朱毅,張文遠.基于支持向量機的股票分析算法的研究和應用[J].電子世界,2019(13):103.
[4]秦田田.基于混合模型的模糊時間序列預測的研究[D].錦州:遼寧工業(yè)大學,2015.
[5]蓋小睿.大數(shù)據(jù)建模在保險電銷系統(tǒng)中的應用[D].上海:上海交通大學,2018.