劉 敏 侯俊華
(東華理工大學(xué) 經(jīng)濟與管理學(xué)院,江西 南昌 330000)
股票市場具有高回報、高風(fēng)險的特性,驅(qū)使著人們對股票的波動性進行探究。[1]但是,很多因素如政治事件、社會活動等都會影響股票價格的變化,預(yù)測股票走勢是一件極具挑戰(zhàn)性的工作。[2]近些年機器學(xué)習(xí)方法在股票預(yù)測方面取得了不錯的進展,相較于傳統(tǒng)方法顯示出了獨特的優(yōu)勢。[3]于卓熙基于主成分分析與廣義回歸神經(jīng)網(wǎng)絡(luò)進行股票價格預(yù)測,預(yù)測結(jié)果良好。[4]鄧烜堃利用DAE進行降維,其模型大大降低了運行時間。[5]劉恒等人將貝葉斯神經(jīng)網(wǎng)絡(luò)運用到股票時間序列預(yù)測中。[6]丹文基于GARCH模型對股票指數(shù)的擬合與預(yù)測取得了較好的預(yù)測效果。[7]通過上述研究表明,機器學(xué)習(xí)方法在預(yù)測方面具有明顯的優(yōu)勢,在股票價格預(yù)測及降維方面已有不少研究。然而,目前很少對股票成交量波動進行預(yù)測的研究。針對原油股票成交量,建立基于網(wǎng)格搜索算法(GS)優(yōu)化的差分整合移動平均自回歸(GSARIMA),以期建立一種簡單快速的股票成交量波動預(yù)測模型。
ARIMA模型由Box與Jenkins于上世紀七十年代提出,是一種知名度很高的時間序列預(yù)測方法,也可簡寫為ARIMA(p,d,q)。

其中:

采用2000年6月10號至2019年12月23號原油股票成交量的所有數(shù)據(jù)作為訓(xùn)練模型的數(shù)據(jù)集,共6000個樣本數(shù)據(jù)。選取2000年6月10號至2019年3月18號的數(shù)據(jù)作為訓(xùn)練集,另外2019年3月18號至2019年12月23號的數(shù)據(jù)作為測試集,基于網(wǎng)格搜索算法建立GS-ARIMA模型,將模型預(yù)測值與實際值對比驗證模型的準確性與可靠性。
應(yīng)用ARIMA模型對數(shù)據(jù)進行分析與預(yù)測時,要求序列是由一個平穩(wěn)隨機過程產(chǎn)生,在圖形上反映為所有的樣本點都圍繞著某一水平線上下隨機波動,因此使用ARIMA模型之前需先判定數(shù)據(jù)的平穩(wěn)性。對原油股票成交量的時間序列進行ADF檢驗,原始序列的檢驗結(jié)果如表1所示。

表1 原始數(shù)據(jù)ADF檢驗結(jié)果
通過表1中的ADF檢驗結(jié)果可得ADF值為-0.401838,明顯大于3個level臨界值,因此該時間序列顯然是一個非平穩(wěn)時間序列,必須采用差分處理才能進行下一步的建模工作。
對一階差分后的時間序列開展平穩(wěn)性檢驗,ADF檢驗結(jié)果如表2所示。經(jīng)過一階差分后,ADF值為-9.316945。其值小于3個level臨界值,可證明差分后的序列是平穩(wěn)的,并確定模型中d的值為1。同時白噪聲檢驗結(jié)果的P值為1.01e-15<0.05,拒絕原假設(shè),確定該時間序列不屬于白噪聲序列。

表2 原始序列一階差分ADF檢驗結(jié)果
基于AIC最小準則,得到最優(yōu)值為AIC(6,5),并基于BIC準則和網(wǎng)格搜索算法進行超參數(shù)優(yōu)化得出p~(0~7)、q~(0~7)下 的AR(p)、MA(q)熱 力圖,如圖3所示。通過熱力圖展示和AIC(6,5)確定出模型參數(shù)p=6,q=5。以此確定GS-ARIMA(6,1,5)為原油股票成交量預(yù)測的最佳模型。

圖1 基于BIC 準則的AR×MA熱力圖
對原油股票成交量預(yù)測之前需要進行模型診斷,診斷結(jié)果如下圖2所示,從標準化殘差序列圖(左上圖)、殘差直方圖+概率密度圖(右上圖)、殘差QQ圖(左下圖)、殘差自相關(guān)圖(右下圖)進行討論,判斷其模型信息是否提取充分。

圖2 模型診斷圖
隨著時間的推移(左上圖)的殘差沒有顯示任何明顯的季節(jié)性,初步斷定為是白噪聲,并通過右下角的自相關(guān)(即相關(guān)圖)證實,表明時間序列殘差與其本身的滯后具有低相關(guān)性。在右上圖可以看出, KDE線(殘差概率密度線)分布與正態(tài)分布N(0,1)相似,均值近似為0,只是標準差有差異,這表明殘差符合良好的正態(tài)分布。同時,左下角的QQ圖顯示,殘差的有序分布幾乎遵循采用N(0,1)的標準正態(tài)分布采樣的線性趨勢。
通過上述模型診斷分析,可采用GS-ARIMA(6,1,5)模型對原油股票成交量時間序列進行建模并預(yù)測。
運用GS-ARIMA(6,1,5)對2019年3月18號至2019年12月23號原油股票成交量進行預(yù)測,其預(yù)測結(jié)果如圖3所示。從圖3可以看出,預(yù)測值和觀測值的變化波動具有較好的一致性,說明GS-ARIMA(6,1,5)模型取得了良好的預(yù)測效果。

圖3 ARIMA模型預(yù)測值與觀測值對比圖
取最后10個預(yù)測結(jié)果與觀測值進行數(shù)據(jù)對比分析,分析結(jié)果如表3。從表3中分析結(jié)果可以看出,負值相對誤差較多說明所選預(yù)測結(jié)果比觀測值稍大。表中所列相對誤差幾乎都在2%~9%范圍內(nèi)波動,且GS-ARIMA(6,1,5)模型的決定系數(shù)R2值為0.920818,進一步表明GS-ARIMA(6,1,5)模型預(yù)測原油股票成交量具有較好的預(yù)測效果。

表3 預(yù)測值與觀測值對比分析結(jié)果
以2000至2019年原油股票成交量為例,首先分析原油股票成交量數(shù)據(jù)特征,通過差分方法得到剔除波動特性的平穩(wěn)序列,并基于網(wǎng)格搜索算法擬合出最優(yōu)模型GS-ARIMA(6,1,5)。利用該模型預(yù)測2019年3月18號至12月23號的原油股票成交量與真實觀測數(shù)據(jù)比對,相對誤差大概率在2%~9%范圍內(nèi)波動,且所訓(xùn)練的GS-ARIMA(6,1,5)模型的決定系數(shù)R2為0.920818,表明應(yīng)用GS-ARIMA(6,1,5)模型預(yù)測未來原油股票成交量具有一定的參考價值。