李 銀,伍曉晴
(韶關學院 數學與統計學院,廣東 韶關 512005)
隨著人們的收入水平提高,越來越多的人將剩余資金用來投資某些金融產品,比如股票、基金等. 在金融市場背景下,有投資就避免不了風險,股票收盤價會受到各種各樣因素的影響,比如,國家的政策、國家的經濟情況以及股市的規章制度等. 股票的波動對于廣大股票持有者來說非常重要,研究股票的走勢非常重要,這會使投資者做出不同的舉措來研究與預測[1-2]. 在實現建軍100年奮斗目標的背景下,我國需要強大的現代化國防力量,軍工投入會不斷增加. 與此同時,一些國企有關改革政策的設立和實施,推動了我國軍工板塊股票熱度不斷提升. 因此未來幾年內,軍工板塊將會迎來高速、持續、穩定的發展機遇,研究軍工板塊股票的波動性具有重要的研究意義.
岳朝龍對上海股市收益率進行分析,發現上海股票收益率不僅具有條件異方差,而且具有杠桿效應,因此適合建立GARCH(廣義自回歸條件異方差)類模型[3]. 蕭楠研究發現上海銅期貨市場的收益率服從ARMA-GARCH(自回歸滑動平均-廣義自回歸條件)模型,進一步建立TARCH(門限自回歸條件異方差)模型和EGARCH(指數條件異方差)模型對收益率的杠桿效應進行檢驗,發現其并不存在顯著的杠桿效應[4]. 張東旭研究上證綜合指數收盤價格在不同分布下的ARMA-GARCH 族模型,找到了參數最優、擬合效果最好的模型[5]. 丁文絹對上證A 股50 建立ARIMA 模型和LSTM 模型進行對比,發現通過使用多種深度學習的方法對時間序列同樣具有較好的預測精度[6]. 時間序列不僅可以應用于對股票的預測,還可以應用于對其他一些時間序列的變化,例如蘭華等比較ARMA 模型和馬爾可夫鏈模型兩個模型對光伏電站出力進行預測,進行分析,最后得出時間序列模型ARMA 模型對于預測光伏電站出力預測的精度比傳統的馬爾可夫鏈模型的要高[7]. 譚滿春等先利用時間序列模型預測交通流的線性部分,再利用人工神經網絡預測交通流的非線性部分,兩種模型的結合有很好的預測效果[8].
投資者進行投資時會根據目標產品的投資金額進行調整,以便以最低風險獲得最大收益,減少虧損.同時,收益率的預測在單只股票以及資產投資組合中風險的計算起到重要的作用. 因此研究股票時間序列的走勢并挖掘其中的特征以及對股票收益率進行預測是不可或缺的. 本文擬對我國股票中證軍工板塊指數的日收盤價,通過分析主要統計特征,并通過多種檢驗,建立能預測該板塊收盤價波動性的ARIMA 模型,以期對投資者進行下一步決策提供幫助.
ARIMA(p,d,q)模型是一種自回歸整合移動平均模型,是在20 世紀70年代被提出,也被稱作Box-Jenkins 模型,專門用于非平穩時間序列分析和預測的方法[9-11].
參數d是差分階數,表示將非平穩的時間序列轉換為平穩的時間序列時所作差分的次數.
p階自回歸模型(AR 模型)中,要使用時間序列中以前的值,來預測當前值,如當p為3 時,表示使用時間序列中過去3 個時段的值,來預測當前值. 可以表示為,其中Yt表示第t時的觀測值,ε表示常數,φi表示自回歸參數,Yt-i表示Yt的滯后序列,εt表示隨機誤差項.
q階滑動平均模型(MA 模型)中,參數q表示移動平均數的階數,如當q為3 時,則在預測序列的當前值時,要考慮上3 個時段的平均值的偏差. 表示為,其中bi表示公式的相關系數.
ARIMA 模型是由自回歸模型(AR)與滑動平均模型(MA 模型)結合而成,可以表示為Yt=ε+,其中Yt表示第t時的觀測值,ε表示常數,φi表示自回歸參數,Yt-i表示Yt的滯后序列,bi表示公式的相關系數,εt表示隨機誤差項.
如表1 及圖1,模型中的3 個參數確定可以使用的方法有自相關(ACF)和偏自相關(PACF)函數定階法和赤池信息(AIC)準則,先做出平穩的時間序列的自相關圖和偏自相關圖,如果自相關圖表現出拖尾,且偏自相關圖表現出p階截尾,那么就選擇AR(p)模型;如果自相關圖表現出q階截尾,而偏自相關系數表現出拖尾,則選擇MA(q)模型;如果自相關圖和偏自相關系數均表現出拖尾,則選擇ARIMA(p,d,q)模型. 通常情況下,當只用自相關圖和偏自相關圖難以確定階數時,再結合AIC 準則來確定模型的階數. 選擇AIC(p,q)最小的時候,此時的p,q為最佳的模型階數.

圖1 模型建立流程圖

表1 定階方法
由于股票中證軍工板塊指數可以代表軍工板塊的整體情況,利用Python 爬取中證軍工板塊指數(399967)2014年4月4日至2022年12月31日的日收盤價數據作為樣本數據,一共為2 020 個. 因為股票的時間序列的走勢波動較大,對于大多數時間序列與經濟與金融相關的數據都屬于非平穩的,時間序列原始數據中可能會包含趨勢部分、循環或周期部分以及季節變動部分,需要將不平穩序列變為平穩序列. 利用R 語言畫出中證軍工板塊收盤價的時間序列圖,如圖2. 可以看出中證軍工板塊指數的時序圖具有明顯的走勢,則可以初步判斷中證軍工板塊指數是非平穩序列.

圖2 中證軍工板塊指數的時序圖
利用R 語言繪制出中證軍工板塊指數的自相關圖和偏自相關圖,如圖3、圖4 所示.

圖3 中證軍工板塊指數的ACF 圖

圖4 中證軍工板塊指數的PACF 圖
因為中證軍工板塊指數的自相關函數是慢慢遞減,而平穩序列的自相關系數的特點是迅速趨于0,所以該指數具有非平穩性,不能直接建立ARIMA 模型,要先對中證軍工板塊指數序列做處理,變為平穩的序列,這樣才可以用ARIMA(p,d,q)去描述.
因為股票收盤價偏大,為了消除原始時間序列的非平穩性,需要對此取對數,取對數能減少共線性和異方差性出現的概率,然后再做1 階差分處理,處理后的時序圖如圖5,可以看出作1 階對數差分后的中證軍工板塊指數的收益序列在-0.10 和0.10之間,以0 為基準線上下隨機波動,無特別明顯的走勢和對數差分序列自相關圖中是迅速變為0 的,可初步判斷該序列為平穩序列.

圖5 1 階對數差分后的中證軍工板塊指數時序圖
根據以上分析,中證軍工板塊收盤價的原始時間序列數據經過1 階差分處理后得到平穩的時間序列,因此識別選用ARIMA(p,d,q)模型. 因此可以確立模型中的參數d為1 . 接下來需要確立模型中另外2 個參數. 作出AR(p)、MA(q)對數差分的時間序列的自相關圖與偏自相關圖,見圖6 及圖7,經觀察可初步估計p、q的值. 可知,ACF 圖在Lag=2 時開始逐步趨近于0,而PACF 圖是截尾的,因此模型AR 的階數p可以判定為1,2,3,模型MA 的q則為0.

圖6 中證軍工板塊指數1 階對數差分ACF 圖

圖7 中證軍工板塊指數1 階對數差分PACF 圖
從理論上對中證軍工板塊指數和1 階對數差分序列進行ADF(單位根檢驗)的平穩性檢驗,單位根檢驗是檢驗序列是否平穩的主要方法. 本文利用軟件EViews 8.0 對序列進行平穩性檢驗,檢驗結果如表2.

表2 ADF 檢驗結果
如表2 所示,在1%的顯著性水平下,原序列P值為0.059 6>0.05,為非平穩序列. 進一步檢驗中證軍工板塊指數對數差分后的序列是否通過平穩性檢驗,對數差分后的序列P值<0.05,日對數收益率序列通過了檢驗,對原假設表示拒絕,即對數差分后的序列已經是平穩序列,至此,完成了原始數據的平穩性處理. 因此可以確定序列是1 階單整序列,則ARIMA(p,d,q)模型中d=1.
利用EViews 分別建立3 個模型AR(3)、AR(2)和AR(1),同時比較3 個模型的赤池信息,如表3 所示. 由表3 可知,AR(2)模型的AIC 值是-4.826 700,是最小的,因此建立ARIMA(2,1,0)模型對應的表達式為:lnat=1.078 206×lnat-1-0.083 336×lnat-2+9.262 814.

表3 3 個模型的信息
對建立的模型進行擬合優度和顯著性檢驗,發現模型的預測收益率與實際的收益率幾乎重合,ARIMA(2,1,0)的判定系數R2為0.992 254,擬合優度很好.
還需要對1 階滯后進行殘差序列相關性檢驗,由于1 階對應的LM 檢驗統計量Obs*R-squared 的P值為0.910 2,表示在5%的顯著性水平下,接受原假設,說明建立的ARIMA(2,1,0)的殘差無自相關性,即沒有遺落變量,所以滯后階數選取是合理的.
模型的參數已經估計后,對已經建立的ARIMA(2,1,0)模型的隨機殘差序列進行白噪聲檢驗. 結果表明P值都大于0.05,表明全部的Q值小于檢驗水平為0.05 的卡方臨界值,拒絕原假設,隨機誤差項是一個白噪聲序列,異方差效應不顯著,也就是說建立的模型的殘差序列中幾乎沒有包含有用信息,則不需要繼續對殘差建立GARCH 模型,該模型的建立是合理的.
由于建立的時間序列模型擬合精度很高,則本文利用上述已經建立的ARIMA(2,1,0)模型對股票序列對未來3 天中證軍工板塊指數收盤價進行預測,在R 中調用forecast 函數,預測2023年1月3日至2023年1月5日3 天的收盤價. 預測的結果如表4,結果表明,建立的ARIMA(2,1,0)模型較為準確,對該只股票日收盤價的預測有很好的現實意義. 代碼如下:

表4 預測的收盤價以及相對誤差
筆者對我國股票中證軍工板塊指數的日收盤價格中所獲取的數據進行處理,依次經過平穩性檢驗、參數確定、模型建立、異方差檢驗,再利用ARIMA 模型對中證軍工板塊指數的日收盤價建立模型,并預測未來3 天的收盤價,對金融市場中的股票的基本特征有了更進一步的了解. 研究發現,時間序列模型能很好地解決了一些非平穩股票時間序列的模型建立的問題,且模型非常簡單,容易操作,所涉及的只有內生變量股票的收盤價,結合Eviews 和R 語言可以將時間序列模型應用到其他金融時間序列,尤其在金融和股票領域有重要的理論意義,預測值的準確性對投資者和決策者起著非常重要的作用.
但是由于股票的時間序列價格變動較大,因此該類模型適合短期預測,對于長期預測的結果會與真實值有較大的誤差[9-11]. 因此還有待進一步的研究.