劉慶怡
(首都經濟貿易大學統計學院 北京 100070)
股票作為金融市場最主要的金融工具之一,價格往往隨時間波動,股票的價格走勢直接影響著投資者的經濟利益及不同行業的經濟狀況,股民也遍布世界各地。股票價格的波動趨勢是一個國家的政治、經濟及生活狀況的綜合反映。地理位置已不再成為股票市場的障礙,在國際金融活動中,通過一天24小時買賣跨國公司股票和債券,形成了全球性證券交易市場。全球證券市場的形成和發展,促進了世界各國經濟的互聯互通和跨國公司的發展。
經濟的發展與股票市場密不可分,股市能夠更廣泛地調動和聚集社會閑散資金,為國民經濟發展服務;還可以擴大生產和建設規模,促進經濟發展。股市還有利于股份制企業籌集資金,滿足生產和建設的需要。由于對股票的投資沒有時間限制,可以用于長期使用,對股份制公司來說,不需要償還所籌集的資金,有利于企業的健康經營。股市能夠為投資者開辟投資渠道,適應投資者多元化的投資選擇。這樣靈活的方式可以滿足交易和激勵的需要,有利于更多的投資者加入并獲得良好收益。因此,對股市的精準分析可幫助國家在經濟上采取相應的宏觀調控,還能幫助投資者更好地做出決策使其獲益最大。股票價格能否被預測及如何被預測有著十分重要的研究意義。
由于股市受多方面因素,例如政治政策、國家法規、收入狀況和投資心理等的影響,導致股市的內部規律非常復雜,增大了做出準確預測的難度。國內外許多研究者也對股票價格預測做了大量的相關工作,并從各個學術領域提出了許多預測方法。從計量經濟學和統計學角度來講,在股票價格的預測應用上,采用時間序列模型是一種較為普遍的預測方法,它通過序列的統計關系來反映線性動態系統的特征和變化,從而揭示數據本身的變化規律。時間序列包含多種模型,如自回歸AR模型、移動平均MA模型、自回歸移動平均ARIMA模型、差分自回歸移動平均ARIMA模型等,從多種模型中選擇一個或幾個較為合適的模型進行股票價格預測是極大的考驗,但最終選擇的相對最優模型也具有很重要的現實意義,能夠在個人層面、公司層面提供個人利益最大化和公司發展最大化的參考,甚至在國家層面和世界層面的經濟政策提供策略幫助。
本文所使用的數據集來自kaggle網站,該數據集壓縮包共包含15個子文件數據集,為各種跨國公司的股票數據,股票價格是典型的時間序列數據。本文選取分析的是其中的Tata Consultancy Services Limitedstock即Tata咨詢服務有限公司數據集。原數據集中共有3940條數據,8個變量,最終用于時間序列建模的變量有兩個,即日期Date和收盤價Close。旨在對日收盤價數據日期為2005/1/3至2020/12/31的股票收盤價進行時間序列分析。最后對未來五日的收盤價進行估計,并與數據集中2021/1/1、2021/1/4至2021/1/7五個交易日收盤價的實際值進行比較。另外,本文將246天作為該股票一年的交易日天數。應用過程中,對原始收盤價數據取對數再進行差分,分析其對數收益率,在建立對數收益率模型的基礎上再繼續分析原始數據,從而選取相較最優模型對未來五日的股票收盤價趨勢進行預測。
ARIMA模型即差分自回歸移動平均模型,最先由Box和Jenkins提出,因此又被稱為Box-Jenkins模型,預測對象隨時間變化的數據是隨機序列,可以用數學模型進行預測和描述,通過使用合適的時間序列模型來列舉或預測尚未發生的數據,故ARIMA模型對預測時間序列發展趨勢比較有效。面對一個新的時間序列數據,其數據內部的信息是未知的。因此,先對數據進行預處理是非常有必要的,后續可能還需要進行差分處理,以確保經處理后的時間序列是平穩并且非白噪聲的,這樣才可以用于后續建模,以達到預測未來趨勢的目的。而差分就是為了實現時間序列的平穩性,通過對時間序列進行自相關檢驗和偏自相關檢驗,再建立適當的ARIMA(p,d,q)模型,其中p為自回歸的回歸項數,q為移動平均的移動平均項數,d為由非平穩時間序列轉化為平穩時間序列需要進行d次差分。面對一個不平穩的時間序列數據,在消除了序列的局部不平穩后,之后的處理與其他時間序列類似。差分后得到的平穩時間序列稱為齊次非平穩時間序列,進行一次差分稱為一階齊次非平穩時間序列,進行兩次差分稱為二階齊次非平穩時間序列,以此類推。
平穩性是時間序列分析中的重要假設,分為嚴平穩和弱平穩,嚴平穩性要求聯合分布在時間變化圖中要保持不變,該條件限制很嚴格,通常情況下,只要滿足弱平穩條件的序列就被稱為平穩時間序列。其基本思想是,決定過程特性的統計規律不隨時間改變。當序列是平穩序列時,均值為一個常數,這意味著原本包含多個隨機變量的均值序列變成了只包含一個變量的常數序列,這極大地減少了隨機變量的個數,并增加了待估變量的樣本容量。同時還簡化了時間序列分析的難度,提高了特征統計量估計的準確性。因此,在建模之前,對序列做平穩性檢驗是非常有必要的。本文通過圖檢驗法和單位根檢驗法來判斷序列是否平穩,首先繪制序列的時間序列圖和自相關圖,如圖1所示,根據時序圖顯示,該序列有增加趨勢,無周期特征,根據自相關圖顯示,在很長的延遲時期內,自相關系數一直為正并且并未很快衰減至零,由此可見原序列為非平穩序列,故需要對序列進行差分處理,使原序列通過差分實現序列平穩。首先,繪制對數收盤價進行一階差分后序列{?1nPt}的時序圖和偏自相關圖,如圖2所示,時序圖呈現平穩狀態,偏自相關圖前四階顯著偏自相關,故lags=4。其次,對對數收盤價序列進行單位根檢驗即ADF檢驗,該檢驗是為了驗證時間序列是否平穩,原假設是時間序列為非平穩。經檢驗P值=0.9,單位根原假設不能被拒絕,故序列需要進行差分處理。再對一階差分后的對數序列{ }

圖1 時序圖和自相關圖

圖2 一階差分后的時序圖和偏自相關圖
?1nPt進行單位根檢驗,先繪制時序圖和偏自相關圖,接著根據AIC準則最終選擇了階數35,ADF檢驗p值<0.01,拒絕對數收盤價一階差分序列存在單位根的原假設,則原假設經一階差分后不需要再進行差分,即原序列通過一階差分實現了序列平穩。值得注意的是,在數據建模前還需要用到白噪聲檢驗,通過鑒別殘差來評估所選模型的合理性。在本文數據集的白噪聲檢驗中,p值小于顯著性水平0.05,拒絕原假設,顯示序列值彼此之間蘊含著相關關系,至此,差分后的對數序列為平穩的非白噪聲序列,可用于下一步建模。
為時間序列數據尋找合適的模型是建模過程中最大的難題,Box和Jenkins書中推崇的多步建模策略應用得最為廣泛。該策略由三個主要步驟組成:模型識別(或稱模型辨識)、模型擬合和模型診斷,值得注意的是,這三個步驟在建模過程中可循環使用。首先,在模型識別階段,結合觀測數據的特征來選取合適的模型。在這一步驟中,可以通過觀察序列的時間序列圖用肉眼進行判斷,也可以結合生成觀測數據的背景知識,如商業、農業、生態學等方面的知識。需要指出的是,目前所選取的模型是暫定的,可在之后的分析過程中聯系實際情況進行修正。其次,模型擬合根據模型識別階段所選取的模型進行參數估計,這一步驟需要做的工作,即找到模型未知參數的最優估計值,最常采用的準則是最小二乘法則和極大似然法則,本文使用的是極大似然法則。最后是模型診斷階段,在進行了前兩個步驟后,需要對擬合的模型進行評價和判斷,即模型的質量評估問題。若經過診斷,模型無不足之處,那么數據建模過程也就到此為止。若未通過模型檢驗,可根據分析過程中的不足尋找其他可能合適的模型,再重復以上三個步驟,直至找到較優策略。
下面,本文將遵循上述多步建模策略進行數據建模,為Tata咨詢服務有限公司股票數據集找到合適的時間序列模型。
基于自相關圖、偏自相關圖和擴展的自相關圖進行模型識別,現繪制一階差分后的對數收盤價序列自相關圖和偏自相關圖,如圖3所示,自相關圖顯示延遲兩階的自相關系數在2倍標準差范圍之外,有截尾的性質,偏自相關圖顯示延遲四階的偏自相關系數在2倍標準差范圍之外,有截尾的性質。綜合ACF圖和PACF圖,擬合模型可初步定階為MA(2)模型和AR(4)模型。再根據擴展自相關eacf函數結果,還可以考慮ARMA(1,3)模型。另外,基于Akaike信息準則即AIC準則進行模型識別,根據輸出差分前序列的結果,故一階差分前對數序列識別為ARIMA(1,1,1)。

圖3 一階差分后對數序列的自相關圖和偏自相關圖
綜上所述,基于ACF圖、PACF圖、EACF圖和基于AIC準則的模型識別中,對一階差分后的對數序列{ }?1nPt最終共識別出四種模型:ARIMA(0,1,2)模型、ARIMA(4,1,0)、ARIMA(1,1,3)模型和ARIMA(1,1,1)模型。
識別出的四種模型:ARIMA(0,1,2)模型、ARIMA(4,1,0)、ARIMA(1,1,3)模型和ARIMA(1,1,1)模型,使用極大似然法分別進行參數估計。由于ARIMA(1,1,3)模型的所有參數均不顯著,故最終擬合的模型有三種,分別為:



通過參數估計的三種模型進行模型診斷,具體通過分析模型的殘差來檢驗。通常包含殘差同方差分析、殘差的正態性分析和殘差的自相關性分析。檢驗殘差的同方差性一般采用殘差圖分析法,評價正態性通常使用Q-Q圖和Shapiro-Wilk正態檢驗。為了檢驗模型中殘差項的獨立性,通常采用樣本acf圖法和Ljung-Box檢驗法,樣本acf基本都位于±2/n內,表示這三個模型的殘差沒有自相關的跡象。Ljung-Box檢驗的P值若均大于顯著性水平,代表沒有充分理由拒絕原假設,認為殘差項是不相關的。針對上述三個模型,在模型診斷中,殘差圖有兩個異常值點,均未通過殘差的正態性檢驗,均通過了殘差的自相關檢驗。針對異常值點,猜測可能是數據錄入有誤造成較大的誤差,對于未通過殘差的正態性檢驗,可以考慮采用厚尾分布(如學生t分布、廣義誤差分布等)或者有偏分布(如有偏正態分布、對數正態分布等)作為模型白噪聲的分布。
經過上述建模分析,最終選出的模型有三種,分別為ARIMA(0,1,2)模型、ARIMA(4,1,0)和ARIMA(1,1,1)模型。將模型診斷和AIC結果匯總,模型比較如表1所示,三種模型的模型診斷結果一致,基于AIC準則,ARIMA(1,1,1)模型的AIC值最小,故在本例中,相較而言,ARIMA(1,1,1)模型為相對最優擬合模型。

表1 模型比較
根據選出的最優模型ARIMA(1,1,1),對其進行未來五日的收盤價預測,預測值和95%置信區間如表2所示,預測圖像見圖4所示。另外,在原數據文件中查詢到未來五日即2021/1/1、2021/1/4—2021/1/7的真實日收盤價值,并計算其平均相對誤差為0.05211435,平均相對誤差僅為5%左右。

表2 未來五日的預測值和95%置信區間

圖4 預測圖像
本文簡要介紹了時間序列的相關理論,并對最終使用的模型即ARIMA模型進行了理論知識的詳細回顧。對美國跨國公司Tata Consultancy Services Limitedstock股票的日收盤價進行時間序列預測分析,同時實驗結果通過R軟件進行實現,對其2005—2020年的16年歷史股票數據進行了擬合,最終獲得了相對較優的ARIMA(1,1,1)模型。模型具體表達式為:

最終將此模型用于未來5個交易日的日收盤價短期預測,將預測值與真實值進行比較得出最終平均相對誤差僅為5%左右,從而表明本文所建立的ARIMA模型在進行股票價格短期預測時,效果符合預期。從結果可以得出,ARIMA模型在短期預測上具有一定的可行性,而對于長期預測或者其他突發情形,模型可能會展現出一定的局限性,從而造成較大的估計誤差。再加上股票價格本身的數據背景,影響其波動的因素十分復雜,部分因素可能難以量化,如經濟政策因素、國際經濟環境影響等。考慮到以上不足,還可以采用自回歸條件異方差模型、廣義自回歸條件異方差模型等時間序列模型,這兩種模型的綜合效果更全面,適用范圍更廣泛,從而能夠使得最終的預測模型更加貼合實際,帶來更大的參考價值。