張從巧,王星惠,郭倩倩
(安徽大學 大數據與統計學院,安徽 合肥 230601)
金融時間序列的預測一直是熱門的話題之一,尤其股票價格的預測更是得到了許多學者的關注。郭興義等[1]以美國等成熟市場的高頻數據為例,指出其具有高峰度、ARCH效應等特征,因此對其建模更具有難度。姚洪剛等[2]指出股票數據大多為高頻數據,數據中的噪聲不可忽視,并且此類金融時間序列具有非平穩、非線性等特點。由于國際形勢動蕩以及世界經濟的不穩定,黃金受到了越來越多的關注,并且隨著現代工業技術的發展,黃金在各行業均具有廣泛的應用前景。因此,對黃金價格進行預測具有一定的現實經濟意義。
金融時間序列數據以高頻為主要特征,因此對原始數據進行去噪處理,從而更好地利用去噪后的數據進行分析是有必要的。經驗模態分解(Empirical Mode Decomposition,EMD)是由Huang等[3]提出的一種針對非線性非平穩時間序列的處理方法,該方法將原始序列分解為若干個不同時間特征尺度和頻率的固有模態函數(IMF)和一個趨勢項,其中被分解出的IMF分量的頻率依次降低。EMD去噪的思想是采用某種準則將IMF分量劃分為高頻和低頻兩個組別。由于噪聲主要集中在高頻IMF中,因此EMD去噪是用原始數據減去被判定為高頻的IMF分量,從而將噪聲從原始數據中過濾掉。李合龍等[4]針對我國股市存在噪聲大的特點,對行業數據采用了改進的EMD算法進行去噪。但是EMD分解存在模態混亂、端邊效應等缺點,于是Wu等[5]通過在原始數據中多次添加白噪聲后再進行EMD分解,提出了集成經驗模態分解(Ensemble Empirical Mode Decomposition,EEMD),實驗證明EEMD方法有效地改善了模態混合現象。Mohguen等[6]將EEMD和改進的自定義閾值函數應用于心電信號去噪,文章仿真結果表明,該方法具有更小的均方誤差。但EEMD在分解重構的過程中會出現噪聲殘留的現象,基于此,Yeh等[7]提出了補充的集合經驗模態分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD),該算法是通過向數據中添加若干組正、負成對的白噪聲分別進行EMD分解,再將分解的結果進行平均從而得到最終的IMF分量。Niu等[8]利用CF-CEEMD算法降低全球導航衛星系統傳感器背景噪聲的影響,并引入了一個帶加性噪聲的非線性信號檢驗CF-CEEMD方法的降噪效果。María等[9]在EMD的基礎上提出了自適應噪聲完備集合經驗模態分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN),該方法是通過添加經過EMD分解后含白噪聲的IMF分量和計算唯一余量信號來執行的。Peng等[10]采用帶自適應噪聲的CEEMDAN算法對振動信號進行分解,并利用濾波算法的目標函數獲得最優去噪信號。Zhang等[11]在對風速進行預測時,使用CEEMDAN-SVD算法對風速數據進行降噪,最終預測結果表明,該模型能提高風速預測效果,減小預測誤差。
小波閾值去噪的原理是采用Mallat算法對原始信號進行小波變換,產生若干個含有重要信息的小波系數,然后采取某種準則選擇出一個合適的閾值,將小波系數小的噪聲信號從原始信號中過濾掉。Donoho[12]指出小波閾值去噪方法的實質是先給定固定閾值,再將小波變換得到的小波系數中小于閾值的小波系數設置為零。鐘建軍等[13]利用小波閾值去噪對汽車自動變速器臺架試驗中的汽車角加速度進行了去噪處理。Hu等[14]利用基于小波閾值去噪的LS-SVM法對船舶水動力導數進行識別,并證明該方法可以有效地獲得水動力導數。Zu等[15]結合軟、硬閾值函數的特點,提出一種新的閾值計算方法并運用于語音降噪。閾值函數的選擇會影響降噪的效果,常見的閾值函數有硬閾值函數、軟閾值函數,以及近些年發展起來的軟硬閾值折中函數。
經驗模態分解去噪是將分解得到的高頻分量從原信號中直接去除,但是在去除高頻噪聲的同時也會壓制高頻IMF分量中的有效信息。小波閾值去噪在處理低于閾值的小波系數時,雖然會壓制大部分噪聲,但會將小幅度的有效信息一并去除。隨著理論研究的不斷發展,將這兩種算法組合起來的聯合去噪方法被廣泛應用于各個領域。如杜修力等[16]提出將EMD與小波閾值聯合的去噪方法,并通過仿真實驗證明了該算法比單獨使用EMD去噪或小波閾值去噪的處理效果要好。朱莉[17]利用EEMD-小波軟閾值對股指期現貨的高頻數據進行降噪處理,再運用BEKK-GARCH模型來對降噪后的高頻數據的波動溢出效應進行研究。Yang等[18]對SVMD分解得到的IMF根據噪聲含量不同,分別使用改進的小波閾值法和SG法進行去噪,有效地抑制了船舶海洋環境噪聲輻射。Long等[19]針對以低頻波為特點的地震信號,提出了一種改進的EMD-小波閾值去噪方法。蔣沅等[20]利用EEMD對超聲水表流速信號進行分解,再使用改進的小波閾值算法進行降噪處理,結果表明基于EEMD改進的小波閾值算法對超聲水表流速信號具有較好的降噪效果。
在對金融時間序列數據的預測中,國內外學者采用ARIMA模型進行預測較多,其模型簡單,并且不需要借用額外的外生變量,但在實際預測中,大多數時間序列經過ARIMA模型擬合后仍存在條件異方差[21-23]。因此,許多學者將ARIMA模型和GARCH模型組合在一起對數據進行預測。如Yaziz等[24]利用不同分布的ARIMA-TGARCH模型對黃金價格進行預測,并將不同分布下的混合模型進行比較。Liu等[25]利用ARMA和ARMA-GARCH模型對SPI-9干旱指數進行預測,并證明了ARMA-GARCH模型在旱情預測方法上的優越性。Lin等[26]針對交通客流量的預測,提出了基于ARIMA-GARCH-M模型的短期高速交通流預測方法,該模型表現出良好的預測精度和穩定性。劉維源等[27]使用ARIMA-GARCH模型對蘇州軌道節假日的客流量進行預測,結果表明,該模型可以有效識別節假日客流特征,并具有較好的預測效果。
受以上文獻啟發,可以先對數據進行去噪,然后對去噪后的數據擬合相應的模型進行預測,從而達到提高模型預測效果的目的。因此,本研究將基于CEEMDAN-小波閾值方法的ARIMA-GARCH模型運用于預測上海黃金交易所的Au(T+D)每日收盤價數據。首先,使用CEEMDAN方法對2004年9月1日至2021年5月31日的收盤價數據進行分解,再將判定為高頻的IMF進行小波閾值去噪,從而獲得去噪后的黃金收盤價;然后對去噪后的數據利用ARIMA-GARCH模型進行預測,將預測結果與對照組模型的預測結果進行對比。研究結果表明,基于CEEMDAN-小波閾值去噪的ARIMA-GARCH混合模型的預測效果更好。
CEEMDAN是通過添加經過EMD分解后含白噪聲的IMF分量和計算唯一余量信號來執行的,該算法能在克服模態混疊問題的同時,使分解得到的IMF分量中殘留的噪聲更少。CEEMDAN算法實現步驟如下:

(1)
(2)
(2)用原始信號x(t)減去第(1)步得到的第一階模態分量IMF1(t)得到第一個余量信號r1(t),即
r1(t)=x(t)-IMF1(t)。
(3)
(3)將r1(t)和白噪聲經過EMD分解得到的第一個分量E1[vi(t)]相加,對其進行EMD分解得到第二個CEEMDAN分量IMF2(t),即
(4)
(4)重復以上兩步,得到CEEMDAN的第k個分量 ,如下:
(5)
(5)當殘差序列不能再分解時,記最終的殘差為r(t),所有模態分量與r(t)的關系如下所示:
(6)
小波閾值去噪是對原始信號進行小波變換,從而產生若干個含有重要信息的小波系數。有效信息的小波系數大于噪聲的小波系數,然后采取某種準則選擇出一個合適的閾值,過濾掉小波系數小的噪聲信號。小波閾值去噪可分為以下3步進行:
(1)分解信號過程。選擇一種小波基函數對信號進行N層小波分解,通常N取5層左右。
(2)閾值處理過程。對第(1)步分解的各層系數選擇一個合適的閾值進行閾值處理,獲得估計的小波系數。
(3)信號重構過程。把上面去噪后的信號進行小波重構,獲得去噪后的數據。
綜合CEEMDAN算法和小波閾值去噪的思想,本研究提出CEEMDAN-小波閾值聯合去噪法。具體步驟如下所示:
(1)使用CEEMDAN算法將原始數據分解成k個IMF和一個趨勢項r(t)。
(2)計算k個IMF與原始數據x(t)之間的相關系數,將第一個相關系數大于0.1的分量前k′個IMF定義為高頻分量。
(3)對上步判定為高頻分量的k′個IMF進行基于軟硬閾值折中的小波閾值去噪,得到IMF′。
(4)將低頻組IMF和經過小波閾值去噪的高頻組IMF′進行重構,得到CEEMDAN-小波閾值聯合去噪后的數據。
CEEMDAN-小波閾值聯合去噪在抑制噪聲、消除小幅度的有效信息的同時,保留了高頻IMF中有用的信息,將兩種算法的優勢進行結合,提高了去噪的效果。
ARIMA模型的殘差序列通常波動很大,且容易出現“波動聚集”現象,因此,應用中常對殘差序列進行GARCH模型擬合。GARCH(1,1)模型簡潔并可以擬合大多數金融數據的ARCH效應。因此,本文采用ARIMA(p,d,q)-GARCH(1,1)模型對存在ARCH效應的金融時間序列進行預測,其表達式如下:
均值方程:
(7)
條件方差方程:

(8)


(1)均方誤差(Mean Squared Error,MSE)。
(9)
(2)平均絕對誤差(Mean Absolute Error,MAE)。
(10)
(3)平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)。
(11)
(4)最優次數。某個模型預測的最優次數為其預測值最接近真實值的次數。在以上4個評價指標中,MSE、MAE、MAPE的3個指標的值越小,表明預測值與真實值之間的差距越小,預測效果越好;最優次數的值越大,表明預測效果越好。
研究使用上海黃金交易所2004年9月1日~2021年5月31日的Au(T+D)每日收盤價作為研究對象,數據來源于國泰安數據庫。研究將數據劃分為訓練集和測試集兩個部分,訓練集共4 030個數據,測試集共30個數據。
目前股票數據大多為高頻數據,此類金融時間序列具有非平穩非線性特點,并且存在的噪聲在一定程度上會掩蓋數據內部規律,從而增加對其預測的難度,所以在對數據進行預測之前,有必要對原始數據進行去噪處理。本節采用CEEMDAN與小波軟硬閾值折中法對黃金收盤價序列(Clsprcd)進行聯合去噪,再利用去噪后的數據使用ARIMA-GARCH進行預測,從而達到提高模型預測精度的目的,具體流程如圖1所示。同時,本節使用文獻[28]中的ARIMA-GARCH模型對黃金收盤價序列進行預測,將其結果與去噪后的預測結果進行對比,從而衡量去噪對預測結果產生的影響。

圖1 數據去噪后預測流程圖
首先,采用CEEMDAN分解方法對Clsprcd序列進行分解,得到IMF時序圖如圖2所示。由圖2可知,分解結果為8個固有模態函數IMFi(i=1,2,…,8)和一個趨勢項,即原始非線性非平穩的黃金收盤價序列被分解為9個相對平穩的子序列。并且分解得到的8個IMF分量和趨勢項的頻率依次降低,其中IMF1分量波動幅度最為劇烈并且其蘊含的噪聲最多。從圖2中可以看出,IMF1有很多趨于時間軸的小幅度高頻波動,之后各個分量的震動頻率越來越小,曲線也逐漸趨于平緩,最后的趨勢項已可近似為一條隨時間上升的曲線。

表1 IMF與Clsprcd相關系數
高頻IMF中所含的噪聲多于低頻分量,其可利用的有效信息也遠遠少于低頻分量。因此可以采用某種準則對IMF劃分為高頻和低頻兩個組別,然后再對含噪聲多的高頻IMF使用小波閾值算法進行降噪處理。本文是通過計算CEEMDAN分解得到的IMF和趨勢項與Clsprcd序列之間的相關系數進行分組,如果相關系數大于0.1,則判定此IMF為低頻分量,反之為高頻分量。然后對高頻IMF進行小波閾值去噪。IMF與Clsprcd之間的相關系數如表1所示。從表1中可知,IMF1~IMF6的相關系數小于0.1,即為含噪聲多的高頻分量,而IMF7和IMF8這兩個則為低頻分量,因此,本研究選取前6個IMF分量進行進一步的降噪處理。

圖2 IMF時序圖
影響小波閾值降噪的兩個重要因素是小波基的選擇和閾值函數的選擇,因此在對數據進行小波閾值去噪時需要選擇合適的小波基,小波基不同,分解的效果也不同。本研究選取具有較好對稱性的sym8小波基函數對黃金收盤價進行5層小波分解,其可以在一定程度上降低數據重構時帶來的誤差。對小波系數進行非線性閾值處理時,常見的閾值函數有硬閾值函數以及軟閾值函數。硬閾值法處理時注重局部信息的保留,但是有附加震蕩因而會導致局部失真;軟閾值法處理時使重構信號更加光滑但是誤差相對較大。軟、硬閾值方法在實際中得到了廣泛的應用,但存在的缺點也不容忽視,為了克服這兩個方法存在的問題,本研究使用結合軟、硬閾值方法的軟硬閾值折中方法,對IMF1~IMF6分別進行小波閾值降噪。


圖3 IMF1小波閾值去噪前后對比圖
對去噪后的黃金價格X(t)進行建模預測,結果如圖4所示。從圖4a中可以看出,收盤價序列隨時間的變化有明顯的上升趨勢,不滿足ARMA模型建模所需的平穩性條件。因此對數據進行一階差分處理以消除其單位根,記為diff_X(t)。從圖4b可以看出,一階差分后的數據在0附近上下波動,并且沒有明顯的單調性和周期性。

圖4 去噪后黃金價格序列及一階差分后時間序列趨勢圖
使用R軟件中的auto.arima()函數確定ARIMA模型的參數,最終確定為ARIMA(2,1,5)模型。對均值方程繪制時序圖發現“波動聚集”現象減輕,但ARCH檢驗還是存在條件異方差性,因此有必要利用ARIMA-GARCH模型對去噪后的收盤價X(t)進行預測。利用ARIMA(2,1,5)和ARIMA(2,1,5)-GARCH(1,1)模型對檢測集數據進行預測,結果如表2所示。采用ARIMA(2,1,5)和ARIMA(2,1,5)-GARCH(1,1)模型預測的均方誤差分別為1.981、1.796,表明在存在ARCH效應的條件下采用ARIMA-GARCH模型聯合預測要好于單個模型預測。
相較于使用文獻[28]中的ARIMA-GARCH模型對黃金價格進行預測,使用CEEMDAN-小波閾值去噪的ARIMA-GARCH模型的預測結果在MSE、MAE、MAPE和最優率4個指標上具有更好的表現。同時,模型評價指標如表3所示。由表3可知,CEEMDAN-小波閾值去噪的ARIMA-GARCH模型在預測黃金收盤價上明顯優于其他模型。
從誤差評價指標來看,預測效果最好的為CEEMDAN-小波閾值聯合去噪的ARIMA-GARCH模型,聯合去噪在對收盤價序列去噪的同時并未損失數據中的有效信息,并且ARIMA-GARCH模型考慮了金融時間序列的異方差性,提高了模型的預測精度。預測效果最差的是使用CEEMDAN去噪的ARIMA-GARCH模型,原因是簡單使用CEEMDAN進行去噪,會將判定為噪聲主導的高頻分量中蘊含的有效信息去除,導致數據過度去噪,從而該模型的預測誤差最大,預測效果最差。從最優次數指標來看,除了CEEMDAN去噪,去噪數據的預測結果最優次數明顯好于未去噪的。

表2 ARIMA(2,1,5)和ARIMA(2,1,5)-GARCH(1,1)預測結果(去噪后Clsprcd)

表3 模型評價指標

圖5 模型預測效果對比圖
由于CEEMDAN去噪效果不理想,為了更好地看出各模型的預測效果,聯合去噪的ARIMA-GARCH的預測結果與其他對照組的模型預測結果如圖5所示。由圖5可以看出,研究所采取的CEEMDAN-小波閾值聯合去噪的ARIMA-GARCH的預測結果相對平穩,在30期的預測上沒有出現很大的相對誤差,該模型的預測結果與真實值更為接近。而僅使用ARIMA-GARCH模型的預測結果,雖然預測出原始序列的大致趨勢,但在某些時間點上丟失了部分信息,導致出現較大波動。
在世界經濟不穩定,國際形勢動蕩的情形下,黃金作為一種具有價值存儲功能的交換媒介在國際交易中被廣泛使用,因此對其進行預測有一定的經濟意義。但是作為一種金融時間序列,其含有的噪聲不容忽視,如果不對原始數據進行處理而直接預測,可能會出現預測誤差大,預測結果與真實值存在一定偏差的現象,因此有必要對數據進行一定的去噪處理。
CEEMDAN去噪會在抑制噪聲的同時將高頻分量中的有用信息一并去除,而如果簡單的使用小波閾值去噪也會損失小幅度的有用信息。本研究將這兩種去噪方法結合起來,并同時考慮到小波閾值去噪中軟、硬閾值去噪的缺點,提出了CEEMDAN結合軟硬閾值折中法的小波閾值去噪的方法對黃金收盤價序列進行去噪。此外,研究在考慮黃金收盤價序列中存在噪聲的同時,考慮到作為一種時間序列數據會存在異方差的現象。因此在對去噪后數據擬合ARIMA模型的基礎上,使用GARCH(1,1)模型擬合殘差序列,從而提高模型的預測精度。
通過測試集30期的收盤價的預測結果來看,本研究所提出的基于聯合去噪的ARIMA-GARCH模型不僅將軟硬閾值折中的小波閾值去噪法與CEEMDAN去噪結合在一起,還考慮到了金融時間序列的異方差性,其預測效果較僅使用ARIMA-GARCH模型的預測更為突出,且具有最小的預測誤差,最優次數最高。因此,利用此模型來預測黃金收盤價是有效的,可為投資者提供一定的決策意見。