(上海理工大學(xué) 管理學(xué)院,上海 200093)
金融市場中波動率的估計與預(yù)測問題一直以來都是金融計量領(lǐng)域的研究熱點(diǎn)。自從已實現(xiàn)波動率(Realized Volatility,RV)概念被提出后,Andersen 等[1]首次提出使用高頻數(shù)據(jù)作為一種全新的波動率度量方法。同時,許多金融學(xué)者在研究中發(fā)現(xiàn),相較于傳統(tǒng)以日、周、月、年等為采集頻率的低頻數(shù)據(jù),高頻數(shù)據(jù)能夠持續(xù)反映股票市場的信息,并且在頻率達(dá)到一定水平后,甚至能夠反映連續(xù)的信息。因此,高頻數(shù)據(jù)在降低信息丟失率的同時,能更有效地反映股票市場中股指價格波動的內(nèi)在規(guī)律。但由于受到技術(shù)水平的限制,對于高頻數(shù)據(jù)的收集十分困難,大多數(shù)學(xué)者仍使用低頻數(shù)據(jù)進(jìn)行研究。
近年來,隨著科技和互聯(lián)網(wǎng)的迅猛發(fā)展,有效降低了高頻數(shù)據(jù)的記錄與儲存成本。因此,基于高頻數(shù)據(jù)波動率的測量再次在學(xué)術(shù)界引起了廣泛關(guān)注。隨著已實現(xiàn)波動率理論的逐漸完善,研究者們發(fā)現(xiàn)已實現(xiàn)波動率具有尖峰厚尾,且右偏的特征,并且存在長記憶性,表明有效市場假說是失效的。為進(jìn)一步解釋已實現(xiàn)波動率的長記憶性,Andersen 等[2]首先提出了ARFIMA-RV 模型;Corsi[3]通過進(jìn)一步研究簡化了模型估計的復(fù)雜度,提出HAR-RV 模型;Mastro[4]分別用ARCH 族模型和HAR-RV 模型對SPX、UKX、DAX、NKY 全球4 個主要的股票指數(shù)預(yù)測波動率及實際波動率進(jìn)行樣本內(nèi)與樣本外的比較,發(fā)現(xiàn)HARRV 模型優(yōu)于ARCH 族模型;Ma 等[5]比較分析了多重分形波動率模型和HAR-RV 模型的預(yù)測效果,發(fā)現(xiàn)HAR-RV模型具有更高的預(yù)測精度。由于HAR-RV 模型具有較強(qiáng)的可拓展性和明確的經(jīng)濟(jì)含義,因而逐漸成為了預(yù)測已實現(xiàn)波動率的基準(zhǔn)模型。
然而,數(shù)據(jù)中的噪音也會隨著采樣頻率的提高而增加,從而使高頻金融數(shù)據(jù)的有效性大幅降低。因此,許多學(xué)者開始考慮從數(shù)據(jù)降噪的角度提升高頻金融數(shù)據(jù)的有效性。如蘭秋軍等[6]比較分析了傳統(tǒng)濾波方法在金融數(shù)據(jù)降噪過程中的缺陷,提出了小波分析(WA)方法對金融數(shù)據(jù)進(jìn)行降噪;高靜等[7]通過使用小波分析對上證指數(shù)10 分鐘收盤價數(shù)據(jù)進(jìn)行實證分析后發(fā)現(xiàn),經(jīng)小波分析處理后的模型可以提高預(yù)測精度;張維等[8]通過實證研究發(fā)現(xiàn)小波分析在處理高頻數(shù)據(jù)方面的有效性,但在進(jìn)行小波分析之前,需要預(yù)先給定小波基、分解尺度以及分解層數(shù),會導(dǎo)致實驗結(jié)果受到人們主觀因素的影響;Huang 等[9]提出一種自適應(yīng)信號時頻處理方法,即經(jīng)驗?zāi)J椒纸夥椒ǎ‥MD),特別適用于非線性與非平穩(wěn)信號處理,但其剛開始主要運(yùn)用于工業(yè)降噪領(lǐng)域。隨后,劉海飛等[10]將經(jīng)驗?zāi)J椒纸夥椒ǎ‥MD)引入金融市場數(shù)據(jù)預(yù)測中,發(fā)現(xiàn)其相較于小波分析(WA)擬合精度更高、預(yù)測能力更強(qiáng)。這吸引了越來越多學(xué)者將EMD 應(yīng)用于金融領(lǐng)域,但EMD 方法存在以下兩點(diǎn)不足:①本征模函數(shù)(IMF)分解時存在著模態(tài)混疊現(xiàn)象,即一個本征模函數(shù)(IMF)中或許會存在不同時間尺度的特征成分;②分解本征模函數(shù)(IMF)過程中需要迭代多次,但缺乏一個停止迭代的標(biāo)準(zhǔn)。為抑制各本征模函數(shù)(IMF)分量之間出現(xiàn)的混頻現(xiàn)象,Wu 等[11]在EMD 分解中運(yùn)用添加零均值的高斯白噪聲進(jìn)行輔助分析,即集合經(jīng)驗?zāi)B(tài)分解方法(EEMD)。目前,EEMD 在金融領(lǐng)域也有少量研究[12-15],這些研究主要是將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法與EEMD 相結(jié)合,對金融資產(chǎn)價格進(jìn)行分析與預(yù)測,并取得了不錯的效果,但使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法只能考慮短期對未來的影響,無法考慮到金融時間序列的長記憶性。
因此,本文將從金融高頻數(shù)據(jù)的角度進(jìn)行降噪處理,從而考察在對股指波動率進(jìn)行預(yù)測的過程中,能否通過集合經(jīng)驗?zāi)B(tài)分解方法(EEMD)對HAR-RV 模型的預(yù)測效果進(jìn)行優(yōu)化。近年來,為響應(yīng)中央提出的“去杠桿”號召,金融機(jī)構(gòu)對金融收益波動率的度量精度要求越來越苛刻。由于大量時間區(qū)間內(nèi)股指波動率的基數(shù)都較小,使得微小的誤差能夠影響后續(xù)研究的準(zhǔn)確性,因此預(yù)測精度的提高對于后續(xù)探索具有重要意義。
集合經(jīng)驗?zāi)B(tài)分解法(EEMD)實質(zhì)上是對EMD 方法的改進(jìn),主要根據(jù)白噪聲均值為零的特性,在原始信號中加入白噪聲,使得頻率分布趨于均勻,接著仍采用EMD 方法進(jìn)行分解,最終得到的效果是相同的時間尺度分布在不同的IMF 中。具體分解步驟如下:
(1)將噪聲信號w(t)加入到原始信號X(t),得到信號X'(t)=X(t)+w(t)。
(2)確定X'(t)的局部極大值和極小值點(diǎn),并利用三次樣條函數(shù)將局部最大值和最小值的點(diǎn)連接起來,形成上下包絡(luò)線分別為U1和L1,計算上下包絡(luò)線的均值m1=。
(3)用X'(t)減去m1,得到新序列h1=X'(t)-m1。判斷h1是否滿足IMF 的兩個特征:①極值點(diǎn)與過零點(diǎn)數(shù)目相等或最多相差1 個;②在任意時刻,其上下包絡(luò)線均值必須為0。若滿足,則令c1=IMF1=h1,否則重復(fù)步驟(1)-(3),直到滿足上述兩個特征為止。
(4)用信號X'(t)減去c1,得到一個去掉高頻成分的新信號r1=X'(t)-c1。
(5)對r1重復(fù)得到c1的過程,得到第二個IMF 分量c2,一直反復(fù)進(jìn)行到ri小于預(yù)設(shè)值或為單調(diào)函數(shù)(常量)為止。最終,X'(t)分解得到:

由于IMF 分量是由高頻到低頻依次排列,所以一定存在著第i個分量,使得噪音都集中在前i-1 個分量里,而有用信息則集中在第i~n個分量里。因此,對ci進(jìn)行均值為零的T 檢驗,直至ci的均值顯著異于零,將c1~ci-1加總作為原序列的高頻部分,將ci~cn加總作為原序列的低頻部分,rn作為原序列的趨勢部分,對分解后的信號進(jìn)行重構(gòu)。
HAR-RV 模型是在市場異質(zhì)性假說基礎(chǔ)上提出的,該假說主要描述了不同市場參與者對金融市場造成的不同方面的影響。例如,根據(jù)信息的不對稱性,可將市場中的交易者分為噪音交易者、正反饋交易者和知情交易者,正是由于這3 類交易者對相同信息的反應(yīng)與預(yù)測不同,才使得股價在基本面范圍內(nèi)波動。若異質(zhì)交易者數(shù)量增加,不同交易者對信息反應(yīng)的差別也會增大,導(dǎo)致價格的波動率增大。因此,Corsi[3]提出了HAR-RV 模型,假設(shè)未來的日實現(xiàn)波動率與短期、中期、長期的已實現(xiàn)波動率之間存在關(guān)系。
在無風(fēng)險套利的金融環(huán)境中,金融資產(chǎn)的對數(shù)收益率Rt,i服從一個特殊的半鞅過程。因此,某金融資產(chǎn)的日內(nèi)高頻對數(shù)收益率為:

第t 個交易日的日收益率可表示為:

由于高頻采樣數(shù)據(jù)下的收益率平方和是已實現(xiàn)波動率的無偏估計,因此第t個交易日的已實現(xiàn)波動率可表示為:

分別用日、周、月的已實現(xiàn)波動率代表短期、中期、長期3 個不同的時間尺度,則得到HAR-RV 模型如下:

滬深300 指數(shù)作為反映滬深兩個股票市場運(yùn)行情況的跨市場指數(shù),自推出以來運(yùn)行穩(wěn)定,為指數(shù)化投資和指數(shù)衍生產(chǎn)品創(chuàng)新提供了基礎(chǔ)條件。因此,本文選擇滬深300 指數(shù)作為研究對象,觀測窗口設(shè)定為2016 年1 月11日-2020 年1 月17 日,共計981 個交易日,采樣頻率為5min,選取每個交易日9:30-11:30 及13:00-15:00 的交易數(shù)據(jù),每天共48 個交易數(shù)據(jù)。
本文根據(jù)上述方法分別計算出日已實現(xiàn)波動率(RVt)、周已實現(xiàn)波動率(RVWt)、月已實現(xiàn)波動率(RVMt),運(yùn)用MATLAB 軟件設(shè)置EEMD 的噪聲添加次數(shù)為100,加入高斯白噪聲的標(biāo)準(zhǔn)差設(shè)為0.2,分別對上述3 種股指波動率進(jìn)行集合經(jīng)驗?zāi)B(tài)分解,得到處理結(jié)果如圖1-圖3 所示。

Fig.1 Decomposition of daily realized volatility圖1 日已實現(xiàn)波動率分解

Fig.2 Decomposition of weekly realized volatility圖2 周已實現(xiàn)波動率分解

Fig.3 Decomposition of monthly realized volatility圖3 月已實現(xiàn)波動率分解
從圖1-圖3 可知,對日、周、月已實現(xiàn)波動率進(jìn)行EEMD 處理后,均得到8 個IMF(由高頻到低頻排列)和1個殘余項,同時也可看出相較于長期的已實現(xiàn)波動率,短期已實現(xiàn)波動率呈現(xiàn)出較為劇烈的震蕩。3 個不同時間尺度的已實現(xiàn)波動率在2018 年2-3 月波動較大,主要由于2018 年2 月初,美股大幅下跌,海外投資者資金大幅流出,國內(nèi)機(jī)構(gòu)出于風(fēng)險控制被動跟隨減倉導(dǎo)致的。
為了進(jìn)一步對波動中的噪聲進(jìn)行處理,分別對3 個不同時間尺度已實現(xiàn)波動率的IMF 分量進(jìn)行零均值檢驗,結(jié)果如表1-表3 所示。

Table 1 The zero mean test of IMFs of daily realized volatility表1 日已實現(xiàn)波動率的IMF 零均值檢驗
由表1 可知,IMF1~I(xiàn)MF5 在5% 的顯著性水平上都是不顯著的,而IMF6 在5% 的顯著性水平上均拒絕均值為零的原假設(shè)。由于只要出現(xiàn)一個IMF 拒絕原假設(shè),則剩余的IMF 分量均被看作低頻信號。因此,將IMF1~I(xiàn)MF5 加總得到高頻部分信號HIMF_D,IMF6~I(xiàn)MF8 加總得到低頻部分信號LIMF_D。

Table 2 The zero mean test of IMFs of weekly realized volatility表2 周已實現(xiàn)波動率的IMF 零均值檢驗
由表2 可知,IMF1~I(xiàn)MF4 在5% 的顯著性水平上都是不顯著的,而IMF5~I(xiàn)MF8 在5% 的顯著性水平上均拒絕均值為零的原假設(shè)。因此,將IMF1~I(xiàn)MF4 加總得到高頻部分信號 HIMF_W,IMF5~I(xiàn)MF8 加總得到低頻部分信號LIMF_W 。

Table 3 The zero mean test of IMFs of monthly realized volatility表3 月已實現(xiàn)波動率的IMF 零均值檢驗
由表3 可知,在5% 的顯著性水平上,IMF1~I(xiàn)MF4 是不顯著的,IMF5~I(xiàn)MF8 是顯著的。因此,將IMF1~I(xiàn)MF4 加總得到高頻部分信號HIMF_M,IMF5~I(xiàn)MF8 加總得到低頻部分信號LIMF_M。
最后,將各個時間尺度的殘余值加上低頻部分信號,得到各個時間尺度降噪后的波動率RV1、RVW1、RVM1。
在降噪之后,本文分別用降噪前的數(shù)據(jù)與降噪后的數(shù)據(jù)建立HAR-RV 模型進(jìn)行比較。首先,對降噪前后的各時間尺度已實現(xiàn)波動率進(jìn)行單位根檢驗,避免出現(xiàn)偽回歸現(xiàn)象。
降噪前后各時間尺度已實現(xiàn)波動率的單位根檢驗結(jié)果如表4 所示,每個變量都在5% 的顯著性水平下拒絕原假設(shè),滿足平穩(wěn)性檢驗。因此,降噪前后各時間尺度的已實現(xiàn)波動率均為平穩(wěn)的時間序列。

Table 4 Unit root test表4 單位根檢驗
利用Python 分別將降噪前與EEMD 降噪后的已實現(xiàn)波動率數(shù)據(jù)按4∶1 的比例分為訓(xùn)練集和測試集,建立異質(zhì)自回歸模型進(jìn)行回歸估計,分別記為HAR-RV1 和HARRV2,得到兩個模型的測試集預(yù)測結(jié)果如圖4 所示(彩圖掃OSID 碼可見)。

Fig.4 Comparison of prediction results before and after EEMD noise reduction圖4 EEMD 降噪前后預(yù)測結(jié)果對比
如圖4 所示,降噪前已實現(xiàn)波動率構(gòu)建HAR-RV1 模型預(yù)測值與真實值的趨勢是一致的,其擬合優(yōu)度為0.432 3,而經(jīng)EEMD 降噪后構(gòu)建的HAR-RV2 模型在反映股票市場實際序列變動趨勢方面效果不佳。這是由于在股票市場交易活動中,投資者受市場情緒影響較大,而高頻部分信號雖然包含了大量噪聲,但同時也反映了市場中隨機(jī)擾動對信號產(chǎn)生的影響,因此不能完全忽略高頻部分信號中包含的有效信息。
小波分析作為“數(shù)學(xué)顯微鏡”,能夠在時域上對高頻成分采用逐步精細(xì)的取樣步長,可滿足分析數(shù)據(jù)信號任何細(xì)節(jié)的要求,因此小波分析在具有強(qiáng)噪音背景下的微弱數(shù)據(jù)信號分析中得到了廣泛應(yīng)用[16]。考慮到高頻金融數(shù)據(jù)經(jīng)EEMD 分解后得到的高頻部分信號分量符合強(qiáng)噪音背景下的微弱數(shù)據(jù)信號這一特征,因此本文將使用小波分析(WA)方法,進(jìn)一步對采用EEMD 方法降噪后得到的高頻部分信號進(jìn)行有效信號提取。
根據(jù)蘭秋軍等[6]的分析,由于收益率數(shù)據(jù)具有奇異點(diǎn)密度大的特點(diǎn),所以選取db2~db4 和sym2~sym4 的小波函數(shù)分解,同時尺度小于4 比較恰當(dāng)。因此,本文經(jīng)比較分析后,選擇尺度為3 的小波分解函數(shù)sym4 對EEMD 處理后的高頻部分信號進(jìn)行分解并單支重構(gòu),最后將小波重構(gòu)數(shù)據(jù)與EEMD 降噪后的低頻部分信號和殘余值加總起來,得到重構(gòu)好的日、周、月已實現(xiàn)波動率分別為RV2、RVW2、RVM2,并分別對其進(jìn)行單位根檢驗。在其均通過單位根檢驗后,構(gòu)建HAR-RV3 模型,得到的預(yù)測結(jié)果如圖5 所示(彩圖掃OSID 碼可見)。

Fig.5 Prediction results of HAR-RV3 model圖5 HAR-RV3 模型預(yù)測結(jié)果
由圖5 可知,HAR-RV3 模型真實值與預(yù)測值擬合較好,且滿足股票市場實際序列變動趨勢,因此效果優(yōu)于HAR-RV1 和HAR-RV2 模型。為更直觀地比較HARRV1 和HAR-RV3 兩個模型的預(yù)測效果,本文繪制兩個模型的多指標(biāo)評估結(jié)果如表5 所示。
由表5 可以看出,使用EEMD+小波分析方法降噪后的HAR-RV3 模型預(yù)測準(zhǔn)確度有了較大程度提高,其中均方誤差(MSE)下降了93.92%,均方根誤差(RMSE)下降了75.35%,平均絕對誤差(MAE)下降了76.94%。由此可以發(fā)現(xiàn),采用EEMD 與小波分析相結(jié)合的降噪方法對于波動率模型預(yù)測具有明顯的改進(jìn)效果。

Table 5 Model effect evaluation表5 模型效果評估
本文在HAR-RV 模型基礎(chǔ)上,將自然科學(xué)領(lǐng)域的信號處理方法,即集合經(jīng)驗?zāi)B(tài)分解方法(EEMD)和小波分析方法引入到已實現(xiàn)波動率預(yù)測中,比較了未降噪的HARRV 模型、經(jīng)EEMD 降噪的HAR-RV 模型以及經(jīng)EEMD+小波降噪的HAR-RV 模型預(yù)測效果,結(jié)果表明,經(jīng)EEMD+小波降噪的HAR-RV 模型預(yù)測效果最佳。這對于在保證波動率走勢的情況下,降低高頻數(shù)據(jù)中噪音對波動率估計的影響具有重要價值,為金融高頻數(shù)據(jù)處理提供了一種有效的降噪方法。在未來的研究中,還可對EEMD+小波降噪后的高頻數(shù)據(jù)進(jìn)行跳躍檢測,探究各類事件對跳躍風(fēng)險的影響。