楊煒明,劉 濤,王 琴
(1.重慶工商大學a.數學與統計學院;b.長江上游經濟研究中心,重慶 400067;2.重慶對外經貿學院 大數據與智能工程學院,重慶 401520)
在各種金融數據分析中,基于高頻數據信息和歷史信息來預測未來波動率已成為一個重要的研究方向,在金融市場分析中,波動率分析的主要目的在于預測金融市場的波動性。已有對于波動率的研究主要有兩類:一類是利用最新的低頻數據變量,并采用參數模型來測量和預測波動率[1,2];另一類是利用非參數或者半參數估計方法,通過分析高頻交易數據對波動率進行度量和預測[3—5]。以上方法雖都能較好地度量波動率的某些結構特征,但也存在各自的不足之處,主要原因在于上述模型都是基于同一數據頻率來進行相關分析,限制了高頻變量的選取,并且低頻的參數估計方法沒有充分利用高頻數據中的有效信息,從而影響波動率預測的精確性。
已有研究更側重于從低頻經濟數據中提煉信息,而不太考慮日間或日內高頻交易數據的應用[1—9]。然而,日內高頻交易數據蘊含了豐富的有效信息,對于短期波動率預測具有重要價值。此外,這類模型在權重分配上通常只考慮數據的時間順序,也就是假設過往時期的低頻變量以相同的方式影響波動率。這種假設在考慮外生低頻數據變量的長期效應時可能適用,但并不適用于從日內高頻交易數據中提煉信息。不適用的主要原因是:在不同交易日的高頻交易過程中,數據的權重可能會隨著市場條件和交易策略的變化而變化。為了更好地利用日內高頻交易數據,本文引入更有效的權重函數,以便準確反映高頻交易數據在波動率預測中的實際價值,從而更有效地從日內高頻交易數據中提取有價值的信息,為短期波動率的預測提供更準確的依據。
本文構建一種新權重函數,使各高頻交易數據所獲得的權重差異不僅取決于其取值大小,而且受到與其相鄰數據差異的影響。具體來說,當某一數據的取值越大時,其與其他數據之間的差異也會越大,進而導致各高頻交易數據之間的權重差異擴大。這意味著高頻交易數據對未來波動率的沖擊效果將更加顯著。這種設定有助于更加準確地預測市場波動,尤其是短期內的波動情況。通過對各高頻交易數據賦予恰當的權重,可以更好地揭示其內在的聯系和影響,為投資者和交易者提供更有價值的參考信息。考慮到某些高頻交易序列中會包含高頻數據的實時波動、交易特征及其沖擊效果,本文在參考王江濤等(2021)[10]提出的權重函數的礎上進行改進,提出采用以下形式的權重函數來提煉高頻數據:
其中,xi,j/m為某種高頻時間序列在每個時間節點上的取值,比如高頻資產收益率、高頻股票交易量等。因為在實際情況中xi,j/m會出現小于0的情況,所以在分析時對xi,j/m取絕對值,從而保證權重的非負性。
新構建的權重函數w(j,λ)具有以下特征:(1)新權重函數在形式上與傳統權重函數有一定相似之處,但新權重函數的參數以及分布形式都由樣本數據決定;(2)只要選取合適的高頻交易時間序列xi,j/m作為自變量,就可以使高頻數據被賦予的權重與其未來波動率產生的沖擊效果相符;(3)如果xi,j/m是除高頻收益率之外其他的高頻時間序列,那么在用新構建的權重函數w(j,λ)提煉高頻數據信息時,就能同時利用多種高頻時間序列,從而使數據中的有效信息得到充分利用。
為充分提煉高頻交易數據中的有效信息來預測未來波動率,仿照普通MIDAS方法和GARCH-MIDAS模型,在傳統GARCH模型的基礎上引入新權重函數來構建模型:
其中:μt表示日間收益率,σt為日間收益率的條件標準差,μi,j/m為日內高頻收益時間序列;xi,j/m為高頻交易過程中伴隨高頻收益時間序列μi,j/m產生的某種高頻時間序列;獨立同分布的誤差項εt滿足E(εt)=0,D(εt)=1;?、α、β為模型的未知參數,和一般GARCH、GARCH-MIDAS模型一樣,設定模型參數為非負常數;p、q為模型的滯后階數,在實際中可以通過樣本數據和AIC、BIC等信息準測來確定。新波動率模型通過構建的新權重函數w(j,λ)將兩種高頻數據xi,j/m、μi,j/m與低頻數據μt相結合,從而利用多種混頻數據信息來度量和預測未來波動率。
雖然以往研究也考慮將日內高頻收益率應用于波動率模型,但往往以等權重的方式融合高頻收益率,未能充分利用高頻數據信息。本文提出的MIX-GARCH-L 模型在以往只能使用一種高頻數據的基礎上,引入其他高頻數據,可進一步提取高頻數據中的有效信息。而在高頻交易過程中,會產生多種高頻數據信息,如高頻收益率、高頻成交量以及其他高頻時間序列等,這些都屬于選擇項。將新構建的權重函數w(j,λ)用于提煉高頻收益率中有用的信息;為了避免伴隨序列xi,j/m和日內高頻時間序列μi,j/m中的信息重合,并考慮波動率相關指標以及日常交易中投資者決策行為等影響因素,本文選取高頻成交量序列作為伴隨序列xi,j/m。
由于MIX-GARCH-L模型擁有全新的模型形式,因此需要重新研究新模型中的參數估計問題。本文參照普通GARCH 模型中的參數估計流程,對MIX-GARCH-L 模型采用擬極大似然估計法來實現對模型參數的準確估計,設定MIX-GARCH-L模型的對數似然密度函數為:
則MIX-GARCH模型的擬極大似然函數為:
其中,σt2為模型的條件方差,θ=(u,α1,α2,…,αp,β1,β2,…,βq,λ)為參數向量,令θ0為θ的真實參數L(θ),U代表整個參數向量空間。MIX-GARCH-L 模型的擬極大似然函數從形式上看和普通的GARCH模型的似然函數類似,但由于σt2內具有復雜的參數結構,因此使得MIX-GARCH-L模型的參數估計理論分析變得十分困難。
帶有未知參數,在這種情況下使得矩陣Α0、Β0的形式會更加復雜,無法給出具體的漸近協方差形式,對定理結果的使用將會造成一定阻礙,故本文計劃借鑒Buhlmann(1997)[11]提出的Service-Bootstrap 方法來計算漸近協方差。在數據生成機制保持不變的條件下,Service-Bootstrap方法能夠利用誤差項的獨立同分布特性,通過迭代來獲得協方差矩陣的準確估計。
為了驗證參數估計的實際效果,本文構建模擬數據并采用Service-Bootstrap 方法進行檢驗,采用兩組不同的模擬數據來進行實證檢驗。第一組模擬數據的產生機制如下:
第二組模擬數據的產生機制為:
數值模擬中分別設定n=300,n=500,n=1000,以及n=2000,采用梯度下降法,應用R語言編程設計實現參數的估計,其中,BIAS代表數值模擬的估計量與真實值之間的偏差,SE為用Service-Bootstrap方法算出的模型參數估計量的標準誤差,SD表示估計量標準離差,CP 表示在95%的置信水平下數值模擬的覆蓋率,參數估計結果如表1所示。
表1 當誤差項服從正態分布時參數的估計結果
下頁表2給出了當誤差項η2t服從t(10)時數值模擬的參數估計結果,首行表示收益率條件方差模型的參數真實值,其他行表示在不同試驗次數n下各指標的取值。從表2數值模擬的結果可知:ω、α、β在不同實驗次數n下的最大偏差絕對值分別為0.095%、0.093%、0.183%,最小偏差絕對值分別為0.011%、0.018%、0.022%。故可證明本文使用的Service-Bootstrap方法依舊能準確有效地估計出模型真實參數,即使在樣本量n=300 的情況下依然有效。數值模擬中的SD值和SE值同樣也都比較接近,因此可以證明上文中漸近協方差的表達式以及估計協方差的Service-Bootstrap 方法都是準確有效的,并且CP 結果顯示數值模擬在95%的置信水平下覆蓋率基本上都在95%以上,說明參數估計的理論分析結果合理。
表2 當誤差項服從t分布時參數的估計結果
為進一步比較新權重函數和其他權重函數在檢驗參數估計效果上的區別,本文在上述兩組不同模擬數據的基礎上,賦予模擬數據新權重函數w(j,λ)、指數Almon 權重函數以及Beta權重函數來進行參數估計,對比在誤差項滿足不同分布及使用不同權重函數的情況下的參數估計效果。本次實驗中參數估計方法使用Service-Bootstrap 方法,試驗次數n設置為100。
在表3 的第一組模擬數據中,誤差項ε1t服從均值為0、方差為0.02的正態分布,在賦予三種不同權重函數的情況下,發現本文提出的新權重函數w(j,λ)在估計模擬數據的參數時,其SE 和SD 值均小于指數Almon 函數和Beta函數,預測效果為三種權重函數中最優的。在指數Almon權重和Beta 權重的比較中發現,當估計相同參數時,指數Almon權重函數的誤差值比Beta權重的誤差值更小,說明指數Almon 權重函數相比于Beta 權重函數而言更適合誤差項服從正態分布的參數估計情況。
表3 當誤差項服從正態分布時,不同權重函數下的參數估計結果
在表4 的第二組模擬數據中,當其誤差項η2t服從t(10)時,數值模擬在三種不同權重函數下的參數估計結果顯示,本文提出的新權重函數w(j,λ)在估計模擬數據的參數時,其SE 值和SD 值都小于指數Almon 函數和Beta 函數,預測效果同樣為三種權重函數中最優的。在新權重函數和指數Almon 權重函數下,截距項α的SE 值均為最小的,參數ω的SE 值居中,參數β的SE 值最大。而在Beta 權重函數中,參數ω的SE 值最小,參數α的SE居中,參數β的SE 值最大。通過對比發現,新權重函數相較于其余兩種權重函數,其參考估計結果均較優、誤差更小。
表4 當誤差項服從t分布時,不同權重函數下的參數估計結果
本文選取上證綜合指數2018年1月2日到2022年1月2日共計974個交易日的數據,因使用上證綜合指數每日的漲幅來代替日收益率會導致誤差過大,故仿照高頻數據的處理方法,以每天收盤指數的對數值減去上一天收盤指數的對數值作為當天的日收益率,結果如圖1所示。
本文運用標準GARCH 模型、GARCH-RV 模型、GARCH-M 模型,以及所提出的MIX-GARCH-L 模型,對上證綜合指數的實際交易數據進行分析。通過對比不同模型在波動率分析和預測方面的實際表現,以驗證MIX-GARCH-L模型的預測精度。
其中,標準GARCH模型以GARCH(1,1)模型作為基準模型,GARCH(1,1)模型的表達式為其中,α1,β1≥0,α1+β1<1。在GARCH-RV 模型中,以作為已實現波動率RV,即采用相等權重來提煉第t個交易日中高頻收益率數據中的有效信息;GARCH-M模型基于MIDAS方法給高頻數據分配不同的權重,以此來提煉高頻數據的有效信息,從而進行上證指數波動率分析。之所以引入GARCH-RV模型,是為了與GARCH-M模型和本文提出的MIX-GARCH-L模型進行比較,GARCH-M模型與MIX-GARCH-L 模型提取高頻數據中的有效信息的方式類似,用其余的模型進行比較無法說明MIX-GARCH-L模型的信息提煉度更好,預測效果更優。
本文選用上證綜合指數2018 年1 月2 日至2022 年1月2日的高頻交易樣本,共計974個交易日,每個交易日每隔60分鐘進行一次數據采樣。采用常規的高頻數據處理方法,通過計算每天的對數收盤價與前一天對數收盤價的差值,得出當天的日收益率。為得到上證綜合指數收益率的預測結果,本文先選取前874個交易日的高頻數據來估計模型的參數,并據此來預測最后100 個交易日的波動率。各模型基于前874個交易日數據的參數估計結果為:
標準GARCH模型:
GARCH-RV模型:
GARCH-M模型:
MIX-GARCH-L模型:
在上述參數估計結果中,所有模型的滯后階數都是利用參數估計的顯著性以及似然比統計量來確定的,模型公式下對應括號內的數值為參數估計量的標準誤差。對比上述三種模型的參數估計結果可發現,標準GARCH 模型、GARCH-RV模型、GARCH-M模型以及MIX-GARCH-L模型的參數估計結果均在5%的水平上顯著。在上述四種模型中,GARCH-M模型的系數標準誤差最小,MIX-GARCH-L模型其次,標準GARCH 模型的標準誤差相對最大,GARCH-RV 模型與標準GARCH 模型在系數α1上的標準誤差比較接近,但GARCH-RV模型β1系數的標準誤差相較于標準GARCH 模型更小。而GARCH-M 模型和MIX-GARCH-L模型的參數標準誤差差距較小,GARCH-M模型的系數標準誤差相對更小。
將上述模型的波動率預測值與真實值進行對比分析,以驗證模型的預測表現。本文以標準GARCH模型作為波動率的真實水平,則其余模型的波動率表現如表5所示。
表5 三種模型預測波動率結果
相關指標的計算公式為:
其中,h?t為模型預測出的波動率結果,ht為標準GARCH模型對應的波動率預測結果。
對比表5中三種不同權重下模型預測的結果發現:在預測精度方面,MIX-GARCH-L 模型預測精度最高,預測精度要高于GARCH-M 模型和GARCH-RV 模型;隨后是GARCH-M模型,在用MIDAS方法賦予權重的情況下,其預測精度會高于權重平均分配的GARCH-RV模型。具體來看,相較于GARCH-RV 模型,MIX-GARCH-L 模型在MAE值上平均降低10.00%,MAPE值平均降低58.00%;相較于GARCH-M模型,MAE值平均降低4.26%,MAPE值平均降低55.44%。因此,與基于MIDAS 方法賦予不同權重提煉高頻數據信息的GARCH-M 模型和等權重的GARCH-RV 模型相比,本文提出的基于數據波動權重函數的MIX-GARCH-L 模型更能有效提煉高頻數據中的信息,進而更準確地預測波動率,并提高預測的精度。這一優勢使得MIX-GARCH-L 模型在處理高頻數據時具有更高的效率和準確性。
在預測穩健性上,比較MSE 和MSPE 兩個指標可得:MIX-GARCH-L 模型的預測穩健性最優,GARCH-RV 和GARCH-M 模型的預測穩健性相差不大。因波動率的值一般較小,故波動率的MSE 值會更小,一般是介于10-4至10-6數量級之間,三個模型之間的MSE 值差距不大,不具有良好的代表性,故選用MSPE值作為評價模型穩健性的標準。在MSPE 值上,MIX-GARCH-L 模型的MSPE 值為0.3621,明顯小于GARCH-RV 模型和GARCH-M 模型的MSPE 值,說明MIX-GARCH-L 模型不僅有更高的預測精度,而且有更好的穩健性。同時,根據模型各項指標對比結果可知,基于數據波動的新權重數據融合方式能更有效地提煉高頻數據的信息。
本文在波動率模型的基礎上,根據高頻數據交易特征引入一種新權重函數,并構建了一種新模型——MIX-GARCH-L 模型。該模型能有效提煉高頻交易數據中的有效信息,準確、穩健地預測出波動率。基于數值模擬以及實例應用得出以下結論:第一,本文提出的新權重函數能夠更高效地提煉數據中的有效信息,并與相關低頻數據變量結合,相比僅利用同頻數據信息,能更準確、更穩健地度量和預測波動率。因此,在研究與波動率相關的其他問題時,如風險防控、資產風險評估等,可考慮應用這種新權重函數。第二,傳統的權重賦予方法在度量和預測波動率時,并不能有效提煉出高頻數據中的信息。相比之下,根據交易特征(如高頻交易量或其他伴生的高頻交易信息)來分配權重的新權重函數,能更有效地提煉出高頻數據中的有效信息。在此基礎上構建的MIX-GARCH-L 模型也能更準確地預測波動率。第三,新權重函數的引入使得MIX-GARCH-L模型具有了新的模型形式和參數結構,但擬極大似然估計方法仍能準確估計出新模型的參數,并且參數估計量也滿足一致性、漸近正態性等定理,從而保證了模型的可靠性和穩定性。
本文提出的新權重函數為高頻交易數據提供了一種全新的數據提煉方法,進一步豐富了分析混頻交易數據的手段。同時,基于這種新權重函數構建的MIX-GARCH-L模型也為研究波動率提供了更多的可能性。參照本文的方法,在處理涉及高頻數據的問題時,如果同時擁有低頻和高頻數據,那么可以優先考慮使用新權重函數來提煉高頻數據中的有效信息,解決數據頻率不匹配的問題。除了在波動率模型中的應用,新權重函數在混頻數據回歸等模型中也有廣泛的應用前景。