程凌筠,宋澤芳,b*,張興發,b,李莉麗
(廣州大學 a.經濟與統計學院; b.嶺南統計科學研究院,廣東 廣州 510006)
作為資產收益變異程度的一種定量測度,波動率在金融時間序列的不同領域中都扮演著相當重要的角色,如衍生產品定價、對沖投資決策或風險價值(VaR)評估等,都與波動率密切相關。Engle[1]和Bollerslev[2]提出的自回歸條件異方差模型,即 (G)ARCH模型,是目前最成熟、最常用的波動率建模模型之一。它已被廣泛用于刻畫和預測股票價格、商品期貨、通貨膨脹率和外匯等金融產品的波動率。隨著計算機技術的飛速發展,采集、存儲數據的成本不斷降低,日內高頻金融數據的獲取也越來越方便。如何使用這類數據推進金融市場波動率的研究成為備受關注的焦點。其中一個方向是對日內波動率的刻畫,常見的是基于日內高頻交易數據所估計的日內真實波動率,通常稱為已實現波動率。學者們運用不同的非線性度量方法提出了許多已實現波動率指標,如已實現方差、已實現雙冪次變差和已實現極差等[3-5]。另一個方向是利用日內高頻數據來改進日頻波動率模型的估計精度。Visser[6]將日內高頻信息引入到GARCH模型中,提出尺度模型和波動率代表模型,改進了GARCH模型參數估計的漸近方差,提高了估計的準確性。越來越多的研究也表明,由于高頻數據蘊含了更豐富的資產價格變動信息,將高頻信息引入低頻波動率模型可以有效地提高模型參數的估計精度[7-13]。
在進行高頻數據分析處理時,首要面對的是數據抽樣問題,不同的頻率會對估計的準確性造成不同的影響,即抽樣頻率過高容易有太多噪音,抽樣頻率過低又沒有充分利用信息,因而關于抽樣頻率的擇優選取就顯得尤為重要。徐正國等[14]定義了微觀結構誤差(MSE)作為最優抽樣頻率的選擇準則,其實證研究表明已實現波動率估計在10 min間隔的抽樣頻率下MSE達到最小。郭名媛等[15]則考慮MSE和測量誤差之和為擇優標準,以總誤差最小的60 min為最優抽樣間隔來計算賦權已實現波動率。唐勇等[16]分別依據已實現波動和已實現極差波動與積分波動之間誤差項的漸近分布,給出了最優抽樣頻率的選擇方法。李勝歌等[17]基于已實現雙冪次變差和賦權已實現波動,給出了最優抽樣頻率選擇方法。閔素芹等[18]比較了3種已實現波動率的最優抽樣頻率選擇方法。楊建輝等[19]研究了不同抽樣間隔下創業板指數已實現波動的分布特征及其最優采樣間隔。
已有的這些研究中,學者們討論高頻數據的最優采樣間隔大多是針對日內波動率刻畫進行考慮,鮮有考慮日頻波動率模型。本文進一步研究高頻數據應用到日頻波動率模型(GARCH)時的數據抽樣問題。與傳統的研究不同,本文的最優頻率抽樣問題可以比較方便地通過選擇最優波動率代表來進行刻畫。波動率代表是運用高頻數據估計日頻GARCH類模型時構造的一個重要統計量,它是由日內高頻數據信息通過加工構造出的一個函數,不同的波動率代表對參數估計效果有直接影響。本文結合GARCH模型的3種估計方法,即基于對數正態分布的擬極大似然估計(log-Gaussian QMLE)、基于正態分布的擬極大似然估計(Gaussian QMLE)和基于拉普拉斯分布的擬極大指數似然估計(QMELE),討論不同估計方法下最優波動率代表的選擇問題及其在高頻數據抽樣頻率的選擇問題。
在日頻數據下,使用GARCH(1,1) 模型對波動率進行建模,其形式為
yt=σtεt,
(1)
(2)
其中,yt為資產第t天的收益率;εt是服從均值為0,方差為1分布的一組獨立同分布隨機誤差項,分布未知;對于?t≥s,εt與ys相互獨立;參數ω>0,α≥0,β≥0保證條件方差的非負性。
假設每天可觀測到的金融資產價格過程為Pt(u),t=1,…,T,將日內的交易時間設為[0,1]區間,0≤u≤1。當u=1時,Pt(1)恰為第t天收盤價。定義第t天u時刻的高頻對數收益率為
Yt(u)=100×[logPt(u)-logPt-1(1)],
即日內的收益過程。在模型(1)~模型(2)的基礎上,Visser[6]考慮利用日內收益過程對日頻GARCH模型進行擴展,得到如下尺度模型:
Yt(u)=σtZt(u),u∈[0,1],
(3)
(4)
其中,Zt(·)為標準過程,與σt相互獨立;?t≠s,Zt(·)與Zs(·)獨立同分布;σt稱為尺度參數。當u=1時,Yt(1)=yt,Zt(1)=εt,模型(3)~模型(4)即退化為日頻GARCH模型。

H(ρYt(u))=ρH(Yt(u))>0,?ρ>0,
(第3.2節有舉例詳細介紹H函數)對每個交易日,根據正齊次性,由式(3)可得
Ht=H(Yt(u))=H(σtZt(u))=σtH(Zt(u)),
記zH,t=H(Zt(u))>0,由于Zt(u)是獨立同分布的標準過程,因此,zH,t是獨立同分布的隨機變量序列。于是,波動率代表模型可表達為
Ht=σtzH,t,
(5)
(6)
上述模型中,所有變量都是同樣的頻率,日內高頻數據信息體現在波動率代表量Ht上。當波動率代表量Ht=H(Yt(u))=H(Yt(1))=|Yt(1)|=|yt|時,可以看出模型(5)~模型(6)和模型(1)~模型(2)是等價的。一般情形下,模型(5)~模型(6)引入了高頻數據信息,同時又和模型(1)~模型(2)具有相同的模型參數。因此,基于波動率代表模型(5)~模型(6)估計的參數,用到了更多的信息,有望得到更為精確的估計。
對于波動率代表模型,現有的研究主要采用3種估計方法對模型中的未知參數進行估計,分別為對數正態分布擬極大似然估計、正態分布擬極大似然估計和擬極大指數似然估計,下面依次介紹3種方法對模型估計的過程,及估計量的漸近結果。
Visser[6]給出了基于對數正態分布的擬極大似然估計(log-Gaussian QMLE)及其估計量的漸近正態結果,該方法是將擬極大似然估計(Gaussian QMLE)應用于對數波動率代表log(Ht)。

(7)
定義
于是有

(8)


(9)
其中,
這里,G(θ)是關于θ和H,t的矩陣,與無關,具體證明見文獻[6]。
GARCH模型的常用估計方法是基于正態分布的擬極大似然估計(Gaussian QMLE)。為使用QMLE來估計θ=(ω,α,β)′,需要對殘差項zH,t進行標準化,并對模型(5)~模型(6)稍作調整。

(10)
(11)

依據模型(10)~模型(11),θ*的QMLE定義為
(12)

其中,
(13)
(14)

在實際數據分析中,模型殘差的分布是未知的,為了弱化矩條件,殘差項常被假定為服從標準雙指數分布(Laplace分布),因而基于該分布的擬極大指數似然估計(QMELE)也是常用的估計方法。
(15)
(16)

依據模型(15)~模型(16),θ*=(ω*,α*,β*)′的QMELE定義為
根據QMELE的漸近理論(Andersen等[21]),容易得到*的漸近分布為
其中,

從第2節可知,參數估計是通過極小化關于波動率代表的似然函數得到的,所以使用不同的波動率代表得到估計量的有效性是不同的,同時基于不同的估計方法,又會存在差異。因而選擇合適的波動率代表是獲取準確估計的重要前提。

λ=Var(log(Ht)|Fn-1),
(17)
如果λ越小,參數估計的漸近方差就越小,即對應的波動率代表越好。因而,對于log-Gaussian QMLE,尋找最優的波動率代表即為尋找最小的λ值。
(2)對于正態分布擬極大似然估計,Visser[6]并未給出適用于其估計量的波動率代表選擇方法。為此,在估計量漸近分布的基礎上進行分析,以給出針對QMLE的波動率代表選擇標準。

相應地,將上述兩式進行相除,即得

定義
(18)

(3)對于擬極大指數似然估計,從漸近分布的角度出發同樣可以得到選擇最優波動率代表的標準。
于是,依據同樣的推導思想,可以推得QMELE下波動率代表的選擇標準為
(19)

從高頻對數收益率的表達式可以看出,計算波動率代表需要通過離散性抽樣數據來得到,也就是需要固定一個時間間隔來采集日內的高頻數據。令k表示日內時間間隔(單位:min),m表示在抽樣頻率k下一天內總的收益個數,Yt(uik) 表示第i次抽樣的收益率,i=1,…,m。本文考慮以下4種波動率代表,作為模型中主要的選擇比較:
①已實現波動率(RV):
②日內收益絕對值之和(RAV):
③已實現極差波動率(RVHL):
k(i-1)<Δi ④日內極差之和(RAVHL): minΔi(Yt(u))},k(i-1)<Δi 其中,Yt(u0)的值用Yt(0)=0 代替;maxΔi(Yt(u))和minΔi(Yt(u))分別為第i個時間段Δi中的收益率最大值和最小值。 以上RV、RAV、RVHL和RAVHL都是波動率代表Ht的具體例子,容易看出Ht的具體值會依賴于離散化的數據量個數,而將一天內的交易時間等分為多少段最合適即為最優抽樣頻率的問題。對于同一波動率代表,最優頻率對應的Ht才是最優的。因而第3.1節給出的波動率代表選擇標準可以提供一個選取最優抽樣頻率的方法,即波動率代表選擇標準達到最小的時間頻率為該波動率代表的最佳頻率。 圖1 波動率代表與抽樣頻率的關系圖 表1 不同波動率代表在不同估計方法下的最優抽樣頻率 由表1和圖1可看出,在不同波動率代表、不同頻率、不同估計方法下,得到的估計量有效性均明顯不同。通過比較分析發現: (1)在同一頻率3種估計方法準則下,比較RV、RAV、RVHL和RAVHL后發現,RV的有效性最差,RAVHL和RVHL是較優的波動率代表函數??梢钥吹?在頻率較高時(2~8 min)RAV和RVHL是最優的波動率代表函數,在頻率較低時(10 min以上)RVHL的有效性表現更優。從指標的總體性看,兩者相差不大,因此,RVHL和RAV都可作為最優的波動率函數。 (2)對同一波動率代表分別比較不同頻率的表現可以發現,RV在不同頻率下的有效性波動(數值大小變動)最大,隨著抽樣頻率的增加,每種方法對應的數值大多是先遞減后遞增;相比之下,RVHL和RAVHL在不同頻率下的有效性表現較為穩定,數值變動較小。 (3)比較最優抽樣頻率下的不同波動率代表發現,采用log-Gaussian QMLE時的最優波動率代表為10 min的RVHL(λ值最小),采用Gaussian QMLE時,則是2 min的RVHL最優(MHqmle值最小),而采用QMELE時是8 min的RVHL最優(MHqmele值最小),意味著在最優抽樣頻率下,無論使用什么估計方法,最優的波動率代表為RAV。 (4)每個波動率代表在相應頻率上達到了最低點。不同波動率代表的曲線趨勢存在顯著差異。其中,RV的3條曲線均呈“低谷”狀態;而RAV的3條曲線整體上均呈現遞增趨勢;RVHL和RAVHL隨時間頻率的變化趨勢相同,或呈曲折遞增,或大致地遞減后再遞增。 基于表1的結果,選擇以2 min為間隔的RVHL進一步使用高斯QMLE估計出GARCH(1,1)模型的參數。該波動率代表具有最小的MHqmle值,那么根據式(12)和式(14)得到的估計量是最有效的QMLE,擬合滬深300指數收益率的GARCH(1,1)模型為 yt=σtεt, (20) (21) 于是,基于模型(20)~模型(21)可以獲得更為準確的波動率估計。另外,若選用QMELE方法或對數正態分布QMLE方法,則分別需要以8 min和10 min的頻率來構造RVHL,這樣得到的QMELE和log-Gaussian QMLE的估計有效性是其中最好的,便于更準確地建立模型和估計波動率。 為了檢驗結果的穩健性,本文再將全樣本分成了兩個子樣本(2017年9月1日-2018年6月30日和2018年7月1日-2019年7月12日),進行同樣的波動率代表和頻率選擇分析。匯總結果見表2。 表2 子樣本在最優波動率代表下的最優抽樣頻率 由表2可以發現: (1)同頻率兩個子樣本下,RV波動率代表函數的有效性是最差的,RVHL和RAVHL仍然是兩個差別不大的最優波動率代表函數。 (2)針對兩個不同的樣本,基于最優準則下選擇的最優波動率代表會有所不同,同時在不同估計方法下選擇的最優頻率也會有所差異,表2中列出了兩個子樣本選擇的最優波動率函數,以及不同估計方法下,基于最優波動率函數選擇的最優頻率。在2017年9月至2018年6月的第一個子樣本中,選擇的是RAVHL為最優波動率函數,3個估計方法下所對應的最優頻率分別為8 min、30 min和10 min;在2018年7月至2019年7月的第二個子樣本中,選擇的是RVHL為最優波動率函數,3個估計方法下所對應的最優頻率分別為3 min、2 min和2 min。 總的來說,本文可以得到一個穩健的結論是在全樣本和子樣本下,RVHL和RAVHL都可考慮選擇為最優波動率函數,且不同頻率下它們的表現模式也很相似。在選擇最優頻率時,除了考慮選擇最優波動率函數,還要考慮不同的估計方法,同時也會依賴不同樣本下的情況,但就整體而言,最優頻率在2 min、8 min和10 min中選擇,也啟示了研究者和實踐應用學者們在實際中對抽樣頻率進行謹慎選擇。 通過波動率代表,可以將日內高頻數據應用于改進GARCH模型的參數估計,不同的波動率代表提高估計精度的效果不同。本文介紹了波動率代表模型的3種估計方法,針對不同的估計方法給出了波動率代表的選擇標準,并將這些準則進一步應用于解決高頻數據抽樣頻率的選擇問題。最后,采用滬深300指數的高頻數據做實證研究,通過比較研究發現,不同波動率代表、不同抽樣頻率都會對GARCH參數估計量的有效性造成明顯差異,而且在不同估計方法下的表現也不同。已實現極差波動率(RVHL)和日內極差波動率(RAVHL)是有效性表現較優的波動率代表,但它們都會依賴于抽樣頻率,其最優頻率也會依賴具體的估計方法,但主要是在2~8 min中選擇,具體的選擇也需考慮更多的因素,未來可以考慮一個自適應樣本的方法對最優頻率進行選擇。4 實 證




5 結 論