陳 王, 馬 鋒, 魏 宇, 林 宇
(1.長江師范學院 財經學院,重慶 408100; 2.西南交通大學 經濟管理學院,四川 成都 610031; 3.云南財經大學 金融學院,云南 昆明 650221; 4.成都理工大學 商學院,四川 成都 610059)
風險價值(Value at Risk, VaR)測度是金融風險管理中最常用的方法之一,而波動率是VaR測度中最重要的因素。同時,波動率也是現代金融研究的核心組成部分之一,在資產定價、資產配置、風險管理等方面占據著核心地位,對金融資產收益的波動率描述和預測是現代金融學界和實務界研究的重要課題。大量研究表明,收益的波動性在一定程度上具有可預測性,波動預測對投資者判斷市場風險狀況,從而更有效地進行制定交易策略構建投資組合和風險管理具有重要意義。
由于金融波動普遍存在波動聚集性和異方差特征,Engle[1]提出了采用自回歸條件異方差(autoregressive conditional heteroscedasticity model, ARCH)模型來刻畫這一現象。在此基礎上,Bollerslev[2]進行了進一步拓展,提出了廣義自回歸條件異方差模型(GARCH),該模型被廣泛應用于經濟金融領域的諸多研究之中。此后,在眾多專家學者們的努力下,該模型逐步擴展成了適應更多研究需求、種類豐富的GARCH族模型,如:Nelson[3]最先提出后被Bollerslev and Mikkelsen[4]進一步完善的EGARCH模型、Glosten et al.[5]提出的GJR-GARCH模型、Ding et al.[6]提出的APARCH模型、Baillie et al.[7]提出,Chung[8]進一步完善的FIGARCH模型,這些模型的提出大大地豐富了GARCH族模型的應用,并成為研究金融市場波動性的重要工具,被廣泛用于市場風險的分析中。
需要指出的是,上述波動模型都是運用低頻數據進行的波動率建模,現有研究中基于低頻波動模型的風險測度方法幾乎已經做到了極致,隨著計算機技術和網絡技術的發展,高頻數據獲取的成本越來越低,獲取途徑也更方便,于是有學者開始運用高頻數據進行波動率建模。Anderson and Bollerslev[9]最先提出基于高頻數據的已實現波動率(Realized Volatility, RV)測度方法,該方法計算簡單、無模型,而且具有無偏性和穩健性好等優點。然而,RV僅僅是對單個交易日的波動率估計,并沒有對其內在作用機制進行有效的描述,因此部分學者運用分整自回歸移動平均(ARFIMA)模型對RV的系統動力學特征進行了描述[10~12]。雖然這些研究都取得了較好的效果,但是Corsi[13]卻指出ARFIMA僅僅是一個便利的數學技巧,缺乏明確的經濟含義,并且在構建分數差分算子時會損失相應的市場交易信息,因此作者在異質市場假說(Heterogeneous Market Hypothesis)的基礎上進一步提出了簡單的異質自回歸-已實現波動率(Heterogeneous Autoregressive model of Realized Volatility, HAR-RV)模型。
HAR-RV模型不但具有明確的經濟含義,而且還成功復制出金融收益率的“長記憶性”和“胖尾分布”等“典型事實”(Stylized facts),因此逐漸成為了學術界備受推崇的高頻波動率模型之一。此后,大量學者對HAR-RV模型進行了有益的拓展,取得了豐富的研究成果:如在HAR-RV模型的基礎上,考慮到跳躍(Jump)對波動率的貢獻,提出了HAR-RV-J模型,并把已實現波動率分解成連續路徑方差(continuous sample path variation)和離散跳躍方差(discontinuous jump variation),構建了HAR-RV-CJ模型[14];有學者提出用符號跳躍變差(Signed Jump Variation, SJV)來描述杠桿效應,將其作為解釋變量加入到HAR-RV模型中,構成HAR-RV-PS2、HAR-RV-PS3模型[15];Chen and Ghysels[16]基于Barndorff-Nielsen et al.[17]提出的已實現半方差(realized semi-variance)構建了HAR-S-RV-J模型;其他改進還有HAR-CSJ、HAR-CSJd模型[18]、HAR-ARJ模型[19,20]。充分借鑒現有研究成果,我們用上述提到的共9個高頻模型分別對波動率建模(統稱為HAR類高頻模型)。
如上所述的研究主要集中在對波動率本身的研究,而沒有對其在VaR測度中的應用價值進行深入研究。現有的VaR測度的研究仍然主要采用低頻模型[21~24],這些研究雖然運用了不同的方法或模型進行VaR測度,但仍然局限于低頻模型。值得一提的是,部分學者看到了高頻數據的應用前景,對高頻數據在VaR測度中的應用進行了有益的探索[25,26],他們運用高頻數據對日內(Intraday)VaR進行了研究。另外,國內研究也主要集中在對波動率本身的研究上而非VaR[12,27~29]或者運用低頻模型對VaR進行測度[30~32]。
既然高頻數據在波動率的研究中取得了極佳的效果,而波動率又是VaR測度中最重要的因素,那么高頻數據能否用于對VaR進行更精確的預測呢?為了分析高頻數據是否能為VaR預測提供更有價值的信息以便于用于風險管理之中,我們通過建立9個高頻波動模型對樣本外VaR進行滾動預測,并和12個低頻模型(正態、學生t和有偏學生t三種分布假設下的GARCH、GJR、FIGARCH、APARCH)進行對比分析,通過統計檢驗發現高頻模型比低頻模型具有更好的穩健性,并且通過對VaR序列的進一步統計分析發現高頻模型具有更強的實踐操作性。
通過以上分析可以看出,與現有研究相比,本文的貢獻之處在于:第一,通過高頻數據建立HAR類高頻模型,并將其用于動態VaR的預測之中,比僅僅進行波動率建模具有更強的實用性;第二,將多個高頻模型和低頻模型在VaR預測中的預測能力進行對比分析,發現了高頻模型在風險管理中的應用價值。
低頻波動模型即運用采樣頻率較低的數據進行波動率建模的模型。在金融研究中,最常用的低頻數據為日數據,基于日數據進行低頻波動建模過程如下:
首先,根據如下公式計算出日收益率(對數收益率)
Rt=pt-pt-1
(1)
其中,pt表示第t個交易日的價格收盤價對數。對波動率建模時再進行如下分解:
Rt=μt+εt
(2)
(3)

條件均值μt的建模:ARMA(p,q)模型
(4)
GARCH(p,q)模型
(5)
GJR(p,q)表達為

(6)
除了GJR模型外,在金融收益波動的非對稱杠桿效應方面,Ding et al.[6]構建了非對稱指數自回歸條件異方差(Asymmetric Power ARCH,APARCH)模型,對金融收益率的非對稱波動進行捕獲。APARCH(p,q)模型如下:
(7)
其中,δ>0,-1<γi<1(i=1,…,q)。
然而,金融資產收益的波動不僅具有異方差性,也具有長記憶特征[33]。Baillie et al.[7]提出了FIGARCH模型對金融收益條件波動率σt進行分析:
(8)
綜上所述,本文的低頻模型包括GARCH、GJR、APARCH、FIGARCH四個模型,每個模型的殘差都有n、t、st三種分布假設,因此低頻模型共計12個。在下文中,將模型與分布用“-”連接起來表示某分布假設下的具體的模型,如APARCH-st表示殘差被假設為st分布的APARCH模型。
高頻波動模型是運用日內高頻交易數據對波動率進行估計的一種方法。已實現波動率具有無模型(model free)、無參數、方便實用等優點,并在金融風險研究中得到了廣泛的應用[9,34,35]。RV的計算過程如下:對于第t個交易日,整個交易時間段記為[0,1],將其分成n=1/Δ(Δ為采樣頻率)個子區間,RV被定義為該日所有高頻收益率的平方和:
(9)
其中,rtj=ptj-pt,j-1表示由高頻數據計算出的日內收益率,當Δ→0時RV滿足[36]
(10)

(11)
其中:μa=E(|Z|a)
=2a/2·Γ(0.5a+0.5)/Γ(0.5),
Z~N(0,1),a>0
(12)
因此,μ1=(2/π)0.5≈0.7979。
從上面的RV、BPV的計算過程可以看出,與低頻模型明顯不同的是計算波動率的信息集不同:低頻波動模型是基于t-1時刻的信息集來“預測”t時刻波動率,而RV、BPV是在t時刻的信息集基礎上進行的波動率測度,這也是“已實現”波動名稱的由來。正因為如此,低頻波動模型天然地就具有預測的屬性,可以很方便地用于樣本外預測,而RV卻不具有這樣的屬性,那么如何進行樣本外預測呢?本文從現有研究中選擇了9個常用的預測模型[13~15,18,20,37]。
HAR-RV模型[13]:是現在對動態RV建模的最常用模型之一,其理論依據是Müller et al.[38]提出的異質市場假說。HAR-RV模型表達式如下:
RVt+h=c+βdRVt+βwRVt-4,t+βmRVt-21,t+ωt+h
(13)
其中,h=1,5和22,分別代表短期、中期和長期(本文僅分析了h=1的情況);RVt-4,t表示從t-4到t共五個交易日(一周)的RV平均值,RVt-21,t表示從t-21到t共22個交易日(一月)的RV平均值;βd、βw和βm為擬合區間(樣本內)的參數估計值,ωt+h為擬合時的殘差。雖然HAR-RV模型的形式簡單,但該模型分別度量了不同類型的交易者對整個波動率的邊際貢獻,具有明確的經濟學意義,而不像ARFIMA模型僅僅只是純粹的數學技巧[13],并且還能成功復制出金融收益率的“長記憶性”和“胖尾分布”等“典型事實”(Stylized facts),因此逐漸成為了學術界備受推崇的高頻波動率模型之一。
HAR-RV-J模型:Andersen et al.[14]對上述HAR-RV模型進行了進一步拓展,其理論依據是式(10)中所提到的跳躍(Jump)對波動率的貢獻,模型表達式如下:
RVt+h=c+βdRVt+βwRVt-4,t+βmRVt-21,t+βjdJt+ωt+h
(14)
其中Jt為跳躍成分,Jt=max(RVt-BPVt,0)。
HAR-RV-CJ模型:該模型根據(10)式中對RV的分解,綜合考慮了連續樣本和跳躍成分對波動率的貢獻:
RVt+h=c+βdCt+βwCt-4,t+βmCt-21,t+βjdCJt+
βjwCJt-4,t+βjmCJt-21,t+ωt+h
(15)
其中,Ct和CJt分別表示連續樣本和顯著的跳躍成分,其表達式如下:
Ct=I(Zt≤Φα)·RVt+I(Zt>Φα)·BPVt
(16)
CJt=I(Zt>Φα)·(RVt-BPVt)
(17)
其中,I(·)為指示函數,Zt為對跳躍進行顯著性檢驗的統計量,計算公式如下[39]:
(18)
(19)
其中,μ4/3≈0.8309根據式(12)計算得出。
HAR-S-RV-J模型:該模型由Chen and Ghysels[16]基于Barndorff-Nielsen et al.[17]提出的已實現半方差(realized semi-variance)進行構建的,其表達式如下:

(20)


(21)

(22)
HAR-RV-PS2模型[15]:該模型中加入了符號跳躍變差(Signed Jump Variation, SJV)目的是捕獲杠桿效應,模型如下:
RVt+h=c+φSJVt+βbpvBPVt+βdRVt+
βWRVt-4,t+βmRVt-21,t+ωt+h
(23)

HAR-RV-PS3模型:該模型同樣是為了描述杠桿效應,模型如下:

βdRVt+βwRVt-4,t+βmRVt-21,t+ωt+h
(24)

HAR-CSJ模型[18]:在HAR-RV-PS2的基礎上加入了SJVt周平均滯后和月平均滯后并用式(16)中的C代替RV,因此模型表達式如下:
RVt+h=c+φSJVt+φwSJVt-4,t+φmSJVt-21,t+
βbpvBPVt+βdCt+βwCt-4,t+βmCt-21,t+ωt+h
(25)
HAR-CSJd模型:在HAR-RV-PS3的基礎上做了類似于上述的變換,具體模型如下:

βbpvBPVt+βdCt+βwCt-4,t+βmCt-21,t+ωt+h
(26)
HAR-ARJ模型:該模型由Prokopczuk et al.[20]受到Tauchen and Zhou[19]的啟發而提出,其主要思想是跳躍的符號對波動的影響是非對稱的,模型表達式如下:
RVt+h=c+βdRVt+βwRVt-4,t+βmRVt-21,t+
(27)

綜上所述,本文的高頻波動預測模型包括HAR-RV、HAR-RV-J、HAR-RV-CJ、HAR-S-RV-J、HAR-RV-PS2、HAR-RV-PS3、HAR-CSJ、HAR-CSJd和HAR-ARJ,共計9個模型。
如上所述,不同的模型可以得到不同的波動率預測值,但低頻模型和高頻模型的預測值是在不同的理論體系下得出的,不具有可比性,因此不能直接用于動態VaR的預測。一種行之有效的方法是建立高頻與低頻模型之間的連接函數(link function),將高頻模型的預測值轉換為和低頻模型一樣的標準,即使得擬合區間的標準殘差具有單位方差。首先建立如下的回歸模型[40,41]:
(28)

(29)


(30)
如果動態VaR測度模型是合理的,那么碰撞序列Ht應為服從概率為1-q的貝努利(Bernoulli)獨立同分布序列,因此建立如下原假設:
H0:Ht~i.i.d.Bernoulli(1-q)
(31)

LR=-2ln[qT0(1-q)T1]+
(32)
其中,T1是序列Ht中取值為1的總個數,T0是序列中取值為0的總個數,f為實際測度的失敗率,即:
(33)
因此,對原假設H0的檢驗可能通過檢驗統計量LR是否服從自由度為1的卡方分布來實現。若LR檢驗結果不顯著,則接受原假設,說明該模型能夠較好的測度市場的動態風險,模型是準確可靠的。
本文數據為上證綜指5分鐘高頻數據,樣本期為2000年1月4日至2015年5月29日,共計3724個交易日(剔除了一個有大量缺失數據的交易日),由于參數估計區間為1000個樣本因此樣本外共計2724個交易日。上海股市交易日的交易時間段為9:30~11:30以及13:00~15:00共計4個小時,因此每個交易日間隔5分鐘采樣都可以獲得48個交易數據,加上開盤價共49個數據,因而可計算出48個日內高頻收益率,全部樣本合計182476個高頻價格數據。上述模型中部分變量的描述性統計結果見表1所示。

表1 部分變量的描述性統計
從表1可以看出,所有變量都呈現出顯著的有偏(Skewed)性和尖峰(Leptokurtic)特征,說明變量分布的非正態性,Jarque-Bera統計量的結果也證明了所有變量都拒絕正態分布假設;從BDS檢驗和Ljung-Box Q統計量的結果來看,變量拒絕獨立同分布假設,具有顯著的自相關性,因此可以認為變量具有長記憶(Long Memory)性;ADF檢驗結果表明所有變量均為平穩序列,因此可以直接用于進一步的建模分析。
由于本研究的主要方法為樣本外滾動預測,因此每預測一次就需要重新估計一次模型參數,表2和表3報告的樣本內參數估計結果僅為第一次樣本外預測時估計的參數結果。

表2 低頻模型樣本內參數估計結果

表3 高頻模型樣本內參數估計結果
從表2和表3的結果可以看出,所有模型的常數項、周平均波動和月平均波動系數均在1%下顯著,滯后一天的波動大多數情況下顯著,其解釋變量部分顯著,說明無論哪個模型都有一定的解釋作用,因此要判斷哪個模型更精確還需要進一步預測檢驗。
風險測度模型的預測能力主要看其樣本外的預測效果,樣本內的比較意義不大,因此本文并沒有進行樣本內的VaR建模,而是直接對各種模型的樣本外VaR進行預測。為了對信息進行更新,同時摒棄過于陳舊的信息,因此采用固定時間窗口寬度的樣本外1步滾動預測法進行預測,具體的預測步驟如下:
Step1令i=1000,選擇第i-999至第i個交易日為樣本內參數估計區間(共計1000個樣本,約4年),估計出各低頻模型(包括GARCH、GJR、APARCH和FIGARCH在n、t、st三種分布下的12個模型,下同)的參數,計算出各交易日的已實現波動率RVt(t=i-999,..,i)和條件已實現波動率RVt|t-1(t=i-998,…,i);
Step2估計出各高頻模型(包括HAR-RV、HAR-RV-J、HAR-RV-CJ、HAR-S-RV-J、HAR-RV-PS2、HAR-RV-PS3、HAR-CSJ、HAR-CSJd和HAR-ARJ共9個模型)在樣本內的參數值,并根據模型建立低頻模型和高頻模型的連接函數,估計連接函數的參數;


Step5根據公式(29)分別計算出各個模型的下一交易日風險價值預測值VaRi+1;
Step6令i=1001,重復Step 1~Step 5,直到得出所有預測值。
圖1展示了HAR-RV模型在樣本外第1~500天的VaR預測值及對應的收益率序列(q=0.95),從圖中可以看出,無論是多頭還是空頭的VaR值都會隨著收益率的變化而變化,當收益波動大時VaR的值也會有較大幅度的變化,收益波動小時VaR值的變化也較小,說明動態VaR能夠根據市場行情的變化(即信息的變化)及時做出反應。

圖1 樣本外第1~500天HAR-RV模型的VaR預測值(q=0.95)
上面對VaR的預測到底是否可靠呢?如上所做的分析只是粗略的分析,不代表VaR的預測一定可靠,下面將通過嚴謹的統計檢驗進一步分析VaR預測的可靠性,從而達到判斷模型優劣的目的。我們分別對q=0.9,0.95, 0.99, 0.995四個置信水平下的VaR進行了預測和檢驗,多頭LR檢驗結果見表4所示。

表4 多頭VaR的LR檢驗
根據LR檢驗的基本原理可知,實際失敗次數與期望失敗次數越接近表明模型的預測能力越強,P值越大,因此可根據P值的大小來比較模型的預測精度。若實際失敗次數高于期望失敗次數表明模型低估風險從而出現較多的損失超出預測值的情況發生,反之若實際失敗次數低于期望失敗次數表明模型傾向于高估風險。從表4可以看出,不同的低頻模型在風險預測的能力上差異極大,在10%的顯著性水平下拒絕原假設的結果中,APARCH模型拒絕次數最少(拒絕原假設意味著模型不可靠),其他三個模型相同,從分布來看,帶st分布的模型拒絕原假設次數最少,其次是t分布,最差的是n分布;在拒絕原假設的結果中,n分布在低置信水平下(90%)傾向于高估風險,在高置信水平下(99%和99.5%)傾向于低估風險,t分布傾向于低估風險(FIGARCH-t除外),st分布傾向于高估風險;從P值的數值上看,除FIGARCH模型在高置信水平下有點異常外,帶有不同分布的相同模型,風險預測精度大致是st分布最佳,其次t分布,最后是n分布;與低頻模型明顯不同的是,高頻模型的預測能力極其接近,在較低的置信水平下(90%和95%),幾乎所有的高頻模型都在10%的顯著性水平下都拒絕了原假設(HAR-RV-CJ在95%的置信水平下也僅僅是略大于10%),表明高頻模型對低風險的預測能力有限,但在高置信水平下(99%和99.5%)所有高頻模型都接受原假設,從預測失敗的次數上看,僅僅略小于期望次數,即略微偏向于高估風險(這種高估并不顯著),若從比較保守的角度來看的話則是非常理想的結果(低估風險可能造成更嚴重的后果);在99%的置信水平下,HAR-RV-PS3是所有模型中預測精度最高的模型,在99.5%的置信水平下,FIGARCH-n和HAR-CSJd是所有模型中預測精度最高的模型,但FIGARCH模型的結果表現出一定程度的異常性(特別是高置信水平下),結果的可靠性不高。因此,綜合以上分析,低頻模型具有較強的隨機性,高頻模型具有更好的穩健性,盡管高頻模型對低風險的預測能力較差,但對高風險的預測能力表現突出。以上都是對多頭的分析,那么空頭是否具有類似的結論呢?對空頭VaR的LR檢驗結果見表5。

表5 空頭VaR的LR檢驗
從表5可以看出,與多頭的LR檢驗類似,低頻模型之間的差異極大,高頻模型之間的差異不是特別明顯;在90%的置信水平下絕大多數低頻模型拒絕了原假設(在10%的顯著性水平下);從拒絕原假設的數量上看,GJR表現最佳,APARCH其次,最差的是FIGARCH;所有置信水平下均通過檢驗的只有GJR-n模型,雖然通過了檢驗但P值卻并不大;帶有不同分布的同一模型規律性并不明顯,帶st分布的模型并沒有像多頭一樣表現出更高的預測精度;高頻模型在空頭的VaR預測中取得了近乎完美的結果,沒有一次拒絕原假設;幾乎所有情況下高頻模型的實際失敗次數都比期望失敗次數稍低,在比較保守的情況下是一個比較理想的結果;在多頭中表現不錯的HAR-RV-PS3模型在空頭中仍然表現出色(90%、95%、99.5%,特別是90%和95%)。
另外,我們還從另外一個角度發現了高頻模型的一個優點,即相對于低頻模型而言,高頻模型預測的VaR序列具有更小的標準差,表6報告了各模型預測的VaR的標準差。
從表6可以看出,在絕大多數情況下,高頻模型預測的VaR序列的標準差比低頻模型小,也就是說如果根據高頻模型進行樣本外的風險價值預測并用于風險管理的話,對資產頭寸的調整要小于低頻模型,長期累積下來必定節約不少的交易成本,更適合風險管理的實踐操作。需要指出的是,在LR檢驗中表現較好的HAR-RV-PS3模型所預測的VaR序列的標準差也較小。
綜上所述,低頻模型在風險價值的預測上不同模型差異極大,綜合多頭和空頭的預測結果來看具有較強的隨機性,高頻預測模型無論是在多頭還是空頭的風險價值預測中都比低頻模型更穩定,模型之間的差異較小,并且總體來說高頻模型的樣本外預測效果要優于低頻模型,尤其是在對多頭的高風險水平下的預測和空頭風險價值的預測上。從預測的VaR序列的標準差來看,高頻模型絕大多數情況下具有比低頻更小的標準差,意味著更小的調整和更低的成本。

表6 VaR序列的標準差
本文分別運用12個低頻模型和9個高頻模型對我國上證指數進行風險預測,共預測出2724個樣本外動態VaR值,通過LR統計檢驗表明低頻模型在多頭風險的預測中規律性較強,與已有研究結論一致,但在空頭風險的預測中并沒有太強的規律性,無論是對多頭還是空頭的預測,低頻模型之間的差異極大,并且沒有一個模型能在所有情況下擊敗其他模型取得顯著的優勢,說明模型的表現具有一定的隨機性,可靠性不強;高頻模型無論在多頭還是空頭的風險預測中表現都非常穩定,模型之間的差異性較小、規律性強,雖然在多頭的低風險預測中高頻模型表現不佳,但對高風險的預測能力突出,對空頭的風險預測中無論是高風險還是低風險都有極佳的表現,其中HAR-RV-PS3模型在對多頭的高風險和空頭風險預測中表現較好;另外,通過計算預測的VaR序列的標準差可知,高頻模型預測的VaR序列具有更小的方差,更適合風險管理的實踐操作,在這方面HAR-RV-PS3模型仍然有不錯的表現。
高頻模型在風險價值預測中極其穩定的表現是其優勢所在,盡管在多頭的低風險預測中表現不佳,但由于在多頭的高風險和空頭的風險預測中表現突出,因此仍然具有較強的實用性。針對高頻模型穩定的表現,或許可以對模型進行進一步改進,達到最佳的預測效果,例如,在建立連接函數時改用其他低頻模型估計的條件方差進行擬合(本文僅用了最基本的GARCH模型),或者采用其他的連接函數,或者運用一些非對稱的方法對高頻模型建模,或者進一步挖掘對低風險直到重要預測作用的因素加入到預測模型之中。可以預期,隨著研究方法的不斷創新,高頻模型將在風險管理領域發揮著越來越重要的作用。