李靜
?
股票指數收益率分布研究
李靜
(同濟大學 經濟與管理學院,上海 201804)
分析了滬深300指數從2005-01-04—2018-04-13的價格數據,發現其日收益率分布具有左偏、尖峰厚尾的特征,不滿足正態分布;用高斯混合分布對滬深300指數日收益率進行擬合,并用基于BIC指標的EM算法求解混合分布參數,結果表明,高斯混合分布可以很好地捕捉到指數收益率的分布特征。
股指收益率;正態性檢驗;高斯混合分布;EM算法
金融資產收益率分布在現代風險管理理論中具有十分重要的作用。20世紀50年代以前,人們對金融資產風險的判斷主要是通過定性分析,具有較強的主觀性;20世紀80年代之后,金融風險度量方法進入了蓬勃發展的階段,相繼產生了Value at Risk(VaR)、Conditional Value at Risk(CVaR)、Coherent Risk Measure等風險度量方法及理論,其中,VaR和CVaR在行業中的應用最為普遍。
在求VaR或CVaR的解析解時,需要對金融資產收益率的分布形式進行假設,通常假定其服從正態分布。但Mandelbrot(1963)研究發現,金融資產的收益率具有異方差性,并不服從正態分布[1]。李萌、葉俊(2003)研究證明了上證指數和深證成分指數收益率也存在異方差現象,不滿足正態分布[2]。既然正態分布無法完全描述金融資產收益率的分布特征,則可以考慮使用高斯混合分布來代替正態分布。袁禮海、李釗等(2007)證明了有限高斯混合分布可以逼近任意概率分布密度函數[3]。
本文以能夠反映中國證券市場股票價格變動概況的滬深300指數為研究對象,對其收益率的分布特征進行了研究。本文內容按照以下方式進行組織:第一部分對數據的描述性統計量進行分析,然后研究了其是否滿足正態分布;第二部分用高斯混合分布對指數收益率進行擬合,并用基于BIC指標的EM算法求解混合分布參數,然后檢驗混合分布的擬合效果;第三部分對整篇文章進行了總結。
本文以滬深300指數收益率為研究對象,對其分布形式進行了研究。這里的收益率是指以連續復利的方式計算求得的日收益率,即:
t=100*log(t/t-1). (1)
式(1)中:t為第天股票指數的收益率;t為第天股票指數的收盤價格。
因為滬深300指數的基日為2004-12-31,所以,選定的計算期為2005-01-04—2018-04-13.
從表1中可以看出,此次研究的樣本容量為3 225;股指收益率的偏度為-0.529 2,呈負偏態,說明出現較大的負收益率的概率相比于出現較大的正收益率的概率會更大;股指收益率的峰度為6.779 0,大于正態分布的峰度3,具有尖峰厚尾的特征。
基于以上分析,有理由相信滬深300股指收益率并非服從正態分布。以下用幾種方法對滬深300指數是否服從正態分布進行了檢驗。
表1 滬深300股指收益率描述性統計量
樣本容量最小值最大值均值方差偏度峰度 3 225-9.694 98.931 00.042 51.772 1-0.529 26.779 0
圖1是滬深300指數收益率的分布直方圖,圖中的曲線為正態分布概率密度函數,其均值和方差分別為用樣本數據估計的均值和方差,即:

從圖1中可以看出,樣本數據的分布具有較為明顯的尖峰、尾厚特征。圖2是用樣本數據繪制的Q-Q Plot正態檢驗圖,圖的橫坐標為正態分布理論分位數,圖的縱坐標為樣本數據分位數。如果樣本數據滿足正態分布,則散點的分布應大致成一條直線,并分布在圖中直線的附近。但從圖2可以看出,散點的分布并非成一條直線,且與圖中的直線存在較大的偏離,由此可見樣本數據不滿足正態分布。

圖2 Q-Q Plot正態檢驗圖
用三種常用的統計量正態性檢驗方法對樣本數據進行正態性檢驗,檢驗結果如表2所示。Kolmogorov-Smirnov(K-S)檢驗是一種基于經驗分布函數的檢驗方法,通過將樣本數據的經驗分布與正態分布相比較,判斷樣本數據是否滿足正態分布。Shapiro-Wilk(S-W)檢驗是一種專門用于正態性檢驗的方法,當樣本容量較小時較多采用。Jarque-Bera(J-B)檢驗是一種偏度峰度聯合檢驗方法,即檢驗樣本數據的偏度和峰度是否均滿足正態分布情況下的要求。限于篇幅,本文僅對幾種統計量正態性檢驗方法進行簡單概述,具體原理及適用情況請參考馬興華、張晉昕(2014)所著的文獻[4]。
進行檢驗時可以根據具體問題的需要設定顯著性水平,如果想減少第一類錯誤,可以將定的小一些;如果想減少第二類錯誤,可以將定的大一些。在此處,令=0.05.從表2中可以看出,各類檢驗方法的值均小于0.05,所以可以認為,滬深300股指收益率不服從正態分布。
表2 統計量正態性檢驗表
檢驗類型K-S檢驗S-W檢驗J-B檢驗 統計量值0.089 40.940 12 069.558 1 p-value2.2e-162.2e-162.2e-16
混合分布模型最早可追溯至1886年Newcomb對生物性狀的研究,其主要用于對一組樣本進行分類,或是擬合樣本未知的概率密度函數。因為高斯分布的密度函數形式簡單,只由均值和方差兩個參數控制,但混合后又具有很高的靈活性,而且存在大量的相關文獻可以參考,所以選擇用高斯混合分布對滬深300指數收益率的密度函數進行擬合。高斯混合分布的密度函數如下:

EM(Expectation Maximization)算法是一種迭代優化算法,主要有2種應用:①在有數據缺失的情況下估計概率模型的參數;②在似然函數不能求導或導數求解比較復雜的情況下估計概率模型的參數[5]。該算法將隨機變量的一組觀測看作是不完全數據,引入隱含變量,使與一起形成完全數據,以解決在進行最大似然估計時存在數據缺失或似然函數導數求解困難的問題。算法每次迭代由兩步組成:



雖然EM算法能夠求解混合模型中各個未知參數的值,但卻需要提前指定模型中所含成分的數量,即的值。當指定的成分數量過多時,可能造成算法不收斂、過度擬合等問題,但如果指定的成分數量過少,又不能很好地捕捉樣本數據的分布特征。
為了解決模型成分數量選擇問題,在EM算法中加入貝葉斯信息準則(Bayesian Information Criterion)[7],貝葉斯信息準則(BIC)的形式為:

給定混合分布成分數的最大取值max,分別計算當=1,2,3,…,max時的BIC值,取BIC最大時的值作為混合模型最優成分數量。一系列基于BIC值進行模型選擇的應用均給出了很好的結果,Fraley、Raftery(2002)的研究中給出了一系列可參考的相關文獻。
在R語言中用基于BIC的EM算法求解高斯混合分布的參數,算法給出的高斯混合分布最優成分數量是3,即滬深300指數收益率的分布可以用3個正態分布的混合來擬合,各個成分的混合概率、均值、方差如表3所示。
表3 高斯混合分布參數
成分混合概率均值方差 10.184 0-0.595 09.912 6 20.279 80.044 90.285 5 30.536 20.260 12.116 4
因為成分數量為3,所以可將樣本數據分為3類,從各成分均值上可以看出,成分1,2,3分別捕捉了收益率均值為負、0、正的樣本數據的分布特征,收益率均值為負的樣本數據的方差最大,均值的絕對值也最大。根據表3中的參數便可寫出混合分布的密度函數,從而可以得到任意收益率出現的概率以及對滬深300指數進行風險度量(比如計算VaR、ES等)。
圖3是在樣本數據分布直方圖的基礎上繪制的高斯混合分布密度函數曲線,從圖3中可以看出,相對于正態分布,高斯混合分布很好地捕捉到了樣本數據的分布特征。圖4是累積分布函數診斷圖,黑色實線是高斯混合分布的累計分布函數曲線,灰色虛線是樣本數據經驗累計分布函數曲線,兩條曲線幾乎完全重合,即高斯混合分布對樣本數據進行了非常好的擬合。

圖3 混合分布密度曲線圖

圖4 累計分布函數診斷圖
本文以滬深300指數為研究對象,對其日收益率的分布形式進行了研究,對收益率的正態性進行了檢驗,發現滬深300指數的收益率不服從正態分布;用高斯混合分布對股指收益率進行擬合,最終結果表明,高斯混合分布可以很好地捕捉滬深300股指收益率的分布特征。
此研究結果的意義在于:①驗證了股票指數收益率的分布不滿足正態分布;②證明了用高斯混合分布可以很好地描述股票指數收益率的分布特征;③為度量金融資產的風險提供了一種更好的描述金融資產收益率分布的工具。滬深300股指收益率的分布具有左偏、尖峰厚尾的特征,如果假設其服從正態分布并對其進行風險度量,則會低估其存在的風險。而以高斯混合分布為基礎計算其風險值,可以更加精確地度量其存在的風險,不僅可以降低投資者的損失,還有助與維持金融體系的穩定。
[1]Mandelbrot B.The Variation of Certain Speculative Prices[J].Journal of Business,1963,36(04):394-419.
[2]李萌,葉俊.中國股票市場風險的實證分析研究[J].數理統計與管理,2003,22(04):12-17.
[3]袁禮海,李釗,宋建社.利用高斯混合模型實現概率密度函數逼近[J].無線電通訊技術,2007,33(02):20-22.
[4]馬興華,張晉昕.數值變量正態性檢驗常用方法的對比[J].循證醫學,2014,14(02):123-128.
[5]BILMES J A. A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models[R].Berkeley California USA:International Computer Science Institute,1998.
[6]張宏東.EM算法及其應用[D].濟南:山東大學金融研究院,2014.
[7]FRALEY C,RAFTERY A E. Model-Based Clustering,Discriminant Analysis,and Density Estimation[J].Journal of the American Statistical Association,2002,97(458):611-631.
2095-6835(2018)24-0059-03
F224
A
10.15913/j.cnki.kjycx.2018.24.059
〔編輯:張思楠〕