陳明光,王源昌
(云南師范大學 數學學院,昆明 650500)
尖峰厚尾性是許多數據具有的分布特點,如金融資產收益率、保險損失數據等。以參數方法擬合此類數據主要有兩種方式:一種是單一分布擬合,即以單一分布來描述數據的分布特征[1—3];另一種是構造分段函數,即針對數據的不同階段分別采用相應分布擬合數據,最后綜合構造最終分布。后者包括拼接分布法和組合分布法,兩者都以多個分布擬合數據,但又有明顯區別:拼接分布法不限分布個數,不關心各階段分布間的連續性和可導性,最后所得分布往往是各階段分布的碎片組合[4];組合分布法一般采用兩個分布,且在關注擬合效果的同時,通過設置閾值使最后構造的分布處處連續和可導。顯然,組合分布法相比拼接分布法更有優勢。如Luckstead 和Devadoss(2017)[5]構造雙帕累托尾部對數正態分布擬合美國城市規模數據,效果良好。
Corry 和Ananda(2005)[6]首次提出組合分布思想并建立了固定權重的組合分布模型,其后,Preda 和Ciumara(2006)[7]、Corry(2009)[8]進行了擴展,又經Scollnik(2007)[9]、Nadarajah和Bakar(2014)[10]發展出權重可變且連續的組合分布模型,其在實際研究中已被廣泛應用。王明高和孟生旺(2014,2017)[11,12]以不同分布組合構建三種組合分布并擬合了保險損失數據和巨災損失數據;徐天群等(2009)[13]以Laplace 分布和Gumbel 分布構建組合分布來擬合深證成指收益率;王永茂和楊曉婷(2014)[14]構建了LogGED-GPD 組合分布來擬合全球洪水巨災損失。
盡管組合分布的研究得到不斷推進和擴展,但其閾值求解難度始終阻礙著某些組合分布的構造。那么,組合分布是否能以局部分布的峰值點為閾值點?又是否可采用單一分布構造組合分布?基于以上思考,考慮某些數據的尖峰厚尾特征,本文采用Gamma 分布構造組合分布。Gamma 分布的峰度系數是關于形狀參數α的函數,本文希望組合分布能繼承此特點,使之具有顯著的尖峰厚尾特征。因此本文以α>1 時Gamma 分布的極值點作為閾值點,通過折疊、平移和伸縮變換構造完整的組合分布,如此可解決閾值點難求的問題。同時,擴展Gamma 分布的應用范圍,使得新分布可應用于實數范圍內的數據。
Gamma 分布是基于Gamma 函數的正向分布,含有形狀參數α和尺度參數λ,可記為Ga(α,λ)。當參數α>1時,Gamma 分布的密度函數在處取極大值,即此處密度函數的導數值為零。本文基于Gamma分布的這一性質構造折疊Gamma分布。

圖1 折疊Gamma分布的構造過程
由圖1可知,保留部與折疊保留部的函數解析式為:
準折疊Gamma 分布右半部和左半部的函數解析式為:
為了滿足分布的正則性,令Gamma 分布舍棄部的積分為k,最終可得:
借助k對p1*(x)和p*2(x)進行同比例壓縮,使其定義域內的積分均為1/2即可,即有:
定理1:若隨機變量X服從折疊Gamma分布,則其密度函數具有如下形式:
證明:由式(2)易證折疊Gamma分布的密度函數為式(3)。
本文成功基于Gamma 分布構造了折疊Gamma 分布,折疊Gamma 分布不僅在實數域內任意點可導,滿足非負性和正則性,而且適用于研究實數范圍的數據。
1.2.1 對稱性
由圖1可知,折疊Gamma分布顯然關于x=0 對稱,故其任意奇數階矩為零,即:
其中,k為奇數。同時,分布的對稱性表明其偏度系數始終為零。
1.2.2 尖峰厚尾性
本文將證明折疊Gamma分布的峰度系數是參數α的函數,且分布往往具有尖峰厚尾特征。
定理2:對于折疊Gamma分布,其方差存在,且為:
證明:結合分布的對稱性和式(2)有:
即有:
定理3:折疊Gamma 分布的峰度系數存在,且為參數α的函數。
定理3 表明折疊Gamma 分布的峰度系數為參數α的函數。本文將以數值模擬的方式證明:參數α在較大范圍內的分布具有尖峰厚尾性。具體過程為:在(1,80)這一范圍內生成1000 個均勻分布隨機數,然后將其從小到大排序并依次代入式(4)計算相應峰度系數值,結果如下頁圖2所示。

圖2 折疊Gamma分布峰度變化
由圖2 可知,隨著參數α的增加,折疊Gamma 分布峰度系數的衰減速度越來越慢,直至趨于零;當α達到80時,峰度系數依然在3.15以上。由此可知,折疊Gamma分布的峰度系數在參數α的常用范圍內大于正態分布的峰度系數,具有明顯的尖峰厚尾性。
對折疊Gamma分布而言,需要估計參數α和λ,且分布的各奇數階矩為零,因而需要采用其二階矩和四階矩構建方程。設樣本二階、四階原點矩分別為A2、A4,由定理2和定理3可知,折疊Gamma分布的矩估計方程如下:
設θ=(α,λ),在Newton-Raphson 算法下,θ矩估計的第t+1次迭代式為:
其中,J(θ)為Jacobi矩陣,S(θ)為梯度向量,且有:
由于折疊Gamma 分布的密度函數含有Γ(α,α-1)項,導致其對參數α的導數過于復雜,因而在極大似然估計中仍采用Newton-Raphson 算法迭代出參數α和λ的近似估計結果。
設θ=(α,λ),在Newton-Raphson 算法下,θ極大似然估計的第t+1次迭代式為:
其中,H(θ)為Hessian 矩陣,S(θ)為梯度向量。且有:
本文討論了折疊Gamma分布在Newton-Raphson算法下的矩估計和極大似然估計,給出了相應估計的迭代式。
本文將以數值模擬證明有關折疊Gamma分布參數估計方法的有效性,表明可將其用于實際數據的研究。在Newton-Raphson 算法下以相鄰兩次迭代結果之差的絕對值小于105作為迭代結束條件。
折疊Gamma 分布可在實數域內完整取值,故本文以第二類舍選法生成理論隨機數。同時本文以α=4,λ=2為真值,在樣本量為200、500、1000、2000、5000、10000、20000和50000時分別生成折疊Gamma分布隨機數。
本文以相同隨機數生成方法生成8組隨機數,分別作為樣本數據對折疊Gamma分布進行矩估計(MME)和極大似然估計(MLE),估計結果見下頁表1。

表1 模擬數據在Newton-Raphson算法下的估計結果
由表1 可知,隨著樣本量的增加,整體而言矩估計下參數α和λ的絕對誤差(AE)隨樣本量增大呈減小趨勢。在極大似然估計中,參數α估計的絕對誤差隨樣本量增加的變化趨勢不穩定,但整體依然較小;參數λ估計的絕對誤差總體呈減小趨勢且都在0.1以下。總體而言,在Newton-Raphson算法下,矩估計和極大似然估計中參數α和λ的估計結果隨著樣本量增加逐漸趨于真值,表明估計結果較為可靠。
除了單組估計外,本文還用多組隨機數進行參數估計,以估計的平均結果考察兩種方法的可靠性。因而,本文在各樣本量下用50 組隨機數進行參數估計,并計算參數的估計結果、絕對誤差和均方誤差(MSE),結果見表2。

表2 模擬數據在Newton-Raphson算法下的平均估計結果(50組)
由表2 可知,與單組估計相似,矩估計和極大似然估計中參數α和λ的絕對誤差總體依然隨樣本量增大呈減小趨勢。總體而言,參數α估計的均方誤差隨樣本量增大而減小,且α的均方誤差在極大似然估計下更小;參數λ估計的均方誤差隨樣本量增大而減小,且在極大似然估計下更小。因而,隨著樣本量增大,參數估計的均方誤差趨于減小,同時,極大似然估計下的均方誤差總體小于矩估計,即極大似然估計結果相對更為可靠。
本文以滬深300指數收益率為例,將折疊Gamma分布用于實際金融收益率數據的擬合,并與正態分布對比,檢驗其效果是否確實優于正態分布。本文對折疊Gamma分布進行矩估計和極大似然估計,由于在正態分布下兩種估計的參數估計結果相同,因而未對其加以區分,統一用Normal 表示。同時,算法迭代結束條件與數值模擬時相同。
選取2017 年12 月14 日 至2022 年6 月28 日滬 深300指數收益率數據作為實證研究數據,為了剔除新冠肺炎疫情這一突發事件的影響,本文剔除了2020 年1 月3 日至6月4日的100個交易日數據,整體共有1000個交易日的收益率數據。整體數據分布如圖3所示。

圖3 滬深300指數收益率頻率分布直方圖
由圖3可知,滬深300指數收益率主要集中在(-3,3),對稱性較強。經計算,其峰度系數為5.09,大于正態分布的峰度系數,且Anscombe-Glynn 峰度檢驗的P 值遠小于0.01,即峰度系數顯著大于3,數據具有顯著的尖峰厚尾性。故以此數據檢驗折疊Gamma分布對尖峰厚尾數據的擬合效果是合適的。
以所選數據為樣本,折疊Gamma 分布和正態分布的參數估計結果及相應AIC和BIC的計算結果見表3。

表3 滬深300指數收益率參數估計結果
由表3可知,對于折疊Gamma分布,在矩估計下,參數α和λ的估計值都介于1 到2 之間。在極大似然估計下,參數α只有在樣本量為800 時為8.669,其余各組均接近6;參數λ只有在樣本量為500時為4.492,其余各組均在2到3之間。在正態分布的估計中,參數μ都處于0附近,參數σ2則在1.5左右,具有比標準正態分布更“矮胖”的分布形態。
同時,表3 呈現了各擬合分布下的AIC 和BIC 值。對于折疊Gamma 分布和正態分布,兩種估計下折疊Gamma分布的AIC和BIC值整體小于正態分布,因而可認為折疊Gamma分布的數據擬合效果優于正態分布。對于折疊正態分布的兩種估計方法,除了n=200 以外,其余各組數據矩估計的AIC和BIC值都明顯小于極大似然估計,因而隨著樣本量增大,矩估計下的分布更適合擬合數據。
為了更加直觀地認識折疊Gamma 分布對滬深300 指數收益率的擬合情況,本文繪制了兩種分布對數據的擬合圖,如圖4所示。

圖4 滬深300指數擬合效果
圖4 呈現了兩種分布對各組樣本數據的擬合效果。對于折疊Gamma分布,隨著樣本量增大,矩估計下的分布與數據的吻合程度逐漸提高,對數據的擬合效果變好;而極大似然估計的擬合效果在各組數據中差異不大。同時,在各擬合圖中,矩估計的擬合分布相對于極大似然估計具有更明顯的尖峰特性,極大似然估計的擬合分布相對平滑。相對于正態分布而言,矩估計和極大似然估計下的折疊Gamma 分布明顯都更具有擬合優勢,擬合分布與數據的契合度更高。這與AIC和BIC判別結果一致。
本文基于滬深300 指數收益率各數據樣本量下的已有估計分布對2022 年6 月29 日至8 月31 日的滬深300 指數收益率進行預測。先以第二類舍選法在已有估計分布下生成與預測部分數量相同的隨機數作為預測收益率,比較相應時段的實際收益率與隨機數的分布差異,以此衡量各估計分布的預測效果。實際收益率與預測隨機數分布情況如圖5所示。

圖5 滬深300指數實際收益率與預測隨機數盒型圖
圖5 呈現了實際收益率與遞增數據樣本量下各分布下預測隨機數的分布情況。在各樣本量下,正態分布預測隨機數與實際收益率的分布差異最大,折疊Gamma 分布矩估計和極大似然估計預測隨機數的分布與實際收益率相對更接近,但兩者對比則隨樣本量遞增表現不一。這表明兩種估計下折疊Gamma分布的預測效果雖然會隨樣本量遞增而變化,但總體上優于正態分布,即折疊Gamma分布的預測效果相對更好。
為了量化各組預測隨機數與實際收益率的分布差異,本文以各組隨機數與收益率分布的JS 距離作為判別依據,計算結果如表4所示。

表4 滬深300指數預測隨機數與實際收益率的JS距離
由表4 可知,在各數據樣本量下,正態預測隨機數與實際收益率的JS 距離最大,折疊Gamma 分布兩種估計下預測隨機數與實際收益率的JS 距離相對更小,且全局而言依然小于正態預測隨機數與實際收益率的JS距離的最小值。這進一步表明折疊Gamma分布的預測效果優于正態分布。
本文從考慮分布的尖峰厚尾特征出發,鑒于Gamma分布的峰度系數可由參數α控制,以Gamma 分布為基礎構造一種新分布,使其在繼承Gamma 分布峰度系數特征的同時彌補Gamma分布只能應用于正向數據的缺陷。基于以上考慮,本文由Gamma 分布成功構造了滿足以上特征的新分布,將其命名為折疊Gamma 分布。折疊Gamma分布的構造在采用組合分布構造思想的同時還避免了閾值求解難題。在成功構造分布的基礎上,本文簡單討論了分布的性質,并在Newton-Raphson 算法下給出了分布的矩估計和極大似然估計,接著以數值模擬實驗證明了估計的可行性,最后以滬深300指數收益率數據進行實證對比分析,表明折疊Gamma 分布相比于正態分布更適合擬合具有尖峰厚尾特征的數據。
本文構造了一種新的、具有尖峰厚尾特征的對稱分布,為研究具有此種特征的數據,特別是金融數據的分布特征提供了一個新的分布選擇。另外,本文構造的折疊Gamma分布在繼承Gamma分布特征的同時擴展了Gamma分布的應用范圍,將Gamma 分布的左偏特性擴展到折疊Gamma分布的對稱性,使之能移植到實數范圍的數據。
由于折疊Gamma分布的密度函數含有關于參數α的上不完全Gamma 函數,因而本文未能得到分布參數的確切估計量,也未能挖掘分布及其估計量更多的統計性質。因此,在進一步的研究中,探尋并描述折疊Gamma分布更多優良的統計性質是一個重要的研究方向。