劉曼莉,李興緒
(云南財經大學 統計與數學學院,昆明650221)
非壽險精算中的數據尾部擬合與保費厘定
劉曼莉,李興緒
(云南財經大學 統計與數學學院,昆明650221)
文章討論了極值分布對非壽險精算中損失數據尾部的擬合和保費厘定方法,并進行了實例計算。研究表明:必須對應用極值分布的條件進行檢驗;對門限值確定的三種方法中自適應選擇算法是較好方法;廣義帕累托分布參數MLE估計能得到比較精確的估計結果。文章還給出了非壽險損失的超賠再保險純保費的計算方法。
廣義帕累托分布;尾部擬合;保費厘定;非壽險
非壽險是指除人身保險以外的保險業務,主要包括財產保險、責任保險、信用保險、保證保險等,在我國通常把非壽險稱為財產保險,也就是采用了所謂的廣義的財產保險的概念。非壽險產品的設計以非壽險精算為基礎。非壽險精算主要是以非壽險中的不確定性為研究對象,通過建立隨機模型對險種損失進行刻畫,研究未來的理賠規律,在此基礎上建立費率厘定和準備金提取等方面的理論基礎;通過對險種的賠付數據進行收集和分析,確定未來的費率結構,根據歷史數據利用合理方法確定準備金提取的額度及安排合理的再保險方式等。精算在險種的開發設計、費率厘定到準備金的提取以及再保險等方面都起到了核心作用。
非壽險精算工作的基礎是損失數據分布擬合,在對非壽險損失數據分布擬合中,經常會遇到一些損失數額巨大的觀測值,一般的方法只能對數據分布的中心部分得到一個精確的數據生成過程,而不能很好擬合數據的尾部,即那些損失數額巨大的觀測并沒有得到精確的數據生成過程。面對這樣的問題,將那些損失數額巨大的觀測值視為異常點而不予考慮,固然可以得到一個相對漂亮的模型,但對非壽險企業的全面、客觀的風險控制和精算過程來說卻是極為不科學的。王新軍[1](2001)對非壽險中的損失分布擬合方法進行了討論,但沒有考慮數據尾部的擬合方法;Alexander J.McNeil[2](1997)利用極值理論討論了非壽險數據的尾部擬合問題,但沒有對極值理論的應用條件進行檢驗;Alexander J.McNeil[3](1998)還進一步研究了利用極值理論和超越門限值的方法(Peak Over Threshold,簡稱POT)對非壽險數據尾部擬合的有效性。已有的研究成果,強調利用極值理論來擬合非壽險數據尾部,而忽視了對其應用條件的檢驗和最優門限值的選取研究。本文擬結合實際數據,重點討論非壽險數據尾部擬合中極值理論應用條件檢驗和最優門限值的選取問題,給出險位超賠再保險的純保費計算方法,以期能對非壽險損失的精算問題有所借鑒。
在非壽險損失分布的擬合過程,首先要做的工作是判斷損失數據是否存在一個厚尾,如果損失數據不具有厚尾,一般的正態分布或者對數正態分布就能夠對損失數據的尾部進行精確的描述;其次,一旦確定損失數據的尾部的確存在厚尾,方法之一是應用極值理論中的廣義帕累托分布來擬合損失數據;但并不是所有存在厚尾的數據都可以應用廣義帕累托分布來擬合,必須進行應用條件的最大吸引域條件檢驗;再次,在確定可以使用廣義帕累托分布來擬合存在厚尾的數據之后,一個重要的問題就是對損失數據進行分割,即找到一個科學的、適當的門限值。只有找到了一個恰當的門限值,對廣義帕累托分布的參數估計才能得到一個合理的結果。
對損失數據是否存在厚尾的檢測方法主要有:指數QQ圖和平均超出函數。
(1)指數QQ圖。對損失數據與標準的指數分布作QQ圖是判斷損失數據是否存在厚尾的重要方法之一,它可以直觀的檢驗損失數據是否來自于指數分布的原假設。QQ圖可以寫為下面的形式:

其中,Xk,n表示順序統計量,G0,1-1表示指數分布 (或者廣義帕累托分布)。
如果損失數據來自于一個指數分布,那么QQ圖將近似于一條直線。一般地,一個凹面的偏離直線的QQ圖被認為是損失數據存在厚尾的分布特性;一個凸面的偏離直線的QQ圖被認為是損失數據存在短尾的分布特性。
(2)平均超出函數。平均超出函數是對損失數據厚尾進行檢測的方法之一。定義為:

其中,Fu(x)=F[u](x+u)=,x≥0
當平均超出函數表現為一條直線時,認為損失數據存在厚尾。但平均超出函數總體上是未知的,在實際應用中用樣本平均超出函數來近似。樣本平均超出函數為:
{(u,en(u)),Xn,n
其中,en(u)=,Xn,n為順序統計量。
在對樣本極值進行研究中被證明十分重要的分布是極值分布族。這個極值分布族可以表示為:

其中 γ,-∞<μ<∞,∞>0,這個模型有三個參數:位置參數μ,刻度參數σ,形狀參數γ。形狀參數γ稱為廣義極值分布(GEV)的極值指數,也稱為尾指數;作為廣義極值分布的三個特例,當 γ>0時為 Fréchet分布;當 γ<0時為 Weibull分布;當γ=0時為Gumbel分布。在廣義極值分布中,我們的任務就變為通過數據推斷極值指數,而不需要預先確定極值分布的形式。
Fisher-Tippett定理 假設有來自分布F的相互獨立的隨機觀測X1,X2…Xn…,將前n個觀測值的最大值表示為Mn=max(X1…Xn),那么如果存在適當的常數列an>0和bn,使得正態化的極大值序列(Mn-bn)/an,收斂到下面的非退化分布G(x),即有成立。如果這個條件成立,則稱分布F屬于極值分布G(x)的最大吸引域,表示為F∈MDA(G)。Fisher-Tippett[6](1928)年證明:

F∈MDA(G)圯G對于某個形狀參數γ成立
使得條件(1)成立的分布F有很多,但是并不是所有的分布都能滿足條件(1),例如poisson分布和幾何分布就不屬于極值分布的最大吸引域。
在上面的定義下,極值最大吸引域檢驗的原假設可以表述為:
H0:F∈D(Gγ)for somereal γ
Dietrich et al[7](2002)年提出了一個檢驗統計量,記為En,這個統計量定義為:

對于某個η>0,統計量En收斂到下面的分布

其中 γ+=max(γ,0),γ-=min(γ,0),W 是一個布朗運動,隨機變量 P 和 P 是與布朗運動有關的積分。和分別是對 γ+和γ-的估計量,在這里估計方法被指定為矩估計。因此,隨機變量Eγ只與γ和η的取值有關。為了完成檢驗,首先必須選擇一個適當的η值,這個問題Dietrich et al(2002)只討論了η=2 的情況,Jürg Hüsler和 Deyuan Li[8](2006)對最優 η 的選擇問題進行了詳細討論。在確定了η的值之后,必須利用矩估計計算和,然后計算(2)中的檢驗統計量。接下來要計算分布 E贊對應的分位數 Q贊,如果贊<0,必須利用 線 性插值來 計
γ1-α,γ算分位數 Q1-α,γ贊。

其中,γ贊=γ贊++γ贊-。 最后,將檢驗統計量的值與臨界值比較,α 為置信水平,如果En>Q1-α,γ贊,那么在犯第一類錯誤為 α 的水平下,拒絕原假設。
門限值的選取在廣義帕累托模型建立中具有十分重要的地位,如果門限值選取的過大,那么模型將建立在極少的觀測點上,結果通常是偏差比較小,卻存在這很大的方差;如果門限值選取的過小,那么模型將建立在比較多的觀測點之上,隨之而來的一個問題是雖然估計有比較小的方差,但偏差卻可能很大。因此,對門限值的選取一直是一個難點和熱點。
常用的門限值選取方法就是樣本平均超出函數。當樣本平均函數尾部在超過某一個點后呈現為一個正斜率的直線時,通常認為損失數據存在尾部,并且將這個拐點作為門限值。
對門限值選取的另一種方法就是觀測Hill指數圖。Hill指數圖就是不同的門限值與相對應的Hill估計繪制的圖形,通過觀測Hill指數圖中門限值從大到小時,所對應的Hill估計的第一個平穩區域來選擇門限值。Bruce.M.Hill[9](1975)年在γ>0的條件下構造的形狀參數的非參數化估計方法,Hill估計的形式為:

Hill估計γ贊nH既可以基于最大似然估計得到(Hill(1975)),也可以通過平均超出函數得到(P.Embrechts[10]等人(1997))。本文應用超越門限值數據個數的自適應選擇算法來選擇門限值。令γk,n表示基于k個超越門限值的數據個數的形狀參數估計值,用med(γ1,n,…γk,n)表示這組形狀參數估計的中位數,通過最小化下式就可以選擇出一個k*:

在極值理論中對超越一定門限值的數據進行描述的一個分布是廣義帕累托分布,它可以表示為下式:

廣義帕累托分布也可以表示為三個子分布:在γ=0時為指數(Exponential)分布,當 γ>0 時為帕累托(Pareto)分布,當γ<0 時為貝塔(Beta)分布。
Balkema-de Haan-Pickands定理 定義分布F的右端點為ω(F):=sup(x:F(x)<1),那么超越一個門限值之后的截斷超越門限值u分布函數可以定義為:

對于0≤x<ω(F)-u成立。Balkema和de Haan[11](1974),Pickands[12](1975)證明了在滿足極值理論最大吸引域條件下,當門限值趨于分布的右端點時,廣義帕累托分布是這些超越門限值數據的極限分布。即有:
|Fu(x)-Wγ,u,σu(x)|→0,u→ω(F)當且僅當F∈MDA(G)時成立。
在X1…Xn獨立且服從廣義帕累托分布的條件下,廣義帕累托分布的極大似然估計方法必須在一個迭代算法下才能得到結果,有關帕累托分布的極大似然估計方法請參考Prescott,P.and Walden,A.T[13](1980)。 此外,Smith[14](1985)詳細研究了這個問題并得到了如下結論:
當γ>-0.5時,最大似然估計是正則的,在這個意義下具有通常的漸近性質。在廣義帕累托分布中,(γ,σ)的極大似然估計具有漸近正態性,其具有方差協方差矩陣為∑/k。其中:

如果 γ>1/2,γ贊k的漸近方差為(1+γ)2/k。 當-1<γ<-0.5 時,最大似然估計一般可以得到,但不具有標準的漸近性質;當γ<-1時,最大似然估計一般不可能得到;幸運的是,在實際建模中,γ<-0.5很難碰到,特別是在保險中,均有γ>0。所以最大似然估計在理論上的局限性并不妨礙其在保險精算實務中的應用。
如果可以用一個廣義帕累托分布來擬合超越門限值u之后的截斷超越門限值的條件分布函數,Resis和Thomas[15](1996)證明也可以用廣義帕累托分布來描述損失數據分布的尾部,即有:
F(x)=P(X≤x)=(1-P{X≤u})Fu(x-u)+P{X≤u}(x≥u)
在門限值趨于右端點的條件下,可以用一個廣義帕累托分布Wγ,u,σu(x)來估計Fu(x-u)。此外可以用經驗分布函數來估計P{X≤u}。那么在x≥u條件下,就可以得到損失數據分布函數的尾部估計為:

很顯然,F(x)也是一個廣義帕累托分布,并且與超越門限值之后的截斷超越門限值分布函數有相同的形狀參數,只不過位置參數和刻度參數進行了適當的調整。

表1 描述統計表
假設所研究的保單是同質的,并且其理賠次數分布服從泊松分布,而理賠額分布在超越門限值后服從廣義帕累托分布。那么,可以計算險位超賠再保險(Excess of loss)的純保費。所謂險位超賠再保險就是如果發生的保險賠款在保險公司的自負金額之內,則由保險公司自己負責賠償;若發生的保險賠款超過了保險公司的自負額,則由再保險公司賠付。
令F=Wγ,u,σ是一個廣義帕累托分布,E(X)是廣義帕累托分布的均值。那么復合泊松分布的均值,即純保費就是:

從式(5)就可以看出,要計算純保費,我們必須得到參數λ,γ,σ的估計值。注意到索賠次數的均值λ=E(N),可以由下面公式估計:

如果用γN(T)和σN(T)表示廣義帕累托分布的形狀參數和刻度參數,那么廣義帕累托分布WγN(T),u,σN(T)的均值可以表示為:

注意到此時的廣義帕累托分布就是理賠額分布,那么表達式(7)實際上給出了相應的再保險公司平均理賠額。因此,在復合泊松假設下,再保險公司的純保費可以由下面公式給出:

數據來源于云南省職工醫療互助中心2006年共9193個損失數據(不包括損失少于1000元的數據),首先對數據的基本統計特征進行分析。
平均來說,損失額的均值為9.85千元 。通過對1/4分位數、1/2分位數和3/4分位數的比較不難看出,1/2分位數與3/4分位數之間的變動比1/4分位數與1/2分位數之間的變動要大;數據最大值為781.70千元,顯然這是十分巨大的損失數據,是平均損失的數十倍;此外,從偏度系數和峰度系數可以看出,數據是右偏且尖峰的。所有的這些特征說明,數據是一個尖峰的、右偏的、具有典型的非壽險損失分布形狀的分布。
對損失數據作指數QQ圖(見圖1)。可以看出,損失數據與指數分布之間存在這一個凹面的偏離,這說明數據存在這厚尾特征。
下面給出平均超出函數圖與損失數據的樣本平均超出函數圖(見圖2)。
從平均超出函數圖與樣本平均超出函數圖可以看出尾部損失數據應該可以用一個廣義帕累托分布來擬合。
通過上面的指數QQ圖和樣本平均超出函數圖可以初步判斷,損失分布具有一個厚尾特征并可以用廣義帕累托分布來擬合。
利用Dietrich et al(2002)年提出了一個檢驗統計量,記為En,來檢驗是否滿足極值分布的最大吸引域問題。在計算檢驗統計量的時,令k為升序順序統計后部觀測的個數。在這里令最小的k=20,因為如果值很小,將得到方差很大的形狀參數估計值,最大的k=1000,它大約占總觀測個數的10.88%。因為如果過大,將不能滿足極值定理成立的條件。并讓以等差為5的序列遞增,并計算相應的檢驗統計量。
從圖3可以看出,當k的取值比較小的時候,沒有充分的理由拒絕分布屬于極值分布的最大吸引域的原假設,即認為 F∈MDA(Gγ)成立,為了能夠準確的確定使 F∈MDA(Gγ)成立的K值,可參見圖4對應的數據表,其中給出了升序順序統計量后部數據的個數k,正態化參數,an,bn檢驗統計量等值。從表中可以看出滿足極值分布最大吸引域的k值為345。因此,En統計量也為選取符合極值分布最大吸引域條件的最大k值選取提供了重要信息。
由上面的檢驗結果可以看出,選擇的k值小于等于345的時候,可以認為損失分布的潛在分布屬于極值分布的最大吸引域,即 F∈MDA(Gγ)成立。

圖1 指數QQ圖

圖2 平均超出函數圖(左)與樣本平均超出函數圖(右)

圖 3 En檢驗統計量圖
一個常用的直觀的門限值選擇方法就是樣本平均超出函數,圖2已經給出了全部損失數據的樣本平均超出函數圖。下面對樣本升序順序統計量的后1000個數據作平均超出函數圖(見圖4),以期能對數據尾部有一個更加準確的把握,之所以選擇K=1000,是因為它約占總樣本的10.88%。一般認為,K選取應該滿足使它占總樣本的比例在10%左右。
從圖5可以看出,總的來說損失數據的尾部平均超出函數圖比較復雜,從右向左看,從最右端點到圖形中“▽”所表示的點的位置之間似乎有一個相同的斜率;而從“▽”到“◇”之間的點似乎有一個更大的斜率;通過計算找出對應的門限值依次為41.6和38.6;相應的升序順序統計后部數據點個數依次為158和186,并不能確定到底選取哪個門限值比較合適。

圖4 k=1000時的樣本平均超出函數圖

圖5 Hill指數圖
對門限值選取的另一中方法就是通過觀測Hill圖。對=1000時的數據作Hill圖,(見圖5)所示,從圖中可以看出,“□”內所標識的部分是Hill估計的第一個比較平穩的部分,此外圖中還給出了Hill估計的95%的置信區間,我們選擇估計值比較平穩而且標準差比較小的點作為門限值。通過Hill估計表可以得到這個穩定區域對應的門限值為(37.01,40.28),相應的 k 值為(206,165)。 此外,值得注意的是,在這個門限值區間內對應的尾指數α的估計值取值在(2.42,2.37)之間。
綜合樣本平均超出函數圖和尾指數的Hill估計圖,可以對門限值的選取有一個初步的判斷,可以初步判定門限值應該位于(37.01,41.58)之間。本文利用自適應選擇算法,且形狀參數估計γk,n使用最大似然估計,對門限值的選取結果為41.12(k=162),在樣本平均超出函數圖和尾指數的Hill估計圖判定的門限值區間內。
通過前文研究,可以認為職工醫療互助損失數據具有厚尾特征,通過最大吸引域檢驗認為可以用極值理論的分布來擬合尾部數據,利用樣本平均超出函數圖、尾指數的Hill估計圖和自適應選擇算法確定了數據尾部的門限值。下面利用極大似然估計法來估計數據尾部的廣義帕累托模型參數(見表 2)。

表2 廣義帕累托模型的極大似然估計結果
可以通過截斷分布擬合、尾分布擬合、殘差分布以及殘差擬合等來進行進一步的檢驗模型擬合情況。
其他估計方法的估計效果比較見圖7。極大似然估計(MLE)最接近樣本平均超出函數,Dress-Pickands估計和Moment估計分別位于樣本平均超出函數的上部和下部,Hill估計顯然低估了尾部的厚尾程度。總的來說,用極大似然估計得到了比較精確的估計結果。此外,從圖7可以看出樣本平均超出函數雖然有一些波動,但是總的趨勢是向上的,這保證了廣義帕累托分布擬合的有效性。

圖 6 截斷分布擬合圖(1)、尾部分布擬合圖(2)、殘差分布圖(3)、殘差擬合檢驗圖(4)

圖7 不同估計方法下的廣義帕累托分布所對應的平均超出函數
在職工醫療互助損失數據尾部廣義帕累托分布擬合的基礎上,計算尾部損失數據的純保費,首先給出平均理賠次數的估計(0.0678),然后利用公式(7)和(8)估計純保費,估計結果為:再保險公司的平均理賠額為74.59千元,再保險純保費為5.06千元。
論文對非壽險精算中損失數據尾部的擬合方法和保費厘定進行了研究,貢獻在于:第一,系統地介紹了非壽險精算中損失數據尾部的擬合和保費厘定方法,并給出了實例計算;第二,認為在用極值理論的分布族中的分布來擬合尾部數據時,必須對應用極值理論的條件進行檢驗,論文系統介紹了最大吸引域的條件檢驗方法;第三,對門限值得三種方法 (樣本平均超出函數圖、Hill指數圖和自適應選擇算法)進行了比較,認為自適應選擇算法選取方法是最優的選取方法,利用這一方法給出的最優門限值將能充分保證廣義帕累托分布中形狀參數估計的穩定性;第四,結合實例對數據尾部的廣義帕累托分布參數估計方法(Dress-Pickands估計、Moment估計、Hill估計和MLE估計)進行了比較,認為MLE估計得到了比較精確的估計結果;第五,充分利用廣義帕累托分布的性質和優點給出了非壽險巨額損失的超賠再保險的純保費計算方法。本文的研究對于實際工作者來說具有一定的參考價值,但論文沒有對非壽險損失分布的厚尾在不能利用極值分布時的擬合問題開展討論,這是一個有待進一步研究的問題,也是筆者將進一步研究的方向。
[1]王新軍.財產保險中損失分布建模的方法研究[J].統計研究,2002,(11).
[2]Alexander J.Mcneil.Estimating the Tails of Loss Severity Distribution Using Extreme Value Theory[J].ASTIN Bulleitin,1997,27.
[3]Alexander J.McNeil,Thomas Saladin.Developing Scenarios for Future Extreme Losses Using the POT Model[J].Extremes and Integrated Rist Managemeat,1998.
[4]Fisher,R.A,Tippet,L.H.C.Limiting Forms of the Frequency Distribution of the Largest of Smallest Member of a Sample[J].Proc.Camb.Phil.Soc,1928,24.
[5]Dietrich,D.,de Haan,L.,Hǜsler,J.Testing Extreme Value Conditons[J].Extremes,2002,5.
[6]Jürg Hüsler.,Deyuan Li.On Testing Extreme Value Conditions[J].Extremes,2006,(9).
[7]Hill,B.M.A Simple General Approach to Inference about the Tail of a Distribution[J].Ann.Statist,1975,(3).
[8]Embrechts,P.,Kluppelberg,C.,Mikosch,T.Modelling Extremal Events for Insurace and Finance[M].New York:Springer,1997.
[9]Balkema,A.A.,de Haan,L.Residual Life Time at Great Age[J].Ann.Probab,1974,(2).
[10]J.Pickands.Statistical Inference Using Extreme Value Order Statistic[J].Ann.Statist,1975,3.
[11]Prescott,P.,Walden,A.T.Maximum Likelihood Estimation of the Parameters of the Generalized Extreme-Value Distribution[J].Biometrika,1980,67.
[12]Smith,R.L.Maximum Likelihood Estimation in a Class of Nonregular Cases[J].Biometrika,1985,72.
[13]R.D.Reiss,M.Thomas,Statistical Analysis of Extreme Values with Applications to Insurance,Finance,Hydrology and other Fields[M].Switzerland:Springer Science,2007.
(責任編輯/亦 民)
O21
A
1002-6487(2011)04-0014-05