姚正錕 南開大學金融學院

財產保險的一個特點是,損失的大小取決于事故或損失的嚴重程度。投保的保額只有在非常嚴重或完全損失的情況下才支付。在大多數情況下,損失是以低于最大保額的方式結算的。由于這種“部分損失”的特點,任何一種風險的保險金額增加或減少都不需要按比例改變保險費。這種非比例或非線性關系會導致定價的復雜化,特別是當它與承保范圍的限制相結合時。對保險金額的限制可以采取多種形式。免賠額、特許權、超額保險、保留金、共同保險和最高限額都是限制保險范圍的方式。為了正確評估有限保險保障的成本,有必要衡量已消除損失的比例或剩余損失的比例。而風險曲線就是為了解決這一問題而產生的。
風險曲線的概念最早由Ruth E.Salzmann(1963)提出,該研究以北美保險公司(INA)的索賠數據為基礎,對1960 年至1961 年間發生的火災損失進行了分析,得出按保險價值百分比計算的累積損失成本的經驗數據分布,并表明對于同質風險組,這種分布是穩定的。隨后S.Ludwig(1991)對Salzmann曲線進行進一步修正,并將此方法應用到更新的數據。而在行業中被廣泛應用的Swiss Re curves(瑞士再保險曲線)和Lloyds curves(勞合社曲線)在S. Bernegger(1997)提出的MBBEFD 分布得到證明。MBBEFD(Maxwell-Boltzmann,Bose-Einstein,Fermi-Dirac distribution)是物理學中統計力學的分布,該分布被Bernegger發現非常適合[0,1]區間上的經驗損失分布建模,其通過使用MBBEFD 分布成功擬合了Swiss Re curves 和Lloyds curves,此后MBBEFD 被作為歐洲主要的風險曲線的模型基礎。而Clive L.Keatinge(1999)提出了一種通過混合指數模型進行保險數據損失分布擬合的新的方法,本文就是在其基礎上運用EM算法對風險曲線進行構建。
假設F(x)是區間在[0,1]上的損失分布函數,有限期望函數L(d)=E[min(d,x)],X是實際損失,M是最大可能損失,并且X≤M,D是財產險的免賠額或險位超賠再保險的最大自留額。其中d=D/M,x=X/M分別代表了標準化后的免賠額和標準化后的損失。
根據定義可看出,M·L(d)是財產險免賠額以下或再保險分出公司自留部分的期望損失,M·(L(1)-L(d))是財產險免賠額以上或再保險分入公司的期望損失。因此,這部分純風險保費比率就是風險曲線G(d)。

其中,G(0)=0,G(1)=1。
因為1-F(x)≥0,并且F'(x)=f(x)≥0,所以G(d)在區間[0,1]上是一個遞增的凹函數。
風險曲線描述的是免賠額與損失扣減率(給定免賠額以下的賠付成本占總賠付成本的比率)的關系。風險曲線的橫軸數值代表免賠額占總保險金額或者最大可能損失(MPL)的比例,它的縱軸對應的數值代表損失扣減率(LER)。在對含有免賠額的財產險保單和險位超賠再保險合同的定價過程中,定價人員經常借助風險曲線解決相關問題,風險曲線是基于歷史索賠數據的傳統建模方法的有力替代方法,尤其對于新興的中小保險公司來說,在定價中具有很大的參考意義。

?圖1 風險曲線示例
以圖1 為例,對于非比例的險位超賠再保險來說,假設每層保額為2000萬元,占全部保額比例為10%,橫軸10%對應的曲線縱坐標為55%,橫軸20%對應的曲線縱坐標為70%,那么再保險承保在10%到20%部分的保費為(70%-55%)×原保費。
對于直保公司免賠額定價來說,從圖1 可看出,其自變量為10%時所對應的因變量為55%,那么對于該類風險,當免賠額相當于保額的10%時,該免賠額可以去除55%的預期損失強度。換句話說,扣去免賠額后的預期損失強度僅相當于無免賠額時的45%。
根據損失數據的特性,我們使用的是混合指數分布的離散形式,其中x是損失數據,pi是與λi對應的混合權重。

基于混合模型的特性,我們將使用EM 算法對模型進行參數估計。
1.參數估計方法
EM 算法又稱期望最大化(Expectation Maximization)算法,是基于極大似然估計(Maximum Likelihood Estimation, MLE)理論的優化算法,十分適合解決具有缺失數據或者隱變量的模型的求參問題,而這種特性可以很好地應用在混合模型之中。給定相互獨立的觀測數據x=(x1,...,xn),模型的參數為θ,概率密度函數為p(xi;θ),根據MLE 理論,極大化的對數似然函數為:

假設觀測數據中存在隱變量z=(z1,z2,…,zk),隱變量可以表示缺失數據,或概率模型中任何無法直接觀測的隨機變量,在混合分布中,隱變量的意義是表示樣本中的數據屬于哪個分布,根據邊緣概率的求解,再加入隱變量之后,概率密度函數p(xi;θ)可以表示為:

其中第一行是隱變量為連續變量的情況,第二行為隱變量為離散變量的情況。
在這里我們以離散變量為例進行相關的推導說明。此時極大化的對數似然函數為:

由于隱變量zj的存在,所以我們無法直接求出參數θ,這時我們引入與隱變量有關的概率分布Qj(zj),由Jensen 不等式觀測數據的對數似然有如下不等關系:

這個過程相當于確定了似然函數的下界,再假設θ固定的情況下,那么所求的似然函數的值是由Qj(zj)和p(xi;zj)決定的,我們需要不斷調整這兩個概率來逼近真實值,而當滿足上式的等號時,所得結果大致滿足真實值。
若要滿足不等式的等號條件,需要滿足p(xi;zj;θ)/(Qj(zj))=m,其中m為常數。
因為Qj(zj)是關于隱變量的概率分布,所以滿足,因此
由上面兩個式子,我們可以得到:

從中我們可以看到,在滿足等號條件下,Qj(zj)應該是隱變量對觀測數據的后驗概率,所以在確定了Qj(zj)的情況下,我們讓因此我們的求解目標為:

總的來說,EM 標準算法是一組迭代計算,迭代分為兩部分,即E步和M 步,其中E 步“固定”前一次迭代的θ(t-1),求解Q(t),使L(θ,Q)取極大值;M步使用Q(t),求解θ(t),使L(θ,Q)取極大值。EM算法需要給定一個參數初值θ(0)后開始迭代,迭代中E 步和M 步交替進行,當∥θ(t)-θ(t-1)∥小于某個給定的閾值時停止迭代。
2.應用EM算法求混合指數模型的參數
朱利平、盧一強、茆詩松(2006)提到,以單參數混合指數分布為例,使用EM算法進行參數估計,密度函數為:

其中:

xi服從混合指數分布fi。如果Ii為示性變量,那么,Ii=1表示xi來自密度函數f1i的指數總體,Ii=0表示xi來自密度函數f2i的指數總體。可知,Ii服從二項分布,P(Ii=1)=p,P(Ii=0)=1-p。因為我們不知道xi來自f1i還是f2i的指數總體,因而,Ii是不能被觀測到的隨機變量。
xi和Ii的聯合分布為g(xi,Ii,θ)=(pf1i)Ii [(1-p)f2i](1-Ii),從而Ii在xi給定的條件分布為:

給定初值θ(0),EM算法步驟為:
E步——求期望值。

其中,

M步——極大化求θ(m),使得Q(θm,θ(m-1))=maxQ(θ,θ(m-1))。
以θm作為θ(m-1的更新值,重復第1和第2步,當∥θ(m)-θ(m-1)∥小于某個給定的閾值時停止迭代。由于EM算法的收斂性是有理論保證的,因此上述迭代過程一定收斂。
本文采用同質性的一般責任險的336條損失數據,并使用Python進行風險曲線的構建,數據來源于Klugman、Panjer、Willmot(1998)。首先我們使用EM算法對經驗數據進行混合指數的參數估計,結果如表1所示。

?表1 EM算法對混合指數模型的參數估計結果
我們采用DNML(Decomposed Normalized Maximum Likelihood)作為擬合優度的檢驗標準,DNML 值越低,說明擬合效果越好。所以我們可以看到當k的初值為2時,模型的擬合結果最好,其中最優結果見表2,擬合曲線見圖2。

?表2 最優DNML下的參數估計結果

?圖2 經驗數據與混合指數的擬合曲線
在得到混合指數形式的損失分布函數F(x)后,進行風險曲線G(x)的構建,因為我們數據中最大損失為1972367,所以我們選取M 為2000000(假設最大可能損失等于保額),從而構造出對應的風險曲線,如圖3所示。

?圖3 基于混合指數模型構建的風險曲線
從圖3 中,我們可以看出,絕大多數的索賠損失集中在最大損失的30%以內,其中一半以上的損失集中在最大損失的10%以內。所以僅根據此例來說,對于該責任險的免賠額定價,當免賠額為保額的10%,所收取的保費應為無免賠額情況下的40%。
從文中圖2的經驗數據和混合指數的擬合曲線來看,擬合效果很好,說明混合指數模型確實比較適合保險業的損失分布,可以在實務中加以應用。而目前在美國普遍使用的是基于ISO's PSOLD方法構建的風險曲線,其采用的損失模型就是混合指數模型。這也說明基于混合指數模型的風險曲線在實務中已經具有了一定的實踐意義。
但仍需注意的是,就實務中風險曲線的構建而言,對于數據的要求是比較高的。首先是需要大量的行業損失數據(比如水險、家財險、企財險)。僅靠單一保險公司很難有足夠的數據量積累,所以最好是行業內的保險公司可以聯合起來共同構建相應的風險曲線,在大量數據的基礎上,才能使風險曲線的精度更高,從而更準確地幫助相應的定價工作。
其次是對同質性數據的篩選和處理。同一行業內部可能存在許多差異,比如對于電廠的企財險來說,火電廠和水電廠的風險就不同質,所以需要對行業小類進行區分。同時,在同一行業小類內部的很多保單也存在保額差異很大的情況,這時就要對風險曲線進行保額分段的處理,不同的保額段構建不同的風險曲線,這樣可以更好地滿足同質性要求。