基于兩階段Expectile回歸的風險保費定價

2024-03-02 06:28:48郭哲琦高蘇浩

統計與決策 2024年3期

郭哲琦，高蘇浩

（中國人民大學統計學院，北京 100872）

0 引言

風險保費由純保費和風險附加構成。純保費通常使用廣義線性模型進行厘定，而風險附加通過各種保費原理進行計算。在厘定純保費的廣義線性模型中，既可以分別建立索賠頻率和案均賠款的預測模型，將兩者相乘即得純保費的預測值；也可以分別建立出險概率和累積賠款的預測模型，將兩者相乘求得純保費的預測值。在純保費的基礎上，再應用期望值保費原理或標準差保費原理計算風險保費。這種定價方法在風險保費的計算過程中，需要人為設定風險附加系數，存在一定的主觀任意性。Heras 等（2018）[1]提出應用分位回歸計算風險保費，也被稱作分位數保費原理。在這種方法中，將風險保費看作一個整體，用分位回歸進行預測。應用分位回歸計算風險保費的基本原理是把實際賠款超過風險保費的概率控制在一個合理的水平上，比如不超過0.1%。從分位回歸計算的風險保費中減去純保費也可以分離出風險附加。與傳統的廣義線性模型相比，應用分位回歸計算風險保費具有一定優勢[2]。但是在應用分位數保費原理時，仍然需要人為設定分位數水平，比如將95%的分位數作為風險保費。這種設定分位數水平的方法可能導致保單組合在總體上的風險保費偏離實際需要。在分位回歸中，如果將分位數水平設定為50%，那么就會得到分位回歸的特例，即中位數回歸。在費率厘定中風險保費的分位數水平通常大于50%，應用分位回歸厘定風險保費相當于在中位數的基礎上計算風險附加，這與風險保費的概念不是十分吻合。此外，保險損失往往是右偏的，具有較長的右尾，中位數遠小于均值（即純保費），分位數對尾部數據并不敏感，這使得分位數保費原理在定價邏輯上不是十分合理。

基于已有研究，本文提出了期望分位數[3]（Expectile）保費原理，即應用期望分位回歸代替分位回歸厘定風險保費。在50%的分位數水平上，期望分位回歸等價于均值回歸，因此，應用期望分位回歸厘定風險保費，相當于在均值（亦即純保費）基礎上計算風險附加，這與風險保費等于純保費與風險附加之和的定義在邏輯上完全吻合；此外，期望分位數不僅與損失發生概率相關，而且與損失金額有關，因此用期望分位數計算風險附加更加合理。無論是在廣義線性模型的基礎上應用期望值原理或標準差原理計算風險保費，還是直接應用分位回歸或期望分位回歸計算風險保費，都需要確定風險附加系數或分位數水平。現有文獻在研究中都是人為給定一個具體數值，如將分位數水平設定為95%，缺乏客觀依據。為此，本文提出一種自上而下的定價思路，在控制保單組合總體風險水平的基礎上，比如要求保單組合的總賠款超過總風險保費的概率小于0.1%，通過Bootstrap 方法計算出保單組合的總風險保費，然后再將其分解到個體保單上，要求保單組合的總風險保費等于個體保單的風險保費之和，從而提供了一種基于實際數據計算風險附加系數或分位數水平的新思路。

1 分位回歸與函數系數分位回歸

假設隨機變量Yi的分布函數為FYi(y)，對于[0，1]區間內任意一個分位數水平τ，隨機變量Yi的τ分位數q(τ)定義如下：

在分位回歸中，假設因變量Yi的τ分位數q(τ|xi)與協變量xi的關系可以表示為：

其中，xi=(1，xi1，xi2，…，xim)T，i=1，2，…，n，n為樣本量，m為協變量維數，回歸系數向量β(τ)可以通過最小化下述非對稱線性損失函數求得[4]：

最小化式（3）的一階條件為：

即：

式（5）表明分位數q(τ|xi)與Yi的具體取值無關，對極端值不敏感，這可能導致低估尾部風險，從而影響風險保費的合理性。

傳統分位回歸的預測值在相鄰分位數之間可能出現交叉現象，即不同分位數水平上的預測值可能是相同的，這會造成相互矛盾的結果，為此，Frumento 和Bottai（2016）[5]提出了一種函數系數分位回歸，即將回歸系數表示為分位數水平τ的函數：

其中，b1(τ)，…，bh(τ)是關于τ的給定函數，b0(τ)一般設置為1，γj=(γj0，γj1，···，γjh),γjk(k=1，…，h)是給定函數的系數。

函數系數分位回歸的一般形式如下：

如果令h=2，那么式（7）中的Γ 和b(τ)可以表示為[6]：

最小化下述損失函數，即可求得函數系數分位回歸的參數估計值：

2 期望分位數與期望分位回歸

類比分位數q(τ)，Newey和Powel（l1987）[7]提出了期望分位數Q(τ)。對于給定的分位數水平τ，隨機變量Yi的期望分位數Q(τ)的定義如下：

其中，I(·)是示性函數。

在風險管理中，分位數稱作VaR 風險度量。類似地，Kuan 等（2009）[8]將期望分位數稱作EVaR 風險度量[9]。分位數VaR 不滿足風險度量的一致性要求，而期望分位數EVaR 不僅滿足風險度量的一致性要求，即具有平移不變性、單調性、正齊次性和次可加性，而且具有許多其他良好性質[7，10]：

（1）EVaRτ是分位數水平τ的嚴格單調增函數，τ∈(0，1)。

（2）EVaRτ是Yi的嚴格單調增函數，即Yi′≥Yia.s.且。

（3）EVaRτ(-Yi)=-EVaRτ(Yi)。

（4）若Yi關于y對稱，則EVaRτ(Yi)+EVaR1-τ(Yi)=2y。

（5）EVaRτ具有可引出性（Elicitability），即通過最小化目標函數可以求得EVaR風險度量[11]。

可以證明，只有EVaR是同時滿足一致性和可引出性的風險度量[12]。

EVaR 不僅具有良好的理論性質，而且在風險管理中也有較為直觀的解釋?？山邮苡蚴抢斫怙L險度量的另一種常見形式。譬如，若將可接受域定義為風險度量值小于一個給定值的那些風險所組成的集合，則對于具有平移不變性的風險度量ρ，可接受域的定義如下：

對于VaRτ，風險Yi的可接受域Aρ可以表示為[13]：

對于期望分位數EVaRτ，風險Yi的可接受域可以表示為：

由此可見，在應用VaRτ風險度量的條件下，如果損失小于特定額度的概率與損失大于特定額度的概率之比足夠大，那么這個風險就是可接受的。在應用期望分位數EVaRτ的條件下，如果特定額度以下損失的期望值與特定額度以上損失的期望值之比足夠大，那么這個風險就是可以接受的。

在期望分位回歸中，假設因變量Yi在τ水平下的期望分位數Q(τ|xi)與協變量xi有如下的關系：

其中，φ(τ)表示在τ分位數水平下的回歸系數。

通過最小化下述的非對稱平方損失函數可以求得期望分位回歸的系數φ(τ)：

當分位數水平τ=0.5 時，分位回歸的預測值就是中位數，而期望分位回歸的預測值就是均值。

3 兩階段Expectile回歸計算風險保費

為了預測每份保單的風險保費，本文應用兩階段建模。第一階段使用Logistic 回歸建立出險概率的預測模型；第二階段在損失已經發生的條件下，建立累積損失的預測模型。累積損失是保單在整個保險期間的損失金額之和，可以使用Gamma 回歸、分位回歸、函數系數分位回歸或期望分位回歸建立預測模型。

3.1 第一階段建模

令第i份保單未出險的概率為pi=FNi(0|xi)，出險概率為1-pi=1-FNi(0|xi)，其中，Ni代表第i份保單的索賠次數，FNi代表Ni的分布函數。當第i份保單的風險暴露為ei時，建立Logistic回歸模型為：

其中，xi表示協變量，θ為回歸系數向量。

3.2 第二階段建模

令Yi代表保單的累積損失（部分保單沒有出險，所以他們的累積損失為零），用表示在出險條件下的累積損失（即大于零的累積損失觀察值），則：

其中，xi表示協變量，ξ為回歸系數向量。

因此，在期望值保費原理和標準差保費原理下，第i份保單的風險保費可以分別表示為：

其中，α表示風險附加系數，伽馬回歸的離散參數φ為：

其中，I表示有索賠的個體保單數量,r+1 表示模型中回歸系數的個數，μi根據Gamma 回歸的系數估計值計算得到。

在期望值原理和標準差原理的風險保費計算公式中，令每份保單的風險保費之和等于保單組合的總風險保費，即=C，即可求得相應的風險附加系數α。這里的C表示保單組合的總風險保費。

類比式（16）和基于兩階段分位回歸的保費定價原理[2]，在第二階段建模中建立關于非零累積損失的期望分位回歸，并提出兩階段期望分位回歸，即基于Logistic回歸和期望分位回歸的結果計算第i個保單的風險保費：

根據式（22）中給定保單組合的總風險保費C，可以計算出使式（22）成立的分位數水平τ，從而求得第i個保單的風險保費?；趦呻A段期望分位回歸計算風險保費不僅解決了將保單組合的總風險保費C分攤到每一份個體保單的問題，而且避免了在含零累積損失數據中對非零累積損失數據建模需要借助索賠概率pi轉化分位數水平的問題[1，6]，簡化了計算過程。如果第二階段建立的是關于的分位回歸或函數系數分位回歸，那么可以將替換為分位回歸或函數系數分位回歸的預測值。利用式（22）求得使等式成立的分位數水平τ，得到分位回歸和函數系數分位回歸模型下的風險保費分別為和。

4 實例

在風險保費定價模型的有關研究中，R 程序包insuranceData 中的dataCar 數據集被多次用來檢驗和比較不同模型的預測性能[1,14,15]，該數據集包含67856份保單的損失觀察值。為了與現有文獻中的模型進行比較，本文也選用該數據集進行建模，有關變量的名稱和含義如下頁表1所示。

表1 數據集dataCar的有關變量

保單的累積索賠金額存在明顯的厚尾性，索賠金額經過對數變換以后的分布如下頁圖1所示，本文使用經過對數變換以后的索賠金額作為因變量進行回歸建模。

圖1 索賠金額對數的直方圖

駕駛員年齡agecat有6 個水平，車齡νeh_age有4 個水平，他們的不同組合形成了24 個風險類別，如下頁表2所示。其中，V是車齡νeh_age，A是駕駛人年齡，例如V=1,A=1 代表νeh_age=1 且agecat=1。表2 也列示了每個類別的保單數、風險暴露、發生索賠的保單數、索賠次數，以及發生索賠保單的平均索賠金額。

表2 各個風險類別的數據特征

本文采用自上而下的方法厘定各個風險類別的風險保費，先根據保單組合的歷史索賠數據，計算保單組合的總風險保費，使得總風險保費大于實際索賠金額的概率足夠大，比如達到99.9%；再應用回歸模型計算各個風險類別的風險保費，并要求保單組合的總風險保費等于各個風險類別的風險保費之和，在這種約束條件下可以求得唯一的風險附加系數或分位數水平。

在本例中，將總索賠金額的99.9%分位數作為保單組合的總風險保費C，即可確保該保單組合的實際索賠金額大于總風險保費的概率不超過0.1%，即保險公司遭受虧損風險的概率不超過0.1%。在實際情況中，保險公司可以根據自身情況調整分位數水平，本文以99.9%的分位數水平為例進行展示。為了計算保單組合的總風險保費，可以利用Bootstrap 方法從67856 份保單中有放回地隨機抽取67856個樣本計算總索賠金額，一共抽取10000次，得到10000個總索賠金額的隨機樣本，由此可以較好地逼近總索賠金額的真實分布（當樣本足夠大時，Bootstrap 方法能夠無偏地接近總體分布，估計結果精度高且穩定[16]）。如果將總索賠金額的99.9%分位數作為保單組合的總風險保費，那么總風險保費為C=10192385。下面計算每個風險類別的風險保費，使其總和正好等于保單組合的總風險保費。

下頁表3 展示了Logistic 回歸、Gamma 回歸、分位回歸、函數系數分位回歸、期望分位回歸的系數估計值以及相應的標準誤和P值。在分位回歸、函數系數分位回歸和期望分位回歸模型中，應用式（22），可以求得相應的分位數水平分別為75.41%、74.33%和84.97%。從表3 可以看出，各個模型的回歸系數估計值在正負號上基本一致，車齡（V）越大，索賠概率越低，索賠金額越大；駕駛人年齡（A）越大，索賠概率越低，索賠金額越小。

表3 回歸模型的參數估計值

下頁表4 展示了應用Logistic 回歸預測的各風險類別的索賠概率、基于Gamma 回歸預測的各風險類別的純保費，以及應用不同方法計算的風險保費。本例中，如果要求各個風險類別的風險保費之和等于總風險保費，那么在期望值原理和標準差原理下，求得的風險附加系數分別為α=10.06%和α=1.94%。

表4 不同方法計算的風險保費

前面應用五種模型求得了五種不同的風險保費，為了比較他們的相對優劣，每次將其中一個模型作為基準模型，其他模型作為競爭模型，計算競爭模型的風險保費與基準模型的風險保費之比Ri(i=1，2，…，I)，根據Ri從小到大的順序對基準模型的風險保費和實際損失觀察值進行排序，并據此繪制有序洛倫茲曲線，計算基尼指數，結果如下頁表5 所示。基尼指數的具體計算方法參見文獻[17]。

表5 基于基尼系數的模型比較（單位：%）

從表5 可以看出，若以期望值原理作為基準模型，則它的相對最大劣勢為1.84；若以標準差原理為基準模型，則它的相對最大劣勢為1.81。類似地，分別以分位回歸、函數系數分位回歸和期望分位回歸作為基準模型時，他們各自的相對最大劣勢分別為6.64、3.37 和1.16。根據Mini-max 準則，期望分位回歸作為基準模型時的相對最大劣勢只有1.16，數值最小，所以它在上述五個模型中是最優模型。

應用期望分位回歸厘定的風險保費具有良好的可解釋性。下頁圖2 是期望分位回歸與Gamma 回歸的系數估計值在分位數水平τ∈[0，1]上的情況。實線表示期望分位回歸的系數估計值，陰影部分表示其置信水平為95%的置信區間，虛線表示Gamma 回歸系數估計值。Gamma 回歸與期望分位回歸的系數估計值正負號在大部分分位數水平上保持一致，且每幅圖在τ∈[0.8，1]上均有交集。截距項代表的是基準類別V=1，A=1的系數估計值。分位數水平τ升高，截距項的估計值隨之上升，說明保險公司需要收取更高的風險保費來平衡V=1，A=1不斷增長的風險水平。期望分位回歸的系數估計值代表了不同類別之間風險保費的相對差異。例如，圖2（b）展示了類別V=2,A=1 與V=1，A=1 在風險保費上的相對差異。當系數估計值大于0時，兩個類別的風險保費之比大于1，說明V=2，A=1 的風險保費比V=1，A=1 高，前者的相對風險水平更高；小于0 則反之。根據圖2（b）可知，期望分位回歸的系數估計值起初隨著τ的增大而增大，且為正值，說明V=2，A=1 的風險保費更高。當τ→1 時，系數估計值迅速下降并且變為負值。因此，在極端分位數水平上，V=2，A=1 的風險保費下降，最終小于類別V=1，A=1 的風險保費。從圖2 還可以看出，車齡（V）的回歸系數大多數情況下大于零，說明隨著汽車使用年限的增大，風險保費逐步提高；駕駛人年齡（A）的回歸系數在大多數情況下小于零，說明隨著駕駛人年齡的增大，風險保費越來越低。

圖2 分位數水平對期望分位回歸系數的影響

5 結論

在風險保費的理論與應用研究中，關于純保費的研究較多，而對風險附加的關注相對較少。期望分位數的理論性質表明，應用期望分位數預測風險保費具有一定優勢，可以更好地滿足保險定價的實際需要。本文提出期望分位數保費原理，即應用期望分位回歸預測風險保費，代替基于廣義線性模型的期望值保費原理和標準差保費原理以及基于分位回歸的分位數保費原理。對非零損失數據使用期望分位回歸建模，令各個風險類別的分位數水平一致，避免了需要借助水平概率轉化分位數水平的問題，簡化了計算過程。此外，為了基于實際數據確定各種保費原理中的風險附加系數或分位數水平，本文提出了一種自上而下計算風險保費的方法，避免了現有文獻中確定風險附加系數和分位數水平的主觀任意性?；赗程序包insuranceData 中一個實際數據集dataCar 進行的實證分析結果表明，應用期望分位回歸預測風險保費要優于現有方法。

為了與現有文獻中的其他模型在相同基礎上進行比較，本文在建立期望分位回歸模型時，僅考慮了現有文獻中使用的變量，并沒有考慮變量之間的交互效應和非線性效應。此外，在后續研究中，可以嘗試將函數系數引入期望分位回歸，建立參數系數的期望分位回歸模型，進一步提高期望分位回歸模型在風險保費厘定中的靈活性。