基于Tweedie和零調整逆高斯回歸的索賠額模型

2010-10-21 06:25:20黃順林

統計與決策 2010年4期

關鍵詞：模型

黃順林，張穎，陳娜

（1.南京財經大學應用數學學院，南京 210046；2.中國人民大學統計學院，北京 100872；3.南京郵電大學通達學院，南京 210003）

0 引言

在財產保險中，保險定價、損失理賠是保險業務的核心問題，而保費定價的基礎就是對所考慮險種索賠金額損失分布的精確估計，因此，財產損失分布建模，是精算師的一項極為重要的工作。一般來說，不同保險標的財產損失具有不同的分布模型，因此在早期的研究中，人們通常針對具體險種的歷史損失數據，選擇理論模型，然后再利用實際數據進行參數估計和擬合檢驗。Hogg等(1984)[1]給出了很多索賠額分布的可能選擇。由于索賠額的損失分布通常是連續右偏的分布，所以常常使用伽瑪分布、逆高斯分布、對數正態分布和帕累托分布來對索賠額進行量化。在應用中，韓天雄[2]根據具體險種特點，提出構造索賠額密度函數的修正方法來擬合索賠額分布，達到了比較理想的擬合效果。但是，如果統計數據中含有與索賠額相關的風險因素信息時，直接對索賠數據進行擬合就不是很有用，因為它沒有把所觀察到的風險因素信息考慮在內。廣義線性模型將經典線性模型中的因變量的正態假設放寬為具有離散參數的指數型分布，并通過聯結函數將因變量和解釋變量之間的關系設定為非線性關系，從而克服了經典線性模型在應用上的局限性。廣義線性模型因此在精算學的各個領域中得到廣泛運用。

在對索賠額建立廣義線性模型時，傳統上是把索賠額分為零索賠額和非零索賠額來考慮，先對零索賠額建立以“索賠發生與否”為因變量的模型，再對非零索賠額建立模型，然后把兩個模型的結果合并，來對索賠額進行預測分析。如Haberman和Renshaw(1996)[3]基于非零索賠額與風險因素的關系建立了索賠額模型，得到非零索賠額的估計和風險因素的影響，然后再考慮索賠發生的概率，最后把兩者結合在一起，對索賠額進行了分析研究。之后的許多研究大多是在此基礎上發展的，而把零索賠額和非零索賠額作為整體來考慮建立模型的很少，如 Jφrgensen和 de Souza(1994)[4]和 Smyth和Jφrgensen(2002)[5]基于復合泊松分布，并對期望值和離散參數分別建立與風險因素的關系，對索賠額進行了研究。

本文將以零索賠額和非零索賠額的整體作為研究對象，基于Tweedie分布族和零調整逆高斯分布建立索賠額回歸模型，并以汽車第三者責任保險的損失數據為例，應用這兩個回歸模型。

1 Tweedie和零調整逆高斯回歸模型

1.1 Tweedie回歸模型

Tweedie分布族是指數散度模型中的一類，一般用Twp(θ,φ)來表示，其中，θ為規范參數，φ為離散參數。Tweedie分布族由其方差函數V(μ)=μp完全確定，p取值于 (-∞,0)∪[1,+∞)。它包括了幾個常見重要分布作為其特例：p=0,1,2,3分別對應于正態分布、泊松分布、伽瑪分布和逆高斯分布。在1＜p＜2 時，相應的 Twp(θ,φ)是一個復合泊松分布，即 y=x1+x2…+XC，C服從泊松分布，xj獨立且服從伽瑪分布，則y就服從Twp(θ,φ)（1＜p＜2）。

實際中許多保單都允許多次索賠，令Ni表示第i個風險類別的索賠次數，ωi表示第i個風險類別的風險個數，yi表示第i個風險類別的每單位索賠額隨機變量，i=1,2,…,n。假設Ni服從泊松分布，每次索賠額獨立且服從伽瑪分布，則yi服從 Twp(θi,φi)（1＜p＜2）分布，其在零點有一個集中概率，在大于零時，是連續分布。

以Tweedie分布為因變量的分布建立廣義線性模型：

其中xi=(xi1，…,xiq)T是由q個分類變量構成的向量，T表示轉置，β是q×1階的參數向量。

回歸參數β可用極大似然法估計，其Fisher得分更新方程為：

可以看出這與加權最小二乘法的估計方程具有相同的形式，只是需要迭代使用，所以模型的極大似然估計等價于迭代加權最小二乘估計。參數估計的標準誤可以從Fisher信息矩陣的逆中得到，Fisher信息矩陣為:

Δ近似服從自由度為n-q的卡方分布。因此，如果模型是適當的，則根據觀察數據與模型計算的Δ值應該接近n-q。

1.2 零調整逆高斯回歸模型

把索賠額分為零索賠額和非零索賠額考慮時，先對零索賠額建立以“索賠發生與否”為因變量的logistic回歸模型，再對非零索賠額建立伽瑪或逆高斯等回歸模型，然后把兩個模型的結果合并，來對索賠額進行預測分析。而零調整逆高斯回歸模型把這兩個模型合并在一個模型中，直接對索賠額建立預測分析模型。

假定y表示索賠額，則其分布是離散與連續相混合的。假定發生索賠的概率為π，非零索賠額的密度函數為h(y)，則y的密度函數為：

若假設“索賠發生與否”這個二元隨機變量服從參數為π的貝努利分布，非零索賠額服從逆高斯分布IG(μ,σ2)，則索賠額服從零調整逆高斯分布。其期望和方差分別為：

以零調整逆高斯分布作為因變量的分布可建立零調整逆高斯回歸模型，其π、μ和σ都可以是解釋變量的函數：

其中 g1、g2、g3是聯結函數，x、z、w 是由解釋變量構成的向量，β、γ、λ是相應的需要估計的參數向量。模型的參數可使用Rigby和 Stasinopoulos(2005)[6]介紹的backfitting算法進行估計，利用統計軟件R的gamlss模塊可以實現。

2 在汽車保險定價中的應用

下面用汽車第三者責任保險的一組損失數據討論Tweedie回歸模型與零調整逆高斯回歸模型在汽車保險定價中的具體應用（數據來源http://www.statsci.org/data/general/motorins.html）。該數據包含的變量有：每年行駛里程數（5個水平：＜1000、1000 ～15000、15000 ～20000、20000 ～25000、＞25000；用K表示）；地區（7個地理區域，用Z表示）；無賠款折扣等級（7個等級，用 B表示）；車型（9個水平，用 M表示）；保單年數，索賠次數和總索賠額。

設y表示每保單年數的索賠額，將每年行駛里程數、地區、無賠款折扣等級、車型作為解釋變量來對索賠額建立Tweedie回歸模型與零調整逆高斯回歸模型。

首先建立Tweedie回歸模型，選擇對數聯結函數，即

其中 β=(β0,β1,…,β28)T，x=(1,x1,x2,…,x28)T，參數 β0對應截距項，β1至β28分別是對應5個里程數、7個地區、7個折扣等級、9種車型的系數。

先用極大似然法估計參數p，調用R軟件中的tweedie模塊得到p=1.53。然后運用R軟件中的statmod模塊得到模型擬合結果。從結果（具體結果表略）中可以看出，大部分參數的估計值都是顯著的，而且偏差為48217/40=1205，自由度為2157，說明模型整體擬合的效果比較理想。

以對應于地區1、年行駛里程數小于1000公里、無賠款折扣等級1、車型1為基準的保單年索賠額的估計值為713.37，其他類別保單的年索賠額為基準類別的年索賠額乘以相應的eβ^。下面考慮各個風險因素對索賠額的具體影響。除了年行駛里程數水平3，其對索賠額的影響是單調的，隨著行駛里程數的增加，索賠額也相應增加。就無賠款折扣等級而言，其對索賠額的影響也近乎單調的，處在折扣的等級越高，其索賠額越低，風險也就相對較小。在折扣等級7的索賠額只有等級1得索賠額的33%。對所處地區而言，地區1的風險最大，地區7的風險最小，其他地區的索賠額相差不大。從車型看，參數估計的顯著性普遍不是太顯著，可認為車型對索賠額的影響不大，不過從估計的結果還是能發現，車型4的風險最小，車型5與車型8的風險相對較高，而且是比較顯著的。

再對這組數據建立零調整逆高斯回歸模型：

這里μ和σ的聯結函數為對數聯結函數，而π選用lo?gistic聯結函數。

選用與Tweedie回歸模型相同的基準類別，并運用R軟件中的gamlss模塊得到模型擬合結果：模型的偏差為25491，基準類別的非零索賠額估計值為749.94，索賠發生概率的估計值為：

從實際數據看，基準類別保單索賠是發生的，所以與實際相符，則索賠額的估計值為 749.94×0.998=748.21，與Tweedie回歸模型的估計值相差不大。其它類別保單的非零索賠額與索賠概率可從相應的參數估計值中得到，例如對于地區5、年行駛里程數20000～25000公里、無賠款折扣等級6、車型4的保單，其非零索賠額估計值為749.94×0.84×1.62×0.38×0.52=201.65，索賠概率估計值為：

從參數估計結果看 (Tweedie回歸與零調整逆高斯回歸的參數估計結果表略)，零調整逆高斯回歸模型得出的各風險因素對索賠額的影響與Tweedie回歸模型基本相同。但由于這組數據的索賠概率很高，使得零調整逆高斯模型的擬合偏差較大，所以對這組損失數據來說，Tweedie回歸模型的整體擬合效果更好。

3 結束語

本文針對零索賠額和非零索賠額建立了Tweedie和零調整逆高斯回歸模型，并且給出參數估計方法和擬合檢驗過程，結合實際案例進行了系統的理論方法論述和比較分析，對于零索賠額和非零索賠額損失分布建模問題給出了一套完整、清晰的思路。

另外，在零調整逆高斯回歸模型中假定保單分為有索賠和無索賠兩類，而沒有考慮多次索賠的情形，在Tweedie回歸模型中，假定了保單的索賠次數服從泊松分布，每次索賠額獨立且服從伽瑪分布的情形。在進一步的研究中我們可以把多次索賠的其他情形考慮進去，不同的索賠次數分布與每次索賠額分布的假定，都會相應產生不同的索賠額的分布，從而得到不同的回歸模型。比如，索賠次數的分布可以是負二項分布、零膨脹泊松分布等，每次索賠額分布可以是逆高斯分布、對數正態分布等。在具體應用時，要根據損失數據的具體特點以及積累經驗，來選取合適的模型。

[1]Hogg,R.V.,Klugman,S.A.Loss Distributions[M].New York:Wiley，1984.

[2]韓天雄.保險索賠額的分布及其應用[J].華東師范大學學報(自然科學版),1997，(4).

[3]Haberman,S.，Renshaw,A.E.Generalized Linear Models and Actuarial Science[J].The Statistician,1996，45（4）.

[4]Jφrgensen,B.,de Souza,M.Fitting Tweedie’s Compound Poisson Model to Insurance Claims Data[J].Scandinavian Actuarial Journal,1994，(1).

[5]Smyth,G.K.,Jφrgensen,B.Fitting Tweedie’s Compound Poisson Modelto Insurance ClaimsData:Dispersion Modelling[J].Astin Bulletin,2002，(32).

[6]Rigby,R.A.,Stasinopoulos,D.M.Generalized Additive Models for Location,Scale and Shape(with discussion)[J].Applied Statistics,2005，(54).