一、引言
在過去的幾十年里,廣義線性模型(GLM)已經成為了一種常用的統計工具來擬合精算數據。廣義線性模型是對經典的線性回歸模型的進一步推廣。這一推廣是有雙重意義的。首先,偏離均值的隨機誤差不再局限于正態分布,而是擴展到了指數散布族,從而更適合于精算數據。其次,無需要求隨機變量的均值是解釋變量的線性函數,而僅要求它以某一度量是線性的。這樣在處理數據的時候就有了更大的靈活性。
標準的廣義線性模型假設樣本之間是相互獨立的,然而在精算和一般的統計問題中這種獨立性卻常常不能滿足。在實踐運用中,縱向數據、群集數據就使這一假設遭到破壞。本文主要集中在可以重復測量的縱向數據,因為樣本之間的相依性,我們需要一個更合適的工具來進行統計建模。
線性混合模型自Laird和Ware于1982年首次起就被廣泛用來擬合縱向數據。混合模型通過在均值結構中引入隨機效應,實現了對古典線性混合模型的推廣。隨機效應的引入主要反映了不同對象之間的異質性,以及同一對象不同觀測之間的相關性。
對于指數散布族來說,廣義線性混合模型通過在線性預測部分引入隨機效應推廣了廣義線性模型。隨機效應不僅決定了同一對象的觀測之間的相關結構,也考慮了因為不可觀測的特質引起的對象之間的異質性。
二、模型介紹
(一)廣義線性模型
廣義線性模型(GLM)是允許總體均值通過一個聯系函數而依靠一個線性組合來實現對經典線性模型的自然推廣,這就使得被解釋變量的分布可以擴展到整個指數散布族。一個廣義線性模型包主要有以下元素組成:
1.被解釋變量服從指數族分布,有著如下規范的密度函數形式:
f(y;θ,)=exp{∫[y-μ(θ)V(μ)dμ(θ)+c(y,)]}
其中V(·)和c(·)是已知函數,θ為自然參數,為已知的離差參數,且滿足以下關系:
μ=μ(θ)=E(Y)V(Y)=V(μ)
指數散布族非常靈活,可以用來對連續的、二元數據和計數數據建模。
2.對于隨機樣本Y1,…,Yn線性組成部分定義如下
ηi=(Xβ)i,i=1,…,n,
其中β=(β1,…,βp)′是模型的參數,X(n×p)是設計矩陣。ηi是第i個對象的線性預測。
3.被解釋變量的期望μi=E(Yi)通過一個單調可導的聯系函數g與線性預測值聯系起來,以如下的方式:
g(μi)ηi,i=1,…,n,
(二)廣義線性混合模型
廣義線性混合模型是廣義線性模型加入了隨機效應的拓展,在最近的幾年里,廣義線性混合模型在擬合二元數據、計數數據、群集數據和縱向數據上取得了顯著的成績。一個廣義線性混合模型主要組成如下:
假定要分析的數據是由N個對象的觀測值組成,ni代表第i個對象的觀測次數。Yi=(Yi1,…Yini)′是對第i個對象的觀測向量。在給定第i個對象的隨機效應bi的條件下,Y1i,…Yini是來自某一指數分布族的獨立的隨機變量,即
f(yij|bi,β,)=exp{∫[yijθij-ψ(θij)]+c(yij,)}
其中ψ(·)和c(·)是已知函數,θ為自然參數,為已知的離差參數。聯系函數為
g(μij=x′ijβ+z′ijbi
其中,β(p×1)代表固定效應,bi(q×1)代表對應于第個對象的隨機效應,隨機效應反映了各觀測對象間的異質性和同一對象觀測見的相關性,Xi(ni×p)=(x′i1,…x′ini)和Zi(ni×q)=(z′i1,…z′ini分別對應于固定效應和隨機效應的設計矩陣。
對于指數分布族,有如下結論:
μij=E(Yij|bi)=ψ′(θij)
和Var(Yij|bi)=·ψ″(θij)=·V(μij)
其中假定隨機效應bi,i=1,…,N獨立同分布。
(三)廣義線性模型及廣義線性混合模型的極大似然估計
首先考察廣義線性模型的極大似然估計,對于觀察到的隨機樣本Y1,…,Yn,考慮β的對數似然函數
l(β)=lnL(β)=∑ni=1{∫yi-μi(θ)V(μi)dμi(θ)+c(yij,)}
對它求導得:
dl(β)dβ=∑ni=1dl(β)dμidμidβ=∑ni=1(yi-μi)V(μi)dμidX′iβdX′iβdβ
其中
dμidX′iβ=dg-1(X′iβ)dX′iβ=1g′(μi)
因此
dl(β)dβ=∑ni=1(yi-μi)V(μi)1g′(μi)X′i
如果Yi服從正態分布,對所有的i來說,則有g′(μi)=1和g′(μi)=1。讓dl(β)dβ=0從而有
∑ni=1Xi(yi-X′iβ)=0
對于其他的指數散布族來說,沒有固定的方法來解這個方程。為了獲得最大似然估計值(MLE),我們必須用數值算法。
上邊極大似然估計的函數算法對于廣義線性混合模型來說也是很適用的,其數值算法可以用SAS求得。
三、信度理論
信度理論是研究如何合理利用先驗信息和個體索賠經驗來進行估計、預測及指定后驗保費,后驗保費估計值可以用下面的公式來表示:
后驗保費估計值=Z×經驗值+(1-Z)×先驗值
其中Z(0≤Z≤1)稱為信度因子;后驗保費估計值稱為信度估計。只有正確的選擇信度因子Z,才能使調整后的保費接近于真實的風險水平。
在信度理論中,我們著重介紹一下Bühlmann模型和實用性很強的Bühlmann-Straub模型。
在信度模型中,Bühlmann把合同j于時間段t的理賠總額分解成三個單獨的分量。第一個分量是總體均值m,第二個分量是特定的合同j的理賠額與總體均值的偏差,第三個分量是在特定的時間段t內的理賠額與總體均值的偏差。假設這些偏差是一些獨立的隨機變量,于是在理賠額之間就存在一個協方差結構,在該結構下以最小化某個平方和的方法我們可以推導出各分量的估計。在此刻畫風險結構的手法下,Bühlmann對理賠量做如下分解:
Xjt=m+εj+εjt,j=1,…,J,t=1,…,T,
其中
E(εj)=E(εjt)=0,
Var(εj)=a,
Var(εjt)=s2j=1,…,J,t=1,…,T,
當假設隨機變量列εj獨立同分布,E(εj)=0,Var(εj)=a,同時對所有的j和t,變量列εjt也是獨立同分布的,且E(εjt)=0Var(εjt=s2,再進一步假設隨機變量列εj和εjt相互獨立的時候,在均方誤差最小的情況下就得到了Bühlmann模型,即Xj,T+1的最佳無偏預報量。
Bühlmann-Straub模型和Bühlmann模型的差別在于后者中分量εjt的方差等于s2/wjt,其中wjt是附在觀測數據Xjt的權。該權代表各個觀測數據的相對精度。
我們可以看到,傳統的信度理論對風險的刻畫方法,和廣義線性混合模型的結構又有極其相似的地方,所以在廣義線性混合模型的框架下理解信度理論意味著在回歸結構中以固定效應和隨機效應的形式,具體如下:
g(μij=ηij=x′ijβ+z′ijbi
這里i(i=1,…,N)表示特定的合同,j代表第j次觀測。聯系函數g(·)和方差函數V(·)是由選擇的廣義線性模型決定的。
在廣義線性混合模型下,Bühlmann模型可以表示為g(μij)=ηij=β+bi(i=1,…,N),β表示總體均值,隨機效應bi表示對總體均值的偏離。Bühlmann-Straub模型是在Bühlmann模型引入正的wij權數的推廣。在GLMM中,權數只用在f(yij|β,bi,)中,用/wij來替代就可以了。上述模型的結構仍然沒有變化。
四、數據分析
為驗證廣義線性模型在信度理論中的可行性和有效性,本文對某保險公司某風險級別的6家汽車公司9年內的索賠歷史數據進行分析,我們的目的是估計每個公司的風險保費。數據具體如下:
第1年第2年第3年第4年第5年第6年第7年第8年第9年
公司199(20)103(20)163(24)126(32)NA(28)219(28)219(28)370(28)273(22)
公司2NA(8)400(6)1042(10)313(6)NA(8)833(4)NA(6)NA(4)NA(4)
公司3275(22)278(22)430(18)196(20)667(12)185(10)517(12)204(10)323(6)
公司4543(26)984(24)727(22)562(18)722(20)610(16)794(12)299(14)580(14)
公司5NA(6)NA(8)NA(6)645(6)833(2)NA(4)NA(2)NA(2)NA(2)
公司6333(18)404(20)400(20)361(16)588(18)349(18)435(14)476(12)635(12)
(表1,來自于2006年林靜,韓玉啟,朱慧明的文章《基于MCMC穩態模擬的貝葉斯經驗費率厘定信用模型》)
括號前面的數字為9年內的索賠歷史數據yij(i=1,…,6;j=1,…,9);括號內注明了當年汽車公司參與投保的汽車數目,記為wij;NA代表缺失值,缺失值的存在對傳統的Bühlmann-Straub模型的影響是不可避免的,使用單純的Bühlmann-Straub模型將忽略其對結構參數估計的有效性。
按上邊所說的g(μij=ηij=β+bi(i=1,…,N),把索賠數據當作解釋變量,把公司i作為隨機效應。對y做直方圖下:
因為是計數數據,且結合圖一情況,用poisson分布來擬合是比較合適的。對隨機效應,我們就假設其為正態分布,所以就用poisson-normal廣義線性混合模型,Yij|bi~poisson(μij,也就是
log(μij=β+bi i=(1,…,6)
運用SAS計算結果如下表:
表2 用SAS-Glimmix算出的固定效應參數
Solutions for Fixed Effects
EffectEstimateStandard ErrorDFt ValuePr>|t|
Intercept6.13510.20503529.920.0001
圖1 歷史索賠數據Y的直方圖
從表2可以看出,固定效應參數為6.1383,P值為<0.0001,擬合效果還是非常不錯的。
表3 用SAS-Glimmix算出的隨機效應參數
Solutions for Random Effects
EffectcompanyEstimateStd Err PredDFt ValuePr>|t|
company1-0.83140.205135-4.050.0003
company20.40650.2051351.980.0554
company3-0.29790.205135-1.450.1552
company40.36000.2050351.760.0878
company50.42630.2053351.760.0452
company6-0.063510.205135-0.310.0586
從表3可以看出,各公司的隨機效應參數bi i=(1,…,6)都已經算出,從各個公司的的P值可以看出,效果還是很好的。
所以,各個公司的風險保費可以用逆運算求出,具體公式如下:
Yij=exp(β+bi),i=(1,…,6)
當然,如果我們的目標不是在于估算出各公司的風險保費,而是在于預測下一年的各公司的理賠額,則馬爾可夫蒙特卡羅(MCMC)方法的應用,可以得到參數的后驗分布,詳情可見2006年林靜,韓玉啟,朱慧明的文章《基于MCMC穩態模擬的貝葉斯經驗費率厘定信用模型》。
五、結論
相對于經典的線性回歸模型和廣義線性模型對于數據條件的要求,廣義線性混合模型將此限制放寬了些,可以擬合更多更寬泛的數據。廣義線性混合模型已經成為了一個強大的工具,越來越多的學者將它用于精算數據的分析。傳統的信度理論,要求出一個信度因子,從而構建出信度保費。傳統的信度理論對風險的刻畫方法,和廣義線性混合模型的結構又有極其相似的地方,所以我們嘗試把傳統的信度理論概括于廣義線性混合模型之中。有別于傳統的信度理論,在廣義線性混模型里,不再有信度因子的存在,而是通過求出固定效應,其相當于均值m,而bi相當于每份保單之于均值的偏離。再通過逆運算,就可以求出風險保費。
(作者單位:武漢理工大學理學院)
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文