孫 榮,張天永
作為壽險精算基礎的壽命表是最早應用處理壽命數據的一種統計分析工具,它的使用可追溯到300多年前。由于人口統計學的發展,特別是人壽保險數學的發展,壽命數據的分析逐漸采用現代統計理論和方法,包括參數統計與非參數統計的方法。一般的壽命數據與統計中通常使用的隨機樣本有很大區別。壽命數據往往是不完全數據,即并不是每一個觀測到的值都是確切的壽命值,某些數據可能只表示相應個體的壽命不小于該數值,而并不知道其確切壽命的數值,這樣的數據稱為截尾數據。在保險實務中,截尾數據的出現不可避免,比如:壽險模型中投保人提前退保就會導致被保險人的實際壽命出現截尾。截尾數據可分為三種類型,前兩種分別是定時截尾和定數截尾,這兩種截尾決定截尾發生的參數是確定的,而第三種截尾稱為隨機截尾,即截尾時間本身是一個隨機變量[5][6]。對隨機截尾數據回歸函數m(X)=E[Y|X]的估計方法主要有三種:線性回歸模型、非參數回歸模型、半參數部分線性回歸模型。在文獻[5]中闡述了局部線性回歸、加權局部線性回歸等非參數方法。
Fan and Gijbels(1994,1995,1996),胡舒合(1995),王啟華(1996),楊善朝(1999),Jangjiang ch eng、Chengbo and Wuxizhi(2002),Ghou ch Anouar EL and Keillegom,Ingrid Van(2008),Zohra Guessoum and Elias Ould Said(2010)等對隨機截尾數據回歸函數的核估計進行了討論。廖靖宇、薛留根(2007)對隨機截尾下回歸函數最近鄰估計的強收斂速度進行了分析,Zhou yong、Zhulixing(1998)提出了一種近鄰估計,并對這種估計的強收斂性進行了分析,由此可見,對于隨機截尾非參數回歸估計,運用核估計方法分析的多,運用最近鄰估計分析的相對較少,對于核估計而言,需要考慮核函數的確定,窗寬的選擇等問題,而最近鄰估計不涉及這樣的問題,更加適用,故本文對保險模型中的壽命數據在隨機右截尾假定下,運用bagged最近鄰估計與kn-最近鄰估計方法進行隨機設計的非參數回歸估計,并對估計通過隨機模擬方法進行精度檢驗。
假定(Xn(1),…Xn(kn))代表x的第kn個最近鄰(本文‖·‖取 Euclid模,‖v‖s=(∑vsni)1s),其中 Xn(1)代表最接近x。YRi代表 Xn(i)對應的Y,kn-最近鄰估計為:

bagged最近鄰估計是將Breinman 1996年提出的bagging(boots tr ap aggregating)原則與1-最近鄰估計相結合而產生的一種估計方法[1][2]。Friedman and Hall(2000)[1],Bu?hlmann and Yu(2002)[9],Hall
and Samwor th(2005),Buja and Stuetzle(2006),Biau and Deveroye(2008)[2]對 bagging(boots tr ap aggregating)在估計與分類等方面的理論與相關方法進行了論述。
k表示每次再抽樣的樣本容量,是n的函數。令:

在不重復抽樣條件下,vni=P(x的第i個最近鄰在一次隨機抽樣中成為x的第一個最近鄰),則bagged最近鄰估計應為:
本文設Y1,Y2,…Yn表示非負獨立同分布的保險模型中個體壽命隨機變量。其分布為F,C1,C2,…Cn表示非負獨立表示截尾的隨機變量,具有分布為G。,類似可定義TG,約定c為與n無關的常數,且每次出現可能表示不同的常數。假定Ci與Yi相互獨立,在隨機右截尾模型中,Y1,Y2,…Yn不能夠被完全觀測,而僅能夠觀測到:

當G已知時:令

則由[5]可知:E(Y?i|Xi)=E(Yi|Xi)=m(Xi)
故認為:Y?i=m(Xi)+εi
其中:Xi是 p維協變量隨機向量,εi是相互獨立隨機誤差序列滿足E[εi|Xi]=0,
故:隨機右截尾的m(x)的bagged最近鄰估計為:

隨機右截尾的m(x)的kn-最近鄰估計為:

當G未知時:令

令:Y?i=δiZi/1-Gn(Zi)
隨機右截尾的m(x)的bagged最近鄰估計為:

隨機右截尾的m(x)的kn-最近鄰估計為:

式(5)(6)(7)(8)中Y?Ri與Y?Ri代表與 X(i)n排序相對應。
文獻[1][2]中分別對完全數據的bagged最近鄰估計的2階收斂速度進行了分析,本文主要運用[3]中ε相對[4]寬松的矩條件得到了隨機右截尾的bagged最近鄰估計與kn-最近鄰估計的逐點收斂速度。
假定:(1)X、m有界,m滿足Lip sch itz條件,即?x∈U(x';δ) |m(x)-m(x')|≤M | x-x'|

(4)E‖ε‖r<∞ 當Borel-Cantelli
引理1[4].設F、G連續,TF<TG≤∞,則:


若Y 有界,且TF<TG≤∞ ,T≥a a.s.(a為某實數)則對:?n≥1


若Y 有界,則對:?n≥1

基于模擬數據的考慮,在假設為一元模型條件下對隨機右截尾的bagged最近鄰估計與kn-最近鄰估計的擬和精度進行分析。
假設某隨機右截尾的保險模型個體壽命Yi=30+60X2i(1-Xi)+εi
其中:Xi~U[0,1] εi~N[0,1],Ci~U[30,50]
運用MatlabR2009a進行隨機模擬,步驟:
(1)生成樣本為 n=100,((2.1)kn=21,(2.2)k=80)滿足如下分布條件的三個隨機序列:
Xi~U[0,1]εi~N[0,1],Ci~U[30,50]
(2)分別計算與每個Xi最近的21個Xj(j≠i)
(3)生 成 kn( n-k+1)個 Xj(j≠i)序 列=30+60(1-Xj)+εj
(4)根據(2.3)生成 Zj=min(Yj,Cj)
(5)根據(2.4)計算Y?j=δjZj/1-G(Zj)
(6)分別根據(2.5)(2.6)計算每個Xi的m(xi)的兩種最近鄰估計
(7)分別重復上述過程100、200次,計算兩種估計的相對誤差 Δ1i= | Yi-m?1(xi)|/| Yi| 、Δ2i= | Yi-m?2(xi)|/| Yi| )、平均相對誤差與總平均相對誤差

表1 重復100、200次的估計相對誤差表

圖1 bagged最近鄰估計擬合圖:n=100 c=10,k=80 Δˉ=6.984×10-4
[1]G.Biau,F.C'erou,A.Guyader.On the Rate of Convergence of the Bagged Nearest Neighbor Estimate[R].French,INRIA,2009.
[2]Biau,G.,Devroye,L.On the Layered Nearest Neighbour Estimate,the Bagged Nearest Neighbour Estimate and the Random Forest Method in Regression and Classification[R].French,Universit'e Pierre et Ma?rie Curie,2008.
[3]Heng Lian.Convergence of Functional K-nearest Neighbor Regres?sion Estimate with Functional Responses[J].Electronic Journal of Sta?tistics,2011,(5).
[4]Luc Deveroye.On the Almost Everywhere Convergenceof Nonparamet?ric Regression Function Estimates[J].The Annals of Statistics,1981,(9).
[5]王啟華.生存數據統計分析[M].北京:科學出版社,2006.
[6]劉力平.生存數據分析的統計方法[M].北京:中國統計出版社,1998.
[7]謝志剛,韓天雄.風險理論與非壽險精算[M].天津:南開大學出版社,2000,(9)
[8]Sanjeev R.Kulkarni,Steven E.Posner.Rates of Convergence of Nearest Neighbor Estimation under Arbitrary Sampling[J].IEEE Tranaction on Information Theory,1995,(41).
[9]B¨uhlmann,P.,Yu,B.Analyzing Bagging[J].The Annals of Statistics,2002,(30).
[10]胡舒合.截尾數據的非參數回歸函數的核估計[J].數學物理學報,1995,(15).
[11]J.Fan,I.Gijbels.Local Polynomial Modeling and its Application[M].London:St Edmundsbury Press,1996.