郭蓮麗 郭立宏 李建勛等
摘要:本文針對非壽險索賠次數回歸擬合問題,以(a,b,0)零膨脹分布類為基礎,簡化其描述表達式,引入服從均勻分布的擾動量,將離散變量轉化為連續變量,并通過Gaussian Copula實現邊際分布的連接,給出模型的參數估計,通過對一組汽車保險索賠次數數據的實證分析和結果比較,表明采用Copula連接后的(a,b,0)零膨脹分布類回歸模型有效地改善了擬合效果,并且避免了保險費率厘定時對索賠次數分布的選擇。
關鍵詞:零膨脹;索賠次數;(a,b,0)分布類
中圖分類號:F840.48文獻標識碼:A文章編號:10035192(2014)05005306doi:10.11847/fj.33.5.53Abstract:According to the problem of nonlife insurance claim frequency regression fitting, the paper takes(a,b,0)zeroinflated distribution class as a foundation, simplifies the description expression, introduces a jitters variable with uniform distribution, transforms discrete variables to continuous variables, and joint marginal distributions by Gaussian Copula function, puts forward the parameter estimation of distribution model. By the empirical analysis and results comparison, which using a group of auto insurance claims data, shows that: the(a,b,0)zeroinflated distribution class regression model jointed with Copula function is effective to improve the fitting effect, and avoids the choice of the distribution for claim frequency in rate making.
Key words:zeroinflated; claim frequency; (a,b,0)distribution class
1引言
在非壽險精算中,分布類是一個最為常用的索賠次數擬合方法,它涵蓋了泊松分布、二項分布、負二項分布、幾何分布[1,2],具有一定的實用價值。但在大部分非壽險業務中,索賠次數數據往往具有過離散和零膨脹特征,尤其在免賠額限制和無賠款優待(NCD)的影響下,期望零遠遠小于實際數據中零的個數,零膨脹情況更為嚴重。為解決這一類問題,人們分別展開了(a,b,0)分布類中零膨脹泊松、零膨脹負二項分布等的研究工作。
對零膨脹現象的研究,最早可追溯到Johnson和Kotz[3]的一些初步理論研究工作,Lambert[4]則首次提出了零膨脹泊松模型,建立了零計數和非零計數的混合概率分布,并應用于電子制造業的質量控制中。基于這一思想,Greene[5]將零膨脹泊松分布模型擴展到零膨脹負二項分布模型,并采用BHHH方法估計模型參數的標準誤差。Yip等則討論了各種零膨脹模型在非壽險中的應用,并對車險數據的索賠頻次進行了擬合分析[6]。Denuit等和Winkelmann分別還在其專著中對零膨脹現象進行了討論,分析了索賠次數數據的零膨脹特征[7,8]。除此而外,Hall[9],Bohning[10],Agarwal[11],Cheung [12],Bohara[13],Curmu[14]等還分別探討了不同行業領域的零膨脹現象,并將零膨脹思想與分布模型應用到農業、醫學、環境科學、兒童發育學、人口學以及計量經濟學范疇,通過實證分析論證了零膨脹分析的正確性與實用性,推動了零膨脹的研究與發展。當前,隨著研究的深入,業已出現了(a,b,0)分布類中的零膨脹泊松、零膨脹負二項分布的擴展和推廣,典型的有:Moffatt等[15]針對觀測到的數據并非確切值而僅已知其落在某區間范圍的情況,提出了數據集不同分類的分組GZIP模型;文獻[16]還對其進行了改進,提出了一種零膨脹泊松半參數回歸模型來處理分組計數數據,該模型中泊松分布的期望與協變量之間采用部分線性連接函數,而零值的概率與協變量之間采用線性連接函數。Gupta等則引入零膨脹廣義泊松回歸模型ZIGP對胎兒運動與死亡次數數據進行了擬合[17]。Czado等[18]又在此基礎上對ZIGP回歸模型做了進一步的研究與分析。針對損失數據,孟生旺等[19]分別利用零膨脹泊松回歸、零膨脹負二項回歸、零膨脹廣義泊松回歸模型進行了分析,說明了零膨脹模型可以顯著改善擬合效果。徐昕等[20]和郭念國[21]則分別給出一個零膨脹負二項分布的擴展形式和一個修正的零膨脹泊松模型,解決了索賠次數中出現的零膨脹問題。
雖然上述研究已經在一定程度上解決了索賠次數的零膨脹問題,然而隨著人們對非壽險精算索賠次數擬合和回歸的要求越來越高,僅僅依靠傳統的泊松分布和負二項分布的零膨脹改造、泛化和擴展,已經不能夠滿足精算實務的需要,人們迫切希望探索一種能夠進一步提高擬合效果,充分表現不同風險因素對索賠次數作用的分布模型。為此,本文在介紹(a,b,0)零膨脹分布類的基礎上,通過引入服從均勻分布的擾動量將離散變量轉化為連續變量,以(a,b,0)零膨脹分布類為邊際分布,建立了基于Gaussian Copula的聯合分布模型,并給出模型的參數估計,最后與文獻[6]和[20]中多個回歸擬合的結果進行了比較分析。結果發現,零膨脹模型對零索賠次數的估計相比傳統的(a,b,0)分布類更加接近真實值,并且利用Copula函數連接可以實現對多種邊際分布的聯合,更加準確地反映了綜合風險因素條件下的索賠次數,提高了擬合分析效果,避免了保險費率厘定時對索賠次數分布模型的選擇。
郭蓮麗,等:(a,b,0)零膨脹分布類的Copula函數連接及索賠次數擬合
5實證應用
為便于比較,本文采用與Yip等[6]相同的數據進行實證分析。數據來自SAS企業數據挖掘數據庫,數據內容包括保單信息、駕駛記錄、潛在風險、投保人特征,以及索賠日期、索賠頻次、補償數量等。原始數據中有觀測值10303個,33個風險分類變量,由于數據大多不夠完整,故僅采用1年的數據展開分析,總計抽取3712個客戶的2812條完整數據記錄,實測的0,1,2,3,4,5次索賠的頻度分別為[1706,351,408,268,74,5]。
5.1索賠次數的擬合
索賠次數的擬合分別選用AB0、ZIAB0、ZINBII、ZIGP、ZINBK、CZIAB0共6種分布,其中AB0為(a,b,0)分布類,ZIAB0為(a,b,0)零膨脹分布類,ZINBII和ZINBK為來自文獻[20]的兩種零膨脹負二項分布,ZIGP為零膨脹廣義泊松分布[6],CZIAB0為本文利用Copula函數在n=2時建立的二維零膨脹(a,b,0)聯合分布。通過編寫NLMIXED代碼所獲得的無風險分類下索賠次數數據的擬合結果如下:(1)當采用(a,b,0)分布類進行擬合時,得到參數估計a=0.3664、b=0.1500,滿足表1中的判別條件00,分布符合負二項分布,索賠次數擬合結果分別為[1478,763,337,140,57,22],此時AIC和BIC分別為7006和7017,大于7000,說明擬合效果相對較差。(2)用(a,b,0)零膨脹分布類進行擬合時,得到參數估計a=0、b=1.6899,滿足條件a=0和b>0,其分布符合零膨脹泊松分布,索賠次數擬合結果分別為[1706,443,357,201,85,29],此時AIC和BIC分別為6699和6719,擬合效果相比前者明顯改善。(3)ZINBII、ZIGP、ZINBK三種零膨脹是對(a,b,0)零膨脹分布類中的零膨脹泊松分布和零膨脹負二項分布的擴展,對應的索賠次數擬合結果分別為[1706,423,357,201,85,29]、[1706,423,357,201,85,29]、[1706,423,357,201,85,28],結構零比率1-w分別為0.5177、0.5176、0.5176,擬合效果均有所提升,但由于參數數量的增加,AIC和BIC降低的幅度不高,且三者之間差異不大,在一定程度上影響了擬合時分布函數的選擇。(4)在將兩個(a,b,0)零膨脹分布作為邊際分布,使用Gaussian Copula函數建立聯合分布后,得到參數估計a1=0、b1=1.5966(零膨脹泊松分布)和a2=0.6820、b2=0.2208(零膨脹負二項分布),結構零比率1-w=0.5150,根據判斷條件可知聯合分布CZIAB0實際是由零膨脹泊松分布和零膨脹負二項分布這兩個邊際分布通過Gaussian Copula函數連接而成,索賠次數擬合結果分別為[1706,416,398,220,78,16],此時AIC和BIC分別為6168和6197,擬合結果明顯改善,更加接近于觀測數據。并且還可以看出,在這一過程中,我們不需要在擬合前確定各邊際分布的具體類型,其可以通過參數估計結果和判斷條件反推獲得,因而避免了保險費率厘定時對索賠次數分布模型的選擇。(5)綜合比較可知,零膨脹模型對零索賠次數的估計相比傳統的(a,b,0)分布類更加接近真實值,為了進一步驗證,我們還選取了其它年份數據進行了分析,發現ZIGP、ZINBK、CZIAB0三種零膨脹分布均準確地反應了索賠數據中的零索賠次數,且參數在水平為5%下顯著,僅是在結構零所占比率的大小上有所不同。
5.2回歸模型的擬合
在回歸模擬中,選取了13個費率因子,包括客戶性別、教育程度、婚姻狀況、單親家庭、客戶年齡、汽車類型、汽車顏色、汽車用途、行駛區域、年薪收入等,除年薪收入為連續變量外其它均為屬性變量。經過風險分類后,回歸模型擬合結果如下:(1)所有的回歸模型結果均表明汽車用途、婚姻狀況、行駛區域、年薪收入、客戶性別是與索賠次數相關的重要風險因素,采用AB0、ZIAB0、ZINBII、ZIGP、ZINBK、CZIAB0模型回歸后的截距分別為-1.2187、-0.5619、-0.5619、-0.5619、-0.6361、-0.5899,各因素在不同模型下回歸系數分別為0.2895、0.1489、0.1489、0.1489、0.0854、0.0950,-0.1430、-0.1108、-0.1107、-0.1108、-0.0807、-0.0991,1.4071、1.2298、1.2298、1.2298、1.2888、1.2355,-0.0309 、-0.0174、-0.0174、-0.0174、-0.0181、-0.0179,-0.1187、-0.0510、-0.0510、-0.0510、-0.0315、-0.0419,且散度參數和結構零的比率參數w均在水平為5%下顯著,反映了觀測數據的零膨脹特點。(2)在6個回歸模擬中,ZIAB0、ZINBII、ZIGP的結果差異不大,AIC和BIC都在6500附近,ZINBK模型通過對ZINB擴展后略有提升,AIC和BIC分別是6452和6470,而CZIAB0的AIC和BIC分別為6289和6349,
是所有模型中最小值,具有最佳的回歸效果,更加有效地描述了潛在的索賠次數分布,同時表明觀測數據中有1211(2812×(1-0.5692))個結構零。(3)回歸結果還說明:商業用途的汽車相比家用或個人汽車顯示出高的索賠次數;生活或工作在市區的投保人由于產生事故的概率較大,因而引起的索賠次數也相對較高;婚姻狀況的協變量系數為負值,表明已婚被保險者可能駕駛車輛時較為謹慎,索賠率較低;年薪收入變量也具有負系數,說明高收入的保險人或許更加重視車輛的保養、維護和維修,從而擁有較低索賠次數;另外,客戶性別變量的系數也為負值,揭示了男性駕駛者發生事故的幾率比女性駕駛者小;但總體來看,年薪收入和客戶性別對索賠次數的影響程度相對其它并不明顯(系數分別為-0.0179和-0.0419)。
6結論
本文綜合利用(a,b,0)分布類、零膨脹理論、Copula函數,探討了零膨脹條件下的索賠數據擬合問題,建立了基于Gaussian Copula的(a,b,0)零膨脹分布類CZIAB0,并通過索賠次數和回歸模型的擬合,與AB0、ZIAB0、ZINBII、ZIGP、ZINBK等5個模型進行了比較。從擬合結果來看,CZIAB0具有最小的對數似然值、AIC和BIC,結構零比率的相關參數w均在水平為5%下顯著,更加接近觀測數據。總體來看,CZIAB0涵蓋了常見的泊松分布、負二項、零膨脹泊松和零膨脹負二項分布,并通過Copula實現了對多種分布的聯合,更加有效地反應了綜合風險因素條件下的索賠次數,提高了擬合分析效果,并且避免了保險費率厘定時對索賠次數分布模型的選擇。
參考文獻:
[1]許芹.索賠次數數據分布的擬合方法的分析和比較[J].應用概率統計,2005,21(3):315321.
[2]孟生旺,劉樂平.非壽險精算學[M].北京:中國人民大學出版社,2007.1927.
[3]Johnson N L, Kotz S. Distribution in statistics: discrete distribution[M]. New York: Wiley, 1969. 132.
[4]Lambert D. Zeroinflated Poisson regression with an application to defects in manufacturing[J].Technometric, 1992, 34(1): 114.
[5]Greene W. Accounting for excess zeros and sample selection in Poisson and negative binomial regression models[R]. Working Paper,Department of Economics, New York University, 1994. EC94103.
[6]Yip K C H, Yau K K W. On modeling claim frequency data in general insurance with extra zeros[J]. Insurance: Mathematics and Economics, 2005, 36(2): 153163.
[7]Denuit M, Marechal X, Pitrebois S, et al.. Actuarial modeling of claim counts: risk classification, credibility and bonusmalus systems[M]. England: John Wily and Sons, Ltd, 2007. 6285.
[8]Winkelmann R. Econometric analysis of count data(5th)[M]. Berlin: SpringerVerlag Berlin Heidelberg, 2008. 173199.
[9]Hall D B. Zeroinflated Poisson and binomial regression with random effects: a case study[J]. Biometrics, 2000, 56(4): 10301039.
[10]Bohning D, Dietz E, Schlattmann P, et al.. The zeroinflated Poisson model and the decayed, missing and filled teeth index in dental epidemiology[J]. Journal of Royal Statistical Society. Seris A(Statistics in Society), 1999, 162(2): 195209.
[11]Agarwal D K, Gelfand A, et al.. Zeroinflated model with application to spatial count data[J]. Environmental and Ecological Statistics, 2002, 9(4): 341355.
[12]Cheung Y B. Zeroinflated models for regression analysis of count data: a study of growth and development[J]. Statistics in Medicine, 2002, 21(10): 14611469.
[13]Bohara A K, Krieg R G. A zeroinflated Poisson model of migration frequency[J]. International Regional Science Review, 1996, 19(3): 211232.
[14]Gurmu S, Rilstonez P, Stern S. Semiparametric estimation of count regression model[J]. Journal of Econometrics, 1999, 89(1): 123150.
[15]Moffatt P G, Prters S A. Grouped zeroinflated count data models of coitl frequency[J]. Journal of Population Economics, 2000, 13: 205220.
[16]鐘雨珂,薛宏旗,張三國.分組零膨脹泊松模型的半參數統計推斷[J].中國科學院研究生院學報,2009,26(2):172184.
[17]Gupta P L, Gupta R C, Tripath R C. Analysis of zeroadjusted count data[J]. Computational Statistics and Data Analysis, 1996, 23: 207218.
[18]Czado C, Erhardt V, Min A, et al.. Zeroinflated generalized Poisson models with regression effects on the mean, dispersion and zeroinflation level applied to patent outsourcing rates[J].Statistical Modeling, 2007, 7(2): 125153.
[19]孟生旺,王維.零膨脹損失次數回歸模型及其應用[J].蘭州商學院學報,2011,27(1):17.
[20]徐昕,袁衛,孟生旺.零膨脹負二項回歸模型的推廣與費率厘定[J].系統工程理論與實踐,2012,32 (1):127133.
[21]郭念國.零膨脹泊松模型的改進在零磁索賠建模中的應用[J].統計與信息論壇,2010,25(7):2225.
[22]李晶.索賠次數分布簇(a,b,0)類的性質及應用[J].科學技術與工程,2010,10(22):54815484.
[23]Panjer H, Willmot G. Computational aspects of recursive evaluation of compound distribution[J]. Insurance: Mathmatics and Economics, 1992, (5): 113116.
[24]Sklar A. Fonctions de repartition a dimensions et leurs marges[J]. Publication de IInstitut de Statistique de IUniversite de Paris, 1959, 8: 229231.
[25]Madsen L, Fang Y. Joint regression analysis for discrete longitudinal data[J]. Biometrics, 2011, 67(3): 11711175.
[26]Denuit M, Lambert P. Constraints on concordance measures in bivariate discrete data[J]. Journal of Multivariate Analysis, 2005, 93(1): 4057.
[16]鐘雨珂,薛宏旗,張三國.分組零膨脹泊松模型的半參數統計推斷[J].中國科學院研究生院學報,2009,26(2):172184.
[17]Gupta P L, Gupta R C, Tripath R C. Analysis of zeroadjusted count data[J]. Computational Statistics and Data Analysis, 1996, 23: 207218.
[18]Czado C, Erhardt V, Min A, et al.. Zeroinflated generalized Poisson models with regression effects on the mean, dispersion and zeroinflation level applied to patent outsourcing rates[J].Statistical Modeling, 2007, 7(2): 125153.
[19]孟生旺,王維.零膨脹損失次數回歸模型及其應用[J].蘭州商學院學報,2011,27(1):17.
[20]徐昕,袁衛,孟生旺.零膨脹負二項回歸模型的推廣與費率厘定[J].系統工程理論與實踐,2012,32 (1):127133.
[21]郭念國.零膨脹泊松模型的改進在零磁索賠建模中的應用[J].統計與信息論壇,2010,25(7):2225.
[22]李晶.索賠次數分布簇(a,b,0)類的性質及應用[J].科學技術與工程,2010,10(22):54815484.
[23]Panjer H, Willmot G. Computational aspects of recursive evaluation of compound distribution[J]. Insurance: Mathmatics and Economics, 1992, (5): 113116.
[24]Sklar A. Fonctions de repartition a dimensions et leurs marges[J]. Publication de IInstitut de Statistique de IUniversite de Paris, 1959, 8: 229231.
[25]Madsen L, Fang Y. Joint regression analysis for discrete longitudinal data[J]. Biometrics, 2011, 67(3): 11711175.
[26]Denuit M, Lambert P. Constraints on concordance measures in bivariate discrete data[J]. Journal of Multivariate Analysis, 2005, 93(1): 4057.
[16]鐘雨珂,薛宏旗,張三國.分組零膨脹泊松模型的半參數統計推斷[J].中國科學院研究生院學報,2009,26(2):172184.
[17]Gupta P L, Gupta R C, Tripath R C. Analysis of zeroadjusted count data[J]. Computational Statistics and Data Analysis, 1996, 23: 207218.
[18]Czado C, Erhardt V, Min A, et al.. Zeroinflated generalized Poisson models with regression effects on the mean, dispersion and zeroinflation level applied to patent outsourcing rates[J].Statistical Modeling, 2007, 7(2): 125153.
[19]孟生旺,王維.零膨脹損失次數回歸模型及其應用[J].蘭州商學院學報,2011,27(1):17.
[20]徐昕,袁衛,孟生旺.零膨脹負二項回歸模型的推廣與費率厘定[J].系統工程理論與實踐,2012,32 (1):127133.
[21]郭念國.零膨脹泊松模型的改進在零磁索賠建模中的應用[J].統計與信息論壇,2010,25(7):2225.
[22]李晶.索賠次數分布簇(a,b,0)類的性質及應用[J].科學技術與工程,2010,10(22):54815484.
[23]Panjer H, Willmot G. Computational aspects of recursive evaluation of compound distribution[J]. Insurance: Mathmatics and Economics, 1992, (5): 113116.
[24]Sklar A. Fonctions de repartition a dimensions et leurs marges[J]. Publication de IInstitut de Statistique de IUniversite de Paris, 1959, 8: 229231.
[25]Madsen L, Fang Y. Joint regression analysis for discrete longitudinal data[J]. Biometrics, 2011, 67(3): 11711175.
[26]Denuit M, Lambert P. Constraints on concordance measures in bivariate discrete data[J]. Journal of Multivariate Analysis, 2005, 93(1): 4057.