楊小藜 孫 榮
(1.重慶工商大學 數學與統計學院,重慶 400067;2.重慶工商大學 社會經濟應用統計重慶市重點實驗室,重慶 400067)
2020年9月,車險綜合改革正式開啟,進一步提高了車險費率的市場化程度。雖然車險費改有良好的發展勢頭,但車險市場仍然存在諸多問題。在車險費率逐漸放開的背景下,市場對財險公司的定價能力和產品創新能力提出了更高要求,車險費率市場化改革已經成為當前監管和研究的一大熱門,如何運用精算方法優化車險費率厘定模式,使其更加科學精準,成為研究者的關注點。在非壽險精算領域,人們普遍采用的是廣義線性模型(GLM),該模型的基本結構涵蓋了隨機成分、系統成分以及連接函數,隨機成分的特點是在滿足獨立的條件下突破傳統的觀測變量屬于正態分布的假設,從而擴展到更通用的指數分布族。系統成分是指解釋變量的線性組合形式,再通過連接函數創建響應變量的均值參數和解釋變量間的線性聯系。廣義線性混合模型(GLMM)能夠通過加入隨機效應從而對不同觀測之間的相關性和因為沒有觀測到的特征引起的異質性問題加以解釋。廣義線性模型(GLM)的另一個發展方向是廣義可加模型(GAM),該模型的主要不同點是在系統成分中有個別解釋變量可以用非參數等方法,進而通過平滑處理、樣條展開等形式對因變量的均值函數加以解釋。這類模型主要用于實際工作中需要分析連續型變量的情況,該模型相較于傳統的GLM模型可以優化建模效果,更好地解釋各變量對因變量的影響。
基于位置、尺度和形狀參數的廣義可加模型(GAMLSS)由Rigby和Stasinopoulos在2005年提出。拓展的廣義可加模型相較于GLM、GLMM和GAM模型具有更突出的優勢:一是在隨機成分方面,觀測值分布族不再局限于指數分布族,可以擴展到更一般的高度偏斜、連續型或離散型分布,類似零調整伽馬分布等。二是在系統成分中,涵蓋了解釋變量的參數形式和非參數形式,同時設置隨機效應解釋異質性等問題。三是在連接函數方面,通過連接函數,可以實現對因變量分布的包括尺度和形狀參數在內的所有參數建立回歸模型。由此可見,在當前進行精算領域研究中,GAMLSS模型擁有突出的優勢。GAMLSS模型允許將響應變量分布的所有參數建模為解釋變量的線性、非線性或者平滑函數[1]。
GAMLSS模型是包含GLM、GAM、GLMM模型的更一般的模型,除此以外還包括零調整逆高斯模型[2]和離散參數模型[3]在內的其他拓展模型。Klein和Denuit(2014)[4]通過一組比利時汽車保險組合的詳細案例,分別利用負二項和零膨脹泊松分布擬合索賠頻率,通過基于零調整建立對數正態和逆高斯分布依次對索賠額進行建模。呂定海和黃大慶(2013)[5]基于國外一組損失數據率先探討GAMLSS模型在索賠頻率和索賠額方面的應用,將其結果和GLM模型對比,得出了GLM模型在考慮混合、截斷分布等方面表現乏力的結論。孫維偉和陳偉珂(2016)[6]主要考慮了零值存在的影響,故對索賠次數和索賠額各自在零膨脹、零調整有限混合分布的假設下建立GAMLSS模型,用EM算法進行參數估計。劉新紅和馮媛等(2017)[7]針對縱向數據通常存在異質性問題進行重點討論,證實了加入隨機效應的GAMLSS模型可以更加靈活地解釋個體保單的差異性,同時不同時期的同一個體的相關結構保持不變。王選鶴和孟生旺等(2017)[8]對損失分布的尾部特征運用密度函數極限法進行刻畫,考慮二型廣義貝塔(GB2)分布假設下的GAMLSS定價模型并將其運用到索賠額模型中。
與廣義線性模型、廣義線性混合模型和廣義可加模型不同,基于位置、尺度和形狀參數的廣義可加模型(GAMLSS)是更有一般性、概括性的模型,該模型擁有拓展響應變量的分布族范圍的功能,從而更有利于描述具有偏度和高峰度、過離散等特征在內的索賠數據。GAMLSS模型的另一項功能是可以同時對位置、尺度和形狀參數建立回歸模型,使模型更加全面精確地刻畫數據特征,理論和實踐方面都比傳統的GLM模型等更加精細和科學。
GAMLSS模型假設響應變量y=(y1,y2,…,yn)Τ各自相互獨立,參數向量為θi=(θi1,…,θip)Τ,觀測值響應變量的密度函數為f(yi|θi),通過連接函數gk(·)表示分布參數與解釋變量間的關系:

其中,θk和ηk為n維隨機向量,Xk和Zjk均是已知的設計矩陣,參數向量βk=(β1k,…,βJ'kk)Τ,變量γjk來自多維正態分布。
根據以上結構形式,可以建立的各個分布參數的模型為:

式中,μ、σ、ν、τ分別代表位置參數、尺度參數、偏度和峰度參數。
負二項分布是泊松與伽馬分布的混合分布,其概率密度函數為:

當計數數據中不含零值時稱該現象為零截斷,相應的零截斷負二項分布的密度函數形式如下:

指數分布族中包含了常見的伽馬分布,通常該分布用于擬合索賠額等連續型變量,其概率函數形式如下:

逆高斯分布同樣主要用于擬合索賠額大于零的連續型變量,通過圖1可以看出當均值和方差都相同時,如果索賠數據呈現尖峰厚尾型狀態,那么逆高斯分布比伽馬分布更適合刻畫索賠數據,它的概率密度函數如下:


圖1 相同條件下的伽馬和逆高斯分布圖
本文數據集源于瑞典第三方汽車保險索賠數據(數據來源:www.statsci.org)。該數據集整體包含7個變量,其中有風險暴露數(Insured)、索賠次數(Claims)、總索賠額(Payment);4個影響因素分別是每年駕駛的公里數(Kilometres,分5類)、行駛地區(Zone,分7類)、無賠款折扣等級(Bonus,分7類)、車型(Make,分9類)。
原始數據中共有2182個風險等級,為了方便對索賠強度建模,首先篩除索賠次數為0的風險等級,這樣一共包含了1797個風險等級,并基于此數據集展開索賠頻率和索賠強度的建模。通過初步分析,將各個影響因子中觀測值個數較多的風險等級設為基準風險類別,各個因子的基準風險等級分別為Kilometres=2、Zone=4、Bonus=7、Make=9。

圖2 索賠頻率分布圖

圖3 索賠強度分布圖
構建響應變量的模型時,將索賠次數作為因變量,將風險暴露數的對數作為調整項建立索賠頻率模型。由各個風險類別的索賠額與索賠次數之比求得索賠強度的值,即平均每次的賠款金額。針對索賠頻率,分別考慮傳統的泊松分布、負二項分布和零截斷分布,從而建立相應的廣義線性模型(GLM)和拓展的廣義可加模型(GAMLSS)。針對索賠強度模型,分別考慮伽馬分布和逆高斯分布,通過GAMLSS模型建立只含均值參數的模型和含有所有參數的模型,并比較它們的擬合效果。
利用AIC和BIC最小信息準則以及分位殘差QQ圖,對模型效果進行診斷和篩選。AIC和BIC度量模型中的損失信息量,所以這兩項值都應該越小越好,即值越小,模型的精確度越高。分位殘差QQ圖中,用對角線近似擬合樣本數據,即觀測數據與對角線越貼近說明模型的擬合效果越可靠。綜合考慮信息準則和QQ圖的情況,能夠使模型選擇更加可靠、科學。

表1 索賠頻率

表2 索賠強度

圖4 泊松分布GLM模型

圖5 零截斷泊松分布GAMLSS模型

圖6 負二項分布GLM模型

圖7 零截斷負二項分布GAMLSS模型

圖8 伽馬分布GAMLSS模型

圖9 逆高斯分布GAMLSS模型
模型選擇方面,通過比較AIC、BIC以及分位殘差圖,可以得出以下結論:對于索賠頻率模型,基于負二項分布的廣義線性模型優于泊松廣義線性模型;而考慮零截斷負二項模型后,發現該模型的綜合表現最為突出,即選擇零截斷負二項分布的GAMLSS模型擬合索賠頻率。對于索賠強度模型,不論是伽馬分布還是逆高斯分布,考慮位置、尺度參數的GAMLSS模型都比只含有位置參數的GLM模型更精確可靠。最終選擇基于逆高斯分布的GAMLSS模型擬合索賠強度。
通過參數估計結果可以發現,對于索賠頻率模型,零截斷負二項分布的GAMLSS模型有良好的擬合效果,大部分變量在分布參數下表現顯著。對于索賠強度模型,各個影響因子對位置、尺度參數的影響大部分顯著性較高,說明能夠估計所有分布參數的GAMLSS模型更具優勢。回歸系數中,行駛里程數對索賠頻率有正向影響,即行駛里程數越大,發生索賠的概率越大。在所有地區中,大城市比農村地區、小城市更易發生事故,這與大城市車流量、人流量更大,道路更加擁堵有關。對于無折扣賠款因子,無折扣賠款等級越高,對應的索賠發生概率越低。車型因子方面,索賠頻率最高的是車型5,最低的是車型4;車型8的索賠強度最高,車型4的索賠強度最低。通過各個風險等級對索賠頻率和索賠強度的回歸系數可以發現,這些因子對索賠頻率和索賠強度的影響不一致,即兩者可能存在負相關關系;在索賠強度模型中,各個因子對位置參數和尺度參數的影響幾乎相反。

表3 參數估計結果

(續表)
當行駛里程數為1、地區為1、無賠款折扣等級為1、車型為1時,對應索賠頻率的期望為0.169,索賠強度的期望為4447.067,從而對應的純保費應為751.554。
基于位置、尺度和形狀參數的廣義可加模型(GAMLSS)突破了常見的指數分布族,拓展了因變量的分布類型,使模型更加適用實際數據需求。GAMLSS模型的另一個突出特點是,可以對分布族中涉及的所有參數分別創建回歸模型,這比以往只能估計均值參數的模型更加符合理論基礎,從而體現該模型的可靠性。本文基于GLM和GAMLSS模型,依次對索賠頻率和索賠強度進行分析,按照信息準則和殘差QQ圖對模型加以診斷和選擇,通過對比發現,基于零截斷負二項分布的GAMLSS模型能較好地擬合索賠頻率,基于逆高斯分布的GAMLSS模型能較好地擬合索賠強度。同時,對因變量的所有分布參數建立GAMLSS模型的表現明顯優于只有位置參數的模型,由此說明對所有參數建立GAMLSS模型得到的效果會更加科學、精確。