吳雨婷


摘要:中國目前的車險費率制度,大多數符合“從車主義”,即車險保費多少,主要取決于這輛車本身的各項情況,如車的購置價、座位數、排量、購車年限、上年理賠次數等。該文通過對收集到的數據進行量化處理,運用層次聚類法對量化后的數據進行分析,結合歐氏距離公式與相似系數,即可得到聚類圖和垂直冰狀圖,從而近似得出用戶的精準畫像。因客戶是否續保,服從二項分布,所以可用SPSS構建二項分類Logistic回歸模型,并通過回歸分析,求出續保率的回歸方程,從而實現對續保率的預測。
關鍵詞:層次聚類法;Logistic回歸模型;SPSS;精準畫像
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2020)13-0286-02
1研究背景
隨著社會經濟的不斷發展,人民的生活水平也在逐步提高,伴隨著而來的是汽車數量在逐年攀升,與此同時,人們還想給自己的生命安全買個“保險”,于是便帶動了汽車保險行業的發展,其發展形勢正在吸引越來越多的關注。對于汽車保險行業來說,如何吸引更多的車主前來投保并且留住老客戶已經成了車險行業的一大難題。信息時代的到來,為車險企業提供了一個更加有力的武器,可以通過數字化技術來更加精準地了解客戶,提前預測客戶的續保率,并制定相應的營銷和服務方案。
2問題分析
關于車險續保率的問題,需要建立數學模型進行求解。通過對數據的分析,可知影響客戶續保的決策因素有很多,比如新車購置價,車齡,NCD等都會影響客戶的決定。首先要對客戶進行精準畫像,將所有可能的影響因素進行歸類,然后將這些因素作為是否續保的一個判斷依據。但是,經過觀察數據之后,我們發現,影響因素過多,因此,我們選擇采用層次聚類法進行精準畫像,對不同層次的數據集進行劃分。然后對各個影響因素進行量化處理,使復雜的數據簡單化。再通過建立Lo-gistic模型,進行回歸分析,得到每個影響因素的權重,把權重帶入回歸方程就可以得出續保率的函數方程。通過對續保率的求解,可以對客戶是否續保進行預測。
3續保率
為了方便模型的求解,需要先將收集到的數據全部進行量化處理,如渠道,續保年,使用性質等,運用SPSS對數據進行量化處理。接著把量化后的數據值帶入原始數據表,得到量化后的變量因素表,完成對原始數據的歸一化處理。通過量化數據可以大大簡化續保率的復雜程度,使得模型求解更加簡便。
數據量化后,就可以采用層次聚類法來分析,將聯系緊密的變量歸為一類,作為用戶畫像的一個衡量標準。先把n個樣品看成n類,然后把性質最類似的兩類歸為一類,這樣總量就變為n-1類,繼續尋找性質最類似的一類,再合并,直到把所有的變量都聚為一類,從而建立層次聚類模型。在層次聚類中,聚類統計量是指能反映樣品或者變量之間性質的統計量。這里采用的聚類統計量為距離和相似系數。
1)距離:主要用于對樣品的聚類。常用的距離有馬氏距離、絕對值距離和歐式距離,這里選取歐式距離來計算。對于任意兩個樣品a,b,歐氏距離公式為:
其中的βo是常數項,也稱為截距。βi為回歸方程所對應的的偏回歸系數。
2)優勢比
指事件發生的概率(Pi)與事件不發生的概率(1-Pi)的比值,又稱為OR值。其中OR值和EXP值是作為衡量權重大小的重要因素。
3)sig值
又稱作P值,作為衡量自變量與應變量是否具有顯著相關性的因素。所得因素,只要sig值小于或等于0.05,即可被認為有顯著影響。反之,則不被考慮到影響因素中。
4)標準回歸系數
因為不同的變量其衡量單位可能不同,所以不能直接采用偏回歸系數的絕對值來比較權重的大小,而要使用標準回歸系數。但構建回歸模型的時候還得通過偏回歸系數βi計算出標準回歸系數。
如表1所示,將部分量化后的數據導入SPSS中。根據自變量所對應的Logistic回歸方程,選用SPSS軟件中的二元Logistic回歸方式,得到判斷模型正確率的分類表和判斷顯著性因素與求解回歸方程系數的變量表。
從表1中的分類表可以看出回歸模型的正確率為99.6%。根據EXP值,可以得到上述九個影響因素的權重。權重從大到小的順序是:續保年>險種>簽單保費>NCD>車輛種類>渠道>使用性質>三者保險額>車齡。根據圖中的B值可以得到具體的置的值。從而最終得到N分布Logistic回歸方程:
由公式f5)可知,每個用戶的續保概率都可以通過此二項分布Logistic回歸方程計算出。
4結束語
本文針對如何判斷車主的續保概率,運用層次聚類法對量化后的數據進行分類,利用SPSS近似得到用戶的精準畫像。通過二項分類Logistic回歸模型,進行回歸分析,得到續保率的回歸方程,從而實現對續保率的預測。