四川大學錦城學院計算機與軟件學院 黎 磊 楊 杉
以四川人壽保險續保數據,對續保人員的各項信息數據結合大數據進行營銷策略的制定,對不同條件情況的客戶采取最合適且有利的保險措施。采用spss對不同情況的客戶進行分析對比,可以更加直觀的總結出不同情況的客戶更適合于哪種類型的保險與四川人壽保險公司續保客戶中的客戶畫像,使四川仁壽保險公司做出更利于提高續保率的調整與盡可能避免大金額賠付情況的出現,實現公司利益最大化。
保險,作為國民經濟的一個重要組成部分,是社會再生產中一個不可缺少的環節,保險市場的發展,是與國家的經濟、政治與社會發展狀況緊密相連的,并滲透到經濟社會的各個領域。而伴隨著中國經濟的快速發展,我國公民的保險意識也越來越高,保險行業進入了一個快速發展的階段,人壽保險作為保險業中重要的一員,也得到了大力發展。目前,隨著保險業的地位越來越重要,人們對人身保險的需求也日益增多。在快速發展的時代中,每位公民都或多或少的都了解或購買過不同險種的保險來保障自己的基本安全。人身保險可以在人們面臨各種重大風險或因意外事故造成損失時,作為一種經濟保障制度及時給予經濟上的補償,分散了人們面臨的各種風險,且彌補了人們的不幸損失,對人們未來生活的焦慮起到消除或緩解作用。而為了應對種種突發情況的產生以及賠付金的產生,需要通過對不同的客戶進行合適的辦理保險前的準備,并在續保階段進行合適的調整,公司以保障客戶雙方的利益最大化。
以四川人壽保險續保數據為研究對象,對該保險公司某年度的客戶數據進行數據分析。采用spss對不同年齡段,不同性別,不同婚姻狀況,不同險種,不同費用類型與不同總保費等數據進行分析對比,對不同的客戶個體采取適當的保險實施條件,采取針對性的措施避免客戶流失,提高客戶的續保率,實現公司與客戶雙方利益最大化。
數據來源于四川人壽保險年度客戶數據,覆蓋了21余萬條保險數據,數據表中包含了機構、險種、案件號、保單號、賠款金額、賠款時間、出險原因、費用類型、費用金額、總保費、保額、客戶號、性別、年齡、婚姻狀況、過去三年平均年收入與職業16個字段,數據大小17.4M。
在數據表中,存在許多我們分析所使用不到的數據和一些錯誤數據。現實世界中臟數據無處不在,數據不正確或者多個會嚴重影響數據分析的結果,從而產生消極作用。所以在進行數據分析前需要進行對臟數據的處理,刪除與本次分析無較大的關系的索引列。
3.1.1 數據處理
由于續保數據中各條續保數據的年齡不同且有一定的差異,無法將每一個年齡設置為一個參數,所以在進行系統分析之前,需要將年齡索引列進行一定的處理:將年齡依據所有年齡數據的四分位數進行劃分。分別分為四個年齡階段:年齡年齡區間一:最低年齡至35歲;年齡年齡區間二:36歲至39歲;年齡年齡區間三:40歲至45歲;年齡年齡區間四:46歲至最高年齡。
3.1.2 探索分析
通過使用探索分析,分析得出保額與年齡之間的關系。
3.1.3 結果分析
由分析結果可以明顯得出,4組數據偏度均大于0,為右偏分布(均值大于中位數大于眾數),說明同組處于高保額的人較少,大部分人的保額低于平均保額。且4組數據峰度均大于0,說明數據處于尖峰分布,樣本之間差異較大,高保額區域中的極端值較多,保費更多的集中在保額數據的眾數周圍。年齡區間一四分位距最大,說明保費獲得情況最為離散,年齡區間四的四分位距最小,說明保費獲得的情況最為集中。
可以得出,在續保數據中年齡區間三的保額平均值最大,年齡區間四的保額平均值最小。我們由常理可知,保額與總保費有一定的正相關關系,且與險種有一定的關系。我認為可以從中看出年齡區間三的客戶在選擇續保的時候,所繳納總保費是較高的,且選擇續保的險種是屬于可獲得保額較多的一類,由此可以看出:處于年齡區間三的客戶對于自身的人身保險是比較看重的,而從我們的年齡劃分區間中我們可以看出,年齡區間三的客戶正好處于上有老養,下有兒育的情況,而自己很有可能就是家里的頂梁柱,所以為了避免意外情況的發生,自己進行續保保額較大的保險來保障自己家庭的安全。
3.2.1 數據處理
由于在續保數據當中,存在保額為空或者總保費為空,去除掉空數據后再進行數據分析。而為了探索保額與總保費之間的關系,所以使用相關性分析分析總保費與保額之間的關系。
3.2.2 相關分析
雙變量相關性分析分析保額與總保費的關系,得出總保費與保額之間的皮爾遜相關性為0.271,阿爾法值為0.01的情況下,雙尾顯著性為0<0.01,可以得出保額與總保費之間有較強的正相關關系,客戶在續保時所繳納的總保費金額越大,得到保障的保額金額也就越大。
3.2.3 結果分析
當客戶在續保時,所繳納的總保費與得到保障的保額金額存在較強的正相關關系,所以在客戶進行續保的辦理時,可以針對與客戶的期望保額來推薦應該繳納的總保費。由于現在知道保額與總保費之間有較大的正相關關系,那么是否可以使用一定的表達式來得出不同年齡,不同險種,繳納不同的總保費所受保障的保額有多少。
3.3.1 數據處理
線性回歸分析需要所有參數都是屬于數字型的,所以需要將險種列轉換為數字型,使用自動重新編碼將險種列轉換為數字型的新列,再進行線性回歸分析。
3.3.2 線性分析
使用線性回歸分析,將總保費、年齡、險種(數字型)放入自變量區域中,將保額放入因變量區域中,進行分析。可以得出在線性回歸方程中的常量為22386.551;總保費的系數為1.905;年齡的系數為-128.045;險種(數字型)的系數為-236.037;所以我們可以得出下列線性方程:保額=22386.551+1.905×總保費-128.045×年齡-236.037×險種(數字型),從上述式子中我們可以看出,保額與總保費是正相關關系,與年齡與險種是負相關關系。驗證了上述我們分析的兩個關系,并且用更加直觀的方式展示了其中的關系。
3.3.3 結果分析
由上述分析中,我們可以得出在續保時,客戶繳納的總保費、年齡、選擇的險與最終收到保障的保額之間的關系。可以運用這個式子在續保時,針對客戶的各項指標與他隨繳納的總保費得出他可以獲得保障的保額,而客戶也可以通過自己的各項數據據和想要得到的保額的數據推出自己需要繳納多少的總保費。
3.4.1 數據處理
刪除無意義列:刪除教育程度和家庭人口列,再進行下列數據處理。先將所需分析的數據列進行自動重新編碼將所有的數據值轉換為數字類型并將它們設為標度類型,便于后續的分析進行。
3.4.2 相關分析
通過相關分析出與總保費相關性較高的變量(如表1所示)。

表1 相關性分析
從表1中我們可以明顯看出,其中相關性系數較高的變量有:險種、繳費方式、性別、婚姻狀況、職業、保額、年齡、過去三年平均年收入、繳費期限;相關性系數較低的有:投保份數。其中為正向相關的有:保額、年齡、過去三年平均年收入、險種、繳費方式、婚姻狀況;為負向相關的有:繳費期限、性別、職業。
3.4.3 線性回歸
(1)使用線性回歸方法判斷因變量(總保費)與自變量(險種、繳費方式、性別、婚姻狀況、職業、保額、年齡、等變量相關性系數較高的變量)的線性關系。
(2)得出模型摘要表進行分析(如表2所示)。

表2 線性回歸分析
分析可得:第5、6、7、8種模型R方最大,且第8種模型標準估算的錯誤最小,所以通過兩樣數據的綜合,采取第8種模型進行建模。
(3)得出方差分析表。

表3 方差分析表
分析可得:從表中可分析得出表中的顯著性都小于0.01,說明這些變量能夠去建立有效模型。
(4)得出系數表(如表4所示)。

表4 系數表
在系數表中我們可以得出:保額的系數為:0.047 ;繳費期限的系數為:-91.884;繳費方式的系數為:102.563 ;過去三年平均收入的系數為:0.011 ;年齡的系數為:21.415 ;性別的系數為:-71.775;婚姻狀況的系數為:15.556常數項為:-398.289。
分析可得:可以看出表中顯著性值都小于0.01且為0,說明回歸方程模型為有效模型。
3.4.4 結果分析
由上述的分析中,我們可以得出:可以有效的建立線性關系模來表示總保費與其余索引的線性關系:總保費=保額×0.047 +繳費期限×(-91.884)+繳費方式×-398.289 +過去三年平均收入×0.011 +年齡×21.415 +性別×(-71.775)+婚姻狀況×15.556-398.289 。在以后的風險評估中可以使用上述提供的線性關系進行較為粗略的估計運算,及時在續保階段做出最有利于雙方的調整,以保障雙方的利益最大化。
四川人壽保險公司在續保階段時,可以針對于客戶的年齡、婚姻狀況等數據進行適當的調整,針對于老年人也可以推行出一些新的更加適合于老年人的保險以供他們進行續保,不但有益于提高續保率,也可以最大化的增加彼此的收益。而在進行續保時,可以先咨詢客戶的理想保額,再通過客戶的自身數據推出他應該繳納的總保費(通過保額、年齡、險種推出應該繳納的總保費),在得出滿足條件的總保費以后再通過線性回歸方程,算出客戶大概率繳納的總保費(通過客戶的職業、險種、婚姻狀況等變量推算出客戶大概率會繳納的總保費)。通過兩者的比較,可以及時的做出調整,以達到提高續保率,是雙方利益達到最大化。