徐殿坤 楊杉



摘要:以四川人壽保險的客戶數據作為研究對象,該公司的數據分為四張表分別為新投保、續保、退保、理賠。對這些表采用SPSS、Excle,對數據進行一個數據預處理,然后對數據表的部分數據進行分組篩選然后運用頻率分析、單因素方差分析、探索分析、相關性系數分析、等數據分析方法對該項目的四個數據表進行大數據分析。直觀地得出該保險公司的市場價值,潛力和存在風險,進而針對性提出問題和建議。
關鍵詞:大數據;保險;金融
中圖分類號: TP311.13? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)25-0041-03
Abstract: Taking the customer data of Sichuan life insurance as the research object, the company's data is divided into four tables, namely new insurance, renewal, surrender and claim settlement. SPSS and Excel are used to preprocess the data, and then some of the data in the data table are grouped and screened. Then the data analysis methods of frequency analysis, one-way ANOVA, exploratory analysis, correlation coefficient analysis and correlation bivariate analysis are used to analyze the big data of the four data tables of the project. Intuitively get the market value, potential and risk of the insurance company, and then put forward more targeted problems and suggestions.
Keywords: Big data; Insurance; Finance
1 引言
在互聯網、大數據等信息技術的驅動下保險業的經營模式、服務方式、產業格局正在發生著巨大的變革正在形成的總體發展趨勢是:通過技術與業務全方位的融合為用戶提供高品質的服務,依靠技術創新驅動經營轉型和管理變革,不斷打造技術引領的新產品擴大技術引領的新優勢,逐步實現理念、戰路、價值鏈和行動的統一。[1]
現在的保險遠遠不止于財產的保護,跟我們生活上的健康,減輕生活的負擔都息息相關。對于保險公司來說,需要給客戶提供更高質量的服務,合理的保險價格,還得給公司帶來商業價值以及減少公司承擔的風險。根據波士頓咨詢的研究,最重要的“改良效應”發生在五個環節,即風險評估與定價、交叉銷售、客戶流失管理、理賠欺詐檢測、理賠預防與緩解。[2]就需要龐大的數據和相對較高的數據質量,以及數據的完整性等,然后再對數據進行處理,篩選分析,以上述的五個環節為方向,我們進行對應的數據特征分析,直觀的得出該保險公司存在的市場價值,所需減少的風險。
2 研究思路
以2016年四川人壽保險提供的客戶數據作為研究對象,對這些數據進行開始的預處理。采用SPSS、Excel,對不同數據表其中個別有分析價值的特征列,客戶年齡與賠款金額和賠款類型進行探索分析、退保原因和退保金額進行均值和單因素方差分析等來進行客戶流失管理,對理賠原因和年齡進行頻率統計,再對頻率統計結果進行處理做探索分析以得出賠款支出占比。對客戶三年年均收入與職業進行探索分析來挖掘和開發新的銷售市場。
3 數據說明
3.1 數據來源
數據來源是2016年四川人壽保險的客戶數據,包括了2016.1.1-2016.7.1這個時間段的新投保數據,續保數據,退保數據和理賠數據。數據包括了險種、平均三年收入、年齡、職業、婚姻狀況、賠償類型、賠償金額、保費、保額等29個特征列,共140萬條數據,120M。
3.2 數據清洗
在數據收集、整理、利用的過程中,保護用戶隱私是保險公司應負擔的責任[3]。所以時間和姓名等敏感字段就自動清洗。繪制圖表時把過高的年收入給清洗掉避免異常值,還有個別案例無普遍性和說服性忽略不計。但還是由于數據特征以及數據個數龐大且無用重復數據較多,因此先用Excel來對此數據表進行數據清洗[4]篩選出我們所需要的特征列,其主要使用了客戶年齡,過去三年平均年收入,職業,年齡等特征列的數據進行相應的數據分析和對比。
4 數據表分析
4.1風險評估
此表存在16列特征,其中先對賠款類型(費用類型)和客戶年齡進行數據統計,接著對統計后的賠款類型進行0,1分類再拿出客戶年齡,賠款金額,賠款類型來進行偏相關分析。
4.1.1數據可視化展示
根據圖1可知:客戶年齡大體是呈現正態分布,35-45,50-60這兩個年齡段出現意外的人數頻率較多,由于此區間內客戶頻數較大,把此區間年齡段劃分為高風險年齡段,賠款類型頻率圖顯示基于疾病和意外的情況占比最多,將這兩類賠款類型劃分為0,其他所有的賠款類型劃分為1來更深層的觀察。
由圖2可知: 0標簽下,處理的個案數為182760例,1標簽下處理的個案數為29422例。標簽為0的費用類型,賠款金額均值為2100元,而標簽為1的情況下,賠償金額均值為6200元,其標簽為0和標簽1的最小值均為0即說明都存在保險公司不予通過賠償申請的情況。最大值因遠遠高于平均值所以不予參考價值。偏度與峰度都均為正值,均呈尖峰右偏狀態,大多數人的賠償金額在均值附近。