湯宏順 楊杉
隨著我國人民保險意識的逐步提升,國家加大了對保險市場的政策支持力度,保險公司迎來了更多的發展機遇,同時也面臨著全新的挑戰。如何在競爭激烈開放的環境中獲得競爭優勢和持續成長能力成為保險公司經營管理的核心問題。續保數據對于保險公司來說十分重要,續保率是決定財產保險公司經營業績的一個重要指標。保險公司可通過續保數據對公司業務進行調整,以提高用戶對于公司業務的信賴以及粘性。本文主要利用SPSS軟件對某保險公司的續保數據進行分析,并根據分析結果給出建議。
分析工具
SPSS(Statistical Product and Service solutions),稱為統計產品與服務解決方案。2000年以前稱為“社會科學統計軟件包”(Statistical Package for the Social Science),是IBM公司推出的能夠提供統計學分析運算、數據挖掘、預測分析和決策支持任務的一種集成化計算機數據處理應用軟件。EXCEL,在EXCEL中,數據的計算與處理都可以通過公式工具,實現自動化處理,在數據處理工作中呈現出極大的便捷性。本文首先使用excel對數據進行預處理,然后利用SPSS將處理后的數據導入,進行分析。
分析思路
以某保險公司的續保數據為研究對象,先利用EXCEL對這些數據進行預處理,主要是刪除掉一些臟數據。再用SPSS軟件對其21萬條數據做分析。針對性別,過去三年年年收入,總保費,保額等運用獨立樣本T檢驗、區間估計、單因素方差、散點圖等方法分析該數據得出結論,提出建議。

數據來源
數據來源于某保險公司。續保的這份數據共有21萬條,16個字段,分別記錄了機構、險種、投保時間、繳費、繳費期限、投保份數、總保費、保額、客戶號、性別、年齡、婚姻、過去三年平均年收入、教育程度、職業、家庭人口。其中婚姻狀態中的D是離婚、S是單身、M是結婚、R是再婚、W是喪偶、X是缺失。總保費是指投保人一共需要向保險公司繳納的總額,保額是指保險公司理賠的最高額度。對于過去三年的平均年收入做了脫敏處理,此數據并非真實,可能是*0.5或縮小了其他的倍數(一般為降低收入)但總體趨勢相同。
數據清洗
因為該數據集數據量比較大可能會有一定的臟數據會對我們的分析產生影響。因此我通過運用excel工具的定位條件判斷是否有空值并進行刪除。通過對年齡進行升序排序,運用高級篩選功能對每一列的數據進行查看查找出不合理的數據值做刪除處理,比如年齡為1,嬰幼兒,年收入卻為30000元等等。通過簡單的數據清洗后可以從數據中提取出更有意義的信息。
性別與過去三年年收入的關系
通過獨立樣本T檢驗探究性別與于過去三年年收入關系分析。由組統計得: 男性的個案數為109361,平均值為14009.4023,標準偏差為47234.18995,標準誤差平均值為142.83191。女性的個案數為109117,平均值為13596.5685,標準偏差為58153.57646,標準誤差平均值為176.04765。由獨立樣本檢驗中可得顯著性為0.069,大于0.05,則方差齊。顯著性>0.05,則性別與過去三年年收入在0.05顯著水平下不呈現差異。研究采用獨立樣本t檢驗判斷性別與過去三年年收入的關系,結果顯示性別與過去三年年收入在0.05顯著性水平下不呈現差異,進一步比較均值發現,男性過去三年年收入平均值是大于女性過去三年年收入的,不過相差不多。所以性別與過去三年年收入關系并不大。
婚姻狀況與總保費的關系
采用區間估計的數據方法分析婚姻狀況與總保費的關系。對于婚姻狀況的不同,是否會影響總保費。針對這一問題,采用區間估計方法分析,由于這是一個比較分散的數據,所以剔除500000以上的極大值來重新分析該箱型圖。
D(離婚)的總保費整體是在一個偏低的水平集中,數據分布是在中位數以上分布的,中位數以上分布的較為密集,說明總保費較高的人差距是不大的。M(結婚)的總保費整體是在一個偏高的水平集中,數據分布是在中位數以上分布的,中位數以上分布的較為稀疏,說明總保費較高的人差距是較大的。S(單身)的總保費整體是在一個偏高的水平集中,數據分布是在中位數以上分布的,中位數以上分布的較為稀疏,說明總保費較高的人差距是較大的。W(喪偶)的總保費整體是在一個偏高的水平集中,數據分布是在中位數以上分布的,中位數以上分布的較為密集,說明總保費較高的人差距是不大的。X(缺失)的總保費整體是在一個偏高的水平集中,數據分布是在中位數以上分布的,中位數以上分布的較為稀疏,說明總保費較高的人差距是較大的。
通過區間估計的方法,說明了婚姻狀況與總保費之間有顯著差異。M(已婚)和X(缺失)的總體的總保費較高,而D(離婚)和R(再婚)以及W(喪偶)的總保費偏低。
年齡與保額的關系
利用單因素方差分析探究不同年齡段與保額之間的關系,首先對年齡、保額和進行描述統計,發現年齡跨度比較大,因而需對年齡進行分段。分段依據為,18歲以下為一組,18-34歲為一組,35-59歲為一組,60歲以上為一組。
在方差齊性檢驗下,發現顯著性值小于0.05(置信度為95%)。因而,方差不具有齊次性,所以要拒絕原假設,在檢驗多重性比較中選擇塔姆黑尼T2作為判斷參考依據。同時在方差分析信息表中,對不同年齡段的保額水平是否有顯著性差異進行分析。發現顯著性值都小小于0.05。因而拒絕原假設:不同年齡段的保額水平沒有顯著性差異,因此所以至少有兩種不同年齡段的保額水平是有顯著性差異的。