毛麒麟,楊杉
(四川大學錦城學院,計算機與軟件學院,成都611731)
其是借助一整套模塊化的分析系統完成對相關數據的處理,具有操作簡單、功能強大、簡潔明了的特點[1]。分析續保數據列發現,總保費、客戶性別、客戶年齡和客戶過去三年平均年收入之間存在可以挖掘的關系和價值,本文主要針對這幾列做出了獨立樣本T檢驗、皮爾遜相關性分析、單因素方差分析和探索分析。
該續保數據集一共有218480行16列,包含機構、險種、投保時間、繳費方式、繳費期限、投保份數、總保費、保額、客戶號、性別、年齡、婚姻狀況、教育程度、過去三年平均年收入、職業、家庭人口字段。
刪除投保時間、投保份數、教育程度、家庭人口無效列;
篩選保額為0的行并刪除;
篩選過去三年平均年收入除無職業、無兼職離退休、無兼職其他人員、無業家庭主婦、學生、嬰幼兒等職業外在1000元以下的行并刪除;
篩選婚姻狀況為X的行并刪除;
添加婚姻狀況代碼列,并通過IF函數嵌套將M(已婚)設置為1、S(未婚)設置為2,D(離異)設置為3、W(喪偶)設置為4;
添加年齡層次代碼列,并通過IF函數嵌套將18歲以下設置為1、18-30歲設置為2,30-50歲設置為3、50歲以上設置為4;
添加過去三年平均年收入層次代碼列,并通過IF函數嵌套將1w以下設置為1、1w-3w設置為2,3w-5w設置為3、5w-10w設置為4、10w-100w設置為5、100w以上設置為6;
原數據218480行16列,清洗數據103029行15列。
分析過程:選擇分析工具欄下的比較均值的獨立樣本T檢驗工具,檢驗變量設置為過去三年的平均年收入,分組變量設置為性別,選項中將置信區間百分比設置為95%。結果如圖1-圖2。

圖1 以性別為分組的過去三年平均年收入組統計描述

圖2 獨立樣本檢驗
結論:觀察組統計表可以初步得出,不同性別的客戶過去三年平均年收入的平均值和標準誤差平均值相差不大,但標準差的差異比較明顯。觀察獨立樣本檢驗表得出,方差齊次性檢驗的顯著性sig=0.004<0.05說明應該拒絕原假設,即方差不具有齊次性,因此觀察不假定等方差的t檢驗結果,其中顯著性(雙尾)sig=0.000<0.05說明應該拒絕原假設,即不同性別的客戶在過去三年平均年收入存在明顯差異[2]。
分析過程:依次點擊分析、相關、雙變量,將總保費和年齡放入變量框中,因為總保費和年齡都為刻度級數據,故相關系數勾選皮爾遜,點擊確定。結果如圖3所示。

圖3 總保費與年齡的皮爾遜相關性描述
結論:因為相關系數|r|在0.8-1.0之間是極強相關,0.6-0.8之間是強相關,0.4-0.6之間是中等程度相關,0.2-0.4之間是弱相關,0.0-0.2則是極弱相關或無相關[3]。且在此相關性表格下方有注明“**”表示相關性在0.01上是顯著的[4]。所以根據Pearson相關性分析結果可以得到總保費和年齡的相關系數是0.062,即|r|=0.062,且右上角有兩個星號,說明總保費和年齡的相關性是顯著的,為極弱正相關。
分析過程:先在變量視圖中對婚姻狀況代碼設置值標簽說明(如圖4),再依次點擊分析、比較平均值、單因素ANOVA檢驗打開單因素檢驗設置框,將總保費放入因變量列表中、婚姻狀況代碼放入因子中,點擊選項并勾選方差齊性檢驗,點擊繼續[5],點擊事后比較并在假定等方差中勾選LSD、在不假定等方差中勾選T2,點擊繼續,點擊對比并設置系數依次為3、-1、-1、-1(即將已婚類別與未婚、離異和喪偶類別進行對比),點擊繼續,點擊確定。
結果如圖4所示。

圖4 方差齊次性檢驗

圖5 各類別多重比較不假定等方差
結論:根據方差齊性檢驗表可以看出顯著性為0.015<0.05,所以應該拒絕原假設假定方差相等,即方差不具有齊次性;再觀察對比檢驗表的不假定等方差行的數據,顯著性為0.014<0.05,說明應該拒絕原假設,表明各類婚姻狀況的客戶繳納的總保費存在顯著差異,故應該查看塔姆黑尼多重比較表[6]。表中第1列數據的右上角帶有*說明該分類的類別與對應類別具有顯著差異。得出以下結論:各類婚姻狀況的客戶繳納的總保費中已婚與離異之間有顯著差異,與未婚、喪偶之間沒有顯著差異;未婚與離異之間有顯著差異,與喪偶之間沒有顯著差異;離異與喪偶之間沒有顯著差異;喪偶與其余3種婚姻狀況都沒有顯著差異。
3.4.1 過去三年平均年收入與性別的探索分析
分析過程:點擊分析工具欄中描述統計選項卡下的探索選項,將過去三年平均年收入放入因變量列表中、性別放入因子列表中,點擊確定,進行探索分析[7]。
結果如圖6所示。

圖6 以性別為分類的過去三年平均年收入統計描述

圖7 以性別為分類的過去三年平均年收入直方圖
結論:
由描述性統計結果可看出男性的平均收入高于女性,但兩者的中位數都為10000,且男性、女性的峰度都大于零,說明男性近三年年收入中,相較于女性收入波動更大,范圍更廣。男性、女性的偏度也都大于零,表示其數據分布形態與正態分布相比為右偏,數據右端有較多的極端值。男性偏度值大于女性說明男性近三年平均年收入中有更多的高收入人群。因數據梯度太大,離散程度太大,故通過分段將收入水平分為了6個層次進行總體分析。不難看出大多數男性和女性的近三年平均年收入分布在17000-32000,且男性女性總體的收入差異不大,但男性收入會稍多一些。
3.4.2 保額、總保費與年齡的探索分析
分析過程:利用函數,現將年齡段分類:=IF(I2<=18,1,IF(I2<=30,2,IF(I2<=50,3,4))),再設置SPSS中的變量視圖中更改值字段:(0,18]=1,(18,30]=2,(30,50]=3,(50,50+)=4。點擊探索分析,將保額、總保費設置為因變量,年齡設置為因子,進行探索分析。結果如圖8所示。

圖8 18歲以下及18-30歲的保額統計描述

圖9 30-50歲及50歲以上的總保費統計描述
結論:
由圖分析可知,保額和年齡有很大的關系。當年齡范圍偏小時,隨著年齡的增大保額增大,當年齡到達30歲區間范圍后,隨著年齡的增大,保額開始逐步減少,年齡越大,保額越少。而總保費隨著年齡的增長而增加,年齡越高,保障的成本也越高。同樣的保額,肯定是年齡大的買貴??偟膩碚f年紀越小買,保費越便宜、性價比越高。
通過獨立樣本T檢驗的結果、皮爾遜相關性分析結果、單因素方差分析結果、探索分析結果可得出以下結論:
(1)不同性別的客戶過去三年平均年收入的平均值相差不大,但總體存在顯著差異。
(2)保費和年齡的相關性是顯著的,總保費隨著年齡的增長而增加??偟膩碚f年紀越小買,保費越便宜、性價比越高。同時,隨著年齡的增大保額增大,當年齡到達30歲以后,保額開始呈減少狀態,年齡越大,保額越少。
(3)各類婚姻狀況的客戶繳納的總保費中已婚與離異之間有顯著差異,與未婚、喪偶之間沒有顯著差異;未婚與離異之間有顯著差異,與喪偶之間沒有顯著差異;離異與喪偶之間沒有顯著差異;喪偶與其余3種婚姻狀況都沒有顯著差異。
(4)近三年年收入中,男性收入相較于女性收入的波動更大,范圍更廣。男性近三年平均年收入中有更多的高收入人群。男性女性總體的近三年平均年收入差異不大,但男性收入會稍多一些。
針對男性客戶過去三年平均年收入比較高的客戶,在客戶有意愿的情況下可以推薦多個險種的保險,增加客戶的受保幾率和公司的保險訂單;針對不同的年齡階段的客戶制定不同的購買保險的計劃,盡可能將各個年齡階段的客戶都納入有保險可購買的情況下,并且根據不同的年齡階段制定不同的保費和保額[10];建議給已婚或者再婚的客戶推薦一種家庭保險或者推薦家庭幾個人一起買某種保險,送出福利或者打折或者提升保額等優惠操作;給未婚、離異或者喪偶的客戶推薦保費較低的險種;建議客戶可以在能力范圍之內盡早的購買適合的保險為自己或者家人的未來做一個規劃。