鄒玉蘭,楊杉
(四川大學錦城學院計算機與軟件學院,成都611731)
隨著我國社會的飛速進步以及我國經濟的快速發展,我國計算機信息技術也得到了迅速的進步,極大地影響著人們的生活水平[1]。保險最初建立時的意義是將個人現存的空閑資金對未來無法預期的風險損失做出保障的運行體制,作為個人防范風險的一種手段,大數據可以更有效地抓取用戶需求、保險產品價格、保單風險防控等,但因為大數據在保險業的應用正處于初步的探索階段,無法對信息進行完全有效抓取并分析[2]。保險行業是經營風險的行業,要利用風險模型或數理技術等對標的物的風險進行評定,風險評定的過程就是數字化的過程,數字化是保險行業的自然屬性。保險公司的利潤主要來源于收取的保費和未來的賠付支出的差額,保險公司先要對這些風險發生的概率進行預測,預測的過程就是數字化的過程[3]。本文就大數據對保險公司客戶投保數據進行研究分析。
以四川仁壽保險公司客戶新投保數據為例,利用SPSS的分析方法挖掘保險客戶的大數據信息價值。發現新投保數據列,險種、總保費、客戶性別、客戶年齡和客戶過去三年平均年收入之間存在可以挖掘的關系和價值,本文主要針對這幾列做出不同險種類別的頻率分析,客戶不同婚姻狀況之間的總保費的單因素方差分析和客戶過去三年平均年收入與性別探索分析。
該新投保數據集一共有900649行16列,包含機構、險種、投保時間、繳費方式、繳費期限、投保份數、總保費、保額、客戶號、性別、年齡、婚姻狀況、教育程度、過去三年平均年收入、職業、家庭人口字段。
刪除投保時間、投保份數、教育程度、家庭人口無效列;篩選保額為0,過去三年平均年收入除無職業、無兼職離退休、無業家庭主婦、學生、嬰幼兒等職業外在1000元以下的行并刪除;篩選婚姻狀況為X的行并刪除;添加險種分類列,將險種第一個字符相同的劃為同一類,以第一個字符作為共同的類型;添加婚姻狀況代碼列,并通過IF函數嵌套將M(已婚)設置為1、S(未婚)設置為2,D(離異)設置為3、W(喪偶)設置為4、R(再婚)設置為5。
原數據900649行16列,清洗數據417141行14列。
分析過程:選擇分析工具欄下的描述統計的頻率分析,將變量設置為險種分類(險種依據首字符劃分類別),在圖形中選擇條形圖,在格式中選擇按計數升序排列,點擊確定。

圖1 以險種分類為分組的頻率統計描述

圖2 各險種分類的個案數條形圖
結論:觀察以上兩圖可以得到,不同分類的險種的新增投保客戶之間存在差異。其中B類保險的新投保客戶最少,僅占總新投保客戶數量的1%;S類保險的新投保客戶最多,占比46.5%,接近一半的投保數量。因此,按照新投保數據的險種分類頻率可以得出各險種受歡迎程度的順序:S>4>6>Y>B。此結論說明,S類保險在新客戶選擇投保的時候占有絕對的優先選擇權,這說明S類保險的設計比較符合大多數客戶的需求,并且能夠給機構帶來大量的客戶源;B類和Y類保險的投保率較低,這說明這兩類保險的需求不高,4類保險和6類保險的投保率居中,其中4類保險比6類保險更受歡迎。
分析過程:先在變量視圖中對婚姻狀況代碼設置值標簽說明,再依次點擊分析、比較平均值、單因素ANOVA檢驗打開單因素檢驗設置框,將總保費放入因變量列表中、婚姻狀況代碼放入因子中,點擊選項并勾選方差齊性檢驗,點擊繼續,點擊事后比較并在假定等方差中勾選LSD、在不假定等方差中勾選T2,點擊繼續,點擊對比并設置系數依次為1.5、-1、-1、-1、1.5(即將已婚和再婚類別與未婚、離異和喪偶類別進行對比),點擊繼續。

圖3 方差齊次性檢驗
結論:根據對比檢驗表中假定等方差的顯著性水平為0.001、不假定等方差的顯著性水平為0.130可以得出應該拒絕假定等方差的原假設、接受不假定等方差的原假設,即已婚和再婚類別與未婚、離異和喪偶類別的方差不具有齊次性。從而選擇查看塔姆黑尼多重比較表,根據此表可以得出各婚姻狀況關于繳納的總保費中已婚與未婚、喪偶之間有顯著差異,與離異、再婚之間沒有顯著差異;未婚與離異、喪偶之間有顯著差異,與再婚之間沒有顯著差異;離異與喪偶之間有顯著差異,與再婚之間沒有顯著差異;喪偶與再婚之間沒有顯著差異;且再婚與其余4種婚姻狀況都沒有顯著差異。

圖4 各類別多重比較不假定等方差表
分析過程:點擊分析工具欄中描述統計選項卡下的探索選項,將過去三年平均年收入放入因變量列表中、性別放入因子列表中,點擊確定。

圖5 以性別為分類的過去三年平均年收入統計描述
結論:由描述性統計結果可看出男性的平均收入高于女性,但兩者的中位數都為2這個等級,即平均年收入為1w到3w這個區間,且男性、女性的峰度都大于零,表示該總體數據分布與正態分布相比較為陡峭,為尖頂峰。男性的峰度值更大,說明男性近三年年收入中,相較于女性收入波動更大,范圍更廣。男性、女性的偏度也都大于零,表示其數據分布形態與正態分布相比為右偏,數據右端有較多的極端值,數據均值右側的離散程度強,即收入大于2w到3w這個區間值的極端值更多。男性偏度值大于女性說明男性近三年平均年收入中有更多的高收入人群。不難看出,男性女性總體的收入差異不大,但男性收入會稍多一些,高收入人群偏多。

圖6 以性別為分類的過去三年平均年收入直方圖
通過頻率統計的結果、單因素方差分析結果、探索分析結果可得出以下結論:①不同險種的投保率存在明顯的差異,S類保險的投保率最高占有46.5%,B類保險的投保率最低僅占1%,按照新投保數據的險種分類頻率可以得出各險種受歡迎程度的順序:S>4>6>Y>B。②各類婚姻狀況關于繳納的總保費中已婚與未婚、喪偶之間有顯著差異,與離異、再婚之間沒有顯著差異;未婚與離異、喪偶之間有顯著差異,與再婚之間沒有顯著差異;離異與喪偶之間有顯著差異,與再婚之間沒有顯著差異;喪偶與再婚之間沒有顯著差異;且再婚與其余4種婚姻狀況都沒有顯著差異。③近三年年收入中,男性收入相較于女性收入的波動更大,范圍更廣。男性近三年平均年收入中有更多的高收入人群。男性女性總體的近三年平均年收入差異不大,但男性收入會稍多一些。
根據本文的數據分析,可以得出目前保險行業的客戶需求很大,本文研究的原始新投保數據約90萬條,如此龐大的數字顯示說明越來越多的人關注到了保險給人們帶來的福利和保障,并且保險行業的發展是大勢所趨,大數據在保險行業中的運用也會越來越成熟,越來越頻繁。
保險公司可以對客戶需求量大的S類保險的新投保客戶制定特殊的福利項,維持投保率在較高的水平;對需求量較小的B類保險進行優化提升,從客戶的需求方面稍微優化保險套餐的內容,加大吸引客戶的力度,優化這兩類保險的套餐設計和投保推薦,爭取能夠讓公司在相同需求的情況下爭取更多的客戶源,增加行業之間的競爭籌碼;針對男性客戶過去三年平均年收入比較高的客戶,在客戶有意愿的情況下可以推薦多個險種的保險,增加客戶的受保幾率和公司的保險訂單;建議給已婚或者再婚的客戶推薦一種家庭保險或者推薦家庭幾個人一起買某種保險,送出福利或者打折或者提升保額等優惠操作;給未婚、離異或者喪偶的客戶推薦保費較低的險種;建議客戶可以在能力范圍之內盡早地購買適合的保險為自己或者家人的未來做一個規劃。
保險公司可以利用大數據技術對客戶流動數據進行實時監控和挖掘,大數據技術可以幫助保險公司挖掘潛在有價值的客戶和找出各類保險的需求量,用真實的客戶數據反映市場動向和規劃公司未來發展的方向。