四川大學錦城學院計算機與軟件學院 向 倩 楊 杉
在獲取的新投保數據中包括機構、險種、投保時間、繳費方式、繳費期限、投保份數、總保費、保額、客戶號、性別、年齡、婚姻狀況、過去三年收入、教育程度、職業以及家庭人口;針對不同婚姻狀況與保額的關系、不同年齡與保額的關系、總保費與保額之間的關系、性別與過去三年的收入的關系,采用了排序、分組、單因素方差分析、簡單相關分析以及探索分析,得到總保費與保額之間是顯著相關的、男性的過去三年平均年收入高于女性、婚姻狀況與保額有顯著關系、保額均值有顯著的差異。
在全面建成小康社會、加快步入社會主義現代化的關鍵時期,保險業作為金融體系的重要一員,合理評估其現代化進程、科學度量其發展水平、總結其發展成績是社會各界關注的焦點。
隨著中國經濟近年來的高速發展,居民收入提高和保險意識的增強,民眾對于保險產品的保障與投資功能需求日益旺盛,進而釋放了大量商業保險,特別是商業健康保險的市場需求。尤其是2020年,新冠肺炎疫情在全球范圍內的大肆蔓延,令我國居民健康保障意識得到了明顯的提升,也讓國內的商業健康保險獲得了爆發式增長。在近年來政策利好逐步釋放、市場需求快速增長、產業融合和科技賦能加速等多重機遇的疊加下保險業進入高質量發展軌道,其風險保障和經濟補償作用得到更加充分的發揮,保險業在解決養老、居民健康等民生問題上發揮出了更加重要的作用。然而保險公司層出不窮,與此同時,保險企業是否能長期留住客戶的問題也成為保險公司發展的一大重點,以服務質量為基礎的留客和鎖客已成為保險公司的獲益前提。因此人們對保險的購買和保險公司的保險種類以及質量都有了一定的要求。
基于越來越多人不能買到適合自己的保險,讓自己的利益最大化,保險公司的定制方案也不能“一呼百應”的背景下,通過四川人壽保險公司的新投保數據,一共有機構、險種、投保時間、繳費方式、繳費期限、投保份數、總保費、保額、客戶號、性別、年齡、婚姻狀況、過去三年平均年收入、教育程度、職業、家庭人口這十六列數據排序、分組、單因素方差分析、簡單相關分析以及探索分析的方法,對不同婚姻狀況與保額的關系、不同年齡與保額的關系、總保費與保額之間的關系、性別與過去三年的收入的關系進行了分析,通過分析客戶購買保險的情況,優化保險公司的保險種類和保費,讓客戶根據自己的實際情況選擇。
數據來源于四川人壽保險公司,覆蓋了某段時間內客戶新投保的數據,數據表中包含了機構、險種、投保時間、繳費方式、繳費期限、投保份數、總保費、保額、客戶號、性別、年齡、婚姻狀況、過去三年平均年收入、教育程度、職業、家庭人口16個字段共90多萬條數據,64M。
將四張數據表中帶有空值的數據整行刪去并且由于數據分析的緣故將新投保數據中過去三年平均年收入為0的數據整行刪除,其操作步驟為在“開始”菜單欄中,點擊打開“查找”對話框,在“查找內容”中輸入“0”;選擇“單元格匹配”前面的復選框,選中所有查找結果。在查找結果區域中按下“Ctrl+A”鍵,選中所有的查找結果,然后點擊右鍵刪除0值所在的行。將無用數據列投保時間、投保份數、教育程度、家庭人數刪去,針對剩下的數據進行分析。
針對總保費與保額之間的關系,采用了簡單相關分析方法;
在分析選項卡中選中相關選項,打開相關選項中的雙變量分析,將總保費和保額添加到變量中,選中Pearson和雙側檢驗,最后生成相關系數表(表1)。

表1 相關性分析結果
可以看出總保費與保額的雙側檢驗值為0,是小于α=0.01的,應該拒絕原假設,還可以清晰看到總保費與保額之間是顯著相關的,其相關系數為0.74。
針對性別與過去三年的收入,采用了探索分析方法在分析選項卡中選中描述統計,打開描述統計中的探索功能,將過去三年平均年收入放在因變量列表中,將性別放入因子列表中,最終輸出性別與過去三年平均年收入的描述統計(表2)。
男性和女性的偏度和峰度都為正值,為右偏以及尖峰分布,右偏說明右邊的分布密度稀疏,也就意味著高工資的人相對較少,尖峰意味著挨著平均工資的人比較集中,并且男性的平均值、偏度、峰度都高于女性,說明男性過去三年平均年收入高于女性。
針對不同婚姻與保額的關系,采用了排序和單因素方差分析;
在數據選項卡中打開排序個案,將婚姻狀況添加到排序依據中,對婚姻狀況進行重新編碼,將婚姻情況進行標記,D-0、S-1、M-2、X-3、W-4、R-5,然后打開單因素方差分析選項,進行兩兩對比,最后輸出多重對比表(如表3、表4、表5所示)。
針對不同年齡與保額的關系,采用了排序和單因素方差分析;
在數據選項卡中打開排序個案,將年齡添加到排序依據中,對不同年齡進行重新編碼,將年齡進行標記,分為0-18為0、19-38為1、39-58為2、58以上為3,然后打開單因素方差分析選項,進行兩兩對比,最后輸出多重對比表(如表6~表9所示)。

表2 數據描述

表3 方差齊性檢驗

表4 對比檢驗

表5 多重比較分析結果因變量:保額
方差不具有齊次性,分析Tamhane表。
D與S、M、X、W有顯著差異,與R無顯著差異;S與X、W有顯著差異,與M、R無顯著差異;M與X、W有顯著差異,與R無顯著差異;X與W、R無顯著差異;W與R無顯著差異;R與任意情況均無顯著差異。
D顯著高于S、M、X、W;S顯著高于X、W;M顯著高于X、W;X顯著高于W;W不顯著高于任意情況;R與其余情況均無顯著差異。
離異人群購買保險占大多數,其次是單身人群,喪偶人群投保最少,已婚人群處于中間水平。

表6 方差齊性檢驗保額
顯著性<0.05,說明拒絕原假設,即方差不具有齊次性,僅對Tamhane進行討論。

表7 ANOVA保額
不同年齡段的保額的均值是否有顯著的差異,顯著性<0.05,拒絕原假設,說明至少有3個年齡段的平均保額有顯著的差異。

表8 多重比較因變量:保額
兩兩比較,因為方差不具有齊次性,查看Tamhane。
18歲以下年齡段與19-38歲年齡段進行比較,根據顯著性列小于0.05,判斷18歲以下與19-38歲年齡段有顯著差異,根據均值差(I-J)列,18-38歲的保額顯著高于18歲以下;18歲以下與39-58歲年齡段進行比較,顯著性0.996>0.05,沒有顯著差異;判斷18歲以下與59歲以上年齡段,顯著性0.146>0.05,沒有顯著差異。
19-38歲年齡段與其他年齡段進行比較,顯著值均為0<0.05,有顯著差異,且根據均值差(I-J)列判斷,19-38歲年齡段保額均值高于所有年齡段。
39-58歲年齡段與59歲以上年齡段進行比較,顯著值均為0<0.05,有顯著差異,且根據均值差(I-J)列判斷,39-58歲年齡段保額均值高于59歲以上。

表9 對比檢驗
方差不具有齊次性,查看不假設等方差的數據,顯著性(雙側)為0,拒絕原假設,所以他們的保額均值有顯著的差異。
通過使用SPSS對新投保數據進行分析之后得到保額與總保費的關系:總保費越高,其保額越高;對性別與過去三年平均年收入可以得出性別與收入有關系,男性過去三年平均年收入高于女性;對不同婚姻狀況與保額關系可得不同的婚姻狀況與保額有關系,離異人群購買保險占大多數,其次是單身人群,喪偶人群投保最少,已婚人群處于中間水平;對不同年齡與保額可得不同年齡影響著保額。
對個人而言,在實際生活中,要根據自身及其家庭的實際情況具體分析。比如自己比較年輕可以選擇意外險;如果年齡比較大,這時需要選擇重疾險或購買養老保險,并且領取養老保險金對提升老人幸福感有正效用,對中等收入老人有顯著正效用。在購買保險時最好先購買家長的,再購買孩子的,不過實際生活中很多人先買孩子的,其實這種方法不可取,畢竟家長才是家庭收入的主要來源,家長得不到保障,家庭的收入也就不能得到保障。
對保險公司而言,保險公司應該針對不同的婚姻狀況、不同的年紀、不同的性別有不同的保險方案,比如為還在上學的人購買保險時,可以推薦購買教育險,對于家長來說,為子女購買教育金保險,不但能夠在資金充足的情況下,提前籌備好子女的教育基金,同時還能夠規避子女完成教育之前的風險,從而確保在家庭遭遇風險以后,子女的教育還能正常進行。對中青年人且有家庭可以推出一些保額相對較高的險種,保證出現意外時得到最大的保障。保險公司應當加快險種的開發和結構的調整,不僅僅要看重客單價格,還應當聚焦需求未得到滿足的人群,實現保險產品的差異化,打通養老產業鏈,加強相關的服務能力,為客戶提供更多層次的保險選擇。這樣可以更大程度的保障買保險的人的利益同時也為自身帶來利益。加強保險知識宣傳,提高居民保險意識;讓更多人購買保險。