李欣然 楊 杉
(四川大學錦城學院計算機與軟件學院,四川 成都 611731)
大數(shù)據(jù)技術(shù)的飛速發(fā)展引發(fā)了金融界的全面改革,其中保險行業(yè)也面臨巨大的競爭壓力,這種壓力不僅是來源于外界信息的交互傳播方面更是來源于行業(yè)內(nèi)部的管理競爭、業(yè)務升級方面,因此保險公司將大數(shù)據(jù)分析運用在企業(yè)中的措施刻不容緩。從國內(nèi)大數(shù)據(jù)技術(shù)與保險業(yè)結(jié)合發(fā)展的角度來看,在壽險及健康險領(lǐng)域,在逐漸普及基于大數(shù)據(jù)技術(shù)的用戶管理及保險業(yè)務的應用。大數(shù)據(jù)應用的逐漸推廣帶來了較大的正面效應,實踐也證明,大數(shù)據(jù)技術(shù)在保險業(yè)務中的應用對于促進保險公司效率提高、成本降低起到了積極作用。保險公司除了投保數(shù)據(jù)值得研究分析外,退保數(shù)據(jù)實則更能反映業(yè)務與客戶的問題。基于以上背景,針對保險退保數(shù)據(jù)對其用戶管理、險種業(yè)務等方面進行探索性研究。
以四川人壽保險公司的退保數(shù)據(jù)進行分析,采用Excel、SPSS 數(shù)據(jù)分析工具,針對退保金額、保額、保費三者間的相關(guān)性建立回歸方程,并將險種分類進行特征分析,包括退保機構(gòu)、保額保費等。并圍繞退保原因展開分析,比較用戶性別、年齡段不同下是否會造成退保原因的選擇差異,退保原因與退保金額的顯著性關(guān)系。依次使用了頻率分析、獨立樣本T 檢驗、線性回歸分析等方法。
數(shù)據(jù)來源于四川人壽保險公司,覆蓋了2008 全年的退保數(shù)據(jù),時間跨度在1999 年至2008 年的投保保單,退保數(shù)據(jù)表中包含了保險機構(gòu)、險種、總保費、保額、退保金額、退保原因、客戶號、性別、年齡等9 個字段共167721 條數(shù)據(jù),15.9M。
首先,進行數(shù)據(jù)預處理,篩選刪除了對于研究退保險種特征以及退保用戶基本畫像無價值的數(shù)據(jù)、保留所需數(shù)據(jù)。其中使用了險種、退保金額、退保原因等字段的數(shù)據(jù)進行分析探索。通過觀察家庭人口和教育程度字段發(fā)現(xiàn)其都進行了脫敏處理,字段值為空或值一樣,對分析幫助和影響不大,因此刪除此類數(shù)據(jù)。其次,修改格式設(shè)置,由于原數(shù)據(jù)的投保時間和退保時間整列的值沒有正確顯示,因此將這兩列設(shè)置成日期格式。數(shù)據(jù)分類則通過統(tǒng)計匯總發(fā)現(xiàn)經(jīng)濟原因在退保原因當中占比最大超過了50%,而其余退保原因的占比很少,統(tǒng)一歸為非經(jīng)濟原因,將退保原因分為經(jīng)濟原因和非經(jīng)濟原因。年齡段的分類中,由于用戶信息中的年齡分布較散并且研究單個年齡的用戶畫像意義不大,因此分段設(shè)置。我國規(guī)定,18 歲以下的未成年人只享有保險受益者的權(quán)利無法自行進行投保,因此以18 歲為分界點,分為小于18 歲、18 歲~35 歲、36 歲~54 歲、55 歲~72歲以及72 歲以上5 個年齡段。險種分類中,按照險種的首字母進行了分類,直接分為S、L、B、Y、4、6 六大類險種。
(1)各參數(shù)的相關(guān)性分析
由表1 可知:總保費、過去三年平均年收入、保額與退保金額之間的Sig 值都是小于0.01。退保金額的皮爾遜相關(guān)性一行的數(shù)據(jù)顯示退保金額與總保費的數(shù)據(jù)是0.912**,與過去三年年收入的數(shù)據(jù)是0.083**,與保額的數(shù)據(jù)是0.375**。**代表相關(guān)性顯著,相關(guān)性大于0.3 表示有較強相關(guān)性,因此選取總保費、保額與退保金額之間建立線性回歸模型。

表1 總保費、退保金額、保額三者相關(guān)性比較
(2)建立線性回歸模型

表2 總保費、保額、退保金額的線性回歸模型
選取總保費、保額與退保金額之間建立線性回歸模型。利用步進方法分別得出2 個模型。模型一:退保金額與總保費的模型;模型二:退保金額與總保費以及保額的模型;在表格中模型的R2的數(shù)值都為0.832,R2接近于1 說明模型擬合度較好,因此2 個模型的變量與因變量的總體存在著較強相關(guān)性。

表3 線性回歸模型的方差分析、線性回歸方差的參數(shù)系數(shù)值
由表3 可知:ANOVA^a對模型進行了方差分析,從模型的顯著性可以看出數(shù)據(jù)都是小于0.01 的,進而模型的顯著性較強,由此說明模型是有效的,可以借此去判斷和計算相關(guān)數(shù)值,總保費、保額與退保金額的線性回歸模型可通過第2 個模型去探究具體線性關(guān)系。從上述的系數(shù)^a 表中得出總保費、保額的系數(shù)分別是0.949、0.003,則相關(guān)線性回歸方程是:退保金額=0.949×總保費+0.003×保額+257.773
(1)險種分類
觀察數(shù)據(jù)的險種信息可知,按險種的首字母作為分類依據(jù),共分為六大類險種。因為在SPSS 分析工具中,以險種作為分類字段需為數(shù)值性的數(shù)據(jù),因此將B、L、S、Y 字母分別替換為7、8、9、0 四個數(shù)字。研究每一個具體險種的退保特征不具有現(xiàn)實意義且適用范圍不廣,因此逐類分析研究,使用頻率分析功能研究每類險種退保率最高的機構(gòu)、退保險種的特征包含保額與保費、退保金額和總體退保數(shù)據(jù)的分布趨勢。
(2)主要險種的退保特征數(shù)據(jù)可視化展示
S 類險種有252615 條退保個案,占比90.9%;Y 類險種有8976 條退保個案,占比5.3%。在Excel 中使用篩選統(tǒng)計功能,統(tǒng)計出其余險種占比依次為1.4%、1.6%、0.5%、<0.1%。主要選取S、Y 兩種險種展開退保特征畫像分析。
Y 類險種中,易被退保的機構(gòu)513804,容易退保的保險有保額為10000 總保費為1000 的特征,此類保險的用戶黏性較差。Y 類險種,機構(gòu)、保額、總保費和退保金額都是右偏分布,位于均值右側(cè)。除機構(gòu)為扁平分布,離均值較稀疏外,其余參數(shù)尖峰分布,集中于均值附近。S 類險種中,易被退保的機構(gòu)是513803,容易退保的保險有保額為10000 總保費為590 的特征,說明此類保險用戶滿意度不高。S 類險種,機構(gòu)、保額、總保費和退保金額都是右偏分布,分布與均值右側(cè)。除了機構(gòu)為扁平分布,離均值較稀疏外,其余參數(shù)尖峰分布,聚集與均值兩側(cè)。
因此在保險險種中513803、513804 為主要的被退保機構(gòu),其中S、Y 險種退保率最高。被退保的險種中特征為保額10000總保費1000,客戶的忠誠度最低。
退保數(shù)據(jù)中除了關(guān)注具體的退保金額,還需關(guān)注客戶退保的根本原因。圍繞退保原因展開分析,分別分析與退保金額、客戶性別、年齡之間是否有關(guān)聯(lián)產(chǎn)生影響,目的在于推測高退保風險的客戶人群畫像以及退保原因。為保險險種業(yè)務的不斷完善和改進提供思路。
通過對退保原因的初步觀察發(fā)現(xiàn),退保原因中經(jīng)濟原因的占比為77%,是主要的退保原因而其余退保原因的占比共占23%,因此在退保原因的分類中,以經(jīng)濟原因作為分類依據(jù),并利用Excel 中的替換功能把退保原因分為經(jīng)濟原因和非經(jīng)濟原因后替換成數(shù)字1、2,導入SPSS 當中完成獨立樣本t 檢驗,把退保金額方法檢驗變量,把分組變量變成退保原因,并且定義組1,組2,組1 是經(jīng)濟效益,組2 是其他余下的退保原因。選取簇形圖構(gòu)建圖形,類別為性別、聚類定義為退保原因。
將客戶的年齡分為18 歲以下、18 歲~3 5歲、36 歲~54歲、55 歲~72 歲、大于72 歲及以上。對數(shù)據(jù)進行整理、歸類,最后根據(jù)數(shù)據(jù)歸納總結(jié)出高退保風險的客戶基本畫像。

表4 獨立樣本檢驗統(tǒng)計值
如表4 所示,分析退保金額之間是否因退保原因而產(chǎn)生差異性得出結(jié)果,從方差的齊次性檢驗得出:因為其顯著性差異的數(shù)據(jù)值小于0.05 拒絕原假設(shè),方差不具有齊次性。通過方差的齊次性看到Sig.值<0.05,說明退保金額之間有一定差異性,不同的退保原因?qū)е碌耐吮=痤~的均值是不一樣的。均值差異為551,置信區(qū)間的下限值是443 上限值是669,所以均值的范圍95%是在這個范圍之內(nèi)的,可信度高。
男性在退保原因上選擇經(jīng)濟原因的占多數(shù),其后依次為正常退保、險種不理想、失效退保,而其余的幾項退保原因的占比更小,而在女性的數(shù)據(jù)分布同男性相似,因此在退保原因的選擇上男女的差異不大。
經(jīng)濟原因仍是最主要的退保原因,在年齡階段中占多數(shù)的退保原因的年齡段有18 歲~35 歲,36 歲~54 歲,55 歲~72歲,其余年齡段比例幾乎忽略不計。人數(shù)占比最多的是36 歲~54歲年齡段,因此其為高退保年齡段的區(qū)間。
總保費、保額與退保金額之間存在顯著相關(guān)關(guān)系,線性關(guān)系方程是退保金額=0.949×總保費+0.003×保額+257.773。513803、513804 為主要的被退保機構(gòu),其中S 與Y 的險種被退保率最高,被退保的險種具體特征為保額10000 總保費1000。退保原因的差異導致用戶在退保金額上的均值有差異,性別上差異不大。36 歲~54 歲為高退保風險人群,經(jīng)濟原因是占主要的退保原因。
對于較高保額、保費的業(yè)務應給予更多的關(guān)注,此類保險業(yè)務的退保金額通常較高,會引起較大數(shù)據(jù)波動。513803、513804 的保險機構(gòu)需要改進S 和Y 險種,保額為10000 和總保費為1000 的險種需要注意其保險比例設(shè)置,比例存在不妥當就會造成客戶忠誠度低,退保人數(shù)多的現(xiàn)象。
經(jīng)濟原因是最主要的退保原因,36 歲~54 歲是最高退保風險的用戶年齡區(qū)域。因此保險公司向用戶推薦業(yè)務時要結(jié)合用戶年齡和經(jīng)濟情況來進行推薦,在平日的用戶管理時,重點關(guān)注這個年齡段的用戶,預防并做好其退保措施。