基于改進的K-means和BP-Adaboost的壽險客戶流失預測算法研究

2022-02-16 11:12:58張馨予

山東科技大學學報(自然科學版) 2022年1期

閆春，張馨予

(山東科技大學數學與系統科學學院，山東青島 266590)

客戶流失是指某公司現有的客戶，由于某些主觀或客觀因素，放棄消費當前公司的產品或服務，轉而選擇消費其他公司產品或服務的行為[1]。由于發展新客戶的成本要比發展老客戶高，各行各業對客戶流失控制問題高度重視。中國的壽險行業雖起步較晚，但發展迅速。隨著市場競爭愈發激烈，客戶流失頻率較高，有必要深入開展客戶流失預測研究，為壽險公司預防客戶流失、提升盈利能力提供決策依據。

目前，學者們對壽險等行業客戶流失預測的研究有一定進展，多采用單一模型進行預測，如決策樹算法、BP神經網絡、二元邏輯回歸模型等。Kisioglu等[2]通過貝葉斯信念網絡建模，識別出具有流失傾向的電信客戶行為。周曉瑋[3]將BP神經網絡應用到壽險營銷預警中，并比較其與支持向量機(support vector machine,SVM)、決策樹算法的預測效果。Bi 等[4]將二元邏輯回歸運用到電信客戶流失預測中。Günther等[5]將包含時間動態解釋變量和相互作用的邏輯縱向回歸模型擬合到非壽險數據中進行建模。梁鋒[6]將壽險公司的客戶數據生成庫，用IBM SPSS Modeler工具和決策樹算法建立預測模型。鄭宇晨等[7]將Logistic模型用于證券公司客戶流失預警分析。Amin等[8]提出一種基于粗糙集理論(rough set theory,RST)的規則智能決策技術，用于提取與電信客戶狀態相關的重要決策規則。馮鑫等[9]以在線評論信息為基礎，將情感因素引入BP神經網絡，進行移動網絡虛擬運營商的客戶流失預測。張利利等[10]使用決策樹方法進行航空客戶流失預測，并通過K-mans算法進行客戶價值衡量。

20世紀50年代中期，基于客戶實際需求不一、資源效益最大化需求，溫德爾[11]最早提出客戶細分的概念，指企業在特定市場和業務模式下，根據屬性、行為、需求、偏好和價值等因素對客戶進行分類。目前主要從市場需求、企業運營的相關條件和客戶自身綜合屬性等幾方面進行分類[12]。

綜合考慮已有的客戶細分標準，為了更精準、科學、立體地刻畫客戶行為動態，更好地進行客戶細分和流失預測，本研究從外在、內在以及行為(external,intrinsic,behavior，EIB)三方面屬性出發構建壽險客戶指標體系。另外，考慮到傳統的K-means算法[13]在處理大數據集時，雖有較好的可伸縮性，但也存在初始聚類數不確定以及對離群點敏感的缺陷，提出改進的K-means算法，將改進的輪廓系數公式作為選取初始聚類數目的依據，并綜合考慮歐式距離相似度的距離測度優勢與余弦相似度的方向測度優勢，在聚類迭代中進行局部、全局離群點的過濾，盡可能降低可視化噪聲、減小簇內誤方差。使用改進后的K-means算法劃分出不同流失風險的客戶群，針對不同群體制定個性化挽留思路。吸取BP神經網絡算法非線性擬合能力強與Adaboost算法可有效提升模型泛化能力的優點，提出使用融合的BP-Adaboost算法構建壽險客戶流失強預測器，并綜合比較細分前后、K-means算法改進前后以及單個預測器與融合預測器的效果。

1 EIB屬性與壽險客戶指標體系確定

由于客戶細分的標準尚未統一，本研究根據壽險行業的特點，提出客戶EIB屬性(如表1)，并以此為依據進行壽險客戶指標體系設計，以便高效地進行客戶細分與流失預測建模。

表1 客戶的EIB屬性Tab. 1 EIB attributes of customers

我國現行《保險法》第五十三條規定“投保人對本人、近親屬以及其他同意與投保人訂立合同的被保險人均有保險利益”，這說明投保人與被保險人之間存在一對多的現象，且在實際情況中，這種一對多的現象，造成了客戶關系的復雜性。因此需要根據“客戶關系-投保人-被保險人”的對應關系，依據EIB屬性，綜合考察客戶自身價值觀念、生活水平以及客戶和壽險公司的業務交易信息等，建立壽險客戶指標體系，如表2所示。

表2 基于EIB屬性的壽險客戶指標體系Tab. 2 Index system of life insurance customers based on EIB attribute

2 K-means算法及其改進

傳統K-means算法主要基于歐式距離測度以及最小化平方誤差和準則，其步驟如下：

2) 類劃分。將N個樣本按照與k個聚類中心的歐式距離遠近，分別分配給距離最近的聚類中心，形成k個簇C=(C1,C2,…,Ck)。

3) 類中心點求解。計算k個簇中心點的平均值作為新的聚類中心。

(1)

(2)

5) 重復步驟2)和3)，直到每個類的個體不再變化，得到所有類別的最終聚類中心及其包括的個體。

本研究主要從選取初始聚類簇數和改進迭代規則兩個方面，對K-Means算法進行改進。

1)初始聚類簇數選取的改進

傳統K-means算法通常按照初始聚類中心來設置初始聚類簇數k，繼而進行類劃分和中心點求解的迭代，因此初始值的選取十分重要。若選取不當，會使得聚類效果較差。Peter在1986年提出輪廓系數

(3)

來評價聚類效果的好壞[14]。其中：q(i)表示點i到所屬類中其他點的平均距離，主要反映內聚度；p(i)表示點i到非所屬類中所有點平均距離的最小值，主要反映分離度。輪廓系數結合了內聚度、分離度兩種因素，通常數值越大，聚類效果越好。針對傳統的輪廓系數未考慮對內聚度有潛在影響的類內最小距離和對分散度有潛在影響的類間平均距離最大值的問題，引入點i到所屬類中其他點的最小距離s(i)和點i到非所屬類中所有點平均距離的最大值r(i)，提出改進后的輪廓系數公式：

(4)

式(4)反映了各因素之間更全面的制約關系。進而得到N個樣本點輪廓系數的平均值

(5)

2) 迭代規則的改進

傳統的K-means算法在迭代過程中未考慮全局、局部離群點對平均值計算的影響。當離群點被分配到某簇中，可能會嚴重影響該簇類的均值，從而使聚類中心有較大誤差，影響最終聚類結果。以往對于K-means算法的離群點監測方法常常基于鄰近度或密度[15]，但這兩種方法難以處理大數據集，且對參數選擇高度敏感。因此，本研究提出一種基于相似度的離群點監測方法，根據改進的相似度公式設置迭代中的離群點過濾規則。

(6)

(7)

(8)

鑒于兩種測度方法優勢互補，提出改進的相似度計算公式：

(9)

由式(9)可見，改進的相似度綜合考慮了歐式距離相似度、余弦相似度，且存在上限。參與聚類迭代的向量與當前簇中心向量的相似度越小，說明其越偏離當前簇類。當低于某個閾值P1時，可將其對應的歐式空間樣本點視為局部離群點并進行過濾；與所有簇中心的均值向量的相似度越小，說明其越偏離整體，當低于某個閾值P2時，可將其對應的歐式空間樣本點視為全局離群點并進行過濾。P1和P2為離群點監測的閾值參數，在實際中，可通過多次實驗，選取最合適的參數值。具體過濾規則如下：

3 組合后的BP-Adaboost算法

BP神經網絡[17]有較強的非線性擬合能力，理論上能夠擬合任意非線性函數，但存在收斂速度慢、泛化能力弱等缺點。而Adaboost算法[18]能夠在迭代中降低誤差，提高模型的泛化能力。本研究將兩者結合，得到BP-Adaboost算法[19]來降低原始BP算法的預測誤差，其詳細步驟如下。

1) 選擇數據并進行網絡初始化。隨機抽取m組訓練數據{x1,x2,…,xm}，初始化權重

(10)

2) 將訓練數據用BP神經網絡弱預測器進行預測。當訓練到第t個弱預測器時，獲得弱預測序列ft的預測誤差和

(11)

其中y為期望輸出。

3) 計算預測序列的權重。依據εt計算弱預測器的權重

(12)

4) 調整測試數據的權重。依據預測序列的權重αt調整新訓練的樣本權重

(13)

其中，Zt稱作歸一化因子，主要作用是當權重比例不變時，使其分布之和等于1。

5) 輸出強預測器函數。迭代T次后，得到T組弱預測器函數g(ft,αt)合成的強預測器函數

(14)

4 實證研究

實驗數據來源于某國內保險公司網站(http://www.chinalife.com.cn/)2018年1月1日—2019年12月31日的壽險客戶調查公報及其交易信息，實驗軟件為MATLAB R2014a。

4.1 基于改進K-means算法的壽險客戶細分

依據客戶的EIB指標體系提取數據信息，歸一化處理后，將客戶調查公報中各指標出現的頻次與全部指標出現的頻次之比作為重要度權值，對指標進行加權量化處理，最終得到2 000條壽險客戶樣本，部分數據如表3所示。

表3 部分處理后的壽險客戶樣本Tab. 3 Part of life insurance customer samples after processing

1) 輪廓系數改進前后的實驗結果對比

為了獲得最佳初始聚類簇數目，選取不同的k值，對歸一化處理后的樣本進行K-means聚類，并統計改進前后的輪廓系數均值，如圖1所示。

圖1 改進前后的輪廓系數均值對比Fig. 1 Comparison of mean contour coefficients before and after improvement

由圖1可見，在改進后的輪廓系數均值中，不同初始聚類簇數k下的系數變化幅度較改進前明顯增大，表明改進后的輪廓系數均值能更全面地衡量聚類的內聚度和分離度，對于篩選合適的聚類數目更具區分度。在兩種輪廓系數中，對應最大系數的k值均為3，故選取k=3作為初始聚類簇數。

取k值分別為3和4進行輪廓系數分布的可視化展示，如圖2所示。

圖2 改進前后的輪廓系數分布圖對比Fig. 2 Comparison of contour coefficient distributions before and after improvement

由圖2可知，k=3時輪廓系數為負的樣本點更少，且總體輪廓系數更大，進一步這說明k=3作為初始聚類簇數的優越性；與改進前相比，改進后的輪廓系數為負的樣本點明顯減少(k=3時幾乎為0)，且總體輪廓系數明顯增大。

2) 改進迭代規則的K-means算法結果分析

圖3 K-means算法的聚類結果可視化(+客戶群Ⅰ，○客戶群Ⅱ，*客戶群Ⅲ)Fig. 3 Visualization of clustering results of K-means algorithm(+Customer base Ⅰ,○Customer baseⅡ,*Customer baseⅢ)

使用改進迭代規則的K-means算法進行聚類，在實驗過程中，固定閾值P2=0.005，以0.03為起點、0.03為步長將P1逐步增加到0.18。將三維指標集{信用評級，繳費數量，所購險種}用于改進K-means算法的可視化展示，如圖4所示。

圖4 不同閾值下的改進K-Means算法聚類結果可視化(+客戶群Ⅰ，○客戶群Ⅱ，*客戶群Ⅲ)Fig. 4 Visualization of clustering results of improved K-means algorithm under different thresholds(+Customer base Ⅰ,○Customer baseⅡ,*Customer baseⅢ)

由圖4可知，閾值P1≤0.09，尤其是P1=0.06時，可視化噪聲明顯較改進前的圖2有所減小；但P1>0.09，尤其是P1=0.15時，可視化噪聲較大。

使用最終的簇內誤方差(sum of the squared error，SSE)作為評價改進的K-means算法聚類結果好壞的指標，統計閾值P1在0.03～0.18范圍內的最終簇內誤方差，結果如圖5所示。由圖5可見，當閾值P1=0.06時獲得較低的簇內誤方差，而P1=0.12、0.15時的簇內誤方差較大，甚至與改進前持平。

圖5 不同閾值下改進K-means算法的SSEFig. 5 SSE of improved K-means algorithm under different thresholds

這說明閾值P1≤0.09時，改進的K-means算法能合理過濾局部和全局離群點，有效提升聚類效果。分別將P1為0.03、0.06、0.09時的最終聚類中心以及對應的細分客戶群體進行匯總，并與改進前的結果作比較，如表4所示。

由表4可知，在不同閾值下的改進K-means算法中，最終聚類中心、對應客戶數量在不同客戶類別中的差距較改進前均有明顯增大，其中最終聚類中心的變化主要表現在指標集{性別，年齡，職業危險級別，學歷級別，婚姻狀況，信用評級，繳費數量，所購險種，購買主導動機}中，這主要體現了局部離群點過濾的作用；改進K-means算法后的客戶數量總和均不足2 000，體現了全局離群點過濾的作用。

表4 改進K-means算法前后的最終聚類結果對比Tab. 4 Comparison of final clustering results before and after the improvement of K-means algorithm

考慮到“信用評級”指標在聚類可視化結果中展示出良好的區分度且與客戶消費行為密切關聯，故將其用于客戶相對流失風險識別。“信用評級”的高低與流失風險水平呈負相關，因此得到不同風險客戶細分{I=“高流失風險客戶群”，II=“中流失風險客戶群”，III=“低流失風險客戶群”}，其所含客戶數量按高、中、低流失風險客戶群依次減少。

低流失風險客戶群所含客戶數量最多，對應聚類中心的年齡最大、職業危險級別最高、學歷最高、婚姻狀況傾向于“已婚”、購買主導動機傾向于“實際需要”、繳費數量適中，反映了該群體對保險的需求心理、理性思維方式和一定的經濟實力。這類客戶在購買壽險產品時，多考慮自身或家庭成員的需要，因此不易流失，能給公司帶來長期的穩定利潤。

高流失風險客戶群所含客戶數量最少，對應聚類中心的年齡最小、職業危險級別最低、學歷最低、婚姻狀況傾向于“未婚”、購買主導動機傾向于“礙于面子”、繳費數量相對較高。該類客戶在購買保險產品時，缺乏理性購買動機，容易跟風購買一些價格相對較高的壽險產品。雖然該群體有一定購買力，但存在較大的流失風險。

中流失風險客戶群所含客戶數量適中，對應聚類中心的年齡適中、職業危險級別適中、學歷適中、繳費數量相對較低。這一類客戶對壽險產品有一定的需求，購買主導動機多樣化，能給公司帶來為數不多但較為穩定的利潤，流失的風險性介于上述兩種群體之間。

4.2 基于客戶細分和BP-Adaboost算法的壽險客戶流失預測

為進一步證明改進K-means算法的優越性并展開壽險客戶流失預測研究，統計改進前后K-means算法的客戶細分結果，分別運用BP弱預測器、BP-Adaboost強預測器對不同客戶群體進行流失預測建模，并綜合比較其預測誤差。

1) 基于二分類的壽險客戶狀態觀測

壽險客戶在觀測期內的狀態有兩種，用二分類集合{流失，未流失}來表示。本研究從反映客戶與公司業務往來的屬性B中選取合適的規則，作為判斷客戶流失與否的標志。如表2所示，屬性B對應的4個指標中，繳費數量、繳費方式和繳費次數存在數值關系。令二分類變量為Y，設置客戶狀態的觀測方法如下：

對于一次性繳清所有保費的躉繳客戶，其狀態容易觀測。將含有“退保”和“猶豫期退保”字樣信息的客戶識別為流失客戶(Y=1)，其余識別為未流失客戶(Y=0)。

2) BP算法與BP-Adaboost算法實驗結果對比

將BP神經網絡設置為3層：輸入層為{性別，年齡，職業危險級別，家庭收入等級，學歷級別，婚姻狀況，購買主導動機，信用評級，繳費數量，所購險種}；輸出層為客戶狀態集Y={0,1}；隱藏層神經元數量的設置采用試湊法，即首先選取較少隱含層神經元訓練BP網絡，觀測預測精度或誤差，隨后增加隱含層神經元數量，直到預測精度不再增加為止，最終確定網絡各層神經元數量依次為10、5、1。

根據預測結果調整樣本權重，把預測誤差大于0.1的測試樣本作為應該加強學習的樣本訓練BP神經網絡弱預測器，最終獲得由10組弱預測器生成的BP-Adaboost強預測器。以P1=0.06時改進K-means算法細分的低流失風險客戶群為例，在1 143條樣本中，隨機選擇943條作為訓練樣本、200條作為測試樣本進行實驗，實驗數據的誤差均方曲線見圖6。

圖6 誤差均方曲線Fig. 6 Curve of mean squared errors

由圖6可見，誤差均方曲線逐漸收斂，在第17步達到最好的測試效果0.065 281，之后逐漸趨向于平緩，誤差值幾乎不變化，效果較好。

圖7為10組BP神經網絡弱預測器的平均誤差絕對值和對應BP-Adaboost強預測器的誤差絕對值。可以看出，在細分客戶樣本的預測誤差值中，除極個別樣本的強預測器預測誤差高于弱預測器以外，總體上，用Adaboost調整后得到的強預測器預測的誤差絕對值要普遍小于弱預測器。在200個預測樣本中，傳統BP網絡算法的測試誤差絕對值區間為[0, 0.2]，樣本點的誤差絕對值有不少超出0.1；BP-Adaboost算法的測試誤差的絕對值區間絕大多數都在[0, 0.1]之間，樣本點的誤差絕對值幾乎都接近0。模型的擬合效果顯示，強預測器預測的訓練集R=0.952 97、驗證集R=0.940 35、測試集R=0.961 06、總體R=0.952 51，說明模型的擬合結果較好。

圖7 預測誤差的絕對值Fig. 7 Absolute values of prediction error

3) 全部實驗結果對比

對于每次實驗，將預測誤差絕對值超過0.2的樣本點剔除，計算剩余樣本點的預測誤差平均值。匯總全部實驗結果如圖8所示。

圖8 改進K-means算法前后的平均預測誤差對比Fig. 8 Comparison of average prediction errors before and after the improvement of K-means algorithm

由圖8可見：BP-Adaboost算法的預測誤差較傳統的BP算法小，說明Adaboost在迭代中對BP算法進行了有效提升；細分前客戶樣本的預測誤差要明顯大于細分后，說明客戶細分對于提高客戶流失預測的精度有一定作用；改進的K-means算法細分的客戶群與傳統的K-means算法相比，在后續的流失預測中，預測誤差幾乎全部變小，進一步證明改進的K-means算法實現的客戶細分結果更為精準，且對后續客戶流失預測的精度提升有明顯作用。

4.3 對壽險公司的建議

壽險公司在實際的營銷過程中，客戶細分對于客戶流失預測有重要意義。客戶的挽留管理有助于公司經濟效益的提升。公司要充分利用已有客戶信息，挖掘并掌握不同客戶群體的特征，采取不同的措施對不同的客戶群體制定個性化服務。以本文的實驗結果為例，對不同流失風險的客戶群提出建議如下。

1)低流失風險客戶群。這類客戶的年齡相對較大、職業危險性相對較高，在購買保險產品時傾向于理性和滿足實際需求，且有充足的資金支持續保。這類客戶是當今壽險市場的主流客戶，且客戶數量龐大，能為公司帶來長期穩定的利潤。公司應當對這類群體給予高度重視，并根據每一位客戶在時間、空間上的需求變化，盡可能地為其量身定制更適合的壽險服務，使這類客戶更加忠誠地續保。

2)高流失風險客戶群。這類客戶的年齡相對較小、職業危險性相對較低，在購買保險產品時缺乏理性考慮，容易受保險推銷員或周圍朋友的影響購買一些用處不大卻價格昂貴的壽險產品，給公司帶來的利潤雖多，但較不穩定。這類客戶有一定購買力，但對壽險產品的熱衷程度還不夠。公司可以舉辦一些形式豐富的活動，來提高其對壽險產品的購買欲望，培養其與公司的感情。例如：定期對客戶進行回訪詢問，節假日舉辦一些促銷活動，以抽簽方式贈送小禮品，等等。通過公司服務水平的提升，客戶的忠誠度、滿意度也會隨之上升，流失風險隨之降低。

3)中流失風險客戶群。這類客戶的年齡、職業危險級別、學歷處于中等水平，對壽險產品有一定的需求，繳費數量較低但相對穩定。作為壽險公司的營銷對象，有一定的發展潛力。因此，可以綜合高、低流失客戶群體的措施進行客戶挽留管理。公司在為其進行節假日促銷活動的同時，還可以挑選一些幸運客戶，同低流失風險群體共同參與量身定制產品活動，或者開展價格相對高的壽險產品的首單優惠活動，激發此類客戶對該類產品的購買欲望，提高公司的盈利水平。

5 結束語

針對壽險行業的客戶流失問題，構建了基于EIB屬性的壽險客戶指標體系。在K-means算法的改進中，使用改進后的輪廓系數確定初始聚類中心，并綜合歐式距離相似度與余弦相似度的測度優勢，在類劃分中進行局部、全局離群點的過濾。使用改進前后的K-means算法分別進行客戶細分，利用BP算法、BP-Adaboost算法對細分后的客戶建立流失預測模型。算例實證結果表明改進后K-means算法的簇內誤方差變小，最終聚類中心和客戶數量在不同類別中的差距增大、可視化噪聲降低，且基于改進K-means算法客戶細分的流失預測誤差較改進前有明顯降低。本算法不僅為壽險公司的客戶流失風險預警及挽留管理提供參考，也為壽險及相關行業的客戶流失預測研究給供借鑒。本研究從“客戶流失風險”角度出發，在特定的時間、空間范圍內開展客戶細分和流失預測建模，可以視為對客戶畫像的局部研究。未來可綜合考慮客戶各項指標在時間、空間上的變化，開展更全面的研究。

山東科技大學學報(自然科學版)2022年1期

山東科技大學學報(自然科學版)的其它文章: 基于核主成分空間支持向量機的過程監視方法; 基于事件觸發的間歇傳感器故障主動容錯控制; 基于d維糾纏態的安全量子投票協議; VTI介質中基于降階補償處理的旅行時計算方法; 微震信號初至拾取的AIC算法及其分析; 基于CSAGA-LSSVM算法的坦克駕駛模擬訓練數據分類挖掘