◆徐華杰
K-means聚類在A保險公司客戶細分模型中的研究
◆徐華杰
(華東師范大學計算機工程學院 上海 200000)
實現客戶管理、轉變傳統保險營銷模式是保險行業大數據應用最重要的一個方向[1]。本文以上海市A保險公司的真實生產客戶數據為基礎,通過K-means訓練客戶樣本數據,實現保險金融行業對客戶的精準營銷[2]。本算法基于平均輪廓系數(Average Silhouette Coefficient)尋找最優K值[8]和 K-means 算法搭建真實客戶的聚類模型,然后基于改進的RFM客戶模型進行聚類因子建模,迭代優化,該模型可用于產品開發師的設計指南,經真實市場驗證可知,該模型可以提升保單投保率和續保率。
保險客戶;K-means;RFM模型;無監督學習
保險公司都有著大量的客戶數據信息,對于千萬級別的客戶數據,大部分公司對其利用并不充分,造成了嚴重的資源浪費。而且隨著不斷變化的互聯網金融環境,其原有的保險代理人中介營銷模式已經無法應對當前的需求大環境,想要真正地實現精準營銷,必須從客戶數據源著手,通過技術手段進行數據挖掘,并對數據挖掘結果進行聚類操作,進而指定更加完備的精準營銷策略。
本文所研究的客戶分類技術將是以上海某保險集團真實客戶數據為例,對保險公司客戶數據整合利用的應用可以更加使系統從科學的視角將保險公司的源數據、技術手段和業務流程進行綜合探究,客戶管理不僅可以提高本項目組在公司內部的核心競爭力,還可以提高客戶對公司品牌的忠誠度和公眾認可度,同時還可以降低營銷成本,大幅提升服務效率。
RFM模型是體現用戶對公司價值高低的一種指標,本模型由三個指標組成,分別是用戶最近一次購買時間(R)、指定周期內的消費頻率(F)以及總消費金額(M),本研究基于特定的業務場景提出了LBTRM模型。
由于生產環境的數據庫數據存在數據缺失、數據重復、數據不合理等問題,為保證聚類效果需要對數據集進行離群點刪除、數據缺失值補填等標準化處理,數據處理流程如下:
2.2.1查看數據分布情況以及缺失值審查
本研究第一步是通過Python的數據處理包進行數據集基本信息的查看,原始數據的基本描述性信息包括所有特征的數據類型以及數值型特征的五值分布(mean、std、min、max、count),缺失值審查,包括查看缺失值的總函數。
第二步是查看不同屬性間的相關聯系性,相關性高就代表兩個特征在建立模型的時候作用效果是一樣的,為降低運算復雜度降低原始數據的維度,需要將其刪除其一。由實驗可知,身高和體重的相關性非常高,這兩個屬性模型的訓練貢獻度大體相同,可刪除其一。
2.2.2類別變量獨熱編碼
One-Hot編碼又稱為一位有效編碼,比如性別存在兩個類別,分別是男和女,那么其獨熱編碼形式為[1,0]代表男,[0,1]代表女。本研究針對客戶的性別、機構、是否吸煙、工作編碼、支付方式、所在機構、是否結婚等特征進行獨熱編碼。
2.2.3數據標準化處理
通過sklearn包中的API對獨熱編碼前的矩陣進行標準化處理,然后合并所有維度,最后得到的是一個200000*334的高維矩陣。
平均輪廓系數(Average Silhouette Coefficient)是權衡聚類成果好壞的重要指標之一,它由簇內聚合度(Cohesion)和簇間分離度(Separation)兩部分組成,其中簇內聚合度是衡量同一簇內樣本點差別的參數,而簇間分離度是衡量不同簇間差異的參數,因而兩者組合而成的輪廓系數綜合反映了同一簇內和不同簇間的狀況。
K-means 作為一種無監督聚類算法在各種業務場景中得到較為普及的運用。聚類算法就是按照樣本之間的相似度,旨在將沒有標簽信息的數據分為幾個類別的過程,其中同一個類簇之間的樣本相似度大,不同類簇之間的樣本相似度小,這是在無監督學習的任務上完成的基本工作之一,K-means 是將給定數據集中的數據使用其不同特征進行聚類的算法模型,之所以稱該模型為K-均值是因為它可以利用無監督學習,將數據集分為K個不同的簇,且每個簇的聚類核心點采用簇中所含值的平均值計算而來。簇的個數K是用戶手動指定的,每一個簇經過其聚類核心點(即簇中所有點的中心)來描述。
“孩子,我對不起你……”范堅強失聲道,“本來,你是不應該活著的,但你是我在這世上唯一的親人了,當我看到你脖子上戴的玉佩時,我就知道,你是那個我找了二十多年的親人。所以,才把你關在石屋里。你不知道,我每天在石屋外面徘徊,心里有多難過?!狈秷詮姷脑捓飵е鴰追萜鄾?。
3.3.1自動確定聚類數目
數據標準化處理后,經過平均輪廓系數測驗得到最佳的KMeans聚類模型,由實驗結果可知,?當K=3時聚類模型效果最好。
本研究將K-means應用于實際的客戶數據集,數據集標準化完成后,利用平均輪廓系數進行初始聚類數目的確定,確認完數目之后作為K-means模型的輸入,進行聚類。
(1)實驗結果
當K=3時,聚類效果最佳,聚類模型所生成的雷達圖如圖1所示。
(2)實驗結果分析
對于第0類,可以從雷達圖中看出,該類人群的年收入和負債都比較高,年齡都在中年偏上左右,此年齡段常常事業有成,收入不菲,但是房貸車貸家庭支出壓身,該類客戶為了更好地保護自己或者家人的安全會投健康險或者意外險等險種,公司規劃產品時可以針對這兩款險種進行一些創新和優惠,加大投保力度。
對于第1類,可以從雷達圖中看出,該類人群的最大購買能力較高,但是收入較低,且該類人群普遍是未成年或者老年人,該類人群通常作為被保人或者受益人存在,公司在以后規劃產品時可針對此人群設計教育保險套餐以及一些老年疾病保險。該類人群是最應該發展的人群。
對于第2類,可以從雷達圖中看出,該類人群收入較高,但是最大購買能力較小,支付方式也大部分為躉交,所以公司在以后規劃產品時可以設計價格較低并支持持續繳費的短期產品。

圖1 客戶聚類雷達圖
結合目前在金融界的研究情況,成熟的保險公司收集了上千萬的客戶數據,但是大多數保險公司對其利用并不充分,造成了嚴重的資源浪費。而且隨著不斷變化的互聯網金融環境,其原有的保險代理人中介營銷模式已經無法應對當前的需求大環境,2018下半年,中國銀保監會再次提出了“科技賦能,營銷創新“的要求,受銀保監會監管的保險公司即使有想改變傳統銷售模式的動機,卻缺少科學的科技支持。想要真正地轉變傳統代理人營銷模式,保留現有客戶是關鍵,需要提升客戶對企業的忠誠度,因此本文所探究的客戶管理將以A保險公司生產環境的客戶為依托,對客戶進行分類梳理,客戶管理不僅可以提高本項目組在公司內部的核心競爭力,還可以提高客戶的忠誠度和公眾認可度,同時還可以降低營銷成本,可以大幅提升服務效率。結合以上客戶管理的優勢,因此本文提出并進行了以下工作:
(1)本文提出了將K-means算法應用于非圖像數據進行聚類并介紹了K-means算法的原理和基本流程,隨后介紹了平均輪廓系數的原理,分析比較并找到了確定最優K值的方法,實驗得知平均輪廓系數所得出的K值進行模型訓練時準確率最高。
(2)本文針對A公司客戶提出了LBTRFM模型并人工制作數據集,并介紹了人工制作客戶數據集的一般流程,包括去重、填補、獨熱編碼等流程
(3)本文通過對分析K-means算法的缺陷提出了采用隨機梯度下降算法進行迭代優化,從而降低落入局部最小值的概率。
5 結語
雖然本論文對真實保險客戶進行提取并利用K-means模型進行分類,但在整個對保險客戶挖掘的研究過程中仍存在著以下幾點不足之處。
(1)是否存在比歐氏距離更好的度量公式來計算相似度,客戶的不同特征對于客戶畫像的影響不盡相同,是否可以考慮對于不同特征加權,消除特征平行性。
(2)對于獨熱編碼后的矩陣維度過高,是否要引入當前火熱的深度神經網絡進行特征提取,矩陣降維,再將降維后的數據輸入進模型進行計算,減少模型計算時間。
今后研究的工作重點是探究適用于保險客戶數據特征訓練的神經網絡,旨在提升算法的執行效率以及準確率。
[1]樊仙仙.基于聚類分析的 H 銀行客戶細分及營銷策略研究[D].華東理工大學,2015.
[2]李艷君.K-means聚類算法在銀行CRM系統客戶細分中的應用[D].哈爾濱工業大學,2017.
[3]陳葉旺,申蓮蓮,鐘才明,等.密度峰值聚類算法綜述[J].計算機研究與發展,2020,57(02):378-394.
[4]徐森,皋軍,花小朋,李先鋒,徐靜.一種改進的自適應聚類集成選擇方法.自動化學報,2018,44(11):2103-2112.
[5]楊玉梅.基于信息熵改進的K-means 動態聚類算法[J].重慶郵電大學學報(自然科學版),2016,28(2):254-259.
[6]Dutta Dipankar,Sil Jaya,Dutta Paramartha .Automatic clustering by multi-objective genetic algorithm with numeric and categorical features. Expert Systems With Applications,2019(137):357-379.
[7]Ye Zong-Lin,Cao Hui,Zhang Yan-Bin,Jia Li-Xin. Outlier factor based partitional clustering analysis with constraints discovery and representative objects generation.Neurocomputing, 2016(173):1538-1553.
[8]賈瑞玉,李玉功.類簇數目和初始中心點自確定的K-means 算法[J].計算機工程與應用,2018,54(7):152-158.
[9]Arshad A,Riaz S,Jiao L. Semi-supervised deep fuzzy c-mean clustering for imbalanced multi-class classification.IEEE Access,2019(7):28100-28112.