基于改進K-Means算法的保險客戶細分研究

2016-12-28 01:22:55張君韜何麗

現代計算機 2016年33期

關鍵詞：數據挖掘

張君韜，何麗

（天津財經大學理工學院，天津 300222）

基于改進K-Means算法的保險客戶細分研究

張君韜，何麗

（天津財經大學理工學院，天津 300222）

通過聚類實現客戶細分，能夠從客戶的人口統計信息和歷史消費行為中發現客戶的購買偏好和購買行為,這將為保險行業的營銷決策制定提供重要依據。針對傳統K-Means算法對于客戶細分初始條件敏感的弱點，提出基于黃金分割的改進K-Means聚類方法，該方法能夠確定最佳聚類個數，并通過實例驗證該算法在保險客戶細分中的有效性。

客戶細分；保險；K-Means聚類；數據挖掘；主成分

0 引言

客戶細分最早由美國著名的市場學家溫德爾·史密斯（Wendell R·Smith）提出，指企業按照客戶屬性將客戶群體分為若干個子客戶群體，并實現細分后不同客戶群體之間的差異最大化，每個客戶群體盡可能的相似。隨著保險市場競爭的日趨激烈，各保險企業匯集了大量客戶信息和業務數據，這些數據背后隱藏客戶的行為偏好和消費潛力。應用數據挖掘中的聚類方法可以有效地實現保險客戶的細分，從而發現不同客戶群的行為偏好和未來的購買偏好。

本文針對保險行業客戶數據的特征和客戶分析目標，提出了基于主成分分析和改進K-Means算的客戶細分模型，并使用荷蘭數據挖掘公司Sentient Machine Research為the COIL CHALLENGE 2000大賽提供的保險客戶數據對提出的模型的有效性進行了驗證。

1 細分變量提取

細分變量選擇是建立客戶細分模型首先要解決的問題。考慮到保險客戶數據一般包含很多屬性，且不同的屬性之間存在一定的相關性，本文將客戶細分變量的提取分成兩個主要階段：數據預處理階段和主成分分析階段。

1.1 數據預處理

數據挖掘中數據預處理的主要任務是對目標數據集中的數據進行清洗、過濾和數據格式轉換等。保險客戶數據庫通常是由保險企業多個不同險種數據庫整合而來的，存在客戶信息的不完整和屬性值取值范圍不一致性等情況。為了實現客戶細分結果的準確有效，需要對客戶數據庫中的相關屬性進行數據清洗和數據轉換等。其中，數據清洗過程完成對缺省值、無效值和未知值的處理；數據轉換完成數據泛化過程。所謂泛化處理就是用更高層次的概念來取代低層次的對象。

1.2 主成分分析

經過預處理后的客戶屬性少則幾十個，多則上百個，而且這些變量之間可能會存在較強的相關性而產生冗余。主成分分析是一種對高維數據進行降維處理的一種分析方法。通過主成分提取，不僅可以消除相關性變量所產生的信息冗余，還可以有效降低客戶細分聚類模型的輸入維度。主成分在代數學上是p個隨機變量X1，X2，…，Xp，的一些特殊的線性組合，每個線性組合利用原數據變量生成新變量，即主成分。設隨機向量X=[X1，X2，…，Xp]，考慮隨機向量的線性組合如公式（1）。

主成分是Y1，Y2，…，Yp中方差盡可能大的那些不相關的線性組合。Y1表示第一主成分，即Var（Y1）最大。一個變量的方差越大，表示其包含的信息越多。為了不丟失原始隨機變量中的有價值信息，一般需要選擇k個主成分（k≥2）。為了保證任意兩個主成分之間不存在信息重合，主成分Yi，Yj,之間的協方差需要滿足Cov（Yi，Yj）=0，1≤i，j≤k且≠j。

本文通過主成分分析法來提取客戶數據集中的主成分變量和與任何變量都不相關的變量作為客戶細分模型的輸入變量。

2 基于改進K-Means算法的客戶細分模型

聚類分析是一種實用的多元統計分析方法，它將一批樣本按照它們在性質上的親疏、相似程度進行分類。分類的目標是使同一類中的樣本之間具有較大的相似性，不同類樣本之間的相似性盡可能小。K-Means聚類，也稱為動態聚類算法，是客戶細分中最常用的聚類算法之一。在傳統的K-Means聚類算法描述中，初始聚類個數k的取值和初始聚類中心的選擇將直接影響K-Means的聚類結果，并且K-Means的聚類結果也無法反映最優聚類個數。本文借鑒“黃金分割”思想，在傳統K-Means算法中引入評價指標validty（k），并通過該評價指標來確定K-Means的最佳聚類個數。validty（k）評價指標定義如公式（2）：

（1）確定最小、最大聚類個數k1，k2；

（2）從k1到k2進行迭代，對每次迭代的k（k1≤k≤k2）：

①利用傳統K-Means聚類算法算法產生聚類結果（k，U）；

②計算聚類有效性的指標函數validty（k）；

（3）從中選取kopt使得聚類有效函數validty（k）達到最大；

（4）輸出最優聚類結果（kopt，Uopt）；

（5）終止。

3 模型驗證

本文實證數據來源于荷蘭數據挖掘公司Sentient Machine Research為the COIL CHALLENGE 2000大賽提供的數據，共有5822條紀錄，每條記錄擁有86個屬性，其中載有社會人口信息（屬性1-43）和客戶行為與產品信息（屬性44-86）。社會人口信息來自郵政編碼，同一地區的客戶具有相同的社會人口屬性。

3.1 細分變量選擇

經過檢查本數據集存在大量缺失值，但沒有未知值和無效值。為了簡化處理流程，本文對數據集中的缺失值全部用0代替。為了完成細分過程，還需要對年齡和客戶主要類型這兩個屬性進行泛化處理。10個主要客戶類型：Successful Hedonists，Driven Growers，Average Family，Career Loners等分別用數值1，2，…,10替代；對于年齡屬性，將其泛化成6個不同的區間：20-30 years，30-40 years，40-50 years，50-60 years，60-70 years，70-80 years，區間取值分別為1，2，3，4，5，6。

為了在不丟失信息的前提下降低客戶細分模型的輸入維度，在數據集的屬性結合應用主成分分析，并對相關性較高的屬性提取主成分，這些主成分和與任何屬性都不相關的屬性一起作為細分模型的輸入變量。

本文調用SAS Proc Corr過程對數據集中86個屬性的相關性進行分析,其中Number of fire policies與Contribution of fire policies的偏相關系數為0.86554，P〈0.05，說明二者有顯著相關性，Contribution of car policies與Number of car policies的偏相關系數為0.91615，P〈0.0001，說明二者也具有顯著相關性，由此得出保險客戶各險種繳納的保費與各險種的購買數量顯著相關。數據集中屬性44-64是與保費相關的屬性，屬性65-85是與保險數量相關的屬性，為消除相關帶來的冗余,本文選取屬性44-64進行主成分分析。根據屬性之間的相關性分析結果，最終篩選出：Customer Subtype,Number of houses、Avg age、Living together、Singles等32個屬性進行主成分分析。

為了進一步消除相關變量帶來的信息冗余，接下來應用SAS的Proc Princomp過程對這32個屬性進行主成分分析，其中特征值大于0.93的主成分共有17個，這17個主成分分別是：Customer Subtype、Number of houses、Avg age、Medium level education、Home owners、1 car、Average income、Contribution private third party insurance、Contributioncarpolicies、Contribution moped policies、Contribution life insurances、Contribution familyaccidentsinsurancepolicies、Contributionfire policies、Contribution boat policies、Contribution property insurance policies、Contribution social security insurance policies和Number of mobile home policies。這17個屬性將作為客戶細分模型的最終輸入變量。

3.3 模型驗證

為了驗證客戶細分模型的穩定性，本文從5822條數據里，選擇2500條作為測試集，并分成兩個測試組。

第一組：首先把5822條數據分成15個類，再根據這15個類各自的類中心作為測試集進行聚類分析的初始聚類中心，然后調用SAS的PROC Fastclus過程，并把Replace設置成NONE，進行分組。

第二組：直接對測試集2500條記錄進行聚類分析，分成15組。

表1 客戶細分結果

將測試集上兩次分組的結果與上述聚類的結果進行比較發現：三次聚類的客戶比例基本相同，測試第一組的類中心和原始組相同，第二組類中心點與原始組也大致相同。表2中給出了customer subtype屬性在兩次聚類中各組的平均值。從該結果可以看出，兩組的聚類中心基本接近，說明聚類結果基本可以接受。

3.2 細分結果

4 結語

本文使用SAS的PROC Fastclus過程實現了KMeans聚類。考慮到樣本數據的聚類數一般比較接近聚類輸入變量的個數。為了獲得最佳聚類個數，選擇k從2到17，并對每個k值運行5次，計算每次聚類結果的max validity（k），然后計算每個k值對應的max validity（k）平均值。根據max validity（k）平均值越大越好的原則，最終選擇初始聚類數k=15。最后獲得的客戶分布如表1所示。

通過主成分分析方法可以有效消除客戶不同屬性之間的相關性，改善K-Means聚類結果的正確性和運行效率。引入validty（k）的K-Means聚類方法克服了傳統K-Means算法需要預先指定聚類數的弱點，能夠客觀地確定K-Means算法的最佳聚類個數。用改進的K-Means聚類分析模型對保險客戶進行細分研究,能夠獲得正確的客戶分布。根據客戶細分的結果及其特征，保險企業可以針對不同的客戶群設計不同的營銷計劃,捆綁多種不同的保險業務,以增加客戶對企業產品的擁有率，爭取更多有價值的潛在客戶。

表2 各簇中心點customer subtype的值

[1]宋加升,陳琰.改進的K-Means聚類算法在保險客戶信用分析中的算法實現.哈爾濱理工大學學報[J]，2009（2）：12-13.

[2]馬子斌，楊鴻賓.客戶細分在電信營銷中的應用研究[J].計算機系統應用，2009（3）：105-108.

[3]趙珩君.客觀聚類在客戶價值細分中的研究.情報雜志[J]，2009，28（3）:151-153.

[4]范英,張忠健,凌君邀.聚類方法在通信行業客戶細分中的應用[J].計算機工程，2004（12）：440-441.

[5]KE WANG,SENQIANG ZHOU.Mining Customer Value:From Association Rules to Direct Marketing[J].Data Mining and Knowledge Discovery，2005（11）,57-79.D

Research on the Insurance Customer Segmentation Based on Improved K-Means Algorithm

ZHANG Jun-tao，HE Li

（School of Science and Technology,Tianjin University of Finance and Economics,Tianjin 300222）

Customer segmentation by clustering can discover customer purchase preferences and potential buying behaviors from demographic information and the history of consuming behaviors,and these will be the important basis for insurance companies to make decisions.Considering the traditional K-Means algorithm is sensitive to initial conditions for the customer segmentation,proposes an improved K-Means clustering method based on golden section which can determine the optimum number of clusters.Empirical analysis proves that this algorithm is effective in insurance customer segmentation.

Customer Segmentation;Insurance;K-Means Clustering;Data Mining;Principal Components

2015年地方高校國家級大學生創新創業訓練計劃項目

1007-1423（2016）33-0014-04

10.3969/j.issn.1007-1423.2016.33.003

張君韜（1995-），男，北京人，本科，研究方向為數據挖掘

2016-09-20

2016-10-20

何麗（1969-），女，博士，教授，研究方向為數據挖掘、云計算