999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進K-Means算法的保險客戶細分研究

2016-12-28 01:22:55張君韜何麗
現代計算機 2016年33期
關鍵詞:數據挖掘

張君韜,何麗

(天津財經大學理工學院,天津 300222)

基于改進K-Means算法的保險客戶細分研究

張君韜,何麗

(天津財經大學理工學院,天津 300222)

通過聚類實現客戶細分,能夠從客戶的人口統計信息和歷史消費行為中發現客戶的購買偏好和購買行為,這將為保險行業的營銷決策制定提供重要依據。針對傳統K-Means算法對于客戶細分初始條件敏感的弱點,提出基于黃金分割的改進K-Means聚類方法,該方法能夠確定最佳聚類個數,并通過實例驗證該算法在保險客戶細分中的有效性。

客戶細分;保險;K-Means聚類;數據挖掘;主成分

0 引言

客戶細分最早由美國著名的市場學家溫德爾·史密斯(Wendell R·Smith)提出,指企業按照客戶屬性將客戶群體分為若干個子客戶群體,并實現細分后不同客戶群體之間的差異最大化,每個客戶群體盡可能的相似。隨著保險市場競爭的日趨激烈,各保險企業匯集了大量客戶信息和業務數據,這些數據背后隱藏客戶的行為偏好和消費潛力。應用數據挖掘中的聚類方法可以有效地實現保險客戶的細分,從而發現不同客戶群的行為偏好和未來的購買偏好。

本文針對保險行業客戶數據的特征和客戶分析目標,提出了基于主成分分析和改進K-Means算的客戶細分模型,并使用荷蘭數據挖掘公司Sentient Machine Research為the COIL CHALLENGE 2000大賽提供的保險客戶數據對提出的模型的有效性進行了驗證。

1 細分變量提取

細分變量選擇是建立客戶細分模型首先要解決的問題。考慮到保險客戶數據一般包含很多屬性,且不同的屬性之間存在一定的相關性,本文將客戶細分變量的提取分成兩個主要階段:數據預處理階段和主成分分析階段。

1.1 數據預處理

數據挖掘中數據預處理的主要任務是對目標數據集中的數據進行清洗、過濾和數據格式轉換等。保險客戶數據庫通常是由保險企業多個不同險種數據庫整合而來的,存在客戶信息的不完整和屬性值取值范圍不一致性等情況。為了實現客戶細分結果的準確有效,需要對客戶數據庫中的相關屬性進行數據清洗和數據轉換等。其中,數據清洗過程完成對缺省值、無效值和未知值的處理;數據轉換完成數據泛化過程。所謂泛化處理就是用更高層次的概念來取代低層次的對象。

1.2 主成分分析

經過預處理后的客戶屬性少則幾十個,多則上百個,而且這些變量之間可能會存在較強的相關性而產生冗余。主成分分析是一種對高維數據進行降維處理的一種分析方法。通過主成分提取,不僅可以消除相關性變量所產生的信息冗余,還可以有效降低客戶細分聚類模型的輸入維度。主成分在代數學上是p個隨機變量X1,X2,…,Xp,的一些特殊的線性組合,每個線性組合利用原數據變量生成新變量,即主成分。設隨機向量X=[X1,X2,…,Xp],考慮隨機向量的線性組合如公式(1)。

主成分是Y1,Y2,…,Yp中方差盡可能大的那些不相關的線性組合。Y1表示第一主成分,即Var(Y1)最大。一個變量的方差越大,表示其包含的信息越多。為了不丟失原始隨機變量中的有價值信息,一般需要選擇k個主成分(k≥2)。為了保證任意兩個主成分之間不存在信息重合,主成分Yi,Yj,之間的協方差需要滿足Cov(Yi,Yj)=0,1≤i,j≤k且≠j。

本文通過主成分分析法來提取客戶數據集中的主成分變量和與任何變量都不相關的變量作為客戶細分模型的輸入變量。

2 基于改進K-Means算法的客戶細分模型

聚類分析是一種實用的多元統計分析方法,它將一批樣本按照它們在性質上的親疏、相似程度進行分類。分類的目標是使同一類中的樣本之間具有較大的相似性,不同類樣本之間的相似性盡可能小。K-Means聚類,也稱為動態聚類算法,是客戶細分中最常用的聚類算法之一。在傳統的K-Means聚類算法描述中,初始聚類個數k的取值和初始聚類中心的選擇將直接影響K-Means的聚類結果,并且K-Means的聚類結果也無法反映最優聚類個數。本文借鑒“黃金分割”思想,在傳統K-Means算法中引入評價指標validty(k),并通過該評價指標來確定K-Means的最佳聚類個數。validty(k)評價指標定義如公式(2):

(1)確定最小、最大聚類個數k1,k2;

(2)從k1到k2進行迭代,對每次迭代的k(k1≤k≤k2):

①利用傳統K-Means聚類算法算法產生聚類結果(k,U);

②計算聚類有效性的指標函數validty(k);

(3)從中選取kopt使得聚類有效函數validty(k)達到最大;

(4)輸出最優聚類結果(kopt,Uopt);

(5)終止。

3 模型驗證

本文實證數據來源于荷蘭數據挖掘公司Sentient Machine Research為the COIL CHALLENGE 2000大賽提供的數據,共有5822條紀錄,每條記錄擁有86個屬性,其中載有社會人口信息(屬性1-43)和客戶行為與產品信息(屬性44-86)。社會人口信息來自郵政編碼,同一地區的客戶具有相同的社會人口屬性。

3.1 細分變量選擇

經過檢查本數據集存在大量缺失值,但沒有未知值和無效值。為了簡化處理流程,本文對數據集中的缺失值全部用0代替。為了完成細分過程,還需要對年齡和客戶主要類型這兩個屬性進行泛化處理。10個主要客戶類型:Successful Hedonists,Driven Growers,Average Family,Career Loners等分別用數值1,2,…,10替代;對于年齡屬性,將其泛化成6個不同的區間:20-30 years,30-40 years,40-50 years,50-60 years,60-70 years,70-80 years,區間取值分別為1,2,3,4,5,6。

為了在不丟失信息的前提下降低客戶細分模型的輸入維度,在數據集的屬性結合應用主成分分析,并對相關性較高的屬性提取主成分,這些主成分和與任何屬性都不相關的屬性一起作為細分模型的輸入變量。

本文調用SAS Proc Corr過程對數據集中86個屬性的相關性進行分析,其中Number of fire policies與Contribution of fire policies的偏相關系數為0.86554,P〈0.05,說明二者有顯著相關性,Contribution of car policies與Number of car policies的偏相關系數為0.91615,P〈0.0001,說明二者也具有顯著相關性,由此得出保險客戶各險種繳納的保費與各險種的購買數量顯著相關。數據集中屬性44-64是與保費相關的屬性,屬性65-85是與保險數量相關的屬性,為消除相關帶來的冗余,本文選取屬性44-64進行主成分分析。根據屬性之間的相關性分析結果,最終篩選出:Customer Subtype,Number of houses、Avg age、Living together、Singles等32個屬性進行主成分分析。

為了進一步消除相關變量帶來的信息冗余,接下來應用SAS的Proc Princomp過程對這32個屬性進行主成分分析,其中特征值大于0.93的主成分共有17個,這17個主成分分別是:Customer Subtype、Number of houses、Avg age、Medium level education、Home owners、1 car、Average income、Contribution private third party insurance、Contributioncarpolicies、Contribution moped policies、Contribution life insurances、Contribution familyaccidentsinsurancepolicies、Contributionfire policies、Contribution boat policies、Contribution property insurance policies、Contribution social security insurance policies和Number of mobile home policies。這17個屬性將作為客戶細分模型的最終輸入變量。

3.3 模型驗證

為了驗證客戶細分模型的穩定性,本文從5822條數據里,選擇2500條作為測試集,并分成兩個測試組。

第一組:首先把5822條數據分成15個類,再根據這15個類各自的類中心作為測試集進行聚類分析的初始聚類中心,然后調用SAS的PROC Fastclus過程,并把Replace設置成NONE,進行分組。

第二組:直接對測試集2500條記錄進行聚類分析,分成15組。

表1 客戶細分結果

將測試集上兩次分組的結果與上述聚類的結果進行比較發現:三次聚類的客戶比例基本相同,測試第一組的類中心和原始組相同,第二組類中心點與原始組也大致相同。表2中給出了customer subtype屬性在兩次聚類中各組的平均值。從該結果可以看出,兩組的聚類中心基本接近,說明聚類結果基本可以接受。

3.2 細分結果

4 結語

本文使用SAS的PROC Fastclus過程實現了KMeans聚類。考慮到樣本數據的聚類數一般比較接近聚類輸入變量的個數。為了獲得最佳聚類個數,選擇k從2到17,并對每個k值運行5次,計算每次聚類結果的max validity(k),然后計算每個k值對應的max validity(k)平均值。根據max validity(k)平均值越大越好的原則,最終選擇初始聚類數k=15。最后獲得的客戶分布如表1所示。

通過主成分分析方法可以有效消除客戶不同屬性之間的相關性,改善K-Means聚類結果的正確性和運行效率。引入validty(k)的K-Means聚類方法克服了傳統K-Means算法需要預先指定聚類數的弱點,能夠客觀地確定K-Means算法的最佳聚類個數。用改進的K-Means聚類分析模型對保險客戶進行細分研究,能夠獲得正確的客戶分布。根據客戶細分的結果及其特征,保險企業可以針對不同的客戶群設計不同的營銷計劃,捆綁多種不同的保險業務,以增加客戶對企業產品的擁有率,爭取更多有價值的潛在客戶。

表2 各簇中心點customer subtype的值

[1]宋加升,陳琰.改進的K-Means聚類算法在保險客戶信用分析中的算法實現.哈爾濱理工大學學報[J],2009(2):12-13.

[2]馬子斌,楊鴻賓.客戶細分在電信營銷中的應用研究[J].計算機系統應用,2009(3):105-108.

[3]趙珩君.客觀聚類在客戶價值細分中的研究.情報雜志[J],2009,28(3):151-153.

[4]范英,張忠健,凌君邀.聚類方法在通信行業客戶細分中的應用[J].計算機工程,2004(12):440-441.

[5]KE WANG,SENQIANG ZHOU.Mining Customer Value:From Association Rules to Direct Marketing[J].Data Mining and Knowledge Discovery,2005(11),57-79.D

Research on the Insurance Customer Segmentation Based on Improved K-Means Algorithm

ZHANG Jun-tao,HE Li

(School of Science and Technology,Tianjin University of Finance and Economics,Tianjin 300222)

Customer segmentation by clustering can discover customer purchase preferences and potential buying behaviors from demographic information and the history of consuming behaviors,and these will be the important basis for insurance companies to make decisions.Considering the traditional K-Means algorithm is sensitive to initial conditions for the customer segmentation,proposes an improved K-Means clustering method based on golden section which can determine the optimum number of clusters.Empirical analysis proves that this algorithm is effective in insurance customer segmentation.

Customer Segmentation;Insurance;K-Means Clustering;Data Mining;Principal Components

2015年地方高校國家級大學生創新創業訓練計劃項目

1007-1423(2016)33-0014-04

10.3969/j.issn.1007-1423.2016.33.003

張君韜(1995-),男,北京人,本科,研究方向為數據挖掘

2016-09-20

2016-10-20

何麗(1969-),女,博士,教授,研究方向為數據挖掘、云計算

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲视频影院| 亚洲侵犯无码网址在线观看| 国产成人禁片在线观看| 国产在线观看91精品| 国产精品色婷婷在线观看| 精品人妻无码中字系列| 国产福利在线观看精品| 国产毛片高清一级国语| 久久亚洲美女精品国产精品| 亚洲人成在线免费观看| 制服丝袜 91视频| 黑色丝袜高跟国产在线91| 久久亚洲天堂| 超薄丝袜足j国产在线视频| 性色生活片在线观看| 99人妻碰碰碰久久久久禁片| 2021国产精品自产拍在线| 色天天综合久久久久综合片| 久久精品人人做人人| 欧美19综合中文字幕| 中文字幕免费在线视频| 亚洲天堂首页| 91国内在线视频| 亚洲一级色| 午夜日b视频| 成人亚洲天堂| 亚洲香蕉在线| 国产美女一级毛片| 国产性精品| 亚洲国内精品自在自线官| 欧美色综合网站| 色AV色 综合网站| 久草视频福利在线观看| 97色婷婷成人综合在线观看| WWW丫丫国产成人精品| 超碰aⅴ人人做人人爽欧美 | 久草视频一区| 青草视频网站在线观看| 国产国语一级毛片| 亚洲精品综合一二三区在线| 亚洲精品爱草草视频在线| 欧洲精品视频在线观看| 欧美综合区自拍亚洲综合绿色 | 免费看av在线网站网址| 精品视频一区二区三区在线播| 欧美日韩精品在线播放| 中文字幕在线永久在线视频2020| 自拍欧美亚洲| 999精品视频在线| 四虎在线观看视频高清无码| 亚洲成人在线免费| 国产成人8x视频一区二区| 国产高清在线观看| 国产色爱av资源综合区| 精品久久久久久久久久久| 国产精品片在线观看手机版| 久久综合结合久久狠狠狠97色| 国产人人射| 久久精品国产91久久综合麻豆自制| 欧美激情视频二区| 中文字幕 日韩 欧美| 亚洲欧美成人| 韩国自拍偷自拍亚洲精品| 亚洲二区视频| 日本精品中文字幕在线不卡| 精品小视频在线观看| 91久久夜色精品国产网站| 欧美视频在线第一页| 黄网站欧美内射| 四虎AV麻豆| 91福利在线看| 一本色道久久88| 国产亚洲精品97AA片在线播放| 久久久精品久久久久三级| 久热re国产手机在线观看| 国产凹凸视频在线观看| 国产一区二区色淫影院| 欧美成人影院亚洲综合图| 欧美天天干| 久久国产精品嫖妓| 国产极品美女在线| 国产成人精品日本亚洲|