999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進K-Means算法的保險客戶細分研究

2016-12-28 01:22:55張君韜何麗
現代計算機 2016年33期
關鍵詞:數據挖掘

張君韜,何麗

(天津財經大學理工學院,天津 300222)

基于改進K-Means算法的保險客戶細分研究

張君韜,何麗

(天津財經大學理工學院,天津 300222)

通過聚類實現客戶細分,能夠從客戶的人口統計信息和歷史消費行為中發現客戶的購買偏好和購買行為,這將為保險行業的營銷決策制定提供重要依據。針對傳統K-Means算法對于客戶細分初始條件敏感的弱點,提出基于黃金分割的改進K-Means聚類方法,該方法能夠確定最佳聚類個數,并通過實例驗證該算法在保險客戶細分中的有效性。

客戶細分;保險;K-Means聚類;數據挖掘;主成分

0 引言

客戶細分最早由美國著名的市場學家溫德爾·史密斯(Wendell R·Smith)提出,指企業按照客戶屬性將客戶群體分為若干個子客戶群體,并實現細分后不同客戶群體之間的差異最大化,每個客戶群體盡可能的相似。隨著保險市場競爭的日趨激烈,各保險企業匯集了大量客戶信息和業務數據,這些數據背后隱藏客戶的行為偏好和消費潛力。應用數據挖掘中的聚類方法可以有效地實現保險客戶的細分,從而發現不同客戶群的行為偏好和未來的購買偏好。

本文針對保險行業客戶數據的特征和客戶分析目標,提出了基于主成分分析和改進K-Means算的客戶細分模型,并使用荷蘭數據挖掘公司Sentient Machine Research為the COIL CHALLENGE 2000大賽提供的保險客戶數據對提出的模型的有效性進行了驗證。

1 細分變量提取

細分變量選擇是建立客戶細分模型首先要解決的問題。考慮到保險客戶數據一般包含很多屬性,且不同的屬性之間存在一定的相關性,本文將客戶細分變量的提取分成兩個主要階段:數據預處理階段和主成分分析階段。

1.1 數據預處理

數據挖掘中數據預處理的主要任務是對目標數據集中的數據進行清洗、過濾和數據格式轉換等。保險客戶數據庫通常是由保險企業多個不同險種數據庫整合而來的,存在客戶信息的不完整和屬性值取值范圍不一致性等情況。為了實現客戶細分結果的準確有效,需要對客戶數據庫中的相關屬性進行數據清洗和數據轉換等。其中,數據清洗過程完成對缺省值、無效值和未知值的處理;數據轉換完成數據泛化過程。所謂泛化處理就是用更高層次的概念來取代低層次的對象。

1.2 主成分分析

經過預處理后的客戶屬性少則幾十個,多則上百個,而且這些變量之間可能會存在較強的相關性而產生冗余。主成分分析是一種對高維數據進行降維處理的一種分析方法。通過主成分提取,不僅可以消除相關性變量所產生的信息冗余,還可以有效降低客戶細分聚類模型的輸入維度。主成分在代數學上是p個隨機變量X1,X2,…,Xp,的一些特殊的線性組合,每個線性組合利用原數據變量生成新變量,即主成分。設隨機向量X=[X1,X2,…,Xp],考慮隨機向量的線性組合如公式(1)。

主成分是Y1,Y2,…,Yp中方差盡可能大的那些不相關的線性組合。Y1表示第一主成分,即Var(Y1)最大。一個變量的方差越大,表示其包含的信息越多。為了不丟失原始隨機變量中的有價值信息,一般需要選擇k個主成分(k≥2)。為了保證任意兩個主成分之間不存在信息重合,主成分Yi,Yj,之間的協方差需要滿足Cov(Yi,Yj)=0,1≤i,j≤k且≠j。

本文通過主成分分析法來提取客戶數據集中的主成分變量和與任何變量都不相關的變量作為客戶細分模型的輸入變量。

2 基于改進K-Means算法的客戶細分模型

聚類分析是一種實用的多元統計分析方法,它將一批樣本按照它們在性質上的親疏、相似程度進行分類。分類的目標是使同一類中的樣本之間具有較大的相似性,不同類樣本之間的相似性盡可能小。K-Means聚類,也稱為動態聚類算法,是客戶細分中最常用的聚類算法之一。在傳統的K-Means聚類算法描述中,初始聚類個數k的取值和初始聚類中心的選擇將直接影響K-Means的聚類結果,并且K-Means的聚類結果也無法反映最優聚類個數。本文借鑒“黃金分割”思想,在傳統K-Means算法中引入評價指標validty(k),并通過該評價指標來確定K-Means的最佳聚類個數。validty(k)評價指標定義如公式(2):

(1)確定最小、最大聚類個數k1,k2;

(2)從k1到k2進行迭代,對每次迭代的k(k1≤k≤k2):

①利用傳統K-Means聚類算法算法產生聚類結果(k,U);

②計算聚類有效性的指標函數validty(k);

(3)從中選取kopt使得聚類有效函數validty(k)達到最大;

(4)輸出最優聚類結果(kopt,Uopt);

(5)終止。

3 模型驗證

本文實證數據來源于荷蘭數據挖掘公司Sentient Machine Research為the COIL CHALLENGE 2000大賽提供的數據,共有5822條紀錄,每條記錄擁有86個屬性,其中載有社會人口信息(屬性1-43)和客戶行為與產品信息(屬性44-86)。社會人口信息來自郵政編碼,同一地區的客戶具有相同的社會人口屬性。

3.1 細分變量選擇

經過檢查本數據集存在大量缺失值,但沒有未知值和無效值。為了簡化處理流程,本文對數據集中的缺失值全部用0代替。為了完成細分過程,還需要對年齡和客戶主要類型這兩個屬性進行泛化處理。10個主要客戶類型:Successful Hedonists,Driven Growers,Average Family,Career Loners等分別用數值1,2,…,10替代;對于年齡屬性,將其泛化成6個不同的區間:20-30 years,30-40 years,40-50 years,50-60 years,60-70 years,70-80 years,區間取值分別為1,2,3,4,5,6。

為了在不丟失信息的前提下降低客戶細分模型的輸入維度,在數據集的屬性結合應用主成分分析,并對相關性較高的屬性提取主成分,這些主成分和與任何屬性都不相關的屬性一起作為細分模型的輸入變量。

本文調用SAS Proc Corr過程對數據集中86個屬性的相關性進行分析,其中Number of fire policies與Contribution of fire policies的偏相關系數為0.86554,P〈0.05,說明二者有顯著相關性,Contribution of car policies與Number of car policies的偏相關系數為0.91615,P〈0.0001,說明二者也具有顯著相關性,由此得出保險客戶各險種繳納的保費與各險種的購買數量顯著相關。數據集中屬性44-64是與保費相關的屬性,屬性65-85是與保險數量相關的屬性,為消除相關帶來的冗余,本文選取屬性44-64進行主成分分析。根據屬性之間的相關性分析結果,最終篩選出:Customer Subtype,Number of houses、Avg age、Living together、Singles等32個屬性進行主成分分析。

為了進一步消除相關變量帶來的信息冗余,接下來應用SAS的Proc Princomp過程對這32個屬性進行主成分分析,其中特征值大于0.93的主成分共有17個,這17個主成分分別是:Customer Subtype、Number of houses、Avg age、Medium level education、Home owners、1 car、Average income、Contribution private third party insurance、Contributioncarpolicies、Contribution moped policies、Contribution life insurances、Contribution familyaccidentsinsurancepolicies、Contributionfire policies、Contribution boat policies、Contribution property insurance policies、Contribution social security insurance policies和Number of mobile home policies。這17個屬性將作為客戶細分模型的最終輸入變量。

3.3 模型驗證

為了驗證客戶細分模型的穩定性,本文從5822條數據里,選擇2500條作為測試集,并分成兩個測試組。

第一組:首先把5822條數據分成15個類,再根據這15個類各自的類中心作為測試集進行聚類分析的初始聚類中心,然后調用SAS的PROC Fastclus過程,并把Replace設置成NONE,進行分組。

第二組:直接對測試集2500條記錄進行聚類分析,分成15組。

表1 客戶細分結果

將測試集上兩次分組的結果與上述聚類的結果進行比較發現:三次聚類的客戶比例基本相同,測試第一組的類中心和原始組相同,第二組類中心點與原始組也大致相同。表2中給出了customer subtype屬性在兩次聚類中各組的平均值。從該結果可以看出,兩組的聚類中心基本接近,說明聚類結果基本可以接受。

3.2 細分結果

4 結語

本文使用SAS的PROC Fastclus過程實現了KMeans聚類。考慮到樣本數據的聚類數一般比較接近聚類輸入變量的個數。為了獲得最佳聚類個數,選擇k從2到17,并對每個k值運行5次,計算每次聚類結果的max validity(k),然后計算每個k值對應的max validity(k)平均值。根據max validity(k)平均值越大越好的原則,最終選擇初始聚類數k=15。最后獲得的客戶分布如表1所示。

通過主成分分析方法可以有效消除客戶不同屬性之間的相關性,改善K-Means聚類結果的正確性和運行效率。引入validty(k)的K-Means聚類方法克服了傳統K-Means算法需要預先指定聚類數的弱點,能夠客觀地確定K-Means算法的最佳聚類個數。用改進的K-Means聚類分析模型對保險客戶進行細分研究,能夠獲得正確的客戶分布。根據客戶細分的結果及其特征,保險企業可以針對不同的客戶群設計不同的營銷計劃,捆綁多種不同的保險業務,以增加客戶對企業產品的擁有率,爭取更多有價值的潛在客戶。

表2 各簇中心點customer subtype的值

[1]宋加升,陳琰.改進的K-Means聚類算法在保險客戶信用分析中的算法實現.哈爾濱理工大學學報[J],2009(2):12-13.

[2]馬子斌,楊鴻賓.客戶細分在電信營銷中的應用研究[J].計算機系統應用,2009(3):105-108.

[3]趙珩君.客觀聚類在客戶價值細分中的研究.情報雜志[J],2009,28(3):151-153.

[4]范英,張忠健,凌君邀.聚類方法在通信行業客戶細分中的應用[J].計算機工程,2004(12):440-441.

[5]KE WANG,SENQIANG ZHOU.Mining Customer Value:From Association Rules to Direct Marketing[J].Data Mining and Knowledge Discovery,2005(11),57-79.D

Research on the Insurance Customer Segmentation Based on Improved K-Means Algorithm

ZHANG Jun-tao,HE Li

(School of Science and Technology,Tianjin University of Finance and Economics,Tianjin 300222)

Customer segmentation by clustering can discover customer purchase preferences and potential buying behaviors from demographic information and the history of consuming behaviors,and these will be the important basis for insurance companies to make decisions.Considering the traditional K-Means algorithm is sensitive to initial conditions for the customer segmentation,proposes an improved K-Means clustering method based on golden section which can determine the optimum number of clusters.Empirical analysis proves that this algorithm is effective in insurance customer segmentation.

Customer Segmentation;Insurance;K-Means Clustering;Data Mining;Principal Components

2015年地方高校國家級大學生創新創業訓練計劃項目

1007-1423(2016)33-0014-04

10.3969/j.issn.1007-1423.2016.33.003

張君韜(1995-),男,北京人,本科,研究方向為數據挖掘

2016-09-20

2016-10-20

何麗(1969-),女,博士,教授,研究方向為數據挖掘、云計算

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 天堂成人av| 欧美一区精品| 婷婷开心中文字幕| 国产高清精品在线91| 九九精品在线观看| 999国内精品久久免费视频| 婷五月综合| 一级成人a毛片免费播放| 免费在线看黄网址| 五月综合色婷婷| 人人爱天天做夜夜爽| 久久天天躁夜夜躁狠狠| 国产美女无遮挡免费视频| 国产喷水视频| 国产JIZzJIzz视频全部免费| 国产成人精品一区二区不卡| 国产白丝av| 熟妇无码人妻| 国产成人无码AV在线播放动漫| 久久久噜噜噜久久中文字幕色伊伊 | 成人免费午夜视频| 91精品啪在线观看国产60岁 | 青草国产在线视频| 欧美成人免费午夜全| 永久免费无码日韩视频| 国产成人a在线观看视频| 91丝袜乱伦| 国产AV无码专区亚洲A∨毛片| 国模视频一区二区| 日本免费精品| 精品91自产拍在线| 亚洲综合久久一本伊一区| 国产美女91视频| 精品无码视频在线观看| 国产91特黄特色A级毛片| 在线精品亚洲国产| 嫩草影院在线观看精品视频| 欧美日韩中文国产| 国产成人免费视频精品一区二区| 久久综合色88| 伊人久久久大香线蕉综合直播| 日本在线欧美在线| 在线国产毛片| 国产精品精品视频| 无码福利视频| 97久久精品人人做人人爽| 97国产在线观看| 福利视频一区| 成人精品午夜福利在线播放 | 波多野结衣在线se| 成人午夜精品一级毛片| 中文字幕在线播放不卡| 成·人免费午夜无码视频在线观看 | 久久香蕉国产线看观看式| 亚洲天堂自拍| 久996视频精品免费观看| 日韩AV无码免费一二三区| 国产av剧情无码精品色午夜| 亚洲成人手机在线| 精品久久久久成人码免费动漫| A级全黄试看30分钟小视频| 亚洲综合香蕉| 国产SUV精品一区二区6| 成人亚洲天堂| 国产精品爽爽va在线无码观看| 中文字幕一区二区人妻电影| 免费观看三级毛片| 91国内在线观看| 国产99欧美精品久久精品久久| 精品一区二区三区自慰喷水| 亚国产欧美在线人成| 毛片免费在线视频| 毛片网站在线看| 成人日韩欧美| 国产成+人+综合+亚洲欧美| 免费又爽又刺激高潮网址| 国产成人8x视频一区二区| 日本不卡在线| 久久久久亚洲Av片无码观看| 久久香蕉欧美精品| 99一级毛片| 亚洲欧美日韩动漫|