張雋(中國移動通信集團上海有限公司,上海200030)
數(shù)據(jù)挖掘在電信客戶細分中的應用研究
張雋
(中國移動通信集團上海有限公司,上海200030)
摘要:電信企業(yè)在經(jīng)營管理過程中積累了大量的客戶信息,依據(jù)這些信息可以將客戶劃分為不同的群體,這就為企業(yè)實施精準化營銷奠定了基礎(chǔ)。本文對k-means聚類算法進行改進,利用遺傳算法的全局優(yōu)化特點,設(shè)計了自動確定聚類數(shù)、優(yōu)化初始中心選取且消除噪聲數(shù)據(jù)干擾的GK-means算法,構(gòu)建了客戶細分模型。最后,以以XX電信公司作為研究對象,構(gòu)建其客戶細分模型,依據(jù)客戶細分結(jié)果分析了各個客戶群體的特征,并針對性地提出了若干營銷策略與建議。
關(guān)鍵字:客戶細分;數(shù)據(jù)挖掘;K-means算法
在電信企業(yè)客戶關(guān)系管理中,通過聚類等數(shù)據(jù)挖掘技術(shù)進行客戶細分,然后歸納總結(jié)各個細分群體的特征,是提升營銷效率及效果的有效途徑。傳統(tǒng)的客戶細分通常是采用了定性的經(jīng)營描述與定量的統(tǒng)計學相結(jié)合的方法。隨著數(shù)字化信息的增長,數(shù)據(jù)挖掘(DataMining)技術(shù)被廣泛應用于商業(yè)、金融業(yè)、企業(yè)生產(chǎn)以及市場營銷等方面,它已逐漸發(fā)展成為一種智能過程,可以和信息技術(shù)、統(tǒng)計技術(shù)等一起支持運營決策。
數(shù)據(jù)挖掘作為一門交叉學科,在整個數(shù)據(jù)挖掘過程中需要涉及和利用多領(lǐng)域的知識,以高度智能化的在線分析企業(yè)數(shù)據(jù)庫的信息,從大量的、混雜的原始數(shù)據(jù)中,提取出潛在的和有價值的信息的一個過程[1]。隨著數(shù)據(jù)挖掘技術(shù)的進一步發(fā)展和完善,數(shù)據(jù)挖掘技術(shù)的應用越來越廣泛,從最初的金融業(yè)拓展到現(xiàn)在的零售業(yè)、服務業(yè)等,在具體應用方面除了最初的價值評價,目前更多的用于顧客細分、識別潛在顧客等領(lǐng)域。數(shù)據(jù)挖掘應用于客戶細分的相關(guān)研究中,Zakrzewska&Mnrlewski以銀行積累的大量一手客戶資料為分析對象,利用K-means方法進行客戶細分,但是發(fā)現(xiàn)細分結(jié)果對于噪聲數(shù)據(jù)的敏感性較強。Zamir&Etzioni分別利用K-means聚類,SOM和模糊K-means將股票操作者按照一定的標準如交易量、交易頻率等進行了細分,發(fā)現(xiàn)模糊K-means的適用性最強、效果最好。
在眾多的聚類算法中,由于k-means算法具有明顯優(yōu)于其他算法的特性,使得它獲得廣泛地應用。但是,k-means算法仍然存在明顯的不足之處,需要相應的改進,才能有效地實現(xiàn)客戶細分。
2.1k-means算法
k-means算法是一個經(jīng)典的聚類算法,它是采用動態(tài)的聚類過程,通過一步步的迭代逐漸達到收斂,并最終實現(xiàn)聚類分析。總的來說,k-means聚類算法的基本原理是:先隨機選取k個樣本作為初始聚類中心,計算其他樣本與這個k個初始聚類中心的歐式距離并相關(guān)比較大小,然后將各個樣本歸入與其距離最近的初始類中,接著再計算迭代后的各個類簇的中心點位置,并重復上述步驟,直至得到誤差最小的聚類結(jié)果。
雖然k-means算法具有非常明顯的優(yōu)勢,但是其仍然存在如下幾點不足之處:(1)初始聚類中心的選取對于聚類結(jié)果影響比較大,不恰當?shù)某跏季垲愔行目赡軙е滤阉鞑坏阶顑?yōu)解;(2)在使用k-means算法之前必須輸入簇的數(shù)目k值,但是這k值通常是無法事前確定的,并且當k值的選取不適合時會導致聚類質(zhì)量顯著地下降,不具有分析價值;(3)k-means算法對于噪聲數(shù)據(jù)與異常數(shù)據(jù)非常敏感,少量的“噪聲”數(shù)據(jù)就可能導致聚類結(jié)果無法令人滿意。故本文考慮采用遺傳算法對k-means算法進行改進,提高算法的性能。
2.2初始中心的優(yōu)化
由于傳統(tǒng)k-means算法在選取初始中心的時候都只考慮距離因素,容易選取噪聲點作為初始聚類中心,降級聚類質(zhì)量,致使聚類結(jié)果難以令人滿意,故現(xiàn)在同時考慮距離與密度因素來優(yōu)化初始中心的選取,即選取相距最遠的k個處于高密度區(qū)域的點作為中心點。??
為此,首先將樣本數(shù)據(jù)所處區(qū)域的密度定義為:??
分析上述初始聚類中心的選取方法,其基本原理是選取歐式距離最大的高密度點集作為初始聚類中心,從而避免了選取的盲目性,保證了聚類質(zhì)量。
2.3消除噪聲和孤立點數(shù)據(jù)??
在對數(shù)據(jù)所包含的信息進行分析的時候,不同的樣本中所含有的信息量與價值不盡相同。為了對此加以區(qū)分,本文提出對每個樣本數(shù)據(jù)賦予一個權(quán)值,其計算公式如下所示:
此處,為了減小“噪聲”數(shù)據(jù)的負面影響,提高聚類質(zhì)量,故提出加權(quán)平均的方法來計算各個類簇的均值,即:??
上述加權(quán)平均法雖然會增加計算工作量,但是由于其能夠有效地降低對噪聲與異常數(shù)據(jù)的敏感性,即便是數(shù)據(jù)集中存在少量的噪聲與異常數(shù)據(jù)也不會對權(quán)重的計算產(chǎn)生太大的影響。
本文研究綜合運用了計算機信息技術(shù)、數(shù)據(jù)挖掘技術(shù)、管理學和市場營銷學等多個領(lǐng)域的知識,并結(jié)合電信行業(yè)的具體行業(yè)特征,構(gòu)建了基于數(shù)據(jù)挖掘的電信客戶細分模型,將數(shù)據(jù)挖掘技術(shù)應用到電信客戶細分中。為此,本文采用遺傳算法對常用的k-means聚類算法進行改進,提出了基于GK-means算法的客戶細分算法。最后,以XX電信公司作為研究對象,構(gòu)建其客戶細分模型,依據(jù)客戶細分結(jié)果分析了各個客戶群體的特征,并針對性地提出了若干營銷策略與建議。
參考文獻:
[1]ChenLD,SakaguchiT,FrolickMN.Dataminingmethods,applications,andtools[J].Informationsystemsmanagement,2000,17(01):1-6.