摘要:電信企業(yè)為了在日趨激烈的市場(chǎng)競(jìng)爭(zhēng)中取得優(yōu)勢(shì),需要建立自己的數(shù)據(jù)倉(cāng)庫(kù),利用數(shù)據(jù)挖掘技術(shù)對(duì)現(xiàn)有的客戶(hù)數(shù)據(jù)進(jìn)行分析研究。洞察力營(yíng)銷(xiāo)(Insight Driven Marketing,IDM)是一個(gè)應(yīng)用數(shù)據(jù)和技術(shù),幫助企業(yè)構(gòu)建更個(gè)性化、更高利潤(rùn)的市場(chǎng)營(yíng)銷(xiāo)活動(dòng)的過(guò)程。福州市電信公司作為IDM項(xiàng)目的試點(diǎn)單位,建立了一套IDM客戶(hù)洞察系統(tǒng),以滿(mǎn)足項(xiàng)目的數(shù)據(jù)挖掘需求。
項(xiàng)目以福州5萬(wàn)商客為目標(biāo)對(duì)象進(jìn)行了數(shù)據(jù)挖掘的研究,通過(guò)IDM客戶(hù)洞察系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行采集處理,挖掘分析,最終形成9個(gè)戰(zhàn)略分群。
關(guān)鍵詞:數(shù)據(jù)挖掘;ETL;寬表;分群;K-means算法
中圖分類(lèi)號(hào):TP
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-3198(2010)15-0318-03
1 緒論
課題來(lái)源于中國(guó)電信集團(tuán)公司“洞察力營(yíng)銷(xiāo)福州試點(diǎn)項(xiàng)目”。為了更好地應(yīng)用洞察力營(yíng)銷(xiāo)方法,中國(guó)電信集團(tuán)公司聘請(qǐng)美國(guó)埃森哲咨詢(xún)公司對(duì)IDM方法給予技術(shù)咨詢(xún),提供方案進(jìn)行試點(diǎn)。福州公司作為其中的一個(gè)主要試點(diǎn)單位,需要建立一個(gè)數(shù)據(jù)分析挖掘系統(tǒng),將各類(lèi)分散在營(yíng)業(yè)支撐系統(tǒng)(Business Supporting System,BSS)、計(jì)費(fèi)系統(tǒng)、省中心計(jì)費(fèi)系統(tǒng)、智能網(wǎng)系統(tǒng)、10000號(hào)系統(tǒng)、112系統(tǒng)等多個(gè)系統(tǒng)的數(shù)據(jù)快速采集起來(lái),建立統(tǒng)一的客戶(hù)視圖來(lái)滿(mǎn)足數(shù)據(jù)挖掘的需要,實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析挖掘,將電信客戶(hù)進(jìn)行分群,進(jìn)行針對(duì)性營(yíng)銷(xiāo)。
根據(jù)埃森哲公司提供的客戶(hù)洞察方案,試點(diǎn)期間以福州商業(yè)客戶(hù)為對(duì)象進(jìn)行客戶(hù)分群,同時(shí)完成系統(tǒng)的建設(shè)。
2 客戶(hù)洞察系統(tǒng)設(shè)計(jì)
2.1 客戶(hù)洞察系統(tǒng)的需求分析
2.1.1 數(shù)據(jù)源分析
通過(guò)福州本地網(wǎng)內(nèi)各個(gè)系統(tǒng)分析發(fā)現(xiàn),對(duì)于福州電信來(lái)說(shuō),需要從BSS系統(tǒng)、計(jì)費(fèi)系統(tǒng)、省中心計(jì)費(fèi)系統(tǒng)、智能網(wǎng)系統(tǒng)、10000號(hào)系統(tǒng)、112系統(tǒng)等多個(gè)來(lái)源獲得。但這些系統(tǒng)有的又相對(duì)獨(dú)立,數(shù)據(jù)分散性造成共享缺少統(tǒng)一的標(biāo)準(zhǔn),所涉及到的同樣的客戶(hù)信息可能存在不同的系統(tǒng)中,有些客戶(hù)信息只在一個(gè)系統(tǒng)中,需要將這些客戶(hù)信息進(jìn)行歸納提取出來(lái),再將這些提取出來(lái)的數(shù)據(jù)按照邏輯關(guān)系進(jìn)行關(guān)聯(lián)和存儲(chǔ)。
2.1.2 系統(tǒng)需求分析
根據(jù)業(yè)務(wù)部門(mén)要求,系統(tǒng)需要滿(mǎn)足以下幾點(diǎn)。
(1)系統(tǒng)應(yīng)提供良好的安全性和可靠性策略。
(2)系統(tǒng)能與各類(lèi)外部系統(tǒng)建立接口,每日和每月定期獲取接口數(shù)據(jù)。
(3)系統(tǒng)數(shù)據(jù)流處理能力必須滿(mǎn)足在一周內(nèi)完成數(shù)據(jù)從接口到中間處理數(shù)據(jù)轉(zhuǎn)換和存儲(chǔ)。
(4)系統(tǒng)應(yīng)能滿(mǎn)足并發(fā)大數(shù)據(jù)量處理的要求,具有快速的并發(fā)用戶(hù)查詢(xún)速度,并發(fā)控制穩(wěn)定可靠,支持多線程或多進(jìn)程。
(5)系統(tǒng)必須提供對(duì)外查詢(xún)接口和界面。
(6)考慮數(shù)據(jù)冗余,和各類(lèi)索引的建立,存儲(chǔ)空間應(yīng)滿(mǎn)足2年半的數(shù)據(jù)存儲(chǔ)。
2.2 平臺(tái)架構(gòu)設(shè)計(jì)
根據(jù)福州局IDM客戶(hù)洞察系統(tǒng)一期的建設(shè)要求,并結(jié)合以上構(gòu)建數(shù)據(jù)挖掘系統(tǒng)所需的幾個(gè)主要功能模塊,對(duì)系統(tǒng)平臺(tái)架構(gòu)進(jìn)行設(shè)計(jì),如圖1所示,系統(tǒng)分為三大部分:數(shù)據(jù)源、分析系統(tǒng)/平臺(tái)、報(bào)告和挖掘分析系統(tǒng)。
圖1 IDM客戶(hù)洞察系統(tǒng)架構(gòu)
2.3 功能模塊設(shè)計(jì)
IDM客戶(hù)洞察系統(tǒng)作為一個(gè)完整的系統(tǒng),主要包括的功能有:數(shù)據(jù)源的采集、數(shù)據(jù)的ETL過(guò)程及統(tǒng)一客戶(hù)視圖建立、寬表生成、客戶(hù)分群、分群結(jié)果分析、結(jié)果數(shù)據(jù)輸出營(yíng)銷(xiāo)、營(yíng)銷(xiāo)效果評(píng)估、系統(tǒng)管理、對(duì)外接口等。因此經(jīng)過(guò)研究分析,系統(tǒng)分成四個(gè)大的功能模塊,各模塊的主要功能如下。
(1)接口程序模塊:屬于數(shù)據(jù)采集層,負(fù)責(zé)將外系統(tǒng)的數(shù)據(jù)源導(dǎo)入試點(diǎn)數(shù)據(jù)庫(kù)。
(2)數(shù)據(jù)處理模塊:屬于數(shù)據(jù)分析層,負(fù)責(zé)將試點(diǎn)數(shù)據(jù)進(jìn)行ETL的清洗、過(guò)濾、整合、歸并、生成寬表。
(3)客戶(hù)分群模塊:屬于數(shù)據(jù)分析層,利用數(shù)據(jù)挖掘工具對(duì)寬表數(shù)據(jù)進(jìn)行客戶(hù)分群。
(4)結(jié)果分析、特征刻畫(huà)模塊:屬于數(shù)據(jù)展示層,進(jìn)行分群數(shù)據(jù)相關(guān)信息的提取,對(duì)分群后數(shù)據(jù)的分析刻畫(huà)展示。
2.4 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)設(shè)計(jì)
2.4.1 統(tǒng)一客戶(hù)視圖設(shè)計(jì)
由于客戶(hù)的變量在各系統(tǒng)間不能實(shí)現(xiàn)自動(dòng)關(guān)聯(lián),需要通過(guò)對(duì)這些數(shù)據(jù)類(lèi)型整理,并按照一定的數(shù)據(jù)規(guī)則將這種關(guān)聯(lián)建立起來(lái),將這些數(shù)據(jù)類(lèi)型變量信息統(tǒng)一掛靠到每個(gè)客戶(hù)下面,對(duì)數(shù)據(jù)庫(kù)處理而言,就需要一個(gè)客戶(hù)ID,代表系統(tǒng)中唯一的標(biāo)識(shí),將反映客戶(hù)信息的變量都索引表現(xiàn)出來(lái)。這種客戶(hù)ID將客戶(hù)所有的相關(guān)信息,通過(guò)掛靠的眾多變量反映出來(lái),就可以在系統(tǒng)中展現(xiàn)每一個(gè)客戶(hù)完整情況,將它定義為統(tǒng)一客戶(hù)視圖。
凡是客戶(hù)的并且與運(yùn)營(yíng)商接觸的歷史記錄都可以通過(guò)客戶(hù)ID為索引主鍵進(jìn)行存儲(chǔ)和展示,一旦查找到客戶(hù)ID就可以將客戶(hù)的電話號(hào)碼以及使用的相關(guān)電信產(chǎn)品等信息都可以展示出來(lái)。
2.4.2 寬表設(shè)計(jì)
(1)寬表設(shè)計(jì)變量的分類(lèi)。寬表(WIDE TABLE)就是實(shí)現(xiàn)統(tǒng)一客戶(hù)視圖模型,用于數(shù)據(jù)挖掘的一種數(shù)據(jù)結(jié)構(gòu),將客戶(hù)相關(guān)的信息都記錄在一行上,以便進(jìn)行分析。其特征每個(gè)客戶(hù)一條記錄,每一條記錄是客戶(hù)屬性的一個(gè)“扁平化”表現(xiàn),一條記錄中包含了很多跟客戶(hù)相關(guān)聯(lián)的客戶(hù)屬性作為變量名。寬表是以每個(gè)客戶(hù)ID為中心的,匯集了與分析相關(guān)的所有信息,有時(shí)候變量可以達(dá)到上百、上千個(gè)。
寬表的記錄由許多字段(變量)組成,而每個(gè)字段都反映了客戶(hù)信息的某個(gè)方面(例如撥打異網(wǎng)的情況),寬表就是將這些不同類(lèi)型的數(shù)據(jù)定義成眾多字段變量,而且這些字段也是不斷進(jìn)行擴(kuò)充的,這些變量不僅為分群提供了聚類(lèi)的特征,而且通過(guò)業(yè)務(wù)語(yǔ)言翻譯出來(lái)為分群后的營(yíng)銷(xiāo)策略提供重要的數(shù)據(jù)依據(jù)。
分群是依據(jù)最共有的特征將眾多客戶(hù)聚類(lèi)到一起。由于寬表中字段變量非常多,若對(duì)每個(gè)字段都進(jìn)行輸入聚類(lèi),顯然是不合適。研究發(fā)現(xiàn)寬表中的一些變量對(duì)展示客戶(hù)的特征特別明顯,經(jīng)過(guò)歸類(lèi),可分為11類(lèi),分別是(1)平均費(fèi)用;(2)平均時(shí)長(zhǎng);(3)平均次數(shù);(4)去向;(5)時(shí)段;(6)趨勢(shì);(7)客戶(hù)信息;(8)產(chǎn)品信息;(9)付費(fèi)信息;(10)客戶(hù)交互信息;(11)類(lèi)型分布比例。
這些字段變量反映了寬表設(shè)計(jì)維度包括的字段類(lèi)型,這些變量可以通過(guò)客戶(hù)ID在各數(shù)據(jù)源中提取到,將客戶(hù)各類(lèi)的數(shù)據(jù)源,對(duì)應(yīng)11個(gè)維度類(lèi)型按一定的規(guī)則進(jìn)行ETL,這樣就生成包含幾百個(gè)變量的寬表。
(2)寬表變量V_B分群研究。輸入變量的設(shè)計(jì)直接影響分群模型結(jié)果的好壞,因此,通過(guò)仔細(xì)對(duì)輸入變量進(jìn)行了研究后發(fā)現(xiàn),無(wú)論是次數(shù)、時(shí)長(zhǎng)等變量,還是費(fèi)用、產(chǎn)品擁有情況等變量,這些變量跟客戶(hù)所消費(fèi)的產(chǎn)品價(jià)值和使用行為密不可分。如果把這些分類(lèi)合并成價(jià)值(產(chǎn)生直接費(fèi)用,Value)和行為(影響話務(wù)量變化的習(xí)慣特征,Behave)兩大類(lèi),對(duì)分群模型的建立將會(huì)是非常清晰和直觀的。同時(shí),行為和價(jià)值這兩個(gè)因果變量,有很強(qiáng)的關(guān)聯(lián)性。消費(fèi)行為是產(chǎn)品使用費(fèi)用的直接原因,消費(fèi)行為又反映了客戶(hù)的心理需求和使用習(xí)慣,價(jià)值又是客戶(hù)對(duì)電信的貢獻(xiàn)程度。按照客戶(hù)的價(jià)值和行為為出發(fā)點(diǎn)對(duì)客戶(hù)進(jìn)行分群,分出的客戶(hù)群將對(duì)福州電信今后的市場(chǎng)營(yíng)銷(xiāo)有直接指導(dǎo)意義。
通過(guò)價(jià)值和行為變量的確定,可以形成這種交叉的聚類(lèi)。在采用挖掘軟件回寫(xiě)數(shù)據(jù)的時(shí)候,加入V_code 和B_code群號(hào),這是價(jià)值和行為衍生的分群類(lèi)別的標(biāo)識(shí)變量,為客戶(hù)分在哪個(gè)群組中提供了重要的保證。
因此,寬表變量集匯總為價(jià)值和行為兩大類(lèi),確定了數(shù)據(jù)挖掘軟件的最終輸入變量就是價(jià)值和行為為聚類(lèi)維度。只要是與客戶(hù)消費(fèi)行為和貢獻(xiàn)價(jià)值有關(guān)的數(shù)據(jù),都需要提取到寬表中。經(jīng)過(guò)以上的分析設(shè)計(jì),寬表最終的數(shù)據(jù)結(jié)構(gòu)如表1所示。
表1 寬表數(shù)據(jù)結(jié)構(gòu)示例
客戶(hù)編號(hào)在網(wǎng)時(shí)長(zhǎng)月平均費(fèi)用…國(guó)內(nèi)長(zhǎng)途時(shí)長(zhǎng)催繳次數(shù)…客戶(hù)年齡客戶(hù)性別…B分群得分V分群得分…
12345435…102…23男…54…
78912116…50…45男…71…
…………………………………
客戶(hù)ID價(jià)值字段行為字段人口統(tǒng)計(jì)學(xué)模型記分
3 數(shù)據(jù)挖掘的關(guān)鍵技術(shù)
3.1 數(shù)據(jù)挖掘的K-means算法
本次數(shù)據(jù)挖掘主要解決的是對(duì)電信客戶(hù)分群這樣一個(gè)具體問(wèn)題,而且在分群的時(shí)候并不是按照人為制定的規(guī)范去分類(lèi),我們希望得到的是按照客戶(hù)內(nèi)在具有的未知的、潛在的特性去分類(lèi)。這就是一個(gè)典型的聚類(lèi)問(wèn)題。
所謂聚類(lèi),就是按照事物的某些屬性聚集成類(lèi),使得類(lèi)間的相似性盡可能的大。聚類(lèi)算法主要種類(lèi)有劃分方法、層次方法、密度方法、網(wǎng)格方法、K一最近鄰法、模型方法等。多數(shù)電信行業(yè)軟件針對(duì)單因素客戶(hù)細(xì)分都使用劃分方法,部分使用了K-MEANS、模型方法做綜合細(xì)分。
在這么多的聚類(lèi)算法中,我們選擇K一means算法來(lái)解決我們的問(wèn)題。主要因?yàn)檫@種算法是解決聚類(lèi)問(wèn)題的一種經(jīng)典算法,它的主要優(yōu)點(diǎn)是算法簡(jiǎn)單、快速而且能有效地處理大型數(shù)據(jù)庫(kù)。盡管它也有一些缺點(diǎn),但是對(duì)于電信這樣的數(shù)據(jù)密集型企業(yè),能否有效的處理大型數(shù)據(jù)庫(kù)是我們關(guān)心的重點(diǎn)。像前面提到的基于密度的聚類(lèi)算法雖然也可以實(shí)現(xiàn)聚類(lèi),但當(dāng)數(shù)據(jù)量增大時(shí),它就不能較好的完成聚類(lèi)。
3.2 應(yīng)用KXEN軟件進(jìn)行商客分群建模
本次對(duì)商客的分群建模共涉及福州5萬(wàn)多商業(yè)客戶(hù),8萬(wàn)多的號(hào)線資源,源數(shù)據(jù)經(jīng)過(guò)ETL過(guò)濾后,生成商客的寬表數(shù)據(jù),共296個(gè)字段,經(jīng)過(guò)前期對(duì)KXEN軟件的使用,我們發(fā)現(xiàn)并非將所有的變量都按V_B進(jìn)行分類(lèi)后投入數(shù)據(jù)挖掘軟件進(jìn)行分群就可以得到較好的結(jié)果,需要對(duì)變量有所取舍,減少干擾。因此,我們重新過(guò)濾了所有的寬表變量,將它們分為三類(lèi),價(jià)值V變量58個(gè),行為B變量89個(gè)和輔助E變量148個(gè),還有一個(gè)客戶(hù)編碼作為主鍵。
4 數(shù)據(jù)挖掘結(jié)果分析評(píng)估
關(guān)于商業(yè)客戶(hù)的數(shù)據(jù)挖掘結(jié)果。本次對(duì)福州5萬(wàn)商業(yè)客戶(hù)采用KXEN軟件進(jìn)行分群,將58個(gè)價(jià)值變量分為了7類(lèi),89個(gè)行為變量分為了9類(lèi),通過(guò)V_B的二維交叉組合,形成了福州商客的V-B矩陣圖,如圖2福州商客分群矩陣圖。
圖2 福州商客分群矩陣圖
從該圖可以看出每個(gè)客戶(hù)都能用一個(gè)二維的坐標(biāo)來(lái)形容或確定,就形成了交叉V-B矩陣。按照這種行為和價(jià)值組合的相似性,將相關(guān)點(diǎn)進(jìn)行合并歸類(lèi),形成最終分群結(jié)果,所分的群用紅色框標(biāo)識(shí)出來(lái)并起一個(gè)名稱(chēng),例如:SS1(Strategic Segmentation 1)稱(chēng)為戰(zhàn)略分群1。具體分群結(jié)果和描述上圖中也已給出,如SS1被定義為高值高危企業(yè)。
根據(jù)以上對(duì)福州商客分群矩陣圖的分析,我們可以看到,在所形成的9個(gè)分群中,客戶(hù)群中的客戶(hù)之間有很強(qiáng)的相似性,而客戶(hù)群和客戶(hù)群之間的區(qū)別也非常明顯。更重要的是,公司對(duì)不同的客戶(hù)群能夠采取不同的措施進(jìn)行營(yíng)銷(xiāo)。因此我們可以確認(rèn)本次的分群結(jié)果是有效的,并有實(shí)際的指導(dǎo)意義和可操作性。
5 結(jié)語(yǔ)
根據(jù)合理的客戶(hù)細(xì)分策略,為客戶(hù)提供有針對(duì)性的個(gè)性化服務(wù)是當(dāng)前每個(gè)電信運(yùn)營(yíng)商都十分重視的工作,在以客戶(hù)洞察力營(yíng)銷(xiāo)核心方法論的指導(dǎo)下,我們堅(jiān)信,隨著數(shù)據(jù)挖掘技術(shù)的普及與提高,建立在數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上的針對(duì)性市場(chǎng)營(yíng)銷(xiāo)策略必將成為電信企業(yè)提升企業(yè)品牌和核心競(jìng)爭(zhēng)力的重要籌碼。
參考文獻(xiàn)
[1]郭道寧,舒華英.數(shù)據(jù)挖掘在電信運(yùn)營(yíng)市場(chǎng)決策支持中的應(yīng)用[J].北京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2004,(2):15-16.
[2]Ralambondrainy H.A Conceptual Version of the k-Means Algorithm,Pattern recognition Lettes,16,1147-1157.
[3]吳志勇,吳躍.數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用,2005,3(4):20-21.
[4]D.Margineantu,S.Bay,P.Chan,T.Lane.Data Mining Standards,Services and Platforms 2005 Workshop Report.ACM SIGKDD December 2005,7(2):137.