摘要:在移動(dòng)通訊市場(chǎng)中,爭(zhēng)取一個(gè)新客戶的代價(jià)往往比留住一個(gè)老客戶要大很多,所以客戶流失預(yù)測(cè)是移動(dòng)通訊運(yùn)營(yíng)公司最為關(guān)注的重點(diǎn)之一。文章利用SOM網(wǎng)絡(luò)建立客戶流失預(yù)測(cè)模型,為移動(dòng)通訊運(yùn)營(yíng)公司的經(jīng)營(yíng)決策提供幫助。
關(guān)鍵詞:數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò);SOM;預(yù)測(cè)
一、引言
客戶流失是全球移動(dòng)通訊運(yùn)營(yíng)公司普遍關(guān)注的焦點(diǎn)問題之一,伴隨著移動(dòng)通訊市場(chǎng)的日趨成熟,這個(gè)問題變的越來越普遍。全球很多的移動(dòng)通訊運(yùn)營(yíng)公司。每年的客戶流失率達(dá)到20%~40%??蛻袅魇?duì)移動(dòng)通訊運(yùn)營(yíng)公司帶來不利的影響,首先表現(xiàn)在公司利潤(rùn)的減少;而且,一個(gè)客戶的流失。會(huì)產(chǎn)生群體效應(yīng),就像滾雪球一樣引起其周圍的人紛紛離開;另外,要獲取一個(gè)新客戶,須在銷售、市場(chǎng)、廣告和人員工資上花費(fèi)很多的費(fèi)用。因此保留住客戶,防止因客戶流失而引發(fā)的經(jīng)營(yíng)危機(jī),對(duì)于提高公司競(jìng)爭(zhēng)力而言具有戰(zhàn)略意義。
為了更好地對(duì)客戶流失進(jìn)行管理。移動(dòng)通訊運(yùn)營(yíng)公司必須對(duì)流失客戶的有關(guān)屬性有清楚的認(rèn)識(shí)。找出客戶流失與有關(guān)屬性值之間的關(guān)系。目前多種分類技術(shù)可以用來建立流失預(yù)測(cè)模型,來對(duì)一個(gè)給定的客戶是否流失做出判斷。這些技術(shù)包括有:(1)決策樹方法。它是最早應(yīng)用于客戶流失問題分析的算法,實(shí)際應(yīng)用也較多。國(guó)際上最早的、最有影響的決策樹方法是Quinlan提出的ID算法,白ID3算法出現(xiàn)后,研究人員又展開大量的研究,提出了許多富有成效的優(yōu)化算法,如CHAID算法、C5.0算法、SPRINT算法、CART算法等。決策樹算法的一個(gè)顯著優(yōu)點(diǎn)是決策人員可輕松明白其含意,以及可輕松識(shí)別用于流失管理的重要變量,得到客戶流失的線索,另外它還具有模型效率高、不需要受訓(xùn)數(shù)據(jù)外的知識(shí)、分類精確度高等優(yōu)點(diǎn)。因此被人們廣泛采用。但決策樹也存在一些缺點(diǎn),比如只能有一個(gè)目標(biāo)變量,通常需要很多的預(yù)處理工作等。(2)Logistic回歸方法,其優(yōu)點(diǎn)是模型計(jì)算時(shí)間較短,最終得出的模型其可解釋性也很強(qiáng),各個(gè)變量的相關(guān)系數(shù)就表明了各個(gè)變量的權(quán)重,但Logistie回歸一般開始進(jìn)行數(shù)據(jù)準(zhǔn)備時(shí)間比較長(zhǎng);(3)遺傳算法,是利用進(jìn)化論思想進(jìn)行分類的算法,在實(shí)際的應(yīng)用中,表現(xiàn)了較高的預(yù)測(cè)準(zhǔn)確率。但通常算法訓(xùn)練時(shí)間長(zhǎng),模型的可解釋性差;(4)神經(jīng)網(wǎng)絡(luò),是最復(fù)雜的分類算法之一,其優(yōu)點(diǎn)是錯(cuò)誤率底,對(duì)噪聲數(shù)據(jù)具有很強(qiáng)的承受能力,可以對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)進(jìn)行分類,相比于決策樹,神經(jīng)網(wǎng)絡(luò)的一個(gè)優(yōu)點(diǎn)是可以同時(shí)生成多個(gè)目標(biāo)變量的輸出。當(dāng)然,神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)在于結(jié)構(gòu)復(fù)雜、網(wǎng)絡(luò)訓(xùn)練時(shí)間長(zhǎng)、結(jié)果不易理解等。

自組織映射(Self-Organizing Maps,SOM)算法是由芬蘭赫爾辛基大學(xué)神經(jīng)網(wǎng)絡(luò)專家Kohonen教授于1981年提出的競(jìng)爭(zhēng)式神經(jīng)網(wǎng)絡(luò),由于它的強(qiáng)大功能,20多年來,SOM網(wǎng)絡(luò)在聚類分析、模式識(shí)別等領(lǐng)域中得到了廣泛應(yīng)用。本文從SOM算法出發(fā),研究如何利用訓(xùn)練好的SOM網(wǎng)絡(luò)的回想過程,對(duì)移動(dòng)客戶是否流失進(jìn)行預(yù)測(cè)。
二、自組織映射網(wǎng)絡(luò)
1 自組織映射(SOM)網(wǎng)絡(luò)簡(jiǎn)介。SOM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,從圖中可以看出,網(wǎng)絡(luò)只有輸入層和輸出層,且兩層之間為完全連接。
設(shè)輸入矢量X2的維數(shù)為n,則輸入層有n個(gè)節(jié)點(diǎn),輸出層由m個(gè)神經(jīng)元組成二維平面陣列;輸入層與輸出層各神經(jīng)元之間完全連接,設(shè)連接權(quán)重向量為wji,其中j表示輸出層第j個(gè)節(jié)點(diǎn),j表示輸入層第i個(gè)節(jié)點(diǎn)。輸入層節(jié)點(diǎn)并不對(duì)輸入矢量X2進(jìn)行處理。它只是把輸入矢量的各個(gè)分量經(jīng)過連接權(quán)傳送到輸出層,激發(fā)輸出層各個(gè)神經(jīng)元之間的競(jìng)爭(zhēng),因此輸出層也稱為競(jìng)爭(zhēng)層。輸出層內(nèi)的每個(gè)神經(jīng)元與其鄰域連接,此連接是相互激勵(lì)的關(guān)系,“即以獲勝神經(jīng)元為圓心,對(duì)近鄰的神經(jīng)元表現(xiàn)出興奮側(cè)反饋,而對(duì)遠(yuǎn)鄰的神經(jīng)元表現(xiàn)出擬制性側(cè)反饋,近鄰者相互激勵(lì),遠(yuǎn)鄰者相互擬制”,這種相互作用的曲線類似于墨西哥人帶的帽子,因此也稱這種交互方式為“墨西哥草帽”。如圖2所示。
2 自組織映射網(wǎng)絡(luò)學(xué)習(xí)算法。設(shè)SOM網(wǎng)絡(luò)的輸入矢量的集合為(X1,X2,Xq),其中q為集合中總共輸入矢量的個(gè)數(shù)。則具體SOM網(wǎng)絡(luò)的學(xué)習(xí)算法如下:
Step 1:初始化。將網(wǎng)絡(luò)的連接權(quán){wji}賦[0,1]區(qū)間內(nèi)的隨機(jī)值,i=1,2,…,n;j=1,2,…,m。確定學(xué)習(xí)率η(t)的初始

