999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多算法融合的移動(dòng)通信客戶(hù)流失預(yù)測(cè)模型

2018-08-21 02:07:56王榮波王亞杰黃孝喜諶志群
關(guān)鍵詞:分類(lèi)模型

王榮波,王亞杰,黃孝喜,諶志群

(杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018)

0 引 言

隨著現(xiàn)代社會(huì)通信技術(shù)的飛速發(fā)展,手機(jī)等移動(dòng)通信設(shè)備幾乎成了人們生活中不可缺少的一部分,面對(duì)中國(guó)13億的巨量人口,一場(chǎng)對(duì)通信用戶(hù)的競(jìng)爭(zhēng)在各電信運(yùn)營(yíng)商之間愈演愈烈。隨著競(jìng)爭(zhēng)的白熱化,客戶(hù)的流失成了各大電信運(yùn)營(yíng)商面臨的主要困難,同時(shí)挖掘一個(gè)新客戶(hù)所投入的成本也越來(lái)越高。有數(shù)據(jù)顯示,成功贏得一個(gè)新客戶(hù)比維護(hù)一個(gè)老客戶(hù)所付出的代價(jià)要高出5倍左右[1]。客戶(hù)的流失意味著所占市場(chǎng)份額縮小,在競(jìng)爭(zhēng)中處于不利地位,甚至還存在著用戶(hù)故意欠費(fèi)后離網(wǎng)的異常行為等,這些都大大增加了運(yùn)營(yíng)商的運(yùn)營(yíng)成本。因此,在發(fā)展新用戶(hù)的同時(shí),維護(hù)老用戶(hù)不離網(wǎng)成了各大運(yùn)營(yíng)商在市場(chǎng)爭(zhēng)奪戰(zhàn)中的核心競(jìng)爭(zhēng)力,同時(shí),對(duì)本網(wǎng)用戶(hù)是否即將離網(wǎng)進(jìn)行準(zhǔn)確的預(yù)測(cè)有助于運(yùn)營(yíng)商及時(shí)有針對(duì)性地調(diào)整營(yíng)銷(xiāo)策略來(lái)挽留用戶(hù)。所以,用戶(hù)流失預(yù)測(cè)模型對(duì)電信運(yùn)營(yíng)商維護(hù)自身利益有著非凡的意義。

傳統(tǒng)的預(yù)測(cè)模型主要有決策樹(shù)[2-4]、Logistic回歸[5]、貝葉斯分類(lèi)器[6-7]和聚類(lèi)[8-9]。比較智能的方法有神經(jīng)網(wǎng)絡(luò)[10-11]、自組織映射[12]、進(jìn)化學(xué)習(xí)算法[13]、支持向量機(jī)[14]等。然而并沒(méi)有一種模型適用于所有情況,每種模型都有各自的優(yōu)點(diǎn)與不足,對(duì)于同一個(gè)數(shù)據(jù)集,不同的預(yù)測(cè)模型可能會(huì)得到不同的預(yù)測(cè)結(jié)果。目前國(guó)內(nèi)的移動(dòng)通信運(yùn)營(yíng)商擁有極其強(qiáng)大的數(shù)據(jù)存儲(chǔ)和查詢(xún)能力,但其使用的預(yù)測(cè)方法仍是基于單一算法預(yù)測(cè)的模型。為進(jìn)一步提高客戶(hù)流失預(yù)測(cè)的正確率,針對(duì)決策樹(shù)、Logistic回歸和人工神經(jīng)網(wǎng)絡(luò)這三種算法模型的特點(diǎn)和數(shù)據(jù)倉(cāng)庫(kù)[15]提供的大量信息,文中嘗試將這三種模型進(jìn)行合理的結(jié)合來(lái)構(gòu)造優(yōu)于它們單獨(dú)預(yù)測(cè)效果的模型,并利用構(gòu)造出的模型在該移動(dòng)通信企業(yè)提供的數(shù)據(jù)集中進(jìn)行預(yù)測(cè),驗(yàn)證其有效性。

1 決策樹(shù)、Logistic回歸和神經(jīng)網(wǎng)絡(luò)

1.1 決策樹(shù)

決策樹(shù)是分類(lèi)與回歸的基本方法之一,決策樹(shù)模型呈樹(shù)狀結(jié)構(gòu),在分類(lèi)問(wèn)題中,基于實(shí)例各個(gè)特征的分類(lèi)過(guò)程可以看作是一個(gè)if-then規(guī)則集,也可以看作是定義在類(lèi)空間和特征空間上的條件概率分布。它的主要特點(diǎn)是模型具有可讀性并且分類(lèi)的速度快。學(xué)習(xí)時(shí),該模型是根據(jù)訓(xùn)練數(shù)據(jù)集和最小損失函數(shù)來(lái)建立的,預(yù)測(cè)時(shí),訓(xùn)練好的模型將對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)。決策樹(shù)學(xué)習(xí)通常由三步組成:特征的選擇、決策樹(shù)的生成和決策樹(shù)的剪枝。這里,通過(guò)基尼指數(shù)[16-17]來(lái)進(jìn)行特征的選擇,通過(guò)CART生成算法[18]來(lái)進(jìn)行決策樹(shù)的生成。

1.1.1 基尼指數(shù)

基尼指數(shù)是用來(lái)描述一個(gè)數(shù)據(jù)集的不確定性,基尼指數(shù)越大,數(shù)據(jù)集的不確定性也就越大。客戶(hù)流失的預(yù)測(cè)問(wèn)題屬于二分類(lèi)問(wèn)題,對(duì)于二分類(lèi)問(wèn)題,若整個(gè)數(shù)據(jù)集D中樣本屬于正類(lèi)的概率為p,則該樣本集的基尼指數(shù)為:

Gini(D)=2p(1-p)

(1)

在該數(shù)據(jù)集中,根據(jù)特征A是否取某個(gè)值將其劃分為兩個(gè)獨(dú)立的數(shù)據(jù)集D1和D2,則該數(shù)據(jù)集D基于特征A的基尼指數(shù)為:

(2)

1.1.2 CART生成算法

CART生成算法的主要思想是通過(guò)訓(xùn)練集生成盡可能大的決策樹(shù),之后利用驗(yàn)證數(shù)據(jù)集通過(guò)最小化損失函數(shù)的方法來(lái)修剪出最優(yōu)子樹(shù),其算法步驟如下:

Step1:設(shè)節(jié)點(diǎn)的數(shù)據(jù)集為D,則對(duì)數(shù)據(jù)集D中的每個(gè)特征A的每個(gè)取值a,計(jì)算所有的基尼指數(shù)Gini(D,A)。

Step2:選擇基尼指數(shù)最小的特征及其對(duì)應(yīng)的值,根據(jù)該特征是否取這個(gè)值從數(shù)據(jù)集D生成兩個(gè)子節(jié)點(diǎn)。

Step3:對(duì)這兩個(gè)子節(jié)點(diǎn)遞歸地調(diào)用Step1和Step2,直到滿(mǎn)足停止條件。

Step4:生成CART決策樹(shù)。

1.1.3 CART剪枝算法

CART剪枝算法從“完全”的決策樹(shù)的底部剪去一些子樹(shù),使原來(lái)的“完全”決策樹(shù)變得簡(jiǎn)單,修剪后的決策樹(shù)具有更好的泛化能力。該修剪過(guò)程主要分為兩步:從“完全”決策樹(shù)T0的底部不斷進(jìn)行修剪,直到T0根節(jié)點(diǎn),該過(guò)程形成若干棵子樹(shù),組成序列{T0,T1,…,Tn};在獨(dú)立的驗(yàn)證數(shù)據(jù)集上通過(guò)交叉驗(yàn)證法選擇最優(yōu)子樹(shù)。

1.2 Logistic回歸

對(duì)于二分類(lèi)問(wèn)題,Logistic回歸是非常典型且應(yīng)用極為廣泛的模型,其本質(zhì)上是利用線(xiàn)性回歸模型[19]來(lái)逼近真實(shí)結(jié)果標(biāo)記幾率的自然對(duì)數(shù)。這種分類(lèi)方法具有很多優(yōu)點(diǎn),例如可以直接對(duì)分類(lèi)問(wèn)題進(jìn)行建模,而不需要事先的分布假設(shè),從而避免了不準(zhǔn)確的分布假設(shè)帶來(lái)的問(wèn)題。這種方式不僅僅是預(yù)測(cè)“類(lèi)別”,而是預(yù)測(cè)所得類(lèi)別的概率,這對(duì)許多使用概率進(jìn)行決策的任務(wù)是非常有意義的。此外,Logistic回歸采用的Sigmoid函數(shù)是具有任意階導(dǎo)數(shù)的凸函數(shù),具有良好的數(shù)學(xué)性質(zhì),現(xiàn)有的許多優(yōu)化算法都可直接用于求解最優(yōu)解[20]。假設(shè)輸出的正類(lèi)標(biāo)記為“1”,輸出的負(fù)類(lèi)標(biāo)記為“0”,則

(3)

其中,w為輸入的權(quán)重向量;x為輸入的特征向量;b為偏置值。

1.3 神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是一種基于人的大腦進(jìn)行仿真的數(shù)據(jù)分析模型,可以對(duì)海量數(shù)據(jù)進(jìn)行并行處理和計(jì)算,用來(lái)表示認(rèn)知、決策等智能控制行。典型的神經(jīng)網(wǎng)絡(luò)主要分為輸入層、隱含層和輸出層,由若干神經(jīng)元相互連接,如圖1所示。BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)算法,其輸出為:

H=fi(∑wijxi+θj)

(4)

其中,wij為權(quán)重;fi為傳輸函數(shù);θj為偏置值;xi輸入。

BP神經(jīng)網(wǎng)絡(luò)通過(guò)有監(jiān)督的方式進(jìn)行學(xué)習(xí),能夠?qū)θ我鈴?fù)雜的非線(xiàn)性關(guān)系進(jìn)行擬合,通過(guò)最小化輸出誤差來(lái)逐層修正各個(gè)權(quán)值和偏置值,學(xué)習(xí)過(guò)程如圖2所示。

圖2 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程

2 組合預(yù)測(cè)模型的構(gòu)建

由于單一的算法模型可能對(duì)不同的數(shù)據(jù)集預(yù)測(cè)效果變化較大,有時(shí)還存在著不能容忍的劣勢(shì),現(xiàn)考慮將決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行線(xiàn)性組合,以對(duì)三種單一算法模型相互取長(zhǎng)補(bǔ)短。為確定最佳權(quán)值系數(shù),構(gòu)造拉格朗日函數(shù)[21]作為評(píng)價(jià)指標(biāo)。

(β1h1i+β2h2i+β3h3i-h3i)2+

λ(β1h1i+β2h2i+β3h3i-1)]

(5)

其中,N為訓(xùn)練樣本集中的樣本總數(shù);β1,β2,β3分別為組合模型中決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型的權(quán)值系數(shù);h1i,h2i,h3i分別為決策樹(shù)模型、Logistic回歸模型和神經(jīng)網(wǎng)絡(luò)模型對(duì)第i個(gè)樣本的預(yù)測(cè)結(jié)果;λ為拉格朗日算子。

由于L(β1,β2,β3)為二次凸函數(shù),故有唯一的極值,即最小值,令:

(6)

(7)

基于多算法組合的移動(dòng)通信客戶(hù)流失預(yù)測(cè)流程如圖3所示。

圖3 組合模型預(yù)測(cè)流程

具體的組合模型預(yù)測(cè)過(guò)程如下:

Step1:將預(yù)處理后的數(shù)據(jù)集進(jìn)行劃分,80%的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),剩余的20%作為測(cè)試集數(shù)據(jù)。

Step2:使用決策樹(shù)、Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)集上進(jìn)行建模,其中,決策樹(shù)的特征選擇使用基尼指數(shù),決策樹(shù)的生成使用CART生成算法,最后對(duì)生成的決策樹(shù)進(jìn)行剪枝。

Step3:使用訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)測(cè)結(jié)果分析。

Step4:將決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型得出的預(yù)測(cè)結(jié)果帶入構(gòu)造好的拉格朗日函數(shù),得出組合模型中各單一模型的權(quán)值系數(shù),并構(gòu)建組合模型。

Step5:根據(jù)構(gòu)建的組合模型得出預(yù)測(cè)結(jié)果。

3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)中的數(shù)據(jù)來(lái)自浙江省杭州市某移動(dòng)通信公司數(shù)據(jù)倉(cāng)庫(kù),通過(guò)HQL查詢(xún)得出20 000條客戶(hù)個(gè)人信息和近兩個(gè)月歷史消費(fèi)情況的記錄,其中包含某個(gè)客戶(hù)是否離網(wǎng)的標(biāo)記。對(duì)原始數(shù)據(jù)進(jìn)行清洗,去除異常數(shù)據(jù),如寬帶號(hào)碼、手機(jī)號(hào)碼不是11位,手機(jī)號(hào)碼不是以“1”開(kāi)頭,手機(jī)imei號(hào)碼為“-99”(異常標(biāo)記)等異常號(hào)碼,并進(jìn)行特征選擇,最后選取該數(shù)據(jù)集中80%的數(shù)據(jù)作為訓(xùn)練集,余下的20%作為測(cè)試集,使用決策樹(shù)模型、Logistic回歸模型、BP網(wǎng)絡(luò)模型和組合模型分別在訓(xùn)練數(shù)據(jù)集上進(jìn)行學(xué)習(xí),利用訓(xùn)練好的模型在測(cè)試數(shù)據(jù)集上進(jìn)行預(yù)測(cè),結(jié)果如表1所示(由于數(shù)據(jù)量太大的緣故,這里僅列出了10條數(shù)據(jù))。

表1 三種單一模型與組合模型的客戶(hù)流失預(yù)測(cè)結(jié)果

為了進(jìn)一步比較3種單一模型和組合模型的預(yù)測(cè)效果,對(duì)表1的測(cè)試預(yù)測(cè)結(jié)果進(jìn)行了詳細(xì)的統(tǒng)計(jì),結(jié)果表明:決策樹(shù)模型的準(zhǔn)確度為88.13%,Logistic回歸模型的準(zhǔn)確度為85.69%,BP神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確度為87.90%,組合模型的準(zhǔn)確度為93.06%,如圖4所示。

圖4 各預(yù)測(cè)模型準(zhǔn)確度對(duì)比

可以看出,組合模型綜合了三種單一預(yù)測(cè)模型的優(yōu)勢(shì),預(yù)測(cè)效果要優(yōu)于任意一個(gè)單一預(yù)測(cè)模型,大大提高了預(yù)測(cè)客戶(hù)流失的準(zhǔn)確度,高達(dá)93.06%,與單一預(yù)測(cè)模型的效果相比,準(zhǔn)確度提高了近6%。

4 結(jié)束語(yǔ)

在移動(dòng)通信企業(yè)中,客戶(hù)流失對(duì)其經(jīng)濟(jì)收益有著非常重要的影響,并且在運(yùn)營(yíng)過(guò)程中是常常出現(xiàn)的問(wèn)題,只有有效地控制客戶(hù)流失才能立于不敗之地。由于企業(yè)對(duì)這部分客戶(hù)制定策略的盲目性,使移動(dòng)運(yùn)營(yíng)企業(yè)在營(yíng)銷(xiāo)過(guò)程中遭受了不可忽視的損失。根據(jù)決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型各自的特點(diǎn),文中提出的組合模型綜合了三種單一預(yù)測(cè)模型的優(yōu)點(diǎn),通過(guò)通信企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中用戶(hù)的信息和消費(fèi)特征等海量數(shù)據(jù)進(jìn)行學(xué)習(xí),使預(yù)測(cè)的準(zhǔn)確度得到了一定程度的提高。移動(dòng)通信企業(yè)可根據(jù)組合模型得出的預(yù)測(cè)結(jié)果采取相應(yīng)的營(yíng)銷(xiāo)手段來(lái)減少因客戶(hù)流失而造成的損失。組合模型更高的準(zhǔn)確度使運(yùn)營(yíng)企業(yè)在制定營(yíng)銷(xiāo)策略時(shí)更具有針對(duì)性。

猜你喜歡
分類(lèi)模型
一半模型
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲无线观看| 国产视频你懂得| 日韩黄色精品| 九色在线观看视频| 色综合狠狠操| 伊人久久精品亚洲午夜| a毛片在线播放| 国产精品无码AⅤ在线观看播放| 久久不卡精品| 久热99这里只有精品视频6| 欧美一区二区人人喊爽| 国产精品成人啪精品视频| 五月激情婷婷综合| h网站在线播放| 波多野结衣AV无码久久一区| 玖玖免费视频在线观看| 国产亚洲高清在线精品99| 五月婷婷丁香综合| 免费久久一级欧美特大黄| 国产熟女一级毛片| 色九九视频| 国产视频 第一页| 免费黄色国产视频| 免费又爽又刺激高潮网址| 欧美一级视频免费| 特级aaaaaaaaa毛片免费视频| 曰韩免费无码AV一区二区| 青青青国产精品国产精品美女| 麻豆精选在线| 另类欧美日韩| 女人18毛片水真多国产| 综合久久久久久久综合网| 欧洲熟妇精品视频| 国产视频只有无码精品| 国产真实乱了在线播放| 美女被躁出白浆视频播放| 久久黄色影院| 欧美综合成人| 精品午夜国产福利观看| 亚洲一区毛片| 亚洲国产成人久久精品软件| 国产亚洲视频中文字幕视频 | 在线精品欧美日韩| 欧美成人亚洲综合精品欧美激情| 国产草草影院18成年视频| a级毛片网| 日韩第一页在线| 亚洲色图另类| 2024av在线无码中文最新| 新SSS无码手机在线观看| 国产精品污视频| 中文字幕人成乱码熟女免费| 综合久久五月天| 婷婷伊人五月| 精品人妻AV区| 美臀人妻中出中文字幕在线| 九色最新网址| 一区二区自拍| 97在线免费| 亚洲成人免费看| 亚洲最黄视频| 中文字幕乱码中文乱码51精品| 久久国产精品77777| 国产精品自拍合集| 91在线中文| 亚洲AV一二三区无码AV蜜桃| 99久久精品无码专区免费| 久久一本精品久久久ー99| 免费看a毛片| 国产无码精品在线播放| 四虎影视永久在线精品| 欧美人与牲动交a欧美精品| 五月六月伊人狠狠丁香网| 国产精品成人AⅤ在线一二三四| a网站在线观看| 九九香蕉视频| 刘亦菲一区二区在线观看| 欧美h在线观看| 亚洲综合日韩精品| 亚洲欧美自拍一区| 无码一区中文字幕| 99国产在线视频|