999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樹形算法在電信客戶細分中的應用研究

2014-04-29 00:44:03羅軍張俊勇
計算機時代 2014年5期

羅軍 張俊勇

摘 要: 樹形算法由于其對大量高維數據的有效處理、對噪聲點的高容忍度和對知識的有效表示,是最常用的CRM客戶細分技術。通過對幾類樹形算法,包括決策樹C4.5算法、決策樹CART算法和平衡隨機森林BRF算法,在解決電信客戶細分問題中的表現進行分析研究,并且選用BP神經網絡算法作為樹形算法的參照,最終研究得出:平衡隨機森林在處理電信客戶問題上具有最好的表現。

關鍵詞: 決策樹; 隨機森林; BP神經網絡; 數據預處理

中圖分類號:TP393 文獻標志碼:A 文章編號:1006-8228(2014)05-01-03

Abstract: Due to the effective processing of large amounts of high-dimensional data, high tolerance for noise and effective representation of knowledge, tree algorithm is the most common CRM customer segmentation technique. The performance of tree algorithm, including the C4.5, the CART and the balanced random forest, in solving telecommunication customer segmentation problems is analyzed. BP neural network algorithm is compared. Experiments have shown that balanced random forest has the best performance in dealing with the problem.

Key words: decision tree; random forest; BP neural network; data pre-process

0 引言

在當前我國電信市場激烈的競爭環境中,客戶成了電信企業爭奪的資源,客戶關系管理(Customer Relationship Management,簡稱CRM)由于其能夠幫助企業更好地了解客戶并增加盈利,在電信企業中廣泛應用。客戶細分作為CRM的核心問題日益受到人們的關注。客戶細分是指將市場分為具有不同需求、特征或行為的不同購買者的過程。客戶細分的主要目的[1]是:①預測客戶行為,為企業和客戶之間交流提供了基礎,使得企業客戶為客戶提供更好的服務、防止客戶流失;②通過對客戶合理的類別劃分,分析出當前以及預期客戶群的區段,判斷不同區段的突出特點,準確認識客戶的總體構成,對客戶的服務和營銷更具針對性。

樹形算法是最常用的CRM客戶細分技術,研究分析各樹形算法在對電信客戶數據進行細分挖掘時的不同表現,找到客戶數據細分效果相對最好的算法,對于提高CRM客戶細分技術有推動意義。

1.3 平衡隨機森林BRF算法

平衡隨機森林是在隨機森林的傾斜數據處理問題上,Chen (2004)[7]提出的一種改進算法。BRF是在隨機采樣輸入數據時,使多數類和少數類的數據量相當,在處理大型數據時較為有效。

1.4 BP神經網絡

BP神經網絡[8]的拓撲結構(見圖1)由一個輸入層、一個輸出層、一個或多個隱藏層組成,單元之間由權重w相連接,每個單元有一個相關的偏倚。網絡的訓練過程為數據從輸入層通過隱藏層到輸出層前向傳播,在輸出層進行評估后將錯誤反饋回輸入層,在此過程中調節網絡節點連接權重和偏倚,使得網絡的誤差平方和最小。最終訓練完成的神經網絡模型用作樹形模型的對照組。

2.2.1 決策樹

⑴ Gini指標計算優化

在決策樹[9]CART的生成中,Gini指標因為需考慮所有子集劃分,所以其計算量隨著特征值集的增加呈指數量上升。顯然,縮小值集空間能顯著降低運算復雜度,但當特征的值個數較少時(如<10),去除前1/3會影響到最優子集的選擇,但隨著值個數的增加,這種影響會越來越不明顯。另外,當每個值出現的次數相對平均時,縮小值集空間會明顯影響到最優子集的選擇,而當次數差異較大時,去除出現次數非常小的值幾乎不會影響到最優子集。因此,為優化Gini指標的計算,對值集空間進行縮減,方法:對于值個數小于10的特征,僅去除分布小于1%的值;而對值個數大于10的特征,去除值分布排名前1/3或其分布小于1%的值。

⑵ 樹剪枝

由于前期的數據處理已經對數據中存在的噪聲進行了平滑,所以不再采用決策樹剪枝。

2.2.2 平衡隨機森林

平衡隨機森林BRF算法中主要有兩個參數需要確定,一為森林規模,即森林中樹的數量;二為樹節點生成時隨機特征集的大小。

⑴ 森林規模

通過對于BRF在不同的數據量和森林規模下的性能評估如圖2所示,得出本次BRF算法效果最優值在森林規模scale=610時取到,因此將森林規模設定為610。

⑵ 樹節點生成時隨機特征集的大小

通過對不同的隨機特征集數量設置對BRF挖掘分類效果的影響分析,N代表隨機特征集個數,得出:隨著隨機特征集設置數量的增大,BRF效能也稍有提高,但相應地,森林的生成時間也被明顯延長。另外,當隨機屬性集較大時,算法挖掘效果提升不明顯,但森林生成時間卻被極大地延長。因此,為了平衡時間與算法挖掘效果,將隨機森林中的樹節點生成屬性集個數設定為5。

學習率的設定對神經網絡的建立非常重要,如果學習率太大,可能會在不適當的解之間擺動;反之如果學習率太小,學習將進行得過于緩慢。經驗法則是利用訓練集迭代次數t,將學習效率置為1/t大小。圖3為在均衡樣本下學習率分別為1.0和1/t時神經網絡收斂比較。4.5是多叉分裂樹,而CART為二叉分裂樹)不同而帶來的性能影響外,還可能由于文本為平衡CART在Gini指標的計算中的時間復雜度問題而進行的算法優化,造成了CART分類效果的降低。神經網絡性能最低,這可能是由于其訓練周期不夠造成的。神經網絡在數據量巨大時其訓練緩慢是一個不容忽視的問題。

3 結束語

如何更有效地將數據挖掘技術應用于CRM,幫助企業通過有效的交流去了解和影響客戶行為,改善客戶獲取,客戶保持,增強客戶忠誠度,并由此增加盈利等是目前的研究重點。本文通過分析比較幾種樹形算法在電信客戶細分應用中的表現,得出平衡隨機森林具有相對較好的挖掘分類效果的結論,這對樹形算法更好的電信客戶細分應用提供了一定的技術和理論支持。當然,樹形算法在客戶細分應用中還有著更為深入的研究,有待于我們進一步探討。

參考文獻:

[1] Turban E, Aronson J E, Liang T P, Sharda R. Decision support

and business intelligence systems[M]. Pearson Education,2007.

[2] John Ross Quinlan. C4.5: programs for machine learning[M].

Morgan Kaufmann,1993.

[3] Jiawei Han, Micheline Kamber. Data Mining Concepts and

Techniques[M]. Slsevier,2007:292-293

[4] Ji Zhou, Dasgupta D. Estimating the Detector Coverage in a

Negative Selection Algorithm[C]. Genetic and Evolutionary Computation Washington, DC June,2005:88-97

[5] Oates T, Jensen D. The effects of training set sizes on decision tree

[C]. Proc of the 14th Int'l Conf on Machine Learning. Nashville: Morgan Kaufman,1997:254-262

[6] Breslow L A, Aha D W. Simplifying decision trees: a survey[J].

Knowledge Engineering Review,1997.12(1):1-40

[7] Chao Chen, Andy Liaw, Leo Breiman. Using Random Forest to

Learn Imbalanced Data[M]. University of California, Berkeley. Technical Report.2010:1-12

[8] 王美玲,王念平,李曉.BP神經網絡算法的改進及應用[J].計算機工程

與應用,2009.45(37):47-48

[9] 楊學兵,張俊.決策樹算法及其核心技術[J].計算機技術與發展,

2007.17(1):43-45.

[10] 劉鵬,雷蕾,張雪鳳.缺失數據處理方法的比較研究[J].計算機科學,

2004.31(10):155-156

[11] 喬珠峰,田鳳占,黃厚寬,陳景年.缺失數據處理方法的比較研究[J].

計算機研究與發展,2006.43(Suppl.):171-175

[12] Jianjun Xie, Viktoria R, Siddharth P, Stephen C. A Combination

of Boosting and Bagging for KDD Cup 2009-Fast Scoring on a Large Database[C]. JMLR: Workshop and Conference Proceedings,2009(7):35-43

[13] Japkowicz, N. The class imbalance problem: Significance and

strategies[C]. Proceedings of the 2000 international conference on artificial intelligence (IC-AI'2000),2000.

[14] J Burez, D Van den Poel. Handling class imbalance in customer

churn prediction[C]. Expert Systems with Applications,2009.36:4626-4636

[15] 姚登舉,楊靜,詹曉娟.基于隨機森林的特征選擇算法[J].吉林大學學

報(工學版),2012.42:1-5

主站蜘蛛池模板: 9cao视频精品| 特级做a爰片毛片免费69| 亚洲色图欧美激情| 精品伊人久久大香线蕉网站| 日韩精品无码免费一区二区三区| 国产视频大全| 久久亚洲国产一区二区| 亚洲精品无码高潮喷水A| 爱做久久久久久| 亚洲色精品国产一区二区三区| 亚洲女同一区二区| 97国产在线播放| 国产农村妇女精品一二区| 国产永久无码观看在线| 亚洲黄网在线| 亚洲精品成人福利在线电影| 欧美一级夜夜爽www| 福利视频一区| 在线无码av一区二区三区| 成人在线观看不卡| 自拍偷拍欧美| 国产高清免费午夜在线视频| 国产麻豆精品手机在线观看| 亚洲欧美综合另类图片小说区| 国产青榴视频| 亚洲AV电影不卡在线观看| 久久黄色视频影| 九九久久99精品| 国产迷奸在线看| 特级做a爰片毛片免费69| 91最新精品视频发布页| 日本久久网站| 亚洲人成色77777在线观看| 久久黄色小视频| 日韩精品无码免费一区二区三区 | 亚洲首页在线观看| 72种姿势欧美久久久大黄蕉| 国产精品无码翘臀在线看纯欲| 九九热视频在线免费观看| 久久综合色88| 精品久久高清| 欧美啪啪一区| 日本黄色a视频| 制服无码网站| 在线看国产精品| 国产久草视频| 国产不卡在线看| 成人免费午间影院在线观看| 一边摸一边做爽的视频17国产 | 色综合国产| 国产日韩AV高潮在线| 99在线观看视频免费| 亚洲天堂网站在线| 国产一二三区视频| 99久久国产自偷自偷免费一区| 黄色网站在线观看无码| 欧美亚洲日韩不卡在线在线观看| 在线色国产| 久久这里只精品国产99热8| 国产亚洲欧美在线专区| 成人自拍视频在线观看| 国产精品护士| 欧洲日本亚洲中文字幕| 日本人又色又爽的视频| 婷婷综合缴情亚洲五月伊| 国产尹人香蕉综合在线电影| 日韩欧美中文字幕一本| 国产制服丝袜无码视频| 久久国语对白| 亚洲毛片网站| 欧美精品H在线播放| 女人毛片a级大学毛片免费| 国产SUV精品一区二区6| 亚洲国产天堂久久综合| 日韩AV手机在线观看蜜芽| 中文字幕日韩视频欧美一区| 久久精品aⅴ无码中文字幕| 欧美日韩第二页| 亚洲女同一区二区| 激情乱人伦| 国产91高清视频| 久久成人免费|