999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于WEKA平臺的移動客戶流量消費分析

2016-02-23 06:22:55景子倩
計算機技術與發展 2016年1期
關鍵詞:模型

戴 琳,張 悅,韋 玉,景子倩,張 沫,宮 婧

(南京郵電大學 理學院,江蘇 南京 210000)

基于WEKA平臺的移動客戶流量消費分析

戴 琳,張 悅,韋 玉,景子倩,張 沫,宮 婧

(南京郵電大學 理學院,江蘇 南京 210000)

隨著移動互聯網的飛速發展,手機網民規模迅速擴張,作為移動互聯網關鍵環節的中國移動正面臨著這一機遇與挑戰;如何根據用戶的業務使用情況,對移動客戶流量消費進行分析是增加業務收入、提高用戶滿意度的重要研究課題。文中主要研究了基于WEKA平臺的移動客戶流量消費分析。首先,進行客戶群與客戶發展趨勢的細分,對用戶業務數據進行特征選擇、數據清洗以及數據類型轉換的預處理。其次,以客戶群作為添加屬性,以客戶發展趨勢作為目標屬性,基于WEKA平臺的決策樹算法對預處理后的業務數據進行分析,建立手機上網用戶的決策樹模型。最后,根據移動公司提供的2萬條客戶業務數據對模型進行驗證。結果表明,當樣本數在10 000至20 000時,模型有很好的分類預測效果,能夠挖掘出潛在的高流量用戶,從而達到精確營銷的目的。

移動客戶流量消費;WEKA;決策樹;分類預測;精確營銷

0 引 言

現如今,移動通信流量業務的發展變得高速化多樣化,經營競爭環境愈演愈烈,對該行業的服務需求提出了更高、更新的要求。流量時代客戶的流量消費行為具有更大的彈性和更大的粘性。而移動通信業流量業務的爆炸性增長也成為移動運營商必須面對的問題。利用數據挖掘[1-2]在這些海量數據背后及時發現有用的知識,提高流量信息利用率,滿足客戶需求,實現精細化營銷[3]變得十分重要。如何盡量滿足客戶對流量的多樣需求,如今對移動通信業具有革命性的意義。

一直以來,國內外學者致力于改進決策樹算法[4-5]來對客戶進行分類,從而預測潛在的高流量用戶[6]。實踐表明,算法的改進確實提高了模型的效果,但是,改進算法畢竟只是一方面,若能從其他方面雙管齊下,必然會取得意想不到的效果。文中的創新點在于先對客戶群進行細分,并添加客戶群作為客戶的屬性,最后建立手機上網用戶的決策樹模型。

1 數據預處理

數據預處理[7-8]的效果會直接影響到模型的性能與分類預測的效果。一方面,通過對數據格式和內容的調整,可以使建立的模型更準確、簡單且便于理解;另一方面,可以降低學習算法的時間和空間復雜度。文中先將客戶群與客戶發展趨勢作為客戶新衍生出的屬性,然后基于新數據進行數據的微處理,包括特征選擇[9]、數據清洗[10]以及數據類型的轉換。

1.1 客戶群的細分

分析客戶業務數據,對其進一步處理得到客戶群的細分,將其分為四類,如圖1所示。

圖1 客戶群細分

為將客戶群劃分為以上四類,文中定義了客戶群閾值作為細分客戶群的標準。

(1)客戶群閾值的定義。

客戶群閾值:移動互聯網用戶屬于哪一類客戶群的分界值。文中給出了兩大標準:客戶的月平均使用流量和客戶的月平均消費額。

(2)客戶群閾值的確定。

文中通過對客戶的月平均使用流量和客戶月平均消費額進行分析,給出了各種客戶群的判斷閾值,如表1所示。

表1 移動用戶客戶群閾值的判定

(3)客戶群的應用。

文中將每個客戶進行歸類,把客戶所屬客戶群作為其添加屬性,為建立決策樹模型打下基礎。

1.2 客戶發展趨勢的細分

文中為挖掘潛在的高流量用戶,定性地將客戶發展趨勢細分為三類,如圖2所示。

圖2 客戶發展趨勢細分

為反映客戶發展趨勢,文中利用客戶連續三個月的流量消費情況衍生出流量變化率(BHL)這一屬性,并且將客戶發展趨勢閾值作為圖2細分的標準。

(1)流量變化率(BHL)的定義。

(2)客戶發展趨勢閾值的確定。

有關客戶發展趨勢閾值,由于跟客戶群閾值類似,在此不做贅述。各類客戶發展趨勢閾值判定如表2所示。

表2 客戶發展趨勢閾值判定

(3)客戶發展趨勢的應用。

分析每個客戶所屬的發展趨勢,以其作為目標屬性,建立決策樹模型,能夠挖掘出潛在的高流量客戶。

1.3 客戶業務數據的預處理

(1)特征選擇。

特征選擇的效果會直接影響到分類模型的性能。通過特征選擇,可以減少樣本的維度,大大減少計算量,降低時間和空間復雜度,簡化學習模型。針對該樣本數據集,處理方法如下:

①對于類別值唯一或者類別值眾多的特征予以刪除,例如地域(該樣本數據集針對某地市,所以地域唯一)、用戶ID(類別值眾多)等特征。

②利用spss對特征之間的相關性進行分析,刪除一些與目標特征相關性小的特征,例如通話費、通話時間等與GPRS通信流量無關。

(2)數據清洗。

數據清洗的目的是補全數據、處理缺失數據、除去噪聲及改進不協調的數據。由于客戶業務數據樣本較大,文中直接對含缺失值或者含異常數據的樣本進行刪除。針對該樣本數據集,處理方法如下:

①由于該樣本數據集樣本眾多,對于含缺失值的樣本直接刪除。

②對于含異常數據的樣本直接刪除,例如年齡里小于0的樣本。

③對于已經離網或停機的樣本刪除。

(3)數據類型轉換。

由于原始數據保存在excel中,為了能在WEKA中打開,必須將原始數據保存為arff格式文件。具體方法是:將excel的原始數據另存為csv文件格式,再在WEKA中打開,最后保存為arff格式。

其次,基于WEKA的J48算法[11]對數據類型的要求,文中將數值屬性轉換為分類屬性,如表3所示。

表3 分類屬性的定義

2 手機上網用戶決策樹模型的建立

文中對移動客戶流量消費進行分析,重點建立對潛在高流量用戶的預測模型。而根據各類算法的優缺點,選擇解釋比較方便的決策樹進行建模。

決策樹是對數據進行分類,以此達到預測的目的。WEKA中的J48算法就是決策樹C4.5算法[12-13],其核心算法是ID3算法[14]。ID3算法是以信息論為基礎,以信息熵和信息增益度為衡量標準,從而實現對數據的歸納分類。而C4.5算法繼承了ID3算法的優點,并在以下幾方面對ID3算法進行了改進:

(1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;

(2)在樹構造過程中進行剪枝;

(3)能夠完成對連續屬性的離散化處理;

(4)能夠對不完整數據進行處理。

J48算法具有產生的分類規則易于理解、準確率較高的優點。因此,基于WEKA平臺的J48算法對數據預處理后的業務數據進行分析。得到的決策樹模型如圖3所示。

依照建好的決策樹模型,沿決策樹從上到下遍歷,在每個節點都會遇到一個測試,對每個節點上問題的不同的測試輸出導致不同的分支,最后會到達一個葉子節點。這個過程就是利用決策樹進行分類的過程,利用若干個變量來判斷所屬的類別,從而預測客戶在未來的發展趨勢,判斷其是否為潛在的高流量用戶,以此實現精確營銷的目的。

圖3 決策樹模型

3 模型的理解

由圖3所建立的決策樹模型,可以得到以下重要結論:

(1)客戶所屬客戶群是決策樹模型的根節點,因此客戶群屬性是信息增益值最大的特征屬性,即決定客戶發展趨勢最重要的特征屬性。

(2)高流量低消費客戶群是潛在的高流量客戶,低流量低消費客戶群是潛在易流失客戶。

(3)高流量高消費客戶群中未辦理VIP服務且年紀較輕的客戶是潛在的高流量客戶,未辦理VIP服務而年紀較大的客戶是平穩客戶;辦理一級VIP服務中年紀較輕的客戶是平穩客戶,而辦理一級VIP服務中年紀較大的客戶是潛在易流失客戶;辦理二級VIP服務中男性屬于潛在易流失客戶,而辦理二級VIP服務中女性屬于平穩客戶。

(4)低流量高消費客戶中使用神州行服務的客戶屬于潛在易流失客戶,而使用全球通和動感地帶服務的客戶屬于潛在高流量客戶。

4 模型的驗證

對于以上所建立的決策樹模型,文中根據移動公司提供的2萬條客戶業務數據對模型進行驗證。采取的方法是:隨機抽取1 000、2 000、5 000、10 000、20 000條客戶業務數據來預測潛在高流量客戶,并將預測結果與實際結果進行比較,得到預測值與實際值的比值,從而驗證模型的準確性。結果如圖4所示。

圖4 潛在高流量用戶的預測檢驗

從圖4中可以看出,當樣本數<1 000時,由于偶然性大,預測值與實際值的比值小于0.5,說明預測效果并不好。當樣本數在1 000至10 000時,預測值與實際值的比值越來越大,并逐漸接近于1,說明預測效果越來越好。當樣本數在10 000到20 000之間時,預測值與實際值的比值趨于穩定并最接近于1,說明預測效果最好。但是當樣本數大于20 000后,模型的效果有略微下降趨勢。

綜上,樣本數在10 000至20 000之間時,模型的預測效果較好,從而驗證了模型的準確性。

5 結束語

文中通過對移動客戶業務數據的預處理包括客戶群的細分,建立了手機上網用戶的決策樹模型,并通過大量的測試數據對模型進行驗證與評估,最后發現樣本數據在10 000到20 000之間時預測效果較好。這說明該方法對于分類與預測潛在的高流量用戶有較大的改進,從而能更好地為移動運營商適時推薦套餐,實現精確營銷提供決策支持。但由于該樣本數據集包含 客戶基本特征有限,例如客戶學歷、職業等特征的缺

少,文中所研究的內容還有待更進一步的深入。

[1] 嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013,23(4):168-172.

[2] 范 明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2001.

[3] 陳志競,梁伯瀚.數據挖掘助力精細化流量經營[J].電信科學,2012,28(7):1-5.

[4] 徐 鵬,林 森.基于C4.5決策樹的流量分類方法[J].軟件學報,2009,20(10):2692-2704.

[5] Han Hui,Mao Feng,Wang Wenyuan.Review of recent development in decision tree algorithm in data mining[J].Application Research of Computers,2004,21(12):5-8.

[6] 黃瀟聰.手機上網零流量用戶"破零"模型的研究與應用[J].電信科學,2013(S2):26-29.

[7] 董 艷.數據預處理方法在移動通信行業中的應用[J].計算機技術與發展,2010,20(11):225-228.

[8] Fayyad U M.Data mining and knowledge discovery:making sense out of data[J].IEEE Expert-Intelligent Systems & Their Applications,1996,11(5):20-25.

[9] 張 靖.面向高維小樣本數據的分類特征選擇算法研究[D].合肥:合肥工業大學,2014.

[10] 郭志懋,周傲英.數據質量和數據清洗研究綜述[J].軟件學報,2002,13(11):2076-2082.

[11] 趙 蕊.基于WEKA平臺的決策樹算法設計與實現[D].長沙:中南大學,2007.

[12] Moore A W,Zuev D.Internet traffic classification using Bayesian analysis techniques[C]//Proc of SIGMETRICS.Banff:ACM,2005:50-60.

[13] Moore A W,Papagiannaki K.Toward the accurate identification of network applications[C]//Proc of LNCS.Heidelberg:Springer-Verlag,2005:41-54.

[14] 李 霞.ID3分類算法在銀行客戶流失中的應用研究[J].計算機技術與發展,2009,19(3):158-160.

Analysis of Mobile Customer Traffic Consumption Based on WEKA Platform

DAI Lin,ZHANG Yue,WEI Yu,JING Zi-qian,ZHANG Mo,GONG Jing

(School of Science,Nanjing University of Posts and Telecommunications,Nanjing 210000,China)

With the rapid development of mobile Internet,mobile Internet users scale expands rapidly,the China mobile,as the key link of the mobile Internet,is facing the opportunities and challenges.How to analyze the mobile client traffic consumption according to the user’s business is important research subject to increase revenue and improve customer satisfaction.The analysis of the mobile customer traffic consumption based on WEKA platform is studied.Firstly,subdivide the development trend of customer base and customer,selecting the user business data feature,cleaning the data and converting the data types.Secondly,adding customers as property,development trend of the customer as the target attribute,analyze business data after pretreatment based on the decision tree algorithm on WEKA platform,mobile Internet users of the decision tree model is established.Lastly,verify this model according to the mobile 20 000 customer business data provided by the company.The results show that the model has good classification prediction effect when the number of samples is from 10 000 to 15 000,able to dig out the potential high flow users so as to achieve the purpose of precise marketing.

mobile customer traffic consumption;WEKA;decision tree;classification prediction;precise marketing

2015-04-14

2015-07-16

時間:2016-01-04

國家自然科學基金資助項目(61373135);江蘇省高校自然科學研究重大項目(12KJA52003);南京郵電大學大學生科技創新訓練計劃(STITP)(XYB2014154)

戴 琳(1994-),男,研究方向為數據挖掘與大數據分析;張 沫,講師,研究方向為分布式計算和數據挖掘;宮 婧,副教授,研究生導師,研究方向為數據挖掘、模式識別、智能算法等。

http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1510.042.html

TP39

A

1673-629X(2016)01-0115-04

10.3969/j.issn.1673-629X.2016.01.024

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 嫩草在线视频| 沈阳少妇高潮在线| 国产色图在线观看| 欧美日韩国产精品综合| 国产真实乱了在线播放| 亚洲无线一二三四区男男| 中文字幕佐山爱一区二区免费| 成人自拍视频在线观看| 亚洲日本中文字幕天堂网| 制服丝袜在线视频香蕉| 高清无码手机在线观看 | 91视频区| 国产日韩精品欧美一区灰| 国产性爱网站| 精品久久高清| 亚洲AV无码久久天堂| 为你提供最新久久精品久久综合| 啊嗯不日本网站| 中文字幕在线一区二区在线| www.国产福利| 91久久性奴调教国产免费| 久久精品女人天堂aaa| 成人免费一级片| 久久久噜噜噜久久中文字幕色伊伊| 狂欢视频在线观看不卡| 嫩草国产在线| 亚洲国产精品美女| 免费人成黄页在线观看国产| 91久久夜色精品国产网站| 青青热久麻豆精品视频在线观看| 91久久夜色精品国产网站| 在线播放国产一区| 久久中文电影| 国产精品免费电影| 永久免费AⅤ无码网站在线观看| 国产真实乱人视频| 精品亚洲国产成人AV| 久热这里只有精品6| 91青青草视频| 在线精品亚洲国产| 四虎在线观看视频高清无码| 看国产毛片| 亚洲最大在线观看| 国产成+人+综合+亚洲欧美| 欧美色图久久| 亚洲欧美在线精品一区二区| 先锋资源久久| 亚洲色图另类| 欧洲欧美人成免费全部视频| 国产不卡网| 欧美日韩成人在线观看 | 国产精品成人啪精品视频| 国产午夜一级淫片| 色婷婷视频在线| 永久成人无码激情视频免费| 在线观看的黄网| 亚洲欧美国产视频| 一级福利视频| 国产成人1024精品| 日韩色图区| 香蕉视频在线观看www| 国产精品手机在线播放| 亚洲91在线精品| 视频二区亚洲精品| 中文字幕中文字字幕码一二区| 制服丝袜一区| 亚洲三级成人| 九色91在线视频| 亚洲综合精品第一页| 99re热精品视频国产免费| 九九精品在线观看| 重口调教一区二区视频| 国产日韩久久久久无码精品| 久久男人资源站| 日韩精品毛片| 在线99视频| 欧美一级色视频| 午夜啪啪福利| 成人精品午夜福利在线播放| 国产精品永久免费嫩草研究院| 亚洲黄色片免费看| 爱色欧美亚洲综合图区|