999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)KNN特征選擇的高質(zhì)量移動(dòng)通信用戶預(yù)測(cè)

2017-10-18 03:44:13崔偉夏汛孫瑜魯
現(xiàn)代計(jì)算機(jī) 2017年26期
關(guān)鍵詞:特征選擇分類器分類

崔偉,夏汛,孫瑜魯

(1.瀘州職業(yè)技術(shù)學(xué)院,瀘州 646000;2.四川大學(xué)電子信息學(xué)院,成都 610064)

基于隨機(jī)KNN特征選擇的高質(zhì)量移動(dòng)通信用戶預(yù)測(cè)

崔偉1,夏汛1,孫瑜魯2

(1.瀘州職業(yè)技術(shù)學(xué)院,瀘州 646000;2.四川大學(xué)電子信息學(xué)院,成都 610064)

高價(jià)值移動(dòng)通信用戶預(yù)測(cè)是電信企業(yè)客戶管理的一項(xiàng)重要內(nèi)容,針對(duì)用戶數(shù)據(jù)維度較高,規(guī)模較大,類不平衡較嚴(yán)重等問(wèn)題,提出一種基于隨機(jī)KNN的特征選擇的預(yù)測(cè)方法,首先對(duì)初始數(shù)據(jù)進(jìn)行隨機(jī)采樣構(gòu)建多個(gè)KNN分類器,隨后計(jì)算特征的權(quán)重以評(píng)估其重要性,利用廣義順序后退法對(duì)特征進(jìn)行選擇獲得最優(yōu)的特征子集,最后在結(jié)合集成學(xué)習(xí)方法中加入加權(quán)投票機(jī)制,建立預(yù)測(cè)模型。實(shí)驗(yàn)結(jié)果表明,該預(yù)測(cè)模型能夠有效降低樣本特征維度并提升對(duì)高價(jià)值移動(dòng)通信用戶預(yù)測(cè)性能。

不平衡數(shù)據(jù)集;特征選擇;k近鄰;預(yù)測(cè)模型

0 引言

隨著智能手機(jī)的普及以及4G網(wǎng)絡(luò)通信的快速推廣,移動(dòng)客戶消費(fèi)增長(zhǎng)迅速,市場(chǎng)競(jìng)爭(zhēng)全面展開(kāi),如何挖掘并發(fā)展高價(jià)值用戶是電信企業(yè)增加收入并提高市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵。目前對(duì)于高價(jià)值用戶并無(wú)統(tǒng)一的定義,以往的學(xué)術(shù)研究多關(guān)注用戶分類[1-2]及客戶流失預(yù)測(cè)[3-4]等,對(duì)于高價(jià)值用戶預(yù)測(cè)的研究較少,因此根據(jù)用戶的消費(fèi)記錄等數(shù)據(jù)建立高價(jià)值移動(dòng)用戶預(yù)測(cè)模型具有重要的應(yīng)用價(jià)值。然而由于這類數(shù)據(jù)規(guī)模較大,維數(shù)較高,其中可能包含的不相關(guān)或者冗余特征導(dǎo)致模型的學(xué)習(xí)時(shí)間增加,同時(shí)發(fā)生過(guò)擬合現(xiàn)象。進(jìn)行特征選擇的目的是為了盡可能減少數(shù)據(jù)集中的冗余特征,因此設(shè)計(jì)有效的特征選擇方法是建立模型核心所在。

根據(jù)特征選擇方法與后續(xù)學(xué)習(xí)算法間的關(guān)系,可將特征選擇算法分為過(guò)濾式、嵌入式兩類。在過(guò)濾式的特征選擇算法中,依據(jù)特定的度量選擇特征,特征選擇的過(guò)程與具體的分類器無(wú)關(guān),常用的方法有Relief[5]、CFS[6]等,這類方法較簡(jiǎn)單,速度快,然而其評(píng)估結(jié)果與后續(xù)學(xué)習(xí)算法的性能偏差較大,對(duì)于不同數(shù)據(jù)集的魯棒性和適應(yīng)性有待提高。封裝式的特征選擇方法在特征度量中考慮了分類的錯(cuò)誤率,將特征選擇方法作為學(xué)習(xí)算法的一個(gè)組成部分,直接使用分類性能評(píng)價(jià)所選擇的特征子集。由于其評(píng)價(jià)限制于具體的分類器,所以封裝式方法的分類精度得到了大幅度的提高,然而其泛化能力較差,時(shí)間復(fù)雜度較高。

文獻(xiàn)[7]將隨機(jī)森林用作特征選擇,通過(guò)在每一顆決策樹(shù)中隨機(jī)排列特征,通過(guò)分類準(zhǔn)確度進(jìn)行特征選擇,在迭代中,逐步剔除不能提高分類性能的特征,最終得到的結(jié)果是構(gòu)成分類誤差最小的特征集合。然而,由于隨機(jī)森林方法其為層次的樹(shù)形結(jié)構(gòu),其特征選擇的結(jié)果并不穩(wěn)定,若數(shù)據(jù)發(fā)生微小的改變,隨機(jī)森林可能生成不同數(shù)量的特征,同時(shí),在決策樹(shù)中存在高方差的情況[8]。

因此,從集成學(xué)習(xí)的方法出發(fā),結(jié)合高價(jià)值移動(dòng)用戶數(shù)據(jù)集維度較高,類不平衡較嚴(yán)重的特點(diǎn),本文提出一種基于隨機(jī)KNN的特征選擇方法,將其用于高價(jià)值移動(dòng)通信用戶預(yù)測(cè)。

1 高價(jià)值移動(dòng)通信用戶判定及數(shù)據(jù)收集

電信企業(yè)將用戶平均收益(Average Revenue Per User,ARPU)作為衡量用戶價(jià)值的重要指標(biāo),它注重一個(gè)時(shí)間段內(nèi)電信運(yùn)營(yíng)商從每個(gè)用戶得到的收入。一般來(lái)說(shuō),移動(dòng)用戶連續(xù)N月的月均消費(fèi)水平會(huì)隨N值的提高而增長(zhǎng),同時(shí),月均消費(fèi)水平較高的用戶流失率較低,因此,本文將高價(jià)值用戶定義為:入網(wǎng)一年以上且近一年月均消費(fèi)金額在200元以上的用戶。

對(duì)于一個(gè)移動(dòng)通信用戶,其消費(fèi)水平增長(zhǎng)是一個(gè)較慢的過(guò)程,大幅度的增長(zhǎng)較為少見(jiàn)。因此,本文的研究目標(biāo)為連續(xù)一年月均ARPU值在100~200元之間的用戶,正類樣本為未來(lái)一年內(nèi)會(huì)成長(zhǎng)為高價(jià)值用戶的群體,其余用戶標(biāo)為負(fù)類。本文從消費(fèi)特征,終端特征,消費(fèi)行為變化,App下載記錄等4個(gè)方面抽取目標(biāo)用戶的基本特征構(gòu)成特征集合和相關(guān)樣本數(shù)據(jù),最終的數(shù)據(jù)集包括12萬(wàn)條數(shù)據(jù)記錄,98個(gè)用戶特征,正類樣本越占總樣本的四分之一。其中10萬(wàn)條數(shù)據(jù)記錄作為訓(xùn)練集及測(cè)試集,剩余2萬(wàn)條記錄構(gòu)成驗(yàn)證集以檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果。

2 算法描述

隨機(jī)KNN(Random KNN,RKNN)的思想與隨機(jī)森林相似,通過(guò)將多個(gè)基礎(chǔ)分類器聯(lián)合為一個(gè)強(qiáng)分類器進(jìn)行學(xué)習(xí)。與隨機(jī)森林不同的是,隨機(jī)KNN中的基礎(chǔ)分類器為KNN,而不是決策樹(shù),因此其沒(méi)有層次結(jié)構(gòu)。在每一個(gè)基礎(chǔ)KNN分類器中,通過(guò)與測(cè)試樣本最近的k個(gè)樣本決定樣本的分類。而最終得到的RKNN通過(guò)多個(gè)KNN投票進(jìn)行決策。

令F={f1,f2,...,fp}為輸入的p個(gè)特征,X為包含n個(gè)數(shù)據(jù)的輸入數(shù)據(jù)集合,則X為一個(gè)大小為n×p的矩陣,對(duì)于隨機(jī)數(shù)m(m

KNN算法的基本思想為:給定一個(gè)測(cè)試樣本x,首先找出與該測(cè)試樣本最接近的K個(gè)訓(xùn)練樣本,通過(guò)統(tǒng)計(jì)測(cè)試樣本與K個(gè)近鄰中各類樣本的相似度之和,作為測(cè)試樣本與各類的相似度,最后將該樣本判定為相似度最大的類,步驟如下:

(1)計(jì)算測(cè)試樣本與所有訓(xùn)練樣本的距離,而測(cè)試樣本x與訓(xùn)練樣本y的距離計(jì)算如下式:

(2)找出與測(cè)試樣本x距離最小的K個(gè)最鄰近訓(xùn)練樣本。

(3)分別計(jì)算K個(gè)最近鄰樣本與測(cè)試樣本x的相似度。距離越大,相似度越小,反之亦然,即:

(4)統(tǒng)計(jì)測(cè)試樣本與各類別的總相似度S(x,Ci):

為了選擇有效的特征,其關(guān)鍵是計(jì)算特征的權(quán)重,為其重要性進(jìn)行排序。本文將KNN的分類準(zhǔn)確率作為特征的特征權(quán)重的計(jì)算依據(jù)。

首先,每一個(gè)KNN對(duì)測(cè)試集進(jìn)行分類,通過(guò)與測(cè)試樣本的實(shí)際類別進(jìn)行比較,計(jì)算每一個(gè)KNN的分類準(zhǔn)確率acc(KNN)。令C(f)表示特征f參與的所有的KNN分類器的集合,每一個(gè)KNN的分類結(jié)果對(duì)參與其中的特征計(jì)算權(quán)重,如圖1所示。特征權(quán)重越高,則該特征越重要。特征f權(quán)重可計(jì)算為:

(5)將測(cè)試樣本判別為相似度最大的類:

圖1 特征權(quán)值計(jì)算流程圖

在得到特征權(quán)重以后,可以直接選擇權(quán)重較高的特征作為特征選擇的輸出結(jié)果,但由于在基礎(chǔ)KNN進(jìn)行分類時(shí),其樣本集合的特征是隨機(jī)選取的,這樣的做法并不可靠。因此,考慮到算法速度和分類性能的平衡,本文將特征選擇的過(guò)程分為兩步,不斷采用序列后向搜索方法進(jìn)行迭代構(gòu)造新的樣本集選擇特征。在第一步的迭代中,算法每次迭代,特征的數(shù)量減小為原來(lái)的q(0

3 實(shí)驗(yàn)結(jié)果與分析

對(duì)于預(yù)測(cè)模型,常用的評(píng)價(jià)指標(biāo)包括:精確率(Pre?cision),召回率(Recall),F(xiàn) 測(cè)度(F-measure)評(píng)價(jià)跟蹤算法的性能。其定義分別為:

精確率(Precision),表示“正確被檢索到的條目(TP)”在“實(shí)際被檢索的條目(TP+FP)”中所占的比例:

召回率(Recall),表示所有“正確被檢索的條目(TP)”在“應(yīng)該被檢索到的條目(TP+FN)”中所占的比例:

F測(cè)度(F-measure),表示召回率(R)和精確率(P)的加權(quán)調(diào)和平均數(shù),其一般化的公式為:

當(dāng)β=1,就是F1-measure:

為了驗(yàn)證本文方法在高價(jià)值移動(dòng)通信用戶預(yù)測(cè)研究中的有效性,本文選用特征子集的維度和F測(cè)度兩個(gè)指標(biāo)對(duì)模型性能進(jìn)行評(píng)估,并與隨機(jī)森林的特征選擇方法進(jìn)行對(duì)比試驗(yàn),采用其提供的原始算法建立預(yù)測(cè)模型。本文選用了UCI數(shù)據(jù)庫(kù)中3個(gè)不同數(shù)據(jù)集及本文研究在數(shù)據(jù)搜集階段得到的某電信公司提取的初始數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),如表1所示。

表1 不同數(shù)據(jù)集比較

不同方法對(duì)4個(gè)數(shù)據(jù)集的預(yù)測(cè)結(jié)果如表2所示。本文方法KNNFS的降維效果最好,相對(duì)于RFFS,在特征維數(shù)上減小了29.85%,其平均F測(cè)度提高了2.25%,這表明KNN相對(duì)于隨機(jī)森林的樹(shù)狀結(jié)構(gòu)更適合解決此類包含較多冗余特征的大規(guī)模不平衡而分類問(wèn)題。從表2中可以看出,本文方法對(duì)于低維數(shù)據(jù),本文方法除能降低特征集合的維度外,在提升模型預(yù)測(cè)性能方面并無(wú)特別優(yōu)勢(shì)。但從D3可以看出,對(duì)于高維、正負(fù)樣本不平衡度較大的數(shù)據(jù)集,RKNNFS的降維效果及對(duì)模型性能的提升作用得以體現(xiàn),驗(yàn)證了本文方法的有效性。

表2 不同算法的性能比較

經(jīng)過(guò)一系列特征選擇及算法參數(shù)調(diào)優(yōu),得出RKNNFS和High-value mobile user數(shù)據(jù)集的最優(yōu)特征子集為:套餐金額,在網(wǎng)天數(shù),近半年月均活動(dòng)基站數(shù),近3月月均通話時(shí)長(zhǎng),漫游通話次數(shù),增值業(yè)務(wù)費(fèi)用,近三月月均流量,月均長(zhǎng)途通話時(shí)長(zhǎng),終端銷售價(jià)格,近3月月均通話時(shí)長(zhǎng),用戶ARPU增長(zhǎng)速度。

表3 預(yù)測(cè)模型在不同數(shù)據(jù)集上的結(jié)果比較

預(yù)測(cè)模型在高質(zhì)量移動(dòng)用戶驗(yàn)證集和D2測(cè)試集上的預(yù)測(cè)結(jié)果如表3所示,可以看出,算法相對(duì)于在D1上的結(jié)果,預(yù)測(cè)模型在驗(yàn)證集中準(zhǔn)確率僅略微下降了1.1%,然而F測(cè)度提高了5.2%,體現(xiàn)本文預(yù)測(cè)模型的泛化能力較強(qiáng)。

因此,基于RKNN的特征選擇方法建立的高價(jià)值移動(dòng)用戶預(yù)測(cè)模型具有一定的實(shí)用性,能夠處理大規(guī)模高維不平衡數(shù)據(jù)集上的二分類問(wèn)題,能夠較好地為企業(yè)決策提供參考。

4 結(jié)語(yǔ)

針對(duì)移動(dòng)高價(jià)值移動(dòng)通信用戶,本文提出隨機(jī)KNN方法進(jìn)行特征選擇并建立預(yù)測(cè)模型,通過(guò)在隨機(jī)森林的框架下利用KNN作為基礎(chǔ)分類器,避免了隨機(jī)森林的缺陷,可以有效處理高維度不平衡數(shù)據(jù)集上的特征選擇問(wèn)題,通過(guò)與傳統(tǒng)方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,驗(yàn)證了該方法的有效性和實(shí)用性,未來(lái)計(jì)劃將該方法用于其他應(yīng)用,并提高模型的預(yù)測(cè)精度。

[1]梁霄波.電信客戶細(xì)分中基于聚類算法的數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2016(15):95-98.

[2]張煥國(guó),呂莎,李瑋.C均值算法的電信客戶細(xì)分研究[J].計(jì)算機(jī)仿真,2011(06):185-188.

[3]張慧,徐勇.數(shù)據(jù)挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J].平頂山學(xué)院學(xué)報(bào),2016,(02):68-73.

[4]梁路,王彪,王劍輝,劉冬寧.基于細(xì)精度關(guān)聯(lián)規(guī)則挖掘的電信客戶流失分析[J].智能系統(tǒng)學(xué)報(bào),2015(03):407-413.

[5]Dash M,Ong Y.RELIEF-C:Efficient Feature Selection for Clustering over Noisy Data[C].International Conference on Tools with Artificial Intelligence,2011:869-872.

[6]Liu L,Zhang J,Li P,et al.A Label Correlation Based Weighting Feature Selection Approach for Multi-label Data[C].Web Age Information Management,2016:369-379.

[7]姚登舉,楊靜,詹曉娟.基于隨機(jī)森林的特征選擇算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2014(01):137-141.

[8]Mcinerney D O,Nieuwenhuis M.A Comparative Analysis of kNN and Decision Tree Methods for the Irish National Forest Inventory[J].International Journal of Remote Sensing,2009,30(19):4937-4955.

Abstract:The prediction for high value mobile communication user plays an important role in the telecom enterprise customer management.Aiming at the problems such as high user data dimension,large scale and serious unbalanced class,proposes a method of feature selection based on random KNN.Firstly,the initial data is randomly sampled to construct multiple KNN classifiers,and then the weights of the features are computed to measure its importance,and the generalized sequential backward selection method is used to select the optimal features sub?set.Finally,the weighted voting mechanism is added in the ensemble learning method to establish a predictive model.The experimental re?sults show that the model can effectively reduce the dimensions of the sample features and improve the prediction performance of the high value mobile communication users.

Keywords:Imbalanced Dataset;Feature Selection;K-NN;Prediction Model

Prediction for High-Value Mobile Users Based on Random KNN Feature Selection

CUI Wei1,XIA Xun1,SUN Yu-lu2

(1.Luzhou Vocational and Technical College,Luzhou 646000;2.College of Electronic&Information Engineering,Sichuan University,Chengdu 610064)

川大-瀘州戰(zhàn)略合作科技項(xiàng)目(No.2015CDLZ-S12)

1007-1423(2017)26-0009-04

10.3969/j.issn.1007-1423.2017.26.002

崔偉(1983-),男,四川自貢人,碩士,講師,網(wǎng)絡(luò)工程師,研究方向?yàn)槠髽I(yè)信息化和新一代互聯(lián)網(wǎng)應(yīng)用

夏汛(1984-),男,四川瀘州人,碩士,講師,研究方向?yàn)榇髷?shù)據(jù)應(yīng)用、企業(yè)信息化

孫瑜魯(1991-),女,山東泰安人,在讀碩士研究生,研究方向?yàn)閳D像處理,模式識(shí)別,Email:sunylcn@163.com

2017-06-27

2017-09-10

猜你喜歡
特征選擇分類器分類
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
教你一招:數(shù)的分類
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
主站蜘蛛池模板: 伊人精品成人久久综合| 91精品国产麻豆国产自产在线| 国内精自线i品一区202| 国产精品不卡片视频免费观看| 夜夜操国产| 中文字幕欧美日韩高清| 国产91麻豆视频| 欧美成人国产| 97国内精品久久久久不卡| 丰满人妻一区二区三区视频| 91在线免费公开视频| 国产欧美日韩视频一区二区三区| 午夜在线不卡| 东京热一区二区三区无码视频| 国产一级裸网站| 国产精品999在线| 久久国产精品77777| 久久综合九色综合97网| 99久久精品无码专区免费| 亚洲乱码在线播放| 日韩欧美一区在线观看| 色成人综合| 久久国语对白| 老司机久久99久久精品播放| 久久精品最新免费国产成人| 国产成人一区| 国产极品美女在线| 精品久久综合1区2区3区激情| 午夜毛片免费看| 国产h视频在线观看视频| 亚洲国产在一区二区三区| 极品私人尤物在线精品首页| 国产偷倩视频| 国产网站免费看| 亚洲福利一区二区三区| 亚洲AV人人澡人人双人| 亚洲视频在线网| 久青草免费在线视频| www.亚洲一区| 国产午夜小视频| 国产精品女人呻吟在线观看| 另类专区亚洲| 久久综合五月婷婷| 114级毛片免费观看| 毛片大全免费观看| 国产尤物在线播放| 国产成人高清精品免费5388| 国产精品免费福利久久播放| 日本午夜精品一本在线观看| 国产精品久久久久久久久kt| 国产成人精品在线| 成人在线第一页| 亚洲人成影视在线观看| 国产精品女在线观看| 亚洲天堂精品视频| 思思热精品在线8| 夜夜操狠狠操| 精品一区二区久久久久网站| 精品人妻无码区在线视频| 日韩欧美中文亚洲高清在线| 亚洲欧美自拍中文| 国产精品福利尤物youwu| 亚洲天堂在线免费| 老司机久久精品视频| 狠狠躁天天躁夜夜躁婷婷| 国产美女视频黄a视频全免费网站| 伊人色婷婷| 一本大道香蕉久中文在线播放| 国产成人a毛片在线| 久久伊人操| 婷五月综合| 狠狠色丁香婷婷| 国产免费精彩视频| 国产丝袜丝视频在线观看| 亚洲 日韩 激情 无码 中出| 国产视频你懂得| 国产欧美视频综合二区| 久一在线视频| 欧洲成人免费视频| 直接黄91麻豆网站| 亚洲视频影院| 欧美激情一区二区三区成人|