999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于客戶流失預測的特征選擇

2013-04-29 09:39:47唐靜
決策與信息·下旬刊 2013年6期
關鍵詞:分類特征方法

唐靜

摘 要 特征選擇是數(shù)據(jù)預處理的一個重要手段,本文介紹了特征選擇的幾種常用方法:過濾法,封裝法及這兩種方法的混合,最后結合客戶流失預測這個特定的問題提出適當?shù)姆椒ā?/p>

關鍵字 客戶流失預測 特征選擇 神經網絡

中圖分類號:C93;F830. 文獻標識碼:A

一、引言

特征選擇作為一個重要的數(shù)據(jù)預處理手段,對于我們一個特定的客戶關系管理問題而言,客戶流失預測是一個典型的二元分類問題,它將客戶分為流失與不流失,要想建立預測模型,并不是特征越多越好,我們需要選擇與類別變量最相關的那些變量。而我們直接從樣本中得到的數(shù)據(jù)往往是十分巨大的,從一家企業(yè)可以得到的數(shù)據(jù)就成千上萬,其特征屬性也會達到幾十甚至上百,為了對樣本進行準確的識別并為分類器的成功設計提供一定的基礎 ,往往需要進行特征選擇,選擇那些對區(qū)別不同類別最有效的特征,而舍去那些對分類毫無關系的無關特征及與其他特征表現(xiàn)性能相似的冗余特征。

二、特征選擇的算法

目前普遍使用的是以下三種方法:過濾(Filter)法,封裝(Wrapper)法,嵌入式(Embeded)法,我們這里主要討論前兩種方法及前兩種方法相混合的方法。Filter特征選擇法是基于數(shù)據(jù)的內在結構信息而不依賴于各種分類算法對子集的評價 ,它一般直接用訓練數(shù)據(jù)的統(tǒng)計性能評估特征,速度較快。Wrapper特征選擇法依賴于分類器的評價準則,將分類的算法嵌入到特征選擇過程當中,目的是達到最大分類準確率,偏差小,但計算量較大 。而混合的特征選擇過程算是集兩者之長,補兩者之短。

(一)過濾(Filter)法。

過濾法是基于單個特征屬性的選擇方法,根據(jù)每個特征屬性值進行單個評估該屬性與相關類的關聯(lián)度,再根據(jù)每個屬性的評估值進行排序,選擇排序靠前的屬性。

基于不同的判別標準有多種過濾法,本文在這里僅介紹一種基于Relief的過濾法。

在Filter算法中,Relief是效果較好的filter特征評估方法,它將屬性區(qū)分“相近”樣本的能力作為評估其重要程度的標準,它可以去掉無關特征,但不能去除冗余,而且他只能用于二元分類問題,所以我們一般是先使用Relief算法刪除不相關屬性,再使用K-means算法對屬性進行聚類,刪除冗余屬性,最后是一個組合的特征選擇算法。下圖為特征與目標值的相關系數(shù)。

(二)封裝法(Wrapper)。

封裝法是將分類錯誤率作為特征重要性的評價標準,選擇那些可以獲得較高分類性能的特征。

封裝法主要分為無監(jiān)督的學習(Unsupervised Learning)和有監(jiān)督的學習(Supervised Learning)。無監(jiān)督的學習是在樣本的類別標簽未定的情況下進行數(shù)據(jù)挖掘的方法,它聚類的目的在于將對分類有影響的特征聚在一起。有監(jiān)督的學習是指已知類別標簽下的數(shù)據(jù)挖掘。對客戶流失預測這個問題而言,我們已知其類別標簽為“流失”與“不流失”,因此應當用后一種方法。

在有監(jiān)督的學習中,有許多分類器,而由于神經網絡分類器的容錯性,自適應性和模式識別能力,它適合處理那些含有噪聲的數(shù)據(jù),它允許長時間的訓練,輸入的特征之間可以具有高度的相關性 ,所以它非常適合處理客戶流失預測特征選擇這個問題。它的訓練過程是:訓練BP神經網絡,根據(jù)網絡的結構參數(shù)計算不同的特征對輸出的靈敏度,去除靈敏度小的特征,用剩下的特征組成的特征子集再去訓練BP神經網絡,以此反復,直到子集為空。

(三)混合特征選擇。

一般的特征選擇數(shù)據(jù)樣本較大,時間復雜度較高,所以單用 Filter和Wrapper算法均無法達到很好的效果,而這兩種算法是兩種互補的模式,兩者結合使用效果更佳。混合特征選擇有兩個階段,一是先用過濾法去掉大量的無關特征,大大降低了特征規(guī)模。在第二階段,用封裝法處理剩余的特征來選擇出關鍵特征,下圖為特征選擇基本框架。

三、基于客戶流失預測的特征選擇方法

在客戶流失預測這個特定的問題下,可以用K-means算法的方法對屬性進行聚類,然后從每一類里面選擇一部分(比如隨機選一半,這只是最簡單的思路)屬性出來,共同構成一個特征子集,或者者隨機子空間的方法即隨機選擇特征子集,最后以模型在測試集上的總的分類精度,以及各類的精度來選擇出好的屬性。這時候,再將初選后的數(shù)據(jù)交給封裝法,用它來進一步處理數(shù)據(jù)。

這里要以各類的精度來選擇出好的屬性,是因為用于客戶流失預測建模的客戶數(shù)據(jù)的類別分布往往是不平衡的,很多時候流失客戶與不流失客戶的數(shù)量之比能達到1:100 甚至更小。當客戶數(shù)據(jù)類別分布不平衡時,僅以總的的分類精度來判定很難取得令人滿意的結果,因此我們常常用總的和各類的精度一起作為選擇好屬性的標準。

如下是這個問題的神經網絡函數(shù)定義的部分。

[Percent1,Percent2,Y11,Y22,P,R,predict]=NN_class(train_data,test_data,NodeNum,Num)

4個輸入參數(shù)是訓練集,測試集,隱層節(jié)點,數(shù)據(jù)集類別數(shù)。

輸出分別是訓練集分類精度,測試集分類精度,訓練集和測試集的預測輸出,R是混淆矩陣,predict是測試集類別標簽預測值。

四、結論

如今特征選擇的方法很多,但如何針對特定的問題提出合理的解決辦法仍需要進一步研究。本文首先提出了特征選擇的常用方法,再詳細介紹了纏繞法與封裝法及混合方法,然后結合客戶流失預測這個問題提出了解決方法,將纏繞法與封裝法結合使用,選擇神經網絡分類器進行研究,可以較好地滿足實際的需求。從現(xiàn)在特征選擇的前沿方向來看,這種混合方法的使用也是一個很值得探索的方向。

(作者:四川大學商學院2010級管理科學專業(yè)學生)

注釋:

楊淑瑩.模式識別與智能計算——Matlab技術實現(xiàn).電子工業(yè)出版社.2011.8.

周昉,何潔月.生物信息學中基因芯片的特征選擇技術綜述.計算機科學.2007.

姚旭,王曉丹,等.特征選擇方法綜述.控制與決策.2012.2.

Tom Mitchell.Machine Learning.機械工業(yè)出版社.2003.1.

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久久精品久久久久三级| 国产91特黄特色A级毛片| 国产精品久线在线观看| 久草热视频在线| 亚洲综合极品香蕉久久网| 97视频免费看| 1024国产在线| 日本免费一区视频| 亚洲欧洲国产成人综合不卡| 日韩二区三区无| 自慰网址在线观看| 国产打屁股免费区网站| 亚洲女同欧美在线| 四虎成人免费毛片| 亚洲国产欧美自拍| 高清免费毛片| 婷婷伊人五月| 亚洲三级a| 成人一级黄色毛片| 波多野结衣无码视频在线观看| 免费a级毛片视频| 香蕉精品在线| 一区二区欧美日韩高清免费| 国产国模一区二区三区四区| 色综合五月婷婷| 亚洲一区国色天香| 九九久久精品国产av片囯产区| 国产精品视频公开费视频| 亚洲五月激情网| 91在线中文| 久久一本精品久久久ー99| 丁香婷婷久久| 国产乱人伦AV在线A| 真实国产精品vr专区| 亚洲乱码视频| 91 九色视频丝袜| 久久久成年黄色视频| 老司机久久99久久精品播放| 99re经典视频在线| 国产日韩精品欧美一区灰| 亚洲精品国产综合99| 亚洲九九视频| 高清色本在线www| 国产午夜精品一区二区三| 精品成人一区二区三区电影| 国产在线观看人成激情视频| 97综合久久| 92午夜福利影院一区二区三区| 91丨九色丨首页在线播放 | 国产精品不卡片视频免费观看| 好久久免费视频高清| 99国产精品国产高清一区二区| 婷婷综合在线观看丁香| 欧美精品二区| 欧美五月婷婷| 美女裸体18禁网站| 天堂网国产| 国产内射一区亚洲| 亚洲欧美不卡中文字幕| 中文字幕人妻av一区二区| 免费人成黄页在线观看国产| 中国国产A一级毛片| 国产后式a一视频| 欧美黄色a| 一本色道久久88| 一本大道东京热无码av | 天天色天天综合网| 精品無碼一區在線觀看 | 中文字幕亚洲综久久2021| 日本成人精品视频| 91在线播放国产| 特级欧美视频aaaaaa| 亚洲黄色成人| 99热最新在线| 香蕉国产精品视频| 国产欧美精品专区一区二区| 欧美有码在线| 中文字幕乱码二三区免费| 国产毛片高清一级国语| 亚洲午夜综合网| 91po国产在线精品免费观看| 男女性色大片免费网站|