999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于譜回歸特征降維的客戶流失預測①

2021-10-11 06:46:22李國祥蔣怡琳馬文斌夏國恩
計算機系統應用 2021年9期
關鍵詞:特征

李國祥,蔣怡琳,馬文斌,夏國恩

1(廣西財經學院 教務處,南寧 530003)

2(廣西師范大學 廣西多源信息挖掘與安全重點實驗室,桂林 541004)

流失客戶通常是指在一定時期內終止使用企業的服務或產品的客戶,其預測水平是衡量客戶保持策略有效性和客戶關系管理智能化程度的重要標志.目前對于客戶流失的研究對象主要集中在傳統的電信客戶流失預測和網絡客戶流失預測兩個方面,研究方法上主要是從特征向量選擇和分類器優化兩個角度構建客戶流失預測模型.

在特征選擇方面,文獻[1]針對于高維度的樣本特征屬性,定義了屬性滿意度和屬性集滿意度,通過滿意度函數來開展高維特征屬性的選擇.文獻[2]基于原始特征引入網絡客戶價值特征和情感特征,增加了客戶流失預測的新的客戶特征屬性.文獻[3]以網絡客戶的在線評論信息為依據,通過技術性的情感分析將其表示為積極與消極情感并作為客戶流失預測新屬性.文獻[4]針對電信數據集中存在的特征維度過高問題,結合過濾式特征選擇和嵌入式特征選擇方法的優點,提出了一種基于Fisher 比率和預測風險準則的分步特征提取方法.

在分類器優化方面,文獻[5]利用分類回歸樹算法和自適應Boosting 算法作為分類算法,生成通信企業的離網客戶的預測模型.文獻[6]改進隨機森林中生成每棵樹時節點劃分的方法,形成新的隨機森林分類模型.文獻[7]將深度學習引入到客戶流失預測中,構造了基于深度神經網絡的流失預測模型.文獻[8]通過改進粒子群算法優化支持向量機分類器.文獻[9]區分邊界樣本和非邊界樣本,分別采用K 近鄰分類法與支持向量機作為分類器.

上述兩類方法在不同數據集上都取得了較好的預測效果,但隨著信息管理技術在客戶關系管理中的廣泛應用,客戶的屬性維度和記錄數大規模增長,原始實驗中數據樣本體量偏小,對于預測結果科學性的解釋問題日益凸顯,文獻[3]使用京東運營商手機卡用戶的在線評論作為數據源,將評論星級、會員等級、點贊數作為特征屬性,采集樣本共10 000 余條;文獻[1]使用兩個數據集,第1 個數據集通過在UCI 中隨機抽樣,獲得3333 個訓練樣本和1667 個測試樣本,第2 個數據以國內某電信公司對小靈通客戶拆機停號來定義客戶流失,建立1474 個訓練樣本,966 個測試樣本;文獻[8] 選取UCI 最常用的8 個數據集,每個樣本集150~1500不等;文獻[6]以某電信公司2013年9月至2014年2月在網和離網的客戶樣本作為研究對象,樣本數量共計7913 個;文獻[5]選取了15 個可能影響客戶流失的屬性,在18 萬條數據中,在網數據和離網數據分別隨機抽取3000 條數據,形成研究樣本.由此可見,當前客戶流失預測研究的數據源大部分為小數據集或者大樣本集的抽樣,且特征維度較低.隨著大數據技術的發展,小樣本的抽樣數據集已經不能滿足對于預測的需要,大樣本的高維度數據計算將成為必然.

大樣本的高維度數據計算核心算法包括早期的主成分分析(Principal Component Analysis,PCA)[10],線性判別分析(Linear Discriminant Analysis,LDA)等,這類算法理論基礎堅實,且易于執行,很多學者通過使用核技巧,將這些線性特征提取算法擴展到核領域,如核獨立主成分分析[11].另一類非線性特征提取技術是流行學習方法,例如,局部保持投影(Locality Preserving Projection,LPP)[12]、局部線性嵌入(Locally Linear Embedding,LLE)[13]等,文獻[14] 中Zhai 等人在LPP的基礎上提出了一種改進的局部保持投影.局部保持投影(LPP)不但具有簡單、快捷等優點,同時可以考慮到整體數據空間;此外,LPP 算法最大程度保持了數據的局部結構,因此在低維空間中表示的最近鄰搜索極大可能與高維空間中產生的結果類似.所以,LPP 算法在數據降維領域有相當高的實用性.雖然LPP 算法實用性較強,但是卻有一個不可避免的缺點:在算法的優化過程中包含一個稠密矩陣分解計算.這是一個非常消耗時間和計算資源的計算過程,而譜回歸(Spectral Regression,SR)[12]將學習嵌入函數的方式轉化為一個回歸框架,避免了稠密矩陣分解這一計算過程,同時提高了優化的效果.因此本文提出基于譜回歸的特征降維更適合大樣本高維度數據的計算.

針對以上問題,本文以網絡客戶數據集和傳統電信客戶數據集為研究對象,從特征向量提取的角度,提出基于譜回歸局部保留投影的客戶屬性降維算法,并從特征選擇和分類器優化方面與不同的方法做了對比,實驗證明了算法的有效性.

1 基于譜回歸的特征降維

基于譜回歸的特征降維算法是針對流行結構圖嵌入式的典型降維算法,通過特征提取來構造一個能揭示數據流行的結構圖,其結構圖的表示方式為一個投影矩陣,實現將高維數據特征投影到低維子空間中,以保持高維空間中數據間的鄰近結構,達到降維的目的.在該算法模型中,每個頂點都是一個樣本點,兩個樣本點之間的邊權重采用K 近鄰法計算兩個樣本點之間的鄰接程度,因此對數據的完整性保持較好.

1.1 局部保形投影

局部保形投影算法(LPP)應該被視為PCA的替代方法.PCA是一種經典的線性技術,他沿著最大方差的方向投影數據.當高維數據位于嵌入外圍空間的低維流形上時,通過求流行上 Laplace Beltrami 算子特征函數的最優特征逼近,得到局部保持投影.因此,LPP具有許多非線性技術的數據表示特征.

局部保形投影算法,屬于將圖嵌入子空間的學習算法,其目的是用低維向量表示高維空間中圖的節點.通過求解一個投影矩陣A將空間樣本節點投影到低維空間從而實現降維.圖中任意兩節點之間的關聯性用最近鄰圖模型表示,因此較好的保留了子空間中節點局部的結構,實現了局部降維.

假設構建一個無向加權圖Graph 有m個節點,第i個節點用xi表示,任意兩個節點之間采用K 近鄰法定義是否關聯.選擇與xi鄰近的k個節點作為xi的鄰近點,若xj在xi的k個鄰近點中或者xi在xj的k個鄰近點中,則xi與xj相連;反之,則不相連.

根據上述鄰接圖計算權值.矩陣W表示權值矩陣,則兩節點xi與xj之間的權值為Wij,若xi與xj在相互的鄰近域中,則Wij為非0 值,反之,Wij為0.用徑向基函數計算任意兩節點的權值,則權值矩陣Wij可定義為:

最后,對其做特征分解.假設總節點數即樣本集為m,樣本集矩陣X=[x1,x2,···,xm],矩陣X通過投影到低維空間的矩陣Y=[y1,y2,···,ym],定義線性函數yi=f(xi)=aTxi,表示高維空間向量xi通過投影向量a投影到低維空間向量yi.為保持圖中節點的局部結構,鄰近點xi與xj投影后得到的yi與yj仍需保持鄰近,則需滿足下列準則函數值最小:

因線性函數yi=f(xi)=aTxi,則式(2)可變換為:

其中,D為n×n的對角陣,即權重矩陣Wij每列的和為對角矩陣D對角線上的元素.L=D-W,L稱為拉普拉斯矩陣.為了在投影后數據最密集的地方建立坐標軸,需對Y進行一定的約束:YTDY=1即aTXLXTa=1;則式(3)可變換為:

用拉格朗日乘數法將式(4)轉化為求解下列方程的最大特征向量a:

其中,λ為拉格朗日乘數.

LPP 算法實現降維的同時保留了數據節點間的局部空間結構,具有較好的局部判別能力;與傳統的線性降維方法相比,該算法能保持數據的流行結構,克服了非線性方法難以獲得新樣本低維投影的缺點.但是LPP 算法也存在自身的缺陷,在求解大規模特征值問題時會導致計算量較大,計算時間較長.算法只注重數據的局部結構,而未考慮到數據樣本的類別,另外在噪聲影響下算法不能獲得較理想的結果,因此算法的魯棒性較差.

1.2 基于譜回歸的特征降維

為了克服局部保形投影算法計算稠密矩陣的特征值問題,引入譜回歸(Spectral Regression,SR)方法用回歸模型處理特征函數,先將特征函數根據圖譜理論進行圖的譜分析,再將數據放入回歸模型中處理.其特征降維的優良特性使得在眾多領域中得到了廣泛應用[15].

在定義線性函數yi=f(xi)=aTxi求解投影向量a時,投影向量a可能會無解,譜回歸算法通過最小二乘算法尋找與投影向量a的最佳函數匹配,使求得的數據與實際向量a之間的誤差的平方和為最小,最大程度逼近投影向量a.

通過對式(6)求偏導可得:

當正則化參數 α無限趨向于0 時,式(8)的正則解即為特征問題(式(5))的最大特征向量解.

2 實驗

本文在網絡客戶和電信客戶兩個大樣本數據集上進行實證研究,預測流程如圖1所示,采用F1 值、精確率、召回率、準確率等指標評價模型預測結果,具體參見表1.實驗所用電腦的內存是16 GB,處理器是Intel(R) Xeon(R) CPU E5-1603 v3,操作系統為Win7 64 位,實驗環境為Matlab 2018a.

表1 混淆矩陣

圖1 運動目標誤判效果

2.1 某電子商務網站網絡客戶數據

該數據集來源于某電子商務網站.采用過抽樣和隨機抽樣形成訓練數據集和測試數據集,以自然年度為周期共得到訓練樣本20 006 個,測試樣本8574 個.其中訓練集中流失客戶10 002 個,非流失客戶10 004個.測試集中非流失客戶856 個,流失客戶7718 個.非流失客戶與流失客戶的比例基本為1:9,主要包括客戶首次購買時間、客戶關系長度、客戶消費新鮮度、客戶消費頻度、客戶消費金額、客戶對商品的評分、客戶評論情感共7 個屬性特征[2].這里我們從不同特征約簡算法和分類器兩個層面進行對比.特征約簡算法則包括KPCA、PCA,分類器包括原始線性核SVM、優化SVM 算法(網格算法,遺傳算法,種群優化算法)和DBN (深度置信網絡),其中KPCA,PCA,SR-LPP的約簡維度統一設置為3,DBN 設置為3 層隱藏層,每層30 節點.鑒于企業獲取新客戶的成本是保留老客戶成本的數倍,將流失客戶判別為非流失客戶稱為導致嚴重后果的第一類錯誤(FN)[1],將非流失客戶判別為流失客戶稱為第二類錯誤(FP).對于企業而言,模型導致的第二類錯誤會增加客戶保持成本,而犯第一類錯誤則將面臨著客戶流失的巨大風險,因此在該實驗中添加導致嚴重后果的第一類錯誤發生率作為輔助評價指標.

實驗結果混淆矩陣如圖2所示(其中0 代表了非流失類,1 代表了流失類).基于譜回歸的預測方法在精確率、召回率、準確率等方面都優于其他方法.且第一類錯誤的發生概率僅為1.7%.在分類器優化的方法中,基于遺傳算法(GA)和種群算法(PSO)優化的SVM,并不能顯著提高客戶流失預測效果,相比與非優化SVM各項指標基本持平,但第一類錯誤發生率在35%左右,略高于非尋優SVM的32%,SVM+Grid 預測效果則更不理想.而DBN 分類器在非流失客戶與流失客戶明顯不平衡的測試集中,全部將測試集判斷為非流失客戶.在特征約簡方法中,除了KPCA 外,PCA和本文的SRLPP 都在不同程度上提高了客戶流失預測效果,其中SVM+SR-LPP 綜合Precision、Recall、Accuracy和第一類錯誤率4 個指標較其他方法最優,也在一定程度上說明特征層面的選擇優化更為重要.

圖2 不同算法的結果混淆矩陣對比

2.2 電信客戶數據

電信客戶數據采用高維度、大樣本的美國DUKE大學電信客戶行為數據.數據樣本共計151 306 個,其中訓練集共100 000 個樣本,包含流失客戶49 562 個,非流失客戶50 438 個,兩類客戶的比例基本為1:1;測試集共51 306 個樣本,包含流失客戶924 個,非流失客戶49 514 個,客戶流失率為1.8%,數據類別嚴重不平衡.其屬性值包含產品特征、客戶方案、客戶信息3 大類,共計87 個初始屬性指標.鑒于數據樣本大、維度高,SVM 分類器的參數尋優已無法在實驗計算機有效時間內的求出結果,這里重點進行特征選擇和約簡算法的對比,采用PCA、KPCA、MCFS[16]、SRLPP算法分別在1-87 維度之間做了比對,分類器統一使用線性SVM.

通過圖3-圖5可見,降維或選擇后的特征在一定程度上優于全部特征作為SVM 輸入的預測方法,全部特征雖然包含的信息量大,但不同屬性數據間交叉、重合所產生的信息冗余也容易引起不同類別的誤判,這種特征本質的混淆在上述不同分類器并沒有得到良好的解決.在特征降維和選擇的算法中,KPCA對于不同維度穩定性較差,在不平衡數據中容易將測試集全部預測為流失或非流失,從而造成大部分實驗召回率非0 即1,使得F1和精確度指標失去意義.同時核函數方法需要對核矩陣計算和特征分解來完成高維空間的映射,對于大樣本數據時間復雜度高.傳統PCA 降維,雖然沒有優異的預測效果,但計算簡單,結果穩定,不失為一種有效的特征降維方法.作為特征選擇方法代表的MCFS 三項指標都略低于其他方法,說明每一維度的特征都具有一定隱含的語義,對于單純維度的剔除難以滿足分類的需要.SRLPP 方法則3 項指標較為穩定,能夠對不同維度特征進行有效的融合,在87 個維度的約簡中,大概率的高于其他方法.

圖3 F1 指標值

圖4 Precision 指標值

圖5 Recall 指標值

我們求取不同維度下的各方法的均值和標準差,如表2所示,其中KPCA 平均精度最高,但是其各指標值偏離程度較大,尤其是召回率標準差達0.44是PCA方法的4 倍,因此表現出圖4中連續的大波峰和波谷.MCFS 則綜合表現一般,不如全部特征輸入SVM的預測效果.SRLPP 平均精度僅次于KPCA,其他指標在4 種特征降維方法中相對最優,整體表現穩定.

表2 不同維度下各方法指標均值與標準差

3 結論與展望

隨著互聯網+的廣泛應用,無論是客戶數量還是屬性的數據體量都在指數式增長,且呈現出數據類型嚴重不平衡的特點,傳統抽樣已經不能滿足預測結果的解釋性要求,本文針對于高維度多屬性的大規??蛻袅魇ьA測,利用基于譜回歸的流形降維建立可區分性的低維特征空間,使用線性支持向量機分類,相比于參數優化的分類器和不同的特征降維方法,預測效果有了不同程度的提高.

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 亚洲最大福利网站| 欧美成a人片在线观看| 国产在线精彩视频论坛| 99久久国产自偷自偷免费一区| 国产精品专区第1页| a级毛片视频免费观看| 成年人免费国产视频| 操国产美女| 国产在线八区| 免费无码网站| 国产精品短篇二区| 一级毛片免费播放视频| 国产无码高清视频不卡| 免费一级毛片| 色婷婷在线播放| 色婷婷国产精品视频| 亚洲人成网线在线播放va| 欧美日韩亚洲国产主播第一区| 国产麻豆精品久久一二三| 免费观看国产小粉嫩喷水| 国产电话自拍伊人| 亚洲最新地址| 国产免费观看av大片的网站| 亚洲国产在一区二区三区| 高h视频在线| 无码人妻免费| 中日韩一区二区三区中文免费视频| 在线免费观看AV| 青青草原国产av福利网站| 日本免费福利视频| 国产成人艳妇AA视频在线| 亚洲成在人线av品善网好看| 亚洲天堂啪啪| 亚洲AⅤ无码日韩AV无码网站| 亚洲 日韩 激情 无码 中出| 国产精品永久不卡免费视频| 熟妇无码人妻| 波多野结衣在线se| 欧美精品在线免费| 美女亚洲一区| 亚洲欧美另类日本| 国产亚洲欧美在线中文bt天堂 | aaa国产一级毛片| 亚洲一区色| 一级毛片免费观看久| 白丝美女办公室高潮喷水视频 | 在线观看免费国产| 91最新精品视频发布页| 九九热这里只有国产精品| 亚洲va在线∨a天堂va欧美va| 99热国产这里只有精品9九| 日韩av无码DVD| 99精品视频九九精品| 国产第八页| 在线观看无码av免费不卡网站| 亚洲免费毛片| 久久综合伊人77777| 欧洲高清无码在线| 国产成人免费视频精品一区二区| 亚洲人成人伊人成综合网无码| 精品国产成人高清在线| 无码久看视频| 伊大人香蕉久久网欧美| 亚洲天堂啪啪| 亚洲最大福利网站| 天堂av高清一区二区三区| 亚洲一区二区在线无码| 五月婷婷欧美| 露脸国产精品自产在线播| 天天爽免费视频| 美臀人妻中出中文字幕在线| 黄色网页在线观看| 国产成人免费高清AⅤ| 91日本在线观看亚洲精品| 丁香五月激情图片| 久久香蕉国产线看观看精品蕉| 麻豆精品在线| 欧美在线国产| 亚洲不卡av中文在线| 欧美视频在线观看第一页| 亚洲天堂网在线播放| 成人av专区精品无码国产|