999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多分類器集成和特征融合的用戶出境預測*

2021-05-31 03:10:46軒a許國良安a超a雒江濤
電訊技術 2021年5期
關鍵詞:特征融合用戶

張 軒a,,許國良**,魏 安a,,王 超a,,雒江濤

(重慶郵電大學 a.通信與信息工程學院;b.電子信息與網絡工程研究院,重慶 400065)

0 引 言

隨著經濟全球化和國際化進程的加快,出境市場迎來良好的發展機遇,作為出境市場的核心,出境用戶的畫像和行為分析研究越來越受到關注。文獻[1]利用調查問卷數據分析了武漢出境游客的人文屬性特征和行為特征。文獻[2]利用在線旅游社區的文本數據分析了中國游客購物行為特征。文獻[3]利用調查問卷、訪談和在線旅游內容對前往泰國的中國游客進行研究,分析了游客的人文屬性特征、出境動機以及消費特征。文獻[4]利用調查問卷數據,分析了香港居民的人文屬性特征、網絡行為特征、心理特征等,并利用網絡行為特征和心理特征來識別潛在出境用戶,但準確率不高。以上研究存在樣本量小、數據真實性無法保證等問題,且缺乏對用戶出境前行為的分析研究。

電信運營商積累了海量的用戶數據,包括消費信息、終端信息等靜態數據,以及上網、通話、出行等行為產生的大量時空數據,運營商數據因自身的數據優勢在行業市場得到了廣泛應用[5]。研究學者利用運營商數據進行城市居民流動模式和城市土地功能使用模式分析、特定行業用戶挖掘、城市交通預測[6]等,但鮮有學者利用運營商數據在出境領域展開研究。雖然運營商數據為出境領域研究帶來了新的突破口,但是如何利用運營商數據挖掘欲發生出境行為的用戶仍然存在著諸多挑戰。

在模式識別系統中,特征融合方法得到了廣泛應用,融合后的新特征更具抽象性,可提高模型的分類性能。文獻[7]通過串聯形式融合圖像的深淺層特征,提高了人臉識別的準確率。文獻[8]通過加權求和、向量拼接的方式融合文本特征,顯著提高了譯文估計質量的準確性。文獻[9]通過多核學習法融合音頻特征,顯著提高了語音情感識別準確率。

本文提出了一種三層架構的基于多分類器集成和特征融合的用戶出境預測模型(Three-level Model for Predict Users Whether to Leave the Country Based on Ensemble Learning and Feature Fusion,TMPBEF),首先構建用戶多行為分析參考字段庫,利用用戶的移動終端信息交互數據挖掘用戶的出境相關行為特征和靜態特征,然后將第一層和第二層分類器的輸出特征進行融合,構建交互特征輸入三層分類器進行訓練和預測,以預測用戶近期是否出境。

1 TMPBEF模型理論基礎

1.1 分類器融合方法

目前,主要采用兩種分類器融合方法處理分類問題。以二分類(0,1)為例,yi和pi分別為單個模型的預測類別和預測概率,fre(yi)為yi出現的次數,M為模型的數量,wm為單個模型權重,選擇結果為H(x)。

(1)

(2)

(1)投票法

利用簡單投票法(如式(1))或加權投票法(如式(2))對多個分類器的輸出結果進行選擇,選擇結果作為最終的輸出類別。例如,文獻[10]利用簡單投票法構建融合模型,模型的泛化性能大幅度提升。文獻[11]利用加權投票法集成多個模型,實現越南語組合歧義的準確分類。

(2)堆棧泛化法

堆棧泛化(Stacked Generalization)方法(以下簡稱Stacking方法)采用兩層框架結構,利用多個分類器對樣本集進行學習和預測,然后將所有分類器的輸出結果作為特征,輸入最終的分類器中進行學習[12]。例如,文獻[13]采用該方法融合多種基于決策樹的集成學習算法構建釣魚網頁識別模型,模型準確率達97.3%,優于各單一模型。

1.2 貝葉斯優化算法

貝葉斯優化算法因搜索效率高、穩健性好等優點,在科研工作中得到了廣泛的應用[16]。假設模型參數值集合為X={x1,x2,…,xn},未知目標函數和模型參數間有一定的映射關系g,則目標函數可表示為g(X),算法的優化問題轉化為求未知目標函數g(X)的全局最優解[14],如式(3)所示:

(3)

除了算法參數集合X和映射關系g,貝葉斯優化還需要關鍵的兩個元素,即采集函數和假設模型。采集函數用于從X中確定下一次需要評估的參數x,假設模型用于模擬目標函數的先驗分布,然后根據此分布評估參數x的性能。

1.3 特征選擇

最小冗余最大相關(Minimum Redundancy Maximum Relevance,mRMR)算法是一種典型的基于空間搜索的過濾式特征選擇方法,其使用互信息與信息熵作為特征子集的搜索策略,遴選出與類別變量有最大依賴性的特征子集[15]。假設F={f1,f2,…,fk}為特征集合,C為樣本類別,I(fi;C)為特征fi與類別C之間的互信息,I(fi;fj)為特征fi與特征fj之間的互信息。互信息I(fi;fj)最小時,fi與fj相關性最小;互信息I(fi;C)最大時,fi為與類別強相關。最小冗余指標minR(F)定義和最大相關指標maxD(F,C)定義如下所示:

(4)

(5)

基于上述公式,mRMR算法MIQ(Mutual Information Quotient)準則表示如下:

(6)

2 TMPBEF模型構建

鑒于Stacking法不僅能夠綜合降低投票法融合所產生的偏差和方差,還能融合各分類器的輸出結果,本文在Stacking算法基礎上,構建三層框架的多分類器集成算法。TMPBEF模型的1-level分類器和2-level分類器采用邏輯回歸(Logistic Regression,LR)、k最近鄰(k-Nearest Neighbor,KNN)、高效梯度提升決策樹(Highly Efficient Gradient Boosting Decision Tree,LGB)、自適應提升(AdaBoost)的融合模型,3-level分類器采用泛化能力強、訓練數據快的隨機森林(Random Forest,RF)模型。為了提高模型的預測精度,本文選用了貝葉斯優化方法對單一分類器進行性能優化,實現模型的分類精度最大化。

2.1 貝葉斯優化函數設計

本文選擇高斯過程作為假設模型,選擇UCB函數作為采集函數。模型的最終目的是基于用戶的最優特征,實現較高的分類準確度。本文屬于類別不均衡問題,為了更全面評估單一模型的分類性能,采用AUC(Area Under the Curve)值作為優化函數,具體如式(7)所示:

(7)

式中:l為按預測概率從小到大排序時正樣本在真實樣本中的排列序號,kpositive為正樣本的數目,knegative為負樣本的數目。

2.2 TMPBEF模型設計

圖1 TMPBEF框架

TMPBEF模型的設計流程如下:

Step1 為了降低模型的分類誤差,提高模型的穩定性,對初始訓練集的特征向量X進行切分,將數據分為k份,采用滑動窗口的形式將前k-1份數據作為1-level分類器的訓練輸入,第k份數據作為1-level分類器的預測輸入,直到遍歷全部數據。數據切分重組如表1所示。

表1 切分重組樣本

Step2 假設1-level分類器為χ={χ1,χ2,χ3,χ4},利用Step 1中的切分重組樣本Train-input對分類器進行訓練,得到預測函數集合χ(x)={χ1(x),χ2(x),χ3(x),χ4(x)};利用χ(x)分別對訓練集的特征向量Xtr和測試集特征向量Xte進行預測,得到預測結果χ(Xtr)={χ1(Xtr),χ2(Xtr),χ3(Xtr),χ4(Xtr)}和χ(Xte)={χ1(Xte),χ2(Xte),χ3(Xte),χ4(Xte)},構建新特征集A;將χ(Xtr)添加到Xtr中,χ(Xte)添加到Xte中,構建新特征樣本集B。

Step3 利用Step 1中的數據劃分方法對特征向量Xtr進行切分重組,假設2-level分類器為φ={φ1,φ2,φ3,φ4},利用切分重組后的數據Train-input對分類器進行訓練,得到預測函數集合φ(x)={φ1(x),φ2(x),φ3(x),φ4(x)};利用φ(x)分別對訓練集的特征向量Xtr和測試集的特征向量Xte預測,得到預測結果集φ(Xtr)={φ1(Xtr),φ2(Xtr),φ3(Xtr),φ4(Xtr)}和φ(Xte)={φ1(Xte),φ2(Xte),φ3(Xte),φ4(Xte)},構建新特征集C。

Step4 當分類器存在顯著不同時,分類器間會存在較強的互補性。為了增加特征的細膩和抽象性,本文考慮設計特征融合函數G(x1,x2),將特征樣本集A的特征向量χ(X)和特征樣本集C中的特征向量φ(X)進行融合,得到融合后的特征向量G(X),用于3-level分類器的輸入。初始化集合F1=?,F2=?,特征融合函數G(x1,x2)的偽代碼如下:

輸入:集合A,集合B

輸出:融合后的集合C

1.初始化集合C=?,M=len(A),N=len(B)

2.fori=1,2,…,Mdo

3. forj=(i+1),…,Mdo

4. 更新集合C:C=C∪(A[i]×A[j])

5.fori=1,2,…,Mdo

6. forj=1,…,Ndo

7. 更新集合C:C=C∪(A[i]×B[j])

8.fori=1,2,…,Ndo

9. forj=(i+1),…Ndo

10. 更新集合C:C=C∪(B[i]×B[j])

11.輸出集合C

3 數據準備與評估指標

3.1 實驗數據

來源于某省占市場份額最大的電信運營商,數據周期為2019年1—3月,包括:CDR話單數據(CDR data),記錄用戶通信時所處位置、通話時長、通話次數、對端號碼等信息;上網日志數據(Internet log data),記錄用戶上網的地理位置、使用的APP名稱、訪問的目的網頁、消耗的流量、上網時間等信息;信令軌跡數據(Signaling trace data),記錄用戶的出行位置、駐留時長、出行時間等信息;用戶屬性數據,記錄用戶的性別、年齡、月均話費、終端品牌等屬性信息。將1—2月的樣本作為候選訓練集,2—3月的樣本作為候選測試集(剔除訓練集中的重復數據)。考慮到用戶隱私,樣本中用戶編號、手機號碼等關鍵字段進行數據脫敏。

本文利用深度包解析技術和爬蟲技術構建上網行為分析參考字段庫(Host_Keys)、通話行為分析參考字段庫(Port_No)、出行行為分析參考字段庫(Lac_Cell),用于從移動大數據中識別具有出境意向且發生出境相關行為的用戶。

3.2 特征提取和特征處理

利用行為分析參考字段庫分別對候選訓練集和候選測試集進行匹配過濾(關聯條件如圖2所示,黃色部分為參考字段庫數據,綠色部分為移動大數據),得到發生過出境相關行為的潛在目標用戶樣本集,樣本中包含正樣本和負樣本。對潛在目標用戶樣本集進行冗余字段過濾、異常值剔除、空缺值填充或剔除等處理,提高樣本數據的質量。以真實的業務場景為參考,提取用戶的靜態特征(性別、年齡等)和特定時空行為特征(上網特征、出行特征、國內通話特征、國際通話特征),如表2所示,其中fi(i=1,2,…,50)代表用戶特征。

表2 用戶特征集合

圖2 表間關聯條件

考慮到性別為類別特征,本文對類別特征進行屬性轉換處理。將每個用戶樣本構造為<用戶編號,特征,標簽>類型,以此構建特征訓練集和特征測試集。特征間的量綱不同對于KNN、邏輯回歸等基于距離計算的分類算法的分類精度會有很大影響,本文采用標準化方法本對特征變量f進行歸一化處理,將數據取值范圍縮放到[0,1],歸一化后的特征數據為f*,特征轉換公式如下:

(8)

式中:u和δ分別為特征變量f的均值和方差。

3.3 評估指標

本文實驗數據中,出境用戶的數量小于非出境用戶數量,屬于類別不均衡問題。為了更好地評估模型的分類性能,故采用F值(F1-score)、AUC值、算法耗時三個評價指標。假設模型對目標數據的預測結果為PL(Predict Label),數據的真實標簽為AL(Actual Label),則F1-score計算公式如下:

(9)

(10)

(11)

本文中,AUC值指從真實樣本中隨機選擇一個出境用戶和一個非出境用戶,模型對出境用戶的預測概率大于對非出境用戶的預測概率的概率。

4 實驗及結果分析

4.1 實驗環境

本文的實驗基于Hadoop大數據平臺和Python3.6環境完成的。Hadoop的MapReduce框架可并行高效地處理大數據,本文將其用于移動大數據和行為分析參考字段庫的關聯匹配及冗余字段的過濾處理。Python的Scikit-learn中封裝了多種機器學習算法,本文利用Python環境完成特征的構建、特征提取、模型構建、參數調優和模型驗證等工作。

4.2 輸入數據特征

1-level分類器的輸入數據非原始的移動數據,而為3.2小節特征提取操作后的特征數據(即表3),用于模型輸入的用戶特征共計50個,全部為數值型數據。用戶的50個特征值存在缺失值情況,本文針對缺失的特征值采用0填充處理。基于以上特征構建模型輸入樣本集(包括訓練集和測試集)。訓練集樣本的形狀為(52 625,50),測試集樣本形狀為(32 270,50)。部分輸入數據特征如表3所示。

表3 部分輸入數據特征

4.3 最優特征選擇

經過數據預處理后得到了50個可能與用戶出境相關的數據特征中包含許多相關性較低的特征,所以本文利用mRMR特征算法的MIQ準則對訓練集樣本進行特征選擇,算法輸出結果為各特征的得分值。本文根據特征得分將特征由高到低排列,選擇前15個特征用于后續的模型訓練。這15個特征達到的分類性能是50個特征達到的性能的97.9%,而且運算效率明顯提高,故本文選擇前15個特征作為最優特征,如表4所示。經過特征選擇后,最終用于1-level分類器輸入的訓練集樣本形狀為(52 625,15),測試集樣本形狀為(32 270,15)。

表4 最優特征

4.4 3-level分類器學習和預測

(1)3-level分類器輸入

由于本文是處理二分類問題,用戶出境的類別對應1,用戶不出境的類別對應0,所以1-level分類器和2-level分類器的輸出值均為1或0。將前兩個level共計8個分類器的輸出值進行拼接,得到特征向量X=[x1,x2,x3,x4,x5,x6,x7,x8],將特征兩兩之間進行相乘構建交互特征,共生成28個新特征。將每個用戶樣本構造為<用戶編號,新特征,標簽>類型,標簽采用最開始的用戶標簽,則3-level分類器的訓練集樣本形狀為(52 625,28),測試集樣本形狀為(32 270,28)。

(2)3-level分類器學習與預測

利用3-level分類器對訓練集樣本進行訓練,得到預測函數f(u,X,y),利用預測函數f(u,X,y)對測試集樣本進行預測,最終得到用戶的類別標簽(0或1)。

4.5 模型評估

為客觀評估TMPBEF的分類性能,本文將TMPBEF分別與LGB、KNN、LR、RF、AdaBoost五種單一模型、基于五種單一模型的兩層Stacking融合模型、基于1-level分類器的投票法融合模型進行對比,所有對比模型如表5所示。

表5 對比模型

4.6 結果與分析

本文所有實驗均在同一環境下和同一特征數據集上進行,TPMBIF與單一模型、Stacking兩層融合模型、投票法融合模型的對比實驗結果見表6。

表6 對比實驗數據

(1)TMPBEF與單一模型的對比

5種單一模型中,性能最差的是RF模型,性能最好的是LR模型,模型對比詳見圖3。TMPBEF相比LR模型,F1分值提高8.55%,AUC值提高9.61%,耗時較高。TMPBEF相比RF模型,F1分值提高21.17%,AUC值提高27.79%,耗時較高。綜上,TMPBEF相比單一模型,F1分值提升范圍為[8.55%,21.17%],AUC值提升范圍為[9.61%,27.79%]。

圖3 TMPBEF與單一模型、Stacking融合模型對比

(2)TMPBEF與Stacking融合模型的對比

5種算法中,RF算法對1-level分類器的預測結果擬合學習最好,LGB算法對1-level分類器的預測結果擬合學習最差,模型對比詳見圖3。TMPBEF相比Stacked_RF模型,F1分值提高5.97%,AUC值提高6.37%,耗時較高。TMPBEF相比Stacked_LGB模型,F1分值提高17.41%,AUC值提高21.97%,耗時較高。綜上,TMPBEF相比Stacking融合模型,F1分值提升范圍為[5.97%,17.4%],AUC值提升范圍為[6.37%,21.97%]。

(3)TMPBEF與投票法融合模型的對比

11種投票法融合模型中,Type2融合模型性能最優,Type3模型性能最差,模型對比詳見圖4。相比Type2模型,TMPBEF的F1分值提高3.65%,AUC值提高4.13%,耗時較高。相比Type3模型,TMPBEF的F1分值提高19.96%,AUC值提高25.77%,耗時較高。綜上,TMPBEF相比投票法融合模型,F1分值提升范圍為[3.65%,19.96%],AUC值提升范圍為[4.13%,25.77%]。

圖4 TMPBEF與投票法融合模型對比

如圖5所示,TMPBEF相比單一模型、投票法融合、Stacking融合在AUC值和F1值上均有所提升。相比單一模型、投票法融合、Stacking融合,AUC值提升范圍為[4.13%,27.79%],F1值提升范圍為[3.85%,21.17%]。綜上,本文提出的TMPBEF具有良好的分類性能,可用于用戶出境預測。

圖5 TMPBEF與變種所有模型對比

5 結束語

本文提出了一種基于多層分類器集成和特征融合的用戶出境預測方法,利用用戶的移動終端信息交互數據,挖掘用戶的通話特征、上網特征、出行特征和靜態特征,融合貝葉斯優化、機器學習和特征融合法構建TMPBEF模型,實現用戶出境的預測,彌補了傳統基于問卷數據或旅游網站數據進行出境用戶行為特征分析研究的不足。通過實驗對比分析,TMPBEF模型對用戶出境具有良好的預測性能,但因為三層模型涉及大量的數據運算,所以運算耗時偏高。未來工作側重于增大數據量和數據周期,更加全面地提取用戶出境前的特定行為特征,增加用戶的特征維度;另外,對當前的機器學習算法模型進行優化,以求進一步提升模型的預測準確性,同時降低模型的運算耗時。

猜你喜歡
特征融合用戶
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 久久人人妻人人爽人人卡片av| 久久久波多野结衣av一区二区| 欧美精品另类| 成年午夜精品久久精品| 久久人搡人人玩人妻精品| 99国产精品一区二区| 4虎影视国产在线观看精品| a级毛片免费网站| 免费高清a毛片| 亚洲一本大道在线| 九色视频一区| 亚洲精品波多野结衣| 色综合日本| 亚洲毛片一级带毛片基地| 久久精品中文字幕少妇| 欧美精品一区在线看| 色哟哟国产精品| 波多野结衣在线se| 中国精品自拍| 欧美伊人色综合久久天天| 怡春院欧美一区二区三区免费| 日本一区二区不卡视频| 国产无码高清视频不卡| 婷婷亚洲天堂| 九九视频免费看| 国产精品第页| 天天躁夜夜躁狠狠躁图片| 天堂岛国av无码免费无禁网站| 青青久视频| 婷婷六月综合| 欧美国产另类| 国产美女自慰在线观看| 国产日韩精品欧美一区灰| 人妻无码一区二区视频| 熟妇人妻无乱码中文字幕真矢织江 | 国产一区二区三区日韩精品| 国产小视频免费观看| 91福利片| 人人爱天天做夜夜爽| 在线va视频| 亚洲天堂成人在线观看| 亚洲视频影院| 亚洲精品男人天堂| 69视频国产| 亚洲人成网7777777国产| 亚洲欧美日韩中文字幕在线| 69综合网| 欧美福利在线播放| 亚洲人精品亚洲人成在线| 国产男女免费完整版视频| 在线观看无码a∨| 久久窝窝国产精品午夜看片| 日本人又色又爽的视频| 露脸真实国语乱在线观看| 国产又粗又猛又爽视频| 人妻精品全国免费视频| 爽爽影院十八禁在线观看| 91丝袜在线观看| 成人亚洲天堂| 国产精品嫩草影院视频| 久久久久青草线综合超碰| 手机在线免费毛片| 亚洲av无码成人专区| 男女男免费视频网站国产| 午夜福利亚洲精品| 在线看免费无码av天堂的| 日韩小视频在线播放| 呦女亚洲一区精品| 亚洲男人的天堂久久香蕉网| www亚洲精品| 国产一区二区福利| 中文字幕欧美日韩| 成人在线观看一区| 国产哺乳奶水91在线播放| 日本免费福利视频| 久久精品人人做人人综合试看| 韩日无码在线不卡| 色爽网免费视频| 亚洲天堂网2014| 国产成人夜色91| 视频一区视频二区中文精品| 国产无套粉嫩白浆|