999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習的煙草異常數據挖掘研究與應用

2020-12-04 08:02:20李天舉謝志峰張侃弘陶亦筠
計算機技術與發展 2020年11期
關鍵詞:數據挖掘特征模型

李天舉,謝志峰,張侃弘,陶亦筠,范 杰,湯 臻

(1.上海大學,上海 200072; 2.上海煙草集團有限責任公司,上海 200082; 3.上海市煙草專賣局,上海 200120)

0 引 言

隨著數字化信息時代的到來,煙草行業數據量正在以驚人的速度快速增長,這種數字化趨勢為機器學習與數據挖掘技術在其生產、物流、監管等各方面的應用創造了新機遇[1-3]。數據挖掘技術已經逐漸地應用于各行各業,對異常數據的挖掘也開始得到人們更多的重視,所謂異常指的是在海量數據中存在著與一般數據形式相差較大或者與正常行為相左的數據對象,一般的數據挖掘過程常常將這些數據當作噪聲進行清除處理,但大多時候它們可能包含了解決現實問題中極其重要的信息。異常數據挖掘技術已在模式識別、信用欺詐、企業監管等領域得到廣泛應用。比如在金融行業的征信系統中,異常數據往往代表了用戶存在違約、造假等不良行為;在電網系統中,異常數據通常警示設備故障問題或者用戶的異常用電的行為;在城市軌道安防系統中,異常數據意味著行人或車輛存在違章行為。在這樣的背景下,面向煙草行業的異常數據挖掘技術有望從海量的煙草數據中,提取挖掘出零售戶在卷煙經營中是否存在涉煙違法的行為。數據挖掘技術的應用將有效推進整個煙草行業向信息化、智能化方向發展。

基于數據挖掘的市場異常預警預測研究,能夠進一步加強煙草零售市場監管力度,有效限制零售戶的涉煙違法行為,合理分配稽查工作中的人員調度,有效凈化卷煙市場經營環境。在煙草專賣市場監管方面,異常數據挖掘的任務就是在專賣監管數據中發現那些有違規經營跡象的數據對象,并找到隱藏在這些對象背后的各類違規經營情況。通過深入挖掘分析現有的煙草專賣信息數據,能夠有效結合現有市場監管模式,加快煙草專賣管理方式的信息化轉變,加強對重點涉煙違法行為的治理,提升市場監管的精準性。

目前將前沿的機器學習與數據挖掘技術應用于煙草專賣市場監管方面的研究稍顯不足,但在其他領域的相關研究為筆者提供了寶貴的經驗。文獻[4]將機器學習技術運用于發布虛假財務報表(FFS)公司的異常行為檢測中,通過使用優化的Stacking多模型融合方法將典型的機器學習算法組合在一起,取得了比任何單一算法和經過檢驗的簡單集成方法更好的檢測性能。文獻[5]利用XGBoost機器學習算法,能夠對云計算中SDN控制器易受到分布式拒絕服務(DDoS)的異常攻擊行為進行快速的檢測。文獻[6]通過使用基于功能樹分類器和三種當前比較先進的機器學習集成框架Bagging、AdaBoost和MultiBoost,提出并驗證了一種能夠提高滑坡異常和敏感性模型預測性能的集成方法。文獻[7]將前沿的機器學習LightGBM算法應用于廣告轉化率預估中,通過LightGBM模型提取廣告日志中的高階組合特征,并結合了區域因子分解機FFM模型對稀疏數據進行相應處理,有效提高了廣告轉化率預估模型的有效性和泛化能力。文獻[8]提出的深度網絡xDeepFM算法,能夠有效地自動學習數據的特征交互。

該文基于上海市卷煙經營零售戶從2016年1月到2019年4月的煙草專賣相關數據,提出了基于多模型Stacking集成學習的煙草異常數據挖掘模型,旨在利用前沿的機器學習算法XGBoost、LightGBM等,以及深度學習網絡xDeepFM算法對該數據進行建模預測和分析,最終推動煙草專賣市場監管方式的轉型,進而促進全市煙草市場監管水平的大幅提升。

1 數據預處理

1.1 數據來源

選取了上海市4萬多家零售戶從2016年1月-2019年4月的煙草專賣相關數據,基礎數據主要包括:經營戶靜態數據、客戶歷史數據、訂貨數據、卷煙主數據、市場檢查數據、投訴舉報數據、案件數據等。

1.2 數據預處理(構建數據指標)

影響數據分析與挖掘的第一要素是數據的預處理工作,而數據挖掘技術的合理運用是異常數據檢測能否正確運行的核心環節。在對數據進行預處理之后,必須結合有效的分析手段,才能找出數據的規律,從而挖掘出異常經營行為。通過對煙草市場監管數據的深入分析,發現大部分的數據屬于結構化數據,其中主要包含了連續和離散兩種形式的變量類型,這兩種類型數據相對應的處理方式明顯不同,因此,如何快速有效地實現復雜條件下結構化數據的分析與挖掘尤為重要。針對煙草行業中的海量、多維、動態數據,分析煙草結構化數據的特點,從營銷、物流、市場監管、案件等多個維度進行分析,梳理形成靜態特征指標與動態特征指標。部分特征分類如表1所示。

表1 部分特征分類

在數據預處理階段,需要對類別數據進行編碼,比如:訂貨方式包括POS訂貨、電話訂貨、電子商務、手工訂貨、網上配貨等,需要將其轉為數值型數據進行處理。對數據的編碼往往會影響到模型訓練的速度和預測的結果,所以如何合理選擇數據的編碼方式十分重要。常見的編碼方式有獨熱編碼(one-hot encoding)、標簽編碼(label encoding)和實體嵌入(embedding)。

(1)one-hot編碼,其基本思想是使用位寄存器對類別數據的N種類別狀態分別編碼,每個類別狀態占用其中的一位,且每種狀態只有一個位置是1,其他狀態位置都為0。例如,“POS訂貨”編碼后的形式為[0 0 0 0 1],“電話訂貨”編碼后的形式為[0 0 0 1 0],“電子商務”編碼后的形式為[0 0 1 0 0],“手工訂貨”編碼后的形式為[0 1 0 0 0],“網上配貨”編碼后的形式為[1 0 0 0 0]。

(2)標簽編碼:給每種類別分配整數,例如“POS訂貨”為1,“電話訂貨”為2,“電子商務”為3,“手工訂貨”為4、“網上配貨”為5。由于連續的數字代表著數字之間的先后順序,要盡量避免將其使用在線性模型中,而基于樹的算法模型則不受這種數值順序的限制。

(3)采用實體嵌入方式可以將類別數據用向量來表示,生成高維數據在高維空間體現它們的相互關聯。一般多用于深度神經網絡算法模型中。

通過觀察樣本發現,大多數類別數據在5個類別以下,所以選擇使用one-hot編碼對類別數據進行編碼,一方面防止標簽編碼帶來的賦值順序問題,另一方面又可以同時適用于機器學習算法和深度神經網絡算法。最后,由于原始數據中還存在一些比較臟、亂、差的數據,還需要對其進行大量清洗,比如經營面積數據存在大量不合理數值,而經營面積代碼則是以類別A、B、C、D來表示,則提取特征時就去掉經營面積數值型數據,轉而用類別型數據代替。大戶類別數據中只包含空值和其他大戶類別,那么這一特征數據全是無用信息,則無需進入模型。零售戶的檔位信息存在缺失值,處理方式是按當前時間點往前最近的一次檔位進行填補。通過數據預處理和特征工程提取之后,最終進入模型的一共有244個特征(指標)。

2 相關算法

2.1 XGBoost算法

XGBoost(extreme gradient boosting,極端梯度提升算法[9]),是一種基于CART樹的boosting算法,高效地實現了GBDT算法,并進行了算法和工程上的許多改進。

XGBoost模型的目標函數主要包含兩個部分:

(1)

XGBoost模型每次訓練一棵新的樹都要擬合上一次結果的殘差,每次增加的函數的增量要使新一輪的殘差盡可能減小,在進行到第t次時,模型的目標函數可以寫為:

(2)

模型訓練的最終目標是要找到一個能夠最小化目標函數的ft(xi),對式(2)采用其在x=0處的泰勒二階展開式來近似,近似的目標函數為:

Ω(ft)

(3)

去掉不影響目標函數最終優化的項,可簡化為:

(4)

2.2 LightGBM算法

LightGBM算法主要使用了基于梯度的單邊采樣和互斥特征捆綁這兩種方法來彌補傳統Boosting在處理大數據樣本時的計算損耗問題[10]。

模型在訓練時首先采用基于梯度的單邊采樣(簡稱GOSS),計算梯度時不再是掃描全部的樣本點,而是保留梯度比較大的一小部分樣本數據,對梯度小的大多數樣本進行隨機采樣;而互斥特征捆綁(簡稱EFB)主要依據高維數據的稀疏性,主要特點是存在很多特征不會同時取值為非零值,稱具有這樣的性質的特征為互斥特征,將這些特征組合在一起可以達到降低特征維度的目的,使得確定切分點的計算損耗減少,同時對互斥特征的處理也在一定程度上降低了模型過擬合的風險。

2.3 xDeepFM算法

對于預測性的模型來說,如何讓模型自動地去學習特征之間的交叉特性對數據挖掘系統是特別必要的。所謂特征之間的交叉特性也稱之為交叉特征[11],是指兩個及兩個以上的特征進行組合形成一個新的特征。深度神經學習網絡為解決這一問題提供了突破口,比如基于因子分解機的FNN、PNN和DeepFM等深度神經網絡算法[12-14],對特征之間的高階交互特性的學習使用了多層的全連接網絡,但是這些網絡的缺點是模型學習出的是隱式的交叉特征,使得其具體形式是未知的和不可控的。為了挖掘不同交叉特征之間的潛在聯系,該文引入xDeepFM(極深因子分解機)深度神經網絡模型[8],來讓模型自動地去學習特征之間的交叉特性。其基本結構如圖1所示。

xDeepFM算法首先把數據集的原始特征中每個one-hot編碼后的特征組成一個field,用來克服數據的稀疏性;然后進行embedding轉換使特征表現為向量級;接著將數據送入壓縮交互網絡CIN模型中,使得模型以顯示的方式自動學習高階的交互特征,CIN每層的神經元都是由原始特征向量和它前面的隱層計算而來,即:

圖1 xDeepFM神經網絡結構

(5)

其中,Xo為數據的原始特征,Xk為CIN神經網絡中的隱層,點乘的計算為:

°=

(6)

同時xDeepFM模型中還分別包含了集成的線性模型和DNN神經網絡模型,前者使得模型具有泛化的記憶能力,后者使得模型能夠隱式地學習特征的交互特性。

3 煙草異常數據挖掘建模分析流程

3.1 整體流程分析

基于Stacking的集成學習[15]是按照一定的方式將多種不同的算法集成組合來提升模型的訓練效果,相比于單一的模型,使用該方法通常可以產生更好的預測性能。與Bagging[16]和Boosting[17]采用單一的機器學習算法訓練單個模型不一樣的地方在于,Stacking是一種每一層都可以使用多個模型來進行訓練的集成學習方式,每一層的多個模型都有各自輸出值,將該層每一個模型的輸出值作為新的特征組合成新的數據集作為下一層的輸入進行學習。

圖2 整體流程

模型構建流程如圖2所示。首先對煙草市場監管數據進行預處理,在訓練集上對單個算法進行訓練調參,使單個模型性能達到最優狀態;然后確定Stacking集成學習模型的第一層模型組合方式,利用劃分后的數據集來訓練,將第一層的各個初級學習器模型的輸出組合形成新的數據集;Stacking第二層次級學習器模型用新生成的數據集來訓練,并輸出最終的預測概率值。

3.2 煙草異常數據挖掘建模分析

煙草異常數據挖掘模型最終要實現的目標是,預測出零售戶“銷假,銷私,亂渠道進貨”等異常經營行為的可能性。基于模型的預測性能,Stacking集成學習方式一般要求組合中的單個基學習器不僅要有較強的學習預測能力,還要在算法原理上具有較大的差別。因此Stacking模型中的第一層除了選用學習性能比較強的XGBoost算法、LightGBM算法和xDeepFM算法,還使用了AdaBoost算法、隨機森林算法(random forest,RF)、極端隨機樹算法(extratrees,ETR)和Logistic Regression算法(LR)。其中RF和AdaBoost分別使用了基于Bagging與Boosting的集成學習方式,具有較強的學習能力和嚴謹的數學理論作為支撐[18]。ETR算法是在RF的基礎上多了一層隨機性,即在對連續變量特征選取最優分裂值時,不會計算所有分裂值的效果來選擇分裂特征,而是在每一個特征的取值范圍內,隨機產生一個分裂值,從中計算出一個較優值來進行分裂。其次與RF使用Bagging集成學習方式對樣本數據進行有放回抽樣不同,ETR使用所有的樣本,只是特征是隨機選取的。LR算法相對來說是弱一點的基學習器,使用該算法的原因是為了防止過擬合,讓Stacking模型具有更強的魯棒性。Stacking模型中的第二層的元學習器用了學習預測能力比較出色的LightGBM算法。基于多模型Stacking的煙草異常數據挖掘模型如圖3所示。

圖3 基于多模型Stacking的預測模型

Stacking模型訓練具體步驟如下:

(1)劃分原始數據集,其中劃分的方式為隨機采樣選取90%的數據作為訓練集,10%的數據作為測試集,在訓練集上使用五折交叉驗證的方式對單個算法模型進行訓練,確定每一個模型的最優參數,使單個模型性能達到最優狀態;

(2)確定Stacking第一層模型組合方式,利用劃分后的數據集來訓練,將第一層的各個模型的輸出組合形成新的數據集,具體過程如圖3中上半部分,其中每個模型最終的輸出結果為五次交叉驗證結果的平均值,將每個模型的輸出結果作為新的特征組成一個新的數據集;

(3)Stacking第二層模型用新生成的數據集來訓練,并輸出最終的預測概率值。

3.3 模型訓練與結果分析

實驗數據使用經過整理好的2016年1月到2019年4月上海市煙草專賣市場監管數據中的檢查數據以及對應的靜態和動態指標數據作為模型的數據集。總共166 563個樣本,244個特征,其中30個靜態特征和214個動態特征。

由于該模型預測屬于二分類預測問題,且最終的輸出值為概率值,為了直接分析模型輸出的概率值,預測評價指標采用Log_loss和AUC來評價模型的預測效果,避免了將其轉換成類別數值帶來的可能誤差。公式如下所示:

(7)

其中,N為樣本的總數;M為預測的類別數,比如文中實驗為二分類預測,M就為2;樣本i屬于分類j時yi,j為1,否則為0;pi,j為樣本i被預測為第j類的概率。

(8)

要想使融合模型Stacking性能達到最好,首先要確保其第一層的各個基學習器達到最佳的學習能力,因此將各個基學習器在原始數據集上單獨訓練,從而確定每一個模型的訓練參數,具體參數如表2所示。

表2 模型參數

在相同的數據集上對每個單一模型和Stacking模型分別進行訓練并預測,最佳模型通常具有較小的Log_loss值以及較大的AUC值,各個模型的預測結果對比如表3所示,對應ROC曲線如圖4所示。

表3 模型預測結果

圖4 ROC曲線對比

通過預測結果可知,單個模型中表現最好的是xDeepFM神經網絡算法,說明該算法可以很好地學習不同特征之間的交叉特性,加上模型兼具記憶和泛化的學習能力,使得其在最終的預測精度上表現更好。其次是LightGBM算法,兩項指標也都達到了不錯的效果,對比其他幾個機器學習基學習器,可以確定LightGBM算法比較適合處理這種大樣本,高維度,特征稀疏的數據集。雖然其他幾個基學習器的表現稍差,但是通過Stacking方式集成以后,效果上更加出色。一方面是由于Stacking模型可以很好地保持學習能力優異的單個學習器的性能,提升自身的預測能力;另一方面基學習器之間算法原理的明顯不同使得Stacking集成后的模型具有更加穩健的預測性能。

4 煙草異常數據挖掘模型的應用

經過前期階段充分測試、驗證模型的有效性后,該文提出的基于多模型Stacking集成學習的煙草異常數據挖掘模型,在上海市煙草專賣市場監管工作中進行了實際應用,對模型的推薦名單進行了稽查實證。

本次實證數據分別選取截止2019年06月30日和2019年07月31日這兩天的上海市煙草專賣數據,將數據處理成相應的特征指標作為模型的測試集,來對7月份和8月份的稽查名單進行預測,其中7月份推薦的煙草零售戶為1 322戶,8月份推薦的煙草零售戶為1 344戶,最后對稽查結果計算最終的查實率。具體數據如表4所示。

表4 實證結果

表中涉及到的計算公式如下:

(9)

其中,立案標準主要分為三類:(1)真煙流入,即零售戶從其他渠道低價購買香煙再高價賣出的情況,稽查時若零售戶真煙流入條數大于等于5條則進行立案處理;(2)假煙,即零售戶有販賣假煙的情況;(3)走私煙,即零售戶有銷售走私煙的情況。

此外表中部分地區存在實際檢查戶數低于當月需檢查戶數的情況,這是因為存在個別零售戶當月暫不經營的情況,實際檢查中做另外的處理。

上海市煙草專賣市場監管體系現有稽查方法主要依據違規加分制,即對零售戶的卷煙經營數據進行分析,對零售戶的違規行為按照一定的規則對其賦分,最終得分越高的零售戶,其違規風險越高。結合2016年1月到2019年4月的檢查數據及檢查結果分析得知,原有檢查方式在實際稽查中,每個月檢查的零售戶中有涉煙違法行為的查實率在5%左右。而由表4可以看出,在7月份和8月份Stacking模型預測名單的查實率分別達到了14.67%和17.34%,相比原有的傳統方式有比較大的提升,稽查實證結果進一步證明了Stacking模型的有效性。

5 結束語

基于深度神經網絡xDeepFM算法,機器學習LightGBM、XGBoost等算法,利用集成學習Stacking方式將多個算法學習器進行集成組合,構建了基于多模型Stacking集成學習的煙草異常數據挖掘預測模型。對2016年1月到2019年4月的上海市煙草專賣數據進行訓練及驗證分析,在2019年7月和8月對模型推薦名單進行實地稽查驗證,兩個月的查實率均達到了預期,使得上海市卷煙市場監管稽查工作中的人員調撥分配更加合理,對零售戶涉煙違法行為的監管更加精準,有效凈化了卷煙市場的經營環境。

同時,從稽查結果的查實率可以看到存在各區局查實率結果不平衡的問題,因此,在后續的研究中會在以下幾個方面繼續優化完善:

(1)可以引入權重因子,使各區局預測精度更加準確;

(2)除了機器學習算法外,著重研究目前較為流行的深度學習算法,挖掘特征之間更高階的有效信息;

(3)將異常行為綜合預測分析與現有市場監管處理流程進行充分結合,形成從數據預處理到模型構建再到評估應用的全流程處理模式,建立智能化的全流程市場監管處理流程,全面提升市場監管水平。

猜你喜歡
數據挖掘特征模型
一半模型
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 欧美成人午夜在线全部免费| 婷婷亚洲最大| 欧美色视频在线| 国产精品理论片| 亚洲婷婷六月| 欧美亚洲欧美区| 国产区在线观看视频| 国产精品亚洲欧美日韩久久| 免费激情网址| 国产一区二区三区免费观看 | 91色综合综合热五月激情| 午夜毛片免费看| 亚洲精品国产成人7777| 国产美女在线免费观看| 亚洲区第一页| 欧美综合激情| 67194亚洲无码| 99在线视频免费| 国产黄在线观看| 国产成人精品高清不卡在线| 国产成本人片免费a∨短片| 99久久国产综合精品女同| 国产九九精品视频| 国产微拍精品| 亚洲最猛黑人xxxx黑人猛交| 国产av无码日韩av无码网站| 国产真实乱子伦视频播放| 伊人成人在线视频| 尤物午夜福利视频| 尤物亚洲最大AV无码网站| 国产凹凸一区在线观看视频| 久久99精品国产麻豆宅宅| 2021天堂在线亚洲精品专区| 美女无遮挡被啪啪到高潮免费| 1769国产精品视频免费观看| 国产视频一二三区| 亚洲人成影视在线观看| 三上悠亚精品二区在线观看| 四虎成人精品| 制服丝袜在线视频香蕉| 亚洲区欧美区| 91精品国产自产在线观看| 亚洲综合二区| 国产欧美中文字幕| 久视频免费精品6| 亚洲人人视频| 国产拍揄自揄精品视频网站| 国产亚洲精品无码专| 99久久性生片| 国产精品无码久久久久AV| 国产主播喷水| 视频在线观看一区二区| 在线精品欧美日韩| 国产成+人+综合+亚洲欧美| 日韩精品无码不卡无码| 亚洲中文久久精品无玛| 亚洲水蜜桃久久综合网站| 狠狠躁天天躁夜夜躁婷婷| 免费xxxxx在线观看网站| 国产97视频在线观看| AV不卡在线永久免费观看| 国产成人欧美| 亚洲Va中文字幕久久一区| 国产微拍精品| 午夜爽爽视频| 精品一区二区无码av| 婷婷99视频精品全部在线观看| 国产成人精品三级| 四虎亚洲精品| 日韩国产一区二区三区无码| 国产亚洲现在一区二区中文| 亚洲第一成人在线| 91无码视频在线观看| 国产亚洲欧美日韩在线观看一区二区 | a级免费视频| 亚洲IV视频免费在线光看| 国产美女一级毛片| 99精品在线视频观看| 中文字幕在线观看日本| 亚洲男人在线| 国产情侣一区| 亚洲Av综合日韩精品久久久|