基于混合多樣性生成與修剪的集成單類分類算法

2015-07-18 12:04:47劉家辰苗啟廣曹宋建鋒權義寧

電子與信息學報 2015年2期

關鍵詞：分類實驗方法

劉家辰苗啟廣曹瑩宋建鋒權義寧

(西安電子科技大學計算機學院西安 710071)

基于混合多樣性生成與修剪的集成單類分類算法

劉家辰苗啟廣*曹瑩宋建鋒權義寧

(西安電子科技大學計算機學院西安 710071)

針對傳統集成學習方法直接應用于單類分類器效果不理想的問題，該文首先證明了集成學習方法能夠提升單類分類器的性能，同時證明了若基分類器集不經選擇會導致集成后性能下降；接著指出了經典集成方法直接應用于單類分類器集成時存在基分類器多樣性嚴重不足的問題，并提出了一種能夠提高多樣性的基單類分類器混合生成策略；最后從集成損失構成的角度拆分集成單類分類器的損失函數，針對性地構造了集成單類分類器修剪策略并提出一種基于混合多樣性生成和修剪的單類分類器集成算法，簡稱為PHD-EOC。在UCI標準數據集和惡意程序行為檢測數據集上的實驗結果表明，PHD-EOC算法兼顧多樣性與單類分類性能，在各種單類分類器評價指標上均較經典集成學習方法有更好的表現，并降低了決策階段的時間復雜度。

機器學習；單類分類；集成單類分類；分類器多樣性；集成修剪；集成學習

1 引言

單類分類[1](One-class classification)是僅使用一類訓練樣本建立分類模型的機器學習問題。單類分類僅要求一類樣本被有效采樣，稱為目標類(簡稱為正類)；其它類由于獲取代價過高、無法枚舉、采樣不充分等原因無法得到有效采樣，極端情況下甚至無法獲取樣本，統稱為異常類(簡稱為負類)。例如，故障診斷中的故障類和人臉檢測中的非人臉類等，都是典型的單類分類問題中的負類。單類分類算法通過構建正類的數據描述模型，將其與負類區分，在故障檢測[2]、入侵檢測[3]、異常檢測[4]等應用中取得了良好的效果。

迄今為止，研究者已提出多種單類分類算法，其中支持向量數據描述[5](Support Vector Data Description, SVDD)和單類支持向量機[6](One Class Support Vector Machine, OCSVM)是最流行的兩種。單類分類器集成是提升單類分類器性能的有效途徑，最初由文獻[7]提出，之后的研究者相繼將裝袋(Bootstrap Aggregation, Bagging)、隨機子空間(Random Subspace Method, RSM)和Boosting等集成學習方法用于單類分類算法[810]-。然而以上文獻同時指出，傳統的集成學習方法應用于單類分類器的表現并不理想，在一些數據集上，集成單類分類器的性能甚至低于單個單類分類器(以下稱為基單類分類器)，但造成該問題的原因在現有文獻中并沒有得到深入分析。

本文首先以概率密度水平集估計模型為基礎，推導出集成單類分類器的風險上下界，說明集成單類分類器性能的提升不僅需要基單類分類器集合具有足夠的多樣性，而且需要精心選擇參與集成的基分類器。第二，由于單類分類器集成的多樣性問題尚未得到充分研究[11]，本文分析了傳統集成方法用于單類分類器集成時存在的多樣性不足的問題，并提出了一種混合多樣性生成方法提高基單類分類器集合多樣性。第三，拆解集成單類分類器的損失函數并分析其構成，提出了一種尋找最優基單類分類器集成順序的方法。基于以上分析、證明和實驗，提出了修剪混合多樣性集成單類分類器(Pruned Hybrid Diverse Ensemble One-class Classifier, PHD-EOC)，并通過實驗說明PHD-EOC算法能夠更有效地提升集成單類分類器的性能。

2 集成單類分類多樣性的理論分析

首先給出單類分類問題的形式化描述：

其中X={x|x∈?N,i=1,2,…,n}從固定但未

Posii知的分布Q中獨立同分布地產生，sign(·)是符號函數，d(x|XPos)是x到目標類XPos的距離度量，d(x | XPos)與閾值θ的差值被用于判定樣本x是否屬于正類。僅基于該形式化描述并不能有效開展理論分析，這是由于單類分類器必須對負類樣本的分布做某種先驗假設，否則單類分類問題不可解[12]。常用的假設是負類樣本分布的集中程度低于正類樣本，故可將單類分類等價于概率密度水平集估計(Density Level Set Estimation, DLSE)，即設在可測空間X中，有已知分布μ(負類樣本的分布)和未知分布Q(正類樣本的分布)及Q的概率密度h，在給定ρ∈(0,1)時，得到密度函數h上ρ水平集{ρ＜h}的估計。采用文獻[12]提出的與以上兩種評價具有一致性的概率測度評價指標：

其中s是分布Q和分布μ的平衡參數，()·E表示期望，I(·)是指示函數，指示函數在括號內邏輯表達式成立時取值為1，否則取值為0。對于訓練數據集={|∈,i=1,2,…,n}，單類分類的經驗風險可以定義為

其中ρ是在DLSE中定義的參數，在單類分類問題中ρ=1-ε,ε是正類拒絕率，即ρ代表正類的接受率。

在式(3)的基礎上，假設各基分類器對訓練集的n個正類樣本均有k個分類錯誤，對負類樣本的分類錯誤率均為p。記基分類器集合中基分類器個數為T，不失一般性，假設T為奇數。多數投票可能導致的最大風險在每一個錯誤的集成決策均只由個錯誤的基分類器決策投票得到，由此得到集成風險的上界為

同理，多數投票的最小風險是盡量多的錯誤投票被包含在正確的集成決策中，因此集成風險的下界為

為直觀顯示集成風險的上下界，令T=5, ρ=0.9并遍歷k和p的可能取值，得到結果如圖1所示。

圖1中R(H)Upper和R(H)Lower分別表示集成風險的上界和下界，R(H)Mean是基分類器的平均損失。可見雖然集成單類分類器的風險下界隨著k和p的降低而降低，但其上界甚至比基單類分類器的平均損失更高。這說明合適的基分類器生成與選取可以降低集成單類分類器的損失，但不合適的基分類器生成與選取可能反而提高單類分類器的損失，因此有必要深入研究基單類分類器的生成與選擇方法。

3 PHD-EOC算法

3.1 提升基分類器集合的多樣性

以文獻[13]為代表的研究者提出了一種混合多樣性生成策略，即首先混合使用多種基分類器生成方法生成基分類器集合，再將這些基分類器集成以提高基分類器集合的多樣性。本文將該方法引入單類分類器集成，原因如下：第一，單類分類器的原理導致很多原本適用于二分類器的多樣性生成方法無法使用，例如糾錯輸出編碼(Error Correcting Output Codes, ECOC)和輸出反轉(flipping output)等，而混合使用多種多樣性生成方法是提升基單類分類器多樣性的可行途徑；第二，單一集成方法構成集成單類分類器的假設空間受限于具體的基分類器生成方法，而混合使用多種基分類器生成方法可以擴大假設空間；第三，單一集成方法的集成分類器性能提升的大部分由前幾個基分類器完成[14]，因此混合使用多種基分類器生成方法能夠充分利用每一種集成方法的提升效果。

以下實驗使用分類器投影通過將Bagging, RSM和Boosting方法生成的基單類分類器映射到分類器投影空間[15](Classifier Project Space, CPS)中來驗證混合多樣性生成方法的效果。CPS建立在分類器距離度量，故根據單類分類器的特性，以不一致性度量為基礎定義單類分類器ih和jh在數據集X上距離的指標。

UCI數據集①UCI Repository of Machine Learning Databases, http://archive. ics.uci.edu/ml/，訪問時間2014年5月10日中Sonar數據上以“Rock”為正類的實驗結果如圖2所示，其中“TRUE”標記了正確決策參考點的位置，其余各形狀的標記表示對應方法生成的基分類器。以“TRUE”標記為圓心繪制圓形參考線，若兩個基分類器位于同一參考線上，認為它們性能近似相等。基分類器在CPS空間上歐氏距離小則多樣性低，反之多樣性高，即基分類器在CPS空間中分布的集中程度越高則多樣性越低。從圖2(a)，圖2(b)和圖2(c)中基分類器分布情況可以看出：單一方法生成的基分類器分布集中，多樣性較低。而如圖2(d)所示，使用不同方法生成的基分類器投影到同一個CPS空間時，生成的基分類器之間明顯具有較高的多樣性。在多個UCI數據集(參見4.1節列出的UCI數據集)上均可得出類似的實驗結果，這些實驗說明單一集成方法生成的基分類器集合多樣性不足，使用混合多樣性生成方法可以有效提高基單類分類器集合的多樣性。

圖2 幾種方法生成基分類器的CPS空間分布圖

3.2 修剪集成單類分類器

混合使用多種基分類器生成方法可以提高基分類器的多樣性，但單純提升多樣性并不能保證集成單類分類器性能的提升。一種建立在足夠多樣性基分類器集合基礎上的方法是以最終集成分類器的性能為目標選擇部分基分類器，即對集成單類分類器進行修剪(Ensemble Pruning，也被稱為選擇性集成)。修剪步驟不僅能確保單類分類器集成的性能提升效果，有效平衡多樣性與性能，也能降低集成分類器的計算復雜度。雖然集成分類器修剪在二分類器上已經取得了一些研究成果[16,17]，但集成單類分類器修剪的研究還是空白。

為此，下面從集成單類分類器損失的角度出發，進一步分析選擇基單類分類器的方法。受試者工作特征[18](Receiver-Operating Characteristics, ROC)曲線下包圍的面積(Area Under the Curve, AUC)是單類分類研究中最常用的評價指標[1]。從統計特性上講，AUC與排序問題中的Wilcoxon排序檢驗等價[18]，因此可定義集成單類分類器的損失函數如下，為書寫簡便起見以下推導中字面上省略PosX這一符號。

其中x+與x-分別是從正類、負類中隨機抽取的樣本，函數D是集成單類分類器對樣本與目標類之間的距離度量，在采用多數投票時D(x)=(1/T)I(d(x)＞θ)，在此基礎上，定義所有基單類i i分類器的平均損失為

為度量集成單類分類器相對于基分類器平均性能的提升程度，計算其損失之差為

修剪集成單類分類器的目標是選擇合適的基單類分類器集合{di}使μ最小化，將式(7)，式(8)代入式(9)并整理，可以得到μ的表達式。

為建立多樣性與集成單類分類器修剪的關系，定義某一個基單類分類器與集成分類器的不一致性為

將式(10)依集成分類器決策正確與否的概率展開，同時代入式(11)，可以得到μ與多樣性的關系為其中P表示集成分類器決策正確與否的事件概率。式(12)共有4項，其中第3項和第4項出現的概率很低，可以忽略。第1項說明在在集成分類器分類正確時，基分類器的不一致性會增大損失L；第2項說明在集成分類器分類錯誤時，基分類器的不一致性會減小損失L。據此，可以得到集成單類分類器修剪策略：即盡可能提升集成分類器分類錯誤時基分類器的多樣性，同時避免集成分類器分類正確時基分類器的多樣性過高。

從基分類器集合中選擇最優基分類器子集是一個NP完全問題[17]，因此假設大小為t的最優基分類器子集總是包含于大小為t+1的最優基分類器子集，從而將該問題轉化為尋找最優的基分類器集成順序[17,19]。根據對式(12)的分析，首先需要得到含有正負類樣本的驗證樣本集，訓練數據中缺乏的負類樣本可通過人工生成的方法得到[20]，從而得到驗證樣本集XVal={(xi,yi)|xi∈,i=1,2,…,l,yi∈{-1, 1}}。將驗證樣本集ValX拆分為被集成分類器正確分類的和被錯誤分類的。根據對集成分類器分類正確和錯誤樣本多樣性的不同要求，從基分類器集合H中選擇第k個參與集成的基單類分類器hk的方法為

式(13)中的函數eX(hi,hj)如式(6)所定義，該基分類器選擇方法能夠以式(12)的分析為基礎尋找損失最小的基分類器組合。

綜合以上分析得到基于多樣性的選擇性集成單類分類算法PHD-EOC，其流程為：

訓練階段：

(1)采用均勻生成負類樣本的方法[21]，得到驗證樣本集

(2)分別使用M中的各多樣性生成方法訓練基分類器，得到基分類器集合。

(3)使用H對驗證樣本集分類，并以分類正確與否為依據將驗證樣本集拆分為和，即

輸出：基分類器集合HSel={h1,h2,…,ht}

測試階段：

分別使用HSel中的基分類器對樣本分類，再采用使用多數投票策略即得到PHD-EOC算法的最終決策。

3.3 PHD-ECO算法的時間復雜度分析

記訓練樣本數為M，假設集成過程中用到的單類分類算法為OCSVM，其訓練時間復雜度是O(M3)，決策時間復雜度是O(M)，生成T個基單類分類模型的時間復雜度為T·O(M3)，這是使用Bagging, RSM和Boosting方法集成單類分類算法的訓練時間復雜度。與傳統集成方法相比，PHD-EOC算法的額外時間消耗是對基分類器的多樣性分析和排序過程，其中多樣性分析的時間復雜度是T·O(M)，使用快速選擇算法選出前γ·T個基分類器的時間復雜度為O(T)。因此PHD-EOC訓練階段的時間復雜度為T·O(M3)+T·O(M)+O(T)≈T·O(M3)，即絕大多數時間復雜度源自基單類分類器的訓練時間，因此PHD-EOC相對于傳統集成方法的訓練階段時間復雜度提升很小。

在決策階段，全部基分類器參與集成的決策時間復雜度是T·O(M)，而PHD-EOC算法的決策時間復雜度是γ·T·O(M)，決策階段時間復雜度有較大降低，降低的程度取決于基分類器選擇比率γ。

4 實驗結果與分析

4.1 標準數據集實驗

為驗證PHD-EOC算法的有效性，將其與選擇傳統集成學習方法進行對比。實驗程序使用MATLAB r2012b編寫，基分類器中OCSVM使用LIBSVM[22]提供的算法實現，NegSVDD算法通過修改LIBSVM實現。

實驗中選擇Bagging, RSM方法和Boosting這3種最常用的集成學習方法作為對比算法。由于并沒有廣泛認可地特別針對單類分類問題的標準數據集，單類分類研究通常使用UCI數據集的二分類數據集，并指定兩類中樣本較多的一類為正類[1]。實驗從UCI數據集中選擇了單類分類研究常用的Biomed, Breast, Diabetes, Ecoli, Heart, Hepatitis, Imports, Sonar, Spectf和Wine等10個數據集構成11個單類分類數據集，其中Sonar數據集在使用傳統集成單類分類器時效果較差[8,9]，故以其兩類分別為正負類形成了兩個單類分類數據集。

實驗采用二迭交叉驗證重復10次取平均值，使用OCSVM算法作為基分類器生成算法，其中正類拒絕率設置為0.1。OCSVM使用常用的RBF核函數，核函數中關鍵的參數核帶寬使用二迭交叉驗證的網格搜索得到，搜索范圍是{2k}，其中k取[-10,10]內的整數，實驗過程為：

步驟1 分別按照Bagging, RSM和Boosting各自的基分類器生成方法，各得到90個基單類分類器并按照各自的集成方式集成，分別記為“Bagging”,“RSM”和“Boosting”。同時，從3種方法的基分類器集合中各抽取前30個基分類器，這些基分類器多數投票得到的集成單類分類器記為“ALL”。

步驟.2 使用PHD-EOC算法，分別取選擇率γ為0.2, 0.4和0.6，修剪步驟3得到的集成單類分類器，將得到的集成單類分類器模型分別記為“PHDEOC(γ=0.2)”,“PHD-EOC (γ=0.4)”和“PHDEOC (γ=0.6)”。

步驟3 評估前兩個步驟得到的7個集成單類分類器，分別比較它們的AUC, F指標(F-measure，取1α=，記為F1)和G指標(G-measure，取1α=，記為G1)，完整的對比實驗結果如表1所示。

從表1給出的實驗結果中可以看出：

(1)在基分類器個數相等的前提下，混合使用多種方法生成基分類器集合也可以有效地提高集成基單類分類器的性能。但在一些數據集上“ALL”和RSM等單一方法的性能并無明顯差距，這說明了單獨使用混合多樣性生成策略提高多樣性是不夠的，需要通過PHD-EOC算法的修剪步驟提高集成單類分類器性能。

(2)PHD-EOC算法的AUC, F-measure和G-means指標明顯優于Bagging, RSM, Boosting和“ALL”算法，說明選擇性集成確實能夠在降低參與集成基分類器個數的同時，提高集成單類分類器的性能。

(3)修剪步驟的最優選擇率γ因數據集而異，但實驗結果表明在基分類器個數相同的情況下，經過PHD-EOC排序后的集成分類器性能幾乎總是優于隨機順序集成。

為說明基分類器集成順序對集成分類器性能的影響，將PHD-EOC算法和隨機順序集成的“ALL”算法的迭代性能曲線對比如圖3所示。在迭代過程中，PHD-EOC算法的迭代AUC指標幾乎始終優于隨機集成順序的“ALL”集成分類器，說明依照多樣性分析得到的集成順序能夠有效提升集成單類分類器的性能。

表1 UCI數據集上的對比實驗結果

4.2 惡意程序檢測實驗

本節通過將PHD-EOC算法用于計算機安全領域中惡意程序行為檢測來進一步評估其在實際應用問題中的表現。在惡意程序檢測問題中，正常程序種類繁多，功能各異，收集樣本的難度很大，而惡意程序行為具有普遍的相似性，并且可以從一些專門的網站批量獲取，容易得到數量較大的惡意程序樣本集。因此正常程序類樣本很難被視為整個正常程序類別的充分采樣。單類分類模型不對負類樣本的采樣情況做任何要求，因此將正常程序類作為負類更符合樣本特性，并有效降低誤檢率。實驗采用實驗室自主開發的Osiris系統[23]捕獲到的程序行為數據，每個惡意程序樣本以2488維的離散值特征表示。數據集包含3155個正常程序樣本和15263個惡意程序樣本。其中正常程序樣本采用惡意程序分析研究中通行的做法收集自全新安裝的Windows 7操作系統，惡意程序從VX-Heaven②VX-Heaven, http://vxheaven.org，訪問時間2014年5月10日公開的惡意程序數據庫以及MLSEC③Machine Learning for Computer Security, http://www.mlsec.org，訪問時間2014年5月10日研究組提供的樣本中收集整理，包含后門、蠕蟲、Rootkit、木馬和病毒等常見類別的65個重要惡意程序家族，包含了主要惡意程序類別和各類別中典型的惡意程序家族，具有較充足的覆蓋能力，能夠代表絕大多數惡意程序。

圖3 PHD-EOC算法和隨機集成順序的集成單類分類器迭代AUC變化曲線

從表2中的實驗結果可以看出：首先，3種經典集成方法中RSM方法和Bagging方法效果較Boosting方法效果略好，這是因為惡意程序行為數據中存在較多難以手工去除的噪聲，對噪聲敏感的Boosting方法性能造成了一定影響。其次，混合多樣性生成的“ALL”算法較Bagging, RSM和Boosting等單一集成算法性能更優，該結果與之前分析和實驗的結果一致，進一步驗證了提升基分類器集多樣性能夠提高集成單類分類器的性能。最后，PHD-EOC算法在多數情況下取得了比“ALL”更優的性能，這驗證了經過修剪的集成單類分類器的性能優勢。此外，選擇適中的選擇率γ能夠取得較好的集成單類分類器修剪結果。

表2 PHD-EOC算法在惡意程序行為檢測數據集上的實驗結果

由以上實驗分析可知，PHD-EOC算法的性能普遍優于其他集成單類分類算法，進一步驗證了PHD-EOC算法在較復雜的實際問題中的有效性，說明PHD-EOC算法具有較大的推廣應用價值。

5 結束語

本文首先證明了單類分類器集成的性能提升效果，也指出不經選擇的集成可能帶來的風險。通過實驗分析了傳統集成方法在單類分類器集成中存在的多樣性不足是制約其性能的主要原因，證明了修剪步驟對集成單類分類器的作用，同時通過拆解集成損失得到了具體的修剪策略。在以上證明和分析的基礎上提出了PHD-EOC算法，該算法通過混合多樣性生成方法得到多樣性強的基單類分類器集合，之后通過分析基分類器多樣性與集成性能提升之間的關系，選擇一部分基分類器參與集成，在標準數據集和實際惡意程序檢測數據上的實驗結果表明，PHD-EOC算法能夠得到性能優于將全部基分類器集成的集成單類分類器。

[1] Tax D. One-class classification[D]. [Ph.D. dissertation]. Delft University of Technology, 2001.

[2] Xiao Ying-chao, Wang Huan-gang, Zhang Lin, et al.. Two methods of selecting Gaussian kernel parameters for one-class SVM and their application to fault detection[J]. Knowledge-Based Systems, 2014, 59(1): 75-84.

[3] Mennatallah A, Markus G, and Slim A. Enhancing one-class support vector machines for unsupervised anomaly detection[C]. Proceedings of the ACM SIGKDD Workshop on Outlier Detection and Description, Chicago, USA, 2013: 8-15.

[4] Shahid N, Naqvi I, and Qaisar S. One-class support vector machines: analysis of outlier detection for wireless sensor networks in harsh environments[J]. Artificial Intelligence Review, 2013, 39(1): 1-49.

[5] Tax D and Duin R. Support vector data description[J]. Machine Learning, 2004, 54(1): 45-66.

[6] Sch?lkopf B, Platt J, Shawe-Taylor J, et al.. Estimating the support of a high-dimensional distribution[J]. Neural Computation, 2001, 13(7): 1443-1471.

[7] Tax D and Duin R. Combining one-class classifiers[C]. Proceedings of 2nd International Workshop on Multiple Classifier Systems, Cambridge, UK, 2001: 299-308.

[8] Segui S, Igual L, and Vitria J. Bagged one-class classifiers in the presence of outliers[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2013, 27(5): 1-21. [9] Cheplygina V and Tax D. Pruned random subspace method for one-class classifiers[C]. Proceedings of the 10th International Conference on Multiple Classifier Systems, Naples, Italy, 2011: 96-105.

[10] Ratsch G, Mika S, Scholkopf B, et al.. Constructing boosting algorithms from SVMs: an application to one-class classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(9): 1184-1199.

[11] Aggarwal C. Outlier ensembles: position paper[J]. ACM Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD) Explorations Newsletter, 2013, 14(2): 49-58.

[12] Steinwart I, Hush D, and Scovel C. A classification framework for anomaly detection[J]. Journal of Machine Learning Research, 2006, 6(1): 211-232.

[13] Caruana R, Niculescu-Mizil A, Crew G, et al.. Ensemble selection from libraries of models[C]. Proceedings of 21st International Conference on Machine Learning, Banff, Canada, 2004: 137-144.

[14] Kotsiantis S. Combining bagging, boosting, rotation forest and random subspace methods[J]. Artificial Intelligence Review, 2011, 35(3): 223-240.

[15] P kalska E, Duin R, and Skurichina M. A discussion on the classifier projection space for classifier combining[C]. Proceedings of 3rd International Workshop on Multiple Classifier Systems, Cagliari, Italy, 2002: 137-148.

[16] Guo L and Boukir S. Margin-based ordered aggregation for ensemble pruning[J]. Pattern Recognition Letters, 2013, 34(6): 603-609.

[17] Martinez-Muoz G, Hernández-Lobato D, and Suárez A. An analysis of ensemble pruning techniques based on ordered aggregation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 245-259.

[18] Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8): 861-874.

[19] Tamon C and Xiang J. On the boosting pruning problem[C]. Proceedings of 11th European Conference on Machine Learning, Catalonia, Spain, 2000: 404-412.

[20] Désir C, Bernard S, Petitjean C, et al.. One class random forests[J]. Pattern Recognition, 2013, 46(12): 3490-3506.

[21] Tax D and Duin R. Uniform object generation for optimizing one-class classifiers[J]. The Journal of Machine Learning Research, 2001, 2(1): 155-173.

[22] Chang C and Lin C. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 1-27.

[23] Cao Ying, Liu Jia-chen, Miao Qi-guang, et al.. Osiris: a malware behavior capturing system implemented at virtual machine manage layer[C]. Proceedings of 8th International Conference on Computational Intelligence and Security, Guangzhou, China, 2012: 534-538.

劉家辰：男，1988年生，博士生，研究方向為機器學習與計算機安全.

苗啟廣：男，1972年生，教授，博士生導師，研究方向為智能圖像處理與機器學習.

曹瑩：女，1987年生，博士生，研究方向為機器學習.

宋建鋒：男，1978年生，講師，研究方向為計算機安全與機器學習.

權義寧：男，1968年生，副教授，研究方向為網絡計算與網絡安全.

Ensemble One-class Classifiers Based on Hybrid Diversity Generation and Pruning

Liu Jia-chen Miao Qi-guang Cao Ying Song Jian-feng Quan Yi-ning
(School of Computer Science and Technology, Xidian University, Xi’an 710071, China)

Combining one-class classifiers using the classical ensemble methods is not satisfactory. To address this problem, this paper first proves that though one-class classification performance can be improved by a classifier ensemble, it can also degrade if the set of base classifiers are not selected carefully. On this basis, this study further analyzes that the lacking of diversity heavily accounts for performance degradation. Therefore, a hybrid method for generating diverse base classifiers is proposed. Secondly, in the combining phase, to find the most useful diversity, the one-class ensemble loss is split and analyzed theoretically to propose a diversity based pruning method. Finally, by combining these two steps, a novel ensemble one-class classifier named Pruned Hybrid Diverse Ensemble One-class Classifier (PHD-EOC) is proposed. The experimental results on the UCI datasets and a malicious software detection dataset show that the PHD-EOC strikes a better balance between the diverse base classifiers and classification performance. It also outperforms other classical ensemble methods for a faster decision speed. Key words: Machine learning; One-class classifier; Ensemble One-class Classifier (EOC); Classifier diversity; Ensemble pruning; Ensemble learning

TP181

1009-5896(2015)02-0386-08

10.11999/JEIT140161

2014-01-24收到，2014-06-03改回

國家自然科學基金(61272280, 41271447, 61272195)，教育部新世紀優秀人才支持計劃(NCET-12-0919)，中央高校基本科研業務費專項資金(K5051203020, K5051303016, K5051303018, BDY081422, K50513100006)和西安市科技局項目(CXY1341(6))資助課題

*通信作者：苗啟廣 qgmiao@gmail.com