方佳鍇



摘要:為應對不均衡分類問題,提高分類準確率,提出了一種基于高斯混合模型的混合采樣集成方法GMHSE(Gaussian-Mixture-model-based Hybrid Sampling Ensemble method),首先通過高斯混合模型將數據劃分成多個類簇,然后在每個類簇上混合采樣獲得多個數據子集,最后基于Bagging技術在類簇內和類簇間進行加權投票完成分類預測。GMHSE通過聚類將對數據進行劃分,混合采樣保障在不丟失數據信息的同時獲得均衡數據集,最后利用集成學習進一步提升模型的泛化性能。實驗結果表明,相比已有的一些處理方法,GMHSE可以提升不均衡數據的分類性能。
關鍵詞: 不均衡分類; 高斯混合模型;集成學習;混合采樣
中圖分類號:TP3 ? ? ?文獻標識碼:A
文章編號:1009-3044(2022)02-0028-03
1 概述
在數據挖掘的許多應用,例如醫療診斷[1]、欺詐識別[2]等,都存在著類別不均衡問題。當數據集中來自不同類的實例數量差距較大時,則該數據集存在類別不均衡問題,會限制學習算法的泛化能力,影響分類性能。
目前已經提出了一些技術來克服這些問題,這些技術可以分為采樣方法、代價敏感學習和集成學習。采樣方法在通過對數據集進行預處理實現類別均衡,典型的算法有隨機欠采樣方法和隨機過采樣。代價敏感學習[3]通過對少數類樣本的誤分類賦予較大的代價,使分類器更重視少數類樣本的訓練,從而降低整體分類誤差。集成學習方法結合多個基礎學習器,可以顯著分類準確性。將集成學習方法與采樣方法相結合,可以有效處理不均衡分類問題[4],典型算法包括RUSBoost[5]、SMOTEBagging[6]等。這類方法一般通過某種采樣方法生成一系列子數據集,再用集成學習方法對新實例進行預測。然而單種采樣方法具有局限性,欠采樣會刪除多數類樣本數據導致巨大的信息損失,過采樣會使模型有過擬合風險。此外,目前的方法直接對整個數據集進行采樣,沒有在數據空間上做更細致的劃分,這也限制了模型的分類準確性。
本文針對不均衡分類問題提出了一種基于高斯混合模型的混合采樣集成方法GMHSE(Gaussian-Mixture-model-based Hybrid Sampling Ensemble method)。首先,高斯混合模型將數據劃分到不同類簇。接著,根據類簇內的類別不均衡比例進行混合采樣。在每個類簇上采樣得到的數據能更全面地代表原始數據的信息,混合采樣方法則避免了單種采樣方法的弊端。最后,基于Bagging方法在類簇內和類簇間進行加權投票,獲得最終的預測值。本篇文章的主要工作可以總結為:(1)文章提出了一種新的應對不均衡分類問題的算法GMHSE;(2)在8個公開數據集上進行了實驗,結果表明GMHSE相比其他方法表現更好。
后續文章的組織結構如下:第2節詳細介紹了GMHSE算法模型,第3節介紹實驗設置及結果分析,第4節為結論部分。
2 算法模型
2.1 ?高斯混合模型
高斯混合模型(Gaussian Mixture Model,GMM)模型是多個多元高斯混合分布函數的線性組合[7],定義為Pr(x)= ∑πk N(x; uk和θk),一共有K個高斯分布,uk和θk為第k個高斯分量的參數,πk是該高斯混合分量的權重因子。理論上GMM 可以擬合出任意類型的分布。
采用GMM對訓練集(包括多數類實例和少數類實例)進行擬合,其類簇數量K可以根據貝葉斯信息準則(Bayesian information criteria,BIC)[8]選擇。BIC = kln(n)+2ln(L),其中k為模型參數個數,n為樣本數量,L為似然函數,該公式引入的懲罰項考慮了樣本數量,樣本數量過多時,可有效防止模型復雜度過高。BIC值越低,模型對數據的擬合越好。
用一個含有K個高斯分量的GMM模型對單個實例進行預測時,可以得到一個K維向量v=( p1, p2, ..., pK),pk代表該實例屬于第k個高斯分量(即第k個類簇)的概率值。因此GMM模型可以獲得實例屬于各個類簇的概率值,相比于k-means等算法只能獲取所屬類簇標簽,GMM模型可以獲得實例在類簇上的更多信息。
2.2 ?類簇內混合采樣
多數類實例與少數類實例的數量之比稱為不均衡比例(imbalance ratio, IR)。在完成聚類后,根據SMOTE算法[9]合成一定數量的少數類實例,使類簇下的IR達到指定的閾值。本文中將閾值IRthreshold設置為9。先聚類再進行過采樣,實例的相似度更高,更有利于基于KNN算法合成新實例。此外,由于原有的少數類實例都屬于同一類簇,可以確保合成的新實例仍落在類簇內,即仍落在學習算法的決策邊界之內,因此生成的少數類實例具有較好的可靠性。
不同于直接在整個訓練集上做欠采樣,GMHSE對類簇內的多數類實例進行有放回欠采樣,采樣將迭代N次。采樣后的數據集與類簇內的少數類實例數據拼接,形成多個類別均衡的數據子集,其IR不超過R:1。本文中N和R都設置為5。最后用基礎學習器F擬合數據子集。基于Bagging思路進行欠采樣,可以充分利用盡可能多的多數類實例,在實現類別均衡的同時避免欠采樣導致的數據損失。
2.3 新實例預測
新實例x的預測結合了GMM的類簇預測和集成學習的有權投票,一共包括三個步驟。
1) 預測所屬類簇。實例經過GMM模型預測可以得到一個K維向量v=( p1, p2, ..., pK),pk代表該實例屬于第k個類簇的概率值。
2) 獲取類簇上的預測值。在每個類簇上經過混合采樣形成了多個數據子集,以及相應的一組基學習器。根據學習器的正確率計算權重: weightki = |Dki0’| / |Dk0| + |Dki1’| / |Dk1|,其中weightki表示第k個類簇第i個學習器的權重,|Dk0|和|Dk1|分別表示第k個類簇上多數類和少數類實例的數量,|Dki0’|和|Dki1’|則表示被學習器正確預測的多數類實例和少數類實例數量。在該式子中,根據實例數量賦予了不同類別不同的權值,從而影響基學習器的權重值。新實例在該類簇上各個基學習器獲得預測值,在相應類別添加基學習器的權重。
3) 類簇間投票獲取最終預測值。新實例在各個類簇上獲得相應預測值后,根據第1)步中的概率向量,以pk作為權重對各個預測值進行累加,權重值較大的類別為最終預測值,即y = argmax(∑ pkwk0, ∑ pkwk1),wkc為該實例在第k個類簇上類別c的累計權重,c為0(多數類)或1(少數類)。
3 實驗
3.1 數據集
為了驗證上述算法的有效性,本節在8個不均衡公開數據集[10]上進行了對比實驗證。數據集詳細信息如表1所示。
3.2 評估指標
在本實驗中,主要依據F1值和AUC值兩個指標衡量算法性能。對于二分類問題,將少數類看作正例,多數類看作負例。Recall為召回率,表示實際為正例且預測為正例的樣本數量在所有正例樣本中的占比;Precision為精準率表示實際為正例且預測為正例的樣本數量在所有預測為正例的樣本中的占比,二者基于表2所示的混淆矩陣計算得到。F1值是召回率和精準率的調和平均,適用于不均衡分類問題的評估。AUC(Area Under Curve)是ROC曲線(Receiver Operating Characteristic)和橫坐標軸之間的面積,值域為[0,1],數值越大表示模型表現越好。
Recall = TP / (TP + FN)
Precision = TP / (TP + FP)
F1 = 2 * Recall * Precision / (Recall + Precision)
3.3 實驗結果
實驗中所有算法的基學習器均為C4.5決策樹。在每個數據集采用五折交叉驗證求得最終評估指標。實驗結果如表3和表4所示,最優結果已經加粗表示。本文提出的GMHSE模型,F1指標下在6個數據集中取得最優、在所有數據集平均排名為1.375,在AUC指標下相較于其他算法均有大幅度提升、在8個數據集中均取得最優。由于GMHSE在高斯混合模型聚類的基礎上,在每個類簇合了欠采樣和過采樣構造數據子集,在合成更可靠的少數類實例、解決類別不均衡的同時盡可能避免了多數類實例的信息損失,因此在最終集成預測時能取得更好的結果。
4 結論
本文針對不均衡分類問題,提出了一種新型的基于高斯混合模型的混合采樣集成方法GMHSE,首先基于高斯混合模型將數據集分成多個類簇,然后在類簇上進行混合采樣得到多個數據子集,再結合集成學習方法進一步增強模型的泛化能力,通過類簇內和類簇間的加權投票獲得最終的預測結果。在8個公開數據集上的實驗表明,GMHSE在AUC、F1兩個指標下相較于已有的方法均取得了最好的分類性能。
參考文獻:
[1] He Y Y,Zhou J H,Lin Y P,et al.A class imbalance-aware Relief algorithm for the classification of tumors using microarray gene expression data[J].Computational Biology and Chemistry,2019,80:121-127.
[2] Moepya S O,Akhoury S S,Nelwamondo F V.Applying cost-sensitive classification for financial fraud detection under high class-imbalance[J].2014 IEEE International Conference on Data Mining Workshop,2014:183-192.
[3] JM Yang,C Gao,ZY Qu,et al. Improved Cost-sensitive Random Forest for Imbalanced Classification[J].電腦學刊, 2019,30(2):213-223.
[4] Galar M. A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches[J]. IEEE Transactions on Systems Man & Cybernetics Part C Applications & Reviews, 2012, 42(4): 463–484.
[5] Seiffert C, Khoshgoftaar T M, Hulse J V, et al. RUSBoost: Improving classification performance when training data is skewed[C]//International Conference on Pattern Recognition, 2008:1-4.
[6] Zhang Y Q,Zhu M,Zhang D L,et al.Improved SMOTEBagging and its application in imbalanced data classification[C]//IEEE Conference Anthology.January 1-8,2013,China.IEEE,2013:1-5.
[7] Wang Z F, Zarader J L, Argentieri S. Gaussian Mixture Models[C]// 2019 IEEE Symposium Series on Computational Intelligence (SSCI), 2019.
[8] Celeux G,Soromenho G.An entropy criterion for assessing the number of clusters in a mixture model[J].Journal of Classification,1996,13(2):195-212.
[9] Maciejewski T,Stefanowski J.Local neighbourhood extension of SMOTE for mining imbalanced data[C]//2011 IEEE Symposium on Computational Intelligence and Data Mining.April 11-15,2011,Paris,France.IEEE,2011:104-111.
[10] Alcalá-Fdez J,Fernández A,Luengo J,et al.KEEL data-mining software tool:data set repository,integration of algorithms and experimental analysis framework[J].Journal of Multiple-Valued Logic and Soft Computing,2011,17(2/3):255-287.
[11] Galar M,Fernández A,Barrenechea E,et al.EUSBoost:Enhancing ensembles for highly imbalanced data-sets by evolutionary undersampling[J].Pattern Recognition,2013,46(12):3460-3471.
[12] 秦雅娟,林小榕,張宏科.基于EasyEnsemble算法和SMOTE算法的不均衡數據分類方法:CN108596199A[P].2018-09-28.
【通聯編輯:光文玲】
2317501186219