















收稿日期:2022-03-29;修回日期:2022-05-13" 基金項目:國家自然科學基金資助項目(62062004);寧夏自然科學基金資助項目(2020AAC03216,2022AAC03279);北方民族大學研究生創新項目(YCX22191)
作者簡介:李昂(1999-),男,河南洛陽人,碩士研究生,主要研究方向為數據流集成分類;韓萌(1982-),女(通信作者),河南商丘人,教授,博士,主要研究方向為數據挖掘(2003051@nmu.edu.cn);穆棟梁(1998-),男,山西大同人,碩士研究生,主要研究方向為數據流集成分類;高智慧(1996-),女,山東臨沂人,碩士研究生,主要研究方向為數據挖掘;劉淑娟(1998-),女,河南新鄉人,碩士研究生,主要研究方向為數據挖掘.
摘 要:
現實中許多領域產生的數據通常具有多個類別并且是不平衡的。在多類不平衡分類中,類重疊、噪聲和多個少數類等問題降低了分類器的能力,而有效解決多類不平衡問題已經成為機器學習與數據挖掘領域中重要的研究課題。根據近年來的多類不平衡分類方法的文獻,從數據預處理和算法級分類方法兩方面進行了分析與總結,并從優缺點和數據集等方面對所有算法進行了詳細分析。在數據預處理方法中,介紹了過采樣、欠采樣、混合采樣和特征選擇方法,對使用相同數據集算法的性能進行了比較。從基分類器優化、集成學習和多類分解技術三個方面對算法級分類方法展開介紹和分析。最后對多類不平衡數據分類研究領域的未來發展方向進行總結歸納。
關鍵詞:分類;多類不平衡數據;數據預處理方法;算法級分類方法
中圖分類號:TP3"" 文獻標志碼:A""" 文章編號:1001-3695(2022)12-002-3534-12
doi:"" 10.19734/j.issn.1001-3695.2022.03.0198
Survey of multi-class imbalanced data classification methods
Li Ang, Han Meng, Mu Dongliang, Gao Zhihui, Liu Shujuan
(School of Computer Science amp; Engineering, North Minzu University, Yinchuan 750021, China)
Abstract:
In reality, the data generated in many fields usually have multiple classes and are imbalanced. In multi-class imbalance classification, problems such as class overlap, noise and multiple minority classes reduce the capability of classifiers, and effective solution of multi-class imbalance problem has become an important research topic in the field of machine learning and data mining. Based on the recent literature on multi-class imbalance classification methods, this paper analyzed and summarized both data preprocessing and algorithm-level classification methods, and conducted a detailed analysis of all algorithms in terms of advantages, disadvantages and data sets. The data preprocessing methods introduced oversampling, under-sampling, hybrid sampling and feature selection methods to compare the performance of the algorithms using the same datasets. In addition, the algorithm-level classification methods described and analyzed base classifier optimization, ensemble learning and multi-class decomposition techniques. Finally, this paper summarized the future development directions of the multi-class imbalanced data classification research field.
Key words:classification; multi-class imbalance data; data preprocessing method; algorithm-level classification method
0 引言
機器學習與數據挖掘領域中,對不平衡的數據進行分類是重要的研究方向,數據中實例數較少的類稱之為少數類,而少數類往往是研究人員感興趣的方面。從許多應用中收集到的數據中的類分布往往不均勻,例如網絡入侵檢測[1]、信用卡欺詐檢測[2]和疾病診斷[3]等。這種數據的不平衡分布會導致分類困難,因為分類器會傾向于處理多數類,并且會誤分類少數類。目前已經提出了許多針對不平衡數據的算法,但其中大多數解決的是二類問題。然而,兩個類不能涵蓋現實世界的所有場景,在實際應用程序中,不平衡的多類數據往往更容易出現。與二類情況相比,從多類不平衡數據中學習更加困難,不僅需要對多個類進行分類,而且類之間的邊界可能重疊,另外數據中還可能存在多個少數類或多個多數類的復雜情況[4],如圖1所示。
在不平衡分類領域中,與一般的二類分類方法相比,多類分類方法需要考慮更多的因素和設計更復雜的算法邏輯來應對類別數量的增加。在二類不平衡分類方法中,一般可采用采樣方法增加少數類實例或減少多數類實例平衡數據集,或使用代價矩陣以提高分類器對少數類實例的分類能力,其對分類結果的判斷只是二元的。然而,在多類不平衡分類方法中,需要同時處理多個少數類和多個多數類,而且類與類的邊界更容易發生重疊以致于影響分類器的決策,其輸出的結果是多個類的分類結果。
圖1 含多類、不平衡、重疊、噪聲的數據集
Fig. 1 Dataset with multi-class, imbalance,overlapping and noisy
另外,兩者所采用的評估指標也不同?;煜仃囀欠诸悊栴}中各種常用評估指標的基礎,對于多類不平衡分類方法,需要將傳統的二類混淆矩陣進一步修改和擴展為多類混淆矩陣[5],并基于多類混淆矩陣來定義多類不平衡分類方法的評估指標。早期處理多類不平衡數據的方法主要分為兩種:a)在多類上應用分解策略,文獻[6]提出了一種基于OVO分解的集成學習方法,通過將多類數據集進行分解并訓練不同的基分類器構建出集成來適應類的不平衡分布;b)直接處理多類不平衡問題,文獻[7]首次提出了這種方法,通過將代價敏感與Boosting集成相結合,并利用遺傳算法尋找每個類的最優成本構建代價矩陣,從而在多類不平衡數據上學習。
多類不平衡數據分類方法如圖2所示。
在現有的不平衡數據分類方法綜述中,大多數都是基于二類不平衡問題展開研究的,關于處理多類不平衡問題的綜述屈指可數。文獻[8]主要介紹了數據預處理技術與神經網絡相結合的方法,但僅僅總結了部分多類不平衡方法,其角度和綜述內容并不全面。文獻[9]分析了各種Boosting集成方法在多類不平衡數據集上的應用和性能,然而未對其他類型的多類不平衡分類方法展開描述和分析。文獻[10]對多類不平衡數據的采樣方法、分解技術、神經網絡和集成方法進行了介紹,但僅介紹了方法本身,未對具體的模型和算法進行研究和分析。文獻[11]從分解方法和即席方法的角度對近年來的方法進行了總結,將代價敏感、集成學習、深度網絡等方法統稱為即席方法,并且總結了多類不平衡問題中常用的評估指標。在現有綜述中,大多數研究的角度過于片面,還未有研究者對多類不平衡數據分類方法展開全面的描述與分析,并且目前的綜述還沒有對在數據流上學習的算法進行介紹。
本文對近年來發表的多類不平衡數據的分類文獻進行了匯總與介紹,與現有綜述的角度不同,本文從數據預處理方法和算法級分類方法兩方面進行了全面的分析與總結(圖2),并對各種算法所使用的技術和性能進行了詳細的闡述與說明。本文的主要貢獻有:
a)全面介紹了處理多類不平衡問題中的數據預處理方法,包括過采樣、欠采樣、混合采樣和特征選擇。同時,對使用相同數據集的數據預處理方法的實驗結果進行了對比與分析。
b)首次從基分類器優化、集成學習和多類分解技術的角度對多類不平衡數據的算法級分類方法進行了詳細的闡述和分析,并介紹了在多類不平衡數據流中學習的各種算法。
c)最后本文對多類不平衡數據分類研究領域目前存在的問題進行了總結,并提出了相應的解決思路。例如用動態選擇方法處理多類不平衡數據流、處理多類不平衡數據中的概念漂移問題、基于類之間的關聯性進行多類分解和處理復雜的多類不平衡數據集。
1 多類不平衡數據預處理方法
現有的多類不平衡數據預處理方法包括重采樣和特征選擇。重采樣方法在訓練分類器之前對不平衡數據中的多數類樣本進行欠采樣或對少數類樣本進行過采樣,從而平衡類分布。特征選擇主要是用來過濾掉冗余的數據特征,保留相關的數據特征,以提高分類器的性能。本文主要從過采樣、欠采樣、混合采樣和特征選擇四個角度來分析多類不平衡數據預處理方法。
1.1 基于過采樣的數據預處理方法
過采樣是多類不平衡數據預處理技術中最常用的方法,通過引入新的少數類實例來解決多類不平衡問題,從而實現原始偏態數據的再平衡[12]。
在過采樣的方法中,合成少數過采樣技術(SMOTE)[13]是當中最具代表性的方法,它根據少數類的樣本人工合成新的樣本添加到數據集中。然而,由于會生成錯誤的樣本[14],導致少數類被過度泛化到多數類區域,損害了少數類樣本的可學習性。
針對現有SMOTE方法的缺點,一些研究人員對其進行了改進。鑒于在多類不平衡數據上訓練可能產生的過度泛化問題,文獻[15]提出了一種基于k近鄰的合成少數過采樣算法(SMOM),在處理數據時為每個實例的k近鄰方向分配選擇權,給予可能產生嚴重過度泛化的鄰近方向較小的選擇權,由此選擇更安全的鄰近方向來合成實例,并且應用NBDOS聚類以避免計算部分少數類實例的選擇權值,同時利用兩次循環過濾減少大量實例之間距離的計算,提升了算法的時間性能。
SSCMIO[16]同樣提出了避免過度泛化的機制,基于實例鄰域的安全系數進行過采樣,為可能造成過度泛化的區域分配更小的權重。與SMOM算法不同的是,SSCMIO采用了反向近鄰采樣安全系數以防止新生成的實例侵入到其他類的區域,從而能夠有效減少類重疊情況的發生。HDSMOTE[17]則通過比較少數類實例鄰域內的海林格距離[18]來引導合成樣本的方向,并提出了基于海林格距離的采樣質量評估策略對合成實例進行評估,以此有效解決過度泛化和類重疊問題。在QSMOTE[19]中,提出了一種二次合成的策略,首先根據支持度對含重要信息的少數類樣本進行第一次合成,然后通過少數類樣本簇質心的鄰域樣本進行第二次合成。QSMOTE有效提升了分類器在分類少數類時的準確率,并且改善了過度泛化問題。
一些研究者認為多數類中同樣存在著重要的信息,SOMM[20]是一種同時考慮少數類和多數類鄰居的信息來合成實例的方法,實驗表明該方法能夠改進分類器的性能,并且優于SMOM算法。文獻[21]提出使用Z-score分離多數類樣本和少數類樣本,尋找相關模式,在隨機過采樣后再采用SMOTE方法進行約束,結果證明該方法保證了平衡后數據的相關模式能夠與原始數據保持高度一致。
將SMOTE過采樣與譜聚類結合能夠有效應對數據集中離群值,OSC[22]是一種基于譜聚類的過采樣方法,利用譜聚類方法將數據集中的少數類劃分為子空間,并根據數據的分布特性進行SMOTE過采樣,從而有效避免了對離群值的過采樣。
此外,自適應合成過采樣算法(ADASYN)[23]也被用于處理多類不平衡的數據,該方法以類的密度分布為標準,為不同的少數類實例提供不同的權重,以此自適應地生成少數類的實例,從而平衡傾斜的類分布。文獻[24]對該算法進行了改進以處理具有標稱數據類型的數據集,提出了ADASYN-N和ADASYN-KNN方法。ADASYN-N方法通過值差度量計算類的k個最近鄰,然后ADASYN-KNN根據已評估的最近鄰實例生成合成數據。文獻[25]進一步分析了ADASYN-N方法,在對類進行平衡的最近鄰搜索過程中,對最近鄰參數k的取值展開了實驗,結果表明k值為5、7、9時該方法具有最好的表現。
在一些算法中,對類實例按照一定方法進行排序后再進行過采樣可以產生較好的效果。文獻[26] 提出了一種基于分類排序和權重的過采樣方法(STCPS),該算法首先根據樣本數據到超平面的距離對每個類的內部樣本進行排序,然后計算出采樣點周圍的數據密度,并以此作為權重對原始樣本進行采樣,采樣后的新數據根據采樣點鄰近的信息進行分配,這樣保持了原始數據的特征,可以有效解決多類不平衡中存在的小樣本問題。文獻[27]認為數據中的所有類別都具有相同的重要性,并且算法不應該對每個類中的實例數量給予權重,由此提出了一種基于次要組件的多類不平衡分類方法(LICIC)。該方法在Φ(x)變換空間工作,對屬于同一類的組件和類似實例的比例應用排列,為每個少數類創建合成實例。LICIC在數據預處理過程中沒有添加新的信息和隨機性,因此分類模型具備了較好的泛化能力。同時,基于復雜度的過采樣技術(CSOTE)[28]也被用于處理多類不平衡問題,與基于鄰近度的SMOTE方法不同,該方法首先對數據min-max歸一化,計算每個實例的復雜度并進行排序,然后選擇在復雜性上相似的實例來合成樣本實例來平衡數據集。文獻[29]將CSOTE方法應用到了多類不平衡問題上,結果表明,與SMOTE相比,該方法在G-mean和AvACC上效果更好。
在過采樣方法中,利用類的分布特征合成實例能夠有效提高分類器對少數類的識別能力。在這一問題上,多類徑向過采樣算法(MC-RBO)[30]表現出了良好的性能。該算法的主要優勢在于利用每個類的局部數據特征進行智能過采樣,并且沒有改變原始類的特征。另外,在人工實例生成過程中利用了來自所有類的信息,因此提供了更好的新實例位置。實驗表明,在少數類形成多個不相交的聚類時,MC-RBO具有較強的魯棒性。
1.2 基于欠采樣的數據預處理方法
欠采樣通過刪除多數類實例的數目來平衡類的分布[31]。由于欠采樣方法容易丟失重要樣本信息并且其分類結果不穩定,所以在處理多類不平衡問題上人們大多采用的是過采樣方法。然而,一些研究者通過對欠采樣方法進行改進和調整后,仍能夠得出較好的分類結果。
在多類不平衡數據中,類重疊問題的存在會導致分類器無法有效識別類邊界,從而降低分類器的性能。文獻[32] 提出了一種基于類重疊度欠采樣方法,采用LOF局部離群點因子和箱線圖的方法清洗訓練數據集中的噪聲樣本,并根據類重疊度抽取對分類起關鍵作用的樣本后進行欠采樣,由此最大限度地維持了原有的數據分布,提高了分類器的精度。
聚類方法與欠采樣相結合可以有效處理不平衡數據集中的多數類?;诰垲惖那凡蓸臃椒–US[33]將多數類實例進行聚類后,然后對信息量最大的實例欠采樣,形成多個平衡數據集,實驗表明該方法在多數類和少數類實例的分類上都取得了較高的準確率。
一般的多類不平衡數據的采樣方法先平衡數據集,再訓練分類器。與現有方法不同,文獻[34]采用先訓練后平衡的方式處理多類不平衡數據,提出了一種欠采樣和遺傳算法相結合的兩階段算法OCSV-US。在第一階段,根據多類的數量訓練M個單類分類器,每個分類器將返回一組具有最高信息值的類實例,用于下一階段的采樣。在第二階段,根據前一步中的類實例創建多個隨機欠采樣的數據子集,通過應用遺傳算法對子集進行進化,直到子集的適應度函數無法再改進,由此便獲得了用于分類的最佳數據集。結果表明,該方法實現的兩階段策略能夠提高計算的時間效率和分類準確率。
1.3 基于混合采樣的數據預處理方法
在多類不平衡數據預處理方法中,混合采樣方法是過采樣與欠采樣的結合體,這種組合方案可以有效緩解過采樣帶來的過擬合和欠采樣導致的信息丟失問題。
在混合采樣方案中,將SMOTE與其他欠采樣技術相結合是一種常用的方法。在SCUT[35]中,對少數類使用SMOTE進行過采樣生成合成示例,而多數類使用期望最大化(EM)聚類進行欠采樣,該方法適用于具有高度不平衡比的場景。在類重疊問題的處理上,FCMSMT[36]將SMOTE和模糊C均值聚類進行結合,使所有類具有相似數量的類實例,并從每個集群中隨機選擇實例,可以有效解決類不平衡和類重疊的問題。CIAR[37]結合使用SMOTE和隨機欠采樣[38],在數據預處理階段對多數類和少數類分別進行欠采樣和過采樣,并將合成的樣本組合在一起,該方法將平衡后的樣本實例進一步劃分為N個子集提供給基分類器進行訓練,以此來提高分類器的時間效率。實驗表明,CIAR模型具有最好的預測性能。
一些研究人員認為SMOTE過擬合的缺點是無法避免的,尤其是在數據集極度不平衡的情況下會更加嚴重,因此在混合采樣中提出了新的過采樣方案。MOSHS[39]是一種最小化重疊選擇的混合采樣方法,該方法根據類的重疊情況對多類進行平衡處理,并使用基于少數過采樣(M-SMOTE)與編輯最近鄰(ENN)[40]分別對少數類和多數類進行采樣。實驗證明,該方法在召回率等指標上都有較好的效果。SOUP[41]是一種基于樣本的相似性過采樣和欠采樣預處理的方法,首先欠采樣影響最大的多數類樣本,然后分析其鄰近區域所產生的安全水平對最重要的少數類樣本進行過采樣。結果顯示,SOUP比Static-SMOTE和Global-CS方法表現更好。
隨機平衡策略(random balance)[42]是一種二類不平衡數據預處理策略,使用隨機類比例對數據進行隨機欠采樣和SMOTE過采樣?;诖耍墨I[43]提出了MultiRandBal方法,將其擴展到多類不平衡數據集,與之前不同的是,該方法使用隨機生成的先驗進行采樣而不是類比例。文獻[44]在其提出的HAR-MI方法中將動態集成選擇與MultiRandBal進行了結合,保持了數據和分類器的多樣性,并且使用少量分類器實現了更高的性能。
針對因特網協議流量中存在的多類不平衡問題,RBWS-ADAM2[45]算法基于樣本權重對多數類和少數類樣本進行隨機平衡重采樣,首先通過計算所有類別樣本的平均值確定隨機區間和采樣平衡點來區分多數類和少數類,然后再對權重較大的少數類樣本進行SMOTE過采樣并對權重較大的多數類樣本進行聚類欠采樣,從而保證了分類器對樣本的充分學習。
1.4 基于特征選擇的數據預處理方法
高維度的數據集為分類增加了難度,分類器可能無法對其中的特征進行有效反應和處理。特征選擇[46]是數據挖掘領域中的一種有效方法,其目標是選擇更多相關的數據特征,以提供簡潔、明確的數據描述,這有助于提高學習模型的時間和內存效率。近年來,將特征選擇用于處理多類不平衡數據逐步受到研究人員的關注。
文獻[47]提出了一種基于特征選擇與實例選擇相結合的方法(EFIS-MOEA),主要用于解決類重疊和噪聲問題。該方法采用了一種多目標進化的方法,首先通過特征選擇來限制可能對類邊界識別帶來困難的特征,從而更容易地區分不同的類;然后再根據實例選擇找到合適的類分布,以解決不平衡問題并消除噪聲實例。該方法可以嵌入任何分類器,具有高度的通用性。
為了能夠同時處理有標簽實例和無標簽實例,文獻[48]提出一種基于分類的加權模式匹配算法(PMC+)。PMC+通過計算數據集中實例與無標簽實例的特征值之間的絕對差來對無標簽實例進行分類。為了進一步提高PMC+的性能,還提出了基于特征權值選擇的煙火算法用于特征選擇,并設置了存儲池和選擇池,存儲池最初存儲了數據集所有的特征,選擇池存儲了所選擇的特征、權重值和Kappa統計量,算法在每次迭代中動態地更新存儲池和選擇池,最后在選擇池中保留了用于分類的最優特征和權重。實驗證明,該算法在AUC上表現較好。
粗糙集理論[49]是處理數據集的模糊性和不確定性的有效方法,可以應用于特征選擇?;诖植谄胶獾姆椒≧BBag[50]借鑒了隨機子空間和隨機森林的思想,從包含所有屬性的集合中隨機抽取出一個屬性子集,并以此作為樣本來訓練基分類器。該方法增加了罕見和異常實例的決策邊界,以確保少數類的實例被正確分類,并能夠有效解決類重疊的情況。在UCI數據集和真實數據集上進行了實驗,證明了該方法的有效性?;卩徲虼植诩碚摰牟黄胶鈹祿卣鬟x擇方法RSFSAID-M[51],通過特征顯著性(feature significance)考慮類的不均勻分布,根據邊界區域中每個實例的顆粒結構計算各屬性的特征顯著性,然后根據特征顯著性選擇出特征數據集提供給分類器。其中特征顯著性的計算方法如式(1)所示。
sl=∑|U/d|j=1Rl,j×Pl,jRl,j+Pl,j(1)
1.5 小結
本章從過采樣、欠采樣、混合采樣和特征選擇四個方面介紹了多類不平衡數據預處理方法。為了進一步探討數據預處理方法在處理多類不平衡數據集上的性能,本文對使用相同數據集的算法進行了分析與對比。表1列舉了數據預處理方法共同使用的數據集,并且介紹了數據集的參數。表2列舉了使用這四種數據集的10種算法。
在具有多個少數類的ecoli、yeast和wine-quality數據集上,SCUT優于其他所有算法。SCUT采用的分類器為決策樹J48,其在ecoli上的G-mean和AUC分別達到了最高值90.7%和93.8%,這是因為SCUT將SMOTE與EM進行了結合,沒有過度使用采樣,在一定程度上保持了原始類分布,并且平衡了所有的類實例。在類實例相對平衡的vehicle數據集上具有最佳表現的是同樣采用決策樹J48分類器的SOUP,其G-mean值為91.5%,但是在其他三種數據集上的表現較差,因此SOUP并不適合類數多且具有多個少數類的數據集。
MC-RBO算法采用了AvAcc和G-mean兩種評價指標,分類器為決策樹C5.0,其在具有類實例數量最多的wine-quality數據集上具有最好的效果,并且優于基于隨機森林的SMOTEamp;Z-score和基于FSVM的FCMSMT,MC-RBO的AvAcc和G-mean分別達到了97.57%和91.73%,該算法的主要優勢在于在采樣過程中利用了來自所有類的信息并且保留了原始類的特征?;诟倪MSMOTE的SMOM在ecoli、yeast和vehicle數據集上進行了實驗,采用了多類AUC(MAUC)作為評估指標,其平均MAUC值達到了87.8%。在特征選擇的方法中,主要在ecoli和yeast數據集上進行了實驗。EFIS-MOEA采用多目標進化和實例選擇的方法,更容易區分不同的類,整體上取得了不錯的效果,其在AUC上達到了84.41%,優于PMC+,但是PMC+可以處理數據集中的無標簽實例。RBBag僅采用了G-mean作為評估指標,該算法僅在yeast數據集上表現較好,G-mean值為81.5%。
從分析中可以看出,將類分布信息考慮在內的過采樣與混合采樣方法在具有多個少數類的數據集上能夠取得較好的效果。由于欠采樣在多類不平衡上表現較差,人們對過采樣的方法研究比較多,其中過采樣多采用基于改進的SMOTE方法,提升少數類實例在原始數據中的占比。另一種過采樣方法是在不改變原始類特征的前提下根據類的密度或權重平衡傾斜的類分布,結果證明可以提升分類模型的泛化能力。混合采樣結合了過采樣與欠采樣的優點,有效解決了過擬合和信息丟失問題。經過實驗證明,基于混合采樣的方法要比單獨使用過采樣或欠采樣效果更好。與基于采樣的方法相比,利用特征選擇后的訓練集所構建的分類器能夠更好地保證類分布和提高分類器的性能。表3從數據集、優缺點和對比算法等方面對多類不平衡數據的預處理方法進行了總結與比較。
2 多類不平衡算法級分類方法
算法級分類方法通過優化基分類器或分類模型來提高類預測的準確率。目前,多類不平衡分類的算法級分類方法可分為基分類器優化、集成學習和多類分解技術三個方面。
2.1 基于基分類器優化的算法級分類方法
在機器學習與深度學習領域中,已經提出了多種用于分類問題的算法,然而對于不平衡多分類任務來說,現有的分類器可能無法適應這種復雜的數據環境。因此,一些研究者們致力于對分類器進行改進或調整,使其在多類不平衡分類場景中同樣具有良好的分類能力和表現。近年來,對極限學習機和支持向量機進行優化獲得了更多研究人員的關注。
2.1.1 基于優化極限學習機的分類方法
極限學習機(ELM)是文獻[52]提出的一種高效的機器學習算法。與基于BP的神經網絡或支持向量機(SVM)等傳統機器學習算法不同,其隱含層學習參數是隨機生成的,輸出權值可通過最小二乘法計算,并且ELM易于實現,具有更好的泛化性能和更快的學習速度。此外,ELM可以作為回歸分析的估計器,也可以作為分類問題的分類器。圖3展示了ELM的結構。
為了提高經典ELM算法對多類不平衡數據的學習性能,一些研究者將ELM進行改進并與其他先進技術進行了結合?;贕均值和混合代價函數的GPELM[53]算法,利用給定訓練樣本在各類中的概率來計算G均值,另外,為了保持初始數據分布,在代價函數的設計中引入了給定訓練樣本所屬類的概率。然后,構造了一個ELM參數優化問題,以最小化權值矩陣的2范數和由權值矩陣相關概率函數計算的基于G均值的代價函數,該算法在G-mean上具有最好的表現。文獻[54]則從改造損失函數和優化超參數兩方面對ELM進行了改進,提出了基于加權局部泛化誤差的極限學習機(WLGE-ELM),通過結合代價敏感與局部泛化誤差提高模型對少數類的識別能力,并且抑制對少數類實例波動敏感的隱藏層節點輸出。同時,引入了貝葉斯優化理論為WLGE-ELM選取關于實例權重和實例鄰域的最優超參數,從而提升了分類器性能。
與使用隨機輸入參數的傳統極限學習機相比,核化的極限學習機(KELM)具有更好的學習效果。文獻[55]提出了一種基于貝葉斯方法的不平衡分類問題并行單類極限學習機(P-ELM)。在P-ELM中,首先根據樣本中類的個數將訓練數據集劃分為k個分量,然后將劃分的訓練數據集送入相應的k個基于核的單類ELM分類器中,各個單類分類器并行執行操作。P-ELM分類器的輸出函數構造了概率密度的估計,因此,通過比較每個基于核的單類ELM分類器的輸出函數值,可以直接判斷樣本的類屬性。經過分析和驗證,P-ELM具有較好的分類精度和時間效率。廣義類特定核化極限學習機GCSKELM[56]通過應用高斯核函數將數據映射到核空間,避免了現有ELM方法所帶來的非最優隱藏節點問題,并且降低了分類器的計算量,同時采用由類比例確定的特定類別的正則化參數,提升了泛化性能?;诤说念愄囟ǔ杀镜恼{節極限學習機CCR-ELM[57]引入了績效指標中各類別錯誤分類的類別特定監管成本作為結構風險和經驗風險的權衡,并且通過網格搜索得到所有輸出函數參數的最優組合,減少了類樣本數量和數據分散程度的影響。另外,該算法還引入了核函數矩陣用于處理類重疊的情況。實驗證明,CCR-ELM能夠顯著提高分類性能,同時適用于多類和二類不平衡分類場景。CCR-ELM的分類公式如式(2)所示。
fM(x)=h(x)HT∑Dd=1IDd+HTHT=
K(x,x1)K(x,xN)∑Dd=1IDd+ΩELMT(2)
在多類不平衡的數據流上進行學習同樣值得關注,一些研究者將在線學習應用于ELM。文獻[58]首次提出了解決多類數據流中類不平衡問題的順序分類器,稱之為基于投票的加權在線序列極限學習機(VWOS-ELM)。該方法將WOS-ELM[59]的權值矩陣擴展到多類,并構建了幾個獨立的基于WOS-ELM的網絡,以適應不斷到來的新數據,并可以在不存儲之前學習樣本的情況下,在逐個和逐塊模式下處理類的不平衡問題。加權在線序列核極限學習機WOS-ELMK[60]同樣對WOS-ELM進行了改進,使用隱式核映射代替隨機特征映射,通過使用核映射,即使只使用單個分類器,也能夠適應一些隨機初始化的新數據,保持了分類器的穩定性。另外,WOS-ELMK實現了一個固定內存方案,以節省對大型不平衡數據流的計算負載。
文獻[61]提出了一種采用兩階段博弈策略的動態多分類方法處理多類不平衡數據流(GWOS-ELM)。該方法分為數據生成階段和模型更新階段。在數據生成階段中,利用兩個具有博弈策略的動態最小二乘法生成少數類,以平衡不同類的分布。在模型更新階段中,根據當前預測性能和成本敏感性,對分類模型進行更新。該方法根據變化的不平衡比,建立新權重與單個分類器的關系,并采用博弈論的綜合模型計算組合權重。這些策略有助于減少擬合誤差。實驗表明,該方法能夠有效地預測不斷變化的數據流,從而提高分類器在線預測的泛化性能?;跀U展G均值的Postboosting方法PBG[62]是一種新的學習方法,該方法通過在擴展G均值下的分類邊界進行后調整,有效解決了順序到達的多類不平衡數據的難題。另外,通過最大限度地擴展G均值,PBG可以動態地將更多的注意力集中在那些容易誤分類的類上。
在高度不平衡數據集上進行多類分類更加困難,需要考慮分類器的準確性和訓練效率。文獻[63]在極限學習機上設計了一種順序集成學習框架(SEL)來同時解決這些問題。該框架應用了一種極限學習機組合方法(LCM-ELM),將多數類的樣本分割成多個小且不連接的子集用于訓練弱分類器,以此提高分類器在高度不平衡數據集上的準確性。實驗結果得出SEL方法適合于訓練時間短、分類精度高的需求場景。
2.1.2 基于優化支持向量機的分類方法
支持向量機[64]是一種基于統計學理論的機器學習方法。支持向量機源于不同的核函數,用于分類的支持向量機的主要問題是在訓練和測試時如何選擇核、提高準確率、提升速度以及正確設置關鍵參數的值,從而獲得最佳的泛化性能[65]。
數據集中往往存在著影響分類準確率的噪聲樣本,針對這一問題,文獻[66]提出了一種模糊多類支持向量機算法(FSVM)。該算法利用訓練樣本點到類中心的距離和加權類重疊法設計樣本模糊隸屬函數,根據樣本點的重要性賦予相應的隸屬度值,即增加支持向量點的權值,降低噪聲的權值。同時,利用改進的類重疊度方法找出對超平面分類起決定性作用的支持向量點,并賦予它們較高的隸屬度值。實驗結果表明,該算法能更有效地解決多類數據中的不平衡和噪聲問題。
文獻[67]通過建立一個簡單的基于多類支持向量機(multi-class SVM)的層次分類模型,以此更精確地獲得少數或罕見的實例,并將其分配為少數類。該模型使用一種分組算法,從原來不平衡的類生成新的平衡的人工樣本,通過分層步驟進行分類。另外,模型針對是否賦予權重這一問題展開了實驗,類別權重的計算公式如式(3)所示。結果表明,當對類實例賦予權重時,模型在G-mean方面表現最好,并且當數據中屬性的數量較多時,模型仍然具有很好的分類性能。multi-class SVM模型的結構如圖4所示。
Wci=total samplenumber of class×sample of ci(3)
SMOTE-LSSVM[68]方法在參數優化問題上應用了智能優化算法,并通過SMOTE和最小二乘支持向量機建立一個分類器來處理多類不平衡問題。該方法首先對多類進行分解,然后采用SMOTE平衡數據,最后根據粒子群優化和引力搜索算法對LSSVM分類器的參數進行優化,將前者的全局尋優能力和后者的局部尋優能力進行結合,從而提高分類器的性能。
在深入分析了傳統學習模式中類不平衡和類重疊的影響之后,文獻[69]提出了一種利用單類支持向量機和欠采樣技術的學習方法(OSVM-US)。該模型首先采用基于單類支持向量機將重疊實例作為離群點進行檢測,然后通過Tomek-link對方法對多數實例進行欠采樣,并且根據稀疏鄰域來消除邊界、冗余和重疊情況。最后,將精煉的訓練集輸入到學習的最后階段以訓練三個分類器,并對其性能進行評價。實驗結果證明,該模型提高了少數類的分類精度,同時只有數量最多的多數類實例要被消除,從而保證了其他多數類的完整性。然而,隨著類重疊率的增加,該方法中分類器的性能會下降。文獻[70]同樣針對類重疊問題進行了研究,引入了一種改進的支持向量機(MSVM),并將其作為基分類器應用在AdaBoost上,用于提高集成分類器的學習能力。在數據處理階段,利用歐氏距離劃分出多類數據集的重疊區域和非重疊區域,并根據基于自定義標準支持向量機的核映射函數,將具有密集重疊樣本的區域映射到更高的維度上,便于底層分類器找到最優超平面來預測少數類樣本,從而提高最終的分類準確率。
2.2 基于集成學習的算法級分類方法
集成學習是解決不平衡多分類問題的一種方法,通常情況下,這種方法優于使用單分類器的方法。集成學習將多個單一分類器進行訓練后組合在一起,一般采用多數投票的機制進行分類。
2.2.1 基于混合策略的集成學習方法
混合集成通過將集成學習方法(如Bagging或Boosting)與數據級方法相結合,為基學習器創建平衡訓練集。集成和數據級方法的結合將導致在訓練底層模型之前創建平衡的訓練集,這可以提高集成分類器在分類多類不平衡數據時的性能。混合集成學習模型如圖5所示。
一些方法將重采樣技術與集成學習方法進行組合,在構建集成前通過重采樣平衡訓練集。文獻[71]提出了一種混合Boosting集成模型(HECMI),用于處理具有多個多數類和少數類的多類不平衡數據。在構建模型時,對少數類實例進行過采樣,即對召回率低于閾值類的實例進行過采樣并添加到訓練中的下一個數據部分。最終的預測是通過獲得集成中分類器的多數選票來完成的。結果表明該方法能夠有效處理和分類多類不平衡數據,然而在含噪聲和離群點的情況下表現欠佳。文獻[72]提出了一種基于采樣和遺傳算法的集成分類器(SA-GABEC),該方法試圖為給定樣本找到最佳子集,該子集在預測中是最精確的。SA-GABEC首先將遺傳算法應用到數據集上,然后對多數類進行欠采樣,在生成分類器的學習過程中使用不同的數據集。最后,將不同的分類器組合在一起構成集成,保證了分類器的多樣性。
為了探究結合不同的采樣技術和集成分類器對分類模型預測性能的影響,文獻[73]對現有集成方法進行了實驗,采用了兩種采樣分類器與集成分類器相結合的方法,即重采樣集成分類器和SMOTE集成分類器,并選用不同的基分類器,構建出了多個組合,在大型多類不平衡基準數據集上進行訓練和測試。實驗證明,使用隨機森林的集成分類器優于任何單一分類器。
與之前的集成學習方法不同,文獻[37]提出了一種Boosting和Bagging相嵌套的方法來創建一個強大的集成結構(CIAR)。首先通過SMOTE和RUS技術平衡訓練集,然后將其用于創建Bagging集成中的基學習器。在模型構建階段,提出了集成嵌套的思想,將Bagging作為主集成,其中Bagging集成中的基學習器使用的是基于AdaBoost的Boosting集成,而Boosting集成中的基學習器為決策樹。由此,CIAR模型所構建出的基學習器都得到了提升和增強。通過實驗比較,該模型具有最好的預測性能,同時在G-mean、F-score和ROC上取得了最高值。
相比于基于重采樣的混合集成方法,將閾值移動技術應用到集成中能夠獲得更好的分類結果。文獻[74]將閾值移動技術與Bagging進行了結合,提出了一種概率閾值Bagging集成方法(PT-bagging)。與重采樣不同的是,閾值移動技術是處理不平衡數據的另一種方法,它依賴于學習模型的連續輸出,即類的權重或后驗概率。PT-bagging通過簡單地引導抽樣平衡類,保留了類的自然分布,并創建一個Bagging集成,然后移動閾值來分配類標簽。與基于重采樣方法的集成策略進行了比較,結果證明PT-bagging在宏觀精度(macro-accuracy)和宏觀F1分數(macro F1-score)上優于基于重采樣的方法。另外,文獻[75]提出了一種基于遞歸的集成方法(PBD),該方法利用基于遞歸的數據分區技術,將多類不平衡問題轉換為多個平衡問題。該方法首先指定一個閾值,遞歸地進行數據分區,直到將不平衡的數據劃分為平衡數據;然后,為每個數據分區構建一個分類器,再將所有的分類器組合在一起構建出集成分類器;集成分類器采用投票機制對數據進行分類。經過在多個數據集上的實驗,PBD具有較高的平均精度和F-measure。
一些研究人員將自適應方法與混合集成進行了結合。文獻[76]提出了基于多目標遺傳采樣的不平衡分類器集成(E-MOSAIC),目的是消除數據集中某些少數類受到較少關注或被分類器視為噪聲的初始風險。該方法采用多目標進化算法從不平衡數據集衍生出一組分類器,并在分類準確率的指導下,在原始數據中演化出平衡樣本,由此為每個類引入具有較高預測準確率和多樣性的分類器。文獻[77]提出了一種基于自適應分裂與選擇的集成方法(AdaSS),通過聚類為集成選擇分類器。首先,將原始特征空間分割成多個聚類,并修改其大小和位置;然后,對每個聚類執行一個加權分類器組合,分別設置每個聚類和每個被考慮的類的權重,這允許算法在給定的部分特征空間以及每個考慮過的類中提升每個基學習器的局部能力。結果表明,在聚類和分類器數量相對較少的情況下,AdaSS具有良好的穩定性,并且能夠解決高度不平衡的多類問題。
在離群點檢測問題上,文獻[78]提出了一種基于集成濾波器選擇的異構集成模型(EFSM)。在預處理階段過濾全局離群值并使用SMOTE對數據集進行重采樣,然后通過分解技術對多類數據集進行二值化處理。在模型構建階段,采用Ada-Boost、隨機子空間算法和隨機森林作為基分類器,構建了異構集成模型。最后根據概率平均投票規則對所構建的分類器進行組合,并采用10倍分層交叉驗證對其進行評估。實驗證明,該模型保證了多數類的完整性,并在離群點檢測和分類準確率等方面表現出較好的性能。
針對數據流中存在的不平衡和概念漂移問題,文獻[79]提出了基于SMOTE的改良在線集成(ISOE)和改良在線集成(IOE)方法,可以動態地平衡訓練集。ISOE使用了一個固定大小的滑動窗口來處理數據實例,并設置了一個基于召回率的泊松分布速率參數作為閾值,若類的召回高于閾值,則通過SMOTE對窗口進行過采樣,最后利用采樣后的數據對在線集成進行訓練。在IOE中消除了SMOTE,只保留速率參數,并根據基于召回率的類權重對少數類過采樣。實驗結果證明,該方法在靜態和演化數據流上都能產生準確的結果,并且IOE在G-mean值上表現最好。ISOE和IOE的速率參數分別為
k=Poisson(ravg-excluding-c/rc)(4)
k=Poisson((ravg-excluding-c/rc)×max(W)Wc)(5)
2.2.2 基于動態選擇的集成學習方法
目前,大多數現有的研究集中于靜態集成。近年來,將動態選擇的技術應用在多類不平衡分類問題上受到了人們的關注。該方法包括一個動態選擇模塊,用于在給定測試實例的情況下,從池中選擇一組基分類器,由此構建出最佳的集成。在不平衡分類問題上,動態選擇集成可以獲得比靜態集成更高的性能。動態選擇的集成方法如圖6所示。
文獻[80,81]提出應用動態選擇技術和數據預處理技術相結合的方式來處理多類不平衡數據,提出了多種預處理方法和動態選擇相結合的方案并在Bagging集成上進行了實驗分析,同時在不同程度的不平衡數據集中與靜態集成進行了比較。結果證明,動態選擇技術和數據預處理技術的應用可以提高集成分類器在分類少數類時的性能,并且優于基于靜態集成的方法。
動態選擇方法與靜態集成相結合可以獲得更好的分類器組合。文獻[82]提出將動態選擇技術與目前流行的多類不平衡靜態集成方法相結合,并對14個靜態集成進行了實驗。在訓練過程中應用動態選擇策略,給定一個測試樣本xi,根據其k近鄰計算出每個鄰居樣本的權重,然后對每個基分類器h計算其對xi的鄰居樣本分類能力,并依據分類器的能力值進行排序,從而選擇出用于預測xi的前N個分類器并將其添加到集成中,最后集成中的分類器投票對xi進行分類。實驗證明,經過動態選擇,改進后的靜態集成的MAvA和F-measure指標均有明顯提高,并能夠實現理想的分類性能。分類能力計算公式和投票方式分別為
Fh|xi=∑kt=1I(xit)×wit(6)
I(h(xit)=yt)=0" h(xit)≠yt1" h(xit)=yt(7)
基于動態集成選擇的DESMI[83]方法通過兩階段處理多類不平衡數據。在第一階段,開發了一個預處理程序,混合使用了隨機欠采樣、隨機過采樣和SMOTE來平衡訓練集。在第二階段中構建集成,采用了加權投票的方式,根據鄰域的加權實例來評估候選分類器的能力,選擇一組對少數類實例具有較強分類能力的分類器構建集成,集成通過投票的方式輸出最終的分類結果。結果表明,DESMI能夠有效處理和分類多類不平衡數據,但是該方法具有較高的時間復雜度。
2.3 基于多類分解技術的算法級分類方法
對于多類不平衡問題的處理,一種策略是利用分治規則將多類問題分解為二類子問題,再將二類不平衡學習算法應用到這些子問題上,從而對數據進行分類。目前主要的分解方法有一對一(OVO)和一對多(OVA)分解。在OVO分解方案中,一個m類問題被劃分為[m(m-1)]/2個二類子問題,每個問題都由獨立的基分類器來處理,這些基分類器負責從不同的類對中區分實例。OVA為每個類創建一個分類器,分類器進行分類時將除這個類之外的所有其他類視為整體。圖7(a)和(b)展示了將多類問題進行分解的兩種方法。
文獻[84]探討在多類不平衡分類問題上應用OVO和OVA分解技術,并與二類集成學習方法相結合。首先,使用OVO或OVA技術對數據集進行分解;然后,采用基于SMOTE的集成學習方法合成少數類實例來平衡訓練集的分布,并為每個成對類數據集創建一個二類分類器;最后,一旦從集成學習中得到每個類的分類器,就使用聚合策略從分數矩陣中提供最終的輸出。實驗結果表明,提出的結合基于二類集成學習的OVO分解策略獲得了非常有競爭力的結果,對每對類使用復合學習器可以更好地捕捉類的局部特征,并且對不平衡具有更好的魯棒性,從而提高了最終的多類分類準確率。此外,文獻[43]中提出的random balance方法可以通過使用OVO或OVA分解技術擴展到多類問題。在OVO-RandBal中,形成所有的類對并為每一對類建立一個分類器,每個分類器為它訓練過的類投票,最后通過多數投票獲得的最終的分類結果。OVA-RandBal創建c個二類分類器,其中每個分類器與所有剩余的類配對,然后將兩類RandBal采樣技術應用于指定類和被其余視為復合類的集合。在實驗結果中,在隨機平衡的背景下使用OVA比使用OVO更有優勢,特別是當選擇的評估指標是MAUC時。
為了解決OVO方案中不平衡學習和動態分類器加權之間的協同問題,文獻[85]提出了一種基于人工合成樣本和距離相對競爭力加權的方法(DRCW-SEG),該方法根據OVO策略將原始的多類不平衡數據集進行分解,并通過SMOTE平衡數據集,然后在動態加權過程階段處理冗余分類器以提高分類器的能力。在類重疊問題的處理上,OVO-SCBU[86]算法利用OVO對數據集進行分解,設計了一種基于實例近鄰的剪輯方案清理重疊區域中的多數類實例,然后根據不平衡比率對數據集進行譜聚類,對多數類的簇進行欠采樣。與OSC算法相比,OVO-SCBU獲得了最優的結果,并且G-mean提高了5.59%
一些研究者認為,OVA在分解多個不平衡類時,僅兩個類之間的成對關系可能過于單純化,不能反應多個類之間更為復雜的關系[87]。因為一個類同時影響多個相鄰類,OVA可能會在某種程度上降低對所有少數類實例的識別率,并忽視了原始類中潛在的數據分布。然而,一些研究者仍能夠通過應用OVA分解策略得到不錯的分類效果。
基于差分分區采樣的集成框架DPSE[88],通過OVA將多類數據集拆分為多個二類數據集,并將每個二類訓練數據集中的多數樣本數和少數樣本數分別作為采樣間隔的上限和下限。在此范圍內,模擬等差數列的構造過程, 生成包含多個采樣個數不同且間隔相等的集合。另外,DPSE根據隨機欠采樣方法處理安全樣本,而用SMOTE處理邊緣樣本和罕見樣本,然后采用平衡后的訓練集對具有多個子分類器的二分類模型進行訓練。實驗結果表明,該方法比OVA方案中其他典型的不平衡學習方法性能更好?;贠VA分解的方法同樣可以處理多類不平衡數據流。為了解決在不平衡數據流中學習的不確定性問題,文獻[89]將OVA分解策略與集成學習相結合,提出了一種一對多自適應窗口重新平衡與知識保留方法(OVA-AWBReK)。該方法首先對所收到的數據流進行快處理,利用OVA技術進行分解,然后使用了增量再平衡方法訓練分類器,將之前學習到的知識作為增量自適應地傳遞給后續的窗口。另外設計了一個自適應窗口,通過不平衡比(IR)動態調整窗口大小,從而更快地減少不平衡數據流學習過程中的不確定性。實驗證明,該方法在具有高度不平衡比的多類數據集上表現較好。
2.4 小結
本章從基分類器優化、集成學習和多類分解技術三方面介紹了多類不平衡數據的算法級分類方法。在基分類器優化的算法中,極限學習機易于實現,其隱藏層節點的權重可以隨機或人為給定,在極度不平衡的數據集和流上具有更好的泛化性能和更快的學習速度,而支持向量機在進行改進后,對多類不平衡中的類重疊和噪聲等問題的解決表現出了卓越的性能。集成學習主要介紹了混合集成方法和基于動態選擇的集成方法。在混合集成方法中,通過將數據級方法與集成學習進行結合,提高了集成分類器的性能。另外,通過在集成學習中應用動態選擇的方法,可以在訓練過程中選擇出最佳分類器組合,從而提高分類準確率。多類分解技術將多類問題拆分為二類問題,由此可以使用目前先進的二類不平衡分類方法來處理分解后的多類數據,提高了算法的泛用性。表4對本章介紹的多類不平衡算法級分類方法進行了總結與分析。
3 下一步工作
目前針對多類不平衡分類問題所提出的算法和模型已經有了可觀的進步和發展,但是仍存在諸多亟待解決的問題,還需要進一步深入研究并且對現有的方法進行優化。下面探討多類不平衡分類目前需要改進的問題和未來研究方向:
a)用動態選擇的集成處理多類不平衡數據流。
在數據流上進行多類不平衡學習是目前很少研究的方向,大多數可用的數據流分類算法都是針對二類不平衡問題展開的。已經有一些研究人員對多類不平衡數據流展開了研究,并取得了不錯的效果。然而,對于多類不平衡數據流中可能存在的不確定性問題還未解決,例如在一段時間后多數類可能會變成少數類,少數類會變成多數類,并且隨著時間的變化新的類也可能到來。針對這些問題,在未來的研究中可以將窗口技術和動態選擇的集成進行結合,分批處理數據,同時評估并刪除集成中的弱分類器,保留更具有能力的分類器。
b)處理多類不平衡數據中的概念漂移問題。
概念漂移問題在目前的各種應用場景中都很常見,多類不平衡數據中同樣存在著概念漂移。在多類不平衡數據的環境中,概念漂移檢測變得非??量?,因為需要同時處理多個類概念的變化和不平衡的偏類分布,這是傳統的漂移檢測技術無法解決的。之后的研究中,可以通過設計一種將多類不平衡的比率和集成學習相結合的漂移檢測機制,以此來提高分類器的能力。
c)基于類之間的關聯性進行多類分解。
目前多類分解技術在多類不平衡數據上的應用已經有了進一步的發展,但是分解后的數據往往會造成原始類分布信息的丟失。例如將一個類作為正類而將另外的某個類或其他類直接視為負類進行訓練,這樣會忽視該類與其他類之間潛在的有效信息,從而影響分類的準確性。未來的研究方向可以在分解過程中加入類分布信息作為參考,考慮類與類之間的關聯性。
d)處理復雜的多類不平衡數據集。
現實應用中產生的數據體量大、復雜性更高,多類不平衡數據中除了偏態的類分布、類重疊、多多數類與多少數類的問題,還存在極度不平衡、噪聲以及概念漂移的情況。然而,現有的多類不平衡數據處理方法大多致力于解決其中一個或兩個問題,應該研究出更高效且全面的方法在這種復雜的環境中進行分類。
4 結束語
本文對現有的基于多類不平衡數據的數據預處理方法和算法級分類方法進行了綜述。首先,在數據預處理方法中對過采樣、欠采樣、混合采樣和特征選擇的方法進行了介紹,并對使用相同數據集的算法的性能進行了分析;其次,總結了目前常用的算法級分類方法,從基分類器優化、集成學習和多類分解技術三個方面進行了詳細的介紹與分析;最后,針對目前多類不平衡數據分類所面臨的挑戰和問題,提出了下一步的研究方向和解決思路。
參考文獻:
[1]Chari I,Alaoui S,Lyhyaoui A. Intrusion detection based sample selection for imbalanced data distribution [C]// Proc of the 2nd International Conference on the Innovative Computing Technology. Pisca-taway,NJ: IEEE Press,2012: 259-264.
[2]Zhou Peng,Hu Xuegang,Li Peipei,et al. Online feature selection for high-dimensional class-imbalanced data [J]. Knowledge-Based Systems,2017,136: 187-199.
[3]Yuan Xiaohui,Xie Lijun,Abouelenien M. A regularized ensemble framework of deep learning for cancer detection from multi-class,imbalanced training data [J]. Pattern Recognition,2018,77: 160-172.
[4]Wang Shuo,Yao Xin. Multiclass imbalance problems: analysis and potential solutions [J]. IEEE Trans on Systems,Man,and Cybernetics,Part B:Cybernetics,2012,42(4): 1119-1130.
[5]Kautz T,Eskofier B M,Pasluosta C F. Generic performance measure for multiclass-classifiers[J]. Pattern Recognition,2017,68:111-125.
[6]Tan A C,Gilbert D,Deville Y. Multi-class protein fold classification using a new ensemble machine learning approach [J]. Genome Informatics,2003,14: 206-217.
[7]Sun Yanmin,Kamel M S,Wang Yang. Boosting for learning multiple classes with imbalanced class distribution [C]// Proc of the 6th International Conference on Data Mining. Piscataway,NJ: IEEE Press,2006: 592-602.
[8]Sahare M,Gupta H. A review of multi-class classification for imba-lanced data [J]. International Journal of Advanced Computer Research,2012,2(5): 160-164.
[9]Tanha J,Abdi Y,Samadi N,et al. Boosting methods for multi-class imbalanced data classification: an experimental review [J]. Journal of Big Data,2020,7(1): 1-47.
[10]Sridhar S,Kalaivani A. Advances in smart system technologies [M]. Singapore: Springer,2021: 775-790.
[11]李蒙蒙,劉藝,李庚松,等. 不平衡多分類算法綜述 [J/OL]. 計算機應用. (2022-02-21) [2022-03-24]. http://www. joca. cn/CN/10. 11772/j.issn. 1001-9081. 2021122060. (Li Mengmeng,Liu Yi,Li Gengsong,et al. Survey on imbalanced multi-class classification algorithms [J/OL]. Journal of Computer Applications. (2022-02-21) [2022-03-24]. http://www.joca.cn/CN/10. 11772/j.issn. 1001-9081. 2021122060.)
[12]Abdi L,Hashemi S. To combat multi-class imbalanced problems by means of over-sampling techniques [J]. IEEE Trans on Knowledge and Data Engineering,2015,28(1): 238-251.
[13]Chawla N V,Bowyer K W,Hall L O,et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research,2002,16: 321-357.
[14]Wang Xiaoguang,Japkowicz N. Imbalanced data set learning with synthetic samples[C]// Proc of IRIS Machine Learning Workshop. 2004.
[15]Zhu Tuanfei,Lin Yaping,Liu Yonghe. Synthetic minority oversampling technique for multiclass imbalance problems [J]. Pattern Re-cognition,2017,72: 327-340.
[16]董明剛,劉明,敬超. 利用采樣安全系數的多類不平衡過采樣算法 [J]. 計算機科學與探索,2020,14(10): 1776-1786. (Dong Minggang,Liu Ming,Jing Chao. Sampling safety coefficient for multi-class imbalance oversampling algorithm [J]. Journal of Frontiers of Computer Science and Technology,2020,14(10): 1776-1786.)
[17]董明剛,姜振龍,敬超. 基于海林格距離和SMOTE的多類不平衡學習算法 [J]. 計算機科學,2020,47(1): 102-109. (Dong Minggang,Jiang Zhenlong,Jing Chao. Multi-class imbalanced learning algorithm based on Hellinger distance and SMOTE algorithm [J]. Computer Science,2020,47(1): 102-109.)
[18]Cieslak D A,Hoens T R,Chawla N V,et al. Hellinger distance decision trees are robust and skew-insensitive [J]. Data Mining and Knowledge Discovery,2012,24(1): 136-158.
[19]韓明鳴,郭虎升,王文劍. 面向非平衡多分類問題的二次合成QSMOTE方法 [J]. 南京大學學報: 自然科學版,2019,55(1): 1-13. (Han Mingming,Guo Husheng,Wang Wenjian. Quadratic synthetic minority over-sampling technique for classification of multiclass imbalance problems [J]. Journal of Nanjing University: Natural Science,2019,55(1): 1-13.)
[20]Khorshidi H A,Aickelin U. A synthetic over-sampling method with minority and majority classes for imbalance problems [EB/OL].(2020-11-09).https://arxiv.org/abs/2011.04170.
[21]Sridhar S,Kalaivani A. A two tier iterative ensemble method to tackle imbalance in multiclass classification [C]// Proc of International Conference on Decision Aid Sciences and Application. Piscataway,NJ: IEEE Press,2020: 1248-1254.
[22]Li Qianmu,Song Yanjun,Zhang Jing,et al. Multiclass imbalanced learning with one-versus-one decomposition and spectral clustering [J]. Expert Systems with Applications,2020,147: 113152.
[23]He Haibo,Bai Yang,Garcia E A,et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning [C]// Proc of IEEE International Joint Conference on Neural Networks. Piscataway,NJ: IEEE Press,2008: 1322-1328.
[24]Kurniawati Y E,Permanasari A E,Fauziati S. Adaptive synthetic-nominal (ADASYN-N) and adaptive synthetic-KNN (ADASYN-KNN) for multiclass imbalance learning on laboratory test data [C]// Proc of the 4th International Conference on Science and Technology. Piscataway,NJ: IEEE Press,2018: 1-6.
[25]Rahayu S,Putra J A,Yumarlin M Z. Effect of giving N value on ADA N method for classification of imbalanced nominal data [C]// Proc of the 4th International Conference on Information Technology,Information Systems and Electrical Engineering.Piscataway,NJ: IEEE Press,2019: 290-294.
[26]Deng Mingyang,Guo Yingshi,Wang Chang,et al. An oversampling method for multi-class imbalanced data based on composite weights [J]. PLoS One,2021,16(11): e0259227.
[27]Dentamaro V,Impedovo D,Pirlo G. LICIC: less important components for imbalanced multiclass classification [J]. Information,2018,9(12): 317.
[28]Feng Shuo,Keung J,Yu Xiao,et al. COSTE: complexity-based oversampling technique to alleviate the class imbalance problem in software defect prediction [J]. Information and Software Technology,2021,129: 106432.
[29]Lestari S,Rahmadsyah A,Lubis R M F,et al. HAR-MI with COSTE in handling multi-class imbalance [C]// Proc of the 8th International Conference on Cyber and IT Service Management. Piscataway,NJ: IEEE Press,2020: 1-4.
[30]Krawczyk B,Koziarski M,Wozniak M. Radial-based oversampling for multiclass imbalanced data classification [J]. IEEE Trans on Neural Networks and Learning Systems,2020,31(8): 2818-2831.
[31]Yap B W,Rani K A,Rahman H A A,et al. An application of oversampling,undersampling,bagging and boosting in handling imba-lanced datasets [C]// Proc of the 1st International Conference on Advanced Data and Information Engineering. Singapore: Springer,2014: 13-22.
[32]吳園園,申立勇. 基于類重疊度欠采樣的不平衡模糊多類支持向量機 [J]. 中國科學院大學學報,2018,35(4): 536-543. (Wu Yuanyuan,Shen Liyong. Imbalanced fuzzy multiclass support vector machine algorithm based on class-overlap degree undersampling [J]. Journal of University of Chinese Academy of Sciences,2018,35(4): 536-543.)
[33]Arafat M Y,Hoque S,Farid D M. Cluster-based under-sampling with random forest for multi-class imbalanced classification [C]// Proc of the 11th International Conference on Software,Knowledge,Information Management and Applications. Piscataway,NJ: IEEE Press,2017:1-6.
[34]Krawczyk B,Bellinger C,Corizzo R,et al. Undersampling with support vectors for multi-class imbalanced data classification [C]// Proc of International Joint Conference on Neural Networks. Piscataway,NJ: IEEE Press,2021: 1-7.
[35]Agrawal A,Viktor H L,Paquet E. SCUT: multi-class imbalanced data classification using SMOTE and cluster-based undersampling [C]// Proc of the 7th International Joint Conference on Knowledge Discovery,Knowledge Engineering and Knowledge Management. Piscataway,NJ: IEEE Press,2015: 226-234.
[36]Pruengkarn R. Enhancing classification performance by handling noise and imbalanced data with fuzzy classification techniques [D]. Perth,Australia: Murdoch University,2018.
[37]Mahadevan A,Arock M. A class imbalance-aware review rating prediction using hybrid sampling and ensemble learning [J]. Multimedia Tools and Applications,2021,80(5): 6911-6938.
[38]Van Hulse J,Khoshgoftaar T M,Napolitano A. An empirical comparison of repetitive undersampling techniques [C]// Proc of IEEE International Conference on Information Reuse amp; Integration. Piscataway,NJ: IEEE Press,2009: 29-34.
[39]Hartono H,Ongko E. Combining hybrid approach redefinition-multiclass imbalance (HAR-MI) and hybrid sampling in handling multi-class imbalance and overlapping [J].International Journal on Informatics Visualization,2021,5(1): 22-26.
[40]Xu Zhaozhao,Shen Derong,Nie T,et al. A hybrid sampling algorithm combining M-SMOTE and ENN based on random forest for medical imbalanced data [J]. Journal of Biomedical Informatics,2020,107: 103465.
[41]Janicka M,Lango M,Stefanowski J. Using information on class interrelations to improve classification of multiclass imbalanced data: a new resampling algorithm [J]. International Journal of Applied Mathematics and Computer Science,2019,29(4): 769-781.
[42]Díez-Pastor J F,Rodríguez J J,Garcia-Osorio C,et al. Random ba-lance: ensembles of variable priors classifiers for imbalanced data [J]. Knowledge-Based Systems,2015,85: 96-111.
[43]Rodríguez J J,Diez-Pastor J F,Arnaiz-Gonzalez A,et al. Random ba-lance ensembles for multiclass imbalance learning [J]. Knowledge-Based Systems,2020,193: 105434.
[44]Hartono H,Risyani Y,Ongko E,et al. HAR-MI method for multi-class imbalanced datasets [J]. Telecommunication Computing Electronics and Control,2020,18(2): 822-829.
[45]張仁斌,張杰,吳佩. 一種面向多類不平衡協議流量的改進AdaBoost.M2算法 [J]. 計算機應用研究,2019,36(6): 1863-1867. (Zhang Renbin,Zhang Jie,Wu Pei. Improved AdaBoost.M2 algorithm for multiclass imbalanced protocol traffic [J]. Application Research of Computers,2019,36(6): 1863-1867.)
[46]Tang Jiliang,Alelyani S,Liu Huan. Feature selection for classification: a review [M]//Aggarwal C C. Data Classification: Algorithms and Applications.[S.l.]:CRC Press,2014: 37-64.
[47]Fernández A,Carmona C J,Jose del Jesus M,et al. A Pareto-based ensemble with feature and instance selection for learning from multi-class imbalanced datasets [J]. International Journal of Neural Systems,2017,27(6): 1750028.
[48]Sreeja N K. A weighted pattern matching approach for classification of imbalanced data with a fireworks-based algorithm for feature selection [J]. Connection Science,2019,31(2): 143-168.
[49]Pawlak Z,Skowron A. Rough sets and Boolean reasoning [J]. Information Sciences,2007,177(1): 41-73.
[50]Lango M,Stefanowski J. Multi-class and feature selection extensions of roughly balanced bagging for imbalanced data [J]. Journal of Intelligent Information Systems,2018,50(1): 97-127.
[51]Chen Hongmei,Li Tianrui,Fan Xin,et al. Feature selection for imba-lanced data based on neighborhood rough sets [J]. Information Sciences,2019,483: 1-20.
[52]Huang Guangbin,Zhu Qinyu,Siew C K. Extreme learning machine: a new learning scheme of feed forward neural networks [C]// Proc of IEEE International Joint Conference on Neural Networks. Piscataway,NJ: IEEE Press,2004: 985-990.
[53]Ri J H,Tian Guanzhong,Liu Yong,et al. Extreme learning machine with hybrid cost function of G-mean and probability for imbalance learning [J]. International Journal of Machine Learning and Cybernetics,2020,11(9): 2007-2020.
[54]鐘堅. 面向不平衡多分類的加權局部泛化誤差極限學習機 [D]. 杭州: 浙江工商大學,2022. (Zhong Jian. Weighted local generalization error limit learning machine for unbalanced multi classification [D].Hangzhou: Zhejiang Gongshang University,2022.)
[55]Li Yanjiao,Zhang Sen,Yin Yixin,et al. Parallel one-class extreme learning machine for imbalance learning based on Bayesian approach [J/OL]. Journal of Ambient Intelligence and Humanized Computing.(2018-09-14).https://doi.org/10.1007/s12652-018-0994-x.
[56]Raghuwanshi B S,Shukla S. Generalized class-specific kernelized extreme learning machine for multiclass imbalanced learning [J]. Expert Systems with Applications,2019,121: 244-255.
[57]Xiao Wendong,Zhang Jie,Li Yanjiao,et al. Class-specific cost regulation extreme learning machine for imbalanced classification [J]. Neurocomputing,2017,261: 70-82.
[58]Mirza B,Lin Zhiping,Cao Jiuwen,et al. Voting based weighted online sequential extreme learning machine for imbalance multi-class classification [C]// Proc of IEEE International Symposium on Circuits and Systems. Piscataway,NJ: IEEE Press,2015: 565-568.
[59]Mirza B,Lin Zhiping,Toh K A. Weighted online sequential extreme learning machine for class imbalance learning [J]. Neural Proces-sing Letters,2013,38(3): 465-486.
[60]Ding Shuya,Mirza B,Lin Zhiping,et al. Kernel based online learning for imbalance multiclass classification [J]. Neurocomputing,2018,277: 139-148.
[61]Yu Haiyang,Chen Chunyi,Yang Huaming. Two-stage game strategy for multiclass imbalanced data online prediction [J]. Neural Processing Letters,2020,52(3): 2493-2512.
[62]Vong C M,Du Jie,Wong C M,et al. Postboosting using extended G-mean for online sequential multiclass imbalance learning [J]. IEEE Trans on Neural Networks and Learning Systems,2018,29(12): 6163-6177.
[63]Vong C M,Du Jie. Accurate and efficient sequential ensemble lear-ning for highly imbalanced multi-class data [J]. Neural Networks,2020,128: 268-278.
[64]Cortes C,Vapnik V N. Support-vector networks[J].Machine Lear-ning,1995,20(3): 273-297.
[65]Sim D Y Y. Computational science and technology [M]. Singapore: Springer,2020: 157-167.
[66]Wu Yuanyuan,Shen Liyong,Zhang Sanguo. Fuzzy multiclass support vector machines for unbalanced data [C]// Proc of the 29th Chinese Control and Decision Conference. Piscataway,NJ: IEEE Press,2017: 2227-2231.
[67]Abdalazie H S,Saeed F A. New hierarchical model for multiclass imbalanced classification [J]. Journal of Theoretical amp; Applied Information Technology,2017,95(16):3861-3869.
[68]Purnami S W,Trapsilasiwi R K. SMOTE-least square support vector machine for classification of multiclass imbalanced data [C]// Proc of the 9th International Conference on Machine Learning and Computing. New York: ACM Press,2017: 107-111.
[69]Devi D,Biswas S K,Purkayastha B. Learning in presence of class imbalance and class overlapping by using one-class SVM and undersampling technique[J]. Connection Science,2019,31(2):105-142.
[70]Mehmood Z,Asghar S. Customizing SVM as a base learner with AdaBoost ensemble to learn from multi-class problems: a hybrid approach AdaBoost-MSVM [J]. Knowledge-Based Systems,2021,217: 106845.
[71]Bhowmick K,Shah U B,Shah M Y,et al. Information systems design and intelligent applications [M]. Singapore: Springer,2019: 109-118.
[72]Purwar A,Singh S K. A novel ensemble classifier by combining sampling and genetic algorithm to combat multiclass imbalanced problems [J]. International Journal of Data Analysis Techniques and Strategies,2020,12(1): 30-42.
[73]Sainin M S,Alfred R,Adnan F,et al. Combining sampling and ensemble classifier for multiclass imbalance data learning [C]// Proc of International Conference on Computational Science and Technology. Singapore: Springer,2017: 262-272.
[74]Collell G,Prelec D,Patil K R. A simple plug-in bagging ensemble based on threshold-moving for classifying binary and multiclass imba-lanced data [J]. Neurocomputing,2018,275: 330-340.
[75]Alam T,Ahmed C F,Zahin S A,et al. An effective ensemble method for multi-class classification and regression for imbalanced data [C]// Proc of Industrial Conference on Data Mining.Cham:Springer,2018: 59-74.
[76]Fernandes E R Q,Carvalho A C,Yao Xin. Ensemble of classifiers based on multiobjective genetic sampling for imbalanced data [J]. IEEE Trans on Knowledge and Data Engineering,2019,32(6): 1104-1115.
[77]Krawczyk B,Cano A,Woz'niak M. Selecting local ensembles for multi-class imbalanced data classification [C]// Proc of International Joint Conference on Neural Networks. Piscataway,NJ: IEEE Press,2018: 1-8.
[78]Ndirangu D,Mwangi W,Nderu L. A Hybrid ensemble method for multiclass classification and outlier detection [J]. International Journal of Sciences: Basic and Applied Research,2019,45(1): 192-213.
[79]Vafaie P,Viktor H,Michalowski W. Multi-class imbalanced semi-supervised learning from streams through online ensembles [C]// Proc of International Conference on Data Mining Workshops.Piscataway,NJ: IEEE Press,2020: 867-874.
[80]Roy A,Cruz R M O,Sabourin R,et al. A study on combining dynamic selection and data preprocessing for imbalance learning [J]. Neurocomputing,2018,286: 179-192.
[81]Cruz R M O,Souza M A,Sabourin R,et al. Dynamic ensemble selection and data preprocessing for multi-class imbalance learning [J]. International Journal of Pattern Recognition and Artificial Intelligence,2019,33(11): 1940009.
[82]Zhao Dongxue,Wang Xin,Mu Yashuang,et al. Experimental study and comparison of imbalance ensemble classifiers with dynamic selection strategy [J]. Entropy,2021,23(7): 822.
[83]García S,Zhang ZhongLiang,Altalhi A,et al. Dynamic ensemble selection for multi-class imbalanced datasets [J]. Information Sciences,2018,445: 22-37.
[84]Zhang Zhongliang,Krawczyk B,Garcia S,et al. Empowering one-vs-one decomposition with ensemble learning for multi-class imbalanced data [J]. Knowledge-Based Systems,2016,106: 251-263.
[85]徐作寧,雒興剛,張忠良. 基于分解策略處理多分類不均衡問題的方法 [J]. 計算機應用研究,2020,37(8): 2404-2408. (Xu Zuoning,Luo Xinggang,Zhang Zhongliang. Method based on decomposition strategy for handling multi-class imbalance problems [J]. Application Research of Computers,2020,37(8): 2404-2408.)
[86]張嵐. 基于分解策略的多類不平衡分類算法研究 [D]. 長沙: 湖南大學,2020. (Zhang Lan. Research on multi class imbalance classification algorithm based on decomposition strategy[D].Changsha: Hunan University,2020.)
[87]Napierala K,Stefanowski J. Types of minority class examples and their influence on learning classifiers from imbalanced data [J]. Journal of Intelligent Information Systems,2016,46(3): 563-597.
[88]Gao Xin,He Yang,Zhang Mi,et al. A multiclass classification using one-versus-all approach with the differential partition sampling ensemble [J]. Engineering Applications of Artificial Intelligence,2021,97: 104034.
[89]Mohammed R A,Wong K W,Shiratuddin M F,et al. Classification of multi-class imbalanced data streams using a dynamic data-balancing technique[M]// Yang Haiqin,Pasupa K,Leung A C S,et al. Neural Information Processing. Cham: Springer,2020:279-230.