摘要:不平衡數據在實際應用中廣泛存在,它們已對機器學習領域構成了一個挑戰,如何有效處理不平衡數據也成為目前的一個新的研究熱點。綜述了這一新領域的研究現狀,包括該領域最新研究內容#65380;方法及成果。
關鍵詞:不平衡數據; 機器學習; 模式分類
中圖分類號:TP18文獻標志碼:A
文章編號:1001-3695(2008)02-0332-05
不平衡數據分類考慮的是各類樣本數目不平衡情況下的分類學習問題。以二分類為例,若其中有一類(正類#65380;多數類)的學習樣本比另一類(負類#65380;少數類)的學習樣本多得多,那么就稱這樣的分類問題為IDS分類問題。IDS在實際應用中經常碰到,如欺詐識別#65380;入侵檢測#65380;醫療診斷以及文本分類等都是典型的IDS問題。傳統的分類方法主要考慮的是各類學習樣本數量大致均衡的情形,其評價標準主要是基于精度的。這使得現有的分類方法往往不能有效地處理IDS,尤其是數據的不平衡嚴重時(正/負類學習樣本數量比可高達100 ∶1#65380;1 000 ∶1甚至10 000 ∶1)更是如此。
1IDS分類學習的應用
隨著應用的廣泛深入,人們發現IDS分類問題并非少見,許多實際問題的數據是不平衡的。早在1998年,Kubat等人[1]就考慮了一個實際的IDS分類問題,他們根據獲得的衛星圖像,通過分類的方法對石油噴井進行計算機自動監測。其中數據不平衡的比例約為22 ∶1。此后,Phua等人[2]和Pérez等人[3]相繼考慮了欺詐識別中的IDS分類問題。文獻[3]的數據集中具有108 000個樣本,只有約7.4%是欺詐樣本。Castillo等人[4]以及Zheng等人[5]研究了文本分類問題;Cohen等人[6]考慮了醫院傳染病監測問題;Chen等人[7]討論了IDS分類學習在藥物治療檢測方面的應用;Yoon等人[8]介紹了在生物信息學方面的應用;Radivojac等人[9]則將IDS分類學習應用于無線傳感器網絡的入侵檢測方面。在諸多實際應用中,研究者們均指出了數據不平衡對分類學習帶來的困難和挑戰,其中最主要的方面就是分類器性能大大降低。
2IDS問題實質探討
不平衡問題的實質是什么?各類學習樣本數量的不均衡是否一定會降低傳統分類方法的性能?進一步地,影響分類器性能的因素有哪些,這些因素對各種不同的分類方法的影響是否相同?這些都是IDS給人們帶來的新的思考。Japkowicz等人[10]通過實驗的方法對IDS問題進行了較為系統的研究,她考慮了概念復雜度#65380;訓練樣本規模和類間不平衡程度三個因素對分類器性能的影響。實驗表明,除了類間不平衡程度(即類間學習樣本數量比例)這個因素外,另外兩個因素也會對分類器性能產生影響。當概念復雜度較低時,類間不平衡程度并不會對分類器性能產生太大的影響;此外,提高訓練樣本規模也可緩解類間不平衡對分類器性能的不良影響。文獻[10]還比較了數據不平衡對不同分類方法的影響。其中包括基于決策樹的C4.5#65380;BP神經網絡以及支持向量機(SVM)等。實驗結果表明,相對而言,SVM對數據不平衡帶來的影響較不敏感。在此基礎上,Jo和Japkowicz[11]進一步比較研究了類間(between-class)不平衡和小析取項(small disjuncts)對分類學習的影響。小析取項即類內(within-class)不平衡,從概念學習的角度來說,它反映了同一類的若干子概念之間學習樣本分布的不平衡性。小析取項就是那些所涵蓋的學習樣本數量偏少的子概念,它們是容易被錯誤學習進而影響分類器整體性能的一個重要因素。類間和類內不平衡是IDS的兩個不同側面,它們可能會同時出現,均會影響分類器的性能。Prati等人[12]挑選了UCI[13]的十個數據集作為實驗數據,對這兩種不平衡進行了實驗比較研究,此外,Prati等人[14]還對類不平衡和類重疊進行了比較研究。他們指出分類器性能的下降不能只歸咎于類不平衡的存在。在一些類嚴重不平衡的分類學習中,分類器仍然具有良好的性能。這是因為類重疊并不嚴重,也就是說,類重疊也是影響分類器性能的一個重要因素。
3分類器的合理評價
在傳統的分類學習方法中,訓練精度是主要的評價指標。然而對于IDS問題來說,用精度來評價分類器的性能卻并不合理。比如在二分類中,假設正類的樣本占了99%。若本文的分類方法就是將所有的樣本都歸為正類,那么這個簡單的分類器就可以獲得高達99%的訓練精度。但是這樣的分類器是沒有實用價值的。對于一個具體的分類器,考慮如表1所示的混淆矩陣。其中:Pos表示正類樣本;Neg表示負類樣本;N=Pos+Neg為全體學習樣本;TP(true positive)和TN(true negative)分別表示被正確分類的正類和負類樣本;FP(1 positive)和FN(1 negative)則分別表示被錯分的正類和負類樣本。根據這個矩陣,可以定義如下的量[15]:
TP rate=TP/Pos=TP/(TP+FN)
FP rate=FP/Neg=FP/(TN+FP)
精度accuracy=(TP+TN)/N
查準率precision=TP/(TP+FP)
查全率recall=TP rate
顯然,查全率和查準率都是越大越好,而FP rate則越小越好。對分類器的合理評價應該綜合考慮這些指標。接收者操作特性(receiver operating characteristic,ROC)考慮的是TP rate和FP rate。在ROC空間中,以FP rate為橫軸#65380;TP rate為縱軸對分類器進行定位,如圖1所示[15]。
ROC空間中的每一個點對應于一個具體的分類器。顯然,越是位于左上角的分類器其性能越好。在圖1中,D所對應的分類器性能最理想。對于某些分類方法(如神經網絡),通過調整閾值可以在ROC空間中得到一族點,連接這些點便形成所謂的ROC曲線。若一個分類方法的ROC曲線總是在另一個方法的ROC曲線的上方,那么前者要比后者好。然而,許多時候兩條ROC曲線會有交叉,因此采用曲線下方圖面積AUC(area under ROC curve)作為評價標準,AUC越大越好。事實上,AUC具有統計意義[16]。假設分類決策是根據函數f(x)值進行的,且正確分類情形下正類樣本對應的函數值大于負類樣本的函數值,那么AUC(f)=P(f(x+)>f(x-)),即對于隨機抽取的一個正類樣本x+和負類樣本x-, f賦予x+比x-更大的函數值的概率。
Drummond等人[17]將誤分代價考慮進去,提出所謂的cost曲線。定義如下的量:
E[cost]=FN×P(+)×C(-|+)+FP×P(-)×C(+|-)
max E[cost]=P(+)×C(-|+)+P(-)×C(+|-)
Norm(E[cost])=E[cost]/max E[cost]=FN×PC(+)+FP×PC(-)
PC(+)=P(+)×C(-|+)/[P(+)×C(-|+)+P(-)×C(+|-)]
PC(-)=P(-)×C(+|-)/[P(+)×C(-|+)+P(-)×C(+|-)]
其中:P(+)和P(-)表示兩類的先驗概率;C(-|+)和C(+|-)分別表示誤分代價;E[cost]的意義是分類器的平均誤分代價;Norm(E[cost])是歸一化之后的平均誤分代價;PC(+)和PC(-)則可以理解成考慮了誤分代價的兩類先驗概率。在cost空間中,橫軸表示PC(+),縱軸則表示error rate(即Norm(E[cost]))。Drummond等人對cost空間和ROC空間進行了比較研究,指出兩者之間存在某種對偶關系。他們認為在cost空間中可以更方便地進行分類器性能的評價和比較。
ROC以及cost曲線將分類器性能可視化,其優點是直觀明了,但不夠方便。人們往往需要某些量化指標(如AUC),這樣使用起來更方便,而且也易于作為分類器優化的標準。針對IDS分類問題,人們主要考慮了以下指標[8,19]:
a)兩類訓練精度的幾何平均(acc+×acc-)1/2。其中:acc+=TP/(TP+FN);acc-=TN/(TN+FP)。
b)查準率和查全率的幾何平均(precision×recall)1/2。
c)F-得分:Fβ=(β2+1)precision×recall/(β2precision+recall)。其中: β≥0是參數,常選擇為1。顯然,F0=precision,而F+∞=recall。當0<β<+∞時,Fβ在precision與recall之間進行了某種折中。
4數據層面的處理方法
數據層面的處理是對數據進行重抽樣,包括過抽樣和欠抽樣兩種。其主要思想是通過合理地增加或者減少一些樣本去平衡化數據,進而降低數據不平衡對分類器帶來的不良影響。最簡單的重抽樣方法就是隨機增加(復制)或刪除部分樣本,但其效果通常不理想,人們考慮得更多的是啟發式的做法。
一般說來,欠抽樣主要是去掉噪聲和冗余數據,而且主要是針對多數類的樣本進行。其中:常用的技術包括Tomek link#65380;一致子集(consistent subset)#65380;編輯技術(常用的是Wilson’s editing)以及單邊選擇(one-sided selection)等[19,20]。這些技術主要是啟發式地利用(加權)歐氏距離以及K-近鄰規則去識別可以合理剔除的樣本。Barandela等人[21]以及Batista等人[19]都對上述的多種欠抽樣方法進行了詳細的實驗比較研究。Dehmeshki等人[22]則提出了基于規則的數據過濾技術,其本質上也是欠抽樣方法。他們通過構造規則去發現安全區域;然后將安全區域內的樣本點剔除掉(針對多數類進行)。他們認為其中的道理在于安全區域內的樣本對分類器的構建并無太大作用,因此可以剔除。
與欠抽樣相反,過抽樣技術主要是設法增加少數類的學習樣本。其中的代表是由Chawla等人[23]提出的SMOTE技術。SMOTE技術的主要想法在于通過插值生成新的人造樣本,而不是簡單地復制樣本。Han等人[24]在此基礎上進行改進,提出了Borderline-SMOTE技術。其主要想法是在適當的區域內進行插值,以保證新增加的樣本是有價值的。
在實際應用中,為了獲得好的效果,經常將不同的欠抽樣和過抽樣技術混合使用。
5算法層面的處理方法
針對IDS問題改進原有算法或者設計更有效的新算法是IDS分類學習研究中最主要的組成部分。根據筆者所掌握的文獻資料來看,目前主要集中在如下四個不同的途徑:代價敏感(cost-sensitive)學習#65380;支持向量機方法#65380;單類(one-class)學習#65380;組合(combining)方法等。
5.1Cost-sensitive學習
實際上,比這更一般的問題是如何選擇有效的核函數。
Chen等人[33]考慮對支持向量進行裁減,通過適當犧牲多數類的分類精度以提高少數類的精度。Brefeld等人[16]則直接以AUC極大化為目標,提出了新的SVM形式的分類方法。類似地,Callut等人[34]以F-得分Fβ為準則提出了FβSVM。值得指出的是,在文獻[16,34]所提出的方法中,雖然其最后優化的問題形式與SVM相似,但其中的意義卻有所不同。它們都是在優化適用于IDS的某個評價指標(如AUC)基礎上得到的,因此在處理IDS分類問題上更具有直觀意義。
5.3單類學習
當類間數據嚴重不平衡時,分類器通常都會傾向于將幾乎所有的數據判為多數類。為了解決這個問題,人們考慮采用不是基于區別的分類方法,而是基于識別的方法進行學習,進而提出了單類學習。單類學習方法的主要思想在于只利用感興趣的目標類的學習樣本進行學習。對于新的樣本,通過比較該樣本與目標類的相似程度而識別該樣本是否歸屬于目標類。在單類學習中,目前研究得比較多的還是基于SVM的方法。Schlkopf等人[35]首先將SVM用于密度估計。考慮了如下的單類SVM:
這里的xi均是來自同一個類別的樣本。此后,人們便將單類SVM用于單類學習進而解決一些IDS分類問題,尤其是當少數類的學習樣本非常少的情形下[36~38]。
5.4組合方法
組合方法的主要思想在于將多個分類器組合成一個分類器,以提高分類性能。其中,提升是被廣泛使用的技術。通過提升,多個弱分類器可以組合成一個強分類器。AdaBoost是采用提升技術算法的代表[39]。在該算法中,最終得到的分類器是多個弱分類器的線性組合形式:
算法首先給出各學習樣本的初始權重(分布)Dt(i)(∑iDt(i)=1);然后根據這些帶權樣本進行訓練得到相應的弱分類器Ht(x);接著利用所獲得的Ht(x)計算相應的組合系數:
6結束語
不平衡數據IDS在實際應用中經常碰到,它對傳統的分類方法構成了挑戰。如何有效地處理IDS引起了人們的關注。IDS分類也成了機器學習領域的又一新的研究熱點[54,55]。目前,對IDS分類學習的研究主要集中在數據重抽樣技術以及算法的改進方面。數據重抽樣技術主要包括過抽樣和欠抽樣兩種,它們各有優缺點;如何更合理地對數據進行重抽樣是一個值得進一步研究的課題。在算法設計和改進方面,目前研究得比較多的是基于SVM的分類方法。SVM的間隔最大化思想可以使分類器獲得更好的推廣能力,而且,真正決定SVM分類器的是那些只占少部分的支持向量樣本。因此,與其他方法比較起來,SVM方法似乎更適合處理不平衡數據。Boosting技術與SVM有相似之處,其實質也是間隔最大化,因此可以盡可能地避免過學習所帶來的不良影響;再者,Boosting的適用范圍更廣,它可以提升各種弱分類算法。將Boosting用于IDS分類學習具有廣闊的應用前景。
參考文獻:
[1]KUBAT M, HOLTE R C, MATWIN S. Machine learning for the detection of oil spills in satellite radar images[J]. Machine Learning, 1998,30(2-3):195-215.
[2]PHUA C, ALAHAKOON D. Minority report in fraud detection: classication of skewed data[J]. SIGKDD Explorations, 2004,6(1):50-59.
[3]PREZ J M, MUGUERZA J, ARBELAITZ O, et al. Consolidated tree classifier learning in a car insurance fraud detection domain with class imbalance[C]//Proc of the 3rd International Conference on Advances in Pattern Recognition(ICAPR’05). 2005:381-389.
[4]CASTILLO M D del, SERRANO J I. A multistrategy approach for digital text categorization from imbalanced documents[J]. SIGKDD Explorations, 2004,6(1):70-79.
[5]ZHENG Zhao-hui, WU X, SRIHARI R K. Feature selection for text categorization on imbalanced data[J]. SIGKDD Explorations, 2004,6(1):80-89.
[6]COHEN G, HILARIO M, SAX H, et al. Data imbalance in surveillance of nosocomial infections[C]//Proc of the 4th International Symposium on Medical Data Analysis(ISMDA’03). Berlin:[s.n.], 2003:109-117.
[7]CHEN Jian-xun, CHENG T H, CHAN A L F, et al. An application of classification analysis for skewed class distribution in therapeutic drug monitoring the case of vancomycin[C]//Proc of Workshop on Medical Information Systems(IDEAS-DH’04). Beijing:[s.n.], 2004:35-39.
[8]YOON K, KWEK S. An unsupervised learning approach to resolving the data imbalanced issue in supervised learning problems in functio-nal genomics[C]//Proc of the 5th International Conference on Hybrid Intelligent Systems(HIS’05). Rio de Janeiro:[s.n.], 2005:303-308.
[9]RADIVOJAC P, KORAD U, SIVALINGAM K M, et al. Learning from class-imbalanced data in wireless sensor networks[C]//Proc of Vehicular Technology Conference(VTC’03-Fall). Orlando:[s.n.], 2003:3030-3034.
[10]JAPKOWICZ N, STEPHEN S. The class imbalance problem: a systematic study[J]. Intelligent Data Analysis, 2002,6(5):203-231.
[11]JO T, JAPKOWICZ N. Class imbalances versus small disjuncts[J]. SIGKDD Explorations, 2004,6(1):40-49.
[12]PRATI R C, BATISTA G E A P A, MONARD M C. Learning with class skews and small disjuncts[C]//Proc of the 17th Brazilian Symposium on Artificial Intelligence(SBIA’04). Sao Luis:[s.n.], 2004:296-306.
[13]MERZ C J, MURPHY P M. UCI repository of machine learning databases[EB/OL].(1999).http://www.ics.uci.edu/mlearn/MLRepository.html.
[14]PRATI R C, BATISTA G E A P A, MONARD M C. Class imba-lances versus class overlapping: an analysis of a learning system behavior[C]//Proc of the 3rd Mexican International Conference on Artificial Intelligence(MICAI’04). Mexico City:[s.n.], 2004:312-321.
[15]FAWCETT T. ROC graphs: notes and practical considerations for researchers[EB/OL].(2003).http://www.hpl.hp.com/personal/Tom Fawcett/papers/index.html.
[16]BREFELD U, SCHEFFER T. AUC maximizing support vector lear-ning[C]//Proc of ICML Workshop on ROC Analysis in Machine Learning. Bonn:[s.n.], 2005.
[17]DRUMMOND C, HOLTE R C. Cost curves: an improved method for visualizing classifier performance[J]. Machine Learning, 2006,65(1):95-130.
[18]DASKALAKIL S, KOPANAS I, AVOURIS N. Evaluation of classi-fiers for an uneven class distribution problem[J]. Applied Artificial Intelligence, 2006,20(5):381-417.
[19]BATISTA G E A P A, PRATI R C, MONARD M C. A study of the behavior of several methods for balancing machine learning training data[J]. SIGKDD Explorations, 2004,6(1):20-29.
[20]KUBAT M, MATWIN S. Addressing the curse of imbalanced training sets: one-sided selection[C]//Proc of 14th International Conference on Machine Learning(ICML’97). Nashville:[s.n.], 1997:179-186.
[21]BARANDELA R, VALDOVINOS R M, SNCHEZ J S, et al. The imbalanced training sample problem: under or over sampling[C]//Proc of International Workshops on Structural, Syntactic, and Statistical Pattern Recognition(SSPR/SPR’04). Lisbon:[s.n.], 2004:806-814.
[22]DEHMESHKI J, KARAKY M, CASIQUE M V. A rule-based scheme for filtering examples from majority class in an imbalanced training set[C]//Proc of MLDM 2003. 2003:215-223.
[23]CHAWLA N V, HALL L O, BOWYER K W, et al. SMOTE: synthe-tic minority oversampling technique[J]. Journal of Articial Intelligence Research, 2002,16:321-357.
[24]HAN Hui, WANG Wen-yuan, MAO Bing-huan. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning[C]//Proc of International Conference on Intelligent Computing(ICIC’05). Hefei:[s.n.], 2005:878-887.
[25]ELKAN C. The foundations of cost-sensitive learning[C]//Proc of the 17th International Joint Conference on Artificial Intelligence(IJCAI’01). Washington DC:[s.n.], 2001:973-978.
[26]DOMINGOS P. MetaCost: a general method for making classifiers cost-sensitive[C]//Proc of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD’99). San Diego:[s.n.], 1999:155-164.
[27]FAN Wei, STOLFO S J, ZHANG Jun-xin, et al. AdaCost: misclassification cost-sensitive boosting[C]//Proc of the 16th International Conference on Machine Learning(ICML’99). Bled:[s.n.], 1999:97-105.
[28]WEISS G. Mining with rarity: an unifying framework[J]. SIGKDD Explorations, 2004,6(1):7-19.
[29]RASKUTTI B, KOWALCZYK A. Extreme rebalancing for SVMs: a case study[J]. SIGKDD Explorations, 2004,6(1):60-69.
[30]AKBANI R, KWEK S, JAPKOWICZ N. Applying support vector machines to imbalanced datasets[C]//Proc of the 15th European Conference on Machine Learning(ECML’04). Pisa:[s.n,], 2004:39-50.
[31]WU Gang, CHANG E Y. KBA: kernel boundary alignment conside-ring imbalanced data distribution[J]. IEEE Trans on Knowledge and Data Engineering, 2005,17(6):786-795.
[32]AMARI S, WU S. Improving support vector machine classifiers by modifying kernel functions[J]. Neural Networks, 1999,12(6):783-789.
[33]CHEN Xue-wen, GERLACH B, CASASENT D. Pruning support vectors for imbalanced data classification[C]//Proc of International Joint Conference on Neural Networks. Montreal:[s.n.], 2005:1883-1888.
[34]CALLUT J, DUPONT P. Fβ support vector machines[C]//Proc of International Joint Conference on Neural Networks. Montreal:[s.n.], 2005.
[35]SCHLKOPF B, PLATT J C, SHAWE-TAYLOR J, et al. Estimating the support of a high-dimensional distribution[J]. Neural Computation, 2001,13(7):1443-1472.
[36]MANEVITZ L M, YOUSEF M. One-class SVMs for document classication[J]. Journal of Machine Learning Research, 2001,2(1):139-154.
[37]SENF A, CHEN Xue-wen, ZHANG A. Comparison of one-class SVM and two-class SVM for fold recognition[C]//Proc ofICONIP. Hong Kong:[s.n.], 2006:140-149.
[38]COHEN G, HILARIO M, PELLEGRINI C. One-class support vector machines with a conformal kernel: a case study in handling class imbalance[C]//Proc of International Workshops on Structural, Syntactic, and Statistical Pattern Recognition(SSPR/SPR’04). Lisbon:[s.n.], 2004:850-858.
[39]FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997,55(1):119-139.
[40]SCHAPIRE R E, FREUND Y, BARTLETT P, et al. Boosting the margin: a new explanation for the effectiveness of voting methods[J]. The Annals of Statistics, 1998,26(5):1651-1686.
[41]DEMIRIZ A, BENNETT K P, SHAWE-TAYLOR J. Linear programming boosting via column generation[J]. Machine Learning, 2002,46(1-3):225-254.
[42]LESKOVEC J, SHAWE-TAYLOR J. Linear programming boosting for uneven datasets[C]//Proc of the 20th International Conference on Machine Learning. Washington D C:[s.n.], 2003:456-463.
[43]JOSHI M, KUMAR V, AGARWAL R. Evaluating boosting algorithms to classify rare classes: comparison and improvements[C]//Proc of the 1st IEEE International Conference on Data Mining. San Jose:[s.n.], 2001:257-264.
[44]CHAWLA N V, LAZAREVIC A, HALL L O, et al. SMOTEBoost: improving prediction of the minority class in boosting: knowledge discovery in databases[C]//Proc of the 7th European Conference on Principles and Practice of Knowledge Discovery in Databases(PKDD’03). Cavtat Dubrovnik:[s.n.], 2003:107-119.
[45]GUO Hong-yu, VIKTOR H L. Learning from imbalanced data sets with boosting and data generation: the dataBoost-IM approach[J]. SIGKDD Explorations, 2004,6(1):30-39.
[46]LIU Yang, AN Ai-jun, HUANG Xiang-ji. Boosting prediction accuracy on imbalanced datasets with SVM ensembles[C]//Proc of the 10th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Singapore:[s.n.], 2006:107-118.
[47]KANG P, CHO S. EUS SVMs: ensemble of under-sampled SVMs for data imbalance problems[C]//Proc of ICONIP. Hong Kong:[s.n.], 2006:837-846.
[48]ZHOU Zhi-hua, LIU Xu-ying. Training cost-sensitive neural networks with methods addressing the class imbalance problem[J]. IEEE Trans on Knowledge and Data Engineering, 2006,18(1):63-77.
[49]MURPHEY Y L, GUO H, FELDKAMP L A. Neural learning from unbalanced data[J]. Applied Intelligence, 2004,21(2):117-128.
[50]HAND D J, VINCIOTTI V. Choosing k for two-class nearest neighbour classifiers with unbalanced classes[J]. Pattern Recognition Letters, 2003,24(9-10):1555-1562.
[51]VISA S, RALESCU A. Learning imbalanced and overlapping classes using fuzzy sets[C]//Proc of ICML Workshop on Learning from Imbalanced Data Sets. 2003.
[52]LANCKRIET G, GHAOUI L, BHATTACHARYYA C, et al. A robust minimax approach to classification[J]. Journal of Machine Learning Research, 2003,3(1):555-582.
[53]HUANG Kai-zhu, YANG Hai-qin, KING I, et al. Imbalanced lear-ning with biased minimax probability machine[J]. IEEE Trans on System, Man, and Cybernetics, 2006,36(4):913-923.
[54]JAPKOWICZ N. Learning from imbalaced data sets: a comparison of various strategies[C]//AAAI Workshop on Learning from Imbalanced Data Sets. Menlo Park:AAAI Press, 2000.
[55]CHAWLA N, JAPKOWICZ N, KOKCZ A. Editorial:Special issues on learning from imbalanced data sets[J]. SIGKDD Explorations, 2004,6(1):1-6.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”