摘要:在不平衡數(shù)據(jù)的分類中,標(biāo)準(zhǔn)分類器為優(yōu)化整體的分類誤差會(huì)犧牲少數(shù)類的分類準(zhǔn)確率,而實(shí)際應(yīng)用中通常更重視對(duì)少數(shù)類的準(zhǔn)確識(shí)別。數(shù)據(jù)層面方法因其有獨(dú)立于分類器、泛化能力較強(qiáng)、實(shí)現(xiàn)簡(jiǎn)單等優(yōu)勢(shì),成為解決不平衡數(shù)據(jù)分類問(wèn)題的有效策略。圍繞不平衡數(shù)據(jù)分類的數(shù)據(jù)層面方法開(kāi)展綜述研究,分析造成不平衡數(shù)據(jù)分類問(wèn)題的影響因素,從樣本空間優(yōu)化、特征空間優(yōu)化兩個(gè)方向?qū)χ夭蓸臃椒疤卣鬟x擇方法的相關(guān)研究進(jìn)行梳理和評(píng)述,并對(duì)兩類方法進(jìn)行橫向比較。最后提出了需要重點(diǎn)關(guān)注的問(wèn)題和可能的研究機(jī)會(huì),以期為不平衡數(shù)據(jù)分類算法研究及應(yīng)用提供借鑒和參考。
關(guān)鍵詞:不平衡數(shù)據(jù);分類;重采樣;特征選擇
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2023)01-002-0011-09
doi:10.19734/j.issn.10013695.2022.05.0250
Datalevel methods of imbalanced data classification:status and research development
Su Yi,Li Xiaojun,Yao Junping,Zhou Zhijie,Liu Shuaitong
(Rocket Force University of Engineering,Xi’an 710025,China)
Abstract:In the classification of imbalanced data,in order to optimize the overall classification error,the standard classifiers may sacrifice the classification accuracy of the minority class.But more attention be paid to the accurate recognition of the minority class in practical applications.Due to the unique advantages of its high independence from classifiers,strong generalization capability and simplicity,the datalevel methods have become more effective strategies to solve the problems of imbalanced data classification.Focusing on the datalevel methods of imbalanced data classification,this paper firstly analysed the influencing factors that caused the imbalanced data classification problem.Then it assessed the relevant researches on resampling methods and feature selection methods which corresponding to sample space optimization and feature space optimization respectively,and horizontally compared these two datalevel methods.Finally it put forward the issues that need to be focused on and proposed some possible research opportunities,so as to provide references for the algorithm research and applications of imbalanced data classification.
Key words:imbalanced data;classification;resampling;feature selection
0引言
科學(xué)和信息技術(shù)的進(jìn)步,極大推動(dòng)了社會(huì)發(fā)展。數(shù)據(jù),已經(jīng)滲透到生產(chǎn)生活各個(gè)領(lǐng)域之中,其規(guī)模也在不斷以爆炸性的速度增長(zhǎng)[1]。如何挖掘和運(yùn)用海量數(shù)據(jù),已經(jīng)引起了學(xué)術(shù)界、工業(yè)界的廣泛關(guān)注。數(shù)據(jù)分類是一種廣為應(yīng)用的數(shù)據(jù)分析形式,它以發(fā)現(xiàn)隱藏在數(shù)據(jù)和類別背后的關(guān)聯(lián)性規(guī)則為目標(biāo),根據(jù)實(shí)例在特征空間上的分布對(duì)其進(jìn)行所屬類別的劃分。然而,在現(xiàn)實(shí)世界的數(shù)據(jù)中,所有的數(shù)據(jù)集都或多或少有類的偏態(tài)分布[2],這為數(shù)據(jù)的分類增加了難度。
如在生物醫(yī)學(xué)領(lǐng)域中,需要進(jìn)行疾病診斷[3]、醫(yī)學(xué)圖像識(shí)別[4]、基因表達(dá)識(shí)別[5]等;在商業(yè)金融領(lǐng)域中,需要進(jìn)行財(cái)務(wù)危機(jī)預(yù)警[6]、金融詐騙檢測(cè)[7]、市場(chǎng)營(yíng)銷[8]等;在工業(yè)領(lǐng)域中,需要進(jìn)行故障檢測(cè)[9]、半導(dǎo)體缺陷檢測(cè)[10]等;在電子信息領(lǐng)域中,需要進(jìn)行網(wǎng)絡(luò)入侵檢測(cè)[11]、垃圾信息檢測(cè)[12]、虛假視頻檢測(cè)[13]等。以上所提及的許多應(yīng)用可以廣義地被囊括入異常檢測(cè)的范疇。在異常檢測(cè)中,往往需要從一個(gè)不平衡的數(shù)據(jù)集中進(jìn)行學(xué)習(xí)。
不平衡數(shù)據(jù)集是指數(shù)據(jù)樣本在不同類之間的分布不平衡,其中大多數(shù)樣本屬于某些類別,而少數(shù)樣本屬于其他類。不平衡數(shù)據(jù)學(xué)習(xí)及分類所存在的基本問(wèn)題是由于不同類別的數(shù)據(jù)樣本數(shù)量差異較大,大多數(shù)標(biāo)準(zhǔn)的學(xué)習(xí)算法為了優(yōu)化整體的分類誤差,往往偏向多數(shù)類樣本而犧牲少數(shù)類的分類準(zhǔn)確率,但在實(shí)際應(yīng)用中,反而通常更重視對(duì)少數(shù)類的準(zhǔn)確識(shí)別。例如對(duì)癌癥的檢測(cè),將一個(gè)患癌癥的患者錯(cuò)誤診斷為健康,可能嚴(yán)重影響患者的后續(xù)治療進(jìn)而造成不可挽回的后果。不同類的樣本數(shù)量之間的不平衡通常也被稱為類間的不平衡。但許多研究在實(shí)踐中發(fā)現(xiàn),數(shù)據(jù)的類間不平衡與分類性能下降并不存在必然聯(lián)系,這說(shuō)明還另有一些隱藏的因素導(dǎo)致了不平衡數(shù)據(jù)的分類難度增加[14,15]。這些隱藏的因素可能是不能被顯式觀察到的數(shù)據(jù)復(fù)雜度問(wèn)題[16,17],即現(xiàn)實(shí)數(shù)據(jù)的分布中可能存在小間斷、噪聲、類重疊、類內(nèi)不平衡等問(wèn)題。
解決不平衡數(shù)據(jù)分類的方法主要可以分為三種:a)數(shù)據(jù)層面方法,指通過(guò)數(shù)據(jù)預(yù)處理對(duì)原始數(shù)據(jù)集進(jìn)行修改,包括利用重采樣的方法從樣本空間進(jìn)行優(yōu)化和利用特征選擇的方法從特征空間進(jìn)行優(yōu)化;b)算法層面方法,是指針對(duì)分類算法進(jìn)行改進(jìn)或集成,使其更適應(yīng)于不平衡數(shù)據(jù)分類的目標(biāo)要求;c)混合方法,指將數(shù)據(jù)層面方法和算法層面方法集成在統(tǒng)一框架進(jìn)行使用。數(shù)據(jù)層面的方法因其泛化能力較強(qiáng),在數(shù)據(jù)預(yù)處理過(guò)程中實(shí)現(xiàn),獨(dú)立于分類算法,實(shí)現(xiàn)的難度相對(duì)涉及分類算法修改的方法較低,所以許多應(yīng)用領(lǐng)域的研究人員都針對(duì)數(shù)據(jù)層面的方法進(jìn)行了研究。不平衡數(shù)據(jù)分類的方法如圖1所示。
1不平衡數(shù)據(jù)分類問(wèn)題及其影響因素
當(dāng)分類中不同類的樣本量有顯著不同時(shí),就可以稱之為不平衡數(shù)據(jù)分類問(wèn)題。如在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)提供的數(shù)據(jù)集中,電離層(ionosphere)數(shù)據(jù)集的不平衡比約為1.79;Kaggle數(shù)據(jù)庫(kù)平臺(tái)提供的信用卡欺詐數(shù)據(jù)集,不平衡比達(dá)到約577.88;而罕見(jiàn)疾病檢測(cè)等領(lǐng)域中,不平衡比可能更高。不平衡數(shù)據(jù)出現(xiàn)的原因可以大致歸結(jié)為兩類,即領(lǐng)域內(nèi)數(shù)據(jù)的內(nèi)在不平衡和數(shù)據(jù)收集的外在不平衡[2,16]。在以上所提及的許多領(lǐng)域應(yīng)用中,其不同類的數(shù)據(jù)分布本身是存在內(nèi)在不平衡性的,即這種不平衡是數(shù)據(jù)空間固有性質(zhì)的直接結(jié)果。如欺詐檢測(cè)中,正常用戶始終占據(jù)絕大多數(shù),而欺詐用戶只是極少數(shù)。除此之外,造成數(shù)據(jù)不平衡的原因還可能是采集方面的外在不平衡,可能受時(shí)間、存儲(chǔ)空間、隱私限制、成本等外在因素的影響,即這種不平衡與數(shù)據(jù)空間的性質(zhì)沒(méi)有直接關(guān)系。例如在線學(xué)習(xí)的數(shù)據(jù)集從連續(xù)數(shù)據(jù)流中獲取,即便數(shù)據(jù)全集是平衡的,在一定的時(shí)間間隔內(nèi)獲得的數(shù)據(jù)集可能不平衡,這種情況可以歸類為從平衡數(shù)據(jù)空間中獲得的外部不平衡數(shù)據(jù)集;又如,在線虛假信息的發(fā)布會(huì)受到媒體平臺(tái)的打擊并迅速被刪除,對(duì)在線虛假信息的采集遠(yuǎn)比采集正常信息困難,從本就不平衡的數(shù)據(jù)空間中獲取的數(shù)據(jù)集,其不平衡比會(huì)由于收集成本的差異而進(jìn)一步加劇。
在不平衡數(shù)據(jù)分類中,少數(shù)類樣本的鑒別往往更受重視,不平衡分類算法的目的是盡可能準(zhǔn)確地對(duì)這些罕見(jiàn)的樣本進(jìn)行分類。然而,傳統(tǒng)的數(shù)據(jù)挖掘算法不能很好地處理不平衡的數(shù)據(jù)集,因?yàn)樗鼈兪且宰顑?yōu)化數(shù)據(jù)的整體分類誤差作為隱藏目標(biāo),平等地對(duì)待多數(shù)類和少數(shù)類樣本,導(dǎo)致對(duì)少數(shù)類的預(yù)測(cè)結(jié)果要顯著差于多數(shù)類[18]。盡管有時(shí)通過(guò)準(zhǔn)確率等評(píng)價(jià)指標(biāo)反映出的總體分類性能較好,但不能滿足人們對(duì)于準(zhǔn)確分類罕見(jiàn)樣本的需求。
近年來(lái),許多研究開(kāi)始注意到[14,15]不平衡數(shù)據(jù)分類不僅是由類間的不平衡導(dǎo)致的,解決不平衡數(shù)據(jù)分類的問(wèn)題不能僅僅關(guān)注平衡類間的樣本數(shù)量差異,文獻(xiàn)也針對(duì)其背后的原因進(jìn)行了進(jìn)一步分析,但很少具體說(shuō)明這些普遍存在于所有數(shù)據(jù)中的挑戰(zhàn)與類間不平衡之間有何聯(lián)系。在不平衡領(lǐng)域的研究主要集中在二分類問(wèn)題上,因?yàn)槎喾诸悊?wèn)題可以簡(jiǎn)化為二分類問(wèn)題[19]。下面,本文以二分類問(wèn)題為例,分析不平衡數(shù)據(jù)中存在的挑戰(zhàn)及分類性能下降背后的影響因素。
1.1小間斷問(wèn)題
間斷(disjuncts)是指數(shù)據(jù)在數(shù)據(jù)空間中不是連續(xù)分布,而是間斷地分布在子類(subclusters),也有文獻(xiàn)稱此類數(shù)據(jù)存在概念復(fù)雜度(concept complexity)較高的問(wèn)題[20],可以將每個(gè)子類作為一個(gè)子概念來(lái)理解。
間斷的存在比想象中更為廣泛,但因其在高維數(shù)據(jù)中不可直接觀察,非常容易在數(shù)據(jù)分析中被忽略。通常將包含較多數(shù)量樣本的簇稱之為大間斷,而僅包含少量樣本的簇稱為小間斷。在不平衡數(shù)據(jù)學(xué)習(xí)中,多數(shù)類和少數(shù)類數(shù)據(jù)都可能存在間斷,而相較于多數(shù)類,少數(shù)類樣本數(shù)量較少,因分離而聚成的子類所包含的樣本更加稀疏,更容易出現(xiàn)小間斷問(wèn)題,如圖2所示。存在間斷的數(shù)據(jù)分類可以理解為分類器將嘗試通過(guò)創(chuàng)建多個(gè)間斷的規(guī)則來(lái)描述該具有多個(gè)間斷的類[16,20~22]。標(biāo)準(zhǔn)分類器通常偏向準(zhǔn)確地分類大間斷,而對(duì)樣本過(guò)于稀疏的小間斷進(jìn)行學(xué)習(xí)時(shí),很難利用極端有限的信息構(gòu)建正確分類該子類的規(guī)則。分類器可能學(xué)習(xí)到一些僅適合于訓(xùn)練樣本的規(guī)則從而產(chǎn)生數(shù)據(jù)過(guò)擬合的問(wèn)題。此外,過(guò)于稀疏的子類和噪聲之間的界限模糊,由這些樣本聚類成的簇是實(shí)體存在的子類、抑或是噪聲很難識(shí)別[16],一些沒(méi)有足夠樣本的子類可能被誤認(rèn)為是噪聲而導(dǎo)致誤分類[2]。
1.2噪聲問(wèn)題
噪聲數(shù)據(jù)是指數(shù)據(jù)中存在著錯(cuò)誤或異常(偏離期望值)的數(shù)據(jù),這些數(shù)據(jù)對(duì)數(shù)據(jù)的分析造成了干擾[23],如圖3所示。現(xiàn)實(shí)領(lǐng)域的數(shù)據(jù)質(zhì)量有限,往往一定程度存在噪聲,如何有效識(shí)別噪聲并避免其對(duì)后續(xù)數(shù)據(jù)分析帶來(lái)負(fù)面影響是一個(gè)廣受關(guān)注的重要問(wèn)題。噪聲的存在與數(shù)據(jù)的不平衡沒(méi)有必然聯(lián)系,但如1.1節(jié)所述,噪聲問(wèn)題可能和小間斷問(wèn)題交織在一起導(dǎo)致分類性能的下降。
1.3類重疊問(wèn)題
類重疊問(wèn)題是指不同類別的樣本在某些特征上相似性較高,導(dǎo)致其在特征空間上的分布區(qū)域有重疊(圖4)。對(duì)存在類重疊問(wèn)題的數(shù)據(jù)集進(jìn)行訓(xùn)練,分類器學(xué)習(xí)得到的決策邊界或分類規(guī)則很難將不同類別的樣本進(jìn)行較好的區(qū)分。在類間不平衡的數(shù)據(jù)集中,由于少數(shù)類樣本相對(duì)于多數(shù)類樣本是非常稀疏的,所以導(dǎo)致類重疊的機(jī)會(huì)更大[24],如圖4所示。
文獻(xiàn)[15]中對(duì)合成的人工數(shù)據(jù)集進(jìn)行分類實(shí)驗(yàn),結(jié)果證明:當(dāng)類之間的距離很遠(yuǎn)時(shí),分類難度較低,即使類不平衡比較高也不會(huì)對(duì)分類性能造成顯著影響;而當(dāng)類重疊與類間不平衡問(wèn)題交織在一起時(shí),數(shù)據(jù)分類的難度會(huì)隨著兩個(gè)問(wèn)題的嚴(yán)重程度增加而增大,其中,類重疊因素對(duì)分類性能的影響甚至比類不平衡因素更強(qiáng)。文獻(xiàn)[25]指出,類不平衡和類重疊高度相關(guān)的原因可能與錯(cuò)誤分類和類重疊都通常發(fā)生在類邊界附近有關(guān)。
1.4類內(nèi)不平衡問(wèn)題
廣義上,類內(nèi)不平衡是指某一類的樣本在特征空間中的分布是不均勻的,這對(duì)于現(xiàn)實(shí)數(shù)據(jù)集來(lái)說(shuō)幾乎是必然存在的現(xiàn)象。小間斷問(wèn)題往往和類內(nèi)不平衡相伴相生,類內(nèi)不平衡的稀疏樣本在數(shù)據(jù)空間中的離散程度更大,更容易形成分散聚類的子類;而存在小間斷問(wèn)題的樣本,說(shuō)明其類內(nèi)不平衡的程度已經(jīng)較高。有研究認(rèn)為,類內(nèi)不平衡是指一個(gè)類的一些子集比同一類的其他子集的樣本數(shù)要少得多[20,21,26],即狹義地將類內(nèi)不平衡與小間斷等同起來(lái)。
總的來(lái)說(shuō),以上問(wèn)題可以歸結(jié)為數(shù)據(jù)復(fù)雜度的問(wèn)題[16,17],現(xiàn)實(shí)數(shù)據(jù)中可能同時(shí)存在小間斷、噪聲、類重疊、類內(nèi)不平衡中的多種復(fù)雜分布問(wèn)題,而數(shù)據(jù)的類間不平衡(或者說(shuō)少數(shù)類樣本的數(shù)量相對(duì)較少)則進(jìn)一步增加了復(fù)雜數(shù)據(jù)分布被學(xué)習(xí)的難度,導(dǎo)致產(chǎn)生不平衡數(shù)據(jù)的分類問(wèn)題。
2樣本空間優(yōu)化:重采樣方法
重采樣是對(duì)不平衡數(shù)據(jù)集的樣本空間進(jìn)行重平衡,以減輕學(xué)習(xí)過(guò)程中偏態(tài)類分布的影響[27]。研究表明[28~30],對(duì)于常見(jiàn)的幾種標(biāo)準(zhǔn)分類器,使用經(jīng)過(guò)平衡的數(shù)據(jù)集比原始的不平衡數(shù)據(jù)集訓(xùn)練的效果更好。但同時(shí)也有研究表明,一些由原始的不平衡數(shù)據(jù)集訓(xùn)練得到的分類器并不劣于同一經(jīng)過(guò)重采樣的平衡數(shù)據(jù)集訓(xùn)練得到的分類器[23,31]。如第1章所述,類間不平衡與類間平衡的數(shù)據(jù)相比,是否會(huì)造成分類器的性能下降與數(shù)據(jù)分布的復(fù)雜度有關(guān)。分類器是通過(guò)學(xué)習(xí)樣本的分布來(lái)近似地學(xué)習(xí)類的總體分布。關(guān)于采用重采樣技術(shù)解決不平衡分類問(wèn)題引發(fā)的最大爭(zhēng)議在于,重采樣改變了樣本數(shù)據(jù)的分布,而根據(jù)統(tǒng)計(jì)學(xué)知識(shí),只有隨機(jī)抽取的樣本才能用于估計(jì)總體的分布[32]。
根據(jù)平衡類分布的方法,重采樣技術(shù)可分為欠采樣、過(guò)采樣和混合采樣三類。對(duì)于欠采樣與過(guò)采樣的性能,許多學(xué)者進(jìn)行了比較研究,但尚未得到廣泛認(rèn)可的最終定論。文獻(xiàn)[33]稱,一般來(lái)說(shuō),過(guò)采樣方法的性能不如欠采樣方法;文獻(xiàn)[34]指出,當(dāng)數(shù)據(jù)集達(dá)到PB級(jí)大小時(shí),所提出的欠采樣方法的優(yōu)勢(shì)進(jìn)一步突出。而同時(shí)另有文章指出,過(guò)采樣的性能優(yōu)于欠采樣方法,特別是對(duì)于少數(shù)類樣本數(shù)量很少的數(shù)據(jù)集[31],即使是對(duì)于復(fù)雜的數(shù)據(jù),過(guò)采樣也能顯著提高分類器的性能[23]。
2.1欠采樣
欠采樣方法的工作原理是通過(guò)減少多數(shù)類樣本,以矯正類間的不平衡。對(duì)多數(shù)類樣本的減少可以隨機(jī)進(jìn)行,即隨機(jī)欠采樣[35],這是一種非啟發(fā)式的方法。如在包含300個(gè)多數(shù)類樣本和100個(gè)少數(shù)類樣本的數(shù)據(jù)集中,可以隨機(jī)在300個(gè)多數(shù)類樣本中刪除200個(gè),將剩余的100個(gè)多數(shù)類樣本和100個(gè)少數(shù)類樣本組合成一個(gè)平衡數(shù)據(jù)集。這種方法的思想非常簡(jiǎn)單,但這可能會(huì)阻礙分類器的學(xué)習(xí),因?yàn)閯h除的多數(shù)類樣本可能攜帶關(guān)于多數(shù)類的一些重要信息,隨意的刪除可能會(huì)導(dǎo)致分類器構(gòu)建的決策邊界或者分類規(guī)則有一定的偏差。
為更合理地選擇被拋棄的多數(shù)類樣本,可以通過(guò)使用一些統(tǒng)計(jì)知識(shí)來(lái)完成欠采樣,即知情欠采樣(informed undersampling)[32]。知情欠采樣的目標(biāo)是保留對(duì)分類器學(xué)習(xí)來(lái)說(shuō)相對(duì)更為重要的多數(shù)類樣本,如攜帶邊界信息的樣本,而刪除相對(duì)不重要的多數(shù)類樣本,如可能是噪聲的樣本。知情欠采樣方法可大致分為基于聚類、基于距離、基于優(yōu)化算法、基于清理技術(shù)及其他方法。表1舉例說(shuō)明了各類知情欠采樣的相關(guān)研究。
基于聚類的欠采樣方法,旨在通過(guò)聚類更好地尋找能夠代表該簇的樣本,以期盡可能保留多數(shù)類樣本的數(shù)據(jù)多樣性,為分類器學(xué)習(xí)每個(gè)子類的分類規(guī)則提供充足的信息。因此,該類算法提升不平衡數(shù)據(jù)性能的背后邏輯為處理數(shù)據(jù)分布的間斷問(wèn)題。如文獻(xiàn)[36]中,使用簇的中心或中心的最近鄰代表整個(gè)簇。
基于距離的欠采樣方法,通常利用KNN算法,通過(guò)設(shè)計(jì)關(guān)于樣本本身及其近鄰所屬類別的規(guī)則,決定是否移除該樣本。選擇合適的欠采樣策略尤為重要,不合理的采樣策略不僅增加了算法復(fù)雜度,并且不一定得到比隨機(jī)更好的效果[39]。
基于優(yōu)化算法的欠采樣方法是指通過(guò)搜索算法尋找最優(yōu)的樣本子集,該子集包括攜帶更多分類信息的多數(shù)類樣本,并能使分類的性能得到提升。利用優(yōu)化算法進(jìn)行解空間的搜索,重點(diǎn)在于設(shè)計(jì)解的表示形式和適應(yīng)性函數(shù)。常用的優(yōu)化算法包括遺傳算法[40]、蟻群算法[41]等。
基于清理技術(shù)的欠采樣方法,不僅能夠平衡訓(xùn)練數(shù)據(jù),還可以消除位于決策邊界附近的噪聲樣本。分類器從去除噪聲后的數(shù)據(jù)集中更容易學(xué)習(xí)到合理的分類規(guī)則,能夠避免圍繞噪聲樣本產(chǎn)生過(guò)擬合,從而增強(qiáng)模型的泛化能力[31]。
除了歸類在以上的幾種方法,還有一些其他欠采樣方法研究。如文獻(xiàn)[44]提出了一種基于主成分分析和加權(quán)綜合評(píng)價(jià)的欠采樣方法,以選擇靠近少數(shù)類重心的多數(shù)類樣本,實(shí)現(xiàn)降維的同時(shí)對(duì)數(shù)據(jù)集進(jìn)行再平衡。
欠采樣方法通過(guò)在真實(shí)的樣本中進(jìn)行抽樣,形成了最終的平衡數(shù)據(jù)集,此舉能夠降低大型數(shù)據(jù)集在學(xué)習(xí)階段的運(yùn)算量,但這也導(dǎo)致了一些問(wèn)題[45]:a)增加了分類器的方差;b)刪除多數(shù)類樣本會(huì)損失對(duì)該類進(jìn)行建模的相關(guān)信息,一定程度上導(dǎo)致了寶貴數(shù)據(jù)資源的浪費(fèi),在不平衡比較大的數(shù)據(jù)集上,刪除的多數(shù)類樣本過(guò)多可能導(dǎo)致數(shù)據(jù)缺乏的問(wèn)題,影響分類器的泛化能力;c)扭曲了原始數(shù)據(jù)集的后驗(yàn)概率。因此,研究人員開(kāi)發(fā)了不刪除多數(shù)類樣本的過(guò)采樣方法。
2.2過(guò)采樣
與欠采樣方法相對(duì)應(yīng),過(guò)采樣方法是增加少數(shù)類樣本以重新平衡數(shù)據(jù)集的重采樣方法。過(guò)采樣方法可分為隨機(jī)過(guò)采樣和合成過(guò)采樣。隨機(jī)過(guò)采樣是一種非啟發(fā)式方法,它通過(guò)隨機(jī)復(fù)制少數(shù)類樣本來(lái)平衡數(shù)據(jù)集,這樣的復(fù)制思想簡(jiǎn)單,但實(shí)際上沒(méi)有增加少數(shù)類樣本的信息,可能會(huì)導(dǎo)致分類器針對(duì)少數(shù)類樣本產(chǎn)生非常具體的規(guī)則,即容易產(chǎn)生過(guò)擬合問(wèn)題;合成過(guò)采樣方法則是通過(guò)生成人工合成的少數(shù)類樣本來(lái)重新平衡數(shù)據(jù)集,生成的樣本能夠增加少數(shù)類樣本的數(shù)量,為分類學(xué)習(xí)增加必要的信息,有利于提升少數(shù)類的分類精度和分類器的泛化能力。
目前,合成過(guò)采樣方法的研究中廣泛采用SMOTE[46]及其各類變體。SMOTE算法合成新的少數(shù)類樣本的策略是基于KNN算法在近鄰樣本中進(jìn)行隨機(jī)插值。該算法已在許多不平衡分類研究中被證明有效,但考慮到第1章中所述的不平衡數(shù)據(jù)分布中存在的挑戰(zhàn),基于KNN進(jìn)行插值生成合成樣本可能存在以下問(wèn)題[17,24]:a)放大噪聲的影響,當(dāng)噪聲樣本被選做插值對(duì)象時(shí),新生成的合成樣本大概率會(huì)是噪聲樣本,從而放大了原有噪聲樣本的影響;b)加劇類重疊的問(wèn)題,對(duì)決策邊界的少數(shù)類樣本基于KNN進(jìn)行近鄰選擇時(shí),可能會(huì)選擇到?jīng)Q策邊界另一邊的多數(shù)類樣本,在存在小間斷的樣本中進(jìn)行SMOTE,若K值大于小間斷所含的樣本數(shù)可能會(huì)跨間斷進(jìn)行插值,對(duì)分布形狀復(fù)雜(形成非凸的簇)的兩個(gè)少數(shù)類樣本進(jìn)行插值以及在本就存在類重疊的區(qū)域中進(jìn)行插值,都會(huì)導(dǎo)致生成處于多數(shù)類區(qū)域的少數(shù)類合成樣本,加劇類重疊的問(wèn)題,使分類器創(chuàng)建更大、更不具體的決策區(qū)域,進(jìn)而產(chǎn)生過(guò)度泛化的問(wèn)題;c)加劇類內(nèi)不平衡的問(wèn)題,由于SMOTE算法選擇的隨機(jī)性,少數(shù)類樣本分布密度更高的區(qū)域生成的新樣本更多,而密度較低的區(qū)域生成的新樣本相對(duì)要少,進(jìn)一步加劇了數(shù)據(jù)分布不平衡的問(wèn)題;d)合成樣本的重復(fù)度高,在少數(shù)樣本分布較為稠密的區(qū)域進(jìn)行插值,得到的合成樣本與原樣本的距離很近,其重復(fù)度較高,難以為分類器學(xué)習(xí)提供新的信息。
SMOTE提出以來(lái),許多研究針對(duì)其存在的缺點(diǎn)進(jìn)行了改進(jìn),如針對(duì)噪聲問(wèn)題,通常采用結(jié)合數(shù)據(jù)清理技術(shù)、基于聚類進(jìn)行糾正;針對(duì)類內(nèi)不平衡和合成樣本重復(fù)度的問(wèn)題,常見(jiàn)的有基于密度為樣本賦權(quán)的策略;避免加劇類重疊問(wèn)題,可通過(guò)選擇更安全的種子樣本,也可通過(guò)聚類再插值等方法進(jìn)行算法改進(jìn)。改進(jìn)算法可以大致分為優(yōu)化樣本選擇策略、優(yōu)化合成樣本策略及拓寬應(yīng)用場(chǎng)景三類,其中優(yōu)化合成樣本策略又可以具體分為對(duì)合成樣本區(qū)域和合成樣本密度兩個(gè)方面的優(yōu)化。表2舉例說(shuō)明了相關(guān)研究,需要注意的是:一些算法致力于對(duì)SMOTE的幾種缺點(diǎn)進(jìn)行改進(jìn),在舉例說(shuō)明中僅將其歸類于改進(jìn)算法所針對(duì)解決的主要目標(biāo)。
2.3混合采樣
混合采樣方法是指同時(shí)對(duì)多數(shù)類樣本進(jìn)行欠采樣和對(duì)少數(shù)類樣本進(jìn)行過(guò)采樣,是對(duì)兩類算法進(jìn)行折中。文獻(xiàn)[51]提出了基于Kmeans聚類的雙向重采樣方法,通過(guò)保留多數(shù)類樣本聚類中心的方式進(jìn)行欠采樣,同時(shí)通過(guò)對(duì)少數(shù)類樣本進(jìn)行2means聚類后,選擇樣本分布稀疏的較小聚類進(jìn)行SMOTE過(guò)采樣,同時(shí)實(shí)現(xiàn)類內(nèi)平衡和類間平衡。文獻(xiàn)[52]在10個(gè)不同領(lǐng)域的數(shù)據(jù)集上,使用11個(gè)不同的分類器對(duì)3種過(guò)采樣技術(shù)、2種欠采樣技術(shù)進(jìn)行14種欠采樣和過(guò)采樣技術(shù)的組合實(shí)驗(yàn),建立了超過(guò)100萬(wàn)個(gè)分類器。實(shí)驗(yàn)表明,在幾乎所有的情況下,混合技術(shù)都優(yōu)于單個(gè)采樣技術(shù)。通過(guò)使用多種采樣技術(shù)可以結(jié)合個(gè)別技術(shù)的優(yōu)勢(shì),同時(shí)減少缺點(diǎn)。
圖5展示了混合采樣方法的通用框架[53]。首先,將不平衡的數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集;然后將訓(xùn)練集分為包含少數(shù)類和多數(shù)類樣本的子集,分別進(jìn)行過(guò)采樣和重采樣后合并子集得到新的平衡訓(xùn)練集,利用該平衡訓(xùn)練集進(jìn)行模型訓(xùn)練,并使用原始分布的驗(yàn)證集進(jìn)行模型評(píng)估。
3特征空間優(yōu)化:特征選擇
由于不平衡數(shù)據(jù)集的少數(shù)類常存在樣本數(shù)量相對(duì)維度較少的問(wèn)題,這導(dǎo)致原始的特征空間中樣本過(guò)于稀疏,分類器可能無(wú)法通過(guò)學(xué)習(xí)對(duì)樣本類進(jìn)行概括。有研究通過(guò)實(shí)驗(yàn)得出結(jié)論,為克服過(guò)擬合問(wèn)題實(shí)現(xiàn)較好的分類性能,進(jìn)行特征選擇比選擇分類方法更重要[54];同時(shí)有研究[55]指出任何程度的智能歸納算法都不能彌補(bǔ)輸入特征中預(yù)測(cè)信號(hào)的缺乏。當(dāng)類不平衡時(shí),可以通過(guò)特征選擇的方法進(jìn)行特征空間優(yōu)化,尋找到一個(gè)傾向于表征少數(shù)類概念的空間,進(jìn)而糾正分類器對(duì)多數(shù)類的偏向,解決或削弱少數(shù)類分類性能不佳的不平衡分類問(wèn)題。這種效果通常是指對(duì)考慮不同類分類性能的模型評(píng)價(jià)指標(biāo)有所提升(如F1分?jǐn)?shù)、AUC等),而不是指通過(guò)特征選擇對(duì)分類的整體準(zhǔn)確率進(jìn)行提高。
在現(xiàn)實(shí)應(yīng)用中,通常會(huì)引入許多特征來(lái)表示樣本,一個(gè)直觀的想法是越多的特征代表了更多關(guān)于分類的信息,然而,與類別不相關(guān)的特征或冗余的特征會(huì)導(dǎo)致分類精度的降低,同時(shí)增加不必要的計(jì)算成本[56]。當(dāng)維度較高時(shí),類不平衡問(wèn)題更加嚴(yán)重,重采樣和算法層面方法難以很好地解決高維類不平衡問(wèn)題,特征選擇卻對(duì)實(shí)現(xiàn)最佳性能有重要作用,甚至能夠作為解決高維數(shù)據(jù)集中類不平衡問(wèn)題的單獨(dú)解決方案[57]。而在多數(shù)數(shù)據(jù)集中,特征選擇方法都有著削弱數(shù)據(jù)集中出現(xiàn)不平衡因素影響的作用[18]。
特征選擇的基本步驟如圖6所示,可以分為[58]子集生成、子集評(píng)估、停止標(biāo)準(zhǔn)和結(jié)果驗(yàn)證。根據(jù)子集評(píng)估步驟中是否使用到分類器、如何使用分類器[56],可以將特征選擇方法分為過(guò)濾式、包裹式和嵌入式三類。特征選擇是組合選擇問(wèn)題,子集評(píng)估可以看做解空間的搜索過(guò)程,其目標(biāo)是從中找出一個(gè)分類效果最佳的特征子集。搜索可以通過(guò)窮舉法進(jìn)行,但由于特征選擇是一個(gè)組合爆炸的NPhard問(wèn)題[59],難以在有限的時(shí)間中尋找到最優(yōu)解,所以許多搜索算法被用于尋找近似的最優(yōu)特征子集,包括啟發(fā)式搜索和元啟發(fā)式搜索。啟發(fā)式搜索是指利用問(wèn)題已知的啟發(fā)信息來(lái)引導(dǎo)搜索,如基于貪心策略的序列搜索策略[60,61],能夠避免進(jìn)行特征子集的窮舉,但由于需要對(duì)特征維數(shù)對(duì)應(yīng)的子集進(jìn)行逐一驗(yàn)證,復(fù)雜度較高,不適用于高維數(shù)據(jù)集,且極易陷入局部最優(yōu);元啟發(fā)式算法則是將隨機(jī)算法與局部搜索算法相結(jié)合,對(duì)啟發(fā)式算法進(jìn)行了改進(jìn),經(jīng)典算法包括遺傳算法[62]、模擬退火算法[63]等,粒子群算法等一系列群智能算法[56,64~69]也常被用于求解特征選擇問(wèn)題。不同算法有著不同的策略設(shè)計(jì),關(guān)鍵在于全局探索和局部搜索兩種能力的平衡[70],即陷入局部最優(yōu)與加速算法收斂的平衡問(wèn)題。表3對(duì)一些搜索策略進(jìn)行了列舉。
3.1過(guò)濾式特征選擇
過(guò)濾式算法通過(guò)評(píng)估特征本身來(lái)選擇特征,而不涉及任何學(xué)習(xí)的過(guò)程[71],可以大致分為單變量過(guò)濾和多變量過(guò)濾兩類。單變量過(guò)濾式特征選擇通常基于排序?qū)崿F(xiàn),是指首先利用所選的評(píng)價(jià)指標(biāo)對(duì)單個(gè)特征進(jìn)行評(píng)估,然后根據(jù)評(píng)估的結(jié)果對(duì)特征進(jìn)行排序,按照選定的閾值或比例對(duì)特征進(jìn)行由上自下的選擇。這種方法簡(jiǎn)單快速、計(jì)算量小,能按照需要對(duì)特征維度進(jìn)行設(shè)定。但按一定標(biāo)準(zhǔn)選擇出較好的特征進(jìn)行組合,不一定能得到對(duì)分類來(lái)說(shuō)較好的組合,即m個(gè)最好的特征不是最好的m維特征組合[72]。在選擇階段還需要考慮不同特征之間的相互作用,因?yàn)樘卣髦g可能是相關(guān)的,這會(huì)導(dǎo)致特征組合中存在冗余,但冗余特征在組合中也有其存在的意義[73],而與類別弱相關(guān)的特征在組合中也可能發(fā)揮不錯(cuò)的作用[70]。多變量過(guò)濾式特征選擇則按照一定規(guī)則對(duì)候選特征子集進(jìn)行評(píng)估。相對(duì)單個(gè)特征的評(píng)估來(lái)說(shuō),該方法綜合考慮了特征子集之中的交互關(guān)系,一定程度上減少了特征子集的冗余度;相對(duì)窮舉的方法,顯著減少了解的搜索空間[72],在盡可能不降低分類性能的前提下提高了運(yùn)算效率。缺點(diǎn)是評(píng)估子集是否有效完全依賴于特定的準(zhǔn)則,而不直接針對(duì)分類器的性能。表4對(duì)一些過(guò)濾式特征選擇方法進(jìn)行了列舉。
3.2包裹式特征選擇
包裹式特征選擇算法是指與一個(gè)分類器包裹在一起,通過(guò)在候選特征子集上訓(xùn)練分類器,并使用分類性能來(lái)評(píng)估每一個(gè)子集的優(yōu)劣,即可將包裹式算法劃分為搜索策略和分類器兩個(gè)部分。其中,在候選特征集中的搜索可以與上述任一搜索策略相結(jié)合,因此,包裹式特征選擇算法的性能與搜索算法的性能有著密切的關(guān)系。包裹式方法通過(guò)評(píng)估分類器對(duì)特征子集進(jìn)行評(píng)估,能夠有效地考慮特征之間的交互關(guān)系。由于其直接目標(biāo)就是最小化特定分類器的分類誤差,包裹式方法得到的特征子集往往可以得到相比過(guò)濾式更好的分類性能,但在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好的特征子集可能在訓(xùn)練過(guò)程中沒(méi)有使用的數(shù)據(jù)上表現(xiàn)不佳,即存在過(guò)擬合的風(fēng)險(xiǎn)[81]。因其每一次的子集評(píng)估均需要進(jìn)行分類器的訓(xùn)練,計(jì)算復(fù)雜度大大提高。并且評(píng)價(jià)的過(guò)程依賴于一個(gè)特定的分類器,所得到的子集通常在該分類器上能取得較好性能,而在其他分類器上的泛化程度較低。
3.3嵌入式特征選擇
嵌入式特征選擇算法是指嵌入在分類器算法當(dāng)中,在分類器訓(xùn)練的同時(shí)進(jìn)行特征子集的選擇。嵌入式特征選擇方法可以大致分為基于樹(shù)模型和基于懲罰項(xiàng)兩類,對(duì)應(yīng)的經(jīng)典算法包括各類決策樹(shù)算法、LASSO回歸算法、嶺回歸算法等。各類決策樹(shù)算法根據(jù)信息增益、增益率、基尼指數(shù)等特征選擇度量,在每次分支時(shí)選擇區(qū)分度最佳的特征。LASSO回歸算法和嶺回歸算法則分別通過(guò)在線性回歸模型上引入L1和L2范數(shù),選擇訓(xùn)練后權(quán)值向量的非零維度所對(duì)應(yīng)的特征。嵌入式特征選擇方法可看做是過(guò)濾式和包裹式特征選擇算法的折中[82],能夠在考慮特征之間交互的情況下,一定程度上解決包裹式算法時(shí)間復(fù)雜度過(guò)高的問(wèn)題。但由于嵌入式算法與分類器緊密結(jié)合,對(duì)分類器算法本身有較多的要求,相對(duì)其他兩種方法來(lái)說(shuō)通用性不高。
3.4不平衡數(shù)據(jù)的特征選擇
在高維數(shù)據(jù)集上進(jìn)行特征選擇通常采用復(fù)雜度較低的過(guò)濾式特征選擇方法,且由過(guò)濾式方法選擇的特征集通常有更多的偏差,但顯著減少了方差,具有對(duì)過(guò)擬合魯棒性較強(qiáng)的優(yōu)點(diǎn)[70]。
大多數(shù)過(guò)濾式特征選擇方法基于平衡數(shù)據(jù)集評(píng)估特征的重要性,在不平衡數(shù)據(jù)集上可能效果不佳,如Relief算法[79]在迭代更新特征權(quán)重向量時(shí),需要先在所有樣本中隨機(jī)抽取一個(gè)樣本,再對(duì)其近鄰進(jìn)行分析,但在不平衡數(shù)據(jù)集中進(jìn)行隨機(jī)抽取時(shí),多數(shù)類樣本被抽中的概率要遠(yuǎn)大于少數(shù)類樣本,由此生成的特征權(quán)重向量則對(duì)正確分類多數(shù)類有所偏向[83]。針對(duì)此類問(wèn)題,可以通過(guò)先平衡數(shù)據(jù)集,再進(jìn)行特征選擇的方法對(duì)傳統(tǒng)方法進(jìn)行改進(jìn)。KmeansRelief抽樣算法[83]先利用基于聚類的欠采樣方法對(duì)二分類數(shù)據(jù)集進(jìn)行再平衡,在此基礎(chǔ)上執(zhí)行Relief算法進(jìn)行特征選擇。文獻(xiàn)[84]提出一種基于聚類算法的通用過(guò)濾式特征選擇方法改進(jìn)框架,即首先將多數(shù)類用Kmeans聚類分解為大小相對(duì)平衡的偽子類,然后對(duì)新的多分類數(shù)據(jù)集通過(guò)傳統(tǒng)的過(guò)濾式評(píng)價(jià)指標(biāo)進(jìn)行特征選擇。但如第1章所述,簡(jiǎn)單的聚類抽樣針對(duì)存在類內(nèi)不平衡等復(fù)雜分布問(wèn)題的數(shù)據(jù)集可能難以取得良好效果。在使用標(biāo)準(zhǔn)的包裹式特征選擇方法時(shí),通常以最小化特定分類器的分類誤差為目標(biāo)對(duì)特征子集進(jìn)行搜索,如果數(shù)據(jù)是不平衡的,則會(huì)由于分類器對(duì)多數(shù)類有所偏向而導(dǎo)致選擇的特征對(duì)多數(shù)類有所偏向,即更利于多數(shù)類概念被學(xué)習(xí)和正確分類[85]。所以在不平衡數(shù)據(jù)集上應(yīng)用包裹式特征選擇方法,同樣可以利用先平衡再選擇的思路進(jìn)行改進(jìn)。例如,對(duì)于采用二進(jìn)制排隊(duì)搜索算法(BQSA)進(jìn)行不平衡數(shù)據(jù)的包裹式特征選擇,是否先利用SMOTE算法進(jìn)行再平衡有著效果上的顯著差異[86]。
對(duì)不平衡數(shù)據(jù)進(jìn)行特征選擇的第二種思路是提出適用于不平衡數(shù)據(jù)的新評(píng)價(jià)指標(biāo)。由于海靈格距離的計(jì)算不涉及類的信息,所以其對(duì)類分布不敏感,基于海林格距離的方法尤為適用于不平衡數(shù)據(jù)集的特征選擇[84]。文獻(xiàn)[57]提出可以使用為每個(gè)特征建立一個(gè)分類器并評(píng)估該分類器性能對(duì)特征進(jìn)行排序,ROC曲線下的面積AUC對(duì)于不平衡數(shù)據(jù)分類器的評(píng)估效果較好,但存在計(jì)算量較大的問(wèn)題,基于此提出一種滑動(dòng)閾值(FAST) 度量進(jìn)行AUC的近似計(jì)算對(duì)特征進(jìn)行基于排序的過(guò)濾式選擇,能夠取得較好結(jié)果。但當(dāng)數(shù)據(jù)集非常不平衡時(shí),ROC曲線有時(shí)會(huì)過(guò)高評(píng)估分類的性能,即ROC曲線較優(yōu)時(shí)PR曲線卻顯示其性能較差。由此,文獻(xiàn)[18]對(duì)FAST進(jìn)行修改,得到基于PR曲線下面積的FAIR算法,并在不同領(lǐng)域的不平衡數(shù)據(jù)集上對(duì)各類過(guò)濾式特征選擇方法進(jìn)行了統(tǒng)一的實(shí)驗(yàn)和比較。結(jié)果顯示,從不同數(shù)據(jù)集的平均上看,性能最好的指標(biāo)是信息增益、信噪比相關(guān)系數(shù)和FAST。各領(lǐng)域數(shù)據(jù)集上,只有文本分類領(lǐng)域的數(shù)據(jù)集經(jīng)過(guò)所選的幾種特征選擇方法后低于不經(jīng)選擇的基線結(jié)果,這可能是因?yàn)樗褂脭?shù)據(jù)集的特征表示是原始的詞計(jì)數(shù),相比于當(dāng)前研究中常使用的詞頻—逆向文件頻率(TFIDF)等特征表示方式,該數(shù)據(jù)集中單獨(dú)的特征很難反映類的信息。由此也說(shuō)明,在不同領(lǐng)域的應(yīng)用中,指導(dǎo)機(jī)器學(xué)習(xí)方法完成分類等數(shù)據(jù)分析任務(wù)的目標(biāo)往往因其數(shù)據(jù)集的固有特征而有所不同,從特定領(lǐng)域的應(yīng)用出發(fā)進(jìn)行不平衡分類方法的研究,對(duì)有效提升分類性能有著極為重要的現(xiàn)實(shí)意義。
第三種改進(jìn)的思路是在原有的評(píng)價(jià)指標(biāo)上引入類間樣本數(shù)量差異的影響。文獻(xiàn)[87]提出了一種改進(jìn)現(xiàn)有的單變量過(guò)濾式特征選擇方法的三步走通用方案:第一步是計(jì)算一個(gè)特定特征在給定類別上的重要性;第二步是將每個(gè)特征特定類別的局部重要性分?jǐn)?shù)合并為一個(gè)全局重要性分?jǐn)?shù);最后一步是根據(jù)全局重要性分?jǐn)?shù)進(jìn)行基于排序的選擇。在第二步根據(jù)局部重要性分?jǐn)?shù)來(lái)計(jì)算一個(gè)特征的全局重要性分?jǐn)?shù)時(shí),利用類先驗(yàn)概率去除其中不同類樣本數(shù)量差異對(duì)計(jì)算結(jié)果的影響。在文本分類領(lǐng)域的三個(gè)基準(zhǔn)語(yǔ)料庫(kù)上對(duì)九個(gè)常用的過(guò)濾式評(píng)價(jià)指標(biāo)進(jìn)行實(shí)驗(yàn)表明,改進(jìn)后的特征選擇方法能夠有效提升F1分?jǐn)?shù),即削弱了不平衡因素的不利影響。
4方法對(duì)比
如前所述,不平衡數(shù)據(jù)分類的數(shù)據(jù)層面方法包括樣本空間優(yōu)化和特征空間優(yōu)化,如表5所示。對(duì)樣本空間進(jìn)行重采樣從而改變數(shù)據(jù)集的分布,著重于解決類間不平衡這一顯式問(wèn)題,能夠在絕大多數(shù)情況下解決或緩解少數(shù)類分類效果不佳的不平衡分類問(wèn)題,適用范圍非常廣泛。但重采樣方法可能在數(shù)據(jù)復(fù)雜度較高的情況下失效,甚至可能加重噪聲和類重疊問(wèn)題。對(duì)于這種情況,需要結(jié)合數(shù)據(jù)清理等技術(shù)解決數(shù)據(jù)固有特征對(duì)分類的影響。其最大的爭(zhēng)議在于,更改樣本數(shù)據(jù)類間分布的做法缺乏統(tǒng)計(jì)學(xué)上的理論支撐。
相比較來(lái)說(shuō),特征選擇方法則更著重于解決數(shù)據(jù)復(fù)雜度的隱式問(wèn)題,從尋找一個(gè)更利于分類的特征空間角度出發(fā),解決少數(shù)類不能被原空間很好表征的問(wèn)題。其在高維數(shù)據(jù)集上效果更為顯著,可以作為單獨(dú)的不平衡數(shù)據(jù)分類解決方案,針對(duì)小樣本的高維問(wèn)題,同時(shí)還能夠?qū)朔^(guò)擬合問(wèn)題起到作用。但特征選擇是一個(gè)難以找到最優(yōu)解的NPhard問(wèn)題,如何尋找到該優(yōu)化的特征空間成為關(guān)鍵。采用過(guò)濾式方法對(duì)不平衡數(shù)據(jù)集進(jìn)行特征選擇時(shí),為遷移使用平衡數(shù)據(jù)集上的特征評(píng)價(jià)指標(biāo),許多工作結(jié)合了重采樣方法,這無(wú)疑是一個(gè)簡(jiǎn)單而有效的改進(jìn)思路,可以同時(shí)從類間和類內(nèi)的數(shù)據(jù)分布兩個(gè)角度出發(fā)來(lái)提升少數(shù)類的分類性能。而提出新的特征評(píng)價(jià)指標(biāo)或引入類間樣本數(shù)量差異的影響,則能夠避免改變樣本的分布,在大多數(shù)數(shù)據(jù)集上起到削弱不平衡問(wèn)題的效果,但在非高維不平衡數(shù)據(jù)集中仍需要結(jié)合重采樣方法和算法層面方法以更好地解決問(wèn)題。數(shù)據(jù)層面方法的橫向比較如表5所示。
5結(jié)束語(yǔ)
本文從現(xiàn)實(shí)領(lǐng)域的不平衡數(shù)據(jù)分類需求和存在的基本問(wèn)題出發(fā),首先歸納了不平衡數(shù)據(jù)分類的各種方法,將其分為數(shù)據(jù)層面方法、算法層面方法和混合方法。由于不平衡數(shù)據(jù)分類問(wèn)題不僅是由類間的不平衡導(dǎo)致的,解決問(wèn)題也不能僅依靠重新平衡類間的樣本數(shù)量,本文針對(duì)產(chǎn)生不平衡分類問(wèn)題的原因進(jìn)行了進(jìn)一步的分析,并具體說(shuō)明了這些因素如何影響不平衡分類的效果。隨后,本文重點(diǎn)圍繞數(shù)據(jù)層面的解決方案系統(tǒng)梳理了國(guó)內(nèi)外的相關(guān)文獻(xiàn),并通過(guò)比較各類方法的主要思想及優(yōu)缺點(diǎn)對(duì)研究現(xiàn)狀進(jìn)行評(píng)述。
通過(guò)綜述研究發(fā)現(xiàn),數(shù)據(jù)層面方法因其有獨(dú)立于分類器、泛化能力較強(qiáng)、實(shí)現(xiàn)簡(jiǎn)單的特點(diǎn),受到業(yè)界的廣泛關(guān)注和重點(diǎn)研究。通過(guò)數(shù)據(jù)預(yù)處理的方法實(shí)現(xiàn)數(shù)據(jù)層面的優(yōu)化,包括對(duì)樣本空間進(jìn)行重采樣和對(duì)特征空間進(jìn)行特征選擇從而獲得優(yōu)化。兩種方法解決不平衡分類問(wèn)題的思路及適用范圍有所不同。重采樣方法主要是通過(guò)從類間不平衡這一顯式的角度進(jìn)行干預(yù),應(yīng)用廣泛但會(huì)對(duì)樣本分布進(jìn)行改變;特征選擇方法主要是通過(guò)尋找一個(gè)更利于表征少數(shù)類和利于分類的優(yōu)化特征空間,從數(shù)據(jù)復(fù)雜度這一隱式的角度進(jìn)行干預(yù),不改變樣本分布且同時(shí)能起到降低過(guò)擬合風(fēng)險(xiǎn)的效果,在高維數(shù)據(jù)集上效果更為顯著,大多時(shí)候建議結(jié)合重采樣和算法層面方法共同使用以更好地解決不平衡分類問(wèn)題。在相關(guān)研究和應(yīng)用中還存在以下需要重點(diǎn)關(guān)注的問(wèn)題和可能的研究機(jī)會(huì):
a)復(fù)雜分布的不平衡數(shù)據(jù)重采樣。現(xiàn)實(shí)領(lǐng)域中的數(shù)據(jù)或多或少地存在類間不平衡的偏態(tài)問(wèn)題,這一問(wèn)題由于其顯式的表現(xiàn)形式已經(jīng)被廣大研究人員所重視,但數(shù)據(jù)中可能同時(shí)存在小間斷、噪聲、類重疊、類內(nèi)不平衡等多種復(fù)雜分布問(wèn)題卻很難被顯式地反映出來(lái),而僅體現(xiàn)在少數(shù)類分類效果不佳這一現(xiàn)象背后。優(yōu)化樣本空間的重采樣算法相關(guān)研究中,研究人員往往通過(guò)較少的數(shù)據(jù)集進(jìn)行驗(yàn)證,不能涵蓋各類數(shù)據(jù)復(fù)雜分布問(wèn)題的解決方案。通過(guò)探索人工生成存在各種特殊分布情況數(shù)據(jù)集的方法,并在人工數(shù)據(jù)集上進(jìn)行算法的驗(yàn)證,可以作為衡量算法在復(fù)雜分布情況下適用性的一種方法。
b)適用于不平衡數(shù)據(jù)的特征選擇方法。特征選擇作為數(shù)據(jù)降維、提升整體分類效果的方法已經(jīng)被許多研究所使用,但其作為解決不平衡數(shù)據(jù)分類問(wèn)題方法的研究相對(duì)不多,突出表現(xiàn)在其作為高維不平衡數(shù)據(jù)分類的單獨(dú)解決方案的能力未被發(fā)掘。而在非高維不平衡數(shù)據(jù)集中,特征選擇步驟雖然被廣泛執(zhí)行,但部分傳統(tǒng)的特征選擇方案并不適用于不平衡數(shù)據(jù)集的問(wèn)題尚未得到重視,適用于不平衡數(shù)據(jù)的特征選擇研究亟待推進(jìn)。結(jié)合適宜的重采樣算法在再平衡數(shù)據(jù)集上進(jìn)行特征選擇、開(kāi)發(fā)適用于不平衡數(shù)據(jù)的新特征評(píng)價(jià)指標(biāo)、在原有的評(píng)價(jià)指標(biāo)上引入類間樣本數(shù)量差異的影響均不失為一種良好的研究思路。同時(shí),可以從利用適宜不平衡數(shù)據(jù)分類器的評(píng)價(jià)指標(biāo)對(duì)適應(yīng)性函數(shù)進(jìn)行改進(jìn),對(duì)基于元啟發(fā)式搜索的包裹式特征選擇方法進(jìn)行探索。在隨機(jī)森林等算法的基礎(chǔ)上,進(jìn)一步探索特征選擇與集成算法相結(jié)合的解決方案,也是當(dāng)前研究的熱門趨勢(shì)之一。
c)數(shù)據(jù)領(lǐng)域與算法有效性的相關(guān)關(guān)系不受重視。不同領(lǐng)域的數(shù)據(jù)分類應(yīng)用往往有著不同的需求和目標(biāo),當(dāng)前,相關(guān)研究大多通過(guò)多個(gè)不同領(lǐng)域的數(shù)據(jù)集對(duì)提出的算法進(jìn)行驗(yàn)證,但未能重視泛化能力與算法有效性的制衡關(guān)系。從特定領(lǐng)域的應(yīng)用出發(fā),開(kāi)發(fā)適用于該領(lǐng)域的不平衡數(shù)據(jù)分類算法可能是有效提升領(lǐng)域內(nèi)不平衡數(shù)據(jù)分類的較優(yōu)路徑。
參考文獻(xiàn):
[1]程學(xué)旗,劉盛華,張儒清.大數(shù)據(jù)分析處理技術(shù)新體系的思考[J].中國(guó)科學(xué)院院刊,2022,37(1):60-67.(Cheng Xueqi,Liu Shenghua,Zhang Ruqing.Thinking on new system for big data technology[J].Bulletin of Chinese Academy of Sciences,2022,37(1):60-67.)
[2]Spelmen V S,Porkodi R.A review on handling imbalanced data[C]//Proc of International Conference on Current Trends towards Converging Technologies.Piscataway,NJ:IEEE Press,2018:111.
[3]Huang Chenxi,Huang Xin,F(xiàn)ang Yu,et al.Sample imbalance disease classification model based on association rule feature selection[J].Pattern Recognition Letters,2020,133:280-286.
[4]Rezaei M,Yang Haojin,Meinel C.Recurrent generative adversarial network for learning imbalanced medical image semantic segmentation[J].Multimedia Tools and Applications,2020,79(21):1532915348.
[5]Mahmudah K R,Purnama B,Indriani F,et al.Machine learning algorithms for predicting chronic obstructive pulmonary disease from gene expression data with class imbalance[C]//Proc of the 14th International Joint Conference on Biomedical Engineering Systems and Technologies .2021:148153.
[6]Jie Sun,Shang Zhiming,Li Hui.Imbalanceoriented SVM methods for financial distress prediction:a comparative study among the new SBSVMensemble method and traditional methods[J].Journal of the Operational Research Society,2014,65(12):19051919.
[7]Benchaji I,Douzi S,Ouahidi B E.Using genetic algorithm to improve classification of imbalanced datasets for credit card fraud detection[C]//Proc of International Conference on Advanced Information Technology,Services and Systems.Berlin:Springer,2018:220-229.
[8]Marinakos G,Daskalaki S.Imbalanced customer classification for bank direct marketing[J].Journal of Marketing Analytics,2017,5(1):14-30.
[9]Lee T,Lee K B,Kim C O.Performance of machine learning algorithms for classimbalanced process fault detection problems[J].IEEE Trans on Semiconductor Manufacturing,2016,29(4):436-445.
[10]Haddad B M,Yang S,Karam L J,et al.Multifeature,sparsebased approach for defects detection and classification in semiconductor units[J].IEEE Trans on Automation Science and Engineering,2018,15(1):145159.
[11]Bagui S,Li Kunqi.Resampling imbalanced data for network intrusion detection datasets[J].Journal of Big Data,2021,8(1):1-41.
[12]Sahoo S R,Gupta B B.Classification of spammer and nonspammer content in online social network using genetic algorithmbased feature selection[J].Enterprise Information Systems,2020,14(5):710736.
[13]Li Xiaojun,Li Shaochen,Li Jia,et al.Detection of fakevideo uploaders on social media using naive Bayesian model with social cues[J].Scientific Reports,2021,11(1):111.
[14]Jo T,Japkowicz N.Class imbalances versus small disjuncts[J].ACM SIGKDD Explorations Newsletter,2004,6(1):40-49.
[15]Prati R C,Batista G E,Monard M C.Class imbalances versus class overlapping:an analysis of a learning system behavior[C]//Proc of Mexican International Conference on Artificial Intelligence.Berlin:Springer,2004:312-321.
[16]He Haibo,Garcia E A.Learning from imbalanced data[J].IEEE Trans on Knowledge and Data Engineering,2009,21(9):12631284.
[17]Yun J,Ha J,Lee J S.Automatic determination of neighborhood size in SMOTE[C]//Proc of the 10th International Conference on Ubiquitous Information Management and Communication.New York :ACM Press,2016:1-8.
[18]Wasikowski M,Chen Xuewen.Combating the small sample class imbalance problem using feature selection[J].IEEE Trans on Knowledge and Data Engineering,2010,22(10):13881400.
[19]Han Hui,Wang Wenyuan,Mao Binghuan.BorderlineSMOTE:a new oversampling method in imbalanced data sets learning[C]//Proc of International Conference on Intelligent Computing.Berlin:Springer,2005:878-887.
[20]Weiss G M.Mining with rarity:a unifying framework[J].ACM SIGKDD Explorations Newsletter,2004,6(1):719.
[21]Holte R C,Acker L,Porter B W.Concept learning and the problem of small disjuncts[C]//Proc of International Joint Conference on Artificial Intelligence.1989:813-818.
[22]Quinlan J R.Induction of decision trees[J].Machine Learning,1986,1(1):81106.
[23]Japkowicz N,Stephen S.The class imbalance problem:a systematic study[J].Intelligent Data Analysis,2002,6(5):429-449.
[24]Bunkhumpornpat C,Sinapiromsaran K,Lursinsap C.SafelevelSMOTE:safelevelsynthetic minority oversampling technique for handling the class imbalanced problem[C]//Proc of PacificAsia Conference on Knowledge Discovery and Data Mining.Berlin:Springer,2009:475-482.
[25]Chawla N V,Japkowicz N,Kotcz A.Special issue on learning from imbalanced data sets[J].ACM SIGKDD Explorations Newsletter,2004,6(1):1-6.
[26]Japkowicz N.Conceptlearning in the presence of betweenclass and withinclass imbalances[C]//Proc of the 14th Biennial Conference of the Canadian Society for Computational Studies of Intelligence:Advances in Artificial Intelligence.Berlin:SpringerVerlag,2001:6777.
[27]Guo Haixiang,Li Yijing,Shang J,et al.Learning from classimbalanced data:review of methods and applications[J].Expert Systems with Applications,2017,73:220-239.
[28]Estabrooks A,Jo T,Japkowicz N.A multiple resampling method for learning from imbalanced data sets[J].Computational Intelligence,2004,20(1):18-36.
[29]Laurikkala J.Improving identification of difficult small classes by balancing class distribution[C]//Proc of Conference on Artificial Intelligence in Medicine in Europe.Berlin:Springer,2001:63-66.
[30]Weiss G M,Provost F.The effect of class distribution on classifier learning:an empirical study,MLTR44[R].New Brunswick:Rutgers University,2001.
[31]Batista G E,Prati R C,Monard M C.A study of the behavior of several methods for balancing machine learning training data[J].ACM SIGKDD Explorations Newsletter,2004,6(1):20-29.
[32]Kotsiantis S,Kanellopoulos D,Pintelas P.Handling imbalanced datasets:a review[J].GESTS International Trans on Computer Science and Engineering,2006,30(1):25-36.
[33]Drumnond C,Holte R C.Class imbalance and cost sensitivity:why undersampling beats oversampling[C]//Proc of ICMLKDD 2003 Workshop:Learning from Imbalanced Datasets.2003.
[34]Beckmann M,Ebecken N F F,De Lima B S L P.A KNN undersampling approach for data balancing[J].Journal of Intelligent Learning Systems and Applications,2015,7(4):104.
[35]Tahir M A,Kittler J,Mikolajczyk K,et al.A multiple expert approach to the class imbalance problem using inverse random under sampling[C]//Proc of International Workshop on Multiple Classifier Systems.Berlin:Springer,2009:82-91.
[36]Lin Weichao,Tsai C F,Hu Yahan,et al.Clusteringbased undersampling in classimbalanced data[J].Information Sciences,2017,409:17-26.
[37]Yen S J,Li Y S.Clusterbased undersampling approaches for imbalanced data distributions[J].Expert Systems with Applications,2009,36(3):5718-5727.
[38]Hart P.The condensed nearest neighbor rule[J].IEEE Trans on Information Theory,1968,14(3):515-516.
[39]Mani I,Zhang I.KNN approach to unbalanced data distributions:a case study involving information extraction[C]//Proc of ICML’2003 Workshop on Learning from Imbalanced Datasets.2003:17.
[40]García S,Herrera F.Evolutionary undersampling for classification with imbalanced datasets:proposals and taxonomy[J].Evolutionary Computation,2009,17(3):275-306.
[41]Yu Hualong,Ni Jun,Zhao Jing.ACOSampling:an ant colony optimizationbased undersampling method for classifying imbalanced DNA microarray data[J].Neurocomputing,2013,101:309-318.
[42]Tomek I.Two modifications of CNN[J].IEEE Trans on Systems,Man and Cybernetics,1976,6:769772.
[43]Kubát M,Matwin S.Addressing the curse of imbalanced training sets:onesided selection[C]//Proc of International Conference on Machine Learning.1997:179.
[44]Fu Yangzhen,Zhang Hong,Bai Yaxin,et al.An undersampling method:based on principal component analysis and comprehensive evaluation model[C]//Proc of IEEE International Conference on Software Quality,Reliability and Security Companion.Piscataway,NJ:IEEE Press,2016:414-415.
[45]Das B,Krishnan N C,Cook D J.RACOG and wRACOG:two probabilistic oversampling techniques[J].IEEE Trans on Knowledge and Data Engineering,2014,27(1):222-234.
[46]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority oversampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.
[47]He Haibo,Bai Yang,Garcia E A,et al.ADASYN:adaptive synthetic sampling approach for imbalanced learning[C]//Proc of IEEE International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2008:13221328.
[48]Barua S,Islam M M,Yao Xin,et al.MWMOTEmajority weighted minority oversampling technique for imbalanced data set learning[J].IEEE Trans on Knowledge and Data Engineering,2012,26(2):405-425.
[49]Dong Yanjie,Wang Xuehua.A new oversampling approach:randomSMOTE for learning from imbalanced data sets[C]//Proc of International Conference on Knowledge Science,Engineering and Management.Berlin:Springer,2011:343-352.
[50]Bernardo A,Gomes H M,Montiel J,et al.CSMOTE:continuous synthetic minority oversampling for evolving data streams[C]//Proc of IEEE International Conference on Big Data.Piscataway,NJ:IEEE Press,2020:483-492.
[51]Song Jia,Huang Xianglin,Qin Sijun,et al.A bidirectional sampling based on Kmeans method for imbalance text classification[C]//Proc of the 15th IEEE/ACIS International Conference on Computer and Information Science.Piscataway,NJ:IEEE Press,2016:1-5.
[52]Seiffert C,Khoshgoftaar T M,Van Hulse J.Hybrid sampling for imbalanced data[J].Integrated ComputerAided Engineering,2009,16(3):193-210.
[53]Cateni S,Colla V,Vannucci M.A method for resampling imbalanced datasets in binary classification tasks for realworld problems[J].Neurocomputing,2014,135:32-41.
[54]Van Der Putten P,Van Someren M.A biasvariance analysis of a real world learning problem:the CoIL challenge 2000[J].Machine Learning,2004,57(1):177195.
[55]Forman G.An extensive empirical study of feature selection metrics for text classification[J].Journal of Machine Learning Research,2003,3:12891305.
[56]Sadeg S,Hamdad L,Benatchba K,et al.BSOFS:bee swarm optimization for feature selection in classification[C]//Proc of International WorkConference on Artificial Neural Networks.Berlin:Springer,2015:387-399.
[57]Chen Xuewen,Wasikowski M.Fast:a ROCbased feature selection metric for small samples and imbalanced data classification problems[C]//Proc of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2008:124132.
[58]Dash M,Liu H.Feature selection for classification[J].Intelligent Data Analysis,1997,1(14):131156.
[59]Davies S,Russell S.NPcompleteness of searches for smallest possible feature sets[C]//Proc of AAAI Symposium on Intelligent Relevance.Palo Alto,CA:AAAI Press,1994:37-39.
[60]MarcanoCedeo A,QuintanillaDomínguez J,CortinaJanuchs M G,et al.Feature selection using sequential forward selection and classification applying artificial metaplasticity neural network[C]//Proc of the 36th IECON Annual Conference on IEEE Industrial Electronics Society.Piscataway,NJ:IEEE Press,2010:2845-2850.
[61]Haq A U,Li Jianping,Memon M H,et al.Heart disease prediction system using model of machine learning and sequential backward selection algorithm for features selection[C]//Proc of the 5th IEEE International Conference for Convergence in Technology.Piscataway,NJ:IEEE Press,2019:1-4.
[62]Chen C W,Tsai Y H,Chang Fangrong,et al.Ensemble feature selection in medical datasets:combining filter,wrapper,and embedded feature selection results[J].Expert Systems,2020,37(5):e12553.
[63]Meiri R,Zahavi J.Using simulated annealing to optimize the feature selection problem in marketing applications[J].European Journal of Operational Research,2006,171(3):842-858.
[64]AlAhmad B,AlZoubi A M,Abu Khurma R,et al.An evolutionary fake news detection method for COVID19 pandemic information[J].Symmetry,2021,13(6):1091.
[65]BinSaeedan W,Alramlawi S.CSBPSO:hybrid feature selection based on chisquare and binary PSO algorithm for Arabic email authorship analysis[J].KnowledgeBased Systems,2021,227:107224.
[66]Huda R K,Banka H.Efficient feature selection and classification algorithm based on PSO and rough sets[J].Neural Computing and Applications,2019,31(8):4287-4303.
[67]Rangasamy D P,Rajappan S,Natarajan A,et al.Variable populationsized particle swarm optimization for highly imbalanced dataset classification[J].Computational Intelligence,2021,37(2):873-890.
[68]Sadeg S,Hamdad L,Remache A R,et al.QBSOFS:a reinforcement learning based bee swarm optimization metaheuristic for feature selection[C]//Proc of International WorkConference on Artificial Neural Networks.Berlin:Springer,2019:785796.
[69]Rostami M,Berahmand K,Nasiri E,et al.Review of swarm intelligencebased feature selection methods[J].Engineering Applications of Artificial Intelligence,2021,100:104210.
[70]Guyon I,Elisseeff A.An introduction to variable and feature selection[J].Journal of Machine Learning Research,2003,3:11571182.
[71]Liu Huan,Motoda H,Setiono R,et al.Feature selection:an ever evolving frontier in data mining[C]//Proc ofthe 4th Worshop on Feature Selection in Data Mining.2010:413.
[72]Peng Hanchuan,Long Fuhui,Ding C.Feature selection based on mutual information criteria of maxdependency,maxrelevance,and minredundancy[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(8):12261238.
[73]Elkan C.Magical thinking in data mining:lessons from CoIL challenge 2000[C]//Proc of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2001:426-431.
[74]He Xiaofei,Cai Deng,Niyogi P.Laplacian score for feature selection[C]//Proc of the 18th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2005:507-514.
[75]Zhang Daoqiang,Chen Songcan,Zhou Zhihua.Constraint score:a new filter method for feature selection with pairwise constraints[J].Pattern Recognition,2008,41(5):14401451.
[76]Aksu D,üstebay S,Aydin M A,et al.Intrusion detection with comparative analysis of supervised learning techniques and fisher score feature selection algorithm[C]//Proc of International Symposium on Computer and Information Sciences.Berlin:Springer,2018:141149.
[77]Aremu O O,Cody R A,HylandWood D,et al.A relative entropy based feature selection framework for asset data in predictive maintenance[J].Computers amp; Industrial Engineering,2020,145:106536.
[78]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring[J].Science,1999,286(5439):531-537.
[79]Kira K,Rendell L A.A practical approach to feature selection[M]//Machine Learning Proceedings.San Francisco:Morgan Kaufmann Publishers,1992:249-256.
[80]Hall M A.Correlationbased feature selection for machine learning[D].Hamilton:The University of Waikato,1999.
[81]Loughrey J,Cunningham P.Overfitting in wrapperbased feature subset selection:the harder you try the worse it gets[C]//Proc of International Conference on Innovative Techniques and Applications of Artificial Intelligence.Berlin:Springer,2004:33-43.
[82]李郅琴,杜建強(qiáng),聶斌,等.特征選擇方法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(24):1019.(Li Zhiqin,Du Jianqiang,Nie Bin,et al.Summary of feature selection methods[J].Computer Engineering and Applications,2019,55(24):1019.)
[83]菅小艷,韓素青,崔彩霞.不平衡數(shù)據(jù)集上的Relief特征選擇算法[J].數(shù)據(jù)采集與處理,2016,31(4):838-844.(Jian Xiaoyan,Han Suqing,Cui Caixia.Relief feature selection algorithm on unbalanced datasets[J].Journal of Data Acquisition and Processing,2016,31(4):838-844.)
[84]Yin Liuzhi,Ge Yong,Xiao K,et al.Feature selection for highdimensional imbalanced data[J].Neurocomputing,2013,105:311.
[85]Yang Pengyi,Liu Wei,Zhou B B,et al.Ensemblebased wrapper methods for feature selection and class imbalance learning[C]//Proc of PacificAsia Conference on Knowledge Discovery and Data mining.Berlin:Springer,2013:544-555.
[86]Thaher T,Mafarja M,Abdalhaq B,et al.Wrapperbased feature selection for imbalanced data using binary queuing search algorithm[C]//Proc of the 2nd International Conference on New Trends in Computing Sciences.Piscataway,NJ:IEEE Press,2019:1-6.
[87]Yang Jieming,Qu Zhaoyang,Liu Zhiying.Improved featureselection method considering the imbalance problem in text categorization[J].The Scientific World Journal,2014,2014:625342.
收稿日期:2022-05-18;修回日期:2022-07-08基金項(xiàng)目:陜西省杰出青年科學(xué)基金資助項(xiàng)目
作者簡(jiǎn)介:蘇逸(1997-),女,浙江瑞安人,碩士研究生,主要研究方向?yàn)橹悄苄畔⑻幚恚╡mail_suyi@163.com);李曉軍(1981-),男,河北人,副教授,碩導(dǎo),博士,主要研究方向?yàn)樾畔⑾到y(tǒng)與數(shù)據(jù)工程;姚俊萍(1978-),女,陜西人,教授,碩導(dǎo),博士,主要研究方向?yàn)樾畔⑾到y(tǒng)與數(shù)據(jù)工程;周志杰(1978-),男,山西人,教授,博導(dǎo),博士,主要研究方向?yàn)樽C據(jù)推理、置信規(guī)則庫(kù);劉帥彤(1997-),男,安徽人,碩士研究生,主要研究方向?yàn)樽C據(jù)推理、模式分類.