摘 要:在類別不平衡數(shù)據(jù)集中,由于靠近類邊界的樣本更容易被錯分,因此準確識別邊界樣本對分類具有重要意義。現(xiàn)有方法通常采用K近鄰來標識邊界樣本,準確率有待提高。針對上述問題,提出一種基于Tomek 鏈的邊界少數(shù)類樣本合成過采樣方法。首先,計算得到類間距離互為最近的樣本形成Tomek鏈;然后,根據(jù)Tomek鏈標識出位于類間邊界處的少數(shù)類樣本;接下來,利用合成少數(shù)類過采樣技術(shù)(SMOTE)中的線性插值機制在邊界樣本及其少數(shù)類近鄰間進行過采樣,并最終實現(xiàn)數(shù)據(jù)集的平衡。實驗對比了八種采樣方法,結(jié)果表明所提方法在大部分數(shù)據(jù)集上均獲得了更高的G-mean和F1值。
關(guān)鍵詞:不平衡數(shù)據(jù)分類;合成過采樣;邊界樣本;K近鄰;Tomek鏈
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)02-025-0463-07
doi: 10.19734/j.issn.1001-3695.2022.07.0341
Synthetic oversampling method for boundary minority samples based on Tomek links
Tao Jiaqing1, He Zuowei1, Leng Qiangkui2, Zhai Junchang1, Meng Xiangfu2
(1. College of Information Science amp; Technology, Bohai University, Jinzhou Liaoning 121013, China; 2. School of Electronics amp; Information Engineering, Liaoning Technical University, Huludao Liaoning 125105, China)
Abstract:In a class-imbalanced dataset, since the samples close to the class boundary are more likely to be misclassified, it is of great significance to accurately identify boundary samples for classification. Existing methods usually use K-nearest neighbors to identify boundary samples, but the accuracy needs to be improved. To address the above problem, this paper proposed a synthetic oversampling method for boundary minority samples based on Tomek links. This method first found inter-class samples with the nearest distance to form Tomek links. Then, it identifies those minority samples located at the inter-class boundary according to Tomek links. Next, it used the linear interpolation mechanism in synthetic minority oversampling technology (SMOTE) to perform oversampling between the boundary samples and their minority neighbors, thereby achieving the balance of the datasets. The comparison experiment with eight sampling algorithms shows that the proposed method can obtain higher G-mean and F1 values on most of the datasets.
Key words:classification of imbalanced data; synthetic oversampling; boundary samples; K-nearest neighbors; Tomek links
0 引言
不平衡數(shù)據(jù)分類問題是機器學(xué)習(xí)領(lǐng)域的一個熱點問題[1]。現(xiàn)實場景中用于智能決策的數(shù)據(jù)往往是不平衡的,分布嚴重向多數(shù)類偏斜[2]。例如,在癌癥篩查數(shù)據(jù)集中,患良性腫瘤的人數(shù)要遠多于患惡性腫瘤的人數(shù)[3,4];在金融數(shù)據(jù)集中,合法交易的數(shù)量超過了欺詐交易[5];在工業(yè)數(shù)據(jù)集中,故障設(shè)備只占設(shè)備總量的一小部分[6]。當機器學(xué)習(xí)算法從這些不平衡數(shù)據(jù)中學(xué)習(xí)分類模型時,它們的預(yù)測性能通常會顯著惡化[7,8]。這是因為標準分類器假設(shè)類間數(shù)據(jù)的分布是平衡的,但當不平衡發(fā)生時,由于少數(shù)類數(shù)據(jù)的表示性不足,分類器選擇過多地傾向于關(guān)注多數(shù)類樣本而導(dǎo)致性能下降[9]。然而,少數(shù)類往往是需要關(guān)注的重點,因為誤分類少數(shù)類樣本通常會帶來更高的錯分代價[10]。例如,在金融交易檢測中,相比于將合法交易誤分類為非法交易,將欺詐交易誤分類為合法交易會導(dǎo)致更嚴重的經(jīng)濟損失[11]。因此,提高分類器對少數(shù)類樣本的識別能力是機器學(xué)習(xí)中的一個關(guān)鍵問題。
求解不平衡數(shù)據(jù)分類問題的方法可以分為算法級[12]和數(shù)據(jù)級[13]兩個層面。在算法級層面,主要通過修改現(xiàn)有或提出新分類算法來處理不平衡問題,它包括集成學(xué)習(xí)和代價敏感學(xué)習(xí)。集成學(xué)習(xí)[14]將多個弱分類器集成為一個強分類器,從而強調(diào)少數(shù)類樣本的重要性。代價敏感學(xué)習(xí)[15]通過增加誤分類少數(shù)類樣本的代價來使分類器更好地學(xué)習(xí)不平衡數(shù)據(jù),但此種方法對異常值和噪聲敏感。在數(shù)據(jù)級層面,主要通過重采樣技術(shù)來緩解不平衡。雖然重采樣技術(shù)不能模擬原始數(shù)據(jù)的真實分布,但分類器可從平衡后的數(shù)據(jù)中獲得比原始數(shù)據(jù)更多有用的信息[16]。
有學(xué)者指出,目前沒有解決所有不平衡分類問題的單一最佳方法,但重采樣技術(shù)因其獨立于分類器的靈活性和實現(xiàn)的簡單性而顯示出巨大的潛力[17,18]。更具體地說,它包括過采樣[19]和欠采樣[20]兩大類。欠采樣通過刪除多數(shù)類樣本、過采樣通過復(fù)制或合成少數(shù)類樣本來使數(shù)據(jù)集達到平衡。研究表明,過采樣通常比欠采樣更有效[21,22],這是因為欠采樣容易刪除具有重要信息的多數(shù)類樣本[23]。
Chawla等人[24]提出的合成少數(shù)類過采樣技術(shù)(synthetic minority oversampling technique,SMOTE)是應(yīng)用最廣泛的過采樣方法之一。SMOTE首先找到每個少數(shù)類樣本的K個近鄰。然后在選定少數(shù)類樣本與其某一近鄰之間進行線性插值來合成新的樣本。實驗結(jié)果表明,數(shù)據(jù)集經(jīng)過該方法過采樣后,可以顯著提高分類器的泛化性能。但是,SMOTE將所有少數(shù)類樣本視為同等重要,忽略了樣本的分布信息而導(dǎo)致采樣具有盲目性[25]。為解決SMOTE的不足,Han等人[26]提出Borderline-SMOTE對少數(shù)類邊界樣本進行過采樣。該方法認為少數(shù)類中邊界樣本比那些遠離邊界的樣本更容易被錯誤分類,即邊界樣本對分類更重要。
圖1(a)給出了Borderline-SMOTE利用近鄰原則來確定邊界樣本的示例。當K=5時,樣本A近鄰中多數(shù)類樣本與少數(shù)類樣本的數(shù)量之比為2∶3,則A被判定為“安全”樣本;樣本B近鄰中多數(shù)類樣本與少數(shù)類樣本的數(shù)量之比為3∶2,則B被判定為“危險”樣本;樣本C近鄰中全為多數(shù)類樣本,它被判定為“噪聲”。在這三類樣本中,只有“危險”樣本被認為位于類間邊界區(qū)域而需要被過采樣。
但這種判定邊界樣本的方式并不合理。如圖1(b)中,當K值分別取3、5、7時,少數(shù)類樣本P依次被判定為“噪聲”“危險”“安全”樣本。顯然,通過近鄰原則來判定少數(shù)類樣本是否位于邊界受參數(shù)K值的影響很大,且考慮的僅僅是數(shù)據(jù)集的局部。
文獻[27]指出,如果類間兩個樣本距離互為最近,則它們可形成一個Tomek鏈,且該Tomek鏈一定位于類間邊界上。受Tomek鏈的啟發(fā),本文提出了一種新的邊界少數(shù)類樣本合成過采樣方法。首先,計算出類間距離互為最近的樣本形成Tomek鏈;然后,提取Tomek鏈中的少數(shù)類樣本作為根樣本;接下來,使用SMOTE中的線性插值機制在邊界樣本及其少數(shù)類近鄰間進行合成過采樣。
1 相關(guān)工作
1.1 合成少數(shù)類過采樣技術(shù)
SMOTE[24]通過在相鄰的少數(shù)類樣本之間進行線性插值,產(chǎn)生新樣本來平衡數(shù)據(jù)分布。假設(shè)隨機選定的少數(shù)類樣本為x,計算每個少數(shù)類樣本到x的歐氏距離,得到x樣本的K個近鄰。根據(jù)過采樣率N,在其K近鄰中隨機選擇N個樣本并標記為:x1,…,xN,然后在選定少數(shù)類樣本x和xi(i=1,…,N)之間進行線性插值,根據(jù)式(1)合成新的少數(shù)類樣本xsyn:
xsyn=x+β(xi-x)(1)
其中:β表示0~1的隨機數(shù)。SMOTE根據(jù)過采樣率N,按照式(1)多次合成新的少數(shù)類樣本,直到數(shù)據(jù)集達到平衡。SMOTE緩解了隨機復(fù)制少數(shù)類樣本所造成的過擬合問題,但在過采樣過程中具有盲目性,因為它忽略了樣本的分布特征,沒有重視少數(shù)類樣本之間的差異性。
1.2 Borderline-SMOTE和ADASYN
Borderline-SMOTE[26]通過對處在邊界的少數(shù)類樣本進行過采樣來解決盲目采樣問題。它將少數(shù)類樣本分為“安全”“危險”和“噪聲”三類。其中“安全”樣本是指該少數(shù)類樣本的K近鄰中,多數(shù)類樣本占比小于二分之一;“危險”樣本是該少數(shù)類樣本的K近鄰中,多數(shù)類樣本占比大于二分之一;“噪聲”樣本是指該少數(shù)類樣本的K近鄰均為多數(shù)類樣本。該方法將“危險”樣本視為邊界樣本,并僅對其進行過采樣。Border-line-SMOTE不但減少了“噪聲”樣本對合成少數(shù)類的負面影響,而且使邊界少數(shù)類更容易被學(xué)習(xí)。它有效地擴展了少數(shù)類的決策邊界,并能夠提高分類器對少數(shù)類實樣本的識別精度。
ADASYN[28]根據(jù)每個少數(shù)類樣本K近鄰中多數(shù)類樣本的數(shù)量,自適應(yīng)地為其確定應(yīng)合成新樣本的數(shù)量。ADASYN對K近鄰中多數(shù)類樣本占比更大的少數(shù)類樣本賦予更大的權(quán)重,權(quán)重越大,合成的少數(shù)類樣本越多。對類邊界附近的少數(shù)類樣本來說,其近鄰中存在更多的多數(shù)類樣本,因此它們會被賦予更高的權(quán)重,并具有更大的采樣可能性。一般來說,專注于對難以分類的邊界樣本進行過采樣的方法,將會更有利于接下來的學(xué)習(xí)任務(wù)[29]。
1.3 根樣本選擇策略的最新研究進展
近年來,相關(guān)學(xué)者對SMOTE類方法的研究主要集中在根樣本(采樣種子)選擇策略和數(shù)據(jù)(新樣本)生成機制上。在數(shù)據(jù)生成機制方面,相關(guān)研究通過替換SMOTE中的線性插值機制來改善過采樣方法的性能。賀作偉等人[30]和Wang等人[31]分別在根樣本周圍的超長方體區(qū)域和超球體區(qū)域內(nèi)合成新的少數(shù)類樣本,以增加新樣本的多樣性,并能夠防止噪聲的產(chǎn)生。但實際上,大部分的研究更專注于對根樣本選擇策略的改進。Chen等人[32]提出的RSMOTE,通過相對密度特征自適應(yīng)地將少數(shù)類樣本劃分為邊界樣本和安全樣本,并根據(jù)不同樣本的權(quán)重進行過采樣,在邊界區(qū)域和安全區(qū)域內(nèi)生成新樣本,增強了邊界的可分離性。Xu等人[33]提出的KNSMOTE是一種基于聚類的過采樣算法。該方法將K-means聚類后的數(shù)據(jù)和原始數(shù)據(jù)進行對比,選擇對比后沒有改變的“安全樣本”進行線性插值合成新樣本。Yi等人[34]提出了ASN-SMOTE,該方法將靠近多數(shù)類樣本的少數(shù)類樣本視為 “噪聲”并將其過濾,然后使用自適應(yīng)近鄰選擇方案來合成新的少數(shù)類樣本。Liu[35]提出了Importance-SMOTE 方法僅對少數(shù)類中的邊界和邊緣樣本進行過采樣。它根據(jù)少數(shù)類樣本最近鄰的組成和分布計算得出樣本的重要性,合成的新樣本數(shù)量與少數(shù)類的重要性呈正相關(guān)。
1.4 基于Tomek鏈的采樣方法
文獻[36]中提到,如果一對異類樣本能夠形成Tomek鏈,意味著其中一個樣本是噪聲或者兩個樣本均位于類間邊界上。從這個論斷出發(fā),現(xiàn)有基于Tomek鏈的采樣方法主要包括兩種,即欠采樣和數(shù)據(jù)清理。
對于欠采樣來說,僅有Tomek鏈中的多數(shù)類樣本被刪除,以降低原始數(shù)據(jù)的不平衡程度。Kubat等人[37]提出的OSS是一種經(jīng)典的使用Tomek鏈進行欠采樣的方法,該方法通過移除Tomek鏈中的多數(shù)類樣本來清理噪聲和邊界樣本。Kumar等人[38]提出的方法在數(shù)據(jù)預(yù)處理階段采用Tomek鏈對多數(shù)類進行欠采樣,刪除多數(shù)類中的異常值,平衡少數(shù)類和多數(shù)類的分布。文獻[39]中的方法,在隨機過采樣后應(yīng)用Tomek鏈進行欠采樣,移除Tomek鏈中的多數(shù)類樣本來減少其數(shù)量,為分類器決策提供更優(yōu)的邊界。Devi 等人[40]對傳統(tǒng)的Tomek鏈欠采樣方法進行改進,將最近鄰與Tomek鏈相結(jié)合,將具有高冗余和小貢獻度的多數(shù)類樣本刪除。
對于清理來說,Tomek鏈兩端的異類樣本均被刪除,它主要被用于過采樣方法之后,這樣做的目的是緩解過采樣所帶來的數(shù)據(jù)重疊。Batista等人[9]提出了在SMOTE完成過采樣后,將數(shù)據(jù)集中的Tomek鏈移除進行數(shù)據(jù)清理,來解決過采樣合成噪聲樣本的問題。Li等人[41]將Tomek鏈用做數(shù)據(jù)清洗技術(shù)來及時修正過采樣樣本,通過消除數(shù)據(jù)集中的噪聲和由過采樣方法產(chǎn)生的重疊樣本來保證合成樣本的質(zhì)量。
文獻[26]指出,邊界樣本對分類更重要。從這個角度出發(fā),本文方法側(cè)重于Tomek鏈鎖定邊界樣本的能力。與欠采樣和清理不同,本文將Tomek鏈用于過采樣進程中,是一種全新的嘗試。該方法首先使用Tomek鏈確定邊界樣本,然后在邊界樣本及其少數(shù)類近鄰間生成新的合成樣本。這將有助于擴展少數(shù)類區(qū)域,以體現(xiàn)對誤分類代價較高的少數(shù)類樣本的重視。
2 本文方法
2.1 Tomek鏈
Tomek 鏈表示一對分別屬于不同類別且相互距離為最近的樣本構(gòu)成的線段[36]。假設(shè)有分別屬于C1類樣本集和C2類樣本集的樣本ui(i∈{1,…,n})和vj(j∈{1,…,m}),它們之間的距離定義為dist(ui,vj)=‖ui-vj‖。如果不存在其他樣本vp或uq滿足dist(ui,vp)lt;dist(ui,vj)或dist(uq,vj)lt;dist(ui,vj),則樣本對(ui,vj)構(gòu)成一個Tomek鏈。
Tomek鏈的確定過程如下:
a)對于每個ui∈C1,尋找最近的vp∈C2,形成鏈l12集合并保存。
b)對于每個vj∈C2,尋找最近的uq∈C1,形成鏈l21集合并保存。
c)l12和l21的交構(gòu)成Tomek鏈集Π:
下面舉例說明形成Tomek鏈的過程。如圖2所示,首先對于C1類樣本u1、u2、u3、u4,分別找到距離它們最近的C2類中的樣本v1、v2;然后,從C2類樣本v1、v2出發(fā),找到距離它們最近的C1類樣本u2、u3;最終,v1與u2,v2與u3分別形成了Tomek鏈。由此可見,Tomek鏈的形成是一個“雙向”確認距離互為最近的過程。
2.2 基于Tomek鏈的邊界樣本合成過采樣
文獻[26]表明,邊界樣本對分類器性能有顯著影響。本文以Tomek鏈為基礎(chǔ)來確定類間邊界樣本,然后將這些邊界樣本中的少數(shù)類樣本標識為根樣本,并使用SMOTE的線性插值機制來合成新的少數(shù)類樣本,以實現(xiàn)類間數(shù)據(jù)的平衡。
算法1給出了本文提出的邊界樣本合成過采樣過程,建立集合A′,用于存放邊界處的少數(shù)類樣本,即用來存放Tomek鏈中的少數(shù)類樣本。由于Tomek鏈的計算過程已經(jīng)在2.1節(jié)中進行了詳細描述,所以在算法中直接使用A′作為輸入。
算法1 基于Tomek鏈的少數(shù)類樣本合成過采樣算法
輸入:少數(shù)類樣本集C1,樣本個數(shù)為n;多數(shù)類樣本集C2,樣本個數(shù)為m;少數(shù)類邊界樣本集A′,樣本個數(shù)為n1;近鄰參數(shù)K。
輸出:過采樣后的平衡數(shù)據(jù)集S。
a)初始化少數(shù)類根樣本集R=,設(shè)置標記每個根樣本需要合成新樣本的數(shù)量變量γ=1;
3 實驗和結(jié)果分析
3.1 在人工數(shù)據(jù)集上的實驗
為了說明使用Tomek鏈標識邊界樣本的有效性,本節(jié)將在人工合成數(shù)據(jù)集上與使用K近鄰來確定邊界樣本的Borderline-SMOTE進行對比。此處近鄰參數(shù)k表示Borderline-SMOTE在確定邊界樣本時使用的近鄰數(shù)(稱為判別參數(shù)),不同于本文方法在合成樣本使用的近鄰參數(shù)K (稱為合成參數(shù))。
人工合成數(shù)據(jù)集如圖4(a)所示,其中少數(shù)類樣本100個,用加號表示;多數(shù)類樣本200個,用圓形表示。圖4(b)給出了使用本文方法過采樣后的樣本分布情況,合成參數(shù)K設(shè)置為5,新合成樣本使用方形表示。圖4(c)~(f)是Borderline-SMOTE過采樣后的樣本分布情況,判別參數(shù)k分別設(shè)置為3、5、7、11,合成參數(shù)K與本文方法相同(K=5),新合成樣本使用三角形表示。
本文選定四個邊界區(qū)域S1~S4 (從左至右)來觀測兩種方法的差異。由圖4(c)~(f)可以看出,Borderline-SMOTE方法對邊界點的判定是取決于判別參數(shù)k值的。如圖4(c)所示,當k=3時,它將S2和S3區(qū)域視為邊界區(qū)域并進行過采樣,但當k=5時(圖4(d)),S2和S3區(qū)域則被判定為非邊界區(qū)域。另外,Borderline-SMOTE均未識別出S1和S4這兩個邊界區(qū)域。由此可見,使用近鄰確定邊界樣本的Borderline-SMOTE方法只考慮了樣本空間的局部狀態(tài),受判別參數(shù)k值影響較大,導(dǎo)致對類間邊界區(qū)域的判定并不準確。而本文方法能夠正確識別四個邊界區(qū)域,并分別在每一個區(qū)域中進行了合成過采樣。
3.2 在標準數(shù)據(jù)集上的實驗
3.2.1 實驗設(shè)置
為了體現(xiàn)公平性,選用八種采樣方法與本文方法進行對比實驗。這八種方法分別為SMOTE[24]、Borderline-SMOTE[26]、ADASYN[28]、One Side Selection[37]、SMOTE-Tomek[9]、SMOTE-IPF[42]、RSMOTE[32]和K-means SMOTE[43]。為了方便,將這八種方法對應(yīng)簡寫為SMO、BLS、ADA、OSS、STK、IPF、RSM和KMS。所用數(shù)據(jù)集來自KEEL[44],描述見表1。每一個數(shù)據(jù)集均按5折劃分為訓(xùn)練集和測試集,實驗結(jié)果將報告五次的平均值。本文方法、SMO、BLS、ADA的合成近鄰參數(shù)K的值分別設(shè)置為5、5、5、7,BLS的判定近鄰參數(shù)k的值設(shè)定為7,其他方法
均為默認參數(shù)。分類器選用C4.5[45]、BalanceCascade[46]和AdaBoost[47]。
3.2.2 評價指標
實驗采用F1值[48]和G-mean[49]作為評價指標,其計算依據(jù)為表2所示的混淆矩陣。
其中:F1值是查準率和召回率的調(diào)和平均;F1值越高意味著算法對少數(shù)類樣本的識別性能越好。G-mean兼顧召回率和特異度,為兩者的幾何平均,它將兩類樣本視為同等重要[8]。
3.2.3 實驗結(jié)果分析
表3~5匯總了經(jīng)本文方法與其他八種方法采樣后,使用三個分類器分類,在15個標準數(shù)據(jù)集上取得的F1值和G-mean。需要說明的是,由于S2數(shù)據(jù)集中少數(shù)類樣本數(shù)量過少(4個),RSM方法無法對其進行處理,故此處值為空。
從表3中可以看出,在使用C4.5作為分類器時,本文方法在9個數(shù)據(jù)集上取得了最高的F1值,在8個數(shù)據(jù)集上取得了最高的G-mean。在與八種參照方法的綜合對比中,F(xiàn)1值平均提升了2.97%,G-mean平均提升了0.55%。在成對比較中,本文方法與其他八種參照方法在F1值上的勝負比分別為12∶2、7∶5、14∶0、12∶1、12∶1、12∶2、7∶4、8∶3,在G-mean上的勝負比分別為10∶4、7∶5、9∶5、13∶0、10∶3、10∶4、8∶3、8∶3。
從表4中可以看出,在使用BalanceCascade作為分類器時,本文方法在8個數(shù)據(jù)集上取得了最高的F1值,在6個數(shù)據(jù)集上取得了最高的G-mean。在與八種參照方法的綜合對比中,F(xiàn)1值平均提升了3.94%,G-mean平均提升了1.67%。在成對比較中,本文方法與其他八種參照方法在F1值上的勝負比分別為11∶3、12∶0、12∶1、14∶1、9∶3、11∶2、10∶2、9∶2,在G-mean上的勝負比分別為9∶5、12∶0、8∶5、13∶2、6∶6、8∶5、11∶1、11∶1。
從表5中可以看出,在使用AdaBoost作為分類器時,本文方法在7個數(shù)據(jù)集上取得了最高的F1值,在5個數(shù)據(jù)集上取得了最高的G-mean。在與八種參照方法的綜合對比中,F(xiàn)1值平均提升了2.66%,G-mean平均提升了0.16%。在成對比較中,本文方法與其他八種參照方法在F1值上的勝負比分別為13∶2、9∶3、12∶3、12∶0、10∶4、11∶4、7∶5、7∶5,在G-mean上的勝負比分別為10∶5、9∶4、10∶5、10∶2、7∶7、8∶7、7∶5、9∶3。
實驗結(jié)果說明,經(jīng)過本文方法過采樣后,能夠提升三個分類器針對少數(shù)類樣本的識別能力,即獲得了更高的F1值。在G-mean評價指標上,盡管本文方法與其他八種方法相比未表現(xiàn)出明顯的數(shù)值提升,但總體上是相當?shù)摹_@說明本文方法在關(guān)注少數(shù)類樣本的同時,也能夠兼顧到多數(shù)類樣本。
為了說明本文方法的統(tǒng)計學(xué)特性,本文以它為主控方法,并參照其他八種方法進行了Friedman檢驗[50]。圖5給出了這些方法在Friedman排名(Ranking)這一指標上的對比箱形圖。從圖5中可以看出,相比于其他八種方法,本文方法均取得了更高的平均Friedman排名(圖中使用“×”表示平均排名)。
3.3 在孕產(chǎn)婦健康風(fēng)險評估中的應(yīng)用
為了檢驗本文方法處理實際問題的能力,將其應(yīng)用于孕產(chǎn)婦健康風(fēng)險的評估中,旨在分析妊娠風(fēng)險水平,關(guān)注孕產(chǎn)婦健康,降低孕產(chǎn)婦和兒童死亡率。孕產(chǎn)婦健康風(fēng)險(maternal health risk)數(shù)據(jù)集[51]通過物聯(lián)網(wǎng)風(fēng)險檢測系統(tǒng)從不同的醫(yī)院、社區(qū)診所和孕產(chǎn)婦保健中心收集。數(shù)據(jù)集包含1 014個樣本,樣本的屬性如表6所示。
風(fēng)險等級分為低風(fēng)險、中風(fēng)險和高風(fēng)險三種。考慮到本文方法及對比方法均為解決二類不平衡分類問題而設(shè)計,因此將數(shù)據(jù)集中406個低風(fēng)險等級案例和336個中風(fēng)險等級案例合并為多數(shù)類樣本集(共742個),將272個高風(fēng)險等級案例作為少數(shù)類樣本集。按5折方式將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,以決策樹算法C4.5作為分類器,F(xiàn)1值和G-mean為評價指標,實驗結(jié)果取5次的平均值。
實驗結(jié)果如圖6所示,從中可以看出,相比于其他八種參照方法,本文方法均取得了最高的F1值和G-mean,分別為85.84%和91.59%。這說明經(jīng)過本文方法過采樣后,提升了分類器預(yù)測高風(fēng)險樣本的能力,同時也能兼顧到對中、低風(fēng)險樣本的識別準確率。
4 結(jié)束語
本文提出了一種基于Tomek鏈的不平衡數(shù)據(jù)過采樣方法,在數(shù)據(jù)層面上來求解不平衡分類問題。該方法通過計算Tomek鏈來標識位于類間邊界處的少數(shù)類樣本,然后以這些樣本為根樣本進行合成過采樣。該方法改善了SMOTE技術(shù)中將所有少數(shù)類樣本視為同等重要的缺陷,彌補了Borderline-SMOTE中對邊界樣本判定的不足。
實驗結(jié)果表明,經(jīng)本文方法過采樣后,分類器針對少數(shù)類樣本的泛化性能得到了一定程度上的提升。同時在兼顧多數(shù)類樣本方面,也保持與現(xiàn)有經(jīng)典過采樣方法相當?shù)乃健8匾氖牵鼮檫^采樣方法中針對邊界樣本的標識問題提供了一個新的解決思路。
下一步工作將研究如何根據(jù)邊界樣本的重要性來為其賦予不同的權(quán)重,并不依賴近鄰原則自適應(yīng)地為每個根樣本合成不同數(shù)量的新樣本。
參考文獻:
[1]Krawczyk B. Learning from imbalanced data: open challenges and future directions [J]. Progress in Artificial Intelligence,2016,5(4): 221-232.
[2]Bej S,Schulz K,Srivastava P,et al. A multi-schematic classifier-independent oversampling approach for imbalanced datasets [J]. IEEE Access,2021,9: 123358-123374.
[3]Naseriparsa M,Al-Shammari A,Sheng M,et al. RSMOTE: improving classification performance over imbalanced medical datasets [J]. Health Information Science and Systems,2020,8(1): 1-13.
[4]Panta A,Khushi M,Naseem U,et al. Classification of neuroblastoma histopathological images using machine learning [C]// Proc of International Conference on Neural Information Processing. Cham: Springer,2020: 3-14.
[5]Alam T M,Shaukat K,Hameed I A,et al. An investigation of credit card default prediction in the imbalanced datasets [J]. IEEE Access,2020,8: 201173-201198.
[6]Yan Ke,Chong A,Mo Yuchang. Generative adversarial network for fault detection diagnosis of chillers [J]. Building and Environment,2020,172: 106698.
[7]Jing Xiaoyuan,Zhang Xinyu,Zhu Xiaoke,et al. Multiset feature learning for highly imbalanced data classification [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2019,43(1): 139-156.
[8]He Haibo,Garcia E A. Learning from imbalanced data [J]. IEEE Trans on Knowledge and Data Engineering,2009,21(9):1263-1284.
[9]Batista G E,Prati R C,Monard M C. A study of the behavior of seve-ral methods for balancing machine learning training data [J]. ACM SIGKDD Explorations Newsletter,2004,6(1): 20-29.
[10]孟東霞,李玉鑑. 利用自然最近鄰的不平衡數(shù)據(jù)過采樣方法 [J]. 計算機工程與應(yīng)用,2021,57(2): 91-96. (Meng Dongxia,Li Yujian. Oversampling method for unbalanced data by natural nearest neighbor [J]. Computer Engineering and Applications,2021,57(2): 91-96.)
[11]Alam T M,Shaukat K,Mushtaq M,et al. Corporate bankruptcy prediction: an approach towards better corporate world [J]. The Computer Journal,2021,64(11): 1731-1746.
[12]Dubey H,Pudi V. Class based weighted k-nearest neighbor over imbalance dataset [C]// Proc of Pacific-Asia Conference on Knowledge Discovery and Data Mining. Berlin: Springer,2013: 305-316.
[13]Elreedy D,Atiya A F. A comprehensive analysis of synthetic minority over-sampling technique (SMOTE) for handling class imbalance [J]. Information Sciences,2019,505: 32-64.
[14]Ribeiro V H A,Reynoso-Meza G. Ensemble learning by means of a multi-objective optimization design approach for dealing with imba-lanced data sets [J]. Expert Systems with Applications,2020,147: 113232.
[15]Peng Peng,Zhang Weijia,Zhang Yi,et al. Cost sensitive active lear-ning using bidirectional gated recurrent neural networks for imbalanced fault diagnosis [J]. Neurocomputing,2020,407: 232-245.
[16]Wei Jianan,Huang Haisong,Yao Liguo,et al. NI-MWMOTE: an improving noise-immunity majority weighted minority oversampling technique for imbalanced classification problems [J]. Expert Systems with Applications,2020,158: 113504.
[17]謝子鵬,包崇明,周麗華,等. 類不平衡數(shù)據(jù)的EM 聚類過采樣算法[J]. 計算機科學(xué)與探索,2023,17(1):228-237. (Xie Zipeng,Bao Congming,Zhou Lihua,et al. EM clustering oversampling algorithm for class imbalanced data [J]. Journal of Frontiers of Computer Science and Technology,2023,17(1):228-237.)
[18]Nekooeimehr I,Lai-Yuen S K. Adaptive semi-unsupervised weighted over-sampling (A-SUWO) for imbalanced datasets [J]. Expert Systems with Applications,2016,46: 405-416.
[19]Maldonado S,Vairetti C,F(xiàn)ernan-Dez A,et al. FW-SMOTE: a feature-weighted oversampling approach for imbalanced classification [J]. Pattern Recognition,2021,124: 108511.
[20]Li Junnan,Zhu Qingsheng,Wu Quanwang. A parameter-free hybrid instance selection algorithm based on local sets with natural neighbors [J]. Applied Intelligence,2020,50(5): 1527-1541.
[21]Kaur H,Pannu H S,Malhi A K. A systematic review on imbalanced data challenges in machine learning: Applications and solutions [J]. ACM Computing Surveys (CSUR),2019,52(4): 1-36.
[22]江昊琛,魏子麒,劉璘,等. 非均衡數(shù)據(jù)分類經(jīng)典方法綜述與面向醫(yī)療領(lǐng)域的實驗分析 [J]. 計算機科學(xué),2022,49(1): 80-88. (Jiang Haochen,Wei Ziqi,Liu Lin,et al. Imbalanced data classification: a survey and experiments in medical domain [J]. Computer Science,2022,49(1): 80-88.)
[23]趙楠,張小芳,張利軍. 不平衡數(shù)據(jù)分類研究綜述 [J]. 計算機科學(xué),2018,45(S1): 22-27,57. (Zhao Nan,Zhang Xiaofang,Zhang Lijun. Overview of imbalanced data classification [J]. Computer Science,2018,45(S1): 22-27,57.)
[24]Chawla N V,Bowyer K W,Hall L O,et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research,2002,16: 321-357.
[25]Soltanzadeh P,Hashemzadeh M. RCSMOTE: range-controlled synthetic minority oversampling technique for handling the class imba-lance problem [J]. Information Sciences,2021,542: 92-111.
[26]Han Hui,Wang Wenyuan,Mao Binghuan. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning [C]// Proc of International Conference on Intelligent Computing. Berlin: Springer,2005: 878-887.
[27]Farquad M A H,Bose I. Preprocessing unbalanced data using support vector machine [J]. Decision Support Systems,2012,53(1): 226-233.
[28]He Haibo,Bai Yang,Garcia E A,et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning [C]// Proc of IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). New York: IEEE Press,2008: 1322-1328.
[29]Tao Xinmin,Chen Wei,Zhang Xiaohan,et al. SVDD boundary and DPC clustering technique-based oversampling approach for handling imbalanced and overlapped data [J]. Knowledge-Based Systems,2021,234: 107588.
[30]賀作偉,陶佳晴,冷強奎,等. 帶有超長方體約束的少數(shù)類樣本生成機制 [J]. 計算機應(yīng)用研究,2022,39(10):3055-3060. (He Zuowei,Tao Jiaqing,Leng Qiangkui,et al. Generation mechanism for minority samples with hypercuboid constraints [J]. Application Research of Computers,2022,39(10):3055-3060.)
[31]Wang Dongmei,Liang Yiwen,Yang Xinmin,et al. A safe zone SMOTE oversampling algorithm used in earthquake prediction based on extreme imbalanced precursor data [J]. International Journal of Pattern Recognition and Artificial Intelligence,2021,35(13):2155013.
[32]Chen Baiyun,Xia Shuyin,Chen Zizhong,et al. RSMOTE: a self-adaptive robust SMOTE for imbalanced problems with label noise [J]. Information Sciences,2021,553: 397-428.
[33]Xu Zhaohao,Shen Derong,Nie Tiezheng,et al. A cluster-based oversampling algorithm combining SMOTE and k-means for imbalanced medical data [J]. Information Sciences,2021,572: 574-589.
[34]Yi Xinkai,Xu Yingying,Hu Qian,et al. ASN-SMOTE: a synthetic minority oversampling method with adaptive qualified synthesizer selection [J]. Complex amp; Intelligent Systems,2022,8(3):2425-2436.
[35]Liu Jie. Importance-SMOTE:a synthetic minority oversampling method for noisy imbalanced data [J]. Soft Computing,2022,26(3): 1141-1163.
[36]Pereira R M,Costa Y M G,Silla JR C N. MLTL: a multi-label approach for the Tomek links undersampling algorithm [J]. Neurocomputing,2020,383: 95-105.
[37]Kubat M,Matwin S. Addressing the curse of imbalanced training sets: one-sided selection [C]// Proc of the 14th International Conference on Machine. Nashville: Tennesse Press,1997: 179-186.
[38]Kumar S,Biswas S K,Devi D. TLUSBoost algorithm: a boosting solution for class imbalance problem [J]. Soft Computing,2019,23(21): 10755-10767.
[39]Sawangarreerak S,Thanathamathee P. Random forest with sampling techniques for handling imbalanced prediction of university student depression [J]. Information,2020,11(11): 519.
[40]Devi D,Purkayastha B. Redundancy-driven modified Tomek-link based undersampling: a solution to class imbalance [J]. Pattern Recognition Letters,2016,93: 3-12.
[41]Li Aijun,Zhang Peng. Research on unbalanced data processing algorithm base tomeklinks-smote [C]// Proc of the 3rd International Conference on Artificial Intelligence and Pattern Recognition. New York: ACM Press,2020: 13-17.
[42]Sáez J A,Luengo J,Stefanowski J,et al. SMOTE-IPF: addressing the noisy and borderline examples problem in imbalanced classification by a resampling method with filtering [J]. Information Sciences,2015,291: 184-203.
[43]Douzas G,Bacao F,Last F. Improving imbalanced learning through a heuristic oversampling method based on K-means and SMOTE [J]. Information Sciences,2018,465: 1-20.
[44]Alcalá-fdez J,F(xiàn)ernández A,LU-ENGO J,et al. KEEL data-mining software tool: data set repository,integration of algorithms and experimental analysis framework [J]. Journal of Multiple-Valued Logic amp; Soft Computing,2011,17(2/3): 255-287.
[45]Ruggieri S. Efficient C4. 5 classification algorithm [J]. IEEE Trans on Knowledge and Data Engineering,2002,14(2): 438-444.
[46]Raghuwanshi B S,Shukla S. Classifying imbalanced data using Ba-lance Cascade-based kernelized extreme learning machine [J]. Pattern Analysis and Applications,2020,23(3): 1157-1182.
[47]Wang Wenyang,Sun Dongchu. The improved AdaBoost algorithms for imbalanced data classification [J]. Information Sciences,2021,563: 358-374.
[48]Sasaki Y. The truth of the F-measure [J]. Teach Tutor Mater,2007,1(5): 1-5.
[49]Fernandes E R Q,De Carvalho A C. Evolutionary inversion of class distribution in overlapping areas for multi-class imbalanced learning [J]. Information Sciences,2019,494: 141-154.
[50]García S,F(xiàn)ernández A,Luengo J,et al. A study of statistical techniques and performance measures for genetics-based machine lear-ning: accuracy and interpretability [J]. Soft Computing,2009,13(10): 959-977.
[51]Ahmed M,Kashem M A,Rahman M,et al. Review and analysis of risk factor of maternal health in remote area using the Internet of Things (IoT) [C]// Proc of the 5th International Conference on Electrical,Control amp; Computer Engineering.Berlin: Springer,2020: 357-365.
收稿日期:2022-07-04;修回日期:2022-08-31 基金項目:國家自然科學(xué)基金資助項目(61602056,61772249);遼寧省自然科學(xué)基金資助項目(2019-ZD-0493);遼寧省教育廳科研項目(LQ2019012)
作者簡介:陶佳晴(1998-),女,遼寧沈陽人,碩士研究生,主要研究方向為人工智能、機器學(xué)習(xí);賀作偉(1997-),男,山東濟寧人,碩士研究生,主要研究方向為人工智能、機器學(xué)習(xí);冷強奎(1981-),男(通信作者),遼寧建平人,教授,博導(dǎo),博士,主要研究方向為人工智能與機器學(xué)習(xí)(qkleng@126.com);翟軍昌(1978-),男,遼寧丹東人,副教授,碩導(dǎo),博士,主要研究方向為智能優(yōu)化算法及其應(yīng)用;孟祥福(1981-),男,遼寧朝陽人,教授,博導(dǎo),博士,主要研究方向為大數(shù)據(jù)分析及應(yīng)用.