999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

帶有超長方體約束的少數類樣本生成機制

2022-12-31 00:00:00賀作偉陶佳晴冷強奎翟軍昌孟祥福
計算機應用研究 2022年10期

摘要:合成少數類過采樣技術(SMOTE)是解決類不平衡問題的有效方法之一。但是,SMOTE的線性插值機制將合成樣本限制在原始樣本的連線上,導致新樣本缺乏多樣性,并且這條連線穿過多數類區域時可能會生成噪聲樣本。針對上述問題,提出一種帶有超長方體約束的少數類樣本生成機制。該機制使用超長方體作為新樣本的生成區域來代替線性插值,以增加合成樣本與原始樣本的差異性。并通過檢測超長方體內是否存在多數類樣本來決定是否修正此超長方體,從而防止新合成樣本落入多數類區域內。使用所提機制替換線性插值,并集成在SMOTE、Borderline-SMOTE和ADASYN三種過采樣方法中,然后在KEEL的11個標準數據集上進行了實驗評估。結果表明,相比于原始方法,集成后的方法能夠幫助分類器取得更高的F1值和相當的G-mean。這說明超長方體生成機制能夠顯著改善分類器對少數類樣本的識別能力,并且能夠兼顧到多數類樣本。

關鍵詞:不平衡分類; 過采樣技術; SMOTE; 生成機制; 超長方體約束

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2022)10-026-3055-06

doi:10.19734/j.issn.1001-3695.2022.03.0099

Generation mechanism for minority samples with hypercuboid constraints

He Zuowei1, Tao Jiaqing1, Leng Qiangkui2, Zhai Junchang1, Meng Xiangfu2

(1.College of Information Science amp; Technology, Bohai University, Jinzhou Liaoning 121013, China; 2.School of Electronics amp; Information Engineering, Liaoning Technical University, Huludao Liaoning 125105, China)

Abstract:Synthetic minority oversampling technology (SMOTE) is one of the effective methods to solve the class-imbalanced problem. However, the linear interpolation mechanism of SMOTE restricts the synthesized samples to the connecting line of the original samples, resulting in a lack of diversity for new samples, and may generate noisy samples when this line passes through the majority class region. In response to the above issues, this paper proposed a generation mechanism for minority samples with hypercuboid constraints. This mechanism constructed a hypercuboid as the generation region of new samples instead of linear interpolation, thereby increasing the variability between the synthesized samples and the original samples. Then, it detected whether there were majority samples in the hypercuboid to determine whether to adjust the hypercuboid, which aimed at preventing the new samples into the region of the majority class. This paper integrated the proposed mechanism into three oversampling methods, i. e. , SMOTE, Borderline-SMOTE and ADASYN, by using it to replace linear interpolation, and then experimentally evaluated the integrated method on 11 benchmark datasets from KEEL. The results show that compared to the original method, the integrated method can help the classifier to obtain higher F1 and comparable G-mean. It verifies that the hypercuboid generation mechanism can significantly improve the classifier’s ability to recognize minority samples, and meanwhile the majority samples are also taken into account.

Key words:imbalanced classification; oversampling technique; SMOTE; generation mechanism; hypercuboid constraints

0引言

針對不平衡數據的分類問題是機器學習與數據挖掘領域面臨的一項挑戰[1, 2]。在二分類問題中,數據不平衡意味著少數類樣本的數量遠遠小于多數類樣本的數量[3, 4]。這種類間不平衡會引起標準分類器的偏斜,即分類面更容易被推向少數類樣本,導致部分少數類樣本不能被正確識別[5]。然而,在一些重要的應用領域中,如醫學診斷[6]、軟件缺陷預測[7]、惡性腫瘤分級[8]等,少數類通常包含更關鍵的信息[9]。因此,如何提高針對少數類樣本的分類性能是不平衡學習中的關鍵問題。

目前,處理數據不平衡問題的方法可以分為算法層面方法和數據層面方法兩類[10]。算法層面方法通過修改分類器來強調其對少數類樣本的重視[11, 12]。數據層面方法在分類器介入之前先對輸入樣本進行預處理,以減少數據不平衡的影響[13, 14]。數據層面方法主要包括欠采樣技術和過采樣技術。欠采樣技術通過移除部分多數類樣本來實現平衡,但是可能丟失重要的分布信息[15, 16]。而過采樣通過增加少數類樣本使數據集達到平衡,其中最經典的方法是Chawla等人[17]提出的合成少數類過采樣技術(synthetic minority oversampling technique,SMOTE)。SMOTE通過在原始的少數類樣本之間進行線性插值[18]來生成新的少數類樣本,能夠提高分類器在測試集上的泛化能力。

近年來,許多SMOTE類的方法被相繼提出。這些方法或關注類間不平衡問題,或致力于改善類內不平衡問題[19]。對于類間不平衡問題,Han等人[20]認為位于類邊界的少數類樣本更容易被誤分類,并提出一種只針對邊界少數類樣本進行合成過采樣的Borderline-SMOTE方法。He等人[21]提出一種自適應合成少數類過采樣技術ADASYN,該技術根據近鄰中多數類樣本所占比例來決定少數類樣本的合成權重。但無論是Borderline-SMOTE還是ADASYN,它們受近鄰參數K的影響很大,當K取不同的值時,新合成樣本的分布具有明顯的差異。文獻[22]提出基于構造性覆蓋算法的過采樣技術CMOTE,該技術根據覆蓋密度進行根樣本的選擇,但對于兩個閾值參數P和D的設定,一直是需要探討的問題。文獻[23]提出的AdaN_SMOTE根據精度下降來自適應地決定少數類的近鄰值,并根據噪聲等其他因素調整近鄰大小,該方法合成的新樣本能夠保留少數類樣本明顯的聚類特征,并可以有效避免噪聲、小分離和復雜形狀的影響。文獻[24]通過融合支持度SD和影響因素posFac來指導邊界樣本的合成,它不僅可以避免SMOTE方法選擇樣本的盲目性,而且能夠綜合考慮總體樣本的分布情況,但SDRSMOTE算法仍需要進一步優化,以提高其運行效率。

對于類內不平衡問題(指少數類樣本呈多聚簇分布[25]),文獻[26]使用Box-Cox變換和

σ準則改進了密度峰值聚類,并將其與SMOTE算法相結合。該方法能夠有效剔除各類噪聲數據,且獲得的聚簇不受空間形狀限制,避免了手動輸入參數帶來的主觀因素干擾。Bunkhumpornpat等人[27]將少數類劃分為多個任意形狀的子聚簇,然后在隨機選擇的少數類樣本與子聚簇中心之間合成新樣本,然而,該方法容易導致類間數據發生重疊,且不能有效標識具有較高過采樣權重的邊界樣本。Nekooeimehr等人[28]提出了一種自適應半/無監督加權過采樣方法A-SUMO。在使用層次聚類算法后,它自適應確定每個子聚簇的過采樣大小,此外,A-SUMO在標識邊界樣本方面也取得了較好的效果。但也要指出,該方法在聚類時僅考慮距離因素,忽略了樣本分布信息,導致抗噪聲干擾能力較弱。Douzas等人[29]提出了一種基于K-means和SMOTE的啟發式過采樣方法,它根據每個聚簇的大小和密度來估計采樣權重,然而,K-means聚類算法無法找到任何不規則的聚簇,并且該方法也未提供可行的策略來確定最佳聚簇數。Tao等人[30]使用密度峰值聚類算法來改進K-means算法在處理類內不平衡問題上的不足,根據歐氏距離和密度分布,少數類樣本的合成權重被自適應地計算,邊界和低密度樣本將獲得更高的采樣機會,盡管該方法能夠有效避免噪聲數據的合成,但安全距離閾值的設定依賴于一個待調參數γ,它的合理取值區間目前只能通過實驗來獲得。

實際上,每一個SMOTE類的方法均可被分解為數據選擇和數據生成兩個機制。而上述這些方法均是對數據選擇機制的改進,它們在生成新樣本時采用與SMOTE相同的線性插值。然而,這種線性插值方式限制了合成樣本的數據質量,同時它也是一些過采樣方法不能克服類內不平衡問題的主要原因[31]。文獻[32]也指出,合成的新樣本應該具備擴展少數類區域的能力,以強調少數類在數據總體分布中的重要性。特別地,當少數類樣本為多聚簇分布時,線性插值會在聚簇之間執行合成操作,這將導致新樣本落入多數類區域而形成噪聲,并進一步加重兩類數據之間的重疊[33]。

為了解決線性插值生成機制存在的問題,并使新樣本更具隨機性和多樣性,本文提出一種帶有超長方體約束的數據生成機制(簡稱超長方體生成機制)。該機制首先以少數類根樣本及其選定近鄰的連線為對角線,構造一個超長方體,新樣本將在此超長方體內生成。但在生成之前,需要檢測此超長方體內是否存在多數類樣本,若存在,則修正此超長方體。最后,在沒有多數類樣本的安全區域內生成新的少數類樣本。超長方體生成機制是一個獨立模塊,能夠替換線性插值,并可被集成在多數SMOTE類的方法中。接下來,將首先解釋本文提出的超長方體生成機制,然后將其嵌入到SMOTE、Borderline-SMOTE和ADASYN三種過采樣方法中,并與原始方法進行實驗對比,以評估該機制的有效性。

1超長方體數據生成機制

1.1SMOTE和線性插值

SMOTE以迭代搜索方式[34]依次從少數類中選擇一個樣本作為根樣本,并計算根樣本到其他少數類樣本之間的歐氏距離,得到距離根樣本最近的k個少數類近鄰。然后,在根樣本和其隨機選擇的一個近鄰之間,使用線性插值合成新的少數類樣本。

給定d維歐氏空間Euclid Math TwoRApd中的少數類樣本集X,假設xi∈X是當前選定的根樣本,在k=5時,得到xi的近鄰集合S={xnn1,xnn2,xnn3,xnn4,xnn5}。根據SMOTE的線性插值原理,如果xnn2被隨機選中(圖1(a)),則新樣本xsyn1將被合成在xi和xnn2的連線上,即

xsyn1=xi+ε(xnn2-xi)(1)

其中:ε是一個(0,1)的隨機數。直觀來看,xsyn1被限制在一條線段上,文獻[31]也指出這種線性插值將影響合成新樣本的質量。另外,如果選定的近鄰樣本為xnn5(圖1(b)),則xi與xnn5的連線將穿過多數類區域,新樣本xsyn2將在多數類樣本之間合成,從而導致噪聲的產生。

1.2超長方體內生成

為了解決上述線性插值存在的問題,本文提出超長方體生成機制來擴展少數類樣本的分布范圍。給定Euclid Math TwoRApd中的少數類根樣本xi∈X,如果它的近鄰xnn2被隨機選中(圖2(a)),則新樣本xsyn3將在xi和xnn2確定的超長方體內合成,即

xsyn3=xi+A×(xnn2-xi)(2)

其中:A=diag{α1,α2,…,αd}是d階對角矩陣;αi(i=1,2,…,d)是一個(0,1)的隨機數。如果將少數類樣本按維度展開,則xi={x1i,x2i,…,xdi}T,xnn2={x1nn2,x2nn2,…,xdnn2}T,xsyn3將被表示為

xsyn3=(x1i-α1(x1nn2-x1i))

(x2i-α2(x2nn2-x2i))

(xdi-αd(xdnn2-xdi))(3)

通過式(3)可以看出,對比于線性插值,在超長方體內生成將增加新樣本的隨機性和分布范圍。但值得注意的是,xsyn3還是存在一定可能被合成在xi和xnn2的連線上,這時超長方體生成機制就退化為線性插值。這種退化概率是可以被估計的,假設αi包含r位小數,則合成樣本位于xi和xnn2連線上的概率為

P=1(10r)d-1(4)

例如,當d=2且r=2時,P=0.01;當d=3且r=2時,P=0.000 1。由此可得到,當高維數據被應用時,超長方體生成機制退化為線性插值的概率是非常低的。

1.3防止噪聲生成策略

如圖2(b)所示,當選定的近鄰樣本為xnn5時,由xnn5和xi確定的超長方體與多數類區域發生重疊。如果在該超長方體內合成新樣本,則這個新樣本會落在多數類樣本之間而形成噪聲。為了避免合成噪聲,本文為超長方體生成機制附加了一個檢測及修正策略。首先,計算并檢測落入該超長方體內的多數類樣本,即得到ynn1-ynn4。然后,從ynn1-ynn4中找到距離xi最近的多數類樣本ynn4。最后,執行修正策略,將初始由xnn5和xi確定的超長方體修正為由ynn4和xi確定的新的超長方體,并最終以其作為新樣本的生成區域。

下面給出該檢測及修正策略的形式化描述。給定多數類樣本集Y∈Euclid Math TwoRApd,該策略首先檢測yj∈Y是否位于初始超長方體內。對于yj的第t維,判斷依據如式(5)所示。

min(xti,xtnn5)≤ytj≤max(xti,xtnn5)(5)

如果yj的每一維度均滿足式(5),則表明yj位于初始超長方體內,此時將yj放入集合T中。上述檢測步驟要遍歷Y中每一個樣本,遍歷完成后若T≠,則從T中找到距離xi最近的yp:

yp=argminyj{‖yj-xi‖,yj∈T}(6)

然后,使用修正策略依據yp和xi重新構造超長方體,新樣本將在修正后的超長方體內生成。需要說明的是,修正策略只需執行一次即可保證修正后的超長方體中不包含多數類樣本。這是因為,如果存在yq(yq∈T且yq≠yp)落入修正后的超長方體內,則式(7)成立,這顯然與式(6)矛盾。

‖yq-xi‖lt;‖yp-xi‖(7)

1.4算法描述

超長方體生成機制的操作步驟如算法1所示。其中:步驟d)~h)用于檢測某個多數類樣本yj是否位于由xi和xnn構造的初始超長方體內;若是,將yj放入集合T中;步驟m)~o)用于找到T(不為空時)中距離xi最近的樣本yp;步驟p)~r)用于合成新的少數類樣本。在具體細節上,|Y|表示集合Y的基數,flag用作yj是否存入T的開關。

該算法的時間復雜度可被估計為O(d|Y|),要高于線性插值的O(d)。但由于該機制需嵌入到合成過采樣算法中,而過采樣過程屬于數據預處理階段,是獨立于分類器的,所以它不會對分類器的訓練時間構成影響。

算法1超長方體數據生成機制

輸入:少數類根樣本xi={x1i,x2i,…,xdi};近鄰xnn={x1nn,x2nn,…,xdnn};多數類樣本集合Y。

輸出:一個合成的少數類樣本xsyn。

a)初始化T=;

b)for j=1 to |Y|

c)flag=1;

d)for t=1 to d

e)if ytjgt;max (xti,xtnn) or ytjlt;min(xti,xtnn) then

f)flag=0; goto step i);

g)end if

h)end for

i)if flag==1 then

j) T←yj;

k) end if

l)end for

m) if T≠ then

n)yp=argminyj{yj-xi,yj∈T};xnn=yp;

o)end if

p)for t=1 to d

q)xtsyn=xti+random(0,1)*(xtnn-xti);

r)end for

需要說明的是,如果不把超長方體生成機制當作一個獨立模塊并用于替代SMOTE類過采樣算法中的線性插值,那么算法1中的修正查找過程可以進一步優化。本文可以預先計算得到訓練集中任意兩個少數類樣本所構成超長方體中包含的多數類樣本的信息,然后在每次合成新樣本時利用此信息。

令G(i,nn)表示由少數類樣本xi和xnn所構成超長方體中包含的多數類樣本的索引。例如,G(1,5)={2,3,7,9}表明由x1和x5構成的超長方體中包含多數類樣本y2、y3、y7、y9。在過采樣之前,本文將所有的G(i,nn)均計算出來,那么在合成新樣本時就可以直接使用這些信息,這將大大縮短算法的運行時間。值得注意的是G(i,nn)=G(nn,i)。

在獲得G(i,nn)的基礎上,本文沒有必要再遍歷整個多數類樣本集Y。相應地,算法1中步驟b)~l)可以簡化為一個步驟,即T←yj,j∈G(i,nn)。此時算法1的輸入中需要包含一個新的參數G(i,nn),算法的時間復雜度將由O(d|Y|)下降到O(d|G(i,nn)|)。

2實驗結果與分析

提出的超長方體生成機制是一個獨立模塊,可被嵌入到SMOTE類算法中替換線性插值以改善合成數據的質量。本文將所提機制嵌入到SMOTE、Borderline-SMOTE(簡稱為BLSMOTE)、ADASYN三個過采樣算法中, 嵌入后的算法稱為HC-SMOTE、HC-BLSMOTE、HC-ADASYN,然后分別通過人工合成數據集實驗和標準數據集實驗來評估該機制的有效性。

2.1人工合成數據集實驗

人工合成數據集如圖3所示,其中少數類樣本用星形表示,多數類樣本用圓形表示。圖3(a)(c)(e)分別表示使用原始的SMOTE、BLSMOTE、ADASYN對少數類樣本進行過采樣后的結果,新合成樣本使用三角形表示;圖3(b)(d)(f)分別表示使用HC-SMOTE、HC-BLSMOTE、HC-ADASYN進行過采樣的結果,新合成樣本使用菱形表示。

從圖3可以看出,SMOTE、BLSMOTE、ADASYN使用線性插值方式合成少數類樣本,新樣本均位于原始少數類樣本之間的連線上,呈現出明顯的線段分布;嵌入超長方體生成機制后,HC-SMOTE、HC-BLSMOTE、HC-ADASYN合成了分布更為均勻的少數類樣本,并且擴展了少數類的分布范圍。另外,圖3(a)(c)出現了合成樣本跨越多數類區域的情況,這些新樣本會成為噪聲而使得分類器性能下降。但使用本文所提機制中的防止噪聲生成策略后,這種情況不再發生,如圖3(b)(d)所示。

2.2標準數據集實驗

為了體現客觀性,從KEEL不平衡數據庫[35]中選擇11個標準數據集進行實驗,數據集描述見表1。每一個數據集中均已采用五折交叉驗證方式劃分為訓練集和測試集,實驗結果將報告五次實驗的平均值。實驗參數按默認設置,SMOTE、BLSMOTE、ADASYN在合成樣本時近鄰參數分別為5、5、7,BLSMOTE在判定邊界樣本時近鄰參數為7。分類器使用C4.5[36]和AdaBoost[37]。

評價指標包括F1和G-mean。F1是精準率(precision)和召回率(recall)的調和平均,反映分類器對少數類樣本的分類

能力;G-mean是敏感性(sensitivity)和特異性(specificity)的幾何平均,反映分類器兼顧兩類樣本時的分類能力。這些指標均以混淆矩陣(表2)為基礎,計算公式為

precision=TPFP+TP,recall=sensitivity=TPTP+FN(8)

specifificity=TNTN+FP,F1=2×recall×precisionrecall+precision(9)

G-mean=sensitivity×specifificity(10)

表3給出了HC-SMOTE與原始SMOTE的對比實驗結果。C4.5分別在9個數據集上和5個數據集上取得了更高的F1

和G-mean,這說明經過HC-SMOTE過采樣后,顯著提升了C4.5針對少數類樣本的識別能力,但在兼顧多數類方面還存在不足;AdaBoost在全部11個數據集上均取得了更高的F1,同時也在8個數據集上獲得了更好的G-mean,這說明HC-SMOTE對AdaBoost產生了積極影響。

表4給出了HC-BLSMOTE與原始BLSMOTE的對比實驗結果。C4.5分別在7和9個數據集上取得了更高的F1和G-mean,AdaBoost在8個數據集上取得了更高的F1和G-mean。由于BLSMOTE在數據選擇階段只對邊界少數類樣本進行過采樣,而本文機制與BLSMOTE結合后表現出優異的性能,說明在邊界處對少數類樣本進行超長方體區域內的合成,能夠極大改善新合成樣本的質量,并有助于提高分類器的泛化性能。

表5給出了HC-ADASYN與原始ADASYN的對比實驗結果。C4.5和AdaBoost分別在11和10個數據集上取得了更高的F1,但僅在6和3個數據集上取得了更高的G-mean。ADASYN為每個少數類樣本施加一個合成權重,即當鄰域內多數類樣本越多時該合成權重越大。在嵌入超長方體生成機制后,HC-ADASYN將更關注權重大的少數類樣本,但可能導致部分多數類樣本被忽視。

圖4是上述實驗結果的箱線圖,菱形點表示平均值,虛線表示中位數。SM、BD、AD分別是過采樣方法SMOTE、BLSMOTE和ADASYN的縮寫。C45和Ada分別是分類器C4.5和AdaBoost的縮寫。從子圖4(a)(c)(e)可以看出,改進后的方法在F1上取得了大幅的領先,這說明本文所提機制能夠明顯提升分類器對少數類的識別。同時,改進后的HC-SMOTE和HC-BLSMOTE在G-mean的表現上也優于原始方法。整體來看,超長方體生成機制嵌入到Borderline-SMOTE后的性能最好。

3結束語

本文提出一種新的數據生成機制來改進合成過采樣方法,它使用超長方體作為新樣本的生成區域來代替線性插值,以增加新合成樣本與原始樣本的差異性。為防止新樣本落入多數類區域內,一個檢測及修正策略被附加到該超長方體生成機制中,從而避免了噪聲的產生。

在標準數據集上的實驗表明,當該機制集成到SMOTE、Borderline-SMOTE和ADASYN三個過采樣方法后,兩個標準分類器在大部分數據集上均取得了更高的F1值,說明超長方體生成機制能夠顯著改善分類器對少數類樣本的識別能力。在G-mean評價指標上,集成后的方法表現與原始方法相當,說明其在關注少數類樣本的同時,也能夠兼顧多數類樣本。

本文工作從數據生成機制出發,為不平衡學習中過采樣方法的研究提供了一個新的思路。但提出的超長方體生成機制是啟發式的,其有效性建立在實驗評估的基礎之上。下一步工作將在理論層面上深入研究數據生成機制對合成樣本質量的影響。

參考文獻:

[1]Shi Hongbo, Gao Qigang, Ji Suqin, et al. A hybrid sampling method based on safe screening for imbalanced datasets with sparse structure[C]//Proc of International Joint Conference on Neural Networks.New York:IEEE Press,2018:1-8.

[2]Li Junnan, Zhu Qingsheng, Wu Quanwang, et al. A novel oversampling technique for class-imbalanced learning based on SMOTE and natural neighbors[J].Information Sciences,2021,565:438-455.

[3]楊浩,陳紅梅.結合樣本局部密度的非平衡數據集成分類算法[J].計算機科學與探索,2020,14(2):274-284.(Yang Hao, Chen Hongmei. Ensemble classification algorithm for imbalanced data combined with local area density[J].Journal of Frontiers of Computer Science and Technology,2020,14(2):274-284.)

[4]Barua S, Islam M M, Yao X, et al. MWMOTE-majority weighted minority oversampling technique for imbalanced data set learning[J].IEEE Trans on Knowledge and Data Engineering,2012,26(2):405-425.

[5]Zheng Ming, Li Tong, Zheng Xiaoyao, et al. UFFDFR: undersampling framework with denoising, fuzzy c-means clustering, and representative sample selection for imbalanced data classification[J].Information Sciences,2021,576:658-680.

[6]Parvin H, Minaei-Bidgoli B, Alizadeh H. Detection of cancer patients using an innovative method for learning at imbalanced datasets[C]//Proc of International Conference on Rough Sets and Knowledge Technology.Berlin:Springer,2011:376-381.

[7]Wang Shuo, Yao Xin. Using class imbalance learning for software defect prediction[J].IEEE Trans on Reliability,2013,62(2):434-443.

[8]Krawczyk B, Galar M, Jeleń L, et al. Evolutionary undersampling boosting for imbalanced classification of breast cancer malignancy[J].Applied Soft Computing,2016,38:714-726.

[9]徐玲玲,遲冬祥.面向不平衡數據集的機器學習分類策略[J].計算機工程與應用,2020,56(24):12-27.(Xu Lingling, Chi Dong-xiang. Machine learning classification strategy for imbalanced data sets[J].Computer Engineering and Applications,2020,56(24):12-27.)

[10]He Haibo, Garcia E A. Learning from imbalanced data[J].IEEE Trans on Knowledge and Data Engineering,2009,21(9):1263-1284.

[11]Dubey H, Pudi V. Class based weighted k-nearest neighbor over imbalance dataset[C]// Proc of Pacific-Asia Conference on Knowledge Discovery and Data Mining.Berlin:Springer,2013:305-316.

[12]Fan Wei, Stolfo S J, Zhang Junxin, et al. AdaCost: misclassification cost-sensitive boosting[C]//Proc of the 16th International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publishers Inc.,1999:97-105.

[13]Elreedy D, Atiya A F. A comprehensive analysis of synthetic minority oversampling technique(SMOTE) for handling class imbalance[J].Information Sciences,2019,505:32-64.

[14]Zhu Yuanwei, Yan Yuanting, Zhang Yiwen, et al. EHSO: evolu-tionary hybrid sampling in overlapping scenarios for imbalanced learning[J].Neurocomputing,2020,417:333-346.

[15]Fernández A, Garcia S, Herrera F, et al. SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year an-niversary[J].Journal of Artificial Intelligence Research,2018,61:863-905.

[16]吳藝凡,梁吉業,王俊紅.基于混合采樣的非平衡數據分類算法[J].計算機科學與探索,2019,13(2):342-349.(Wu Yifan, Liang Jiye, Wang Junhong. Classification algorithm based on hybrid sampling for unbalanced data[J].Journal of Frontiers of Computer Science and Technology,2019,13(2):342-349.)

[17]Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.

[18]Blu T, Thévenaz P, Unser M. Linear interpolation revitalized[J].IEEE Trans on Image Processing,2004,13(5):710-719.

[19]Tao Xinmin, Zheng Yujia, Tao Weichen, et al. SVDD-based weighted oversampling technique for imbalanced and overlapped dataset learning[J].Information Sciences,2022,588:13-51.

[20]Han Hui, Wang Wenyuan, Mao Binghuan. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning[C]//Proc of International Conference on Intelligent Computing.Berlin:Springer,2005:878-887.

[21]He Haibo, Bai Yang, Garcia E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning[C]//Proc of IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence).New York:IEEE Press,2008:1322-1328.

[22]嚴遠亭,朱原瑋,吳增寶,等.構造性覆蓋算法的SMOTE過采樣方法[J].計算機科學與探索,2020,14(6):975-984.(Yan Yuanting, Zhu Yuanwei, Wu Zengbao, et al. Constructive covering algorithm-based SMOTE over-sampling method[J].Journal of Frontiers of Computer Science and Technology,2020,14(6):975-984.)

[23]王芳,吳文通,張立立,等.鄰域自適應SMOTE算法研究[J].計算機應用研究,2021,38(6):1673-1677.(Wang Fang, Wu Wentong, Zhang Lili, et al. Research on neighborhood adaptive SMOTE algorithm[J].Application Research of Computers,2021,38(6):1673-1677.)

[24]李克文,林亞林,楊耀忠.一種改進的基于歐氏距離的SDRSMOTE算法[J].計算機工程與科學,2019,41(11):2063-2070.(Li Kewen, Lin Yalin, Yang Yaozhong. An improved SDRSMOTE algorithm based on Euclidean distance[J].Computer Engineering amp; Science,2019,41(11):2063-2070.)

[25]Leevy J L, Khoshgoftaar T M, Bauder R A, et al. A survey on addressing high-class imbalance in big data[J].Journal of Big Data,2018,5(1):1-30.

[26]盛凱,劉忠,周德超,等.面向不平衡分類的IDP-SMOTE重采樣算法[J].計算機應用研究,2019,36(1):115-118.(Sheng Kai, Liu Zhong, Zhou Dechao, et al. IDP-SMOTE resampling algorithm for imbalanced classification[J].Application Research of Computers,2019,36(1):115-118.)

[27]Bunkhumpornpat C, Sinapiromsaran K, Lursinsap C. DBSMOTE: density-based synthetic minority over-sampling technique[J].Applied Intelligence,2012,36(3):664-684.

[28]Nekooeimehr I, Lai-Yuen S K. Adaptive semi-unsupervised weighted oversampling(A-SUWO) for imbalanced datasets[J].Expert Systems with Applications,2016,46:405-416.

[29]Douzas G, Bacao F, Last F. Improving imbalanced learning through a heuristic oversampling method based on K-means and SMOTE[J]. Information Sciences, 2018, 465: 1-20.

[30]Tao Xinmin, Li Qing, Guo Wenjie, et al. Adaptive weighted over-sampling for imbalanced datasets based on density peaks clustering with heuristic filtering[J].Information Sciences,2020,519:43-73.

[31]Li Yihong, Wang Yunpeng, Li Tao, et al. SP-SMOTE: a novel space partitioning based synthetic minority oversampling technique[J].Knowledge-Based Systems,2021,228:107269.

[32]Douzas G, Bacao F. Geometric SMOTE a geometrically enhanced drop-in replacement for SMOTE[J].Information Sciences,2019,501:118-135.

[33]Zhu Tuanfei, Lin Yaping, Liu Yonghe. Improving interpolation-based oversampling for imbalanced data learning[J].Knowledge-Based Systems,2020,187:104826.

[34]Raghuwanshi B S, Shukla S. SMOTE based class-specific extreme learning machine for imbalanced learning[J].Knowledge-Based Systems,2020,187:104814.

[35]Moreno-Torres J G, Sáez J A, Herrera F. Study on the impact of partition-induced dataset shift on k-fold cross-validation[J].IEEE Trans on Neural Networks and Learning Systems,2012,23(8):1304-1312.

[36]Elyan E, Moreno-garcia C F, Jayne C. CDSMOTE: class decomposition and synthetic minority class oversampling technique for imbalanced-data classification[J].Neural Computing and Applications,2021,33(7):2839-2851.

[37]Niu Kun, Zhang Zaimei, Liu Yan, et al. Resampling ensemble mo-del based on data distribution for imbalanced credit risk evaluation in P2P lending[J].Information Sciences,2020,536:120-134.

收稿日期:2022-03-19;

修回日期:2022-05-05

基金項目:國家自然科學基金資助項目(61602056、61772249);遼寧省自然科學基金資助項目(2019-ZD-0493);遼寧省教育廳科研項目(LQ2019012)

作者簡介:賀作偉(1997-),男,山東濟寧人,碩士研究生,主要研究方向為人工智能、機器學習;陶佳晴(1998-),女,遼寧沈陽人,碩士研究生,主要研究方向為人工智能、機器學習;冷強奎(1981-),男(通信作者),遼寧建平人,教授,博導,博士,主要研究方向為人工智能與機器學習(qkleng@126.com);翟軍昌(1978-),男,遼寧丹東人,副教授,碩導,博士,主要研究方向為智能優化算法及其應用;孟祥福(1981-),男,遼寧朝陽人,教授,博導,博士,主要研究方向為大數據分析及應用.

主站蜘蛛池模板: 国产在线一区二区视频| www.youjizz.com久久| 亚洲成人一区二区三区| 九九热这里只有国产精品| 欧美中文一区| 精品无码日韩国产不卡av| 久久亚洲日本不卡一区二区| 蜜芽一区二区国产精品| 国产一区二区三区在线观看免费| 99久久免费精品特色大片| 亚洲欧美综合精品久久成人网| 亚洲大学生视频在线播放| 鲁鲁鲁爽爽爽在线视频观看 | 一区二区影院| 中国一级特黄大片在线观看| 在线99视频| 韩日无码在线不卡| 熟女成人国产精品视频| 免费看美女毛片| 成人福利在线免费观看| 久青草网站| 国产人人射| 午夜a视频| 国产区成人精品视频| 久久精品亚洲热综合一区二区| 久久综合AV免费观看| 日韩AV无码免费一二三区| 青青青视频91在线 | 91精品专区国产盗摄| 五月天天天色| 色偷偷一区二区三区| 欧美三级视频网站| 亚洲香蕉久久| 暴力调教一区二区三区| 日本成人精品视频| 真实国产精品vr专区| 亚洲中文无码h在线观看| 国产成人乱无码视频| 3D动漫精品啪啪一区二区下载| 性视频一区| 免费无码一区二区| 成年人午夜免费视频| 色婷婷电影网| 欧美在线视频不卡第一页| 亚洲天堂在线视频| 国产成人久久综合777777麻豆| 国产福利免费视频| 欧美激情首页| 国产第一福利影院| 国产成人艳妇AA视频在线| 谁有在线观看日韩亚洲最新视频| 成人年鲁鲁在线观看视频| 欧美精品亚洲精品日韩专| 亚洲精品第一在线观看视频| 国产导航在线| 国产成人精品免费视频大全五级| 国产在线精彩视频论坛| 国产微拍一区| v天堂中文在线| 91在线免费公开视频| 毛片网站免费在线观看| 国产一区二区在线视频观看| 中文字幕精品一区二区三区视频 | 日韩福利视频导航| 国产精品女主播| 亚洲国产成人久久精品软件| 亚洲 欧美 日韩综合一区| 天天色天天操综合网| 欧美亚洲一区二区三区导航| 波多野吉衣一区二区三区av| 日本高清在线看免费观看| 亚洲精品无码高潮喷水A| 亚洲人成高清| 国产成人乱无码视频| 97一区二区在线播放| 精品欧美视频| 国产精品自拍露脸视频| 欧美日韩另类在线| 制服无码网站| 老色鬼久久亚洲AV综合| 亚洲视频无码| 国产综合另类小说色区色噜噜|