999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合樣本局部密度的非平衡數據集成分類算法*

2020-02-20 03:42:14陳紅梅
計算機與生活 2020年2期
關鍵詞:分類方法

楊 浩,陳紅梅,2+

1.西南交通大學 信息科學與技術學院,成都 611756

2.云計算與智能技術高校重點實驗室(西南交通大學),成都 611756

1 引言

近年來,數據集的類別非平衡問題為影響各種機器學習算法性能的主要因素之一,得到了研究者的廣泛關注。類別非平衡是指數據集中某一類樣本的數量遠遠大于另一類樣本的數量,從而導致不同類別樣本之間分布的不均衡。類別的非平衡問題廣泛存在于各領域中,如醫學診斷[1]、網絡異常檢測[2]、信息檢索[3]、欺詐電話檢測[4]等。非平衡率(imbalance ratio,IR),即多數類和少數類樣本之間的比例,是衡量非平衡數據特性的指標之一。在實際生活中,非平衡率常常高達1∶100,而在高能物理的分類問題中[5],甚至達到了1∶100 000。在上述應用中,人們通常更加關心少數類樣本的分類正確性。然而傳統的分類算法,例如支持向量機(support vector machine,SVM)、C4.5、K近鄰(K-nearest neighbors,KNN)和樸素貝葉斯(naive Bayes,NB),所訓練的分類器通常只關注整體樣本的分類準確性,從而忽視了少數類樣本分類的正確與否[6]。因此,人們針對非平衡數據集分類問題提出了一系列的解決方法。

目前,針對非平衡數據分類的解決方法主要集中在數據層面和算法層面[7]。基于數據層面的方法是在模型學習階段之前改變數據集的類別分布使類別達到平衡。而基于算法層面的方法則是在學習過程中調整少數類與多數類之間的權重,最終使學習性能達到最優。本文將從基于數據層面來研究非平衡數據的二分類問題。基于數據層面的方法可以分為欠采樣和過采樣兩種類型。這兩種方法的研究對象分別為多數類樣本和少數類樣本。隨機欠采樣和隨機過采樣是處理非平衡數據最為簡單的兩種方法。但是,由于隨機欠采樣僅盲目地減少多數類樣本,從而導致數據集會丟失部分有價值的樣本。隨機過采樣隨機地復制少數類樣本加入到數據集中,但不能給數據集帶來新的有價值的樣本,容易導致模型過擬合現象。因此,為了克服隨機采樣方法的局限性,Chawla等提出了一種合成少數類樣本的過采樣方法(synthetic minority oversampling technique,SMOTE)[8]。該方法通過在相鄰的兩個少數類樣本之間進行線性插值,從而合成新的少數類樣本。相對于隨機過采樣方法,SMOTE能夠較好地改善少數類樣本的分布問題,提高了分類器的分類效果。Li等提出了一種欠采樣和SMOTE結合的方法,并將其融合到多目標粒子群算法中,通過優化迭代最終得到一個最優的平衡數據集,較好地解決了SMOTE中采樣倍率和近鄰數難以選取的問題[9]。然而,基于SMOTE的方法在選擇近鄰和生成樣本時具有隨機性,當數據集出現類別重疊[10]或小析取項[7]時,容易生成錯誤的樣本,從而導致分類器的性能降低。

因此,為了提高合成樣本的質量,學者們基于SMOTE提出了一系列的改進算法。趙清華等針對SMOTE算法存在樣本邊緣化問題提出了TSMOTE(triangle SMOTE)算法,將合成樣本限制在安全區域內[11]。然而該方法只解決了類別重疊問題,當出現小析取項問題時,仍然會合成錯誤的樣本。Barua等提出一種基于樣本權重的采樣方法(majority weighted minority oversampling technique,MWMOTE),著重對類別邊界的少數類樣本進行采樣,同時使用聚類技術將少數類分成若干個簇,然后只在簇內進行采樣,克服了小析取項問題,提高了合成樣本的質量[10]。MWMOTE著重對類別邊界進行采樣,因此當數據集出現類別重疊時,往往也會合成錯誤的樣本,其次算法的效果也受聚類效果的影響。Lin等提出了一種基于聚類的欠采樣方法,該方法通過設置類簇中心數等于少數類樣本的數量,對多數類進行聚類,然后選取聚類中心作為篩選后的多數類樣本,克服了類別重疊和小析取項問題,但是欠采樣容易導致數據集丟失有價值的多數類樣本,降低多數類的分類精確度[7]。胡峰等結合三支決策理論提出了TWD-IDOS(three-way decision model imbalanced data oversampling)算法,將少數類樣本集劃分為不同的區域,對不同區域的樣本進行不同的過采樣處理,較好地解決了小析取項和類別重疊問題[12]。但是TWD-IDOS在合成樣本時只選取了一個近鄰,因此容易丟失其他質量高的合成樣本。

綜上所述,目前大多數的過采樣算法都無法很好地同時解決類別重疊和小析取項問題,采樣的效果也同時受其他因素影響。因此,本文針對上述問題進行了深入的研究,為了克服小析取項和類別重疊問題給采樣技術帶來的限制以及后續負面影響,提出了一種結合樣本局部密度的過采樣算法(minority oversampling under local area density,MOLAD)。其次,本文為了最大限度地保證具有潛在有價值的合成樣本不會被丟失,在上述基礎上,將集成學習與MOLAD結合,提出了針對非平衡數據集的集成分類算法(combined the local area density and bagging for minority oversampling technique,LADBMOTE)。該算法不僅能夠克服非平衡數據集出現類別重疊和小析取項時所帶來的問題,而且結合了集成學習的優點,極大地提高了分類器的分類性能和泛化能力。

2 相關背景

本章將主要分析基于SMOTE的采樣算法在非平衡數據集中所面臨的三種問題。

2.1 類別非平衡問題

在非平衡數據集中,類別分布的不平衡往往還會伴隨著其他問題。這些問題大致可以分為三類:小樣本、類別重疊和小析取項。這三類問題在模型訓練階段會帶來不同程度的負面影響。

(1)小樣本:在非平衡數據集中最為突出的問題是多數類樣本的數量遠遠多于少數類樣本。而在實際應用中,為非平衡數據集收集少數類樣本具有非常大的挑戰。因此,解決小樣本最常用的辦法就是通過采樣技術來增加數據集中少數類樣本的數量。

(2)類別重疊:在非平衡數據集中,不同類別的樣本區域會發生交疊現象(如圖1(a)所示,圖中實心圓代表多數類樣本,五角星代表少數類樣本)。在交疊區域,不同類別的樣本之間沒有明顯的界限,因此在構建分類器時會帶來負面影響。由于多數類與少數類之間樣本數量的差異,分類器可能會將處于交疊區域的少數類樣本錯分為多數類。

(3)小析取項:在非平衡數據集中,少數類樣本呈現出多個類簇,分布在特征空間的不同區域中(如圖1(b)所示)。

Fig.1 Class-overlapping and small-disjuncts problems in imbalanced data sets圖1 非平衡數據集中類別重疊和小析取項問題

2.2 傳統過采樣技術所面臨的問題

過采樣技術主要是通過增加少數類樣本的數量從而達到類別平衡,相比于簡單的隨機過采樣,SMOTE、BDSMOTE(borderline SMOTE)[13]、核SMOTE(kernel SMOTE,KSMOTE)[14]等合成樣本技術雖然解決了小樣本問題,但是卻忽視了合成樣本的質量。在SMOTE算法中,首先需要針對所選定的樣本(采樣點),求出其K個近鄰,然后隨機選取其中一個近鄰并在此之間進行插值。最終生成的樣本會落在近鄰與采樣點之間。假定當前選擇的采樣點為xi,隨機選擇的一個近鄰為xj,λ為介于0到1之間的隨機數。因此生成的樣本可以表示為:

在非平衡數據集中,當數據分布存在類別重疊和小析取項問題時,合成樣本技術往往會合成錯誤的樣本。而這些錯誤的樣本會反過來加劇這兩種問題,導致最終的分類效果不佳。圖2分別刻畫了當數據集存在小析取項和類別重疊問題時,SMOTE及其改進算法的缺陷。

在圖2(a)中,當選定樣本A作為采樣點時,{B,C,D,E,F}為使用歐氏距離計算得到A的5個近鄰(假定K=5)。因此根據式(1)可知,SMOTE會在AB AC和AD之間生成樣本G H I(紅色方塊)。根據G H和I的位置很明顯可以判斷出I的質量要高于G和H的質量。選取C D作為近鄰生成的樣本落到了多數類樣本區域中,這些低質量的樣本不僅會使得訓練分類器變得困難,還會導致原始類別分布出現類別重疊問題。

在圖2(b)中,當以A點為采樣點,{B,C,D,E,F}為使用歐氏距離計算得到A的5個近鄰(K=5)。因此選擇近鄰B C D生成的樣本分別是G H I(圖中虛線箭頭所指向的點)。從圖中可以觀察到樣本A與近鄰B D之間的區域中存在許多多數類樣本,導致生成的樣本點G和H距離多數類樣本點非常近,甚至與多數類樣本點重合。這些錯誤的合成樣本會在模型訓練階段造成負面影響,導致分類效果不理想。

Fig.2 Limitations of sample synthetic technique in imbalanced data sets圖2 合成樣本技術在非平衡數據集中的局限

經上述研究分析可知,基于SMOTE的合成樣本方法忽視了數據集的類別分布,盲目地采樣容易合成錯誤的樣本,最終導致整體的分類效果并不理想。因此本文提出了一種兼顧了歐氏距離和候選點與采樣點之間的類別分布的過采樣算法MOLAD。該算法能夠根據選定的采樣點和候選近鄰區域之間的樣本局部密度來計算合適的近鄰來合成樣本,使得合成的樣本落入安全的區域。同時該算法對于樣本分布較為簡單(沒有類別重疊和小析取項現象)的非平衡數據集同樣有效。

3 LADBMOTE:結合MOLAD的集成分類算法

為有效地構建樣本,提高分類精度,充分考慮樣本的分布特點,本文提出了MOLAD過采樣算法,同時生成多個樣本集,利用集成學習構建分類器。

3.1 MOLAD過采樣

與傳統的SMOTE算法以及改進算法不同的是MOLAD定義了一種新的K近鄰計算策略。該計算策略不僅考慮了少數類樣本之間的歐氏距離,同時也考慮了候選近鄰與采樣點之間的局部密度。局部密度反映了候選近鄰與采樣點之間的樣本分布對合成樣本質量造成的影響。這種影響在數據集出現類別重疊或小析取項現象時尤為敏感。

針對二分類問題,設數據集為D,少數類C1的樣本集合為D1={x1,x2,…,xm},m為少數類樣本的數量。多數類C2的樣本集合為D2={x1,x2,…,xn}n為多數類樣本的數量。假定當前的采樣點為xi,Si為根據MOLAD中定義的K近鄰計算策略所得到的xi的K個少數類樣本近鄰集合。MOLAD計算采樣點xi的K個近鄰的具體步驟為:

步驟1針對采樣點xi∈D1,計算所有的少數類樣本{xj|xj≠xi}與xi之間的歐式距離dij。

步驟2求得xi與xj的中點x?ij,計算以x?ij為圓心,以dij為直徑的圓內多數類樣本點的個數σij。計算公式如式(2):

步驟3根據步驟1求得的距離選取K個距離采樣點xi最近的少數類樣本點{xi1,xi2,…,xiK}。然后根據步驟2計算得到{σi1,σi2,…,σiK},將其中σ=0所對應的樣本點加入到Si中。如果均為0,則將{xi1,xi2,…,xiK}中所有的樣本點加入到近鄰集合Si中。統計加入到Si中的樣本個數k1,如果k1=K,結束近鄰計算策略。

步驟4求得所有候選近鄰{xj|xj∈D1,σij≠0}的局部密度ρij。局部密度的計算方式如式(4):

其中,area(x?ij,dij)是以x?ij為圓心,dij為直徑的圓的面積。

步驟5對所有σij≠0所對應樣本點的局部密度進行升序排序,選擇K-k1個局部密度ρ最小的少數類樣本點,加入到Si中,結束近鄰計算策略。

由上述近鄰計算策略可知,針對采樣點xi計算其K個少數類近鄰時,不僅考慮了歐氏距離,還需要計算候選點與采樣點之間的局部密度。當候選點處于絕對安全區域時,其局部密度為0,此時只需要根據歐氏距離來選擇近鄰。而當數據集出現類別重疊或小析取項現象時,候選點與采樣點之間的區域存在多數類樣本,從而導致局部密度不為0。局部密度越大,表明候選點與采樣點之間的局部區域越危險,選擇該候選近鄰容易合成錯誤的樣本或質量低的樣本。局部密度越低,表明候選點與采樣點之間的局部區域較為安全,選擇該候選近鄰合成的樣本往往會落入一個安全的區域中,更加有利于訓練分類器。因此MOLAD先將距離xi最近且局部密度為0的少數類樣本加入到近鄰集合Si中,然后再選擇局部密度較小的樣本加入到采樣點xi的近鄰集合Si中。

由式(4)可知,當σij越大時,其局部密度越大,代表采樣點xi與候選點xj之間的局部區域內多數類樣本點較多。反之,如果σij越小,局部密度越小,則代表采樣點xi與候選點xj之間的局部區域內多數類樣本點越少。然而,當采樣點xi與安全候選點xp之間的距離dip較遠時,此時以x?ip為圓心,以dip為直徑的圓由于直徑較大,導致圓的邊緣部分可能會覆蓋更多的多數類樣本點。當采樣點xi與危險候選點xq之間的距離diq較近時,以diq為直徑的圓會由于直徑較小導致該區域范圍內的多數類樣本相比于安全候選點xp區域內的多數類樣本少。因此,為了消除這種影響,本文將σij除以圓的面積作為其局部密度。當數據集的類別分布不存在類別重疊和小析取項現象時,各個樣本點之間的局部密度均為0,MOLAD會直接選取距離最近的K個樣本點作為近鄰。因此,MOLAD針對類別分布較為簡單的數據集同樣有效。圖3和圖4直觀地體現了傳統的SMOTE以及改進算法的K近鄰計算方法與本文提出的MOLAD的K近鄰計算方法在數據集出現小析取項和類別重疊現象時選擇近鄰的差異。

在圖3(a)中,類別分布出現小析取項現象。針對采樣點A,傳統過采樣方法根據歐氏距離所計算的K近鄰為{B,C,D,E,F}。選擇D或E生成的樣本為G H從圖中可以看出,合成樣本G H落入到多數類區域中。而在圖3(b)中,利用MOLAD的近鄰計算策略,樣本F和J的局部密度相比于E D更小,因此計算得到的K近鄰為{B,C,F,I,J}。由此生成的樣本H G更加靠近少數類,遠離多數類區域,相比圖3(a)中生成的樣本質量要更好。

Fig.3 Comparison of two nearest neighbor selection methods in case of small disjuncts圖3 在小析取項問題下兩種選取近鄰方法的比較

在圖4(a)中,類別分布出現類別重疊現象。針對采樣點A,傳統過采樣方法根據歐氏距離所計算的K近鄰為{B,C,D,E,F}。選擇B或D生成的樣本為G H從圖中可以看出,合成樣本G H幾乎與多數類樣本點重合。而在圖4(b)中,利用MOLAD的近鄰計算策略,樣本I和J的局部密度小于B和D最終計算得到的K近鄰為{C,E,F,I,J}。由此生成的樣本G H會遠離類別重疊區域。因此利用MOLAD近鄰計算策略計算的近鄰會更加有利于高質量樣本的生成。

Fig.4 Comparison of two nearest neighbor selection methods in case of class overlapping圖4 在類別重疊問題下兩種選取近鄰方法的比較

3.2 基于MOLAD的集成分類方法

由于大多數基于SMOTE的過采樣方法在計算K近鄰后隨機選擇其中一個近鄰進行線性插值,因此合成樣本的質量與近鄰的選擇有很密切的關系。在選擇其中一個近鄰時可能會丟失由未選擇的K-1個近鄰所合成的高質量樣本。因此,為了最大程度地保留具有價值的合成樣本,從而進一步提高分類器的分類性能,本文將基于Bagging的集成學習方法與MOLAD結合,在采樣階段,移除了SMOTE算法中隨機選擇近鄰這一步驟,針對每個少數類樣本,根據MOLAD的K近鄰計算策略求得并選取所有的K個近鄰進行合成樣本。因此最終會生成K個平衡的樣本集。最后用Kittler等提出的5種集成規則[15]將K個平衡樣本集訓練得到的分類器集成。Kittler的5種集成規則如表1。

其中,函數定義為式(5):

假定有K個二分類分類器,類別為C1和C2。對于第i個分類器(1 ≤i≤K),一個新樣本xi屬于類別C1的概率為Pi1,屬于類別C2的概率為Pi2。R1和R2為K個分類器下利用集成規則得到的集成結果。如果R1>R2,則新樣本被分為類別C1,否則被分為C2。算法偽代碼如下,整體框架如圖5所示。

算法1LADBMOTE算法

輸入:少數類樣本集合D+,候選近鄰個數K

輸出:K個合成的樣本集合S={S1,S2,…,SK},最終的集成分類器C

Fig.5 Flow chart of LADBMOTE algorithm圖5 LADBMOTE算法流程圖

3.3 算法復雜度分析

定義n m分別為原始少數類樣本和多數類樣本的數量。在MOLAD采樣算法中,時間開銷主要在于求每個采樣點的候選K個近鄰。由步驟1、步驟2和步驟4可知,求少數類樣本xi到所有候選近鄰的局部密度的時間開銷為O(nm)。步驟3中對采樣點xi到所有少數類樣本的距離進行排序的時間開銷為O(nlbn)。步驟5中對所有候選樣本的局部密度進行升序排序的時間開銷為O(nlbn)。在非平衡數據問題中,通常m?n,mn>nlbn。因此求n個少數類樣本的候選近鄰復雜度為O(mn2)。假定合成樣本的時間開銷為O(π),因此MOLAD的時間復雜度為O(πmn2)。MOLAD空間復雜度取決于存儲每個樣本之間的距離和局部密度所需的空間,因此MOLAD的空間復雜度為O((m+n)2)=O(m2)。

傳統的過采樣方法采用歐式距離選擇K個近鄰,因此只需要計算采樣點到少數類樣本之間的距離并對其排序,其時間復雜度為O(πn2lbn),空間復雜度為O(n2)。

基于上述分析可知,MOLAD相比于采用歐式距離的傳統過采樣方法需要額外計算采樣點與候選近鄰之間多數類的局部密度并對其排序。因此MOLAD相對于傳統過采樣的時間復雜度和空間復雜度較高,其差距取決于數據集的非平衡率。

4 實驗結果及分析

實驗環境基于Eclipse Oxygen版本以及Weka3.8機器學習平臺。實驗數據集采用了KEEL公開的20個非平衡數據集[16]。數據集的具體信息如表2所示。數據集的非平衡率(IR)在1.80~41.00之間,樣本數在214~1 484之間。為了保證算法的穩定性以及避免隨機性,本文采用了五折交叉驗證方法,將每個數據集分為5份,同時保持每份子集中樣本的非平衡率與總體樣本集相同。算法在每個數據集上運行20次,將最后得到的分類結果取平均值。分類算法采用了C4.5、NB、KNN、多層感知機(multi-layer perception,MLP)以及SMO(sequential minimal optimization)作為基分類器和分類性能測試算法,所有的分類器參數均采用Weka的默認設置,分類性能的評價指標為AUC值。為了驗證文本提出的算法有效性,將TWD-IDOS、隨機過采樣(random oversampling,ROS)、隨機欠采樣(random undersampling,RUS)、BDSMOTE、SMOTE、SBAG4(SMOTEBagging4)[17]以及CBS(clustering-based sampling)[7]7個算法作為比較算法。

Table 2 Information of data sets表2 數據集的信息

4.1 實驗參數對算法性能的影響

LADBMOTE結合了MOLAD與基于Bagging的集成學習方法,從而訓練出K個分類器,然后利用Kittler提出的5種集成規則將K個分類器的分類結果集成。因此,為了研究Kittler提出的5種集成規則對本文算法的影響,實驗將分別采用5種不同的集成規則,在20個數據集上進行分類性能測試。實驗中K設置為5,在5種不同分類器上的平均分類結果如表3所示。由表3的實驗結果可以看出,當以C4.5、SMO和NB作為集成學習的基分類器時,采用Sum集成規則時的平均分類性能均比其他集成規則下的分類性能要好。當MLP作為基分類器時,采用Max和Product集成規則的平均分類性能要優于其他集成規則下的平均分類性能,而Sum集成規則下的分類效果和Max集成規則下的分類效果非常接近。

Table 3 AUC value of LADBMOTE for different ensemble rules表3 在不同集成規則下LADBMOTE的AUC值

K值作為LADBMOTE算法中采樣點的近鄰個數,不僅決定了每個采樣點需要計算的近鄰數,還決定了集成學習中基分類器的個數。當K值太小時,有價值的近鄰未被選擇,因此可能會丟失高質量的合成樣本,從而影響了集成分類器的效果。當K值比較大時,距離采樣點較遠,質量較低的樣本或噪音樣本被加入到近鄰集合中,導致生成的樣本質量較差。例如,當K=1時,算法只會選擇距離采樣點最近的樣本,由此生成的樣本會非常靠近采樣點,這種合成樣本的價值不高。而當K值非常大時,選擇的近鄰很可能位于另外一個類簇中,使得生成的樣本落入了處于中間的多數類樣本區域中,成為了噪音樣本。因此,為了研究K值對算法的影響,本文設置K值的范圍為[3,10],分類算法采用C4.5、NB、SMO、KNN和MLP,集成規則設置為Sum,AUC作為分類效果的評價指標。在20個數據集上的平均分類效果如表4所示。由表4實驗結果可知,在以C4.5、NB、SMO和MLP作為分類器時,K設置為6時能夠得到最優的AUC值。而以KNN作為分類器時,AUC隨著K值增大而增大。當K≥8時AUC趨于穩定。在LADBMOTE算法中,K值應小于少數類樣本的數量。然而,在非平衡率非常高的數據集中,少數類樣本的數量非常少,較大的K值會導致算法無法運行。因此,綜合分類效果與算法的可行性因素,K設置為6可以取得最優的分類效果。

Table 4 AUC value of LADBMOTE for different K value表4 不同K值時LADBMOTE的AUC值

4.2 算法性能比較及分析

為了驗證LADBMOTE算法的有效性,實驗將與經過TWD-IDOS、ROS、RUS、SMOTE、BDSMOTE、SBAG4和CBS處理的20個數據集上,采用五折交叉驗證法在同一分類器下的平均分類效果進行對比。根據4.1節的實驗結果,本文將LADBMOTE中的集成規則設置為Sum,K值設置為6,實驗結果如表5所示。

由表5的實驗結果可知,LADBMOTE在C4.5、SMO和KNN分類器上的分類效果相比于對比算法的優勢較大,而采用NB和MLP分類器時,LADBMOTE的優勢較小。當采用MLP分類器時,TWD-IDOS的平均分類效果要優于LADBMOTE。由于篇幅限制,表6列出了各個算法在20個數據集上的具體分類效果,分類算法采用C4.5,K設置為6,集成規則為Sum,評價指標為AUC值。根據表6實驗結果可知,本文提出的LADBMOTE在絕大部分數據集上的分類效果都要優于對比算法。而TWDIDOS在ecoli1、glass6、ecoli3、yeast1v7、glass4和yeast2v8數據集上的分類效果比LADBMOTE好。

為了驗證本文提出的LADBMOTE的魯棒性,實驗選取了6個不同非平衡度的數據集,分別為pima(IR=1.87)、ecoli2(IR=5.46)、glass016v2(IR=10.29)、ecoli4(IR=15.80)、yeast2v8(IR=23.80)和yeast6(IR=41.40),畫出了以C4.5為分類器下的ROC曲線圖,如圖6所示。圖6中橫坐標為FPR(false positive rate),縱坐標為TPR(true positive rate)。

不同方法在不同分類器下的平均序值如表7所示。當顯著度為0.05時,在20個數據集,8種算法上的臨界值域CD=2.34圖7給出了在顯著度為0.05下的Friedman檢驗圖。在圖7中,縱軸為平均序值,橫軸顯示為本文所采用的各個算法,“*”所對應的縱坐標為對應算法的平均序值,以“*”為中心的豎直線段表示臨界值域CD的長度。如果兩個算法所對應的線段沒有交疊部分,則表明這兩個算法有顯著差別,并且平均序值小的算法顯著優于平均序值大的算法。若兩個算法所對應的線段有交疊,則表明沒有顯著差別。由圖7所示,當使用C4.5分類算法時,LADBMOTE都顯著優于其他7個對比算法。當使用SMO分類算法時,LADBMOTE要顯著優于TWD-IDOS、CBS、SMOTE、RUS、ROS和BDSMOTE。當使用KNN分類算法時,LADBMOTE要顯著優于SMOTE、ROS、RUS、TWD-IDOS和BDSMOTE。當使用NB分類算法時,LADBMOTE要顯著優于SMOTE和BDSMOTE。當使用MLP分類算法時,LADBMOTE要顯著優于RUS、BDSMOTE和ROS。

Table 5 AUC value of different methods under different classifiers表5 不同方法在不同分類器下的AUC值

Table 6 AUC value of different methods under classifier C4.5表6 以C4.5為分類器時不同方法的AUC值

Fig.6 ROC curves of different IR data sets圖6 在不同非平衡率數據集下的ROC曲線

Table 7 Average ranking of different methods under different classifiers表7 不同方法在不同分類器下的平均序值

Fig.7 Friedman test of different methods at significance level of 0.05圖7 不同算法下顯著度為0.05的Friedman檢驗圖

5 結束語

針對傳統的SMOTE過采樣方法所存在的問題,本文提出了一種基于樣本局部密度的過采樣算法MOLAD。該算法提高了合成樣本的質量,有效地解決了當數據集存在類別重疊以及小析取項現象時合成錯誤樣本的問題。同時,為了最大程度地保留有價值的合成樣本,提高分類器的分類精度,本文進而將基于Bagging的集成學習方法與MOLAD結合,提出了針對非平衡數據的集成分類算法LADBMOTE。實驗結果表明本文提出的LADBMOTE算法在多種分類器上的分類效果相比于當前技術水平下的7種非平衡數據集處理算法的分類效果明顯提高。在面對不同非平衡度的數據集進行分類時,LADBMOTE的魯棒性更好。由于LADBMOTE只解決了非平衡數據的二分類問題,且算法復雜度較高,采用傳統的多分類框架可能無法均衡多個少數類之間的采樣效果,且算法運行時間較長,因此提出一種高效的多分類框架將是今后的研究重點。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 精品视频福利| 少妇极品熟妇人妻专区视频| 欧美激情视频在线观看一区| 国产人人射| 国产九九精品视频| 四虎精品国产AV二区| 黄色成年视频| 久久综合AV免费观看| AV老司机AV天堂| 国产丝袜无码精品| 在线精品亚洲一区二区古装| 国产免费久久精品99re丫丫一| 无码 在线 在线| 国产激情无码一区二区三区免费| 91毛片网| 亚洲天堂精品视频| 亚洲精品第一页不卡| 91久久国产热精品免费| 九九这里只有精品视频| 国产一区三区二区中文在线| 国产精品流白浆在线观看| 欧美日韩国产综合视频在线观看| 热伊人99re久久精品最新地| 免费人成视频在线观看网站| 久久久久青草线综合超碰| 啪啪免费视频一区二区| 国产成人1024精品下载| 中文天堂在线视频| 国产精品v欧美| 在线一级毛片| 精品国产女同疯狂摩擦2| 欧美午夜在线视频| 久久国产精品无码hdav| 熟妇丰满人妻| 国产色爱av资源综合区| 欧美有码在线观看| 亚洲综合第一区| 在线观看国产精品日本不卡网| 日本在线欧美在线| 视频一区视频二区中文精品| 国产精品9| 国产无码精品在线| 欧美日韩一区二区在线播放| 日韩天堂在线观看| 日本国产一区在线观看| 夜夜操天天摸| 91综合色区亚洲熟妇p| 福利一区三区| 一本色道久久88亚洲综合| 婷婷综合色| 精品一区二区三区水蜜桃| 国产在线观看成人91| 在线毛片网站| 中文字幕精品一区二区三区视频| 99久久精品免费看国产免费软件| 色屁屁一区二区三区视频国产| 日本少妇又色又爽又高潮| 久久国产精品77777| 国产美女精品一区二区| 日本黄色不卡视频| 亚洲 欧美 日韩综合一区| 996免费视频国产在线播放| 国产一级妓女av网站| 色视频国产| 亚洲精品麻豆| 免费国产不卡午夜福在线观看| 亚洲美女久久| 国产女人在线| 久久精品最新免费国产成人| 国产在线拍偷自揄观看视频网站| 国产小视频a在线观看| 日本五区在线不卡精品| 久久国产精品嫖妓| 99re热精品视频中文字幕不卡| 99re在线观看视频| 曰AV在线无码| 亚洲精品国产乱码不卡| 国产精品yjizz视频网一二区| 国产交换配偶在线视频| 韩国v欧美v亚洲v日本v| 国产精品污视频| 欧美高清视频一区二区三区|