999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不平衡數據集分類方法研究綜述

2022-01-01 00:00:00周玉孫紅玉房倩夏浩
計算機應用研究 2022年6期

收稿日期:2021-10-29;修回日期:2021-12-15" 基金項目:河南省高等學校青年骨干教師培養計劃項目(2018GGJS079);國家自然科學基金資助項目(U1504622,31671580)

作者簡介:周玉(1979-),男,安徽樅陽人,副教授,碩導,博士,主要研究方向為智能控制與決策、模式識別、智能計算等(zhouyu_beijing@126.com);孫紅玉(1998-),女,河南滎陽人,碩士研究生,主要研究方向為模式識別、智能計算;房倩(1998-),女,河南鄧州人,碩士研究生,主要研究方向為智能計算與模式識別;夏浩(1998-),男,安徽六安人,碩士研究生,主要研究方向為模式識別.

摘 要:社會發展的同時帶來大量數據的產生,不平衡成為眾多數據集的顯著特點,如何使不平衡數據集得到更好的分類效果成為了機器學習的研究熱點?;诖?,對目前存在的不平衡數據集分類方法進行綜述研究,從不平衡數據采樣方法、基于機器學習的改進算法以及組合方法三個層面對目前存在的方法進行全面的梳理與總結,對各方面方法所解決的問題、算法思想、應用場景以及各自的優缺點進行歸納和分析,同時對不平衡數據集分類方法存在的問題和未來研究方向提出一些總結和展望。

關鍵詞:不平衡數據集;分類;數據處理;機器學習

中圖分類號:TP183"" 文獻標志碼:A"" 文章編號:1001-3695(2022)06-003-1615-07doi:10.19734/j.issn.1001-3695.2021.10.0590Review of imbalanced data classification methods

Zhou Yu,Sun Hongyu,Fang Qian,Xia Hao(School of Electric Power,North China University of Water Resources amp; Electric Power,Zhengzhou 450045,China)

Abstract:The development of society has brought countless data,with the unbalancedness becoming a significant feature of many data sets.So it has come to be a research hotspot for machine learning on how to make those unbalanced data sets obtain better effects of classification.Based on this,this paper conducted a comprehensive research on the current unbalanced data set classification method,and made an overall interpretation and conclusion from such three aspects as the unbalanced data sampling method,the method of machine learning-based improved algorithm and the combination method.It also analyzed and took into account many factors,including the problems solved by each method,algorithm mentality,application scenarios,as well as the advantages and disadvantages of each,and delivered a summary on potential problems of the classification methods and a prospect on the future research directions.

Key words:unbalanced data set;classification;data processing;machine learning

20世紀以來,各項科學技術的發展進步給生活帶來了諸多便利,工業[1]、經濟[2]、互聯網[3]等領域產生了大量的數據,如何對這些數據分析處理成為當今研究的熱點之一。機器學習[4]作為當前智能處理技術的主流之一,為上述問題的研究提供了支持。分類算法能夠構建高效的分類器,提取數據中的有效信息,因而成為機器學習的一種關鍵技術。傳統分類方法通常是在數據集各個類別樣本數據的數量與信息量相同的情況下進行數據處理,但現實情況中大多數且越來越多的數據集都有著不平衡的特點。例如在醫學疾病診斷問題[5]中,患病的人數往往要少于健康的人數,在使用傳統分類方法時很有可能將一個病人誤診為健康人士,造成一些無法挽救的后果。

通常將一個數據集評價為不平衡數據集時需要具備兩個條件,即類別數量不均衡、同等樣本數量下的信息量不均衡(或是分類時錯分代價不均衡),數據集中樣本數量較多的多數類樣本類別一般稱為負類,反之少數類稱為正類。對這樣的數據集進行類別判斷的問題稱為不平衡數據分類問題。與普通的數據集分類問題不同,由于數據量的不平衡比例過大,在使用較為常見且高效的分類器時,極有可能將所有的樣本數據均識別為多數類[6]。假設某數據集不平衡比例超過9:1,得出的分類準確率就能達到90%甚至是更高,但該準確度并不具有參考意義,故分類器此時無效。如何對各類的不平衡數據集進行分類成為了各大領域的研究熱點,表1中列舉出了一些不平衡數據集分類問題的實際場景。

本文根據不平衡數據集的相關研究工作情況,在介紹幾種經典方法的基礎上(表2),從三個方向對不平衡分類問題進行分析,提出該領域面臨的相關挑戰和未來研究方向的發展趨勢。

1 不平衡數據集的分類方法

1.1 采樣方法

目前存在的大多數高效分類器都是針對平衡數據集的分類問題所提出,因而有許多不平衡數據集的研究者希望對數據進行預處理,使數據集達到平衡后再進行分類。其中,采樣是最為基礎的方法,主要包括欠采樣、過采樣與混合采樣。欠采樣通過減少多數類樣本的數量使其與少數類樣本達到平衡,過采樣則是增加少數類的樣本數量使數據平衡。對于不平衡數據集來說,采樣后再進行分類是可取的。但隨機欠采樣在減少多數類樣本數據、縮短訓練時長的同時很容易造成重要數據信息尤其是樣本空間分布信息的丟失(圖1),隨機過采樣則會在增加少數類樣本擴大樣本空間的同時導致過多冗余重疊數據信息的產生(圖2)。為了解決隨機采樣造成的上述問題,學者在研究中發現分類過程中距離邊界較遠的數據對于分類結果的影響不大。據此,Pujol[33]首次提出了特征邊界的概念,每個樣本點以自身為中心構造出超球面,超球面內的數據具有魯棒性,當兩個不同類別樣本的超球面發生接觸時,接觸的位置為二分邊界點,位于最佳非線性分類邊界上的二分邊界點即為特征邊界點。將分類的出發位置放在邊界數據上逐漸成為不平衡數據集分類研究的主流之一。

1)欠采樣分類方法 欠采樣作為非啟發式的學習方式,通過隨機地丟棄一些多數類的數據來建立分類器[34],可以很好地平衡多數類數據與少數類數據的數據量。但也正是由于其隨機的緣故,若不加以改進,可能會破壞數據的分布情況(圖1),從而造成數據空間分布信息的缺失。Yen等人[35,36] 對少數類樣本進行聚類并選取了代表性樣本作為訓練集,盡可能提取具有代表性的少數類樣本特征,減少特征損失,優化訓練效果,在提高識別少數類樣本的同時降低了錯誤率。 該方法的訓練集雖然通過聚類包含了更全面的特征,但樣本特征丟失的缺陷仍然無法避免。Ng等人[37]認為樣本的分布信息有助于選擇具有代表性的樣本,通過對少數類樣本進行聚類,選擇每類中的代表性樣本,計算樣本的靈敏度,然后根據靈敏度選擇k個少數類樣本和k個多數類樣本,并將這2k個樣本作為訓練集,以此保留更多的樣本信息。相關學者在邊界數據的基礎上提出了改進的欠采樣方法。文獻[38]在處理不平衡數據集時,先利用K近鄰算法刪除一定區域內的噪聲點并篩選出優質樣本點,后采用欠采樣的方法對邊界多數類樣本進行處理且在該過程中保留優質樣本,減少了樣本信息的流失。但該方法在篩選噪聲的過程中容易出現噪聲識別不精準、移除潛在有用信息的問題,對此,文獻[39]中采用鄰域密度對邊界多數類樣本進行了數據評估,并用選擇在數量上等同于少數類樣本的多數類樣本進行數據分類,有效地規避了這一問題。

2)過采樣分類方法 為了解決隨機過采樣造成的數據冗余問題,許多學者通過實驗將過采樣方法進行改進,并在實際場景中取得了成果。楊琳等人[40]提出將模糊理論與不平衡分類相結合,對邊界數據少數類樣本進行過采樣,并將邊界平衡數據集賦予概率索引表,提高了數據的分類性能。Zhu等人[41]提出了一種噪聲自適應合成過采樣的方法,利用信噪比來識別少數類樣本數據產生的新樣本,控制新樣本的質量。文獻[42]將分類邊界處的樣本數據看做易錯數據,過采樣后得到新的平衡數據集并用來訓練分類器,提高了分類性能。文獻[43]提出了一種特征選擇方法用于糖尿病患者的早期癥狀預測,基于健康模型來過采樣,以此平衡不平衡數據集,明顯提高了預測結果的質量。Li等人[12]為了提高機械的安全性,利用生成模型PGDAE創造額外的機械故障樣本數據并改進診斷模型,使用深層卷積神經網絡識別 ,融合兩者進行故障診斷預測。

除上述采樣改進外,研究人員還有針對性地提出了經典合成過采樣技術——SMOTE(synthetic minority oversampling technique,SMOTE)算法。SMOTE[18]采用最近鄰的方法預先設定采樣倍率k,隨機選擇少數類的近鄰樣本進行插值,產生少數類數據并添加到數據集中,對于隨機過采樣容易導致樣本過擬合的問題起到了一定的改善作用。文獻[44]把SMOTE技術應用到空氣污染參數數據處理,提高了整個檢測系統的性能。

算法1 SMOTE

輸入:少數類樣本數據集M={x1,x2,…,xi},過采樣倍率n,樣本近鄰數目k。

輸出:合成新少數類樣本集S。

for i=1,2,…,|M|;

計算xi的k個鄰近樣本并存入xik集合;

for i=1,2,…,n;

從xik中隨機選取樣本xij;

生成[0,1]的隨機數γ;

利用式(1)合成xij與xi間新樣本xnew的每個屬性值xnew,attr;

將xnew添加至集合S中;

end for

end for

SMOTE算法雖然在一定程度上緩解了樣本過擬合的問題,但其利用插值產生新樣本,注定了新樣本要受到插值輔助樣本的影響,這也導致了模糊分類邊界和樣本重疊等問題的出現。有學者在此基礎上提出了高斯SMOTE算法,利用最近鄰概念來平衡多數類與少數類樣本數據比例的改進過采樣。文獻[45]又在高斯SMOTE基礎上創新了距離度量技術——基于模糊的Levenshtein距離度量技術,并提出基于模糊高斯的過采樣算法,很好地平衡了兩類樣本數據的比例。

3)混合采樣分類方法 基于欠采樣與過采樣的方法都有不同的優缺點,為了進一步得到更好的分類效果,將過采樣與欠采樣結合成為了不平衡分類問題的新思路。文獻[46]提出利用K-outlier將數據分為邊界與非邊界兩種,并將非邊界樣本數據欠采樣,邊界樣本過采樣。實驗證明,分區域結合兩個基礎方法后,分類效果得到了可觀的提升。文獻[15]中將基尼增益寫入距離公式,改進了SMOTE算法,緩解了過采樣生成噪聲數據的問題,隨后利用特征加權的過采樣技術與數據清洗技術對樣本預處理,實驗證明在經過改進和處理后,算法識別效率得以改善。文獻[47]通過對CWRU軸承數據的特性進行研究實驗,提出了改進的支持向量機SMOTE算法,可實現在多數類與少數類重疊區域的樣本中刪除噪聲數據,有效提高了故障診斷的準確性。

基于采樣的不平衡數據集分類方法獨立于所使用的特定分類器,具有極好的適應性,但少數類樣本數量太少或幾乎沒有少數樣本的情況下并不適用,且當使用過采樣方法處理不平衡數據集時,如何選取恰當的采樣比率仍然是一個無法順利解決的問題。目前,大多數研究人員在處理不平衡數據集時是使用采樣方法直到各個類別的樣本量達到相同,但此方法并不適用于每個數據集,因為采樣比率不能只用不平衡比率來確定。在關注不平衡數據集數據量的同時,如何保持數據空間分布同樣是值得關注的研究問題。

1.2 基于機器學習的方法

現有的大多數分類算法在對不平衡數據集進行分類時,會偏向多數類數據,最具特點的例子是支持向量機,如圖3所示。

對不平衡數據集分類后,得到的超平面會側向少數類數據,導致部分少數類樣本被誤識別為多數類樣本,結果存在較大誤差。基于此,諸多學者結合不平衡數據集的特點對現有算法進行了改進創新。

1)基于聚類的不平衡分類算法 聚類算法可將空間中的相似樣本劃分成一類,由聚類所得到的簇是一組數據樣本的集合,位于同一個簇中的數據樣本彼此之間具有相似之處,簇中樣本與其他簇中樣本存在差異。先對數據集進行聚類,后根據聚類中心等具有代表性的樣本再對數據集進行采樣,可有效保證數據集的分布信息,減少冗余,如圖4所示。

根據聚類的這一特點,有不少學者將其應用到了數據預處理上。文獻[26]中分析了SMOTE與K-means算法的特點,將兩者結合,應用于不平衡數據集的分類。其主要思想是先使用K-means將樣本進行聚類,再根據聚類中心對每個簇中的數據進行插值。謝子鵬等人[48]在面對不平衡數據集分類時應用了改進的聚類技術,利用EM算法的思想來求解聚類中心,將聚類中心視為過采樣的樣本數據,只針對少數類樣本進行采樣,有效地規避了SMOTE算法在采樣時對數據分布無針對性的情況,且明確了30%的采樣率,保證樣本數據非盲目增多的同時解決了樣本空間分布的問題。文獻[1]對汽車零件質檢時,將原始數據集中的多數類樣本與少數類樣本數據分別進行密度聚類,并用多工序產生數據和類簇樣本分布進行過采樣權重計算,生成新少數類數據的同時剔除多數類冗余數據。文獻[49]提出使用K均值聚類處理數據與深度特征的視覺碼書生成算法和非線性CHI2SVM相結合,解決多類圖像數據出現的不平衡問題。文獻[50]把支持向量機作為預處理的步驟后,再用K近鄰算法對腦梗死數據進行分類,取得了高準確率。

2)基于神經網絡的不平衡分類算法 BP神經網絡利用誤差反向傳播進行訓練分類,在數據處理方面得到了廣泛應用。但從數學的角度來看,其利用梯度下降法對某一區域進行尋優,很容易導致局部最優問題的出現,且其網絡學習方式和推廣能力與樣本的選擇息息相關,而不平衡數據集本就存在著樣本量不均衡、數據冗余、分布復雜等特點,因此單純使用神經網絡并不能很好地對不平衡數據集進行分類[51]。

文獻[52]借用構造性神經網絡局部學習的思想,提出以鄰域感知為基礎的方法對過采樣過程進行約束,降低了噪聲樣本重疊的可能性。卷積神經網絡(convolutional neural network,CNN)作為多層感知機(MLP)的變種,所采用的局部連接和共享權值的方式使其在一方面減少了權值的數量,網絡易于優化,另一方面降低了過擬合的風險,基于此,卷積神經網絡同樣被廣泛應用于不平衡數據集的研究中。王德志等人[53]針對不平衡數據集的特點,設計出文本卷積神經網絡TextCNN應用于自然語言處理的不平衡分類中,同時加入動態調整的改進K-means聚類算法對數據預處理,有效提高了文本不平衡數據集分類的準確率與F值。文獻[54]中針對癲癇發作自動檢測技術需要應對發作時間短、數據量極大極不平衡的問題提出了一維卷積神經網絡(one-dimensional convolutional neural network,1D-CNN) ,其主要部分是卷積層,由許多通道組成,每一個通道中神經元的輸出就是對前一層卷積層的輸入信號或者特征映射與局部感受野的卷積核進行卷積運算的結果,這種信號分析方式可用來學習表征信息的層次結構,提高訓練效率與識別精度,有效地避免過擬合。文獻[44]為了解決肩袖撕裂的診斷精度,除了提出一種新興的卷積神經網絡,預先分段處理數據外,還構造了新型損失函數在迭代過程中進行優化,解決了數據的不平衡處理與識別。

3)其他方法 除上述算法之外,也有不少研究者從獨特的角度出發,提出了高效的不平衡分類算法。AUCPR可以全面測量各分類閾值下模型結果的查全率和精度,并能合理地反映模型在不平衡數據集上的性能。AUCPR的定義如下:

AUCPR=∫10 prdre(1)

其中:re表示召回率;pr表示精度。由于在一個確定的數據集中的樣本數量是有限的,所以式(2)可以用于近似計算AUCPR。

AUCPR≈∑ni=1Δrei,i+1·pri+1(2)

其中:n為樣本數;Δrei,i+1是相鄰閾值下的召回率之差。召回率和精度的定義如下:

recall=|Y∩P||Y|=TPTP+FN(3)

precision=|Y∩P||P|=TPTP+FP(4)

其中:Y為真值;P為預測值。然而在樣本數量有限的情況下,PR曲線可能存在嚴重抖動。文獻[55]為了提高模型識別少數類樣本數據的能力,使用邏輯函數平滑地近似AUCPR中的邏輯函數,得到具有連續梯度的AUCPR的近似表達式,定義為AUCCPR。邏輯函數如式(5)所示。

(x)=11+e-ε(x-σ)(5)

其中:ε是一個常數,用來控制邏輯函數的梯度;σ是分類閾值,當模型的預測概率值大于σ時,認為預測結果為正,否則為負。由于召回率和精度需要多次計算(等于樣本數)才能獲得AUCCPR,這將大大增加模型的訓練時間,所以采用設置固定數量的閾值s的方法來近似AUCCPR。改進后的CAUCPR中,σ與s之間的關系如式(6)所示。

σ={0,1s-1,2s-1,…,s-2s-1,1}(6)

用式(3)~(5)可以得到快速可微形式的AUCCPR:

AUCCPR=|y·(1+e-ε(p-σ1))-1||y|+τ×Q(|y·(1+e-ε(p-σ1))-1||p|+τ)+∑s-1i=1(|y·(1+e-ε(p-σi+1))-1||y|+τ-|y·(1+e-ε(p-σi))-1||y|+τ)×Q(|y·(1+e-ε(p-σi+1))-1||p|+τ)(7)

其中:y表示真值;p表示預測值;τ值小于1,防止分母為零;AUCCPR∈[0,1],因此,和諧損失可以定義為

L=1-AUCCPR(8)

文獻[56]針對醫學數據分類,指出傳統適應度計算過程中(式(1)),無論樣本是屬于少數類還是多數類,對所有的樣本均給予同等的重視。但由于多數類樣本量遠多于少數類,

F=TP+TNTP+TN+FP+FN(9)

式(9)適應度函數將傾向于多數類,這也直接導致分類器結果偏向于多數類?;诖?,提出一種新的適應度函數:

F=∑Nmajori=1|distmajori|22×Nmajor+∑Nminori=1|distminori|22×Nminor(10)

其中:Nmajor為訓練數據中多數樣本的總數;Nminor為訓練數據中少數樣本的總數;distmajori為第i個多數類樣本中預測值與實際值的距離;distminnori為第i個少數類樣本中預測值與實際值的距離。式(10)適應度函數有兩部分:a)迎合多數類的分類性能;b)滿足少數類的分類性能。換句話說,它對少數類訓練樣本的重要性與多數類訓練樣本相同。 這樣,新的適應度函數就解決了標準適應度函數比多數類更有優勢的問題。文獻[57]則受到優化算法PSO的啟發,改變PSO通常固有的種群規模,提出了可變種群規模粒子群算法,種群大小在迭代過程中不斷變化,選取每個類別中的訓練與測試樣本,提高了分類性能。文獻[58]根據人類不斷重復執行任務刷新記憶提出了排練策略,將一種偽排練策略與每個故障類型的獨立生成模型相結合,把不平衡數據用來增量學習。文獻[13]提出了一種能夠在高度不平衡的生產數據集中識別故障數據的指導性質量估計系統,同時改進LSTM模型,在質量估計系統中進行分批次均衡訓練,以保證高精度。

1.3 組合方法

組合學習是將幾個或多個基本分類器的分類結果按特定方式組合或集成,提高分類器的泛化性能,以獲得更優質的分類結果[59,60]。 針對不平衡數據集的分類時,基本思想是將標準的基礎分類算法與現有的不平衡數據分類方法相結合,本質上屬于一種混合的方法,最終目的均是為了滿足不平衡數據集分類問題的需要。文獻[32]使用了迭代更新權重的方法,提出了基于AdaBoost的集成加權寬度學習系統,樣本數據的權重在迭代過程中動態更新,最終得到更加符合數據特征的權重與強分類器,進一步提升模型對少數類樣本數據的識別性能。Pereira等人[61]將卷積神經網絡應用于竊電監測,采用了多種采樣集成算法,得出比普通處理下質量更高的結果。文獻[62]將過采樣技術與多種機器學習算法集成學習來檢測惡意JavaScript。文獻[63]把流形空間應用到不平衡數據集的集成分類,提出了基于流形簇的進化集成不平衡學習。原始數據映射到流形空間后,每個多數類樣本子簇在不同的分布中保留少部分樣本,將過采樣技術應用至少數類樣本中,并根據MECS改進全新的集成框架,得到MECS-Ensemble的最優結構。文獻[64]根據無監督學習將邊緣冗余樣本進行過濾,去除具有代表性的多數類樣本達到欠采樣的效果并提出多樣性增強過采樣方法,雙重結合平衡數據分布開發出了混合數據集成算法。文獻[65]構建多層次粒結構,提出了序貫三支決策的多粒度集成算法,序貫三支決策作為分類器,可通過計算樣本分類代價對樣本進行分類,將數據集動態劃分并重組訓練分類器,有效提升識別少數類樣本的能力。文獻[34]為了實現從多導睡眠圖記錄中自動檢測非睡眠覺醒區域,采用了多數據融合策略,實驗證明效果有明顯提升。文獻[10]試圖通過改進集合的范圍和深度,將基于聚類的欠采樣和梯度提升決策樹相結合,并將 XGBoost 作為異構分類器,采用五種基于不同理論背景的特征選擇方法進行特征選擇,經過實驗對比得到了性能極佳的異質集成財務危機預測模型。

雖然基于組合學習的不平衡數據集分類研究已經取得了一定的研究成果,但基本分類器集成算法的訓練過程更加復雜和耗時,且這種方法在處理較高維的數據集時存在一些局限性。 同時,如何選擇合適的基礎分類器和恰當的基礎分類器數目仍是使用組合方法來處理不平衡數據集分類問題的重難點。針對這個問題,若結合數據集的特點選擇不同類型的基礎分類器,并以分類性能為目的來優化各個基礎分類器的數量,可能會獲得更好的分類性能。

2 存在的主要問題和進一步研究方向

經過長期的發展,不平衡數據集的處理問題受到了多個領域的廣泛關注,并在大量的研究下取得了一系列的成果。 然而仍有一些具有挑戰性的問題需要從以下方面進行進一步的研究:

a)多特征不平衡數據分類問題?,F實情況中不平衡數據集往往伴隨著多特征的特性出現,如機械故障診斷、醫療疾病診斷。多特征數據集提高了描述準確性的同時也帶來了特征冗余與不相關等問題,隨之獲取有效信息的困難性增加,導致分類器精度低、算法運行時間長。降低多特征高維數不平衡數據,實現有效分類具有重要意義。

b)大規模不平衡數據分類問題。實驗中采用的分類器在處理數據時,一般都會人為地進行篩選和處理,進而得到合適的數據量。但在信息技術的發展過程中,數據在不斷增加,近年來更是呈現爆發式的增長。當實驗跳出理論層面到實際應用時,利用目前研究的方法處理大規模據,所面臨的計算復雜度與內存消耗非常大。隨著樣本數量以及不平衡比率的增加,實驗所需要的算法運行時間也隨之增加。 大規模數據處理過程中,由于執行時間過長導致的效率低下、數據量導致的計算量過大,都是不平衡數據集分類方法目前以及今后研究的難點所在。

c)缺少標簽樣本的不平衡數據分類問題。

目前的研究中,大多學者都是在監督學習下,利用已知且充足的標簽樣本數據訓練分類器,獲取分類邊界。但在現實分類問題中,標簽樣本數據是極其稀少的且不一定包含足夠的信息,大多數都為無標簽且不平衡的數據集。標簽樣本的獲取率低下導致分類模型的建立更加困難,實驗得到的分類性能也更低。如何將不平衡數據集中少量的標簽數據高效地利用并用于提高分類性能是處理不平衡數據集分類方法待解決的問題之一。

針對上述問題,可從以下方向展開進一步研究:

a)稀疏學習的多特征處理方法。目前多特征不平衡數據主要有特征提取、特征選擇[66,67]兩大類方法。兩者都是通過預處理的過程以減少屬性數量,因此預處理的多特征不平衡數據可以直接應用于現有的不平衡數據分類方法。但通常使用這些方法處理高維數據集時,往往會存在更改數據集內部的原始特征等問題,從而造成原始結構信息被忽略[68],這就會直接影響分類器的性能以及分類結果。稀疏表示與字典學習[46,69]能夠使大多數問題變為線性可分,是壓縮數據的好方法,稀疏理論的研究可為不平衡數據集的分類研究開辟新思路。

b)基于分布式處理的大規模不平衡數據集分類方法。大規模數據利用傳統分類方法分類時,其計算量大、耗時長等缺陷都使得大量的時間空間資源無法得到合理的利用而浪費,即便如此也不能夠完全滿足計算能力與時間需求。針對于此,除了將傳統分類算法進行改進以外,分布式計算可為此問題提供新的解決思路。分布式計算技術能夠實現協同工作,提高計算能力,將需要大量時間和高計算性能的問題分為多個部分處理,同時其并行化處理的特點也使得算法運行時間大大縮短。 分布式計算在近幾年的研究中逐漸走向成熟,以MapReduce[70,71]為代表的方法接連出現,使得該想法從理想到現實的跨越獲得了技術支持,也為不平衡數據集設計出高效的分類方法提供了重要思路。

c)半監督學習的不平衡數據集分類方法。在數據與處理方面,大多數算法工作時都需要以分類邊界樣本數據為輔助樣本,并根據其類別來生成新的樣本數據,但在標簽數據量較少的情況下,分類邊界模糊、難以確定的問題就無法避免。半監督學習[72]可以根據已知標簽的樣本數據學習并標記新樣本,利用自身學習從無標簽樣本數據中學習新的標簽樣本[73,74]。將半監督與監督學習相結合,可以在一定程度上緩解標簽數據極少而導致分類效果不佳的問題,但如何選取具有實驗價值的無標簽數據提升分類性能也是該方向的難點。

3 結束語

數據分類問題作為機器學習領域的重要研究內容,不平衡數據集的分類也隨著各個領域的發展越來越具有研究價值,近年來更是取得了一系列的研究成果。本文從采樣方法、基于機器學習的算法改進以及組合方法三個方面對現有的不平衡數據分類處理方法進行了梳理總結,結合當今機器學習發展的情況對不平衡數據集分類面臨的問題提出了相對應的研究思路。

參考文獻:

[1]李敏波,董偉偉.面向不平衡數據集的汽車零部件質量預測方法研究[J].中國機械工程,2022,33(1):88-96.(Li Minbo,Dong Weiwei.Research on quality prediction method of automative parts for unbalanced data set[J].China Mechanical Engineering,2022,33(1):88-96.)

[2]Zelenkov Y,Volodarskiy N.Bankruptcy prediction on the base of the unbalanced data using multi-objective selection of classifiers[J].Expert Systems with Applications,2021,185:115559.

[3]Du Hongle,Zhang Yan,Ke Gang.A selective ensemble learning algorithm for imbalanced dataset[J/OL].Journal of Ambient Intelligence and Humanized Computing.(2021).https://doi.org110.1007/s12652-021-03453-w.

[4]Murphy K P.Machine learning:a probabilistic perspective[J].Chance,2012,27(2):62-63.

[5]Jahmunah V,Ng E,San Tanru,et al.Automated detection of coronary artery disease,myocardial infarction and congestive heart failure using GaborCNN model with ECG signals[J].Computers in Biology and Medicine,2021,134:104457.

[6]Stefanowsk I J.Dealing with data difficulty factors while learning from imbalanced data[M].Berlin:Springer,2016:333-363.

[7]Liang Jinglun,Ye Guoliang,Guo Jianwen,et al.Reducing 1-positives in lung nodules detection using balanced datasets[J].Frontiers in Public Health,2021,9:671070.

[8]Bhattacharya S,Rajan V,Shrivastava H.ICU mortality prediction:a classification algorithm for imbalanced datasets[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.New York:ACM Press,2017:1288-1294.

[9]Novaes M T,Guimares F P H,Nunes T T L,et al.Prediction of secondary testosterone deficiency using machine learning:a comparative analysis of ensemble and base classifiers,probability calibration,and sampling strategies in a slightly imbalanced dataset[J].Informa-tics in Medicine Unlocked,2021,23:100538.

[10]Du Xudong,Li Wei,Ruan Sumei, et al.CUS-heterogeneous ensemble-based financial distress prediction for imbalanced dataset with ensemble feature selection[J].Applied Soft Computing,2020,97:106758.

[11]Sanz J A,Bernardo D,Herrera F,et al.A compact evolutionary interval-valued fuzzy rule-based classification system for the modeling and prediction of real-world financial applications with imbalanced data[J].Chemical Geology,2015,90(4):973-990.

[12]Li Xingqiu,Jiang Hongkai,Liu Shaowei,et al.A unified framework incorporating predictive generative denoising autoencoder and deep coral network for rolling bearing fault diagnosis with unbalanced data[J].Measurement,2021,178:109345.

[13]Ashiquzzaman A,Lee H,Um T W,et al.Deep learning-guided production quality estimation for virtual environment-based applications[J].Tehnicˇki Vjesnik,2020,27(6):1807-1814.

[14]Narasimhan D,Vanitha M.Ambient air quality assessment using ensemble techniques[J].Soft Computing,2021,25:9943-9956.

[15]董燕輝,肖軍弼,張紅霞,等.面向不平衡數據集的應用系統識別方法[J].計算機與現代化,2021(5):93-97,111.(Dong Yanhui,Xiao Junbi,Zhang Hongxia,et al.Application system identification method oriented to unbalanced datasets[J].Computer and Moder-nization,2021(5):93-97,111.)

[16]Zhong Weicai,Raahemi B,Liu Jing.Classifying peer-to-peer applications using imbalanced concept-adapting very fast decision tree on IP data stream[J].Peer-to-Peer Networking and Applications,2013,6(3):233-246.

[17]Fernandez M R,Lostado L R,Santos D A A,et al.Use of classification trees and rule-based models to optimize the funding assignment to research projects:a case study of UTPL[J].Journal of Informetrics,2021,15(1):101107.

[18]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.

[19]Rok B,Lara L.SMOTE for high-dimensional class-imbalanced data[J].BioMed Central,2013,14(1):106.

[20]Han Hui,Wan Wenyuan,Mao Binghua.Borderline-SMOTE:a new over-sampling method in imbalanced data sets learning[C]//Proc of International Conference on Advances in Intelligent Computing.Berlin:Springer,2005:878-887.

[21]楊智明,彭宇,彭喜元.基于支持向量機的不平衡數據集分類方法研究[J].儀器儀表學報,2009,30(5):1094-1099.(Yang Zhi-ming,Peng Yu,Peng Xiyuan.Research on classification technique for imbalanced dataset based on support vector machines[J].Chinese Journal of Scientific Instrument,2009,30(5):1094-1099.)

[22]Agustianto K,Destarianto P.Imbalance data handling using neighborhood cleaning rule (NCL) sampling method for precision student modeling[C]//Proc of International Conference on Computer Science,Information Technology,and Electrical Engineering.2019.

[23]Daniels Z A,Metaxas D N.Addressing imbalance in multi-label classification using structured Hellinger forests[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:1826-1832.

[24]Das B,Krishnan N C,Cook D J.RACOG and wRACOG:two probabilistic oversampling techniques[J].IEEE Trans on Knowledge and Data Engineering,2015,27(1):222-234.

[25]Batista G E A P A,Prati R C,Monard M C.A study of the behavior of several methods for balancing machine learning training data[J].ACM SIGKDD Explorations Newsletter,2004,6(1):20-29.

[26]陳斌,蘇一丹,黃山.基于KM-SMOTE和隨機森林的不平衡數據分類[J].計算機技術與發展,2015,25(9):17-21.(Chen Bin,Su Yidan,Huang Shan.Classification of imbalance data based on KM-SMOTE algorithm random forest[J].Computer Technology and Development,2015,25(9):17-21.)

[27]Lin Weichao,Tsai C F,Hu Yahan,et al.Clustering-based undersampling in class-imbalanced data[J].Information Sciences,2017,409-410:17-26.

[28]Zhang Zhongliang,Luo Xinggang,Garcia S,et al.Cost-sensitive back-propagation neural networks with binarization techniques in addressing multi-class problems and non-competent classifiers[J].Applied Soft Computing,2017,56:357-367.

[29]費洪磊,袁琦,鄭玉葉.基于深度學習的癲癇腦電不平衡分類方法[J].儀器儀表學報,2021,42(3):231-240.(Fei Honglei,Yuan Qi,Zheng Yuye.Imbalanced classification for epileptic EEG signals based on deep learning[J].Chinese Journal of Scientific Instrument,2021,42(3):231-240.)

[30]Liu Xuying,Wu Jianxin,Zhou Zhihua.Exploratory undersampling for class-imbalance learning[J].IEEE Trans on Systems,Man,and Cybernetics,Part B,Cybernetics:A Publication of the IEEE Systems,Man,and Cybernetics Society,2009,39(2):539-550.

[31]Jiang Na,Li Ning.A wind turbine frequent principal fault detection and localization approach with imbalanced data using an improved synthetic oversampling technique[J].International Journal of Electrical Power amp; Energy Systems,2021,126:106595.

[32]王萌鐸,續欣瑩,閻高偉,等.基于AdaBoost集成加權寬度學習系統的不平衡數據分類[J].計算機工程,2022,48(4):99-105,112.(Wang Mengduo,Xu Xinying,Yan Gaowei,et al.Ensemble weighted broad learning system with AdaBoost for imbalanced classification[J].Computer Engineering,2022,48(4):99-105,112.)

[33]Pujol O,Masip D.Geometry-based ensembles:toward a structural characterization of the classification boundary[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2009,31(6):1140-146.

[34]Prusa J,Khoshgoftaar T M,Dittman D J,et al.Using random under-sampling to alleviate class imbalance on tweet sentiment data[C]//Proc of IEEE International Conference on Information Reuse and Integration.Piscataway,NJ:IEEE Press,2015:197-202.

[35]Yen S,Lee Y.Cluster based under-sampling approaches for imba-lanced data distributions[J].Expert Systems with Applications,2009,36(3):5718-5727.

[36]Yen S J,Lee Y S.Under-sampling approaches for improving prediction of the minority class in an imbalanced dataset[J].Lecture Notes in Control and Information Sciences,2006,344(2):731-740.

[37]Ng W W,Hu Junjie,Yeung D S,et al.Diversified sensitivity based under-sampling for imbalance classification problems[J].IEEE Trans on Cybernetics,2017,45(11):2402-2412.

[38]孟東霞,李玉鑑.基于特征邊界欠采樣的不平衡數據處理方法[J].統計與決策,2021,37(11):30-33.(Meng Dongxia,Li Yujian.Unbalanced data processing method based on feature boundary undersampling[J].Statistics Decision,2021,37(11):30-33.)

[39]Liu Yueting.Imbalanced dataset classification algorithm based on NDSVM[J].Journal of Physics:Conference Series,2021,1871(1):012153.

[40]楊琳,徐慧英,馬文龍.基于邊界條件GAN的不平衡大數據模糊分類[J].西南師范大學學報:自然科學版,2021,46(7):97-102.(Yang Lin,Xu Huiying,Ma Wenlong.Fuzzy classification of unba-lanced big data based on boundary condition GAN[J].Journal of Southwest China Normal University,Natural Science Edition,2021,46(7):97-102.)

[41]Zhu Zhengyi,Satten G A,Mitchell C,et al.Constraining PERMANOVA and LDM to within-set comparisons by projection improves the efficiency of analyses of matched sets of microbiome data[J].Microbiome,2021,9(1):133-133.

[42]Luo Zhengbo,Hamd P,Harish G,et al.Dealing with imbalanced dataset leveraging boundary samples discovered by support vector data description[J].Computers,Materials,Continua,2021,66(3):2691-2708.

[43]Amit K,Chinmay C.Early and accurate prediction of diabetics based on FCBF feature selection and SMOTE[J/OL].International Journal of System Assurance Engineering and Management.(2021).https://doi.org/10.1007/s13198-021-01174-z.

[44]Lee K,Kim J Y,Lee M H,et al.Imbalanced loss-integrated deep-learning-based ultrasound image analysis for diagnosis of rotator-cuff tear[J].Sensors:Basel,2021,21(6):2214.

[45]Putta H,Geetha M A.FG-SMOTE:fuzzy-based Gaussian synthetic minority oversampling with deep belief networks classifier for skewed class distribution[J].International Journal of Intelligent Computing and Cybernetics,2021,14(2):270-287.

[46]Li Xing,Zhang Lei.Unbalanced data processing using deep sparse learning technique[J].Future Generation Computer Systems,2021,125:480-484.

[47]Han Minghong,Wu Yaman,Huang Yunfeng,et al.A fault diagnosis method based on improved synthetic minority oversampling technique and SVM for unbalanced data[J].IOP Conference Series:Materials Science and Engineering,2021,1043(5):052034.

[48]謝子鵬,包崇明,周麗華,等.類不平衡數據的EM聚類過采樣算法[J/OL].計算機科學與探索.(2021-10-09).http://kns.cnki.net/kcms/detail/11.5602.TP.20210525.1637.008.html.(Xie Zipeng,Bao Chongming,Zhou Lihua,et al.EM clustering oversampling algorithm for class imbalanced data[J/OL].Journal of Frontiers of Computer Science and Technology.(2021-10-09).http://kns.cnki.net/kcms/detail/11.5602.TP.20210525.1637.008.html.)

[49]Manisha S,Seba S.Bag-of-visual-words codebook generation using deep features for effective classification of imbalanced multi-class image datasets[J].Multimedia Tools and Applications,2021,80:20821-20847.

[50]Sari A G M,Putri A M,Rustam Z,et al.Preprocessing unbalanced data using support vector machine with method K-nearest neighbors for cerebral infarction classification[J].Journal of Physics:Confe-rence Series,2021,1752(1):012037.

[51]羅予東,陸璐.基于人工神經網絡和遺傳算法的網絡攻擊檢測[J].計算機工程與設計,2021,42(9):2446-2454.(Luo Yudong,Lu Lu.Network attack detection based on artificial neural networks and genetic algorithm[J].Computer Engineering and Design,2021,42(9):2446-2454.)

[52]嚴遠亭,戴濤,張以文,等.鄰域感知的不平衡數據集過采樣方法[J].小型微型計算機系統,2021,42(7):1360-1370.(Yan Yuanting,Dai Tao,Zhang Yiwen,et al.Neighborhood-aware imba-lanced oversampling[J].Journal of Chinese Computer Systems,2021,42(7):1360-1370.)

[53]王德志,梁俊艷.不平衡數據集文本多分類深度學習算法[J].計算機工程與設計,2021,42(9):2501-2508.(Wang Dezhi,Liang Junyan.Text multi-classification deep learning algorithm based on unbalanced data set[J].Computer Engineering and Design,2021,42(9):2501-2508.

[54]費洪磊,袁琦,鄭玉葉.基于深度學習的癲癇腦電不平衡分類方法[J].儀器儀表學報,2021,42(3):231-240.(Fei Honglei,Yuan Qi,Zheng Yuye.Imbalanced classification for epileptic EEG signals based on deep learning[J].Chinese Journal of Scientific Instrument,2021,42(3):231-240.)

[55] Fu Yu,Xue Peng,Ren Meirong,et al.Harmony loss for unbalanced prediction[J].IEEE Journal of Biomedical and Health Informa-tics,2021,38(5):1-12.

[56]Kumar A,Sinha N,Bhardwaj A.A novel fitness function in genetic programming for medical data classification[J].Journal of Biome-dical Informatics,2020,112:103623.

[57]Rangasamy D P,Rajappan S,Natarajan A,et al.Variable population-sized particle swarm optimization for highly imbalanced dataset classification[J].Computational Intelligence,2021,37(2):913-930.

[58]Lee S,Chang K,Baek J G.Incremental learning using generative-rehearsal strategy for fault detection and classification[J].Expert Systems with Applications,2021,184:115447.

[59]Domingos P.MetaCost:a general method for making classifiers cost-sensitive[C]//Proc of the 5th ACM SIGKDD International Confe-rence on Knowledge Discovery and Data Mining.New York:ACM Press,1999:155-164.

[60]Zhong Bin,Sun Qinbao,Zhu Xiaoyan,et al.A novel ensemble method for classifying imbalanced data[J].Pattern Recognition,2015,48(5):1623-1637.

[61]Pereira J,Saraiva F.Convolutional neural network applied to detect electricity theft:a comparative study on unbalanced data handling techniques[J].International Journal of Electrical Power and Energy Systems,2021,131(9):107085.

[62]Phung N M,Mimura M.Detection of malicious JavaScript on an imba-lanced dataset[J].Internet of Things,2021,13(1):100357.

[63]Guo Yinan,Feng Jiawei,Jiao Botao,et al.Manifold cluster-based evolutionary ensemble imbalance learning[J].Computers amp; Industrial Engineering,2021,159:107523.

[64]Zhi Chen,Jiang Duan,Li Kang,et al.A hybrid data-level ensemble to enable learning from highly imbalanced dataset[J].Information Sciences,2020,554:157-176.

[65]陳麗芳,代琪,趙佳亮.不平衡數據多粒度集成分類算法研究[J].計算機工程與科學,2021,43(5):917-925.(Chen Lifang,Dai Qi,Zhao Jialiang.A multi-granularity ensemble classification algorithm for imbalanced data[J].Computer Engineering amp; Science,2021,43(5):917-925.)

[66]Hou Xiaodan,Zhang Tao,Ji Lei,et al.Combating highly imbalanced steganalysis with small training samples using feature selection[J].Journal of Visual Communication and Image Representation,2017,49:243-256.

[67]Yin Liuzhi,Ge Yong,Xiao Keli,et al.Feature selection for high-dimensional imbalanced data[J].Neurocomputing,2013,105:3-11.

[68]Wang Feng,Xu Tianhua,Tang Tao,et al.Bilevel feature extraction-based text mining for fault diagnosis of railway systems[J].IEEE Trans on Intelligent Transportation Systems,2016,18(1):49-58.

[69]Wang Shuangxi,Ge Hongwei,Yang Jinlong,et al.Virtual samples based robust block-diagonal dictionary learning for face recognition[J].Intelligent Data Analysis,2021,25(5):1273-1290.

[70]Mao Yimin,Gan Dejin,Mwakapesa D S,et al.A MapReduce-based K-means clustering algorithm[J].The Journal of Supercomputing,2022,78:5181-5202.

[71]Hu Jinping,Cheng Qian,Wen Zhicheng.A massive images classification method based on MapReduce parallel fuzzy C-means clustering[J].Journal of Computational Methods in Sciences and Engineering,2021,21(4):999-1011.

[72]Chen Shaozhi,Yang Rui,Zhong Maiying.Graph-based semi-supervised random forest for rotating machinery gearbox fault diagnosis[J].Control Engineering Practice,2021,117:104952.

[73]Herndon N,Caragea D.A study of domain adaptation classifiers derived from logistic regression for the task of splice site prediction[J].IEEE Trans on Nanobioscience,2016,15(2):75-83.

[74]Zhang Qin,Sun Jianyuan,Zhong Guoqiang,et al.Random multi-graphs:a semi-supervised learning framework for classification of high dimensional data[J].Image and Vision Computing,2016,60:30-37.

[75]Krawczyk B.Learning from imbalanced data:open challenges and future directions[J].Progress in Artificial Intelligence,2016,5(4):221-232.

主站蜘蛛池模板: 国产97视频在线| 又粗又硬又大又爽免费视频播放| 伊人大杳蕉中文无码| 亚洲熟女偷拍| 青青草原国产免费av观看| 一区二区三区成人| 激情视频综合网| 欧美成人亚洲综合精品欧美激情| 精品一区二区三区中文字幕| 国产美女视频黄a视频全免费网站| 欧美亚洲第一页| www.亚洲天堂| 波多野结衣亚洲一区| 在线视频一区二区三区不卡| a色毛片免费视频| 四虎永久免费网站| 欧美一区日韩一区中文字幕页| 在线观看精品自拍视频| 亚洲综合片| 久久精品人人做人人综合试看| 丰满人妻久久中文字幕| 日本精品视频一区二区| 久久久久免费精品国产| 精品国产成人国产在线| 操操操综合网| 无码内射中文字幕岛国片| 亚洲天堂免费观看| 国产成人福利在线| 欧美日韩亚洲综合在线观看| 老司机精品99在线播放| 免费人成网站在线高清| 亚洲免费黄色网| 国产嫖妓91东北老熟女久久一| 欧美在线一二区| 国产成人精品视频一区二区电影| 成人自拍视频在线观看| 国产精品无码一区二区桃花视频| 亚洲精品视频免费观看| 性欧美在线| 玖玖免费视频在线观看 | 成人午夜福利视频| 国产午夜在线观看视频| 亚洲国产日韩在线成人蜜芽| 欧美国产日韩一区二区三区精品影视| 久久婷婷六月| 666精品国产精品亚洲| 久久精品最新免费国产成人| 国产凹凸视频在线观看 | 亚洲 欧美 中文 AⅤ在线视频| 99精品国产电影| 精品免费在线视频| 国产精品女熟高潮视频| 女同久久精品国产99国| 天天综合色天天综合网| 三上悠亚在线精品二区| 中国特黄美女一级视频| 国产一级在线观看www色| 精品国产网| 日韩黄色在线| 国产激情无码一区二区APP| 国产成人亚洲无码淙合青草| 日韩无码视频网站| 亚洲欧美不卡| 亚洲天堂日本| 日韩 欧美 小说 综合网 另类| 亚洲一级色| 国产欧美日韩视频怡春院| 日韩国产黄色网站| 91国内在线视频| 国产欧美日韩另类精彩视频| 欧美成人a∨视频免费观看 | 免费午夜无码18禁无码影院| 国产精品手机在线播放| 国产一区二区色淫影院| 国产一二视频| 日本妇乱子伦视频| 日韩欧美国产精品| 国产综合亚洲欧洲区精品无码| 亚洲日韩每日更新| 女人18毛片一级毛片在线 | 亚洲男人天堂2020| 亚洲香蕉久久|