999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于邊界混合采樣策略的數(shù)據(jù)均衡方法研究

2025-07-17 00:00:00李梓露宋浩
電腦知識與技術(shù) 2025年16期
關(guān)鍵詞:機器學(xué)習(xí)

摘要:針對類不平衡的分類問題,提出了一種新型的數(shù)據(jù)均衡方法。傳統(tǒng)Borderline SMOTE(Borderline Synthetic Minority Oversampling Technique) 方法通過增強邊界少數(shù)樣本的表示能力以平衡樣本空間。但當(dāng)邊緣區(qū)域噪聲較多時,該方法往往無法有效明晰決策邊界;即便加入欠采樣,也難以準(zhǔn)確控制樣本剔除數(shù)量。針對該問題,該研究創(chuàng)新性地在 Borderline SMOTE方法中引入基于邊界的欠采樣機制。該機制分析鄰近樣本的類別分布來識別邊界區(qū)域,對少數(shù)類邊界樣本進(jìn)行 SMOTE 過采樣后,再對邊緣區(qū)域的多數(shù)類樣本實施精準(zhǔn)欠采樣。實驗表明,該策略有效提升了分類器的決策邊界清晰度,并增強了模型在噪聲環(huán)境下的魯棒性。

關(guān)鍵詞:數(shù)據(jù)均衡;機器學(xué)習(xí);類不平衡問題

中圖分類號:TP391" "文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2025)16-0005-05

開放科學(xué)(資源服務(wù)) 標(biāo)識碼(OSID)

0 引言

數(shù)據(jù)不均衡問題一直是機器學(xué)習(xí)分類任務(wù)中的主要挑戰(zhàn)之一,尤其是在醫(yī)療、金融和工業(yè)等領(lǐng)域。在醫(yī)學(xué)影像分析中,這種偏差可能會導(dǎo)致病灶漏檢,直接影響臨床診斷效果[1];在金融風(fēng)控領(lǐng)域的欺詐檢測場景中,分類器可能因過度關(guān)注正常交易樣本而忽視少數(shù)類欺詐樣本,導(dǎo)致欺詐行為漏報,給金融機構(gòu)帶來重大經(jīng)濟(jì)損失[2];在工業(yè)質(zhì)檢的產(chǎn)品缺陷識別任務(wù)中,分類器可能因多數(shù)類的正常樣本的主導(dǎo)地位而降低對少數(shù)類缺陷樣本的識別準(zhǔn)確率,造成次品流入市場,影響產(chǎn)品質(zhì)量[3]。

數(shù)據(jù)不均衡問題的特點是多數(shù)類(負(fù)類) 的樣本數(shù)量往往超過少數(shù)類(正類) ,導(dǎo)致多數(shù)類在整個數(shù)據(jù)集空間上占有更重要的地位。當(dāng)分類器應(yīng)用于不平衡數(shù)據(jù)時,通常會偏向多數(shù)類樣本。這是因為傳統(tǒng)的分類器優(yōu)化目標(biāo)是最小化總體誤差,為了達(dá)到這一目標(biāo),分類器往往會忽略少數(shù)類的準(zhǔn)確性,從而導(dǎo)致少數(shù)類的預(yù)測效果較差[4]。

常見的數(shù)據(jù)均衡策略主要有兩類。第一類是基于數(shù)據(jù)層面的重采樣方法,通過調(diào)整樣本分布來緩解類別不平衡問題,具體包括:過采樣技術(shù)、欠采樣技術(shù)以及混合采樣。這類方法的優(yōu)勢在于算法通用性強、實現(xiàn)成本低,但可能會引入噪聲樣本或損失有效信息。第二類是基于算法層面的代價敏感學(xué)習(xí)。通過構(gòu)建代價敏感矩陣,考慮不同類樣本被錯誤分類的相對代價,通過最小化誤分類成本達(dá)到算法優(yōu)化的目的,賦予不同類別樣本差異化的誤分類懲罰權(quán)重。雖然理論上能更精準(zhǔn)地平衡分類偏好,但在實際應(yīng)用中常面臨代價矩陣難以量化、超參數(shù)敏感等問題,導(dǎo)致其應(yīng)用范圍受限[5]。

因此,本研究主要采用數(shù)據(jù)采樣方法,通過改進(jìn)均衡策略在支持向量機(Support Vector Machine,SVM) 分類中的應(yīng)用來驗證方法有效性。

1 數(shù)據(jù)和方法

1.1 數(shù)據(jù)描述

本研究使用的 5 組公共數(shù)據(jù)集是從 Kaggle、ADNI 和 UCI 數(shù)據(jù)庫中選擇的,這些數(shù)據(jù)的類別不平衡比(Imbalance Ratio,IR) 為 1.87~14.3,涵蓋低、中、高三種范圍的不平衡情況[6]。表 1為 5 組數(shù)據(jù)集的具體信息,包括樣本個數(shù)、特征個數(shù)和 IR 值。

1.2 數(shù)據(jù)均衡技術(shù)介紹

1.2.1 隨機過采樣和欠采樣

隨機過采樣是通過隨機復(fù)制少數(shù)類樣本來平衡數(shù)據(jù)空間中各類樣本的數(shù)量。該方法簡單易實現(xiàn),但存在明顯缺陷:首先,數(shù)據(jù)集中出現(xiàn)的重復(fù)樣本會增加模型計算的復(fù)雜程度;其次,過度復(fù)制可能導(dǎo)致模型過擬合,降低泛化能力。Fernández等[7]在 UCI 數(shù)據(jù)集上進(jìn)行測試,實驗表明,隨機過采樣雖然能夠提升少數(shù)類的召回率,但準(zhǔn)確率卻顯著下降。

隨機欠采樣通過隨機刪除多數(shù)類樣本來平衡樣本分布。該方法雖然能緩解類不平衡問題,但會損失有價值的信息,導(dǎo)致模型出現(xiàn)計算偏差。Krawczyk等[8]的研究表明,在高維數(shù)據(jù)集中,隨機欠采樣可能會破壞數(shù)據(jù)的原始分布特征,影響分類性能。

1.2.2 過采樣改進(jìn)方法

為了克服過采樣的不足,研究者提出了多種改進(jìn)方法。

1) SMOTE 方法。通過引入“邊界”信息以避免在密集區(qū)域過度采樣。該方法在少數(shù)類樣本間進(jìn)行線性插值生成新樣本,避免了簡單復(fù)制帶來的過擬合問題。然而,SMOTE 在處理高維數(shù)據(jù)時容易產(chǎn)生噪聲樣本,導(dǎo)致分類性能下降[9]。

2) Borderline SMOTE 方法。通過引入分類器來動態(tài)調(diào)整生成區(qū)域。該方法聚焦于邊界樣本的生成,通過識別“危險”樣本區(qū)域進(jìn)行針對性過采樣。但該方法對噪聲敏感,Zhang等[10]在 UCI 數(shù)據(jù)集上的實驗表明,Borderline SMOTE 在噪聲較多的數(shù)據(jù)集中效果較差。

3) ADASYN 方法。結(jié)合降噪或正則化技術(shù),優(yōu)化生成樣本的質(zhì)量。該方法根據(jù)樣本分布密度自適應(yīng)生成新樣本,在少數(shù)類樣本稀疏區(qū)域生成更多樣本。He等[11]通過在多個不平衡數(shù)據(jù)集上進(jìn)行實驗,發(fā)現(xiàn) ADASYN 在處理稀疏區(qū)域樣本時表現(xiàn)優(yōu)異,但對噪聲樣本的魯棒性較差。

這些改進(jìn)方法主要通過優(yōu)化少數(shù)類樣本在局部或全局范圍內(nèi)的生成來提升過采樣效果。但這些方法存在一個共性問題:無法有效避免噪聲樣本的生成,尤其是 Borderline SMOTE 方法。在高維數(shù)據(jù)中,邊界識別困難導(dǎo)致生成的新樣本可能偏離真實分布。同時,Borderline SMOTE 生成的樣本往往過度集中于邊界區(qū)域,這會進(jìn)一步加劇決策邊界的模糊性,影響分類器的性能。因此,如何從全局視角優(yōu)化邊界區(qū)域的樣本分布,以提升決策邊界的清晰度,成為一個亟待解決的關(guān)鍵問題。

1.2.3 欠采樣改進(jìn)方法

針對欠采樣中的信息丟失問題,研究者們提出了基于集成學(xué)習(xí)機制的改進(jìn)方法EasyEnsemble。該方法通過隨機劃分多數(shù)類樣本并與少數(shù)類樣本組合,生成多個平衡的子集,每個子集單獨訓(xùn)練一個基分類器,最終通過集成學(xué)習(xí)整合所有基分類器的預(yù)測結(jié)果。由于每個子集都包含不同的多數(shù)類樣本組合,EasyEnsemble在減少多數(shù)類樣本的同時,保留了其多樣性,從而緩解了欠采樣導(dǎo)致的信息丟失問題。

此外,研究者還提出了數(shù)據(jù)清洗技術(shù),即通過某種規(guī)則清洗重疊數(shù)據(jù),從而達(dá)到欠采樣的目的。以下為兩種典型方法。

1) Tomek Links方法。Tomek Links是指一對互為最近鄰且類別不同的樣本。這類樣本對通常位于類別邊界區(qū)域或包含噪聲樣本。優(yōu)先保留Tomek Links中邊界清晰的樣本,從而提升分類器的性能。

2) ENN(Edited nearest neighbours) 方法。ENN方法通過刪除多數(shù)類樣本中那些在其[k]個近鄰中一半以上樣本與其標(biāo)簽不同的樣本,達(dá)到去除噪聲和欠采樣的目的。

盡管數(shù)據(jù)清洗技術(shù)能夠有效減少噪聲和重疊樣本,但其最大的局限性在于難以控制欠采樣的數(shù)量。由于多數(shù)類樣本的近鄰大多屬于同一類別,能夠剔除的樣本數(shù)量有限,導(dǎo)致欠采樣效果不夠顯著。

1.2.4 混合采樣

混合采樣是一種綜合過采樣和欠采樣的組合方法,旨在結(jié)合各自的優(yōu)勢,避免單一方法可能帶來的缺陷。常見的混合采樣組合包括SMOTE+Tomek Links與SMOTE+ENN。SMOTE+Tomek Links在生成少數(shù)類樣本后,利用Tomek Links移除類邊界附近的噪聲樣本,適用于邊界不清晰的數(shù)據(jù)集。SMOTE+ENN則在生成樣本后,使用ENN刪除分類錯誤的樣本,適用于噪聲較多或類別重疊較為嚴(yán)重的數(shù)據(jù)集。

1.3 模型的構(gòu)建與實驗設(shè)計

1.3.1 模型構(gòu)建

為解決分類問題中數(shù)據(jù)不均衡的問題,本研究提出了一種基于邊界的混合采樣方法(Borderline SMOTE and Borderline Undersampling,BSMOTE_BU) 。該方法在Borderline SMOTE的基礎(chǔ)上加入了一種基于邊界的欠采樣技術(shù),旨在增強邊界處少數(shù)樣本的表達(dá)能力,同時減少樣本重疊的可能性。

該方法首先進(jìn)行SMOTE過采樣:將少數(shù)類樣本劃分為三類區(qū)域,分別為Safe區(qū)域(最近鄰中多數(shù)類樣本數(shù)占比低于50%) 、Danger區(qū)域(最近鄰中多數(shù)類樣本超過一半) 和Noise區(qū)域(最近鄰中全為多數(shù)類樣本) 。針對Danger區(qū)域的少數(shù)類樣本,從其近鄰中隨機選擇一個少數(shù)類樣本進(jìn)行線性插值,從而生成新樣本,實現(xiàn)過采樣操作。接著進(jìn)行邊界欠采樣:對每個多數(shù)類樣本計算最近鄰,同理,根據(jù)少數(shù)類樣本在最近鄰中的比例劃分多數(shù)類樣本的三類區(qū)域。僅對屬于Danger區(qū)域的多數(shù)類樣本進(jìn)行欠采樣。通過移除邊界附近的多數(shù)類樣本,減少多數(shù)類樣本對分類邊界的干擾,從而緩解樣本重疊問題。

BSMOTE_BU算法的混合采樣過程可用步驟1~6表示:

步驟1:設(shè)原始數(shù)據(jù)集為[D],其中:少數(shù)類樣本子集為[Dmin={x1,x2,...,xNmin}],樣本數(shù)量為[Nmin];多數(shù)類樣本子集為[Dmaj={y1,y2,...,yNmaj}],樣本數(shù)量為[Nmaj]。對于任意一個樣本點計算其[k]個鄰居,則少數(shù)類樣本[xi∈Dmin]和多數(shù)類樣本[yj∈Dmaj]的[k]個鄰居分別為[N(xi)]、[N(yj)]:

[N(xi)=argminxs∈D{d(xi,xs)},s=1,2,...,k]" " " "(1)

[N(yj)=argminyt∈D{d(yj,yt)},t=1,2,...,k]" " (2)

式中:[d(p,q)]表示計算[p]點和[q]點間的歐氏距離。

步驟2:識別屬于Danger區(qū)域的少數(shù)類樣本。每個少數(shù)類樣本其[k]個鄰居[N(xi)]中多數(shù)類樣本的比例為[R(xi)],邊界少數(shù)類樣本集合為[Dangermin]:

[R(xi)=|{yj∈N(xi)|yj∈Dmaj}|k]" " " " " (3)

[Dangermin={xi∈Dmin|R(xi)gt;0.5}]" " " " " " (4)

步驟3:生成少數(shù)類樣本。對屬于Danger區(qū)域的每個少數(shù)類樣本點[xi],從其[k]個鄰居中隨機選擇一個少數(shù)類樣本[xs],生成新樣本[xnew]:

[xnew=xi+λ?(xj-xi),xi∈Dangermin,λ∈[0,1]]" "(5)

步驟4:識別屬于Danger區(qū)域的多數(shù)類樣本。每個多數(shù)類樣本其[k]個鄰居[N(yj)]中少數(shù)類樣本的比例為[R(yj)],邊界多數(shù)類樣本集合為[Dangermaj]:

[R(yj)=|{xi∈N(yj)|xi∈Dmin}|k]" " " " " (6)

[Dangermaj={yj∈Dmaj|R(yj)gt;0.5}]" " " " " "(7)

步驟5:移除邊界多數(shù)類樣本,多數(shù)類樣本的新集合為[Dnewmaj]:

[Dnewmaj=Dmaj-Dangermaj]" " " " " "(8)

步驟6:合并新的分類數(shù)據(jù)集[Dnew]:

[Dnew=(Dmin+xnew)+Dnewmaj]" " " " " (9)

1.3.2 模型訓(xùn)練與驗證

本研究使用Borderline SMOTE、ADASYN、EasyEnsemble、Tomek Links、SMOTE+Tomek Links、SMOTE+ENN以及BSMOTE_BU等7種方法對5組數(shù)據(jù)集分別進(jìn)行采樣操作,然后再使用支持向量機作為分類器,驗證模型在不同方法下得到的均衡數(shù)據(jù)集上的表現(xiàn)。

為確保模型的穩(wěn)定性及避免過擬合風(fēng)險,采取十折交叉驗證方法進(jìn)行模型訓(xùn)練。具體來說,將數(shù)據(jù)集[D]隨機劃分為10個大小相等的子集,記為[D1,D2,...,D10],進(jìn)行10次迭代。每次迭代使用其中9個子集作為訓(xùn)練集,剩下一個子集作為測試集,并記錄測試集上的模型性能(評價指標(biāo)得分) 。完成迭代后,將所有測試集上的評估指標(biāo)取均值,作為模型的最終性能指標(biāo)。

在使用SVM進(jìn)行分類任務(wù)時,徑向基函數(shù)(Radial Basis Function,RBF) 是一種常用的核函數(shù)。一般而言,對于復(fù)雜的分類問題,線性核可能無法有效分離數(shù)據(jù),而RBF核能夠通過非線性映射找到更好的分類邊界。對于不平衡數(shù)據(jù),RBF核也可以通過調(diào)整超參數(shù)、調(diào)整類別權(quán)重等方式,有效改善少數(shù)類的分類性能。因此,本研究使用RBF核作為SVM分類器的核函數(shù)。

1.3.3 模型性能評估

1) 曲線下面積(Area under curve,AUC) :用于衡量分類器在不同閾值下對正負(fù)樣本的區(qū)分能力。AUC的取值范圍為[[0,1]]:當(dāng)[AUC=0.5]時,分類器的性能等同于隨機猜測;當(dāng)[AUC=1]時,分類器能夠完美區(qū)分正負(fù)樣本;當(dāng)[0.5lt;AUClt;1]時,AUC值越接近1,分類器的性能越好。數(shù)學(xué)表達(dá)式如下:

[AUC=01TPR(FPR)d(FPR)] (10)

式中:[TPR=TPTP+FN],[FPR=FPFP+TN];TPR為真正例率,F(xiàn)PR為假正例率,TP為真正例,F(xiàn)P為假正例,TN為真負(fù)例,F(xiàn)N為假負(fù)例。

2) 幾何平均(Geometric mean,G-Means) :是真正例率(TPR) 和真負(fù)例率(TNR) 的集合平均值,用于衡量分類器在正負(fù)樣本上的綜合性能。G-Means的取值范圍為[[0,1]]:當(dāng)[G-Means=0]時,分類器完全無法正確區(qū)分正樣本或負(fù)樣本;當(dāng)[G-Means=1]時,分類器能夠完美區(qū)分所有正樣本和負(fù)樣本;當(dāng)[0lt;G-Meanslt;1]時,G-Means值越接近1,分類器在正負(fù)樣本上的性能越平衡。數(shù)學(xué)表達(dá)式如下:

[G-Means=TPR×TNR] (11)

式中:[TNR=TNTN+FP]。

2 實驗結(jié)果與分析

2.1 模型性能

本研究使用SVM模型對5組原始(Original) 和均衡后的數(shù)據(jù)集進(jìn)行分類,結(jié)果顯示BSMOTE_BU方法在各數(shù)據(jù)集上均表現(xiàn)出顯著優(yōu)勢,如圖1與表2所示。具體而言,BSMOTE_BU方法在PIMA、Wine Quality、Credit Card、ADNI和Yeast數(shù)據(jù)集上的AUC值分別為0.918、0.811、0.891、0.986和0.968,均高于其他對比方法。

此外,BSMOTE_BU的G-Means值在各個數(shù)據(jù)集中均為最高,分別達(dá)到了0.842(PIMA) 、0.735(Wine Quality) 、0.700(Credit Card) 、0.967(ADNI) 和0.893(Yeast) ,進(jìn)一步證明了該方法在多數(shù)類和少數(shù)類樣本上的平衡分類能力。

如圖2所示,各均衡方法下,5組數(shù)據(jù)集相對于未實施均衡方法(Original) 前的性能提升效果。結(jié)果表明,使用均衡方法后,每個數(shù)據(jù)集的分類效果都有所提升。特別是Credit Card數(shù)據(jù)集,均衡前AUC小于0,G-Means為0,分類器無法對不同類別進(jìn)行識別;而均衡后,除了Tomek Link方法外,其余方法的識別效果均大幅度提升,AUC提升范圍達(dá)到18.0%~41.9%,G-Means最高可達(dá)70.0%。此外,在所有的均衡方法中,BSMOTE_BU方法性能提升最高,其次是EasyEnsemble方法。Borderline SMOTE、SMOTE+Tomek Links、SMOTE+ENN和ADASYN四種方法的性能提升相對接近,而Tomek Links方法表現(xiàn)最差。

將5類數(shù)據(jù)集按照IR值分別劃分為低、中、高不平衡數(shù)據(jù)集,對比BSMOTE_BU方法和次優(yōu)EasyEnsemble方法在不同IR下對分類性能的提升效果:

1) 低不平衡率數(shù)據(jù)集(PIMA和Wine Quality) 。BSMOTE_BU方法在兩個數(shù)據(jù)集上的AUC分別為0.918和0.811,G-Means分別為0.842和0.735。與直接使用原始數(shù)據(jù)集進(jìn)行分類相比,AUC增加了9.9%和4.3%,G-Means提高了19.1%和73.5%。在EasyEnsemble方法中,兩個數(shù)據(jù)集的AUC和G-Means分別提升了3.7%~4.3%和3.7%~9.3%。

2) 中不平衡率數(shù)據(jù)集(Credit Card和ADNI) 。在Credit Card數(shù)據(jù)集中,BSMOTE_BU方法的AUC和G-Means相較于不適用均衡方法前分別提升了41.9%和70%。同時,BSMOTE_BU方法的G-Means結(jié)果與EasyEnsemble方法持平,但AUC結(jié)果高出8.8%。BSMOTE_BU方法在ADNI數(shù)據(jù)集上的AUC比原始數(shù)據(jù)高9%,比EasyEnsemble方法高2%;G-Means分別提升了47.6%和4.2%。

3) 高不平衡率數(shù)據(jù)集(Yeast) 。BSMOTE_BU在Yeast數(shù)據(jù)集上的AUC值為0.968,G-Means為0.893,比原始數(shù)據(jù)集分別提升18.8%和89.3%,比EasyEnsemble方法提升2%和2.5%。

總的來說,BSMOTE_BU通過邊界混合采樣策略,在各類不平衡率數(shù)據(jù)集上均能顯著提升分類性能,且與次優(yōu)方法EasyEnsemble相比,其穩(wěn)定性和泛化能力均更優(yōu)。

2.2 實驗結(jié)果的討論

在本研究中,通過比較7種不同的數(shù)據(jù)均衡方法,可以觀察到這些方法對模型的分類性能產(chǎn)生了不同程度的影響。總體上,施加均衡方法后的SVM對少數(shù)類樣本的識別能力均有提升。特別地,BSMOTE_BU方法在所有測試數(shù)據(jù)集中均表現(xiàn)最佳,不僅在整體判別性能(AUC) 上高于其他方法,而且G-Means評分也顯示了其在提升少數(shù)類樣本召回率上的優(yōu)勢,為類不平衡問題提供了更優(yōu)的解決方案。然而,該方法仍然存在一定的局限性。

1) 樣本量限制。本研究所測試的數(shù)據(jù)集樣本量普遍偏小,特別是在高度不平衡([IRgt;9]) 的數(shù)據(jù)集中,少數(shù)類樣本數(shù)量有限。由于新生成的樣本是通過現(xiàn)有的少數(shù)類樣本插值得到,較少的點難以準(zhǔn)確反映整體數(shù)據(jù)的分布,這可能導(dǎo)致模型在未見過的數(shù)據(jù)上泛化能力不佳。此外,由于少數(shù)類樣本數(shù)量少,每個樣本點在數(shù)據(jù)集中會占據(jù)更大的權(quán)重,單個樣本的異常值或噪聲會對模型產(chǎn)生顯著影響。在這種情況下,即使是輕微的采樣誤差也可能導(dǎo)致模型性能顯著波動。

2) 多分類問題適應(yīng)性。BSMOTE_BU方法主要關(guān)注增強多數(shù)類和少數(shù)類樣本之間的區(qū)別,這在二分類問題中被證實非常有效。然而,在多分類問題中需要處理多個類之間的相互關(guān)系,僅僅強化一個類與其他類的邊界是不夠的。多分類問題中,每個類都可能同時是其他多個類的“少數(shù)類”。并且在多分類環(huán)境中,類的邊界可能不如二分類清晰。因此,增加新的邊界樣本可能會加劇類間的重疊,特別是那些本來就難以區(qū)分的類別。

3) 參數(shù)敏感性。BSMOTE_BU方法依賴于KNN算法來劃定[k]近鄰區(qū)域,其核心參數(shù)是鄰居數(shù)[k]的選擇。由于鄰居數(shù)值的敏感性,過小的[k]值會導(dǎo)致模型對噪聲數(shù)據(jù)過于敏感,把噪聲錯誤地當(dāng)做邊界樣本進(jìn)行處理;而過大的[k]值則可能使模型無法精確地識別真正的樣本邊界,從而忽略了關(guān)鍵的少數(shù)類樣本。在實際應(yīng)用中,鄰居數(shù)[k]值的確定往往需要依賴具體的數(shù)據(jù)集和實驗經(jīng)驗,缺乏普適性。

4) 噪聲影響。雖然BSMOTE_BU方法通過邊界混合采樣策略減少了少數(shù)類和多數(shù)類之間的重疊,但其性能提升并非沒有代價。該方法過度依賴于邊界定義。如果邊界區(qū)域的噪聲較多,新生成的少數(shù)類樣本很可能包含錯誤信息,從而導(dǎo)致模型過擬合。此外,基于KNN的欠采樣策略也可能引入干擾,進(jìn)一步影響模型的泛化能力。

3 結(jié)論

3.1 研究總結(jié)

本研究開發(fā)了一種基于邊界的混合采樣方法BSMOTE_BU,經(jīng)過多個數(shù)據(jù)集的實驗驗證,并與現(xiàn)有數(shù)據(jù)均衡方法以及未使用任何采樣技術(shù)的分類結(jié)果進(jìn)行對比,發(fā)現(xiàn)BSMOTE_BU在提升分類器性能方面表現(xiàn)最為突出。實驗證明,BSMOTE_BU顯著提高了分類器對少數(shù)類樣本的識別能力,同時有效降低了誤分類率,并增強了模型的穩(wěn)定性。相較于其他方法,BSMOTE_BU在AUC和G-Means指標(biāo)上均取得了最優(yōu)結(jié)果,證明了其在處理類別不平衡問題中的優(yōu)越性和必要性。

盡管BSMOTE_BU方法仍然存在一定局限性,但其通過結(jié)合邊界過采樣和欠采樣的策略,顯著提升了分類器在各類不平衡數(shù)據(jù)集上的性能。未來研究可以進(jìn)一步優(yōu)化分類策略和開發(fā)自適應(yīng)參數(shù)選擇方法,以增強方法的普適性和實用性。總體而言,BSMOTE_BU為處理類別不平衡問題提供了一種更為有效的工具,具有廣泛的應(yīng)用前景。

3.2 未來工作展望

為了進(jìn)一步提升模型的可靠性和實用性,未來的研究可以從以下幾個方面進(jìn)行擴展。

1) 增強樣本多樣性。為了應(yīng)對小樣本數(shù)據(jù)集帶來的挑戰(zhàn),可以采取多種樣本合成技術(shù),不僅僅局限于線性插值。例如,可以結(jié)合少數(shù)類樣本的非線性變換,引入生成對抗網(wǎng)絡(luò)(GAN) 或變分自編碼器(VAE) 等生成模型,捕捉并模擬潛在的數(shù)據(jù)分布,合成更具代表性的少數(shù)類樣本。

2) 改進(jìn)多分類策略。對于多分類問題,可以開發(fā)一種層次化的采樣策略,該策略針對每個類別分別進(jìn)行邊界分析和樣本合成。因此,可以引入基于類別敏感度的權(quán)重調(diào)整,根據(jù)每個類別的實際需要動態(tài)調(diào)整過采樣和欠采樣的比例,從而平衡各個類別之間的影響,減少多類間的重疊。

3) 自適應(yīng)參數(shù)選擇。為了減少KNN中[k]值選擇的隨意性以及避免依賴經(jīng)驗,可以開發(fā)自適應(yīng)算法確定最優(yōu)的鄰居數(shù)[k]值。可以通過交叉驗證和網(wǎng)格搜索的方式,自動調(diào)整鄰居數(shù)[k]值和其他超參數(shù),結(jié)合模型的性能指標(biāo)來評估不同參數(shù)組合下的模型表現(xiàn),選擇最優(yōu)參數(shù)。

4) 降低過擬合風(fēng)險。為了減少過擬合和對噪聲的敏感性,可以在采樣前后引入噪聲過濾和異常值檢測步驟。使用統(tǒng)計測試或基于密度的方法識別并剔除噪聲和異常值,保證僅對“干凈”的數(shù)據(jù)進(jìn)行采樣處理。此外,可以采用正則化技術(shù)來減少模型對特定樣本的依賴,增強模型的泛化能力。

5) 集成學(xué)習(xí)和模型融合。不同采樣方法可能在不同類型的數(shù)據(jù)集上表現(xiàn)各異,可以考慮采用集成學(xué)習(xí)方法融合多種采樣策略的優(yōu)勢。例如,可以將BSMOTE_BU與其他非邊界依賴的采樣方法結(jié)合,通過投票或加權(quán)的方式綜合不同模型的預(yù)測結(jié)果,從而提升整體的分類性能。

參考文獻(xiàn):

[1] RAWAT S S,MISHRA A K.Review of methods for handling class imbalance in classification problems[M]//Data Engineering and Applications.Singapore:Springer Nature Singapore,2024:3-14.

[2] GUPTA P,VARSHNEY A,KHAN M R,et al.Unbalanced credit card fraud detection data:a machine learning-oriented comparative study of balancing techniques[J].Procedia Computer Science,2023(218):2575-2584.

[3] REN Z J,LIN T T,F(xiàn)ENG K,et al.A systematic review on imbalanced learning methods in intelligent fault diagnosis[J].IEEE Transactions on Instrumentation and Measurement,2023,72:3508535.

[4] HE H,GARCIA E A.Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.

[5] KRAWCZYK B,WO?NIAK M,SCHAEFER G.Cost-sensitive decision tree ensembles for effective imbalanced classification[J].Applied Soft Computing,2014(14):554-562.

[6] GARCíA S,HERRERA F.Evolutionary undersampling for classification with imbalanced datasets:proposals and taxonomy[J].Evolutionary Computation,2009,17(3):275-306.

[7] FERNáNDEZ A,GARCíA S,GALAR M,et al.Learning from Imbalanced Data Sets[M].Cham:Springer International Publishing,2018.

[8] KRAWCZYK B.Learning from imbalanced data:open challenges and future directions[J].Progress in Artificial Intelligence,2016,5(4):221-232.

[9] DOUZAS G,BACAIO F,F(xiàn)ONSECA J.Improving SMOTE with Data Augmentation and a Diversified Ensemble[J].Expert Systems with Applications,2021(168):1-11.

[10] ZHANG Y,LI X,ZHANG Y.An Improved Borderline-SMOTE Algorithm for Imbalanced Data Classification[J].IEEE Access,2020(8):123123-123132.

[11] HE H B,BAI Y,GARCIA E A,et al.ADASYN:Adaptive synthetic sampling approach for imbalanced learning[C]//2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence).IEEE,2008:1322-1328.

【通聯(lián)編輯:唐一東】

猜你喜歡
機器學(xué)習(xí)
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機在圖像分割中的應(yīng)用
主站蜘蛛池模板: 中文无码精品A∨在线观看不卡 | 久久亚洲综合伊人| 日a本亚洲中文在线观看| 日本高清免费一本在线观看| 蜜桃视频一区| 国产激爽爽爽大片在线观看| hezyo加勒比一区二区三区| 四虎精品国产AV二区| 天堂成人在线视频| 亚洲成人免费看| 午夜精品区| 国产成人亚洲综合a∨婷婷| 国内老司机精品视频在线播出| 亚洲无线一二三四区男男| 国产jizz| 亚洲色图欧美激情| 她的性爱视频| 手机在线免费不卡一区二| 国产熟女一级毛片| 亚洲人妖在线| 无码丝袜人妻| 国产h视频免费观看| 欧美不卡视频在线观看| 国产女人在线观看| 国产一区二区三区精品久久呦| 在线免费观看a视频| 亚洲午夜综合网| 国产人妖视频一区在线观看| 亚洲国产清纯| 日韩免费毛片视频| 久操线在视频在线观看| 国产微拍一区二区三区四区| 色哟哟国产精品一区二区| 中文字幕欧美日韩| 在线国产毛片| 91成人在线观看| 亚洲精品视频在线观看视频| 91精品小视频| 91偷拍一区| 欧美成人综合在线| 精品亚洲欧美中文字幕在线看 | 亚洲最大情网站在线观看| 夜夜操天天摸| 四虎永久在线| 欧美日本一区二区三区免费| 5555国产在线观看| 国产在线观看91精品亚瑟| 中国国产A一级毛片| 精品第一国产综合精品Aⅴ| 亚洲AV无码乱码在线观看代蜜桃 | 色婷婷狠狠干| 亚洲日产2021三区在线| 九九热精品在线视频| 日韩精品中文字幕一区三区| 国产在线视频福利资源站| 国产精品亚洲一区二区在线观看| 情侣午夜国产在线一区无码| 四虎在线观看视频高清无码| 波多野结衣在线一区二区| 国产又粗又爽视频| 国产网站在线看| 五月综合色婷婷| 亚洲欧美日韩成人高清在线一区| 99久久精品视香蕉蕉| 欧美精品伊人久久| 伦精品一区二区三区视频| 在线欧美一区| 国产区在线看| 一级做a爰片久久毛片毛片| 亚洲欧美在线精品一区二区| 无码福利视频| 在线免费无码视频| 干中文字幕| 日韩东京热无码人妻| 国产成人免费高清AⅤ| 免费中文字幕一级毛片| 久久精品视频一| 国产成人精品三级| 一本久道久久综合多人| 久无码久无码av无码| julia中文字幕久久亚洲| 2020久久国产综合精品swag|