999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

使用NGN算法改進不平衡數值數據的研究

2025-08-03 00:00:00邢長征鄭鑫梁浚鋒
計算機應用研究 2025年6期
關鍵詞:類別分類器聚類

Research on improving imbalanced numerical data using NGN algorithm

Xing Changzheng,Zheng Xin,LiangJunfeng (CollegeofElectronicamp; Information Engineering,Liaoning Technical University,HuludaoLioning1251o5,China)

Abstract:When minorityclassamplesare scarce,traditional oversampling methods struggleto increasethesamplecount. This paper introduced a NGN algorithm that synthesized new data byadding generator-generated dataas noise to theoriginal minorityclassamplesuntilbalance wasachieved.Thegenerator employedafour-layerfullyconnectednetworkandintegrated low-structureandhigh-structurefeaturegenerationtechniquestoenhancethequalityanddiversityofthegenerateddata.For verylimited minorityclassamples,NGNgeneratednewsamples,mergedthemwiththeoriginal minorityclassdata,and performedclustering to achieve balance withinclusters while minimizing the impactof noise.The study evaluated NGNon6unbalanceddatasets,applied4oversamplingalgorithms tobalancethedatasets,andclasifiedthebalanceddatasetsusing4classificationmethods.TheexperimentalresultsdemonstratethatNGNefectivelyincreasesthenumberof minorityclasssamples, enhances the model’sability to learn minority classfeatures,and significantly improves classification performance.

Key words:numerical generator network(NGN);generator;noise;extremely scarce minority class;balance

0 引言

數據不平衡的問題源自于樣本分布的不均衡。通常情況下,多數類樣本容易獲取,而少數類樣本卻難以獲得,導致多數類樣本數量遠遠大于少數類樣本數量。實際上,如預測糖尿病[1]、金融欺詐[2]、氣壓系統[3]等均存在數據不平衡的問題。因此,如何處理數據缺失和類不平衡成為了當前數據處理所面臨的重要問題。目前的優化方法主要在數據處理和算法修改兩個層面上進行。

在算法層面中常采用的算法有聚類融合、集成學習、優化算法等。其中,具有代表性的聚類融合主要是利用多個聚類結果的共識來形成一個更加穩定和準確的聚類結果,并且聚類融合在處理復雜結構數據或多個聚類算法結果不一致時更有效。但該方法存在數據依賴、算法選擇局限和結果不穩定性等缺點;數據處理通常采用過采樣和欠采樣[4]。其中,欠采樣是一種通過減少多數類樣本的數量來實現數據平衡的方法。然而,這種策略導致部分數據信息的丟失,影響模型的泛化能力。過采樣是指通過增加少數類樣本的復制或生成新的少數類樣本,以達到數據平衡。其中最經典的算法是Chawla等人[5提出的SMOTE(syntheticminorityoversamplingtechnique)的基本思想是對少數類樣本中的每個樣本,找出其最近鄰的樣本,然后在這些最近鄰樣本之間隨機選取一個點,生成新的合成樣本。Han 等人[提出了Borderline-SMOTE,通過選擇邊界樣本進行合成樣本的生成,提高生成的合成樣本質量。He等人[提出了一種處理不平衡數據集的采樣方法ADASYN(adaptivesyn-theticsampling),該算法注重為難分類的少數類樣本生成更多的合成樣本,從而適應局部數據分布。然而,數據不平衡比例較大時,上述算法會引入大量的噪聲,從而改變數據的分布。針對上述問題,Douzas等人[提出了K-meansSMOTE算法。該算法先對整體數據集進行K-means聚類,然后選擇少數類樣本比例較高的簇來生成合成樣本。王亮等人[9提出DBVMCS-MOTE算法,使用簇密度分布函數,目的是保留簇中少數類樣本含有重要的分類信息。陳俊豐等人[1提出WKMeans-SMOTE,選擇特征加權的聚類算法對原始數據集進行聚類,從而提高聚類效果。但是上述算法并沒有考慮到少數類樣本的稀缺性,少數類在只有幾個的情況下無法生成新的少數類樣本,而聚類后的數據集會使少數類的樣本更少,失去了聚類的意義。

除此之外,還有將優化算法與分類算法融合的方法可以提升分類精度,例如文獻[11]使用BAOA(abinaryversionofthearithmeticoptimizationalgorithm)解決分類中的特征問題,從而提高了分類。文獻[12]提出了一種二元版本的人工藻類算法(artificialalgaealgorithm,AAA)。該算法在探索屬性空間以及識別分類問題中最具價值特征方面展現了卓越的能力。Too等人[13]提出了一種超學習二進制蜻蜓算法(hyperlearningbinarydragonflyalgorithm,HLBDA)來解決冠狀病毒的特征選擇問題。上述方法減少了極少數類樣本的特征,導致模型無法捕捉極少數類樣本的特征。

為了解決極端樣本不平衡問題,本文提出了數值生成網絡(numericalgeneratornetwork,NGN),用于生成少數類樣本,使數據集能夠進行聚類和過采樣操作,同時NGN算法也可應用于不平衡數據集。

本文的創新點如下所示:a)提出一種生成少數類數據的算法NGN;b)將NGN應用于二維數據的不平衡數據集,使其平衡;c)為了處理只有幾個樣本的少數類情況,NGN利用所有的少數類樣本生成新的樣本,從而增加少數類樣本,使分類器能夠更好地區分正類和負類。

1生成器介紹

生成器(generator)的任務是接收隨機噪聲或潛在空間的輸入,并生成類似于訓練數據的新樣本。它通常由一系列反向傳播的全連接層組成,其中每一層都將輸入映射到更高維度的空間。生成分類器的模型主要有樸素貝葉斯分類器和線性判別分析。在分類應用領域中,核心目標是實現從觀測值 X 到結果 Y 的轉換。此過程既能夠直接完成計算而無須借助概率分布;也能夠對給定觀測值 X 時標簽 Y 的概率予以估計,并以此作為分類的依據;還能夠對聯合分布 P(X,Y) 進行估算,從中得出給定觀測值 X 時結果 Y 的概率,隨后以此為分類的基礎。

給定聯合分布模型 P(X,Y) ,各個變量的分布計算為

其中: X 是連續的,因此對其進行積分;認為 Y 是離散的,因此對其進行求和。在生成對抗網絡(generativeadversarialnet-work,GAN)[14]中,生成器的目標是生成逼真的數據,使得判別器無法區分生成數據和真實數據,但是GAN具有很高的復雜度,運行時間更長。所以去掉GAN判別器的部分,只用生成器生成數值數據,降低復雜度和運行時間。

2 數值生成網絡(NGN)

結構。NGN的核心組件是生成器,生成器的作用是接受一個低維的隨機向量作為輸入,并通過逐層映射,生成具有少數類結構的噪聲。生成器使用不同的神經元數將生成的特征分為低結構特征和高結構特征并合并。生成器采用四層全連接層(denselayer),并將各層按順序連接,結構如圖1所示。每一層的線性變換為

針對少數類非常少,只有幾個的時候,ADASYN會使少數類與更多的多數類樣本合成,使少數類的信息損失;SMOTE生成的少數類樣本會集中在少數類樣本之間的空隙,導致少數類樣本更加集中;聚類算法會難以找到明確的聚類中心,聚類后少數類樣本更少,使樣本更加不平衡且無法使用SMOTE、ADASYN和RUS進行過采樣。因此,本文提出了一種旨在生成極少數類樣本的網絡,即NGN。該方法的具體步驟如算法1所示。

G(x)=WXminor+b

其中: W 為權重; b 為偏置; G(x) 為生成器的輸出。

第一層神經元數量為32,且采用的激活函數是修正線性單元(rectifiedlinearuint,ReLU),這一層接收輸入數據并進行線性變換,再經過ReLU激活。ReLU函數實現簡單且能夠產生稀疏的輸出,在某些情況下減少參數之間的相互依賴。其公式為[15]

算法1NGN算法輸入:數據集data。

輸出:新的數據集new_data。

a)獲取data中的少數類;

b)生成器根據少數類的特征生成噪聲數據;

c)將噪聲數據與少數類合成新的數據;

d)重復步驟b)c),直到多數類與少數類數量達到平衡。

由于極少數類樣本數量不足,往往缺少足夠的樣本支持來有效訓練模型,所以模型往往無法學習到極少數類樣本的特征

f(x)=max(0,X)

第二層將提取結構信息,三四層將第二層輸出擴大形成高結構特征,將第二和四層在結構上拼接起來,從而在同一層中同時包含兩種不同結構的信息。這種操作有助于在后續層中綜合兩種結構的特征。輸出數據與少數類特征的維度相同。這通常用于生成具有特定特征分布的樣本,從而與少數類數據特征結構相同。激活函數使用ReLU。

輸出層的激活函數采用的是指數線性單元(exponentiallinearunit,ELU)[16],本文對ELU進行了修改。無論 X 是正是負,公式都為

f(x)=a(eX-1)

這樣會使生成的噪聲變大,且合成后的數據不容易分散在原來數據的周圍。

圖1生成器的網絡結構Fig.1Network structure of a generator

最后,為了降低網絡負載并提升訓練效率,本文引入并修改了dropout正則化技術[17]。通過在訓練過程中隨機丟棄網絡中一定比例的神經元,dropout能夠有效地減少模型對特定訓練樣本的依賴,從而提高模型的泛化能力。dropout的數學表達式為

其中: p 是丟棄概率,表示每個神經元被丟棄的概率; F 是與極少數類的特征維度相同的掩碼。其中每個元素獨立地以概率1-p 為1,以概率 p 為0。

在許多現實世界的應用中,數據往往近似服從正態分布。而且正態分布在訓練過程中通常能夠提供穩定的梯度,給定的少數類數據特征維度 X ,生成器 G 給定輸入噪聲時生成噪聲數據 Y 的分布表示。

通過生成器生成噪聲添加到原來的數據上,實現了對極少

數類樣本的數據擴充。

2.1多數類與少數類平衡

在少數類平衡的情況下,少數類樣本的數量較少,但是相對于多數類來說數量并不是非常少。在這種情況下,本文使用NGN來生成噪聲與原始數據合成的少數類樣本,以平衡數據集中各個類別的樣本數量。使用NGN進行過采樣的偽代碼如下所示。

算法2NGN進行過采樣

輸入:數據集data。

輸出:新的數據集new_data。

a)將data分成多數類major,少數類minor,提取minor的特征 X b)計算循環次數 L

循環次數舍棄小數點后位數,進行循環

c)如果數據為小數,則生成noise,且維度與 X 相同

d)生成新的數據: :new=noise+minor ,結束循環

e)計算還需要生成的個數:

rest=data-major-minor-new

f)根據rest的個數生成,重復上述步驟d)e)

g) 返回new_data

上述算法的時間復雜度為 O(L×X×n) ,其中 n 取決于神經網絡的層數、每層的神經元數量以及每次迭代的樣本數。空間復雜度為 O(new×X×m) ,其中 m 為生成器網絡結構的參數。

注意以下三點:a)如果noise為1以下的小數,需視情況縮小或擴大noise的倍數;b)因為生成器默認生成的數據是小數,如果原數據為整數,則生成noise_int;c)有時原數據的某個列為0,則將對應的列也變為0。

2.2多數類與少數類數量極少的平衡

針對少數類數量極少的樣本,傳統過采樣方法存在一些局限性。比如,ADASYN在樣本分布離散化或少數類別僅有幾個樣本時無法進行合成;SMOTE生成的合成樣本傾向于集中在少數類周圍,導致模型更關注少數類。在這種情況下,NGN被用來生成合成的少數類樣本,擴充少數類樣本的數量。

在使用NGN合成少數類樣本時,生成數據的個數對生成后的新數據分布起很大的作用,如果生成數據過多,導致扭曲了真實數據分布的特征。因此在確定生成少數類的數量時,須考慮數據分布的情況。

算法3確定少數類的個數

輸入:極少數類樣本minor。

輸出:簇cluster。

a)使用NGN生成少數類樣本,生成新的數據集new_datab)對 new_data使用手肘法[18]

c)計算輪廓系數[19]

d)結合輪廓系數和手肘點確定簇的個數k

e)返回cluster

肘形指的是在某些分析曲線或圖形中,數據變化趨勢形成的一個明顯拐點,形狀類似于人的肘部。肘形的特征是曲線在拐點之前呈現快速變化的趨勢,而在拐點之后變化趨于平緩。在許多實際應用中,肘形的選擇非常模糊,因為數據不包含一個明顯的拐點,導致曲線較為平滑,從而使肘部的判斷變得主觀或模糊。而輪廓系數對數據中的噪聲和異常值敏感,因為異常點會拉高與其他簇的距離,從而影響輪廓系數的計算。特別是當數據集中存在大量離群點時,輪廓系數的值會失真。但是輪廓系數彌補手肘法的不足,手肘法側重于最小化簇內的誤差,但并不直接考慮簇之間的分離性。輪廓系數則同時考慮了簇的緊密度和分離性。所以為了使數據集更容易確定聚類的簇值,本文將手肘法與輪廓法結合使用,先使用手肘法確定一個初步的聚類數目范圍。手肘法比較直觀,為選擇合理的聚類數目提供一個候選區間。在這個候選區間內,計算不同聚類數目的輪廓系數,選取輪廓系數最大的那個聚類數目,作為最終的選擇。

圖2展示了經過NGN過采樣處理后,少數類樣本的分布情況。從圖中觀察到少數類樣本的數量顯著增加且擴展了少數類的分布范圍,減少了特征空間的稀疏性。

圖2少數類樣本生成前后數據分布對比Fig.2Distributionof data generated byNGN

3實驗設計與結果分析

3.1 數據集介紹

實驗使用的是UCI數據庫上的七組標準公開數據集,分別是pima[20]、transfusion[21]、hcv_data[22、wine[23]、gls[24]ionosphere[25]和 。其中:pima、transfusion、ionosphere 是二分類數據集;hcv_data、wine、glass、ecoli是多類別數據集。hcv_data、glass存在少數類為例數的情況。hcv_data用于分類肝炎狀態或預測疾病的嚴重程度,共有5例類別,其中blooddonor類有533例、hepatitis類有24例、fibrosis類21例、cirrhosis類有30例,suspectblooddonor類僅有7例,將suspectblooddonor作為少數類,其余的作為多數類。glass共有6例類別,其中建筑窗戶有70例,非浮點數的(建筑窗戶)有76例,車窗有17例,集裝箱有13例,餐具有9例,大燈有29例。將類別6作為少數類,其余作為多數類。wine有3例類別,其中類別1為59例,類別2有71例,類別3有48例,將類別3作為少數類,其余作為多數類。ecoli共有8例類別,分別對應不同的亞細胞位置:細胞質有143例、內膜有77例、周質有52例、內膜但無明確類別有35例、外膜有20例、外膜脂蛋白有5例、內膜脂蛋白有2例,以及內膜空間蛋白有2例。這里本文選擇內膜脂蛋白作為少數類,其余作為多數類。

實驗前通常需要對原始數據集進行處理。其中,將缺失值設為0,簡化數據處理過程,并使數據更易于解釋;針對字符數據,需要將其轉換為數值數據,因為過采樣只能處理數值數據。

數據集具體如表1所示。不平衡比率的定義如下:

多數類樣本數量不平衡比率 少數類樣本數量

Tab.1 Dataset

3.2 實驗設計

本文實驗是在Windows10系統、i5-8300H處理器、NVIDI-AGTX1050顯卡、20GB存儲的計算機上進行,編程語言為Python,使用jupyter notebook平臺實現。

為了驗證NGN的過采樣效果,將二元數據集分別使用NGN、SMOTE、ADASYN以及Borderline-SMOTE進行過采樣,并采用隨機森林算法(random forest,RF)[27]、AdaBoost(adaptiveboosting)[28]、XGB(XGBoost)[29]、ExtraTrees[30]四種分類算法進行評估。SMOTE是經典的過采樣基準算法,通過插值生成新的少數類樣本,有效緩解樣本不平衡問題,但在特定條件下生成的樣本缺乏分布信息。ADASYN關注難分類區域,適應性地生成的更多靠近邊界的少數類樣本,強化分類器對復雜區域的學習能力。而Borderline-SMOTE專注于增強少數類與多數類邊界樣本的學習,通過針對性生成強化分類器對邊界的理解。選擇這些算法進行對比,通過多維度驗證NGN的改進效果,特別是在生成質量、難分類區域表現以及分布敏感性等方面,突出其相較于傳統方法的優勢。隨機森林通過處理高維和非線性特征,展現了對噪聲和不平衡數據的魯棒性。Extra-Trees利用更隨機的決策劃分減少過擬合,計算效率高,在多數類主導和高不平衡比率數據集上表現出色。AdaBoost通過調整樣本權重,增強對少數類的識別能力,適合特征邊界清晰或樣本量較小的數據集。XGBoost則結合梯度提升和樹模型的優點,通過正則化減少過擬合,在復雜特征的中小型數據集上性能卓越。綜合這些算法的特性,它們結合隨機性、權重調整和魯棒性,能夠適應多樣化的場景,并通過多算法對比減少模型選擇偏差,有效驗證不平衡數據上的泛化能力。這些算法充分結合了數據集的特性,包括數據規模、特征分布和不平衡比率等方面,體現出對不同數據集適配性的全面考慮。同時,它們在泛化能力、抗噪性以及特征權重學習等性能上各具優勢,能夠有效應對不同場景下的不平衡數據分類需求,從而凸顯了多算法評估在解決不平衡數據問題中的重要性和優勢。

為了驗證NGN在少數類樣本數量極少的情況下合成樣本的效果,使用數據集對其與SMOTE、ADASYN和Borderline-SMOTE算法進行比較,并觀察少數類合成樣本的分布情況。

訓練中設置Input ,batch epoch=10 (204號SMOTE、ADASYN、Borderline-SMOTE的參數設置為默認。為了獲取最佳分類器和過采樣器的結果,利用貝葉斯尋優算法確定了最優參數組合[31]。貝葉斯優化通過構建一個概率模型來估計目標函數的未知特性,并利用該模型指導搜索,以減少不必要的評估。它采取迭代的方式,在每次迭代中選擇最具潛力的點進行評估,并據此更新概率模型,以便在有限的評估次數內逼近最優參數配置。實驗中使用十次十折(10-fold)交叉驗證的平均值作為最終性能度量的結果。

3.3 評價指標

為了評估分類器在解決特定任務中的表現,評價指標包括準確率、精確率、召回率 分數和ROC曲線下面積(AUC)等,這些指標提供了對分類器性能不同方面的評估。

針對不平衡二分類問題,準確率是無法衡量分類器性能優劣的。本文選取 F1 分數、G-mean和ROC曲線下面積(AUC)作為評價指標。這些指標能夠更好地反映分類器在不同類別上的表現,更全面地評估分類器的性能優劣。 F1 分數和G-mean都是根據混淆矩陣(表2)來計算的。

表1數據集表2混淆矩陣Tab.2 Confusion matris

TP(truepositive)表示模型正確分類的多數類樣本數量;FN(1negtive)表示模型錯誤分類的多數類樣本數量;FP(1positive)表示模型錯誤分類的少數類樣本數量;TN(truenegative)表示模型正確分類的少數類樣本數量。

F1 分數是精確率(precision)和召回率(recall)的調和平均值,它綜合考慮了分類器的準確性和完整性。精確度的定義如下:

召回率的定義如下:

F1 分數定義如下:

G-mean是準確率和召回率的幾何平均值,是用來衡量分類器在不平衡數據集上的整體性能。G-mean考慮了類別不平衡的情況,能夠更好地反映分類器對少數類的分類效果。針對不平衡的數據集,已經發現G-mean度量高度代表算法的性能。

G-mean的定義如下:

AUC衡量了分類器根據不同的分類閾值對正負樣本進行排序的能力,并計算了ROC曲線(receiveroperatingcharacteris-ticcurve)下的面積。ROC曲線是以召回率為縱軸,假陽性率(1positiverate)為橫軸繪制的曲線。分類器根據不同的閾值將樣本劃分為正例和負例,并計算出對應的真陽性率和假陽性率。AUC則表示ROC曲線下的面積,取值在0\~1,越接近1表示分類器性能越好。

3.4少數類平衡實驗結果分析

本文算法及對比算法的實驗結果如表3\~6所示。從表中看出,NGN算法的 F1 -score和G-mean在二維數據中達到了與其他過采樣算法相近甚至更好的效果。在pima、transfusion數據集中,NGN在大部分情況下表現出與其他算法相比較高的AUC,F1 -score和G-mean,這表明NGN生成了質量更高的少數類樣本,從而使分類器能夠更好地學習到少數類數據的特征。因為生成器生成的噪聲很小,添加噪聲后的少數類樣本保持了數據集的整體特征分布,從而使得生成的樣本具有更高的代表性,從而更好地反映原始少數類樣本的分布特性。分類器在訓練過程中能夠學習到更豐富的信息,提高對少數類樣本的識別能力。與其他過采樣算法相比,NGN在特定分布下能夠有效增強對少數類樣本的識別能力,進而提高 F1 -score。在平衡精確率和召回率方面,NGN展現了優異的性能,顯著提升了G-mean值。通過NGN生成的樣本,成功擴展了少數類的分布范圍,這不僅提升了少數類的精確率和召回率,同時也促進了整體分類性能的提高。此外,NGN生成的樣本具有更好的代表性,在某種程度上減少了噪聲影響,從而提高了少數類的召回率。

Tab.3Experimental results using RF classifier
表4使用AdaBoost分類器的實驗結果"
表5使用XGB分類器的實驗結果
表6使用ExtraTrees分類器的實驗結果Tab.6Experimental results using ExtraTrees classifier

在Ionosphere上,某些情況下NGN的性能并不是最優的。因為Ionosphere的特征已經足夠明顯,在這種情況下,添加噪聲不會帶來太大的優勢,所以性能會接近其他的算法,而沒有明顯的提升。

圖3展示了Ionosphere經過四種過采樣方法后的數據分布。SMOTE通過在少數類樣本的鄰域內生成新樣本,使少數類樣本的分布更加均勻,填補了原本稀疏的區域。ADASYN則在少數類樣本稀疏區域生成更多樣本,增強模型在這些區域的學習能力,使得稀疏區域的少數類數據密度更高,有利于區分,但導致局部密度過高。Borderline-SMOTE生成點主要集中在分類邊界,提高了模型在復雜邊界區域的辨別能力,NGN與上述過采樣方法相比,生成的新樣本與原少數類樣本相似,增強了少數類特征表達,更加貼近少數類的實際分布。

3.5極少數類平衡實驗結果分析

圖3展示了ionosphere、ecoli、wine和hcv_data數據集經過四種過采樣方法后的數據分布,其中棕色為多數類,藍色為少數類(見電子版)。從圖3看出,較遠距離的點SMOTE、ADASYN、Borderline-SMOTE不能利用全部的少數類樣本合成,是因為SMOTE通過在少數類樣本之間插值來生成新的少數類樣本。如果少數類樣本非常稀疏,彼此之間的距離很大,新樣本會處于過度外推的位置,無法正確反映少數類的分布;ADASYN生成樣本的方法依賴于現有樣本的插值,如果現有樣本之間的距離較大,插值生成的新樣本會落在樣本分布的外圍區域,導致分布失真;少數類樣本周圍的噪聲點會對插值過程產生較大影響。Borderline-SMOTE生成的新樣本會受到這些噪聲點的影響,導致生成不準確或不可靠的樣本,從而影響模型的性能。相比之下,NGN通過在現有少數類樣本上添加噪聲生成新樣本,利用了所有現有的少數類樣本,無須依賴鄰近樣本進行插值,因此避免因少數類樣本稀疏而導致的插值問題。通過添加生成器生成的正態分布噪聲,NGN能夠生成多樣化的新樣本,這些新樣本能夠更好地覆蓋少數類樣本的分布范圍,保持了數據集的整體特征分布,提高模型的泛化能力。由于噪聲是圍繞原始樣本生成的,NGN避免了插值方法導致的過度外推問題,生成的新樣本不會偏離原始樣本的分布范圍。

在不同分類器上,各種過采樣方法對少數類樣本分類性能的提升效果有所差異。SMOTE通過線性插值生成新樣本,在randomforest和ExtraTrees中表現穩定,但在XGBoost上略遜于NGN;其效果依賴于原始數據的分布特性,對wine和ecoli數據集的分類性能提升顯著。ADASYN更加自適應,優先增強稀疏區域的少數類樣本,在hcv_data和glass數據集中表現較好,尤其在AdaBoost分類器中AUC和 F1 -score較優。Borderline-SMOTE專注于增強類別邊界樣本的分布,使分類器在邊界樣本區分能力上表現更佳,顯著提升了AUC和G-mean,特別是在wine中表現出色。NGN則在多個分類器中展現出卓越性能,尤其在XGBoost和ExtraTrees中對wine和ecoli的AUC提升顯著,結合密度感知和邊界強化,使得樣本分布更加全面。

圖3降維后的數據可視化Fig.3Data visualization after dimensionalityreductior

NGN生成的數據能夠增加極少數類樣本,從而增強少數類特征,不僅彌補了原始數據分布中的不平衡性,還顯著提升了少數類的可辨識性,使得分類器能夠更有效地識別這些樣本。在hcv_data中suspectblooddonor類是少數類,但其分類直接關系到肝炎嚴重程度的預測和個體的健康干預。如果模型無法準確識別該類,導致漏診或誤診,影響治療效果。在glass中,通過增加大燈的樣本,模型能夠更好地區分與其他玻璃類型的微小差異,這對玻璃工業中材料分類和質量控制尤為重要。在ecoli中增加內膜脂蛋白類樣本,幫助模型更好地識別這一亞細胞位置,進而提升生物學研究中蛋白質功能預測的精確性。

從現實生活中來看,增加極少數類的數量尤其重要。例如,在醫療診斷中,少見疾病通常數據不足,而NGN生成更具代表性的樣本,從而提升診斷模型對罕見病例的識別能力。在欺詐檢測中,欺詐行為的數據量往往遠少于正常行為,通過NGN生成的虛擬樣本,幫助模型更精準地區分合法與非法交易。此外,在生態保護中,一些瀕危物種的相關數據十分稀缺,NGN能夠模擬出更多的特征分布,進而提高分類模型對瀕危物種的監測能力。通過增加極少數類樣本,NGN不僅解決了數據稀缺的問題,還在多個領域為少數類的決策和識別提供了更廣泛的支持。

4生成器迭代次數對生成噪聲的影響

如圖4所示,隨著迭代次數的增加,生成器的損失函數值逐漸降低,生成的樣本逐漸逼近真實樣本分布,并在其周圍形成聚集。同時,迭代次數的增多也帶來了時間復雜度的提升。然而,NGN的目標并非僅僅復制原始數據,而是生成具有多樣性的新數據。因此,在實際應用中,應盡量減少迭代次數,以促進生成器產生更為豐富和多樣化的數據樣本和降低算法的時間復雜度。

圖4GAN生成器的生成損失Fig.4Losscurve of the generator in GAN

5結束語

本文針對少數類樣本只有幾個的情況,提出了一種基于GAN的算法NGN,即用GAN生成的數據作為噪聲與原少數類樣本結合生成新的少數類樣本,使少數類能夠進行聚類和分類,從而減小噪聲的引入。同時將該方法作為過采樣方法與其他的過采樣進行比較,用于處理數據不平衡。實驗結果表明,NGN能夠利用所有的少數類樣本生成新的數據集,同時NGN作為過采樣算法比其他過采樣算法表現得更優。

下一步工作將研究改進NGN算法,使其應用于多類別的數據且多數類樣本與少數類樣本的比例較不平衡的情況,使生成的少數類能準確地劃分邊界。

參考文獻:

[1]Wang Xuchun,Ren Jiahui,Ren Hao,et al.Diabetesmellitus early warning and factor analysis using ensemble Bayesian networks with SMOTE-ENNand Boruta[J].Scientific Reports,2023,13(1): 12718.

[2]Yu Lean,Li Mengxin,Liu Xiaojun.A two-stage case-based reasoningdrivenclassificationparadigm forfinancial distresspredictionwith missingand imbalanced data[J].Expert Systemswith Applications,2024,249:123745.

[3]Rahman M S, Sumathy V. Forecasting failure-prone air pressure systems(FFAPS)in vehiclesusing machine learning[J].Automatika,2024,65(1):1-13.

[4]He Haibo,Garcia EA.Learning fromimbalanced data[J].IEEE Trans on Knowledgeand Data Engineering,20o9,21(9): 1263-1284.

[5]Chawla NV,Bowyer KW,Hall LO,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial IntelligenceResearch,2002,16:321-357.

[6].Han Hui,WangWenyuan,Mao Binghuan.Borderline-SMOTE:a newover-sampling method in imbalanced data sets learning [C]/′ ProcofInternational Conference on Intelligent Computing. Berlin: Springer,2005:878-887.

[7]HeHaibo,BaiYang,GarciaEA,etal.ADASYN:adaptive synthetic sampling approach for imbalanced learning [C]/′ Procof IEEE International Joint Conference on Neural Networks. Piscataway, NJ:IEEEPress,2008:1322-1328.

[8]Douzas G,Bacao F,Last F. Improving imbalanced learning through a heuristic oversampling method based on K-means and SMOTE[J]. Information Sciences,2018,465:1-20.

[9]王亮,冶繼民.整合DBSCAN和改進 SMOTE的過采樣算法[J]. 計算機工程與應用,2020,56(18):111-118.(Wang Liang,Ye Jimin.Hybrid algorithm of DBSCANand improved SMOTE for oversampling[J].Computer Engineering and Applications,2020, 56(18):111-118.)

[10]陳俊豐,鄭中團.WKMeans與SMOTE結合的不平衡數據過采樣 方法[J].計算機工程與應用,2021,57(23):106-112.(Chen Junfeng,Zheng Zhongtuan. Over-sampling method on imbalanced data based on WKMeans and SMOTE[J].Computer Engineering and Applications,2021,57(23):106-112.)

[11]Khodadadi N, Khodadadi E,Al-Tashi Q,et al.BAOA: binary arithmetic optimization algorithm withK-nearest neighbor classifier for feature selection[J]. IEEE Access,2023,11:94094-94115.

[12]Turkoglu B,Ali Uymaz S, Kaya E.Binary artificial algae algoritm for feature selection [J].Applied Soft Computing,2022,120:108630.

[13]TooJ,Mirjalili S.Ahyperlearningbinarydragonflyalgorithmfor feature selection: a COvID-19 case study [J]. Knowledge-Based Systems,2021,212:106553.

[14] CreswellA,White T,Dumoulin V,et al.Generative adversarial networks:an overview [J].IEEE Signal Processing Magazine, 2018,35(1) : 53-65.

[15] Glorot X,Bordes A,Bengio Y. Deep sparse rectifier neural networks [C]//Procofthe14th International Conferenceon Artificial Intelligence and Statistics.[S.1.]:PMLR,2011: 315-323.

[16]Clevert DA, Unterthiner T,Hochreiter S.Fastand accurate deep network learningbyexponential linear units(ELUs)[EB/OL]. (2016-02-22). https://arxiv.org/abs/1511. 07289.

[17]Hinton G E,Srivastava N,Krizhevsky A,et al. Improving neural networks by preventing co-adaptation of feature detectors [EB/OL]. (2012-07-03). https://arxiv.org/abs/1207.0580.

[18]Thorndike R L.Who belongs in the family?[J].Psychometrika, 1953,18(4) : 267-276.

[19]RouseeuwP.Siouetes:agrapicalaidtoheinterpreationand validation of cluster analysis[J].Jourmal of Computational and Applied Mathematics,1987,20:53-65.

[20]Kahn M.Diabetes[EB/OL].(1994).https://archive.ics.uci. edu/dataset/34/diabetes.

[21]Yeh I. Blood transfusion service center[EB/OL].(2008-10-02). https://archive. ics. uci. edu/dataset/176/blood + transfusion + service + center.

[22] Lichtinghagen R, Klawonn F, Hoffmann G. HCV data[EB/OL]. (2020-06-09).https://archive.ics.uci.edu/dataset/571/hcv+dats.

[23]Aeberhard S,Forina M.Wine[EB/OL].(1991-06-30).https:// archive. ics.uci. edu/dataset/109/wine.

[24]German B. Glassidentification [EB/OL].(1987-08-31). https:// archive.ics.uci.edu/dataset/42/glass+identification.

[25]SigillitoV,WingS,HuttonL,et al.Ionosphere[EB/OL].(1988- 12-31).htps://archive.ics.uci. edu/dataset/52/ionosphere.

[26]Nakai K.Ecoli [EB/OL].(1996-08-31).htps://archive. ics. uci. edu/dataset/39/ecoli.

[27]BreimanL.Random forests[J].Machine Learning,20l9,45:5-32.

[28]Freund Y,Schapire RE.Experiments with anew boosting algorithm [C]//Proc of the 14th International Conference on Machine Learning. New York:ACM Press,1996:148-156.

[29]Friedman JH. Greedy function approximation:a gradient boosting machine[J]. The Annals of Statistics,2001,29(5):1189-1232.

[30]Geurts P,Ernst D,Wehenkel L.Extremely randomized trees[J]. Machine Leaming,2006,63(1): 3-42.

[31]FrazierPI.A tutorial onBayesianoptimization[EB/OL].(2018- 07-08).https://arxiv.org/abs/1807.02811.

猜你喜歡
類別分類器聚類
基于云計算的高校產學研資源集成整合共享平臺設計
我國中醫全科醫生隊伍發展現狀及統計優化建議
EL-CSO-NN在線監測變壓器故障預測
中國測試(2025年7期)2025-08-20 00:00:00
基于泛化中心聚類的時間序列缺失數據填補方法
基于FCM聚類的電力用戶需求響應潛力評估
基于改進K-means十十聚類算法的汽車行駛工況構建
基于GraspNet的物體平鋪場景下類別導向抓取算法
基于信息熵的自適應多分類器交通數據插值模型
商品說明書語言文字使用情況的調查與分析
今古文創(2025年20期)2025-08-08 00:00:00
中職生心理健康素養類別及其對主觀幸福感的潛在轉變分析
主站蜘蛛池模板: 亚洲av无码片一区二区三区| 亚洲an第二区国产精品| 亚洲高清日韩heyzo| 男女猛烈无遮挡午夜视频| 国产迷奸在线看| 午夜不卡视频| 日韩中文精品亚洲第三区| 黄色网址免费在线| 中文天堂在线视频| 中文字幕亚洲综久久2021| 欧美日一级片| 国产无码网站在线观看| 久热这里只有精品6| 久草热视频在线| 国产在线日本| 成人免费网站久久久| 久久久久久久蜜桃| 在线国产91| 中文字幕丝袜一区二区| 国产99视频精品免费视频7| 亚洲欧洲日韩综合| 婷婷伊人五月| 国产精品三级av及在线观看| 国产特一级毛片| 一区二区理伦视频| 欧美亚洲国产视频| 成人国产精品网站在线看| 美女被躁出白浆视频播放| 制服丝袜无码每日更新| 亚洲乱码在线播放| 热久久国产| 免费一级α片在线观看| 伊人成人在线| 亚洲精品无码高潮喷水A| 精品视频一区在线观看| 四虎国产永久在线观看| 欧美一区二区福利视频| 久久综合伊人77777| 国产成人无码综合亚洲日韩不卡| 一级毛片网| 在线观看欧美国产| 一级毛片网| 欧美一区精品| 亚洲精品国产首次亮相| av在线人妻熟妇| 永久免费无码成人网站| 一级毛片免费不卡在线| 欧美成人日韩| 亚洲精品无码久久毛片波多野吉| 亚洲综合色婷婷中文字幕| 欧美日韩精品综合在线一区| 99久久精彩视频| 久久久久亚洲av成人网人人软件 | 夜夜操天天摸| 国产噜噜噜视频在线观看 | 99久久精品久久久久久婷婷| 亚洲男人在线天堂| 亚洲一欧洲中文字幕在线| 波多野结衣爽到高潮漏水大喷| 天天激情综合| 伊人久综合| 色综合五月| 视频二区亚洲精品| 中文字幕啪啪| 久久黄色小视频| 日韩经典精品无码一区二区| 日本一区中文字幕最新在线| 天天综合天天综合| 午夜天堂视频| 国产欧美网站| av天堂最新版在线| 亚洲性日韩精品一区二区| 中文纯内无码H| 亚洲人成网址| 福利国产微拍广场一区视频在线| 无码国产伊人| 久久综合结合久久狠狠狠97色| 亚洲第一av网站| 国产一二三区视频| 中文字幕第1页在线播| 日韩大乳视频中文字幕| 亚洲精品久综合蜜|