999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于梯度懲罰生成對(duì)抗網(wǎng)絡(luò)的過(guò)采樣算法

2023-07-27 02:10:04陶家亮魏國(guó)亮宋燕竇軍穆偉蒙

陶家亮 魏國(guó)亮 宋燕 竇軍 穆偉蒙

摘要:在不平衡數(shù)據(jù)分類問(wèn)題中,為了更注重學(xué)習(xí)原始樣本的概率密度分布,提出基于梯度懲罰 生成對(duì)抗網(wǎng)絡(luò)的過(guò)采樣算法(OGPG)。該算法首先引入生成對(duì)抗網(wǎng)絡(luò)(GAN), 有效地學(xué)習(xí)原始數(shù) 據(jù)的概率分布;其次,采用梯度懲罰對(duì)判別器輸入項(xiàng)的梯度二范數(shù)進(jìn)行約束,降低了 GAN 易出現(xiàn) 的過(guò)擬合和梯度消失,合理地生成新樣本。實(shí)驗(yàn)部分,在 14 個(gè)公開(kāi)數(shù)據(jù)集上運(yùn)用k 近鄰和決策樹(shù) 分類器對(duì)比其他過(guò)采樣算法,在評(píng)價(jià)指標(biāo)上均有顯著提升,并利用 Wilcoxon符號(hào)秩檢驗(yàn)驗(yàn)證了該 算法與對(duì)比算法在統(tǒng)計(jì)學(xué)上的差異。結(jié)果表明該算法具有良好的有效性和通用性。

關(guān)鍵詞:? 不平衡數(shù)據(jù) ;過(guò)采樣算法 ;概率密度分布 ;生成對(duì)抗網(wǎng)絡(luò) ;梯度懲罰

中圖分類號(hào):? TP 181???????????? 文獻(xiàn)標(biāo)志碼:?? A

Oversampling algorithm based on gradient penalty generative adversarial network

TAO Jialiang1, WEI Guoliang2, SONG Yan3, DOU Jun3, MU Weimeng1

(1. College of Science, University of Shanghai for Science and Technology, Shanghai 200093, China;2. Business School, University of Shanghai for Science and Technology, Shanghai 200093, China;3. School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)

Abstract: In order to pay more attention to learning for probability density distribution of original samples in imbalanced data classification problem, an oversampling algorithm based on the gradient penalty generation adversarial network (OGPG) was proposed. Firstly, generation adversarial network (GAN) was adopted to effectively learn the probability density distribution of original data. Secondly, the gradient penalty was used to constrain the gradient two-norm of the input term of discriminator, which reduced the overfitting and gradient disappearance that appeared easily in GAN, so that the new samples were reasonably generated. In the experiment, the k-nearest neighbor and decision tree classifiers were adopted to compare the other oversampling algorithms, the evaluation indicators were significantly improved. The Wilcoxon signed-rank test was used to verify the statistical difference between this algorithm and the comparison algorithm. The results show that this algorithm has good effectiveness and generality.

Keywords:?? imbalanced? data; oversampling algorithm; probability? density? distribution; GAN; gradientpenalty

不平衡數(shù)據(jù)的分類問(wèn)題在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域中一直倍受關(guān)注。美國(guó)人工智能協(xié)會(huì)和國(guó)際機(jī)器學(xué)習(xí)會(huì)議分別就這個(gè)問(wèn)題舉行了研討會(huì)。現(xiàn)實(shí)生活中,很多領(lǐng)域都會(huì)出現(xiàn)數(shù)據(jù)不平衡的問(wèn)題,例如金融詐騙[1]、精準(zhǔn)醫(yī)療[2]、故障診斷[3]、人臉識(shí)別[4-5]等。

數(shù)據(jù)不平衡[6]是指數(shù)據(jù)中某些類別的樣本數(shù)量遠(yuǎn)比其他類別的多。通常情況下,少數(shù)類數(shù)據(jù)中包含更多重要的信息,是研究者重點(diǎn)關(guān)注對(duì)象。

目前處理不平衡數(shù)據(jù)分類的方法可以分為兩大類:基于算法層面[7]和基于數(shù)據(jù)層面[8]。算法層面主要包括代價(jià)敏感學(xué)習(xí)[9]和集成學(xué)習(xí)[10]:代價(jià)敏感學(xué)習(xí)通過(guò)最小化貝葉斯風(fēng)險(xiǎn)確定代價(jià)函數(shù),以最小化誤分類代價(jià)為目標(biāo),但是誤分類代價(jià)的先驗(yàn)信息是難以獲得的;集成學(xué)習(xí)是將多個(gè)分類器的分類結(jié)果結(jié)合在一起,提高集成分類器的精度,進(jìn)而關(guān)注少數(shù)類的重要性。但這兩類算法沒(méi)有改變數(shù)據(jù)分布。數(shù)據(jù)層面主要包括欠采樣技術(shù)[11]、過(guò)采樣技術(shù)[12]。數(shù)據(jù)層面的技術(shù)主要通過(guò)改變樣本比例,例如欠采樣技術(shù)主要是通過(guò)減少多數(shù)類樣本,使得多數(shù)類樣本和少數(shù)類樣本趨于平衡,但隨機(jī)地舍棄樣本可能會(huì)丟失潛在的有用信息。隨機(jī)過(guò)采樣方法通過(guò)隨機(jī)復(fù)制少數(shù)類樣本,但是該方法只是簡(jiǎn)單的復(fù)制樣本,增加了過(guò)擬合的風(fēng)險(xiǎn)。目前,過(guò)采樣技術(shù)的應(yīng)用較為廣泛,因?yàn)樵摷夹g(shù)不僅保證了數(shù)據(jù)平衡,還沒(méi)有損失原始數(shù)據(jù)的有效信息。

過(guò)采樣技術(shù)的研究有很多,例如 Chawla等[13] 提出了合成少數(shù)類過(guò)采樣技術(shù)(synthetic minority oversampling technique, SMOTE),該算法在少數(shù)類樣本中與其近鄰樣本之間線性插值合成新樣本,沒(méi)有考慮少數(shù)類樣本內(nèi)部的數(shù)據(jù)分布情況。He 等[14] 提出了自適應(yīng)合成(adaptive synthetic, ADASYN)過(guò)采樣方法,該算法通過(guò)樣本點(diǎn)的學(xué)習(xí)難易程度給少數(shù)類樣本賦予權(quán)值。此外,為了加強(qiáng)對(duì)邊界樣本的學(xué)習(xí),邊界自適應(yīng)合成過(guò)采樣技術(shù)[15](B-SMOTE1, B-SMOTE2)被提出。隨著深度學(xué)習(xí)的高速發(fā)展,基于網(wǎng)絡(luò)過(guò)采樣的算法應(yīng)運(yùn)而生, Goodfellow 等[16] 提出生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)模型,通過(guò)生成器網(wǎng)絡(luò)學(xué)習(xí)原始數(shù)據(jù)的分布。 Douzas 等[17]提出利用條件生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)原始數(shù)據(jù)的分布,再對(duì)少數(shù)類進(jìn)行過(guò)采樣算法。何新林等[18]提出了基于隱變量后驗(yàn)生成對(duì)抗網(wǎng)絡(luò)的過(guò)采樣算法( latent posterior based GAN for oversampling,LGOS),該算法引入隱變量模型,降低了高斯噪聲對(duì)生成樣本的隨機(jī)性影響。但 GAN 在訓(xùn)練過(guò)程易出現(xiàn)過(guò)擬合或梯度消失的風(fēng)險(xiǎn),可以對(duì)損失函數(shù)施加懲罰項(xiàng)[19],降低風(fēng)險(xiǎn)的發(fā)生。上述方法雖然在分類精度上有所提升,但沒(méi)有充分考慮原始數(shù)據(jù)的分布,進(jìn)而影響合成樣本的安全性以及分類結(jié)果。

針對(duì)上述問(wèn)題,本文提出了一種基于梯度懲罰生成對(duì)抗網(wǎng)絡(luò)的過(guò)采樣算法( oversampling algorithm based on the gradient penalty generation adversarial network , OGPG )。該算法引入生成對(duì)抗網(wǎng)絡(luò),通過(guò)網(wǎng)絡(luò)的生成器模型有效地學(xué)習(xí)原始數(shù)據(jù)的概率密度分布;運(yùn)用梯度損失模型對(duì)生成對(duì)抗網(wǎng)絡(luò)判別器輸入項(xiàng)的梯度二范數(shù)進(jìn)行約束,降低過(guò)擬合和梯度消失的風(fēng)險(xiǎn);在14個(gè)公共數(shù)據(jù)集上采用兩個(gè)分類器與多種算法進(jìn)行了對(duì)比實(shí)驗(yàn),并利用 Wilcoxon符號(hào)秩檢驗(yàn)[20]驗(yàn)證了所提算法的有效性和通用性。

1 生成對(duì)抗網(wǎng)絡(luò)模型及梯度懲罰模型

生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)模型是一種無(wú)監(jiān)督的生成模型,由生成器和判別器網(wǎng)絡(luò)組成,能夠有效地學(xué)習(xí)原始數(shù)據(jù)的概率密度分布。梯度懲罰模型是一種基于梯度損失的約束模型,降低了生成對(duì)抗網(wǎng)絡(luò)出現(xiàn)過(guò)擬合和梯度消失的風(fēng)險(xiǎn)。

1.1 生成對(duì)抗網(wǎng)絡(luò)模型

GAN 是 Goodfellow 等提出來(lái)的一種神經(jīng)網(wǎng)絡(luò)模型,也是一種無(wú)監(jiān)督的生成模型。它由生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)兩部分組成,網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。 GAN 也是一個(gè)相互博弈的對(duì)抗模型,是判別器和生成器之間的相互博弈。其中,生成器是通過(guò)對(duì)先驗(yàn)噪聲的學(xué)習(xí),學(xué)習(xí)原始數(shù)據(jù)的概率密度分布;判別器主要對(duì)輸入數(shù)據(jù)進(jìn)行判斷,判斷數(shù)據(jù)是原始數(shù)據(jù)或者是生成器網(wǎng)絡(luò)生成的數(shù)據(jù),輸出的是0~1之間的一個(gè)概率值。設(shè)噪聲樣本為 z ,生成器通過(guò)映射將噪聲樣本轉(zhuǎn)化為生成樣本G(z)。判別器輸出 D(x)為0~1之間的概率值,可得其損失函數(shù)為

式中:E 表示期望值;Pr 表示真實(shí)樣本 x 的概率密度分布; Pz 表示噪聲樣本 z 的概率密度分布。

對(duì)于 GAN 模型的訓(xùn)練階段可以大致分為3個(gè)階段,分別記為初始階段、恰當(dāng)階段和過(guò)擬合階段。為了能更清楚地解釋上述現(xiàn)象,通過(guò)公開(kāi)的 MNIST 手寫數(shù)字體數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果見(jiàn)圖2。 MNIST 數(shù)據(jù)集包含60000個(gè)訓(xùn)練集樣本和10000個(gè)測(cè)試集樣本,采用數(shù)據(jù)集的訓(xùn)練集樣本對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。初始階段對(duì)應(yīng)訓(xùn)練為500次;恰當(dāng)階段對(duì)應(yīng)訓(xùn)練為3000次;過(guò)擬合階段對(duì)應(yīng)訓(xùn)練為8000次。

1.2 梯度懲罰模型

梯度懲罰模型是 Gulrajani 等[21]提出來(lái)的針對(duì) Wasserstein GAN 算法[22]存在生成樣本的質(zhì)量較差和模型不收斂等問(wèn)題的約束懲罰算法模型。

對(duì)于該梯度懲罰模型,設(shè)Pr ,Pg 是緊湊度量空間的兩個(gè)概率分布, f *是可微的 L-利普希茨函數(shù),處理下列優(yōu)化問(wèn)題:

設(shè)π是Pr ,Pg 的聯(lián)合優(yōu)化組合函數(shù),定義距離度量 Wasserstein 距離為

式中:y 為符合聯(lián)合分布π的真實(shí)樣本;Ⅱ(Pr ; Pg )是聯(lián)合分布π(x;y)的集合。由于f *可微,則有

即,對(duì)于所有的 L-利普希茨函數(shù)幾乎都滿足,若該函數(shù)可微則處處都有梯度,且梯度的范數(shù)值為1。根據(jù)上述理論知識(shí), Ishaan 等研究者將梯度范數(shù)約束在不大于1的范圍之內(nèi),提出如下新的約束懲罰:

式中: LGP表示梯度懲罰損失;?(x)表示訓(xùn)練樣本;ⅡΔ?(x)Dw(?(x))Ⅱ2表示 Wasserstein GAN 中判別器網(wǎng)絡(luò)輸入項(xiàng)梯度的二范數(shù);α是梯度懲罰因子; w 是判別器網(wǎng)絡(luò)的參數(shù),即D(?(x); w)。

2 基于梯度懲罰生成對(duì)抗網(wǎng)絡(luò)的過(guò)采樣算法

由于傳統(tǒng)的過(guò)采樣算法沒(méi)有充分考慮原始樣本的概率密度分布,且易導(dǎo)致生成低質(zhì)量的樣本,因此本文引入生成對(duì)抗網(wǎng)絡(luò)模型和梯度懲罰模型,提出了一種基于梯度懲罰生成對(duì)抗網(wǎng)絡(luò)的過(guò)采樣算法(OGPG)來(lái)解決上述問(wèn)題。

在 OGPG 算法中,為防止少數(shù)類樣本過(guò)少導(dǎo)致網(wǎng)絡(luò)模型學(xué)習(xí)不到原始數(shù)據(jù)的有效信息,先對(duì)原始數(shù)據(jù)中的少類樣本自適應(yīng)生成部分樣本。該算法主要包括3個(gè)步驟。

a.去除噪聲樣本。

在數(shù)據(jù)預(yù)處理階段,先處理原始數(shù)據(jù)中存在的噪聲數(shù)據(jù)。對(duì)每個(gè)樣本采用 k 近鄰算法,計(jì)算樣本點(diǎn)與其他樣本點(diǎn)的距離,找到該樣本點(diǎn)的 k 個(gè)最近鄰樣本點(diǎn),如果該樣本點(diǎn)的標(biāo)簽與 k 近鄰中的所有樣本點(diǎn)的標(biāo)簽不一致,則認(rèn)定為噪聲數(shù)據(jù),并刪除該樣本點(diǎn)。

b.合成部分少數(shù)類樣本。

在步驟(a)的基礎(chǔ)上,通過(guò)線性插值優(yōu)先合成部分少數(shù)類樣本數(shù)據(jù),通過(guò)合成后的樣本,學(xué)習(xí)樣本的均值和方差,以便后續(xù)訓(xùn)練網(wǎng)絡(luò)生成新的樣本。

首先,設(shè) T 為去噪后原始數(shù)據(jù)的總樣本集合, Tmaj為多數(shù)類樣本集合, Tmin為少數(shù)類樣本集合,則有

過(guò)采樣所需要的生成的樣本量

接著,采用線性插值合成部分少數(shù)類樣本,對(duì)于任意的Tmin中的一個(gè)樣本點(diǎn)xi,運(yùn)用歐氏距離度量,隨機(jī)選取 k 近鄰中的一個(gè)近鄰樣本xj,通過(guò)線性插值合成樣本?(x),

式中,? e [0;1],通過(guò)線性插值合成的樣本量集合記為T syn。通過(guò)合成少數(shù)類樣本后得到新的少數(shù)類樣本集合記為Tnew_min 。其中,

c.生成新樣本。

結(jié)合生成對(duì)抗網(wǎng)絡(luò)模型和梯度懲罰模型優(yōu)良性質(zhì),針對(duì)過(guò)采樣問(wèn)題提出了改進(jìn)后的損失函數(shù)為

式中, P?(x)表示真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布采樣的線性均勻采樣分布,即?(x)=βxr+(1一β)xg ;β e (0;1)。

通過(guò)步驟(a)的去除噪聲和步驟(b)合成部分少數(shù)類樣本之后,采用梯度懲罰生成對(duì)抗網(wǎng)絡(luò)算法生成新樣本。

首先,把合成的新的少數(shù)類樣本記為新少數(shù)類樣本,即Tnew_min 。通過(guò)計(jì)算得到該樣本的均值和方差,分別記為?和σ2。對(duì)于噪聲樣本 z ,假設(shè)滿足

噪聲數(shù)據(jù)通過(guò)映射將數(shù)據(jù)轉(zhuǎn)化為生成樣本

接著,將噪聲樣本和新少數(shù)類樣本分別用生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)進(jìn)行迭代,計(jì)算各個(gè)網(wǎng)絡(luò)及梯度懲罰的損失,由式(12)得到判別器損失 LD 、生成器損失 LG 和梯度懲罰損失 LGP ,分別為

式中: x為訓(xùn)練樣本;∥ΔxD(x)∥2為求該樣本的梯度的二范數(shù)。

再設(shè)置判別器網(wǎng)絡(luò)和生成器網(wǎng)絡(luò)的收斂閾值,在達(dá)到閾值之后停止迭代,實(shí)驗(yàn)設(shè)置循環(huán)迭代閾值為3000次。最后,通過(guò)網(wǎng)絡(luò)收斂時(shí)生成器生成的樣本即為新樣本,通過(guò)梯度懲罰的生成對(duì)抗網(wǎng)絡(luò)模型生成的樣本集合記為Tgen。

根據(jù)上述對(duì)于 OGPG 算法步驟的描述,給出算法的合成樣本示意圖,見(jiàn)圖3。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集

為了驗(yàn)證 OGPG 算法的有效性,實(shí)驗(yàn)從 UCI 機(jī)器學(xué)習(xí)庫(kù)中挑選了14組二類不平衡數(shù)據(jù)集,其樣本量、特征數(shù)以及不平衡率(imbalanced ratio ,IR)都不相同。表1是所選取的數(shù)據(jù)集的詳細(xì)信息:

3.2 評(píng)價(jià)指標(biāo)

在處理不平衡數(shù)據(jù)的分類問(wèn)題的時(shí)候,分類器的超平面會(huì)向少數(shù)類樣本偏移,因此精確率不適合作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)采用 Fm 和 Gm 作為評(píng)價(jià)指標(biāo)[23]。其中 Fm 表示單一類別精確率和召回率的均衡指標(biāo), Gm 表示召回兩個(gè)類別數(shù)據(jù)的綜合表現(xiàn)指標(biāo)。Fm 和 Gm 的計(jì)算式如下:

式中: TP 表示將正例樣本預(yù)測(cè)為正例;FP 表示將正例樣本預(yù)測(cè)為反例;FN 表示將反例樣本預(yù)測(cè)為正例; TN表示將反例樣本預(yù)測(cè)為反例; P 為查準(zhǔn)率; R 為召回率; S 為特異性。

3.3 實(shí)驗(yàn)分析

為了驗(yàn)證 OGPG 算法的優(yōu)越性,首先通過(guò)前8組數(shù)據(jù)集對(duì)比了 SMOTE, ADASYN ,B-SMOTE, CBSO[24]傳統(tǒng)過(guò)采樣算法。其次通過(guò)后4組數(shù)據(jù)集對(duì)比了采用 GAN 的 LGOS 算法。此外,在對(duì)比傳統(tǒng)算法中,采用 k 近鄰分類器和決策樹(shù)分類器隨機(jī)選取70%的數(shù)據(jù)作為測(cè)試集,剩余30%的數(shù)據(jù)作為測(cè)試集,每個(gè)數(shù)據(jù)集取5次實(shí)驗(yàn)結(jié)果的平均值作為報(bào)告結(jié)果。在對(duì)比 LGOS 算法中采用決策樹(shù)分類器選取80%的數(shù)據(jù)作為測(cè)試集,剩余20%的數(shù)據(jù)作為測(cè)試集,每個(gè)數(shù)據(jù)集取10次實(shí)驗(yàn)結(jié)果的平均值作為報(bào)告結(jié)果。粗體表示的是實(shí)驗(yàn)的最優(yōu)值。通過(guò)上述實(shí)驗(yàn)驗(yàn)證本算法的有效性和泛化能力。所有實(shí)驗(yàn)都是在2.80 GHz CPU 、16.0 GB 內(nèi)存的電腦上運(yùn)行的,軟件環(huán)境是 Python3.7。

從表2和表3的結(jié)果可以看出,無(wú)論是 k 近鄰分類器還是決策樹(shù)分類器, OGPG 算法在 Fm, Gm 上均獲得了明顯提升。在 Fm 指標(biāo)下,8個(gè)數(shù)據(jù)集中都表現(xiàn)較好;在 Gm 指標(biāo)下,8個(gè)數(shù)據(jù)集中7個(gè)表現(xiàn)相對(duì)較好。通過(guò)對(duì)表2、表3對(duì)各指標(biāo)的分析,可以發(fā)現(xiàn)算法在 Gm 指標(biāo)下 abalone3vs11數(shù)據(jù)集上表現(xiàn)相對(duì)沒(méi)有優(yōu)勢(shì)。該數(shù)據(jù)集在 CBSO 算法上表現(xiàn)相對(duì)較好,之所以出現(xiàn)該現(xiàn)象,是因?yàn)閿?shù)據(jù)集中存在邊界較難學(xué)習(xí)的樣本, OGPG 算法較難學(xué)習(xí)到該樣本的有效信息,導(dǎo)致評(píng)價(jià)指標(biāo)相對(duì)較低。但是從結(jié)果上看仍然非常接近最優(yōu)指標(biāo),充分說(shuō)明了 OGPG 算法的有效性。通過(guò)上述對(duì)表2和表3的結(jié)果分析,驗(yàn)證了 OGPG 算法的有效性。

為了驗(yàn)證 OGPG 算法的穩(wěn)定性,實(shí)驗(yàn)繪制了數(shù)據(jù)集在 Fm 指標(biāo)和 Gm 指標(biāo)下的箱線圖,分別見(jiàn)圖4和圖5。箱線圖包括一個(gè)矩形箱體和上下兩條線,箱體中間的線為中位線,上限和下限分別為上四分位數(shù)和下四分位數(shù),箱子的寬度顯示數(shù)據(jù)的波動(dòng)程度,箱體的上下方各有一條線是數(shù)據(jù)的最大值和最小值,超出最大最小值線的數(shù)據(jù)為異常數(shù)據(jù)。從圖4和圖5中可以看出, OGPG算法的數(shù)據(jù)波動(dòng)性相對(duì)較小,數(shù)據(jù)的中值、上下四分位數(shù)與其他算法相比要更加穩(wěn)定,且數(shù)值也優(yōu)于其他算法,這說(shuō)明了 OGPG 算法穩(wěn)定性較好。

為了驗(yàn)證 OGPG 算法在統(tǒng)計(jì)學(xué)上是否具有顯著性,本文采用 Wilcoxon符號(hào)秩檢驗(yàn)來(lái)評(píng)估所提算法和其他對(duì)比算法之間的顯著性差異。表4~表7是 Wilcoxon符號(hào)秩檢驗(yàn)的結(jié)果,其中 R+表示所提算法的秩和, R–表示對(duì)比算法的秩和,置信度是95%,p 為0.05。在 k 近鄰分類器下,可以看到,都是拒絕原假設(shè);在決策樹(shù)分類器下,在對(duì)比算法 ADASYN 、CBSO 在 Gm 指標(biāo)下是接受原假設(shè),其余都是拒絕原假設(shè),說(shuō)明 OGPG 算法相對(duì)于其他算法具有較顯著的差異性。結(jié)合表2、表3在各指標(biāo)的綜合表現(xiàn)情況,說(shuō)明 OGPG 算法相對(duì)于傳統(tǒng)算法有顯著的有效性。

為了全面驗(yàn)證算法的有效性,實(shí)驗(yàn)還對(duì)比了文獻(xiàn)[18]的 LGOS 算法,即采用 GAN 的過(guò)采樣算法,如表8所示。從表8的結(jié)果可以看出,在決策樹(shù)分類器下,無(wú)論是 Fm 還是 Gm 指標(biāo),該算法均有較為明顯的提升。除此之外,在前8組數(shù)據(jù)集中,樣本量相對(duì)較少,在對(duì)比傳統(tǒng)算法中有顯著提升;在后6組數(shù)據(jù)集中,數(shù)據(jù)樣本量相對(duì)較多,在對(duì)比算法中同樣有著較為明顯的提升,說(shuō)明了算法的有效性。

OGPG 算法和 LGOS 算法之間的顯著性差異見(jiàn)表9。可以看出,在置信度為95%的情況下,即 p 不大于0.05的情況下,均拒絕原假設(shè)。說(shuō)明 OGPG 算法相對(duì)于 LGOS 算法具有顯著的差異性。通過(guò)該部分實(shí)驗(yàn)也說(shuō)明了 OGPG 算法具有顯著的有效性。

4 結(jié)束語(yǔ)

針對(duì)不平衡數(shù)據(jù)分類問(wèn)題,傳統(tǒng)的過(guò)采樣算法沒(méi)有充分考慮原始數(shù)據(jù)的概率密度分布,從而導(dǎo)致生成的樣本不具有較強(qiáng)的安全性。通過(guò)引入生成對(duì)抗網(wǎng)絡(luò)以及梯度懲罰模型,提出了一種基于梯度懲罰生成對(duì)抗網(wǎng)絡(luò)的過(guò)采樣算法。在該算法中,首先引入生成對(duì)抗網(wǎng)絡(luò),通過(guò)生成器網(wǎng)絡(luò)有效地學(xué)習(xí)原始數(shù)據(jù)的概率密度;其次,由于生成對(duì)抗網(wǎng)絡(luò)易出現(xiàn)過(guò)擬合或梯度消失等現(xiàn)象,因此采用梯度懲罰來(lái)對(duì)判別器網(wǎng)絡(luò)輸入項(xiàng)的梯度二范數(shù)進(jìn)行約束,從而有效地降低了該情況的發(fā)生,使得生成器既能有效學(xué)習(xí)數(shù)據(jù)的概率密度分布又能合理地生成新樣本;最后,在14個(gè)公共數(shù)據(jù)集上采用兩個(gè)分類器與多種算法進(jìn)行了對(duì)比實(shí)驗(yàn),并利用 Wilcoxon符號(hào)秩檢驗(yàn)驗(yàn)證了所提算法的有效性和通用性。當(dāng)然,該算法也有一定的缺點(diǎn),在時(shí)間復(fù)雜度上,因?yàn)樗惴ㄒ肓松疃葘W(xué)習(xí)網(wǎng)絡(luò),所以時(shí)間復(fù)雜度上較高,這也是后續(xù)將要努力的方向。

參考文獻(xiàn):

[1] FIORE U, DE SANTIS A, PERLA F, et al. Using generative? adversarial? networks? for? improving classification effectiveness in credit card fraud detection[J]. Information Sciences, 2019, 479:448–455.

[2] FOTOUHI S, ASADI S, KATTAN M W. A comprehensive data level analysis for cancer diagnosis on imbalanced data[J]. Journal of Biomedical Informatics, 2019, 90:103089.

[3] MENA L J, GONZALEZ J A. Machine learning for imbalanced? datasets:? application? in? medical diagnostic[C]//Proceedings of the Nineteenth International Florida? Artificial? Intelligence? Research? Society Conference. Melbourne Beach: AAAI Press, 2006:574–579.

[4]武文娟, 李勇. Emfacenet:一種輕量級(jí)人臉識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)[J/OL].小型微型計(jì)算機(jī)系統(tǒng), 2021:1–6.(2021-12-17). http://kns.cnki.net/kcms/detail/21.1106.tp.20211214.1436.004.html.

[5]周建含, 李英梅, 李文昊.一種改進(jìn)的半監(jiān)督集成軟件缺陷預(yù)測(cè)方法[J].小型微型計(jì)算機(jī)系統(tǒng) , 2021, 42(10):2196–2202.

[6] ZHANG H L, LIU G S, PAN L, et al. GEV regression with convex? loss? applied? to? imbalanced? binary classification[C]//2016 IEEE First International Conference on Data Science in Cyberspace (DSC). Changsha: IEEE, 2016:532–537.

[7] JING X Y, ZHANG X Y, ZHU X K, et al. Multiset feature learning for highly imbalanced data classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(1):139–156.

[8] ZHENG Z Y, CAI Y P, LI Y. Oversampling method for imbalanced classification[J]. Computing and Informatics, 2015, 34(5):1017–1037.

[9] CASTRO C L, BRAGA A P. Novel cost-sensitive approach to improve the multilayer perceptron performance on imbalanced data[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(6):888–899.

[10] WANG C, DENG C Y, YU Z L, et al. Adaptive ensemble of classifiers with regularization for imbalanced dataclassification[J]. Information Fusion, 2021, 69:81–102.

[11]周傳華, 朱俊杰, 徐文倩, 等.基于聚類欠采樣的集成分類算法[J].計(jì)算機(jī)與現(xiàn)代化, 2021(11):72–76.

[12]陳剛, 郭曉梅.基于時(shí)間序列模型的非平衡數(shù)據(jù)的過(guò)采樣算法[J].信息與控制, 2021, 50(5):522–530.

[13] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16:321–357.

[14] HE H B, BAI Y, GARCIA E A, et al. ADASYN: Adaptive synthetic? sampling? approach? for? imbalanced learning[C]//2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). HongKong, China: IEEE, 2008:1322–1328.

[15] HAN H, WANG W Y, MAO B H. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning[C]//International ?Conference? on? Intelligent Computing. Berlin, Heidelberg: Springer, 2005:878–887.

[16] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2014:2672–2680.

[17] DOUZAS G,? BACAO F. Geometric? SMOTE a geometrically? enhanced? drop-in? replacement? for SMOTE[J]. Information Sciences, 2019, 501:118–135.

[18]何新林, 戚宗鋒, 李建勛.基于隱變量后驗(yàn)生成對(duì)抗網(wǎng)絡(luò)的不平衡學(xué)習(xí)[J].上海交通大學(xué)學(xué)報(bào) , 2021, 55(5):557–565.

[19] LUO X, CHANG X H, BAN X J. Regression and classification using extreme learning machine based on L1- norm and L2-norm[J]. Neurocomputing, 2016, 174:179–186.

[20] CUZICK J. A Wilcoxon ‐ type test for trend[J]. Statistics in Medicine, 1985, 4(1):87–90.

[21] GULRAJANI I, AHMED F, ARJOVSKY M, et al.Improved training of Wasserstein GANs[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc. , 2017:5769–5779.

[22] ADLER? J,? LUNZ? S.? Banach? Wasserstein GAN[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal:Curran Associates Inc. , 2018:6755–6764.

[23] HE H B, GARCIA E A. Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9):1263–1284.

[24] YU Y, GAO S C, CHENG S, et al. CBSO: a memetic brain storm optimization with chaotic local search[J]. Memetic Computing, 2018, 10(4):353–367.

(編輯:董 偉)

主站蜘蛛池模板: 亚洲视频色图| 国产亚洲视频免费播放| 2020国产精品视频| 日韩在线视频网| 久久婷婷五月综合97色| 国产精品污视频| 一级毛片在线播放免费观看| 国产不卡国语在线| 欧美区一区| 久久综合亚洲色一区二区三区| 人人爽人人爽人人片| 色成人亚洲| 免费看a级毛片| 亚洲免费福利视频| 99这里只有精品免费视频| 日韩av高清无码一区二区三区| 成人自拍视频在线观看| 国产精品无码一区二区桃花视频| 992tv国产人成在线观看| 久久精品日日躁夜夜躁欧美| 无码av免费不卡在线观看| 亚洲综合亚洲国产尤物| 日韩黄色大片免费看| 国产综合精品日本亚洲777| 亚洲一区二区三区国产精品| 亚洲a级毛片| 免费在线a视频| 19国产精品麻豆免费观看| 在线精品欧美日韩| 潮喷在线无码白浆| 重口调教一区二区视频| 亚洲综合婷婷激情| 日韩中文无码av超清 | 91国内外精品自在线播放| 亚洲成人动漫在线| 亚洲AV无码乱码在线观看裸奔| 在线无码私拍| 国产菊爆视频在线观看| 国产高清在线观看91精品| 色综合狠狠操| 亚洲日韩AV无码一区二区三区人| 日韩a级片视频| 成人精品视频一区二区在线| 日本色综合网| 一级毛片在线免费视频| 国产另类视频| 中文字幕在线播放不卡| 久996视频精品免费观看| 亚洲VA中文字幕| 极品尤物av美乳在线观看| 国产欧美在线观看一区| 亚洲国产精品成人久久综合影院| 国产成人高清精品免费5388| 伊人久久久久久久| 日韩人妻无码制服丝袜视频| 亚洲无码精彩视频在线观看| 免费a级毛片18以上观看精品| 亚洲区欧美区| 影音先锋丝袜制服| 天堂av综合网| 国产欧美中文字幕| 91色爱欧美精品www| a在线观看免费| 重口调教一区二区视频| 91亚洲精品国产自在现线| 国产精品福利在线观看无码卡| 日韩精品亚洲人旧成在线| 亚洲日韩欧美在线观看| 亚洲大学生视频在线播放| 伦精品一区二区三区视频| 亚洲Av综合日韩精品久久久| 精品国产Av电影无码久久久| 一级毛片高清| 国产亚洲第一页| 99久久婷婷国产综合精| 国产AV无码专区亚洲精品网站| 2020国产精品视频| 日韩国产精品无码一区二区三区| 98超碰在线观看| 香蕉久人久人青草青草| 国产精品自在线天天看片| 亚洲AV无码一区二区三区牲色|