999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生成對(duì)抗網(wǎng)絡(luò)在數(shù)據(jù)異常檢測(cè)中的研究

2022-03-02 08:31:48莊躍生林珊玲林志賢張永愛(ài)郭太良
關(guān)鍵詞:檢測(cè)模型

莊躍生,林珊玲,林志賢,張永愛(ài),郭太良

1.福州大學(xué) 物理與信息工程學(xué)院,福州350116

2.中國(guó)福建光電信息科學(xué)與技術(shù)創(chuàng)新實(shí)驗(yàn)室,福州350116

3.福州大學(xué) 先進(jìn)制造學(xué)院,福建 晉江362200

隨著數(shù)據(jù)分析和數(shù)據(jù)挖掘領(lǐng)域的科學(xué)家對(duì)機(jī)器學(xué)習(xí)領(lǐng)域不斷深入研究,異常檢測(cè)逐漸成為當(dāng)前研究熱門(mén)問(wèn)題。異常檢測(cè)本質(zhì)上是數(shù)據(jù)不平衡的分類問(wèn)題,在信用卡的反欺詐、網(wǎng)絡(luò)入侵檢測(cè)、工業(yè)設(shè)備故障檢測(cè)等生產(chǎn)生活領(lǐng)域應(yīng)用廣泛[1-3]。相比于大量存在的正常數(shù)據(jù),異常數(shù)據(jù)的數(shù)據(jù)量少,并且和正常數(shù)據(jù)表達(dá)方式差異較大。由于數(shù)據(jù)極度不平衡,加上正常數(shù)據(jù)的特征和異常的數(shù)據(jù)特征差異較大,常用的方法訓(xùn)練難度大,往往無(wú)法對(duì)異常數(shù)據(jù)進(jìn)行有效檢測(cè)[4-5]。

1 相關(guān)工作

傳統(tǒng)的異常檢測(cè)法如重采樣對(duì)數(shù)據(jù)不平衡樣本進(jìn)行預(yù)處理,通過(guò)下采樣或者上采樣的方式,使得數(shù)據(jù)達(dá)到平衡再輸入分類器中訓(xùn)練,從而檢測(cè)出異常數(shù)據(jù)[6]。但重采樣會(huì)引入噪聲,容易產(chǎn)生過(guò)擬合現(xiàn)象,對(duì)數(shù)據(jù)采樣造成數(shù)據(jù)缺失而丟失有價(jià)值的特征信息,會(huì)對(duì)異常檢測(cè)的分類效果造成極大影響。吳磊等人提出結(jié)合數(shù)據(jù)重采樣方法,組合過(guò)采樣和欠采樣,通過(guò)對(duì)BSM 和CBOS進(jìn)行數(shù)據(jù)清洗使數(shù)據(jù)平衡,實(shí)驗(yàn)結(jié)果比大多數(shù)據(jù)集和不同分類器不做數(shù)據(jù)清洗效果好,但無(wú)法捕獲原始少數(shù)異常數(shù)據(jù)特征的復(fù)雜性[7]。

機(jī)器學(xué)習(xí)模型逐漸成為基準(zhǔn)檢測(cè)方法,在低維數(shù)據(jù)中,衡量相似度方法的模型性能突出。任家東等人提出結(jié)合使用K近鄰(K-nearest neighbor,KNN)離群點(diǎn)檢測(cè)算法檢測(cè)并隔離離群數(shù)據(jù),利用網(wǎng)絡(luò)流量相似度原理,使用類比劃分消除異常行為的干擾,再用多層次隨機(jī)森林(random forest,RF)對(duì)網(wǎng)絡(luò)入侵進(jìn)行有效檢測(cè)[8]。高維數(shù)據(jù)主要是控制數(shù)據(jù)維度,利用孤立森林(isolation forest,IF)或者主成分分析(principal component analysis,PCA)方法尋找好的空間表示,降低數(shù)據(jù)維度。徐東等人提出改進(jìn)IF算法,用模擬退火算法選擇精度高的隔離樹(shù)優(yōu)化森林,從而改進(jìn)IF構(gòu)建進(jìn)行異常數(shù)據(jù)檢測(cè)[9]。但這些方法的預(yù)測(cè)能力有限而且運(yùn)算開(kāi)銷(xiāo)較大,無(wú)法在數(shù)據(jù)規(guī)模和維度比較大的數(shù)據(jù)集上進(jìn)行有效檢測(cè)。

近年來(lái),深度學(xué)習(xí)在各個(gè)領(lǐng)域的研究都取得很好的進(jìn)展,許多研究者將神經(jīng)網(wǎng)絡(luò)組合而成的生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)模型應(yīng)用到異常檢測(cè)任務(wù)中。基于GAN的異常檢測(cè)方法使用數(shù)據(jù)中大量的正常樣本訓(xùn)練整個(gè)模型,生成足夠多正常樣本,同時(shí)輸入少量異常樣本訓(xùn)練生成對(duì)應(yīng)的正常樣本,通過(guò)比較GAN生成正常樣本與異常樣本對(duì)應(yīng)生成的樣本進(jìn)行異常檢測(cè)。因此基于GAN的檢測(cè)方法無(wú)需收集大量異常數(shù)據(jù),而使用正常數(shù)據(jù)訓(xùn)練就可以達(dá)到異常檢測(cè)目的。此外,在醫(yī)學(xué)圖像處理中常用GAN進(jìn)行數(shù)據(jù)補(bǔ)充,生成高質(zhì)量圖片輔助判別以解決數(shù)據(jù)稀缺和數(shù)據(jù)不平衡問(wèn)題,從而達(dá)到異常圖像準(zhǔn)確分類效果。Schlegel 等人提出使用GAN進(jìn)行醫(yī)學(xué)圖像異常檢測(cè),利用GAN的生成器從噪聲輸入中訓(xùn)練生成足夠逼真圖像,根據(jù)異常圖像和生成圖像間的差異訓(xùn)練判別器以更新輸入噪聲,最終生成一批和異常圖像相似的正常圖像,通過(guò)大量的圖片對(duì)比進(jìn)行醫(yī)學(xué)影像異常檢測(cè)[10]。Frid-Adar 等人使用DCGAN(deep convolutional GAN)合成肝臟CT 不同類別的病變樣本,對(duì)于每個(gè)類別樣本,訓(xùn)練獨(dú)立的生成模型,對(duì)比傳統(tǒng)的數(shù)據(jù)擴(kuò)充方法如數(shù)據(jù)反轉(zhuǎn)、裁剪等,其兩個(gè)分類性能指標(biāo)靈敏度和特異性分別提高7.1%與4.0%,因此通過(guò)GAN 進(jìn)行醫(yī)學(xué)圖像數(shù)據(jù)擴(kuò)充能夠改善分類效果[11]。然而,使用GAN 無(wú)法控制生成樣本的類型,同時(shí)利用GAN 進(jìn)行圖像異常檢測(cè)需要一定人為經(jīng)驗(yàn)做篩選比對(duì),在圖像研究領(lǐng)域成本極大[12]。GAN的許多變種如InfoGAN 通過(guò)使用連續(xù)隱編碼能夠捕獲數(shù)據(jù)特征發(fā)生的細(xì)微變化,但其仍舊無(wú)法保證生成所需類別的樣本,因此在高度數(shù)據(jù)不平衡的異常檢測(cè)任務(wù)中,利用GAN做數(shù)據(jù)補(bǔ)充可能會(huì)產(chǎn)生極大的誤差。

針對(duì)目前異常檢測(cè)方法中存在的各種問(wèn)題,在生成對(duì)抗網(wǎng)絡(luò)基礎(chǔ)上提出一種生成對(duì)抗網(wǎng)絡(luò)組合隨機(jī)森林(generative adversarial network-random forest,GAN-RF)的新模型,結(jié)合InfoGAN和推理神經(jīng)網(wǎng)絡(luò)分別生成數(shù)據(jù)平衡樣本和樣本所對(duì)應(yīng)的標(biāo)簽,再使用第二個(gè)GAN 對(duì)推理神經(jīng)網(wǎng)絡(luò)進(jìn)行標(biāo)簽生成優(yōu)化,最后利用隨機(jī)森林算法對(duì)整個(gè)模型進(jìn)行優(yōu)化,從而提高推理神經(jīng)網(wǎng)絡(luò)輸出準(zhǔn)確性。在多個(gè)數(shù)據(jù)集上實(shí)驗(yàn)表明,GAN-RF可以在異常數(shù)據(jù)量較少情況下進(jìn)行數(shù)據(jù)擴(kuò)充,并且針對(duì)GAN 及其變種InfoGAN 無(wú)法控制生成樣本類別問(wèn)題進(jìn)行優(yōu)化。相比于傳統(tǒng)的數(shù)據(jù)補(bǔ)充方法,使用生成數(shù)據(jù)和真實(shí)數(shù)據(jù)直接訓(xùn)練分類器達(dá)到異常樣本分類效果,GAN-RF使用生成數(shù)據(jù)輔助訓(xùn)練整個(gè)模型,利用推理網(wǎng)絡(luò)對(duì)真實(shí)數(shù)據(jù)進(jìn)行標(biāo)簽輸出預(yù)測(cè),以達(dá)到更高的推理準(zhǔn)確率。同時(shí)克服高維、大規(guī)模異常數(shù)據(jù)檢測(cè)的不穩(wěn)定性,保留原始數(shù)據(jù)中的重要特征信息,對(duì)各個(gè)領(lǐng)域大規(guī)模數(shù)據(jù)中存在的少量異常數(shù)據(jù)的檢測(cè)具有很好的應(yīng)用價(jià)值。

2 GAN-RF的技術(shù)原理

2.1 生成對(duì)抗網(wǎng)絡(luò)

GAN 的核心思想是一個(gè)“博弈過(guò)程”,主要包括訓(xùn)練兩個(gè)模型,即一個(gè)能捕獲數(shù)據(jù)分布的生成器和一個(gè)輸出樣本來(lái)源于真實(shí)數(shù)據(jù)或者生成數(shù)據(jù)概率的判別器。生成器的訓(xùn)練目的是學(xué)習(xí)生成數(shù)據(jù)分布以匹配真實(shí)數(shù)據(jù)的分布,而判別器的訓(xùn)練目的則是最大化正確分配真實(shí)樣本和生成樣本的概率[13]。整個(gè)網(wǎng)絡(luò)的目標(biāo)函數(shù)如式(1)所示。

其中,Pdata(x)和Pz(z)分別代表真實(shí)樣本和生成樣本的分布,z是輸入噪聲變量,G(z)是生成樣本。同時(shí)訓(xùn)練生成器和判別器,在理想情況下,模型的目標(biāo)函數(shù)收斂,生成樣本的分布Pz(z)趨近于真實(shí)樣本分布Pdata(x),判別器無(wú)法區(qū)分輸入樣本的來(lái)源。

2.2 InfoGAN

GAN 輸入連續(xù)隨機(jī)噪聲z,無(wú)法通過(guò)控制z的某些維度與其數(shù)據(jù)語(yǔ)義特征相對(duì)應(yīng),即無(wú)法學(xué)到可解釋性的特征。InfoGAN 在此基礎(chǔ)上將原始輸入噪聲z分解為具有解釋性的隱編碼c與隨機(jī)性噪聲n,其中c還可分為控制生成樣本標(biāo)簽的離散編碼和控制數(shù)據(jù)維度特征的連續(xù)編碼,生成樣本表示為G(n,c);結(jié)合互信息論知識(shí),令c與G(n,c)關(guān)聯(lián)性最大,即兩者互信息最大[14-15]。整個(gè)模型目標(biāo)函數(shù)如式(2)所示。

其中,V(D,G)是GAN 的損失函數(shù),如式(1)所示,I(c;G(n,c))是互信息項(xiàng)。Q是隱編碼神經(jīng)網(wǎng)絡(luò),通過(guò)使用變分分布Q(c|x)逼近互信息項(xiàng)中的后驗(yàn)分布P(c|x)計(jì)算得到互信息下界,互信息項(xiàng)改寫(xiě)成如式(3)所示。

此時(shí)互信息項(xiàng)就可由蒙特卡洛計(jì)算,或者使用重參數(shù)技巧計(jì)算G并通過(guò)Q預(yù)測(cè)出離散編碼和連續(xù)編碼的均值與方差,設(shè)定H(c)為常數(shù)項(xiàng),從而實(shí)現(xiàn)最大化互信息項(xiàng)lgQ(c|x)。

由此整個(gè)模型目標(biāo)函數(shù)可以改寫(xiě)成如式(4)所示。

2.3 隨機(jī)森林與Hyperband算法

隨機(jī)森林是最常用的分類模型。首先通過(guò)自助采樣方法隨機(jī)對(duì)原始樣本進(jìn)行抽樣作為決策樹(shù)根節(jié)點(diǎn)處的樣本;之后對(duì)樣本屬性特征采用決策樹(shù)信息增益計(jì)算方法作為分裂指標(biāo),并劃分根節(jié)點(diǎn)直到葉子節(jié)點(diǎn);重復(fù)以上步驟后完成所有決策樹(shù)構(gòu)建,組成完整的隨機(jī)森林,并且決策樹(shù)間互不關(guān)聯(lián);最后基于不同決策樹(shù)的預(yù)測(cè),使用投票法則獲得最終得分并輸出分類結(jié)果[16]。

傳統(tǒng)的隨機(jī)搜索(random search)、網(wǎng)格搜索(grid search)和基于貝葉斯優(yōu)化(Hyperopt)的參數(shù)調(diào)整方法都存在某些弊端,如花費(fèi)時(shí)間長(zhǎng),錯(cuò)失參數(shù)空間重要信息等;而Hyperband 算法搜索最優(yōu)超參數(shù)速度快。Hyperband使用早停策略,輸入每個(gè)超參數(shù)組所能分配最大計(jì)算資源和每次訓(xùn)練淘汰超參數(shù)組比例,在每次訓(xùn)練Hyperband丟棄部分參數(shù)組過(guò)程中,使用學(xué)習(xí)曲線擬合每組超參數(shù)組在驗(yàn)證集上的誤差并計(jì)算對(duì)應(yīng)概率值,當(dāng)某一超參數(shù)組對(duì)應(yīng)概率在特定閾值下達(dá)到最佳,則Hyperband停止最佳超參數(shù)組搜索,并以此概率作為該超參數(shù)組驗(yàn)證誤差輸出,因此能夠極大提升搜索效率。實(shí)際上該算法是根據(jù)時(shí)間和數(shù)據(jù)特征、迭代次數(shù)等資源預(yù)算因素,選取合適的超參數(shù)組合數(shù)目與每個(gè)組所對(duì)應(yīng)的分配資源間做優(yōu)化權(quán)衡,在可行的超參數(shù)組合數(shù)量范圍內(nèi),為每組超參數(shù)分配足夠多預(yù)算資源以進(jìn)行驗(yàn)證評(píng)估,根據(jù)評(píng)估結(jié)果淘汰特定比值參數(shù)組,剩下超參數(shù)組可分配的資源變大,之后反復(fù)迭代訓(xùn)練得到一組能夠分配最大預(yù)算的超參數(shù)[17]。

3 模型構(gòu)造

數(shù)據(jù)異常檢測(cè)任務(wù)中對(duì)數(shù)據(jù)預(yù)處理通常分為下采樣多數(shù)正常樣本或者上采樣少數(shù)異常樣本,經(jīng)過(guò)分類器訓(xùn)練,進(jìn)而分離出正常樣本和異常樣本。然而,采樣過(guò)程會(huì)引入噪聲造成過(guò)擬合,無(wú)法捕獲數(shù)據(jù)特征重要信息,而基準(zhǔn)機(jī)器學(xué)習(xí)分類模型的性能指標(biāo)往往會(huì)受到自身超參數(shù)影響。InfoGAN 網(wǎng)絡(luò)訓(xùn)練生成樣本也會(huì)產(chǎn)生一定的錯(cuò)誤率,即無(wú)法完全控制生成樣本所屬的類別,如在Mnist 手寫(xiě)數(shù)字識(shí)別實(shí)驗(yàn)中InfoGAN 存在5%誤差率。本文在此基礎(chǔ)上進(jìn)行改進(jìn),提出GAN-RF,避免數(shù)據(jù)重采樣帶來(lái)的各種風(fēng)險(xiǎn),并且通過(guò)優(yōu)化數(shù)據(jù)與標(biāo)簽的一致性來(lái)增強(qiáng)模型分類效果。模型整體結(jié)構(gòu)如圖1所示。

圖1 GAN-RF模型結(jié)構(gòu)示意圖Fig.1 Architecture of GAN-RF model

第一部分為InfoGAN 網(wǎng)絡(luò)數(shù)據(jù)平衡樣本的生成過(guò)程。首先將輸入噪聲z分成連續(xù)隨機(jī)噪聲變量n與隱編碼變量c,經(jīng)過(guò)生成器G訓(xùn)練生成樣本x′,將真實(shí)樣本x和生成樣本x′分別輸入D中訓(xùn)練以區(qū)分樣本來(lái)源;如此交替迭代訓(xùn)練使得x與x′足夠相似,而D無(wú)法區(qū)分真假樣本,即對(duì)任何輸入,輸出的概率都為0.5。通過(guò)神經(jīng)網(wǎng)絡(luò)Q約束c與x′關(guān)系,即最大化式(3)來(lái)控制生成樣本特征和類別。為提高訓(xùn)練效率,Q和D除最后一層全連接層外,而其余網(wǎng)絡(luò)層結(jié)構(gòu)相同,模型訓(xùn)練的目標(biāo)函數(shù)如式(4)所示。

第二部分為推理神經(jīng)網(wǎng)絡(luò)I,輸入真實(shí)數(shù)據(jù)不平衡樣本x,輸出對(duì)應(yīng)其標(biāo)簽的預(yù)測(cè)概率。令I(lǐng)和D共用除最后全連接層外的所有網(wǎng)絡(luò)層。本質(zhì)上將x送入推理網(wǎng)絡(luò)訓(xùn)練是標(biāo)簽生成過(guò)程;采用交叉驗(yàn)證方法在訓(xùn)練集上訓(xùn)練,并在驗(yàn)證集上生成每個(gè)樣本x對(duì)應(yīng)的異常樣本標(biāo)簽y′及其概率。該部分網(wǎng)絡(luò)損失采用交叉熵函數(shù),如式(5)所示。

其中,y是真實(shí)樣本的標(biāo)簽,D(x)對(duì)應(yīng)推理網(wǎng)絡(luò)異常樣本預(yù)測(cè)的概率輸出。

第三部分是生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)的模型,主要優(yōu)化推理網(wǎng)絡(luò)的標(biāo)簽輸出及其概率預(yù)測(cè)的準(zhǔn)確性。具體來(lái)講,將推理神經(jīng)網(wǎng)絡(luò)作為標(biāo)簽生成器,輸入數(shù)據(jù)平衡樣本x′并生成對(duì)應(yīng)的數(shù)據(jù)標(biāo)簽y′,此后將生成數(shù)據(jù)標(biāo)簽組(x′,y′)和真實(shí)數(shù)據(jù)標(biāo)簽組(x,y)送入判別網(wǎng)絡(luò)D2進(jìn)行訓(xùn)練,該部分模型訓(xùn)練的過(guò)程和普通的GAN 網(wǎng)絡(luò)一樣。訓(xùn)練達(dá)到一定次數(shù)后,生成的數(shù)據(jù)標(biāo)簽組(x′,y′)和真實(shí)數(shù)據(jù)標(biāo)簽組(x,y)足夠相似,而推理神經(jīng)網(wǎng)絡(luò)作為標(biāo)簽生成器對(duì)標(biāo)簽和概率輸出更加準(zhǔn)確。該生成對(duì)抗網(wǎng)絡(luò)模型的目標(biāo)損失函數(shù)如式(6)所示。

同時(shí)訓(xùn)練三個(gè)組合網(wǎng)絡(luò)達(dá)到一定次數(shù),推理網(wǎng)絡(luò)輸出樣本預(yù)測(cè)的概率值,結(jié)合原始標(biāo)簽數(shù)據(jù)計(jì)算整個(gè)模型AUC(area under curve)值。

加入隨機(jī)森林算法優(yōu)化GAN組合網(wǎng)絡(luò)。輸入生成數(shù)據(jù)標(biāo)簽組(x′,y′)至隨機(jī)森林,使用分層采樣交叉驗(yàn)證訓(xùn)練模型,隨機(jī)選取超參數(shù)組并通過(guò)Hyperband算法對(duì)模型進(jìn)行調(diào)參,使用最優(yōu)超參數(shù)組重復(fù)訓(xùn)練輸出對(duì)應(yīng)的分類結(jié)果,并同樣結(jié)合原始數(shù)據(jù)標(biāo)簽計(jì)算模型的AUC值。對(duì)比兩者AUC 值,如隨機(jī)森林分類性能優(yōu)于上述步驟模型,則重新同時(shí)訓(xùn)練三個(gè)網(wǎng)絡(luò)模型直到優(yōu)于隨機(jī)森林。

其中對(duì)于隨機(jī)森林的數(shù)據(jù)輸入,利用樹(shù)系模型特性計(jì)算對(duì)應(yīng)數(shù)據(jù)的特征重要性,篩選掉相關(guān)性低的信息,結(jié)合分析數(shù)據(jù)中值得重點(diǎn)關(guān)注的特征,對(duì)GAN-RF的異常檢測(cè)提供參考。

4 算法實(shí)現(xiàn)

4.1 GAN組合網(wǎng)絡(luò)算法

GAN 組合網(wǎng)絡(luò)算法如算法1 所示。首先輸入真實(shí)數(shù)據(jù)標(biāo)簽組,并根據(jù)batch大小劃分?jǐn)?shù)據(jù)標(biāo)簽組,設(shè)置控制各個(gè)不同損失函數(shù)的權(quán)值參數(shù)λ,使模型在訓(xùn)練時(shí)不易產(chǎn)生過(guò)擬合;步驟1是對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化;步驟4通過(guò)選取服從[0,1]均勻分布的隱編碼向量c和噪聲變量n輸入到InfoGAN 模型,控制生成類別均衡樣本;步驟5設(shè)置模型訓(xùn)練方式,采用EarlyStopping監(jiān)控各個(gè)網(wǎng)絡(luò)驗(yàn)證損失函數(shù),經(jīng)過(guò)一定的訓(xùn)練周期后,如果驗(yàn)證集誤差不再下降,則該網(wǎng)絡(luò)提前停止訓(xùn)練,進(jìn)一步優(yōu)化整個(gè)模型訓(xùn)練,避免網(wǎng)絡(luò)訓(xùn)練過(guò)擬合;步驟6 至步驟10 主要采用隨機(jī)梯度下降法去訓(xùn)練每個(gè)網(wǎng)絡(luò)的損失函數(shù),更新網(wǎng)絡(luò)權(quán)重參數(shù)θ并得到最優(yōu)解,使得損失函數(shù)收斂達(dá)到最小值;步驟11 至步驟12 驗(yàn)證EarlyStopping 并輸出各模型網(wǎng)絡(luò)權(quán)重參數(shù)θ;反之訓(xùn)練所有模型直至達(dá)到收斂,輸出網(wǎng)絡(luò)參數(shù)。整個(gè)過(guò)程為一個(gè)batch,根據(jù)數(shù)據(jù)量重復(fù)訓(xùn)練一定數(shù)量batch。

算法1GAN組合網(wǎng)絡(luò)

4.2 隨機(jī)森林與Hyperband算法

算法2在總預(yù)算資源B已知條件下,首先輸入一個(gè)超參數(shù)組合,實(shí)際分配最大預(yù)算的參數(shù)R和每次迭代淘汰超參數(shù)比例參數(shù)η;步驟2按照batch大小隨機(jī)抽取生成數(shù)據(jù)標(biāo)簽組(′,)訓(xùn)練Hyperband;步驟4是初始化控制總預(yù)算資源大小參數(shù)smax;步驟5 至步驟6 主要通過(guò)循環(huán)迭代選取smax范圍內(nèi)不同s值,根據(jù)得到的s值計(jì)算出在當(dāng)前總預(yù)算資源下可選取最優(yōu)的超參數(shù)組數(shù)目n和一個(gè)超參數(shù)組合實(shí)際所分配的預(yù)算r;步驟8是根據(jù)s大小做循環(huán)迭代,通過(guò)上述過(guò)程計(jì)算的r和n,以η為基準(zhǔn)淘汰部分超參數(shù)組,r和n分別更新為ri和ni;步驟9返回每組超參數(shù)在對(duì)應(yīng)驗(yàn)證集上的驗(yàn)證誤差L;步驟10利用上述計(jì)算的L,選取誤差最小的一組超參數(shù);循環(huán)迭代訓(xùn)練步驟5至步驟12,根據(jù)不同smax、n、r計(jì)算每個(gè)循環(huán)中最小L的超參數(shù)組,并將得到的所有L進(jìn)行整合;步驟13 選取整個(gè)循環(huán)驗(yàn)證誤差L最小超參數(shù)組,在B不變條件下,該超參數(shù)組所能分配的實(shí)際預(yù)算ri也達(dá)到最大;步驟14 到步驟16 是更新隨機(jī)森林參數(shù),并通過(guò)5折交叉驗(yàn)證法訓(xùn)練得到整個(gè)模型的AUC。

算法2隨機(jī)森林與Hyperband算法

5 實(shí)驗(yàn)和結(jié)果分析

5.1 實(shí)驗(yàn)準(zhǔn)備工作

實(shí)驗(yàn)利用Pyod 異常檢測(cè)工具庫(kù)所集成的4 個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集作為模型的訓(xùn)練驗(yàn)證數(shù)據(jù),結(jié)合該工具庫(kù)所包含的基準(zhǔn)模型和本文模型進(jìn)行實(shí)驗(yàn)對(duì)比。具體信息如表1所示。

表1 數(shù)據(jù)集參數(shù)信息Table 1 Details of datasets

為防止過(guò)擬合問(wèn)題,對(duì)所有實(shí)驗(yàn)的數(shù)據(jù)采用分層采樣(StraifieldKfold),即原始數(shù)據(jù)按標(biāo)簽比例拆分為5組,其中1組子集數(shù)據(jù)作為模型驗(yàn)證集,其余4組子集數(shù)據(jù)作為模型訓(xùn)練集數(shù)據(jù),并且重復(fù)以上步驟5 次,在所有驗(yàn)證集上評(píng)估結(jié)果,有效利用數(shù)據(jù)集。

5.2 實(shí)驗(yàn)數(shù)據(jù)處理和評(píng)估指標(biāo)

模型的評(píng)估采用AUC 值、精確率(precision),各個(gè)指標(biāo)的計(jì)算涉及到混淆矩陣相關(guān)概念,其組成部分如表2所示。

表2 混淆矩陣Table 2 Confusion matrix

表2 中,TP代表真實(shí)類別為正樣本而預(yù)測(cè)類別為正樣本數(shù)量;FP代表真實(shí)類別為負(fù)樣本而預(yù)測(cè)類別為正樣本數(shù)量;FN代表真實(shí)類別為正樣本而預(yù)測(cè)類別為負(fù)樣本數(shù)量;TN代表真正類別為負(fù)樣本而預(yù)測(cè)類別為負(fù)樣本的數(shù)量[18]。可通過(guò)混淆矩陣計(jì)算得精確率Precision=TP/(TP+FN);而AUC值是接收者工作特性曲線(receiver operating characteristic,ROC)下的面積,ROC 曲線的橫軸為假正率FPR=FP/(FP+TN),縱軸為真正率TPR=TP/(TP+FN),AUC 相比精確率更加考慮分類器對(duì)于正樣本和負(fù)樣本的分類能力,在數(shù)據(jù)不平衡條件下依然能夠?qū)Ψ诸惼骱侠眍A(yù)測(cè)。

通過(guò)5折分層采樣將數(shù)據(jù)劃分,利用隨機(jī)采樣將訓(xùn)練集中兩個(gè)類別數(shù)據(jù)對(duì)應(yīng)的索引分別可重復(fù)抽取相同大小數(shù)據(jù);令生成器G生成的數(shù)據(jù)與抽樣的數(shù)據(jù)維度相同,將兩者輸入到D中訓(xùn)練;而推理網(wǎng)絡(luò)I輸入數(shù)據(jù)保持與G生成數(shù)據(jù)的維度一致;數(shù)據(jù)標(biāo)簽組的維度是對(duì)應(yīng)輸入數(shù)據(jù)與其標(biāo)簽的維度拼接,輸入數(shù)據(jù)標(biāo)簽組到D2訓(xùn)練以優(yōu)化推理網(wǎng)絡(luò)的輸出;整個(gè)過(guò)程重復(fù)5次,每次將驗(yàn)證集輸入推理網(wǎng)絡(luò)中輸出概率和標(biāo)簽。將模型生成的數(shù)據(jù)平衡樣本經(jīng)過(guò)數(shù)據(jù)清洗和5 折分層采樣后輸入隨機(jī)森林訓(xùn)練,輸出結(jié)果和經(jīng)過(guò)Hyperband優(yōu)化后比較確定推理網(wǎng)絡(luò)的最優(yōu)輸出。

5.3 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

組成模型的網(wǎng)絡(luò)結(jié)構(gòu)均采用全連接層。以Mnist數(shù)據(jù)集為例,InfoGAN 的生成器組成包含4 層網(wǎng)絡(luò)層;其中輸入層有64個(gè)神經(jīng)元,后3層隱藏層分別含128、512、1 024 個(gè)神經(jīng)元,輸出層神經(jīng)元個(gè)數(shù)為100;神經(jīng)網(wǎng)絡(luò)Q與判別網(wǎng)絡(luò)D共用前4 層網(wǎng)絡(luò)層;同樣推理網(wǎng)絡(luò)與D共用全連接層便于模型訓(xùn)練;而判別網(wǎng)絡(luò)D2輸入數(shù)據(jù)標(biāo)簽組需要進(jìn)行維度拼接;整個(gè)模型的輸入是服從[0,1]均勻分布的63維的噪聲向量z和1維的編碼向量c。具體信息如表3所示。

表3 模型的網(wǎng)絡(luò)結(jié)構(gòu)Table 3 Network structures of model

5.4 實(shí)驗(yàn)結(jié)果與分析

在Mnist數(shù)據(jù)集下,隨機(jī)森林的輸入為G生成的樣本x′與經(jīng)過(guò)推理網(wǎng)絡(luò)I生成的標(biāo)簽y′;之后使用3 個(gè)常用超參數(shù)搜索法與Hyperband對(duì)隨機(jī)森林進(jìn)行調(diào)參,各個(gè)方法所耗費(fèi)的時(shí)間成本和更新參數(shù)后的AUC輸出如表4所示。

表4 Mnist數(shù)據(jù)集隨機(jī)森林調(diào)參Table 4 Random forest tuning in Mnist dataset

表4中選擇的參數(shù)分別是最小樣本葉片大小(min_samples_leaf)和決策樹(shù)數(shù)目(n_estimators)。由表中數(shù)據(jù)可得,Hyperband 訓(xùn)練迭代得到的最優(yōu)超參數(shù)經(jīng)過(guò)訓(xùn)練后輸出的AUC為0.939,相比于次優(yōu)的貝葉斯優(yōu)化提高了0.01,而隨機(jī)搜索的結(jié)果最差。計(jì)算耗費(fèi)成本方面,網(wǎng)格搜索耗時(shí)最長(zhǎng)達(dá)到184.33 s,并且該時(shí)間隨著候選參數(shù)的增多而變大;隨機(jī)搜索雖然耗時(shí)短,但容易忽略掉參數(shù)空間中的重要信息特征;Hyperband 算法同等條件下訓(xùn)練耗時(shí)42.11 s,比貝葉斯優(yōu)化短,因此其所消耗的成本與計(jì)算資源最低;其中訓(xùn)練耗時(shí)也與計(jì)算機(jī)硬件條件相關(guān)。綜上比較可得出Hyperband 綜合表現(xiàn)優(yōu)于傳統(tǒng)方法。

分別使用5 個(gè)基準(zhǔn)模型:基于統(tǒng)計(jì)概率的KNN、基于線性模型的PCA、基于半監(jiān)督的OCSVM、基于相似度衡量的LOF以及基于集成算法的IF,對(duì)GAN-RF的異常檢測(cè)效果進(jìn)行評(píng)估。利用精確率分析預(yù)測(cè)為正常樣本中實(shí)際為正常的概率,并用ROC曲線下面積AUC 綜合評(píng)估模型的分類效果。

表5和表6是5個(gè)基準(zhǔn)模型和GAN-RF在不同數(shù)據(jù)集中訓(xùn)練得到精確率和AUC 值信息,其中加粗的值為當(dāng)前數(shù)據(jù)集中最優(yōu)指標(biāo)。在精確率方面,GAN-RF 在cardio 和Mnist 數(shù)據(jù)集上達(dá)到的最佳精確率分別為0.59和0.83;在wbc 數(shù)據(jù)集中表現(xiàn)接近最優(yōu),達(dá)到0.46;而在letter數(shù)據(jù)中精確率排名也相對(duì)靠前;由此說(shuō)明GAN-RF對(duì)于正常樣本預(yù)測(cè)相對(duì)于其他模型效果也有一定提升。在AUC 方面,GAN-RF 在cardio、Mnist 和wbc 數(shù)據(jù)集上都排名第一,分別為0.98、0.99、0.92,其中在Mnist數(shù)據(jù)集上比次優(yōu)模型提高了0.14,在letter 數(shù)據(jù)集中該模型表現(xiàn)也相對(duì)出色。

表5 各個(gè)模型的Precision值Table 5 Precision value of different models

表6 各個(gè)模型的AUC值Table 6 AUC value of different models

圖2 是各個(gè)模型在Mnist 數(shù)據(jù)集中的ROC 曲線圖,可以看出GAN-RF的ROC曲線最靠近左上角。當(dāng)ROC曲線靠近左上角時(shí),F(xiàn)PR=0,TPR=1,根據(jù)TPR 和FPR 計(jì)算公式可知,此時(shí)FN=0,FP=0,即模型對(duì)所有樣本分類正確。綜上可得,GAN-RF對(duì)異常樣本和正常樣本的分類比其余任何基準(zhǔn)模型較為出色。

圖2 Mnist數(shù)據(jù)集中各模型的ROC曲線圖Fig.2 ROC curve of different models in Mnist dataset

圖3是GAN-RF在Mnist數(shù)據(jù)集下對(duì)異常數(shù)據(jù)的概率預(yù)測(cè)折線圖。其中橫坐標(biāo)代表樣本所在位置索引,縱坐標(biāo)代表預(yù)測(cè)概率值,紅色直線代表實(shí)際異常樣本所在的位置,藍(lán)色折線是GAN-RF模型異常樣本預(yù)測(cè)概率輸出的折線。從圖2可以看出,異常樣本密集分布位置為7 000 的兩側(cè),而GAN-RF 模型對(duì)于異常值區(qū)間預(yù)測(cè)的準(zhǔn)確率普遍較高,從而連接成密集的折線段。綜上進(jìn)一步證明了GAN-RF對(duì)于異常樣本有很好的區(qū)分能力。

圖3 Mnist數(shù)據(jù)集中異常值預(yù)測(cè)區(qū)間折線圖Fig.3 Line chart of outlier prediction value in Mnist dataset

6 結(jié)束語(yǔ)

本文提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的異常檢測(cè)模型。首先使用InfoGAN模型生成數(shù)據(jù)平衡樣本;接著構(gòu)造一個(gè)推理神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本標(biāo)簽的生成及其概率輸出;之后將推理網(wǎng)絡(luò)作為生成樣本的標(biāo)簽生成器,將真實(shí)樣本標(biāo)簽組和生成樣本標(biāo)簽組輸入一個(gè)判別器反復(fù)迭代訓(xùn)練,優(yōu)化推理網(wǎng)絡(luò)標(biāo)簽生成及其概率輸出的準(zhǔn)確率;最后將生成樣本及標(biāo)簽送入隨機(jī)森林做分類,結(jié)合Hyperband 算法對(duì)模型進(jìn)行調(diào)參,并將輸出結(jié)果與推理網(wǎng)絡(luò)輸出進(jìn)行比較,不斷迭代優(yōu)化推理網(wǎng)絡(luò),使得模型對(duì)于異常樣本能夠有效預(yù)測(cè)。實(shí)驗(yàn)將Hyperband 算法的調(diào)參與其他3個(gè)方法進(jìn)行比較。在4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上和5 個(gè)基準(zhǔn)模型做比較,實(shí)驗(yàn)結(jié)果表明,本文提出的GAN-RF 在3 個(gè)數(shù)據(jù)中都取得最佳的AUC 值,其中在Mnist 數(shù)據(jù)集上相比于次優(yōu)的模型KNN 提高了0.14。因此本文提出的模型的綜合性能高于常用的基準(zhǔn)機(jī)器學(xué)習(xí)模型,并且將圖像處理中應(yīng)用廣泛的生成對(duì)抗網(wǎng)絡(luò)移植到異常檢測(cè)中,對(duì)于該領(lǐng)域具有一定參考價(jià)值和經(jīng)濟(jì)效益。

猜你喜歡
檢測(cè)模型
一半模型
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
“幾何圖形”檢測(cè)題
“角”檢測(cè)題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
主站蜘蛛池模板: 午夜精品区| 无码一区18禁| 久久久久久久久18禁秘| 日本午夜视频在线观看| 婷婷综合色| 日本少妇又色又爽又高潮| 久久人人爽人人爽人人片aV东京热| 亚洲乱码视频| 啪啪免费视频一区二区| 中文无码精品A∨在线观看不卡| 被公侵犯人妻少妇一区二区三区| 国产成人综合在线视频| 亚洲精品无码av中文字幕| 手机精品福利在线观看| 国产亚洲第一页| 亚洲综合第一区| 久久亚洲天堂| 亚洲国产午夜精华无码福利| 亚洲国产欧美自拍| 在线免费无码视频| 女同久久精品国产99国| 爱色欧美亚洲综合图区| 国产亚洲成AⅤ人片在线观看| 中文字幕第1页在线播| 免费无码又爽又黄又刺激网站| 成AV人片一区二区三区久久| 欧美成人h精品网站| 97久久人人超碰国产精品| 91精品国产丝袜| 欧美a在线| 国产精品成人观看视频国产| 亚洲精品人成网线在线| 亚洲男人在线天堂| 狠狠色综合网| 天天干天天色综合网| 制服丝袜一区| 一区二区三区四区日韩| 最新加勒比隔壁人妻| 青草午夜精品视频在线观看| 97一区二区在线播放| 99精品一区二区免费视频| 久久永久精品免费视频| 国产精品美女网站| 蜜桃视频一区| 国产人人射| 看你懂的巨臀中文字幕一区二区| 色哟哟国产精品| 亚洲国语自产一区第二页| 日韩精品免费一线在线观看| 精品国产免费第一区二区三区日韩| 在线五月婷婷| 99久久亚洲综合精品TS| 国产精品久久久久久久伊一| 国产精品视频观看裸模| 狼友视频一区二区三区| 久久黄色影院| 色视频国产| swag国产精品| 国产香蕉一区二区在线网站| 国产精品亚洲va在线观看| 亚洲IV视频免费在线光看| 91色爱欧美精品www| 人妻丰满熟妇av五码区| 色老二精品视频在线观看| 蜜芽国产尤物av尤物在线看| 丁香综合在线| 亚洲高清在线播放| 国产精品欧美日本韩免费一区二区三区不卡| 亚洲永久精品ww47国产| 久久人搡人人玩人妻精品| 国产第一福利影院| 91国内视频在线观看| 狠狠色香婷婷久久亚洲精品| 亚洲美女一级毛片| 国产高清免费午夜在线视频| 亚洲欧美日韩色图| 99这里只有精品6| 中文字幕在线播放不卡| 国产jizz| 亚洲中文字幕国产av| 亚洲精品欧美日本中文字幕| 亚洲综合久久成人AV|