999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成對抗網(wǎng)絡(luò)和變分自編碼器的離群點(diǎn)檢測算法

2022-01-01 00:00:00金利娜于炯杜旭升王松

摘 要:針對傳統(tǒng)離群點(diǎn)檢測算法在類極度不平衡的高維數(shù)據(jù)集中難以學(xué)習(xí)離群點(diǎn)的分布模式,導(dǎo)致檢測率低的問題,提出了一種生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)與變分自編碼器(variational auto-encoder,VAE)結(jié)合的GAN-VAE算法。算法首先將離群點(diǎn)輸入VAE訓(xùn)練,學(xué)習(xí)離群點(diǎn)的分布模式;然后將VAE與GAN結(jié)合訓(xùn)練,生成更多潛在離群點(diǎn),同時(shí)學(xué)習(xí)正常點(diǎn)與離群點(diǎn)的分類邊界;最后將測試數(shù)據(jù)輸入訓(xùn)練后的GAN-VAE,根據(jù)正常點(diǎn)與離群點(diǎn)相對密度的差異性計(jì)算每個(gè)對象的離群值,將離群值高的對象判定為離群點(diǎn)。在四個(gè)真實(shí)數(shù)據(jù)集上與六個(gè)離群點(diǎn)檢測算法進(jìn)行對比實(shí)驗(yàn),結(jié)果表明GAN-VAE在AUC、準(zhǔn)確率和F1值上平均提高了5.64%、5.99%和13.30%,證明GAN-VAE算法是有效可行的。

關(guān)鍵詞:數(shù)據(jù)挖掘; 離群點(diǎn)檢測; 生成對抗網(wǎng)絡(luò); 變分自編碼器

中圖分類號:TP311.1 文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2022)03-022-0774-06

doi:10.19734/j.issn.1001-3695.2021.07.0355

基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61862060,61462079,61562086)

作者簡介:金利娜(1996-),女,新疆奎屯人,碩士研究生,主要研究方向?yàn)閿?shù)據(jù)挖掘、離群點(diǎn)檢測;于炯(1964-),男(通信作者),北京人,教授,博導(dǎo),博士,主要研究方向?yàn)閿?shù)據(jù)挖掘、分布式計(jì)算(yujiong@xju.edu.cn);杜旭升(1995-),男,甘肅寧縣人,博士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、異常檢測;王松(1995-),男,新疆石河子人,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、終身學(xué)習(xí).

Generative adversarial network and variational auto-encoder based outlier detection

Jin Linaa, Yu Jionga,b?, Du Xushenga, Wang Songa

(a.College of Information Science amp; Engineer(School of Cyber Science amp; Engineer), b.School of Software, Xinjiang University, Urumqi 830008, China)

Abstract:Traditional outlier detection algorithms are difficult to learn the distribution pattern of outlier in extremely unba-lanced high-dimensional datasets, resultingly in low detection rates. This paper proposed a method named GAN-VAE, which combined GAN and VAE. The algorithm firstly input the outliers into VAE to learn the distribution pattern of the outliers, then combined VAE and GAN training to generate more potential outliers and learnt the classification boundary of inliers and out-liers. Finally, it input test data into the trained GAN-VAE, and calculated outliers scores according to the difference of relative density between inliers and outliers, and outliers were the objects with high outlier scores. Compared GAN-VAE performance with six state-of-art outlier detection algorithms on four real world datasets, the results show that the AUC, accuracy and F1 value of GAN-VAE have increased by 5.64%, 5.99% and 13.30% on average, which proves that GAN-VAE is effective.

Key words:data mining; outlier detection; generative adversarial network; variational auto-encoder

0 引言

離群點(diǎn)檢測的目的是識別出與數(shù)據(jù)集中絕大部分?jǐn)?shù)據(jù)對象具有明顯差異的對象,其被廣泛應(yīng)用在實(shí)際生活中的各個(gè)領(lǐng)域,例如網(wǎng)絡(luò)入侵檢測、金融欺詐檢測、工業(yè)設(shè)備故障檢測、健康數(shù)據(jù)監(jiān)督等[1~3]。在實(shí)際應(yīng)用中,由于對離群點(diǎn)采樣成本高且采樣難度大,獲得足夠多的離群點(diǎn)及其對應(yīng)標(biāo)簽較為困難,所以雙離群點(diǎn)檢測問題通常被看做數(shù)據(jù)集中只包含正常樣本的單分類問題[4]

傳統(tǒng)離群點(diǎn)檢測算法主要包括基于聚類[5, 6]、基于距離[7]和基于密度[8]的算法。基于聚類的離群點(diǎn)檢測算法將數(shù)據(jù)集劃分成不同的簇,該類方法的主要目的是發(fā)現(xiàn)數(shù)據(jù)集中的簇而不是離群點(diǎn),因此檢測效率較低;基于距離和基于密度的離群點(diǎn)檢測算法分別計(jì)算數(shù)據(jù)對象之間的距離和數(shù)據(jù)對象的局部密度,檢測結(jié)果對參數(shù)的選擇較為敏感,且在高維大規(guī)模數(shù)據(jù)集上檢測時(shí)間長、效率低。近年來深度學(xué)習(xí)模型在離群點(diǎn)檢測領(lǐng)域取得了巨大的進(jìn)展,但由于離群點(diǎn)檢測中數(shù)據(jù)的不平衡性,神經(jīng)網(wǎng)絡(luò)傾向于學(xué)習(xí)正常樣本的特征而忽略對離群點(diǎn)特征的學(xué)習(xí),且參數(shù)調(diào)整復(fù)雜,模型訓(xùn)練難度大。

根據(jù)上述方法存在的問題,研究人員提出基于人工生成潛在離群點(diǎn)的方法進(jìn)行離群點(diǎn)檢測。該方法先通過人工生成潛在離群點(diǎn)來構(gòu)建一個(gè)有標(biāo)簽的數(shù)據(jù)集;隨后通過現(xiàn)有的分類模型對生成的潛在離群點(diǎn)與真實(shí)數(shù)據(jù)進(jìn)行分類,將傳統(tǒng)的單分類問題轉(zhuǎn)換成二分類問題,達(dá)到離群點(diǎn)檢測目的。如單分類模型根據(jù)真實(shí)數(shù)據(jù)的概率密度函數(shù)產(chǎn)生潛在離群點(diǎn)[9];單分類隨機(jī)森林(OCRF)算法通過集成學(xué)習(xí)的思想,利用分類器集成隨機(jī)化原理生成潛在離群點(diǎn)[10];主動(dòng)學(xué)習(xí)模型基于主動(dòng)學(xué)習(xí)的思想進(jìn)行選擇性抽樣來簡化離群點(diǎn)檢測問題[11]。由于數(shù)據(jù)維度的增加和數(shù)據(jù)結(jié)構(gòu)日益復(fù)雜,使用上述方法在高維數(shù)據(jù)集上生成的潛在離群點(diǎn)很難提供足夠多的有用信息來幫助分類器學(xué)習(xí)正常對象與離群對象的決策邊界。

GAN在2014年首次被提出,由于其強(qiáng)大的學(xué)習(xí)能力成為近年來的研究熱點(diǎn),在圖片生成、數(shù)據(jù)平衡、圖像識別和視頻處理等多個(gè)領(lǐng)域有著廣泛應(yīng)用[12]。使用GAN進(jìn)行離群點(diǎn)檢測時(shí),訓(xùn)練數(shù)據(jù)集中大量的正常樣本生成對應(yīng)的正常樣本,同時(shí)輸入少量離群點(diǎn)訓(xùn)練生成對應(yīng)的離群點(diǎn),通過比較GAN生成的正常點(diǎn)與離群點(diǎn)的差異性來實(shí)現(xiàn)離群點(diǎn)檢測。基于GAN的檢測方法不用收集大量離群點(diǎn)就能達(dá)到檢測目的[13]。然而該方法生成網(wǎng)絡(luò)訓(xùn)練的是通過隨機(jī)向量生成的樣本,生成網(wǎng)絡(luò)的學(xué)習(xí)難度大,實(shí)驗(yàn)效果往往較差。

針對目前離群點(diǎn)檢測方法中存在的問題,本文提出了VAE和GAN結(jié)合的GAN-VAE算法。算法在訓(xùn)練階段,首先將離群點(diǎn)輸入VAE的編碼器學(xué)習(xí)其潛在分布模式;然后GAN的生成器通過離群點(diǎn)的潛在分布模式生成更多的潛在離群點(diǎn);最后由GAN的判別器學(xué)習(xí)正常點(diǎn)與離群點(diǎn)的分類邊界,對真實(shí)數(shù)據(jù)和潛在離群點(diǎn)進(jìn)行分類。在測試階段,將測試樣本輸入訓(xùn)練后的判別器進(jìn)行分類,根據(jù)正常點(diǎn)與離群點(diǎn)密度的差異性,計(jì)算樣本離群值,將離群值高的對象判定為離群點(diǎn)。本算法在UCI真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,GAN-VAE算法與選取的六個(gè)離群點(diǎn)檢測算法相比,在AUC、準(zhǔn)確率和F1值上都有明顯的提高,證明了該算法的優(yōu)越性。

GAN-VAE在離群點(diǎn)及標(biāo)簽較難獲得的情況下,對數(shù)據(jù)進(jìn)行擴(kuò)充,使用真實(shí)數(shù)據(jù)和生成數(shù)據(jù)直接訓(xùn)練分類器達(dá)到離群點(diǎn)檢測的目的。針對GAN生成樣本的不穩(wěn)定性,所提算法利用VAE學(xué)習(xí)原始輸入數(shù)據(jù)的分布模式,降低了GAN訓(xùn)練難度,提升了算法檢測效率。

1 相關(guān)工作

1.1 生成對抗網(wǎng)絡(luò)

GAN由生成器G和判別器D組成,其核心思想是一個(gè)博弈的過程[14],模型結(jié)構(gòu)如圖1所示。生成器G的作用是生成與真實(shí)樣本x盡可能相似的樣本G(z);判別器D的作用是估計(jì)G(z)來自真實(shí)樣本x的概率。在訓(xùn)練過程中,判別器生成與x盡可能相似的樣本以欺騙判別器,同時(shí)根據(jù)判別器的判別結(jié)果進(jìn)行優(yōu)化以提升生成樣本的能力;判別器通過判斷的錯(cuò)誤概率,提升自身的鑒別能力。生成器和判別器經(jīng)過多次對抗訓(xùn)練,使生成器生成的樣本接近真實(shí)樣本,判別器最終無法對生成樣本和真實(shí)數(shù)據(jù)進(jìn)行判別,兩者達(dá)到動(dòng)態(tài)平衡。GAN訓(xùn)練過程中的優(yōu)化目標(biāo)如式(1)所示。

其中:pdata(x)表示真實(shí)樣本的數(shù)據(jù)分布;pz(z)表示生成樣本的數(shù)據(jù)分布;x為真實(shí)樣本;z為服從某一分布的隨機(jī)變量。

由于數(shù)據(jù)結(jié)構(gòu)日益復(fù)雜、數(shù)據(jù)維度不斷加大以及高維空間數(shù)據(jù)的稀疏性,有限的離群點(diǎn)提供的信息不足以使分類器對正常點(diǎn)與離群點(diǎn)進(jìn)行分類。通過GAN生成更多帶標(biāo)簽的潛在離群點(diǎn)本用于平衡數(shù)據(jù),有助于分類器劃分邊界,這為使用GAN進(jìn)行離群點(diǎn)檢測提供了可能性。

1.2 變分自編碼器

VAE與傳統(tǒng)自編碼器(auto-encoder,AE)的結(jié)構(gòu)相同,是一種編碼—解碼—編碼的網(wǎng)絡(luò)結(jié)構(gòu),其目的是通過學(xué)習(xí)輸入對象的潛在特征重構(gòu)數(shù)據(jù),讓輸出與輸入盡可能相似。相較AE采用重構(gòu)誤差的方式重構(gòu)數(shù)據(jù),VAE更關(guān)注原始數(shù)據(jù)對象的數(shù)據(jù)分布模式和數(shù)據(jù)分布的可變性,對輸入數(shù)據(jù)的概率分布建模,比重構(gòu)誤差更具有客觀性和原則性[15]

VAE由編碼器和解碼器組成,編碼器將原始數(shù)據(jù)x轉(zhuǎn)換為潛在表示z,解碼器將潛在表示z重構(gòu)為,編碼和解碼分別表示為z~Enc(x)=q(z|x)、(x~Dec(z)=pθ(x|z)。編碼器和解碼器中的分布參數(shù)、θ由VAE構(gòu)建的神經(jīng)網(wǎng)絡(luò)更新,優(yōu)化函數(shù)如式(2)所示,其中x為原始數(shù)據(jù),z為潛在表示,、θ為編碼器和解碼器的分布參數(shù)。

式(2)中第一項(xiàng)為KL正則項(xiàng),表示近似后驗(yàn)分布q(z|x)與假設(shè)先驗(yàn)分布p(z)的相似度量;第二項(xiàng)表示x與的重構(gòu)誤差。

本文使用VAE學(xué)習(xí)輸入數(shù)據(jù)對象的潛在特征,以增強(qiáng)GAN中生成器的學(xué)習(xí)能力。

1.3 基于分類的離群點(diǎn)檢測

為最小化損失函數(shù)Lc,需定義最優(yōu)分類函數(shù)C(x)。由于離群點(diǎn)的數(shù)據(jù)特征與正常點(diǎn)具有顯著差異,正常點(diǎn)和離群點(diǎn)的數(shù)據(jù)分布極度不平衡。所以,假設(shè)離群點(diǎn)的數(shù)據(jù)分布比正常點(diǎn)分散,即正常樣本的相對密度高于離群點(diǎn)的相對密度,如圖2(a)(b)所示。根據(jù)數(shù)據(jù)集中數(shù)據(jù)對象相對密度的差異性可定義最優(yōu)分類函數(shù)C(x)。計(jì)算對象xi的相對密度p(xi),當(dāng)p(xi)小于設(shè)定閾值τ時(shí),xi為離群點(diǎn);反之,對象xi為正常點(diǎn)。分類函數(shù)C(x)滿足如下條件時(shí),可實(shí)現(xiàn)對正常點(diǎn)和離群點(diǎn)的分類。

由于離群點(diǎn)在數(shù)據(jù)集中占比極少,在高維數(shù)據(jù)集中離群點(diǎn)的相對密度可能趨近于0,導(dǎo)致分類器無法得到正確的分類邊界。本文使用生成對抗網(wǎng)絡(luò)生成足夠多的潛在離群點(diǎn),幫助分類器獲得正確的分類邊界,進(jìn)行離群點(diǎn)檢測。

2 GAN-VAE算法

GAN-VAE離群點(diǎn)檢測算法的整體流程如圖3所示。首先將離群點(diǎn)作為訓(xùn)練樣本輸入編碼器E,E學(xué)習(xí)離群點(diǎn)的數(shù)據(jù)分布,獲得其潛在特征z的概率分布;接著生成網(wǎng)絡(luò)G與判別網(wǎng)絡(luò)D進(jìn)行對抗訓(xùn)練,生成更多與輸入樣本盡可能相似的潛在離群點(diǎn);最后判別網(wǎng)絡(luò)D在訓(xùn)練過程中學(xué)習(xí)正常點(diǎn)與離群點(diǎn)的決策邊界,對真實(shí)數(shù)據(jù)和潛在離群點(diǎn)分類。模型訓(xùn)練完后,將測試樣本輸入訓(xùn)練后的判別網(wǎng)絡(luò)D進(jìn)行分類,根據(jù)正常點(diǎn)與離群點(diǎn)相對密度的差異性,計(jì)算測試樣本的離群值,將離群值較高的top-n個(gè)對象判定為離群點(diǎn)。下面對本文算法的具體過程進(jìn)行詳細(xì)介紹。

2.1 算法介紹

GAN-VAE算法模型由編碼器E、生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D三部分組成。

編碼器E學(xué)習(xí)輸入離群點(diǎn)的數(shù)據(jù)分布,獲得輸入對象潛在特征z的概率分布,然后將z輸入生成網(wǎng)絡(luò)G生成潛在離群點(diǎn)G(z)。在單獨(dú)使用GAN生成樣本時(shí),GAN將均勻分布隨機(jī)采樣得到的噪聲點(diǎn)放入生成網(wǎng)絡(luò)訓(xùn)練生成潛在離群點(diǎn),通過該方法生成的潛在離群點(diǎn)與真實(shí)數(shù)據(jù)相距較遠(yuǎn),即生成的潛在離群點(diǎn)無意義,這導(dǎo)致GAN無法學(xué)到更緊湊的分類邊界。如圖4所示,黑色曲線表示GAN中判別網(wǎng)絡(luò)學(xué)習(xí)到的分類邊界。而本文算法中生成網(wǎng)絡(luò)G通過E學(xué)習(xí)到輸入離群對象的深層表示,而不是隨機(jī)向量,其優(yōu)點(diǎn)是降低了GAN使用隨機(jī)向量生成潛在離群點(diǎn)帶來的不確定性,增強(qiáng)了生成網(wǎng)絡(luò)的學(xué)習(xí)能力。

生成網(wǎng)絡(luò)G通過學(xué)習(xí)輸入離群點(diǎn)的潛在特征生成潛在離群點(diǎn)G(z)后,與判別網(wǎng)絡(luò)D進(jìn)行對抗訓(xùn)練。對生成網(wǎng)絡(luò)G,經(jīng)過多次迭代優(yōu)化,一方面,提升編碼器E學(xué)習(xí)離群點(diǎn)特征的能力,使?jié)撛谔卣鱶能夠更好地學(xué)習(xí)輸入對象的數(shù)據(jù)分布模式;另一方面,提升生成網(wǎng)絡(luò)G生成潛在離群點(diǎn)的能力,生成更多有意義的潛在離群點(diǎn),并且這些潛在離群點(diǎn)都分布在真實(shí)樣本周圍,如圖5所示。對判別網(wǎng)絡(luò)D,生成更多有意義的潛在離群點(diǎn)有助于判別網(wǎng)絡(luò)D準(zhǔn)確劃分正常點(diǎn)和離群點(diǎn)的分類邊界,提升判別網(wǎng)絡(luò)D分類的準(zhǔn)確性。兩個(gè)網(wǎng)絡(luò)相互博弈,最終達(dá)到最優(yōu)。

最后使用該模型進(jìn)行離群點(diǎn)檢測。三個(gè)網(wǎng)絡(luò)在訓(xùn)練中達(dá)到最優(yōu)時(shí),停止訓(xùn)練編碼器E、生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D。判別網(wǎng)絡(luò)D在模型訓(xùn)練過程中學(xué)習(xí)到正常點(diǎn)與離群點(diǎn)的分類邊界,因此測試階段只使用判別網(wǎng)絡(luò)D即可達(dá)到離群點(diǎn)檢測的目的。根據(jù)正常點(diǎn)和離群點(diǎn)相對密度的差異性,計(jì)算每個(gè)數(shù)據(jù)對象的離群值,選擇離群值最高的top-n個(gè)對象為算法判定的離群點(diǎn)。

2.2 模型訓(xùn)練

對GAN-VAE模型的訓(xùn)練過程就是獲得輸入離群點(diǎn)的潛在特征并利用生成的潛在離群點(diǎn)學(xué)習(xí)分類邊界的過程。在訓(xùn)練過程中對編碼器E、生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D進(jìn)行優(yōu)化,GAN-VAE模型訓(xùn)練如圖6所示。

使用E進(jìn)行編碼的目標(biāo)是讓潛在特征z的近似后驗(yàn)分布q(z|x)與先驗(yàn)分布p(z)盡可能相似;同時(shí)讓潛在特征z生成的潛在離群點(diǎn)更接近真實(shí)離群點(diǎn),以最小化重構(gòu)誤差,降低生成網(wǎng)絡(luò)的學(xué)習(xí)難度。因此,編碼器E的優(yōu)化目標(biāo)是最小化KL正則項(xiàng)和重構(gòu)誤差,優(yōu)化函數(shù)如式(6)所示,其中m為輸入離群點(diǎn)的個(gè)數(shù),x為離群對象,z為隱變量。

對于生成網(wǎng)絡(luò)G,其目標(biāo)是生成的潛在離群點(diǎn)與輸入真實(shí)離群點(diǎn)盡可能相似,獲得最小重構(gòu)誤差;同時(shí),通過生成網(wǎng)絡(luò)G與判別網(wǎng)絡(luò)D對抗訓(xùn)練,生成更多潛在離群點(diǎn),提高生成網(wǎng)絡(luò)的生成能力。因此生成網(wǎng)絡(luò)G的優(yōu)化函數(shù)由兩部分組成,分別是通過潛在特征z生成潛在離群點(diǎn)G(z)得到的重構(gòu)誤差,及判別網(wǎng)絡(luò)D和生成網(wǎng)絡(luò)G生成對抗過程中,生成網(wǎng)絡(luò)G的優(yōu)化函數(shù),因此G的優(yōu)化目標(biāo)如式(7)所示,其中m為輸入離群點(diǎn)的個(gè)數(shù),x為離群點(diǎn),z為隱變量。

對于判別網(wǎng)絡(luò)D,其對真實(shí)樣本xr和潛在離群點(diǎn)G(z)進(jìn)行分類,判斷數(shù)據(jù)對象是真實(shí)樣本還是潛在離群點(diǎn)。在生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D生成對抗的過程中,提高判別網(wǎng)絡(luò)的判別能力,使其找到正確的分類邊界,優(yōu)化目標(biāo)函數(shù)如式(8)所示。

模型采用Adam優(yōu)化算法進(jìn)行訓(xùn)練。在訓(xùn)練過程中,首先固定判別網(wǎng)絡(luò)D的權(quán)重參數(shù),優(yōu)化編碼器E和生成網(wǎng)絡(luò)G,優(yōu)化目標(biāo)如式(9)所示。

其中:Le和Lg分別為編碼器E的優(yōu)化函數(shù)和生成網(wǎng)絡(luò)G的優(yōu)化函數(shù);ωe和ωg分別表示Le和Lg的權(quán)重,ωe=1,ωg=0.5。

然后,固定編碼器E和生成網(wǎng)絡(luò)G的權(quán)重參數(shù),根據(jù)式(8)優(yōu)化判別網(wǎng)絡(luò)D。

2.3 離群點(diǎn)檢測

通過優(yōu)化式(8)(9),使模型達(dá)到最優(yōu)。訓(xùn)練后的判別網(wǎng)絡(luò)D學(xué)習(xí)到正常點(diǎn)與離群點(diǎn)的分類邊界,根據(jù)D學(xué)習(xí)到的分類邊界進(jìn)行離群點(diǎn)檢測,檢測過程如圖7所示。

將測試樣本test_x(正常點(diǎn)與離群點(diǎn))輸入判別網(wǎng)絡(luò)D,使用訓(xùn)練后的判別網(wǎng)絡(luò)D對test_x進(jìn)行離群點(diǎn)檢測。在檢測過程中,判別網(wǎng)絡(luò)D相當(dāng)于一個(gè)分類器,根據(jù)1.3節(jié)中的密度假設(shè),正常點(diǎn)相較離群點(diǎn)具有較大的相對密度,因此離群點(diǎn)具有較小的D(test_x)值。定義數(shù)據(jù)對象的離群值(outlier score),OS(test_x)如式(10)所示。計(jì)算每個(gè)數(shù)據(jù)對象的離群值OS(test_x),選擇TOP-n個(gè)對象為離群點(diǎn)。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集和數(shù)據(jù)預(yù)處理

本文選取四個(gè)中高維數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其均來自UCI數(shù)據(jù)存儲庫的真實(shí)數(shù)據(jù)集,分別是Waveform、WDBC、Mnist、Musk。四個(gè)數(shù)據(jù)集的數(shù)據(jù)分布如圖8所示,其中藍(lán)色空心圓圈表示正常點(diǎn),綠色實(shí)心菱形表示離群點(diǎn)(見電子版)。下面對所用數(shù)據(jù)集進(jìn)行詳細(xì)介紹:

a)Waveform是物理波形數(shù)據(jù)集,包括三類波形,其中加入噪點(diǎn)的波形被當(dāng)做離群點(diǎn),未加入噪點(diǎn)的波形被當(dāng)做正常點(diǎn)。該數(shù)據(jù)集共包含3 443個(gè)對象,每個(gè)對象有21個(gè)特征,加入噪點(diǎn)的對象共計(jì)100個(gè)。

b)WDBC是威斯康星州乳腺癌數(shù)據(jù)集,包含良性腫瘤和惡性腫瘤兩類。數(shù)據(jù)集中的良性腫瘤類被認(rèn)為是正常點(diǎn),惡性腫瘤類被認(rèn)為是離群點(diǎn)。每個(gè)對象的特征根據(jù)乳房腫塊細(xì)針穿刺的數(shù)字化圖像計(jì)算得出,包括半徑、紋理和平滑度等32個(gè)特征。數(shù)據(jù)集共包含367個(gè)對象,其中惡性腫瘤對象共計(jì)10個(gè)。

c)Mnist是手寫數(shù)字?jǐn)?shù)據(jù)集,數(shù)據(jù)集將數(shù)字0視為正常對象,其他9個(gè)數(shù)字中采樣的700張圖片作為離群點(diǎn)。從原始數(shù)據(jù)748個(gè)特征中隨機(jī)選擇100個(gè)特征為該數(shù)據(jù)集中每個(gè)對象的特征。數(shù)據(jù)集共包含7 603個(gè)對象,其中非零數(shù)字對象共計(jì)700個(gè)。

d) Musk是麝香分子數(shù)據(jù)集,兩個(gè)麝香類分子被視為離群點(diǎn),三個(gè)非麝香類分子被視為正常點(diǎn)。每個(gè)對象的特征由對象的分子形狀和構(gòu)象計(jì)算得出,共有166個(gè)。數(shù)據(jù)集共包含3 062個(gè)對象,其中麝香類分子共計(jì)97個(gè)。

由于原始數(shù)據(jù)集中可能存在數(shù)據(jù)缺失或重復(fù)等問題,需要對原始數(shù)據(jù)集進(jìn)行預(yù)處理。首先刪除數(shù)據(jù)集中重復(fù)的數(shù)據(jù)對象;其次對缺失特征值的樣本進(jìn)行篩選;最后使用Min-Max標(biāo)準(zhǔn)化方法,將每個(gè)樣本的特征值映射到[0,1],以消除不同量綱可能對實(shí)驗(yàn)結(jié)果造成的影響。四個(gè)數(shù)據(jù)集的信息總結(jié)如表1所示。

3.2 評估指標(biāo)

本文對算法評估采用的性能指標(biāo)是AUC(area under curve)、準(zhǔn)確率(accuracy)、F1值(F1-score)。根據(jù)真實(shí)標(biāo)簽和預(yù)測結(jié)果可得分類結(jié)果的混淆矩陣,由此計(jì)算上述評價(jià)指標(biāo),混淆矩陣如表2所示。

表2中TP(true positive)代表算法將異常樣本正確預(yù)測為異常樣本的數(shù)量,TN(true negative)代表算法將正常樣本正確預(yù)測為正常樣本的數(shù)量,F(xiàn)P(1 positive)代表算法將正常樣本錯(cuò)誤預(yù)測為異常樣本的數(shù)量,F(xiàn)N(1 negative)代表算法將異常樣本錯(cuò)誤預(yù)測為正常樣本的數(shù)量[17]

準(zhǔn)確率表示算法預(yù)測正確的樣本占總樣本的百分比,其中準(zhǔn)確率越高,代表算法的分類效果越好,計(jì)算公式如式(11)所示。

F1值是精確度(precision)和召回率(recall)的調(diào)和平均。由于在實(shí)驗(yàn)過程中同時(shí)提升準(zhǔn)確率和召回率是困難的,故使用F1值綜合兩者的結(jié)果,因而使用F1值評價(jià)算法性能更具有代表性和公正性。計(jì)算公式如式(12)所示。

AUC是接受者操作特征曲線(receiver operating characte-ristic,ROC)下的面積,AUC值越大代表算法效果越好。AUC考慮對正常點(diǎn)與離群點(diǎn)的分類能力,在數(shù)據(jù)不平衡的情況下依舊能夠?qū)λ惴ńY(jié)果進(jìn)行合理預(yù)測。

3.3 實(shí)驗(yàn)對比結(jié)果分析

為驗(yàn)證GAN-VAE將GAN和VAE兩個(gè)模型結(jié)合的有效性,將本文算法與單獨(dú)使用GAN和VAE分別進(jìn)行對比實(shí)驗(yàn),比較得出GAN-VAE在模型結(jié)合上的優(yōu)勢。

不同模型結(jié)構(gòu)的檢測性能對比結(jié)果如表3所示。由表3可以看出,本文算法除在Mnist數(shù)據(jù)集上的ACC以及Musk數(shù)據(jù)集的AUC略低于VAE,其余各項(xiàng)評估指標(biāo)均高于GAN和VAE。其中GAN在高維數(shù)據(jù)集Mnist和Musk上,實(shí)驗(yàn)效果相較于其余兩個(gè)算法表現(xiàn)較差,原因是生成器使用隨機(jī)向量用于生成潛在離群點(diǎn)造成的不確定性較大,判別器無法得到正確的分類邊界,導(dǎo)致檢測結(jié)果較差。而本文算法學(xué)習(xí)到輸入離群點(diǎn)的分布模式用于準(zhǔn)確描述分類邊界,相較于分別使用GAN和VAE進(jìn)行離群點(diǎn)檢測,GAN-VAE的實(shí)驗(yàn)結(jié)果較為理想,從而驗(yàn)證了兩個(gè)模型結(jié)合的有效性。

為驗(yàn)證本文所提算法與其他典型離群點(diǎn)檢測算法相比的優(yōu)越性,將GAN-VAE與基于距離的LOF[18]、基于支持向量機(jī)的OC-SVM[19]、基于孤立性的iForest[20]、基于重構(gòu)誤差的AE[21]、基于生成對抗網(wǎng)絡(luò)的MO-GAAL(multiple-objective gene-rative adversarial active learning) [13]、基于融合的SOM-DAGMM(self-organizing map assisted deep autoencoding Gaussian mixture model) [22]六個(gè)算法進(jìn)行比較分析。其中各算法在不同數(shù)據(jù)集下的參數(shù)設(shè)置如下:LOF算法中鄰居個(gè)數(shù)k在數(shù)據(jù)集Waveform、WDBC、Mnist、Musk上的取值分別為{1000;20;1500;500};OC-SVM算法中訓(xùn)練誤差nu在Waveform、WDBC、Mnist、Musk上的取值分別為{0.9;0.99;0.8;0.05}且在四個(gè)數(shù)據(jù)集上使用的核函數(shù)都選取高斯核函數(shù)RBF;iForest算法中子樹n在Waveform、WDBC、Mnist、Musk上的取值分別為{500;64;800;500};AE算法中的網(wǎng)絡(luò)結(jié)構(gòu)與本文算法中VAE的網(wǎng)絡(luò)結(jié)構(gòu)相同;MO-GAAL算法中子生成器個(gè)數(shù)t的取值為10;SOM-DAGMM算法中自編碼器的網(wǎng)絡(luò)結(jié)構(gòu)與本文算法中VAE的網(wǎng)絡(luò)結(jié)構(gòu)相同。

各算法檢測性能對比如表4所示。表中加粗的部分表示實(shí)驗(yàn)性能最好的兩個(gè)算法。在數(shù)據(jù)維度相對較低的Waveform數(shù)據(jù)集中GAN-VAE在AUC和F1值上稍遜于LOF算法,但在準(zhǔn)確率上比LOF算法高出6.01%,這是由于LOF算法相較于其余六種算法在低維數(shù)據(jù)集上具有良好的檢測效果;在WDBC數(shù)據(jù)集中,GAN-VAE表現(xiàn)出較為理想的檢測效果,AUC、ACC和F1值相較于檢測效果次高的算法分別高出1.19%、1.35%、2.19%;在Mnist數(shù)據(jù)集中,GAN-VAE在AUC上比AE低0.75%,但在F1值上比AE高出2.32%,這是由于在該數(shù)據(jù)集上,AE算法在訓(xùn)練過程中能夠很好地重構(gòu)數(shù)據(jù),取得了更好的檢測效果;在Musk數(shù)據(jù)集上,GAN-VAE的性能均高于其余六種算法,AUC、ACC和F1值相較于檢測效果次高的算法分別高出2.3%、2.00%、2.65%。通過與六個(gè)算法的對比,驗(yàn)證了本文算法在高維數(shù)據(jù)集中的有效性。

圖9探究了GAN-VAE中不同層數(shù)的編碼器在不同數(shù)據(jù)集上AUC的變化情況。對于不同的數(shù)據(jù)集,算法在取得最好檢測效果時(shí),對應(yīng)編碼器的層數(shù)都不相同,但在不同數(shù)據(jù)集上都有相同的變化趨勢,即每個(gè)數(shù)據(jù)集在GAN-VAE算法上對應(yīng)的AUC值總是先增大再減小。產(chǎn)生這種現(xiàn)象的主要原因是當(dāng)編碼器層數(shù)過少時(shí),模型不能很好地學(xué)習(xí)輸入數(shù)據(jù)的特征,生成的潛在離群點(diǎn)所包含的信息不足以使判別器劃分正常點(diǎn)和離群點(diǎn)的分類邊界。當(dāng)編碼層數(shù)過多時(shí),會(huì)發(fā)生過擬合現(xiàn)象,算法的AUC值隨之下降。經(jīng)過多次實(shí)驗(yàn)驗(yàn)證,當(dāng)四個(gè)數(shù)據(jù)集對應(yīng)的編碼層數(shù)取值分別是Waveform 3(20-10-4)、WDBC 3(30-15-4)、Mnist 4 (100-60-30-5)、Musk 5(166-110-70-40-5),算法可以取得較好的檢測效果。

4 結(jié)束語

針對離群點(diǎn)檢測中數(shù)據(jù)的不平衡性及使用GAN生成樣本帶來的不確定性,本文提出GAN和VAE結(jié)合的GAN-VAE算法。本文算法使用VAE的編碼器學(xué)習(xí)輸入離群點(diǎn)的潛在分布模式,GAN-VAE經(jīng)過迭代優(yōu)化生成更多與真實(shí)離群點(diǎn)相似的樣本,同時(shí)模型中的判別器學(xué)習(xí)正常點(diǎn)與離群點(diǎn)的分類邊界。在測試階段根據(jù)測試樣本相對密度的差異性,計(jì)算數(shù)據(jù)對象的離群值達(dá)到離群點(diǎn)檢測的目的。將本文算法在四個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果與LOF、OC-SVM、iForest、AE、MO-GAAL和SOM-GAGMM算法進(jìn)行比較,GAN-VAE具有較高的AUC值、準(zhǔn)確率和F1值,實(shí)驗(yàn)結(jié)果表明該算法具有較為理想的檢測效果。但算法在檢測效果提升的同時(shí),訓(xùn)練時(shí)間也相對較長,未來進(jìn)一步的研究工作中擬在保證檢測結(jié)果的同時(shí)縮短訓(xùn)練時(shí)間以進(jìn)行優(yōu)化。

參考文獻(xiàn):

[1]梅林,張鳳荔,高強(qiáng).離群點(diǎn)檢測技術(shù)綜述[J].計(jì)算機(jī)應(yīng)用研究,2020,37(12):3521-3527.(Mei Lin, Zhang Fengli, Gao Qiang. Overview of outlier detection technology[J].Application Research of Computers,2020,37(12):3521-3527.)

[2]Wang Hongzhi, Bah M J, Hammad M. Progress in outlier detection techniques:a survey[J].IEEE Access,2019,7:107964-108000.

[3]Terzi D S, Terzi R, Sagiroglu S. Big data analytics for network anomaly detection from NetFlow data[C]//Proc of International Conference on Computer Science and Engineering.Piscataway,NJ:IEEE Press,2017:592-597.

[4]Aggarwal C C. Outlier analysis[M].2nd ed.New York:Springer,2017:88-90.

[5]He Zengyou, Xu Xiaofei, Deng Shengchun. Discovering cluster-based local outliers [J].Pattern Recognition Letters,2003,24(9-10):1641-1650.

[6]楊福萍,王洪國,董樹霞,等.基于聚類劃分的兩階段離群點(diǎn)檢測算法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(7):1942-1945.(Yang Fuping, Wang Hongguo, Dong Shuxia, et al. Two stage outliers detection algorithm based on clustering division[J].Application Research of Computers,2013,30(7):1942-1945.)

[7]李春生,于澍,劉小剛.基于改進(jìn)距離和的異常點(diǎn)檢測算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(3):97-100.(Li Chunsheng, Yu Shu, Liu Xiaogang. Research on outlier detection algorithm based on improved distance[J].Computer Technology and Development,2019,29(3):97-100.)

[8]付培國,胡曉惠.基于密度偏倚抽樣的局部距離異常檢測方法[J].軟件學(xué)報(bào),2017,28(10):2625-2639.(Fu Peiguo, Hu Xiaohui. Anomaly detection algorithm based on the local distance of density-based sampling data[J].Journal of Software,2017,28(10):2625-2639.)

[9]Perdisci R, Gu Guofei, Lee W. Using an ensemble of one-class SVM classifiers to harden payload-based anomaly detection systems[C]//Proc of the 6th International Conference on Data Mining.Piscataway,NJ:IEEE Press,2006:488-498.

[10]Désir C, Bernard S, Petitjean C, et al. One class random forests [J].Pattern Recognition,2013,46(12):3490-3506.

[11]Abe N, Zadrozny B, Langford J. Outlier detection by active learning[C]//Proc of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2006:504-509.

[12]Wang Chaoyue, Xu Chang, Yao Xin, et al. Evolutionary generative adversarial networks[J].IEEE Trans on Evolutionary Computation,2019,23(6):921-934.

[13]Liu Yezheng, Li Zhe, Zhou Chong, et al. Generative adversarial active learning for unsupervised outlier detection[J].IEEE Trans on Knowledge and Data Engineering,2020,32(8):1517-1528.

[14]Saxena D, Cao Jiangnong. Generative adversarial networks (GANs): challenges, solutions, and future directions[J].ACM Computing Surveys,2021,54(3):1-42.

[15]Wang Xuhong, Du Ying, Lin Shijie, et al. adVAE:a self-adversarial variational autoencoder with Gaussian anomaly prior knowledge for anomaly detection[J].Knowledge-Based Systems,2020,190(4):article ID 105187.

[16]Erfani S M, Rajasegarar S, Karunasekera S, et al. High-dimensional and large-scale anomaly detection using a linear one-class SVM with deep learning[J].Pattern Recognition,2016,58(10):121-134.

[17]杜旭升,于炯,葉樂樂,等.基于圖上隨機(jī)游走的離群點(diǎn)檢測算法[J]. 計(jì)算機(jī)應(yīng)用,2020,40(5):1322-1328.(Du Xusheng, Yu Jiong, Ye Lele, et al. Outlier detection algorithm based on graph random walk[J].Journal of Computer Applications,2020,40(5):1322-1328.)

[18]Breunig M M, Kriegel H P, Ng R T, et al. LOF: identifying density-based local outliers[J].ACM SIGMOD Record,2000,29(2):93-104.

[19]Tax D M J, Duin R P. W. Support vector domain description[J].Pattern Recognition Letters,1999,20(11-13):1191-1199.

[20]Cheng Zhangyu, Zou Chengming, Dong Jianwei. Outlier detection using isolation forest and local outlier factor[C]//Proc of Conference on Research in Adaptive and Convergent Systems. New York: ACM Press,2019:161-168.

[21]Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J].Journal of Machine Learning Research,2010,11(12):3371-3408.

[22]Yang Chen, Ashizawa N, Yeo C K, et al. Multi-scale self-organizing map assisted deep autoencoding Gaussian mixture model for unsupervised intrusion detection[J].Knowledge-Based Systems,2021,224(14):article ID 107086.

主站蜘蛛池模板: 成人亚洲国产| 超碰免费91| 亚洲欧美在线精品一区二区| 国产精品成| 四虎永久免费网站| 国产91丝袜| 久久人体视频| 亚洲V日韩V无码一区二区| 亚洲欧洲自拍拍偷午夜色| 亚洲人成网站在线观看播放不卡| 天堂网国产| 日韩少妇激情一区二区| 真实国产乱子伦高清| 久久天天躁狠狠躁夜夜2020一| 在线观看无码av五月花| 一级全黄毛片| 亚洲日韩第九十九页| 日本草草视频在线观看| 黄色网页在线播放| 日韩乱码免费一区二区三区| 午夜限制老子影院888| 国产一区二区色淫影院| 免费在线成人网| 五月丁香在线视频| 国产婬乱a一级毛片多女| 亚洲中文字幕在线观看| 亚洲不卡影院| 干中文字幕| 国产综合在线观看视频| 国产噜噜噜视频在线观看| A级毛片无码久久精品免费| 国产精品视频999| jizz国产视频| 国产精品999在线| 亚洲成av人无码综合在线观看| 国产第一页免费浮力影院| 亚洲av成人无码网站在线观看| 国产成人亚洲欧美激情| 日韩一区二区三免费高清| 国产一级小视频| 亚洲欧美日韩另类在线一| 91免费精品国偷自产在线在线| 91小视频在线观看| 日本在线欧美在线| 99久久精品视香蕉蕉| 国产精欧美一区二区三区| 中文字幕人成乱码熟女免费| 久久精品国产精品一区二区| 无码综合天天久久综合网| 成人福利免费在线观看| 亚洲欧美极品| 久久综合亚洲鲁鲁九月天| 亚洲品质国产精品无码| 久久综合九九亚洲一区| 97国产成人无码精品久久久| 色哟哟国产精品| 国产黄色片在线看| 亚洲天堂自拍| 欧美视频免费一区二区三区| 九九热视频精品在线| 日韩在线第三页| 色综合久久88色综合天天提莫 | 国产91线观看| 日韩欧美国产精品| 三级视频中文字幕| 亚洲乱伦视频| 久久精品丝袜高跟鞋| 宅男噜噜噜66国产在线观看| 91免费国产在线观看尤物| 欧美日韩在线亚洲国产人| 极品私人尤物在线精品首页| 伊人91在线| 综合亚洲网| 在线视频97| 永久免费av网站可以直接看的| 国产一区二区影院| 性激烈欧美三级在线播放| 亚洲天堂色色人体| 亚洲成人免费看| 亚洲婷婷在线视频| 亚洲精品无码AV电影在线播放| 亚洲成人免费在线|