999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

耦合演化采樣和深度解碼的可解釋網(wǎng)絡(luò)流量異常檢測模型

2023-11-23 08:12:48孫俊謝振平王洪波
智能系統(tǒng)學(xué)報(bào) 2023年5期
關(guān)鍵詞:深度檢測模型

孫俊,謝振平,王洪波

(1.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院, 江蘇 無錫 214122; 2.江南大學(xué) 江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122; 3.拓爾思天行網(wǎng)安信息技術(shù)有限責(zé)任公司, 北京 100089)

互聯(lián)網(wǎng)的廣泛應(yīng)用和飛速發(fā)展推動了社會快速發(fā)展,同時也帶來一系列網(wǎng)絡(luò)安全問題。網(wǎng)絡(luò)流量作為網(wǎng)絡(luò)信息傳輸和交互的載體,包含了大量網(wǎng)絡(luò)行為相關(guān)信息[1]。其中,異常網(wǎng)絡(luò)流量是指會影響網(wǎng)絡(luò)正常運(yùn)行的流量,主要有兩類[2]:一是由網(wǎng)絡(luò)結(jié)構(gòu)不合理和網(wǎng)絡(luò)使用不當(dāng)造成的異常;二是由DDos 或SQL 注入等網(wǎng)絡(luò)攻擊造成的異常。若能及時發(fā)現(xiàn)并捕獲異常網(wǎng)絡(luò)流量,就能夠更好地保障網(wǎng)絡(luò)的安全運(yùn)行。網(wǎng)絡(luò)流量異常檢測通過將各種異常檢測方法用于網(wǎng)絡(luò)流量數(shù)據(jù)分析,并在此基礎(chǔ)上發(fā)現(xiàn)異常網(wǎng)絡(luò)流量并產(chǎn)生報(bào)警。

傳統(tǒng)網(wǎng)絡(luò)流量異常檢測包括基于分類[3]、統(tǒng)計(jì)[4-5]、聚類和信息論[6]這4 大類[7]方法。這些方法使許多機(jī)器學(xué)習(xí)算法能夠應(yīng)用于網(wǎng)絡(luò)流量異常檢測。但隨著網(wǎng)絡(luò)流量數(shù)據(jù)規(guī)模的變大,機(jī)器學(xué)習(xí)算法已經(jīng)無法滿足現(xiàn)實(shí)需求。隨著近些年深度學(xué)習(xí)的快速發(fā)展,基于重構(gòu)[8-9]和對抗[10-11]等的無監(jiān)督模型在網(wǎng)絡(luò)流量異常檢測領(lǐng)域取得了優(yōu)異的結(jié)果,其學(xué)習(xí)正常樣本的潛在特征,可解決帶標(biāo)簽數(shù)據(jù)難以獲取的問題[12]。除此之外,還有一些無監(jiān)督學(xué)習(xí)方法,如深度玻爾茲曼機(jī)和深度信念網(wǎng)絡(luò)(deep belief network,DBN)[13]也都被廣泛地應(yīng)用。

自編碼器[4,14](autoencoder,AE)擁有優(yōu)秀的數(shù)據(jù)重構(gòu)和特征表征能力。因此,許多學(xué)者圍繞基于自編碼器的算法進(jìn)行研究,并提出了許多行之有效的模型。其中Zong 等[4]提出了深度自編碼高斯混合模型(deep autoencoder Gaussian mixture model,DAGMM),采用AE 和高斯混和模型(Gaussian mixture model,GMM) 來進(jìn)行網(wǎng)絡(luò)流量異常檢測。Zhai 等[15]提出了深度結(jié)構(gòu)能量模型(deep structured energy based model,DSEBM),采用深度能量結(jié)構(gòu)對數(shù)據(jù)進(jìn)行分布建模,將集成的不同類型的數(shù)據(jù)與AE 連接,從而降低信息損失。Gong等[16]提出了深度記憶自編碼器模型(memory-augmented deep autoencoder,MemAE),采用了Memory模塊來擴(kuò)充AE。此外,生成對抗網(wǎng)絡(luò)[17](generative adversarial network,GAN)最初作為圖像生成領(lǐng)域的模型取得了很大的成功。由于其出色的性能被越來越多地運(yùn)用于網(wǎng)絡(luò)流量異常檢測領(lǐng)域。其中,Schlegl 等[10]提出了基于GAN 的異常檢測模型,是GAN 用于異常檢測的開山之作。黃訓(xùn)華等[18]提出了多模態(tài)對抗學(xué)習(xí)異常檢測(multimodal GAN,MMGAN),將對抗學(xué)習(xí)擴(kuò)充到多個模態(tài)上。Audibert等[19]提出了無監(jiān)督異常檢測(unsupervised anomaly detection,USAD),將GAN 來優(yōu)化AE 的訓(xùn)練。

同時,越來越多的學(xué)者關(guān)注到網(wǎng)絡(luò)流量異常檢測的可解釋問題,并圍繞這個問題提出了許多可解釋增強(qiáng)的異常檢測模型。其中,Ting 等[20]提出了孤立分布核(isolation distributional kernel,IDK),IDK 本質(zhì)上是一個特征核,它可以將離群點(diǎn)很好地表征出來,從而進(jìn)行可解釋的異常檢測。Chen等[21]提出了插值高斯描述子(interpolated Gaussian descriptor,IGD),采用了插值高斯描述子的方法來訓(xùn)練一類高斯異常分類器,高斯異常分類器用來引導(dǎo)樣本的重構(gòu),并依此增強(qiáng)重構(gòu)誤差的可解釋性。

現(xiàn)有的基于深度學(xué)習(xí)的網(wǎng)絡(luò)流量異常檢測模型大多側(cè)重于構(gòu)建樣本重構(gòu)前后相似或相異關(guān)系,忽略了可解釋的特征表征;而現(xiàn)有的可解釋網(wǎng)絡(luò)流量異常檢測模型可分為構(gòu)造淺層可解釋模型和在深度學(xué)習(xí)模型中加入可解釋模塊這兩種思路,這兩類思路均忽略了可解釋模塊和深度學(xué)習(xí)的耦合關(guān)系。上述問題在很大程度上限制了網(wǎng)絡(luò)流量異常檢測的實(shí)際應(yīng)用,因此,本文提出了耦合演化采樣[22]和深度解碼的可解釋網(wǎng)絡(luò)流量異常檢測模型(an explainable network traffic anomaly detection model with coupled evolutionary sampling and deep decoding,CESDDM)。演化采樣獲取代表性特征樣本,本文將其稱為編碼基,實(shí)現(xiàn)了強(qiáng)可解釋的樣本編碼,且將可解釋的樣本編碼與不可解釋的深度解碼過程耦合學(xué)習(xí),然后樣本編碼結(jié)果和重構(gòu)誤差進(jìn)行異常判定。本文的主要貢獻(xiàn)包括:

1) 引入演化采樣樣本編碼替換原始編碼結(jié)構(gòu),以獲得強(qiáng)可解釋性的編碼基。

2)實(shí)現(xiàn)了可解釋的演化采樣樣本編碼過程與不可解釋的深度解碼過程的耦合學(xué)習(xí)。

3)將樣本編碼結(jié)果直接參與網(wǎng)絡(luò)流量異常判定,以此獲得強(qiáng)可解釋性的判定結(jié)果。

1 新模型方法

1.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的CESDDM 由深度編碼和演化采樣兩個模塊構(gòu)成。其中深度編碼由樣本編碼和深度解碼兩部分構(gòu)成。本文網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。在訓(xùn)練階段,首先使用樣本編碼替換原始編碼過程并進(jìn)行特征提取,之后引入演化采樣和深度解碼的耦合學(xué)習(xí)策略,深度解碼學(xué)習(xí)正常流量樣本的模式以最小化重構(gòu)誤差,演化采樣學(xué)習(xí)更新編碼基以獲取最優(yōu)代表性網(wǎng)絡(luò)流量樣本。在測試階段,給定測試流量樣本,CESDDM 僅使用編碼基中記錄的有限數(shù)量的正常流量進(jìn)行樣本編碼和深度解碼,最后基于樣本編碼結(jié)果和重構(gòu)誤差與閾值的比較來進(jìn)行異常檢測。CESDDM 將可解釋性的演化采樣和不可解釋的深度解碼耦合構(gòu)造,從而構(gòu)建了一個可解釋的深度模型。

圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Our model framework

1.2 樣本編碼

在CESDDM 中,樣本編碼可以被視為一個相似度選擇器,即將原始流量樣本與編碼基中最高的t個相似度作為特征進(jìn)行提取。樣本編碼的結(jié)果將作為深度解碼的輸入和異常判別的標(biāo)準(zhǔn)。

給定一組原始流量樣本X={xi|i=1,2,···,NO}和一組編碼基XS={xj|j=1,2,···,NS},則對于任意原始流量樣本xi,其樣本編碼過程如下:

式 中:k(·) 是高 斯 核函數(shù); θ1是 高 斯核函 數(shù)的超 參數(shù);t op(·)是 一個選擇函數(shù),用于選擇T中最大的t個值。

傳統(tǒng)自編碼器的編碼結(jié)構(gòu)是線性的,而樣本編碼是非線性的。這使得樣本編碼存在一定的隨機(jī)性,但這種隨機(jī)性不會導(dǎo)致編碼結(jié)果的隨機(jī)化,反而是樣本編碼的結(jié)果穩(wěn)定的關(guān)鍵。具體而言,編碼基XS是一個能夠代表原始流量樣本分布和特征的子集,而樣本編碼是一個提取相似度特征的過程,那么對于正常流量樣本而言,必然能夠在編碼基中找到與之相似的樣本,所以這種特征提取是穩(wěn)定的。也正是利用樣本編碼這一特點(diǎn),其能夠直接參與網(wǎng)絡(luò)流量異常判別。同時為了盡可能地保留樣本編碼的線性結(jié)構(gòu), top(·)得到的編碼結(jié)果并非按照相似度大小排列,而是需要對齊XS中的順序。選擇的數(shù)量t對模型的影響會在2.4.4 中詳細(xì)說明。

1.3 演化采樣和深度解碼的耦合訓(xùn)練

演化采樣學(xué)習(xí)(evolutionary sampling learning,ESL)是一種通用的機(jī)器學(xué)習(xí)框架,旨在從原始流量樣本中采樣得到一組稱為編碼基的代表樣本,編碼基可以用作概率分布的建模。其適用于在一定概率框架內(nèi)轉(zhuǎn)化為密度估計(jì)的機(jī)器學(xué)習(xí)問題。受ESL 的啟發(fā),CESDDM 利用ESL 變形方法來耦合深度解碼的學(xué)習(xí)。

在一定概率框架內(nèi),對于一組原始流量樣本X,必然能夠找到一組編碼基XS,其能夠代表X的內(nèi)在特征,包含了關(guān)于X的近似最優(yōu)信息。最優(yōu)化編碼基是ESL 的目標(biāo),為了訓(xùn)練得到最優(yōu)的編碼基,預(yù)定義任意原始流量樣本x在原始分布和編碼基上的密度估計(jì):

式中:NO表示原始流量樣本X的樣本量;NS表示編碼基XS的樣本量;k(·)是一個核函數(shù),通常被考慮為高斯核函數(shù)。k(·)中距離選用余弦距離代替常用的歐氏距離,余弦距離的定義如下:

給定原始流量樣本X={xi|i=1,2,···,No},將X中前NS個樣本作為初始編碼基。將xi作為樣本編碼的輸入,提取其相似度特征z作為深度解碼的輸入。深度解碼將z重構(gòu),并最小化重構(gòu)誤差,其結(jié)構(gòu)如下:

式中:W是深度解碼的權(quán)重;b是深度解碼的偏置;σ(·)是ReLU 激活函數(shù)。深度解碼在完成對原始流量樣本重構(gòu)的同時保留z的梯度,并由此得到Δz,Δz的定義如下:

其中:xj表示z對 應(yīng)XS中的樣本,a是權(quán)重系數(shù),S(·)是Sigmoid 激活函數(shù), ω 是 對S(·)的放縮值。

由于神經(jīng)網(wǎng)絡(luò)反向傳播的性質(zhì),本文針對Δz的取值分情況討論。具體而言,當(dāng) Δz為正值時,認(rèn)為其對應(yīng)編碼基中的xj是好的代表樣本,應(yīng)該增加其權(quán)重,使其不易被替換;相反地,當(dāng) Δz為負(fù)值時,認(rèn)為其對應(yīng)編碼基中的xj是差的代表樣本,應(yīng)該減小其權(quán)重,使其更易被替換。演化采樣學(xué)習(xí)正是通過上述方法抽取代表性特征樣本。

未被樣本編碼選中的xj的更新公式如下:

之后從編碼基XS中 選擇候選更新樣本xr:

最后,根據(jù)是否滿足下式判斷是否將xr替 換為xi:

在CESDDM 中,演化采樣和深度解碼的學(xué)習(xí)互相引導(dǎo)耦合構(gòu)造,其關(guān)系如圖2 所示。具體而言,演化采樣更新編碼基的過程依賴于深度解碼的反向傳播,這是深度解碼引導(dǎo)演化采樣的過程;深度解碼的輸入由樣本編碼直接提供,這是演化采樣引導(dǎo)深度解碼的過程。這種互相引導(dǎo)學(xué)習(xí)的結(jié)構(gòu)使得可解釋的演化采樣和不可解釋的深度解碼可以耦合構(gòu)造。

圖2 演化采樣和深度解碼的耦合訓(xùn)練過程Fig.2 Coupled training process of evolutionary sampling and deep decoding

深度解碼使用均方誤差( MSE) 作為損失函數(shù),具體定義如下:

ESL 的訓(xùn)練目標(biāo)以及XS對X的近似精度計(jì)算如下:

1.4 異常判別和可解釋性分析

在測試階段,給定測試樣本xt,本文的異常判定如下:

式中:yt=1 表 示測試樣本判定為異常,yt=0表示測試樣本判定為正常, μ1和 μ2為預(yù)設(shè)的閾值,同時滿足兩部分條件的測試樣本會被判定為異常。mean(zt)是樣本編碼結(jié)果的均值,R(·)是測試樣本的重構(gòu)誤差,具體定義如下:

在訓(xùn)練階段,CESDDM 與其他網(wǎng)絡(luò)流量異常檢測模型均使用編碼結(jié)構(gòu)進(jìn)行特征提取,與之不同的是,CESDDM 使用演化采樣樣本編碼過程替換了原始的深度神經(jīng)網(wǎng)絡(luò)編碼過程。原始的編碼結(jié)構(gòu)雖然有著很強(qiáng)的特征表征能力,但缺乏可解釋性。相比而言,演化采樣樣本編碼提取原始流量樣本與編碼基的相似度特征進(jìn)行編碼,使得本文的編碼過程是具備強(qiáng)可解釋性的。

在測試階段,目前大多數(shù)網(wǎng)絡(luò)流量異常檢測算法僅使用重構(gòu)誤差作為異常判定。而CESDDM在使用重構(gòu)誤差的同時引入 mean(·)用作異常判別。具體而言,正如上文提到的,編碼基是一組原始網(wǎng)絡(luò)流量樣本的代表性樣本,其包含了正常網(wǎng)絡(luò)流量的近似最優(yōu)信息。因此,正常測試樣本總能在編碼基中找到與其相似度較高的樣本;相反地,異常測試樣本由于其離群、孤立的特性,很難在編碼基中找到與其相似度較高的樣本。所以,樣本編碼的結(jié)果作為可解釋部分直接參與異常判定。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)集與超參數(shù)

實(shí)驗(yàn)選取了網(wǎng)絡(luò)流量異常檢測領(lǐng)域兩個具有代表性的公開數(shù)據(jù)集,一個為經(jīng)典的網(wǎng)絡(luò)流量數(shù)據(jù)集NSL-KDD 數(shù)據(jù)集;另一個為數(shù)據(jù)量較大,且各種異常類型比較全面的CICIDS2017 數(shù)據(jù)集。本文使用了兩個數(shù)據(jù)集的各20 000 條正常樣本作為訓(xùn)練集,實(shí)驗(yàn)測試集的具體構(gòu)成如表1 所示。

表1 實(shí)驗(yàn)測試集情況Table 1 Experimental datasets information

NSL-KDD 數(shù)據(jù)集[23]:著名的網(wǎng)絡(luò)流量數(shù)據(jù)集KDD99 的改進(jìn)版本,其解決了原數(shù)據(jù)中存在大量冗余的問題,是網(wǎng)絡(luò)流量異常檢測通用的一個經(jīng)典數(shù)據(jù)集。本文采用正常流量樣本作為訓(xùn)練集,每個樣本包括41 種特征,其中34 種連續(xù)特征,7 種分類特征(離散型數(shù)據(jù))。實(shí)驗(yàn)將字符型特征轉(zhuǎn)化為數(shù)值型特征,然后利用方差選擇法選擇得到12維特征。

CICIDS2017 數(shù)據(jù)集[24]:加拿大網(wǎng)絡(luò)安全研究所于2017 年采集并公開的網(wǎng)絡(luò)流量數(shù)據(jù)集,其中包括了正常流量與常見攻擊導(dǎo)致的異常流量。異常流量包括暴力文件傳輸協(xié)議(FTP)、暴力安全外殼協(xié)議(SSH)、拒絕服務(wù)(DDoS)等。本文使用正常流量樣本作為訓(xùn)練集,每個樣本包含78 種特征,將包含臟數(shù)據(jù)的特征剔除,然后利用方差選擇法選擇得到57 維特征。

經(jīng)過基于不同參數(shù)的比較實(shí)驗(yàn),CESDDM 在NSL-KDD 和CICIDS2017 數(shù)據(jù)集下的基本運(yùn)行超參數(shù)設(shè)定如表2 所示。其中, LR是CESDDM 的學(xué)習(xí)率, θ1是高斯核函數(shù)的超參數(shù),NS是編碼基的樣本量,t是樣本經(jīng)過樣本編碼后的維度。

表2 模型在2 個數(shù)據(jù)集上的超參數(shù)設(shè)置Table 2 Hyperparameter setting of models on two datasets

2.2 評價(jià)指標(biāo)

與本領(lǐng)域相關(guān)成果一樣,本文采用精確率、召回率和F1-score 等評價(jià)指標(biāo),由異常檢測混淆矩陣得到相關(guān)數(shù)據(jù),如表3 所示。通常,我們期望這些評價(jià)指標(biāo)的值盡可能大。

表3 異常檢測分類混淆矩陣Table 3 Confusion matrix for anomaly detection classification

精確率:體現(xiàn)了檢測結(jié)果為異常樣本中異常樣本的比例,計(jì)算方法如下:

召回率:體現(xiàn)了異常樣本被正確識別的比例,計(jì)算方法如下:

F1-score:基于精確率和召回率兩項(xiàng)指標(biāo)計(jì)算,其作用在于當(dāng)精確率和召回率都無法比較模型的綜合性能時(例如:召回率高,但精確率低),F(xiàn)1-score 作為精確率與召回率的一種折中方式來比較模型的綜合性能。計(jì)算方法如下:

式中:a可以實(shí)現(xiàn)精確率和召回率的折中,一般情況下,a取值為0.5。

2.3 對比方法

1) OC-SVM[25](one-class support vector machine):一種經(jīng)典的基于核函數(shù)的異常檢測模型,通過學(xué)習(xí)正常樣本和異常樣本之間的邊界來進(jìn)行異常檢測。OC-SVM 對于小數(shù)據(jù)集能取得較好的效果,泛化能力較強(qiáng),但對于數(shù)據(jù)量較大,維度較高的數(shù)據(jù)集卻很難取得滿意的結(jié)果。

2) IF[12](isolation forests):一種經(jīng)典的識別離群數(shù)據(jù)的異常檢測模型,它將異常點(diǎn)定義為“容易被孤立的離群點(diǎn)” ,即那些分布稀疏且距離密度高的集合較遠(yuǎn)的點(diǎn)。在數(shù)據(jù)空間內(nèi),若一個區(qū)域內(nèi)只有離群點(diǎn),則表示數(shù)據(jù)點(diǎn)落在此區(qū)域的概率較低,因此可以判定落在此區(qū)域的點(diǎn)是異常點(diǎn)。即,IF 的理論基礎(chǔ)有兩點(diǎn):正常樣本數(shù)量遠(yuǎn)大于異常樣本的數(shù)量;異常樣本的特征值與正常樣本的差異很大。若不滿足條件,則IF 對于該類數(shù)據(jù)的識別效果較差。

3) AE[26]:一種經(jīng)典的基于深度學(xué)習(xí)的異常檢測方法,通過編碼器將數(shù)據(jù)壓縮,然后通過解碼器將其重構(gòu),最后基于重構(gòu)誤差進(jìn)行異常檢測。

4) DSEBM[15]:一種基于深度學(xué)習(xí)的異常檢測方法,其在不同的網(wǎng)絡(luò)層之間積累能量,并依此判斷數(shù)據(jù)是否異常。DSEBM 充分利用了訓(xùn)練過程中的信息來檢測異常,但需要正常數(shù)據(jù)與異常數(shù)據(jù)具有較大的差異。

5) DAGMM[4]:一種基于自編碼器的異常檢測模型,由基于AE 的數(shù)據(jù)網(wǎng)絡(luò)和基于GMM 的密度估計(jì)網(wǎng)絡(luò)組成。前者通過AE 訓(xùn)練得到數(shù)據(jù)的低維表示,后者對低維表示進(jìn)行密度估計(jì),最終模型通過比較估計(jì)的樣本能量和預(yù)先設(shè)定的閾值來進(jìn)行異常檢測。DAGMM 將低維表示作為GMM的輸入來彌補(bǔ)數(shù)據(jù)壓縮中的信息損失,但模型需要高質(zhì)量的訓(xùn)練集來進(jìn)行訓(xùn)練。

6) MemAE[16]:一種基于自編碼器的異常檢測模型,由AE 和Memory 兩個模塊構(gòu)成,前者通過編碼器得到數(shù)據(jù)的低維表示,后者查找Memory中與低維表示最相關(guān)的內(nèi)存項(xiàng),并將其作為解碼器的輸入,最后通過比較重構(gòu)誤差與預(yù)先設(shè)定的閾值來進(jìn)行異常檢測。MemAE 通過Memory 模塊來擴(kuò)大異常樣本的重構(gòu)誤差,但模型存在訓(xùn)練不充分的問題。

2.4 實(shí)驗(yàn)結(jié)果與分析

2.4.1 收斂性分析

CESDDM 引入了耦合演化采樣和深度編碼的學(xué)習(xí)策略,使用樣本編碼替換傳統(tǒng)的編碼結(jié)構(gòu)。對于新的模型結(jié)構(gòu),需要驗(yàn)證其收斂性。本小節(jié)將通過基于NSL-KDD 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果從理論和實(shí)驗(yàn)兩個方面驗(yàn)證模型的收斂性。圖3 和圖4 分別是演化采樣和深度解碼的收斂情況。

圖3 ESL 收斂散點(diǎn)圖Fig.3 Convergence scatter of ESL

圖4 MSE 收斂曲線Fig.4 MSE convergence curves

演化采樣的主要目的是獲取原始概率分布的最優(yōu)近似,即最優(yōu)化編碼基。基于演化計(jì)算和抽樣的概念,演化采樣可以在有限的樣本數(shù)量和給定的采樣條件下獲取概率最優(yōu)的編碼基。通過最優(yōu)化編碼基與原始概率分布之間的相似度,編碼基可以穩(wěn)定漸近地(在概率上)收斂于原始概率分布。根據(jù)圖3 中El的變化散點(diǎn)圖所示,ESL 明顯可以很快地收斂到一個穩(wěn)定的區(qū)間內(nèi),但在這個區(qū)間內(nèi)El會存在一定的震蕩。綜上所述,ESL能夠很好地收斂,訓(xùn)練得到的編碼基可以很好地表征原始流量樣本。

深度解碼的主要目的是學(xué)習(xí)正常流量樣本的特征,即最小化重構(gòu)誤差。原始的自編碼器,通過深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并最小化重構(gòu)誤差。其理論基礎(chǔ)是:自編碼器僅學(xué)習(xí)正常樣本的特征信息,即正常樣本能夠被很好地重構(gòu),而異常樣本難以被重構(gòu)。CESDDM 使用演化采樣樣本編碼過程替換掉原始的神經(jīng)網(wǎng)絡(luò)編碼過程。樣本編碼學(xué)習(xí)正常樣本的相似度特征,正常樣本的相似度特征遠(yuǎn)大于異常樣本,所以深度解碼根據(jù)這類特征可以很好地重構(gòu)正常樣本,而異常樣本則難以被重構(gòu)。因此,樣本編碼并未破壞原始自編碼器的理論基礎(chǔ),理論上CESDDM 仍能收斂。根據(jù)圖4 中深度解碼Ml收斂曲線所示,深度解碼能夠收斂,這從實(shí)驗(yàn)角度論證了上述觀點(diǎn),即樣本編碼未破壞自編碼器的理論基礎(chǔ),其結(jié)構(gòu)仍具有收斂性。

綜上所述,CESDDM 的兩個目標(biāo)函數(shù)均能在理論和實(shí)驗(yàn)中得到收斂,這充分表明了CESDDM的邏輯可行性。

2.4.2 異常判別的可解釋分析

本小節(jié)將從實(shí)驗(yàn)的角度論述CESDDM 的可解釋性。CESDDM 通過引入耦合演化采樣和深度解碼的學(xué)習(xí)策略來構(gòu)建一個可解釋模型。其中樣本編碼是CESDDM 具有可解釋性的關(guān)鍵,實(shí)驗(yàn)通過正常流量樣本和異常流量樣本不同的樣本編碼結(jié)果來論述CESDDM 的可解釋性。

在NSL-KDD 上的實(shí)驗(yàn)結(jié)果如圖5 所示,其中圖5(a)表示正常流量樣本編碼結(jié)果,圖5(b)表示異常流量樣本編碼結(jié)果。從圖中可以看出,正常流量樣本的樣本編碼結(jié)果遠(yuǎn)大于異常流量樣本的樣本編碼結(jié)果。這說明了正常流量樣本總能從編碼基中找出與其相似度較高的樣本,而異常流量樣本由于其離群、孤立的性質(zhì)而無法找出與其相似度較高的樣本。CESDDM 利用這一特點(diǎn)作為異常判別的一部分,并使得這種判別方式具備了較強(qiáng)的可解釋性。

圖5 樣本編碼示例Fig.5 Sample encoding example

2.4.3 對比實(shí)驗(yàn)

NSL-KDD:實(shí)驗(yàn)結(jié)果如表4 所示。從表中可以看出,CESDDM 在NSL-KDD 數(shù)據(jù)集上的精確率為84.49%、召回率為96.64%,F(xiàn)1-score 為90.16%。1)對比機(jī)器學(xué)習(xí)算法(OC-SVM 和IF) 在NSL-KDD數(shù)據(jù)集上,機(jī)器學(xué)習(xí)在得到很好訓(xùn)練的情況下,由于受到數(shù)據(jù)集維度和維度的影響,IF 的精確率和召回率分別比CESDDM 低4.25% 和7.40%,OC-SVM 的精確率和召回率分別比CESDDM 低10.70%和18.48%。2)對比深度學(xué)習(xí)算法(AE、DSEBM、DAGMM 和MemAE),CESDDM 的精確率和F1-score比其中效果最好的MemAE 低6.43%和1.30%,但召回率比MemAE 高4.64%。CESDDM 的參數(shù)量遠(yuǎn)低于其他深度學(xué)習(xí)模型,這是由于樣本編碼的淺層結(jié)構(gòu)相較于其他深度學(xué)習(xí)算法的深層編碼結(jié)構(gòu),網(wǎng)絡(luò)節(jié)點(diǎn)的參數(shù)要少很多。具體而言,在NSLKDD 數(shù)據(jù)集上,深度學(xué)習(xí)算法的效果要優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,CESDDM 在考慮了模型可解釋性的情況下仍能保持較好的效果。這說明,耦合演化采樣和深度編碼的學(xué)習(xí)策略可以在保證模型性能的情況下,構(gòu)造一個可解釋的模型,同時可以大幅較少模型的參數(shù)量。

表4 NSL-KDD 數(shù)據(jù)集異常檢測結(jié)果Table 4 Anomaly detection results on NSL-KDD dataset

CICIDS2017:實(shí)驗(yàn)結(jié)果如表5 所示。從表中可以看出,CESDDM 在CICIDS2017 數(shù)據(jù)集上的精確率、召回率和F1-score 分別為63.86%、79.14%和70.69%。1)對比傳統(tǒng)的機(jī)器學(xué)習(xí)方法(OC-SVM和IF),其中效果較好的IF 的各項(xiàng)指標(biāo)均低于CESDDM。2)對比深度學(xué)習(xí)算法(AE、DSEBM、DAGMM 和MemAE),可以看出其中效果最好的MemAE 也難以得到優(yōu)秀的性能。這表明在復(fù)雜的數(shù)據(jù)集中,網(wǎng)絡(luò)流量異常檢測仍然十分困難。CESDDM 在保持與深度學(xué)習(xí)算法同等水平的情況下,構(gòu)造了可解釋的模型并且在參數(shù)量上具有一定優(yōu)勢。

表5 CICIDS2017 數(shù)據(jù)集異常檢測結(jié)果Table 5 Anomaly detection results on CICIDS2017 dataset

綜上所述,CESDDM 在不同的數(shù)據(jù)集下,通過耦合演化采樣和深度編碼的學(xué)習(xí)策略,使得本文模型具備較高的可解釋性,同時保證了與現(xiàn)有模型同等性能并減少了模型的參數(shù)量。從而很好地驗(yàn)證了CESDDM 的有效性和特色優(yōu)勢。

2.4.4 參數(shù)敏感性實(shí)驗(yàn)

本節(jié)通過對參數(shù) θ1、t和NS的不同取值進(jìn)行實(shí)驗(yàn)以論證其對模型的影響。經(jīng)過相應(yīng)的測試,實(shí)驗(yàn)將 θ1的 取值范圍設(shè)定為[0.04,0.12],t的取值范圍[10,30],NS的取值范圍設(shè)定為[100,300],在NSL-KDD 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),具體的實(shí)驗(yàn)結(jié)果如下:

θ1:實(shí)驗(yàn)結(jié)果如圖6(a) 所示。從圖中可以看出,在 θ1不同的取值情況下,精確率會在[78.92%,84.49%]之間波動,波動范圍在5.57%以內(nèi);召回率在[88.84%.96.64%]之間波動,波動范圍在7.80%以內(nèi),而F1-score 由于精確率和召回率的波動而波動。這種波動是由于 θ1的取值會直接影響兩個樣本相似度的計(jì)算,從而影響正常流量樣本和異常流量樣本的分割。所以CESDDM 對于 θ1的設(shè)定是敏感的。

圖6 參數(shù)敏感性實(shí)驗(yàn)Fig.6 Sensitivity experiment of parameters

t:實(shí)驗(yàn)結(jié)果如圖6(b) 所示。從圖中可以看出,在t不同的取值情況下,精確率會在[80.27%,84.49%]之間波動,召回率會在[86.54%, 96.64%]之間波動,F(xiàn)1-score 隨著精確率和召回率的波動而波動。當(dāng)t值在[10,20]之間時,波動范圍較小,而t為25 和30 時精確率和召回率會有明顯地下降。這是因?yàn)楫?dāng)t增大到一定維度后,原始流量樣本的樣本編碼和重構(gòu)會變得不準(zhǔn)確和困難。所以CESDDM 對t的取值有一定閾值,超過閾值的t會影響模型的性能。

NS:實(shí)驗(yàn)結(jié)果如圖6(c)所示。從圖中可以看出,在NS不同的取值情況下,精確率會在[76.10%,84.49%]之間波動,召回率會在[94.95%,96.64%]之間波動。當(dāng)NS為100 時,精確率較低,其余情況下精確率和召回率波動很小。這是由于,當(dāng)NS為100 時編碼基無法很好地表征原始流量樣本,從而導(dǎo)致精確率降低。當(dāng)NS在合適的區(qū)間內(nèi),編碼基能夠很好地表征原始流量樣本。所以CESDDM 對于NS的設(shè)定是不敏感的。

3 結(jié)束語

本文提出了一種耦合演化采樣和深度解碼的可解釋網(wǎng)絡(luò)流量異常檢測模型(CESDDM)。本文學(xué)術(shù)價(jià)值在于,使用演化采樣樣本編碼替換原始的編碼結(jié)構(gòu),且實(shí)現(xiàn)了可解釋樣本編碼和不可解釋的深度解碼的耦合學(xué)習(xí),以增強(qiáng)模型的可解釋能力,上述模型為可解釋機(jī)器學(xué)習(xí)研究提供了一個較為特色新穎的技術(shù)思路。在本領(lǐng)域兩個典型的公開數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果表明,CESDDM可以在保持與現(xiàn)有最優(yōu)深度學(xué)習(xí)算法同等性能的情況下,保證模型的可解釋性并減少模型的參數(shù)量。下階段我們將考慮更為優(yōu)化的耦合訓(xùn)練方法以實(shí)現(xiàn)高可解釋性的同時進(jìn)一步提升模型性能。

猜你喜歡
深度檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: jizz国产在线| 亚洲成年人片| 久久综合结合久久狠狠狠97色| 国产福利免费观看| 手机永久AV在线播放| 婷婷色一区二区三区| 狠狠做深爱婷婷综合一区| 国产av剧情无码精品色午夜| 91精品aⅴ无码中文字字幕蜜桃| 一级全黄毛片| 久久精品丝袜| 成年人久久黄色网站| 国产成人综合久久精品下载| 国产流白浆视频| 亚洲一级毛片在线播放| 国产成人一区免费观看| 日本不卡在线播放| 国产精品无码影视久久久久久久 | 尤物精品视频一区二区三区| 日韩高清无码免费| 久青草国产高清在线视频| 欧美人与动牲交a欧美精品| 狠狠ⅴ日韩v欧美v天堂| 天堂网亚洲系列亚洲系列| 色偷偷综合网| 欧美国产日本高清不卡| 欧美日本一区二区三区免费| 国产内射一区亚洲| 中国精品自拍| 久草视频精品| 激情综合激情| 国产欧美综合在线观看第七页| 国产精品白浆无码流出在线看| 中文国产成人精品久久一| 国产在线观看一区二区三区| 免费国产在线精品一区| 午夜一区二区三区| 久久91精品牛牛| 在线免费观看AV| 国产区在线看| 青青操国产视频| 国产区网址| 久久77777| 在线无码av一区二区三区| 亚洲欧美日韩视频一区| 亚洲国产精品一区二区高清无码久久| 亚洲免费成人网| 91无码网站| 亚洲综合专区| 啪啪啪亚洲无码| 日韩欧美在线观看| 免费不卡在线观看av| 九九久久99精品| 丝袜无码一区二区三区| 91福利免费| 日本成人精品视频| 人妻无码AⅤ中文字| 亚洲精品视频网| 国内自拍久第一页| 亚洲精品视频网| 狠狠色综合久久狠狠色综合| 日韩乱码免费一区二区三区| 2020最新国产精品视频| 网友自拍视频精品区| 欧美午夜在线视频| 99精品国产自在现线观看| 精品成人一区二区三区电影| av一区二区三区高清久久| 亚洲区一区| 午夜丁香婷婷| 国产一区成人| 伊大人香蕉久久网欧美| 日a本亚洲中文在线观看| 2020国产精品视频| 青青青伊人色综合久久| 日韩最新中文字幕| 精品国产网站| 国产成人精品免费视频大全五级| 日韩大乳视频中文字幕| 国产精品hd在线播放| 久久黄色一级片| 久久久久久久久18禁秘|