999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聯(lián)合注意力機(jī)制和一維卷積神經(jīng)網(wǎng)絡(luò)-雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型的流量異常檢測(cè)方法

2023-11-18 08:49:34尹梓諾馬海龍
電子與信息學(xué)報(bào) 2023年10期
關(guān)鍵詞:特征檢測(cè)方法

尹梓諾 馬海龍 胡 濤

(解放軍信息工程大學(xué)信息技術(shù)研究所 鄭州 450001)

1 引言

基于網(wǎng)絡(luò)的計(jì)算服務(wù)和應(yīng)用程序在人們的生活中發(fā)揮著重要作用,越來(lái)越多的網(wǎng)絡(luò)節(jié)點(diǎn)設(shè)備連接到互聯(lián)網(wǎng)中。據(jù)統(tǒng)計(jì)研究數(shù)據(jù)庫(kù)(Statista)估計(jì),到2025年,將有7.5×1010臺(tái)設(shè)備連接到互聯(lián)網(wǎng),構(gòu)成巨大的網(wǎng)絡(luò)接入設(shè)備規(guī)模[1]。隨著互聯(lián)網(wǎng)規(guī)模指數(shù)級(jí)增大,網(wǎng)絡(luò)攻擊所使用的協(xié)議、操作系統(tǒng)和應(yīng)用軟件的缺陷和漏洞也在不斷更新與增多。流量異常檢測(cè)是保護(hù)網(wǎng)絡(luò)和信息系統(tǒng)安全的有效手段,被廣泛用于檢測(cè)網(wǎng)絡(luò)流量惡意行為[2]。

隨著流量數(shù)據(jù)不斷增加,研究人員引入機(jī)器學(xué)習(xí)方法對(duì)大規(guī)模流量數(shù)據(jù)進(jìn)行分類(lèi)和預(yù)測(cè),實(shí)現(xiàn)流量異常檢測(cè)。早期,研究人員基于傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行流量異常檢測(cè),使用單個(gè)分類(lèi)器[3,4]或融合多個(gè)分類(lèi)器[5—8]進(jìn)行檢測(cè)。但研究發(fā)現(xiàn)以傳統(tǒng)機(jī)器學(xué)習(xí)算法為基礎(chǔ)的流量異常檢測(cè)結(jié)果并不理想,其檢測(cè)性能較依賴(lài)特征。大多強(qiáng)調(diào)特征工程和特征選擇,具有較高的誤報(bào)率[9]。

近年來(lái),許多深度學(xué)習(xí)方法[10,11]通過(guò)神經(jīng)網(wǎng)絡(luò)的搜索空間從原始流量特征中自動(dòng)提取高級(jí)特征,被應(yīng)用到流量異常檢測(cè)研究中,取得了一些較好的研究成果。董書(shū)琴等人[12]提出一種結(jié)合堆疊去噪自編碼器和softmax的流量異常檢測(cè)方法提高對(duì)NSLKDD的檢測(cè)性能。繆祥華等人[13]將密集連接卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于流量異常檢測(cè),提升對(duì)KDD 99數(shù)據(jù)集的檢測(cè)準(zhǔn)確率。Sivamohan等人[14]對(duì)長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term M emory,LSTM)、門(mén)控循環(huán)單元、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)3種循環(huán)神經(jīng)網(wǎng)絡(luò)在CICIDS2017數(shù)據(jù)集上的檢測(cè)性能進(jìn)行對(duì)比評(píng)估,發(fā)現(xiàn)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional Long Short Term Memory,BiLSTM)的檢測(cè)準(zhǔn)確率最優(yōu)。

大多數(shù)基于傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型的流量異常檢測(cè)方法都需要大量樣本數(shù)據(jù)進(jìn)行充分學(xué)習(xí)來(lái)獲取更好的檢測(cè)效果。然而流量數(shù)據(jù)存在嚴(yán)重的類(lèi)別不平衡,正常樣本往往遠(yuǎn)多于異常樣本,在異常樣本中各攻擊類(lèi)流量數(shù)據(jù)所占的比例差別很大[15]。在異常數(shù)據(jù)較少、流量數(shù)據(jù)嚴(yán)重不平衡的情況下,將這種不平衡流量數(shù)據(jù)訓(xùn)練集直接輸入傳統(tǒng)分類(lèi)模型進(jìn)行學(xué)習(xí)和訓(xùn)練會(huì)導(dǎo)致多數(shù)類(lèi)樣本淹沒(méi)少數(shù)類(lèi)樣本,少數(shù)威脅程度高的攻擊流量有可能被錯(cuò)誤檢測(cè)為良性流量或其他攻擊類(lèi)別,這也對(duì)網(wǎng)絡(luò)、設(shè)備、用戶(hù)構(gòu)成更高的風(fēng)險(xiǎn)。因此,為有效檢測(cè)網(wǎng)絡(luò)中的惡意流量,需要解決網(wǎng)絡(luò)流量異常檢測(cè)中的類(lèi)別不平衡問(wèn)題。

研究人員主要從數(shù)據(jù)和算法兩個(gè)角度解決流量異常檢測(cè)中的類(lèi)別不平衡問(wèn)題。在數(shù)據(jù)方面,主要通過(guò)重采樣技術(shù)均衡各類(lèi)流量數(shù)據(jù),如合成少數(shù)類(lèi)過(guò)采樣技術(shù)(Synthetic M inority Oversam p ling TEchnique,SMOTE)[16]、自適應(yīng)合成抽樣技術(shù)[17]、平衡重采樣技術(shù)[18,19]等。在算法方面,通過(guò)改進(jìn)算法或使用集成方法[20—23]提升檢測(cè)能力。但現(xiàn)有研究在少數(shù)類(lèi)攻擊流量的檢出率方面還存在較大提升空間。為解決流量異常檢測(cè)中的類(lèi)別不平衡問(wèn)題,本文提出一種基于聯(lián)合注意力機(jī)制和1維卷積神經(jīng)網(wǎng)絡(luò)-雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(One-Dimensional Convolutional Neural Network-Bidirectional Long Short Term M emory,1DCNN-BiLSTM)模型的流量異常檢測(cè)方法,將數(shù)據(jù)增強(qiáng)技術(shù)與深度學(xué)習(xí)模型相結(jié)合提升少數(shù)攻擊類(lèi)的檢出率。本文的主要貢獻(xiàn)如下:

(1)本文提出一種基于聯(lián)合注意力機(jī)制和1DCNNBiLSTM模型的流量異常檢測(cè)方法,融合數(shù)據(jù)不平衡處理技術(shù)和深度學(xué)習(xí)模型,從均衡數(shù)據(jù)和改進(jìn)模型兩方面出發(fā),提高對(duì)高度不平衡流量數(shù)據(jù)的檢測(cè)性能。

(2)本文設(shè)計(jì)一種聯(lián)合注意力機(jī)制和1DCNNBiLSTM的深度學(xué)習(xí)混合模型用于流量異常檢測(cè),分別利用1DCNN和BiLSTM提取網(wǎng)絡(luò)流量數(shù)據(jù)的局部與長(zhǎng)距離序列特征,同時(shí)在1DCNN的每個(gè)塊和BiLSTM末端添加有效的注意力機(jī)制,著重關(guān)注對(duì)分類(lèi)起重要作用的特征,提高對(duì)少數(shù)攻擊類(lèi)的檢出率。

(3)本文使用NSL-KDD和CICIDS2017流量數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),利用多種評(píng)估指標(biāo)將所提方法與一些現(xiàn)有典型機(jī)器學(xué)習(xí)方法和在流量數(shù)據(jù)不平衡問(wèn)題上效果較好的方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文方法能夠顯著提升少數(shù)類(lèi)攻擊流量的檢出率,在對(duì)不平衡流量數(shù)據(jù)的檢測(cè)性能上表現(xiàn)出優(yōu)越性。

2 基于聯(lián)合注意力機(jī)制和1DCNN-BiLSTM模型的流量異常檢測(cè)方法

2.1 流量異常檢測(cè)框架

本文設(shè)計(jì)流量異常檢測(cè)方法的目標(biāo)是在惡意流量樣本數(shù)量較少的情況下,對(duì)流量數(shù)據(jù)實(shí)現(xiàn)優(yōu)越的檢測(cè)性能。對(duì)此,本文所提流量異常檢測(cè)方法結(jié)合了數(shù)據(jù)重采樣技術(shù)和深度學(xué)習(xí)網(wǎng)絡(luò)模型,所提方法的整體檢測(cè)框架如圖1所示,主要包含3個(gè)模塊:數(shù)據(jù)預(yù)處理模塊、流量異常檢測(cè)模塊和分類(lèi)評(píng)估模塊。

圖1 流量異常檢測(cè)框架

數(shù)據(jù)預(yù)處理模塊負(fù)責(zé)對(duì)原始流量特征數(shù)據(jù)進(jìn)行量化、歸一化以及訓(xùn)練數(shù)據(jù)重采樣等操作,量化和歸一化使數(shù)據(jù)能滿(mǎn)足深度學(xué)習(xí)模型的輸入格式要求,更有利于模型的訓(xùn)練和檢測(cè),數(shù)據(jù)重采樣能夠使流量數(shù)據(jù)均衡,減輕原始數(shù)據(jù)類(lèi)別不平衡對(duì)檢測(cè)結(jié)果造成的影響和偏差。

在流量異常檢測(cè)模塊,本文對(duì)預(yù)處理后的流量數(shù)據(jù)設(shè)計(jì)一種聯(lián)合注意力機(jī)制和1DCNN-BiLSTM的模型進(jìn)行深度流量特征提取和學(xué)習(xí),同時(shí)對(duì)特征重要性予以考慮,有效檢測(cè)數(shù)量少且威脅程度高的攻擊流量。

在分類(lèi)評(píng)估模塊中,利用多種檢測(cè)評(píng)價(jià)指標(biāo)對(duì)模型的檢測(cè)結(jié)果進(jìn)行評(píng)估和分析。

2.2 數(shù)據(jù)預(yù)處理

(1)量化。流量特征數(shù)據(jù)包含非數(shù)值特征(如NSL-KDD數(shù)據(jù)集中'p rotocol type','service'和'flag'),需要將這類(lèi)特征轉(zhuǎn)換為數(shù)值特征,本文采用LabelEncoder()函數(shù)進(jìn)行標(biāo)簽編碼。同時(shí),樣本類(lèi)別標(biāo)簽也需轉(zhuǎn)換為數(shù)字,對(duì)于二分類(lèi),將正常和攻擊標(biāo)簽分別編碼為0和1,對(duì)于多分類(lèi),將各攻擊類(lèi)型進(jìn)行獨(dú)熱編碼。

(2)歸一化。為縮小流量數(shù)據(jù)集中特征值間的大小差異,避免數(shù)值量級(jí)差異和單位差異對(duì)檢測(cè)結(jié)果的影響,保證檢測(cè)結(jié)果有效,采用M in-Max歸一化方法將各特征數(shù)據(jù)映射到[0,1]區(qū)間,其公式如式(1)所示

其中,x為特征列X的各特征值,Xmin和Xmax分別為特征列X的最小值和最大值。

(3)過(guò)采樣。流量數(shù)據(jù)集中不同類(lèi)別的樣本數(shù)量差異顯著,如在NSL-KDD數(shù)據(jù)集中,正常樣本的數(shù)量是提權(quán)攻擊(User-to-Root,U 2R)樣本的1 000多倍。深度學(xué)習(xí)分類(lèi)器在模型訓(xùn)練過(guò)程中,對(duì)少數(shù)類(lèi)攻擊樣本的特征學(xué)習(xí)不充分,會(huì)影響模型的檢測(cè)性能。因此在數(shù)據(jù)預(yù)處理過(guò)程中,需要對(duì)少數(shù)類(lèi)攻擊流量過(guò)采樣,使深度學(xué)習(xí)模型能充分有效地學(xué)習(xí)流量樣本空間中每個(gè)類(lèi)的邊界,邊界樣本對(duì)泛化更重要,但它們更容易發(fā)生錯(cuò)誤分類(lèi)。對(duì)流量異常檢測(cè),需要新合成的攻擊類(lèi)樣本處于類(lèi)別邊界附近來(lái)提供足夠的信息用于學(xué)習(xí)和檢測(cè)。本文利用borderlineSMOTE算法對(duì)異常流量樣本進(jìn)行過(guò)采樣,首先識(shí)別邊緣的攻擊樣本,然后重新生成攻擊樣本,最后將新生成的樣本加入到流量數(shù)據(jù)訓(xùn)練集。

對(duì)于訓(xùn)練集中每個(gè)攻擊樣本x,計(jì)算其m個(gè)最近鄰,若x的最近鄰中,正常樣本的數(shù)量多于攻擊樣本,那么x作為攻擊類(lèi)的邊界樣本很可能被錯(cuò)分為正常樣本,需對(duì)這類(lèi)邊界樣本過(guò)采樣。在采樣過(guò)程中,計(jì)算攻擊樣本x的k個(gè)最近鄰攻擊樣本,并從中隨機(jī)選擇n個(gè)(1<n<k)攻擊樣本,攻擊類(lèi)流量新樣本的生成公式如式(2)所示

其中,Tn為新生成的樣本,Ti為邊界樣本,Tj為T(mén)i的鄰居,rand(0,1)表示生成[0,1]區(qū)間的隨機(jī)數(shù)。

2.3 聯(lián)合注意力機(jī)制和1DCNN-BiLSTM的流量檢測(cè)模型

流量數(shù)據(jù)本質(zhì)上可以看作具有前后關(guān)聯(lián)關(guān)系的序列數(shù)據(jù),因此流量特征數(shù)據(jù)也具有顯著的前后序列依賴(lài)關(guān)系和同一序列不同特征間的關(guān)聯(lián)關(guān)系,如NSL-KDD數(shù)據(jù)集的Probe攻擊可能表現(xiàn)為流量特征在一段時(shí)間的持續(xù)變化,對(duì)于該攻擊類(lèi)型,可以利用序列學(xué)習(xí)模型學(xué)習(xí)數(shù)據(jù)集中“基于主機(jī)的流量統(tǒng)計(jì)特征”和“基于時(shí)間的流量統(tǒng)計(jì)特征”來(lái)捕獲時(shí)間前后流量數(shù)據(jù)的關(guān)聯(lián)關(guān)系和深層特征進(jìn)行檢測(cè)。

為提升對(duì)少數(shù)攻擊流量的檢出率,本文設(shè)計(jì)一種聯(lián)合注意力機(jī)制和1DCNN-BiLSTM的流量異常檢測(cè)模型,對(duì)流量特征數(shù)據(jù)進(jìn)行充分學(xué)習(xí),有效提取其深層復(fù)雜特征。在該模型中,1DCNN適用于序列處理,可以實(shí)現(xiàn)更多非線(xiàn)性轉(zhuǎn)換,對(duì)流量序列特征提供較強(qiáng)的局部特征學(xué)習(xí)能力。網(wǎng)絡(luò)流量數(shù)據(jù)遵循時(shí)間序列模式,可以根據(jù)過(guò)去跨長(zhǎng)距離的流量連接記錄對(duì)當(dāng)前流量連接記錄進(jìn)行分類(lèi),但1DCNN在長(zhǎng)距離學(xué)習(xí)建模方面的能力有限。BiLSTM網(wǎng)絡(luò)主要用于實(shí)現(xiàn)長(zhǎng)距離序列特征學(xué)習(xí)。因此,將1DCNN提取的深度流量特征輸入BiLSTM,進(jìn)一步學(xué)習(xí)深度流量特征向量之間跨長(zhǎng)距離的序列關(guān)聯(lián)模式。為進(jìn)一步提升模型對(duì)不平衡流量數(shù)據(jù)的檢測(cè)性能,本文在模型中加入有效注意力層,附加在1DCNN網(wǎng)絡(luò)的各池化層末端和BiLSTM網(wǎng)絡(luò)末端,在學(xué)習(xí)特征的過(guò)程中,提高與流量類(lèi)別相關(guān)特征的權(quán)重,使模型傾向于注意對(duì)異常流量檢測(cè)更重要的特征。根據(jù)特征重要性調(diào)整權(quán)值,更全面地把握流量特征,提高少數(shù)類(lèi)攻擊流量的檢出率。

聯(lián)合注意力機(jī)制和1DCNN-BiLSTM的模型可以學(xué)習(xí)正常和惡意流量數(shù)據(jù)序列的相關(guān)性與局部特征,具有多層結(jié)構(gòu),包括1維卷積層(Conv1D layer)、池化層(Poo ling layer)、注意力層(A tten tion layer)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)層(BiLSTM layer)、平鋪層(F latten layer)和全連接層(Fu ll Connection layer,FC layer)等,其模型結(jié)構(gòu)如圖2所示。將經(jīng)過(guò)預(yù)處理的流量數(shù)據(jù)通過(guò)輸入層輸入模型后,利用隱層計(jì)算得到檢測(cè)結(jié)果,通過(guò)輸出層輸出。

圖2 聯(lián)合注意力機(jī)制和1DCNN-BiLSTM模型結(jié)構(gòu)圖

2.3.1 1DCNN

1DCNN是一種以1維網(wǎng)格形式獲取序列數(shù)據(jù)進(jìn)行特征識(shí)別的CNN。雖然1DCNN只有1個(gè)維度,但它在特征識(shí)別方面同樣具有2DCNN的平移不變性?xún)?yōu)勢(shì)。基于此,本文將流量特征數(shù)據(jù)構(gòu)建為具有良性和惡意標(biāo)簽的序列數(shù)據(jù),首先應(yīng)用1DCNN實(shí)現(xiàn)對(duì)流量數(shù)據(jù)的局部特征提取。1DCNN模型通過(guò)堆疊1維卷積層和池化層來(lái)實(shí)現(xiàn)局部空間特征提取功能,解決局部特征丟失問(wèn)題,其結(jié)構(gòu)如圖3所示。

圖3 1DCNN結(jié)構(gòu)圖

1維卷積層是特征提取的關(guān)鍵,它通過(guò)訓(xùn)練流量數(shù)據(jù)得到一組具有最小損失的最優(yōu)卷積核,利用卷積核(濾波器)自動(dòng)提取復(fù)雜流量特征。流量數(shù)據(jù)的第i個(gè)樣本可表示為m維特征向量xi∈R m,多個(gè)連續(xù)向量x i,x i+1,...,x j可表示為xi:j,1維卷積僅在流量特征數(shù)據(jù)序列的垂直方向進(jìn)行卷積,因此其卷積核的寬度即為流量特征的維度,通過(guò)使用濾波器w對(duì)輸入流量數(shù)據(jù)應(yīng)用卷積操作來(lái)構(gòu)建一個(gè)特征映射,實(shí)現(xiàn)局部空間特征提取,其計(jì)算公式如式(3)所示

其中,b為偏置值,f(·)表示卷積計(jì)算的非線(xiàn)性激活函數(shù)線(xiàn)性整流函數(shù)(Rectified Linear Unit,ReLU)。

池化層進(jìn)一步聚集和保留了卷積層所提取的短期特征,得到最重要的特征。常用的池化方法是最大池化和平均池化。本文利用最大池化層將各卷積層特征向量的最大值合并,作為最終特征值。在1維卷積層和池化層進(jìn)行操作后,得到了一個(gè)1×n維的數(shù)據(jù)特征,很好地分析并保留流量數(shù)據(jù)序列的局部特征。

2.3.2 BiLSTM

BiLSTM是一種LSTM變體,它不僅具有LSTM模型的遠(yuǎn)距離序列學(xué)習(xí)能力,而且進(jìn)一步改進(jìn)LSTM,能夠?qū)W習(xí)序列數(shù)據(jù)正向和反向的關(guān)聯(lián)關(guān)系,使模型在分類(lèi)問(wèn)題上更具優(yōu)勢(shì)。本文利用輸入流量數(shù)據(jù)訓(xùn)練BiLSTM的正向LSTM和反向LSTM,其結(jié)構(gòu)如圖4所示,包含輸入層、正向隱層、反向隱層和輸出層。正向LSTM提取輸入的深度流量特征序列的正向特征,而反向LSTM與之相反,提取深度流量特征序列從后往前的反向特征。輸出層對(duì)二者的輸出數(shù)據(jù)進(jìn)行整合。在時(shí)間步t利用BiLSTM模型對(duì)當(dāng)前時(shí)刻的輸入序列元素值xt進(jìn)行特征提取的正向LSTM和反向LSTM計(jì)算如算法1所示。

圖4 BiLSTM結(jié)構(gòu)圖

時(shí)間步t上輸出向量計(jì)算公式如式(4)所示

算法1 正向LSTM和反向LSTM計(jì)算

其中,xt為t時(shí)刻的輸入序列,Ct為t時(shí)刻的記憶細(xì)胞狀態(tài),ht-1為隱層狀態(tài),Wc,W f,W i,W o分別為記憶細(xì)胞狀態(tài)、遺忘門(mén)、輸入門(mén)和輸出門(mén)的權(quán)重矩陣,bc,b f,b i,b o分別表示對(duì)應(yīng)偏置,⊙表示兩個(gè)向量對(duì)應(yīng)元素相乘操作,分別表示正向和反向輸入到隱層權(quán)重矩陣。

BiLSTM有效利用網(wǎng)絡(luò)流量前后數(shù)據(jù)中存在的時(shí)序特征來(lái)改進(jìn)模型訓(xùn)練,使模型全面學(xué)習(xí)序列特征。

2.3.3注意力機(jī)制

注意力機(jī)制的原理是:在大量信息中,將有限的注意力資源聚焦于需要關(guān)注的少數(shù)關(guān)鍵信息上,忽略無(wú)用和不相關(guān)信息,對(duì)更關(guān)鍵重要的信息進(jìn)行特征提取。在流量異常檢測(cè)領(lǐng)域,通過(guò)引入注意力機(jī)制,對(duì)用于檢測(cè)攻擊的不同流量特征賦予對(duì)應(yīng)的權(quán)重,更有利于提高少數(shù)攻擊樣本的檢出率。本文在1DCNN網(wǎng)絡(luò)和BiLSTM網(wǎng)絡(luò)中分別引入注意力機(jī)制。對(duì)于1DCNN,將注意力層附加在卷積塊末端,改善卷積神經(jīng)網(wǎng)絡(luò)僅關(guān)注局部特征而導(dǎo)致對(duì)全局特征學(xué)習(xí)不準(zhǔn)確的情況。對(duì)于BiLSTM,注意力機(jī)制對(duì)其隱層向量輸出表達(dá)式進(jìn)行加權(quán)求和,檢測(cè)效果更優(yōu)。注意力機(jī)制通過(guò)分配概率代替原始隨機(jī)分配權(quán)重。將卷積塊或BiLSTM得到的隱層向量ht作為注意力層的輸入,其處理過(guò)程如式(5)—式(7)所示

其中,at為權(quán)重,st為對(duì)ht加權(quán)求和得到的高級(jí)流量特征。最后將st輸入到全連接層,得到檢測(cè)結(jié)果。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)環(huán)境、評(píng)估指標(biāo)和超參數(shù)配置

本文的所有實(shí)驗(yàn)均在一臺(tái)具有32 GB內(nèi)存、In tel Core i7-8700 3.20 GHz CPU和Nv id ia GeForce GT 730 GPU的臺(tái)式機(jī)上進(jìn)行,使用Python3.5編程,對(duì)NSL-KDD和CICIDS2017數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),以評(píng)估其檢測(cè)多種經(jīng)典攻擊和現(xiàn)代攻擊的有效性。本文使用評(píng)估指標(biāo)準(zhǔn)確率(Accuracy)、精確率(Precision)、檢出率(Detection Rate,DR)、誤報(bào)率(False Positive Rate,FPR)和F1-score來(lái)評(píng)估模型的檢測(cè)性能。評(píng)估指標(biāo)的計(jì)算公式如式(8)所示

其中,TP為正確預(yù)測(cè)為攻擊樣本的數(shù)量,TN為正確預(yù)測(cè)為正常樣本的數(shù)量,F(xiàn)P為錯(cuò)誤預(yù)測(cè)為攻擊樣本的數(shù)量,F(xiàn)N為錯(cuò)誤預(yù)測(cè)為正常樣本的數(shù)量。

由于深度學(xué)習(xí)模型具有參數(shù)化特性,模型的訓(xùn)練和檢測(cè)結(jié)果受參數(shù)的影響較大。本文設(shè)計(jì)的聯(lián)合注意力機(jī)制和1DCNN-BiLSTM的模型結(jié)構(gòu)同2.3節(jié)的結(jié)構(gòu)圖一致。3個(gè)卷積層的卷積核數(shù)為64-128-32,3個(gè)最大池化層的poolsize設(shè)置為1。池化層的輸出作為注意力層輸入,1DCNN網(wǎng)絡(luò)中最后一個(gè)注意力層的輸出作為BiLSTM網(wǎng)絡(luò)的輸入,BiLSTM包含64個(gè)單元,其后的dropout層參數(shù)為0.5,用于防止過(guò)擬合,其后附加注意力層,之后連接Flatten平鋪層用于將多維輸出1維化,輸出層使用全連接層,將模型的輸出向量轉(zhuǎn)換為類(lèi)別標(biāo)簽的維度。對(duì)于二分類(lèi),輸出層包含1個(gè)單元,激活函數(shù)為sigm oid,用于區(qū)分正常和攻擊類(lèi)型;對(duì)于多分類(lèi),輸出層包含n個(gè)單元(n為樣本類(lèi)別數(shù)),激活函數(shù)為softm ax,用于區(qū)分多個(gè)攻擊類(lèi)型。經(jīng)過(guò)多次調(diào)整模型的超參數(shù),得到使模型學(xué)習(xí)效果最佳的超參數(shù)配置。模型的超參數(shù)配置為:訓(xùn)練過(guò)程損失函數(shù)為categorical_crossentropy,采用Adam優(yōu)化器,學(xué)習(xí)率為0.001,Epoch=30,Batchsize=32。

3.2 數(shù)據(jù)集

NSL-KDD數(shù)據(jù)集KDD CUP 99數(shù)據(jù)集的改進(jìn),廣泛用于流量異常檢測(cè)。盡管還有其他更新的數(shù)據(jù)集,但它仍然被許多最先進(jìn)的流量異常檢測(cè)文獻(xiàn)用于性能評(píng)估。它刪除了數(shù)據(jù)集中的冗余記錄,包含正常樣本和4種攻擊樣本,攻擊類(lèi)別包含DoS,Probe,U2R,R2L。該數(shù)據(jù)集包含41維流量特征和1維類(lèi)別標(biāo)簽。在實(shí)驗(yàn)中,將KDDT rain+_20 Percent作為訓(xùn)練集,KDDTest+為測(cè)試集。其數(shù)據(jù)分布如表1所示。

表1 NSL-KDD數(shù)據(jù)集數(shù)據(jù)分布

CICIDS2017數(shù)據(jù)集由通信安全機(jī)構(gòu)(Communications Security Establishment,CSE)與加拿大網(wǎng)絡(luò)安全研究所(Canadian Institute for Cybersecurity,CIC)在2017年收集,是一個(gè)具有復(fù)雜現(xiàn)代攻擊類(lèi)型的流量數(shù)據(jù)集。該數(shù)據(jù)集含有3 119 345個(gè)網(wǎng)絡(luò)傳輸樣本、78維流量特征和1維類(lèi)別標(biāo)簽,包含正常樣本和14種攻擊樣本。此外,該數(shù)據(jù)集中包含一些標(biāo)簽和特征缺失的樣本,刪除這些樣本后,共得到2 824 876個(gè)樣本,其數(shù)據(jù)分布如表2所示。

表2 CICIDS2017數(shù)據(jù)集數(shù)據(jù)分布

3.3 二分類(lèi)實(shí)驗(yàn)

本節(jié)基于NSL-KDD和CICIDS2017數(shù)據(jù)集對(duì)流量異常檢測(cè)方法進(jìn)行二分類(lèi)實(shí)驗(yàn)。

為驗(yàn)證本文模型的檢測(cè)性能,實(shí)驗(yàn)先比較了3種機(jī)器學(xué)習(xí)的典型分類(lèi)方法以及在類(lèi)別不平衡問(wèn)題上當(dāng)前較流行且檢測(cè)效果較好的3種模型在NSLKDD數(shù)據(jù)集上的檢測(cè)性能。3種機(jī)器學(xué)習(xí)方法分別為典型的隨機(jī)森林(Random Forest,RF)、多層感知機(jī)(M u ltiLayer Percep tron,M LP)和組合模型1DCNN-BiLSTM,3種文獻(xiàn)模型分別為文獻(xiàn)[14]提出的BiLSTM模型,文獻(xiàn)[19]提出的深度CNN模型以及文獻(xiàn)[23]提出的樸素貝葉斯決策表和多目標(biāo)進(jìn)化特征選擇(Na?ve Bayes Decision Tab le and M ulti Objective Evolutionary Feature Selection,DTNB+MOEFS)組合模型。同時(shí)為驗(yàn)證BorderlineSMOTE的有效性,本實(shí)驗(yàn)還比較了模型在不采用重采樣方法、采用隨機(jī)過(guò)采樣(Random Over-Sam p ling,ROS)方法以及采用Bo rder lineSMOTE過(guò)采樣方法3種情況下對(duì)NSL-KDD數(shù)據(jù)集的檢測(cè)性能。其中,ROS方法的采樣思路是:從少數(shù)類(lèi)攻擊流量樣本中隨機(jī)采樣復(fù)制樣本,使少數(shù)類(lèi)流量與多數(shù)類(lèi)流量的樣本量相同,從而得到新的均衡數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果如表3所示。

表3 基于NSL-KDD數(shù)據(jù)集的二分類(lèi)檢測(cè)結(jié)果(%)

從表3中觀(guān)察到,在異常流量樣本少于良性樣本的情況下,本文方法對(duì)攻擊流量取得了最高的檢測(cè)準(zhǔn)確率、精確率、檢出率和F1-score,分別為93.17%,93.52%,94.55%,94.03%。本文方法的檢測(cè)誤報(bào)率為8.64%,相比其他模型中最低的誤報(bào)率僅增加了0.69%。對(duì)于本文模型,采用BorderlineSMOTE過(guò)采樣方法的檢測(cè)準(zhǔn)確率相比不采用重采樣提升了4.76%,相比采用ROS過(guò)采樣方法提升了4.05%。M LP和RF模型的檢測(cè)準(zhǔn)確率較低,分別為80.88%和79.92%。這是由于這兩種模型在樣本量較少的情況下,挖掘能力略差。因此在僅用原始訓(xùn)練集KDDTrain 20%樣本構(gòu)成的訓(xùn)練集KDDTrain+_20Percent進(jìn)行學(xué)習(xí)時(shí),準(zhǔn)確學(xué)習(xí)數(shù)據(jù)特征的能力較差,檢測(cè)準(zhǔn)確率低。相比于CNN模型[19]、BiLSTM模型[14]、DTNB+MOEFS模型[23]和組合模型1DCNN-BiLSTM,本文模型的檢測(cè)準(zhǔn)確率分別提升了10.65%,7.08%,6.39%和4.61%,在精確率方面也分別提升了2.00%,1.06%,5.68%和5.77%,在檢出率方面分別提升了19.74%,12.61%,9.69%和6.33%,檢出率大幅提升,說(shuō)明本文方法在區(qū)分正常流量和異常流量方面的檢測(cè)性能優(yōu)于其他模型。綜上分析,本文方法對(duì)經(jīng)典N(xiāo)SL-KDD數(shù)據(jù)集進(jìn)行檢測(cè)時(shí),在正常流量與異常流量不平衡的情況下,檢測(cè)性能優(yōu)于其他方法,這驗(yàn)證了本文方法面對(duì)經(jīng)典流量數(shù)據(jù)集正常和異常數(shù)據(jù)不平衡問(wèn)題上的有效性。

為了評(píng)估本文方法檢測(cè)新型現(xiàn)代攻擊樣本的有效性,實(shí)驗(yàn)在CICIDS2017數(shù)據(jù)集上進(jìn)行進(jìn)一步驗(yàn)證。由于CICIDS2017數(shù)據(jù)集數(shù)據(jù)量較大,其中良性樣本占80.30%,攻擊樣本占19.70%。為提高實(shí)驗(yàn)效率,抽取10%的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),訓(xùn)練集和測(cè)試集按照7:3的比例劃分。由于上一實(shí)驗(yàn)已證明BorderlineSMOTE過(guò)采樣方法的有效性,因此,本實(shí)驗(yàn)僅對(duì)比不同模型的檢測(cè)性能,實(shí)驗(yàn)結(jié)果如表4所示。

表4 基于CICIDS2017數(shù)據(jù)集的二分類(lèi)檢測(cè)結(jié)果(%)

由表4可以觀(guān)察到,本文的流量異常檢測(cè)的準(zhǔn)確率相比RF模型提升了2.11%,相比M LP模型提升了4.94%,相比深度CNN模型[19]提升了3.10%,相比BiLSTM模型[14]提升了0.52%,相比DTNB+MOEFS模型[23]提升了1.91%,檢測(cè)效果有明顯提升。所提模型的檢測(cè)精確率、檢出率和F1-score均高于其他方法,F(xiàn)PR均小于其他方法。進(jìn)一步驗(yàn)證了本文方法對(duì)新型數(shù)據(jù)集中不平衡流量樣本的檢測(cè)有效性。

3.4 多分類(lèi)實(shí)驗(yàn)

為了驗(yàn)證本文的流量異常檢測(cè)方法區(qū)分不同攻擊類(lèi)型的檢測(cè)有效性,實(shí)驗(yàn)基于NSL-KDD數(shù)據(jù)集進(jìn)行模型多分類(lèi)性能評(píng)估。實(shí)驗(yàn)對(duì)比了機(jī)器學(xué)習(xí)典型算法M LP,RF和現(xiàn)有流行的3種面對(duì)流量數(shù)據(jù)類(lèi)別不平衡問(wèn)題效果較好的模型CNN[19],BiLSTM[14],I-Siam IDS[22],不同模型的檢測(cè)性能見(jiàn)圖5—圖8。

圖5 基于NSL-KDD數(shù)據(jù)集的多分類(lèi)檢出率

圖5為6種方法的檢出率對(duì)比圖,其中藍(lán)色、紅色、綠色、紫色、黃色分別表示各模型對(duì)正常流量、DoS攻擊流量、Probe攻擊流量、U2R攻擊流量、R 2L攻擊流量的檢出率。由圖5可以觀(guān)察到,本文方法在正常類(lèi)流量數(shù)據(jù)的檢出率上略小于其他算法,其檢出率為92.07%,相對(duì)于最高的RF算法,降低了5.46%。但對(duì)DoS攻擊流量以及樣本量較少的U2R和R2L攻擊流量,本文方法相比其他方法均取得了最高的檢出率,分別為93.66%,83.00%和84.66%。對(duì)U2R攻擊流量的檢出率,本文方法相比其他方法至少提升了13.70%。對(duì)R2L攻擊流量的檢出率,本文方法相比其他方法至少提升了9.78%。這一結(jié)果表明,與基準(zhǔn)分類(lèi)器相比,本文方法能夠提高對(duì)樣本量較少的各攻擊樣本的檢出率,對(duì)少數(shù)類(lèi)攻擊樣本的識(shí)別能力較好。

圖6為6種方法的檢測(cè)精確率對(duì)比圖,其中各顏色分別表示模型對(duì)各類(lèi)別流量的檢測(cè)精確率。由圖6可知,本文方法對(duì)DoS,Probe,R2L的檢測(cè)精確率分別為98.21%,74.55%,80.08%,雖略小于個(gè)別分類(lèi)器,但在所有分類(lèi)模型中,本文方法對(duì)正常類(lèi)和樣本量較少的U2R攻擊流量均取得了最高的精確率,分別為95.47%和79.05%。對(duì)于正常類(lèi)和4種攻擊類(lèi),本文方法相對(duì)其他方法的檢測(cè)精確率更穩(wěn)定。這一結(jié)果表明,本文方法對(duì)各類(lèi)樣本的檢測(cè)精確程度良好。

圖6 基于NSL-KDD數(shù)據(jù)集的多分類(lèi)檢測(cè)精確率

圖7為6種方法的多分類(lèi)檢測(cè)誤報(bào)率對(duì)比圖,其中各顏色分別表示模型對(duì)各類(lèi)別流量的檢測(cè)誤報(bào)率。由圖可知,本文方法對(duì)正常類(lèi)、DoS類(lèi)均取得了最低的檢測(cè)誤報(bào)率,分別為3.30%和0.84%。對(duì)Probe,U2R,R2L 3類(lèi)的檢測(cè)誤報(bào)率略高于個(gè)別基準(zhǔn)模型,這是由于在檢測(cè)過(guò)程中,本文方法將一定量正常類(lèi)和DoS攻擊流量數(shù)據(jù)誤判為這3類(lèi)數(shù)據(jù),導(dǎo)致檢測(cè)誤報(bào)率略高,但本文方法對(duì)5類(lèi)數(shù)據(jù)的誤報(bào)率較小,均不超過(guò)4%。其他方法對(duì)正常樣本的檢測(cè)誤報(bào)率較高,這是由于其他對(duì)比方法在檢測(cè)過(guò)程中將一些攻擊樣本識(shí)別為正常樣本,識(shí)別不準(zhǔn)確,檢測(cè)誤報(bào)率較高,這也說(shuō)明所對(duì)比其他算法無(wú)法有效應(yīng)對(duì)數(shù)據(jù)不平衡問(wèn)題。

圖7 基于NSL-KDD數(shù)據(jù)集的多分類(lèi)檢測(cè)誤報(bào)率

圖8是6種方法的多分類(lèi)檢測(cè)F1-score對(duì)比圖,其中各顏色分別表示模型對(duì)各類(lèi)別流量的檢測(cè)F1-score。F1-score更能反映模型的整體檢測(cè)性能。由圖8可知,本文方法對(duì)各類(lèi)流量數(shù)據(jù)均取得最高的F1-score,對(duì)正常流量,DoS,Probe,U 2R,R2L攻擊流量的檢測(cè)F1-score分別為93.74%,95.88%,82.56%,80.98%,82.31%。這表明本文方法在保證檢測(cè)精確率的同時(shí),提升了對(duì)少數(shù)攻擊流量數(shù)據(jù)的檢出率。

圖8 基于NSL-KDD數(shù)據(jù)集的多分類(lèi)檢測(cè)F1-score

從圖5—圖8的各項(xiàng)性能參數(shù)對(duì)比可以看出,本文模型無(wú)論是對(duì)樣本量較多的正常流量和DoS,Probe攻擊流量,還是對(duì)樣本量較少的U2R,R2L攻擊流量,在各個(gè)檢測(cè)性能指標(biāo)上都較好,雖然在個(gè)別評(píng)價(jià)指標(biāo)上略差于某個(gè)分類(lèi)器,但在少數(shù)攻擊流量的檢出率等性能上效果最好,相比其他典型模型具有明顯提升,能夠?qū)ι贁?shù)類(lèi)攻擊流量有效分類(lèi)。由此驗(yàn)證了本文方法對(duì)不平衡流量數(shù)據(jù)多分類(lèi)任務(wù)的有效性和優(yōu)越性。

4 結(jié)束語(yǔ)

考慮到流量異常檢測(cè)中類(lèi)別不平衡問(wèn)題嚴(yán)重影響了對(duì)攻擊流量數(shù)據(jù)的檢測(cè)準(zhǔn)確率和對(duì)少數(shù)攻擊類(lèi)流量的檢出率,本文提出了一種基于聯(lián)合注意力機(jī)制和1DCNN-BiLSTM模型的流量異常檢測(cè)方法,該方法結(jié)合了類(lèi)不平衡處理技術(shù)BorderlineSMOTE和混合深度學(xué)習(xí)模型。通過(guò)BorderlineSMOTE生成新的攻擊數(shù)據(jù),使各類(lèi)數(shù)據(jù)均衡。同時(shí)設(shè)計(jì)了聯(lián)合注意力機(jī)制和1DCNN-BiLSTM的模型對(duì)流量數(shù)據(jù)進(jìn)行訓(xùn)練,充分提取流量數(shù)據(jù)的局部特征和長(zhǎng)距離序列特征,更好地學(xué)習(xí)流量特征數(shù)據(jù)的前后關(guān)聯(lián)關(guān)系,并對(duì)特征按重要性賦予權(quán)重,充分發(fā)揮重要特征在流量異常檢測(cè)中的作用,從而提高檢測(cè)準(zhǔn)確率和檢出率。本文使用NSL-KDD和CICIDS2017數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試。實(shí)驗(yàn)結(jié)果表明,與一些現(xiàn)有典型的和較為流行的機(jī)器學(xué)習(xí)算法相比,本文方法在二分類(lèi)和多分類(lèi)的檢測(cè)準(zhǔn)確率、精確率、檢出率、誤報(bào)率和F1-Score 5種性能評(píng)估指標(biāo)上取得了良好的效果,驗(yàn)證了本文方法檢測(cè)不平衡攻擊流量的有效性。在未來(lái)的研究中,將探索其他檢測(cè)模型和方法,提高對(duì)惡意流量的檢測(cè)性能,以增強(qiáng)模型用于實(shí)際網(wǎng)絡(luò)流量的可能性。

猜你喜歡
特征檢測(cè)方法
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀(guān)察
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
主站蜘蛛池模板: 亚洲AV无码精品无码久久蜜桃| 亚洲浓毛av| 久久先锋资源| 成人午夜久久| 国产青青操| 欧美亚洲国产精品久久蜜芽| 巨熟乳波霸若妻中文观看免费| 久久semm亚洲国产| 久久一本日韩精品中文字幕屁孩| 欧美在线观看不卡| 国产精品无码影视久久久久久久| 欧美综合区自拍亚洲综合天堂| 九色91在线视频| www.99在线观看| 99视频免费观看| 日韩AV无码一区| 夜夜拍夜夜爽| 国产免费自拍视频| 一级毛片免费不卡在线| 国产青榴视频在线观看网站| 麻豆AV网站免费进入| 在线免费不卡视频| 欧美性精品| 国产91九色在线播放| 国产小视频网站| 亚洲精品在线影院| 中文字幕在线日韩91| 国产福利小视频高清在线观看| 欧美三级视频网站| 尤物视频一区| 一级全黄毛片| 国产丝袜啪啪| 日本少妇又色又爽又高潮| 色婷婷天天综合在线| 最新亚洲av女人的天堂| 玖玖精品视频在线观看| 成人无码区免费视频网站蜜臀| 久久国产乱子| 日韩免费成人| 99ri精品视频在线观看播放| 国产精品久久久久鬼色| 国产又爽又黄无遮挡免费观看| 久久精品国产999大香线焦| 亚洲精品另类| 久久黄色毛片| 成年av福利永久免费观看| 欧美一区中文字幕| 日韩精品亚洲人旧成在线| 亚洲天堂网2014| 伊人精品成人久久综合| 国产69精品久久久久孕妇大杂乱| 国产91九色在线播放| 热思思久久免费视频| 国产人成在线观看| 欧美激情视频在线观看一区| 国产在线一区视频| 五月婷婷综合在线视频| 亚洲精品天堂在线观看| 91午夜福利在线观看| 亚洲久悠悠色悠在线播放| 国产一级视频久久| 亚洲色大成网站www国产| 国产亚洲精品97在线观看 | 国产一级特黄aa级特黄裸毛片| 国产欧美日韩视频怡春院| 噜噜噜综合亚洲| 亚洲男女天堂| www.youjizz.com久久| 欧美精品一区二区三区中文字幕| 欧美不卡在线视频| 2020国产免费久久精品99| 精品亚洲国产成人AV| 欧美一区二区三区不卡免费| 91在线无码精品秘九色APP| 国内精品手机在线观看视频| 精品国产成人av免费| 91无码人妻精品一区二区蜜桃| 91色综合综合热五月激情| 尤物特级无码毛片免费| 成人国产小视频| 免费国产高清精品一区在线| www成人国产在线观看网站|