999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遷移學(xué)習(xí)的加密惡意流量檢測(cè)方法

2022-09-06 11:08:44張穌榮卜佑軍路祥雨
關(guān)鍵詞:分類檢測(cè)方法

張穌榮,陳 博,卜佑軍,路祥雨,孫 嘉,2

1.中國人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué) 信息技術(shù)研究所,鄭州 450000

2.鄭州大學(xué) 軟件學(xué)院,鄭州 450000

如今,隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等新型網(wǎng)絡(luò)技術(shù)的出現(xiàn)和發(fā)展,互聯(lián)網(wǎng)的規(guī)模不斷擴(kuò)大,因此帶來了網(wǎng)絡(luò)流量的爆發(fā)式增長[1]。與此同時(shí),隨著大眾網(wǎng)絡(luò)安全意識(shí)的不斷提高,非加密的數(shù)據(jù)傳輸方式也逐漸被加密傳輸所取代,加密網(wǎng)絡(luò)流量在互聯(lián)網(wǎng)中所占比例穩(wěn)步提升。而據(jù)Barac 預(yù)測(cè),到2021 年底,89%的流量將被加密[2],加密流量中將有超過50%的部分是由惡意軟件產(chǎn)生的。這就意味著網(wǎng)絡(luò)流量加密技術(shù)雖然能夠用于用戶隱私與安全保護(hù),但同時(shí)也為惡意網(wǎng)絡(luò)服務(wù)提供了可乘之機(jī)。越來越多的惡意網(wǎng)絡(luò)服務(wù)通過加密和隧道技術(shù)繞過防火墻和入侵檢測(cè)系統(tǒng),加密技術(shù)正在成為惡意服務(wù)的溫床。因此,加密流量檢測(cè)技術(shù)愈加受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。

加密流量檢測(cè)與非加密流量檢測(cè)最大的不同之處在于其實(shí)際內(nèi)容不可見,而基于解密技術(shù)的檢測(cè)方法耗時(shí)長、成本高,同時(shí)也涉嫌對(duì)用戶隱私的侵犯。如何在不解密的條件下對(duì)加密流量進(jìn)行有效檢測(cè)是當(dāng)前網(wǎng)絡(luò)安全特別是流量安全領(lǐng)域的熱點(diǎn)和難點(diǎn)之一。

人工智能技術(shù)的發(fā)展為該領(lǐng)域的研究提供了可行的思路[3]。機(jī)器學(xué)習(xí)是人工智能的一種實(shí)現(xiàn)方法,它從樣本數(shù)據(jù)中學(xué)習(xí),得到知識(shí)和規(guī)律,然后用于實(shí)際推斷和決策。然而傳統(tǒng)的機(jī)器學(xué)習(xí)方法必須依靠專家經(jīng)驗(yàn)手工提取流量特征,耗時(shí)耗力,在如今流量特別是加密流量爆發(fā)式增長的情況下,難以實(shí)現(xiàn)及時(shí)、準(zhǔn)確地加密惡意流量檢測(cè)。而深度學(xué)習(xí)能夠從原始流量數(shù)據(jù)中自動(dòng)提取特征,無需繁雜的人工特征提取過程,經(jīng)過一定周期的訓(xùn)練,在自動(dòng)化檢出率、準(zhǔn)確率、漏報(bào)率等方面,都可以獲得較好的效果。但性能較好的深度學(xué)習(xí)模型的訓(xùn)練需要依靠大量正確標(biāo)記的流量數(shù)據(jù),這正是目前加密惡意流量檢測(cè)領(lǐng)域所面臨的一大困境。在現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境中,流量復(fù)雜多變,難以實(shí)時(shí)準(zhǔn)確地對(duì)其進(jìn)行標(biāo)記,從而難以獲取大規(guī)模高質(zhì)量的訓(xùn)練數(shù)據(jù),給現(xiàn)有方法帶來了巨大的挑戰(zhàn)。為了達(dá)到及時(shí)檢測(cè)的效果,檢測(cè)模型必須能夠?qū)崿F(xiàn)小樣本條件下的快速訓(xùn)練和準(zhǔn)確檢測(cè)。

針對(duì)加密惡意流量檢測(cè)所面臨的可用樣本數(shù)量較少問題,本文提出一種基于遷移學(xué)習(xí)的加密惡意流量檢測(cè)(transfer learning based encrypted malicious traffic detection,TL-EMTD)方法。首先通過預(yù)處理階段,將以二進(jìn)制字符串的形式存儲(chǔ)的原始流量數(shù)據(jù)轉(zhuǎn)換為二維圖像格式。在此過程中,采用二進(jìn)制字符串到十六進(jìn)制字符串,再到十進(jìn)制整數(shù)矩陣,最后到png格式的二維圖像的轉(zhuǎn)換流程,將每個(gè)pcap文件處理為一張二維圖像。其次,為了解決小樣本問題帶來的模型檢測(cè)精度降低問題,借鑒遷移學(xué)習(xí)理論,將用于圖片分類的Efficientnet-B0模型[4]遷移到加密流量數(shù)據(jù)集上,替換其全連接層后進(jìn)行訓(xùn)練。在此過程中,由于模型的卷積層不參與訓(xùn)練,只有替換的全連接層需要進(jìn)行梯度更新,參數(shù)數(shù)量大大降低,因此在樣本較少的情況下也能訓(xùn)練出精度較高的檢測(cè)模型。最后,將訓(xùn)練好的模型用于檢測(cè),可獲得良好的檢測(cè)效果。本文的主要貢獻(xiàn)和創(chuàng)新工作總結(jié)如下:

(1)提出了一種基于遷移學(xué)習(xí)的加密惡意流量檢測(cè)方法,即TL-EMTD,在公共數(shù)據(jù)集上對(duì)該方法進(jìn)行了評(píng)估,取得了較好的檢測(cè)結(jié)果。

(2)首次將用于圖片分類的Efficientnet-B0 模型遷移到加密流量數(shù)據(jù)集上,結(jié)合流量預(yù)處理,為加密流量檢測(cè)提供了新的思路。

(3)解決了小樣本條件下加密惡意流量檢測(cè)精度不高的問題,能夠在訓(xùn)練樣本較少的情況下,得到性能較好的加密惡意流量檢測(cè)器。

1 相關(guān)工作

1.1 加密惡意流量檢測(cè)

一般來說,加密惡意流量檢測(cè)的本質(zhì)是加密流量檢測(cè)及分類。在研究初期,研究者主要利用基于規(guī)則的加密流量檢測(cè)方法[5-8],其主要思想是利用加密流量的字段組合、排序或者固定模式等作為指紋進(jìn)行模式匹配。該方法雖然具有輕量級(jí)這一優(yōu)點(diǎn),但是需要人工分析海量流量,選擇具有區(qū)分性的字段特征或組合,且僅可以對(duì)已提取的規(guī)則進(jìn)行匹配識(shí)別,容易被人工拼接或惡意偽造字段的流量繞過,導(dǎo)致高誤報(bào)率。

隨著網(wǎng)絡(luò)流量加密化進(jìn)程不斷推進(jìn),基于規(guī)則的流量檢測(cè)方法變得更加困難。于是,研究者引入機(jī)器學(xué)習(xí)算法,大大提高了加密流量檢測(cè)性能[9-15]。其主要思想是構(gòu)建加密流量的統(tǒng)計(jì)屬性聯(lián)合作為指紋進(jìn)行分類識(shí)別。該方法雖然提高了加密流量檢測(cè)的準(zhǔn)確率,但是仍然需要依靠專家經(jīng)驗(yàn)來決定特征的選擇和提取,費(fèi)時(shí)費(fèi)力。

近年來,由于深度學(xué)習(xí)能夠通過訓(xùn)練進(jìn)行自動(dòng)化特征提取,基于深度學(xué)習(xí)的加密流量檢測(cè)也得到了迅速發(fā)展。王偉等[16]首次提出了一種基于一維卷積神經(jīng)網(wǎng)絡(luò)(1 dimensional convolutional neural networks,1D-CNN)的端到端加密流量分類方法。該方法將特征提取、特征選擇和分類器集成到一個(gè)統(tǒng)一的端到端框架中,自動(dòng)學(xué)習(xí)原始輸入與期望輸出之間的非線性關(guān)系。此外,在文獻(xiàn)[17]中,該作者還提出了一種基于二維卷積神經(jīng)網(wǎng)絡(luò)(2 dimensional convolutional neural networks,2D-CNN)的加密惡意流量檢測(cè)方法,通過將會(huì)話或網(wǎng)絡(luò)流的前784字節(jié)預(yù)處理為二維灰度圖像作為模型輸入,來提取其中包含的空間特征,實(shí)現(xiàn)加密惡意流量的檢測(cè)。吳迪等[18]提出了一種基于深度學(xué)習(xí)的檢測(cè)模型BotCatcher,該模型使用CNN和雙向LSTM這兩種深層神經(jīng)網(wǎng)絡(luò)架構(gòu),從時(shí)間和空間這兩個(gè)維度對(duì)原始流量進(jìn)行自動(dòng)化特征提取。韋佶宏等[19]提出了一種基于混合神經(jīng)網(wǎng)絡(luò)的模型,將專家經(jīng)驗(yàn)與神經(jīng)網(wǎng)絡(luò)自動(dòng)化特征提取的優(yōu)勢(shì)相結(jié)合,利用1D-CNN 與2D-CNN 優(yōu)秀的特征表達(dá)能力,降低對(duì)專家經(jīng)驗(yàn)的依賴,有效提升了針對(duì)惡意TLS流量的識(shí)別與分類效果。黎佳玥等[20]提出了一種結(jié)合深度學(xué)習(xí)算法中長短期記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型,能夠訓(xùn)練得到網(wǎng)絡(luò)流量數(shù)據(jù)的時(shí)空特征,實(shí)現(xiàn)預(yù)測(cè)下一時(shí)段網(wǎng)絡(luò)流量特征變化和網(wǎng)絡(luò)安全事件分類識(shí)別。目前,雖然深度學(xué)習(xí)技術(shù)在加密流量檢測(cè)領(lǐng)域已十分廣泛且深入,但模型良好性能的實(shí)現(xiàn)仍然需要依靠大量正確標(biāo)記的數(shù)據(jù)來進(jìn)行較長時(shí)間的訓(xùn)練,如何實(shí)現(xiàn)較高的檢測(cè)和細(xì)粒度分類精度,甚至在小樣本條件下也能達(dá)到具有應(yīng)用價(jià)值的檢測(cè)和分類水平,是亟待解決的問題。

1.2 遷移學(xué)習(xí)

對(duì)于人類來說,遷移學(xué)習(xí)就是舉一反三的能力;對(duì)于機(jī)器學(xué)習(xí)算法來說,遷移學(xué)習(xí)就是運(yùn)用已有的知識(shí)來學(xué)習(xí)新的知識(shí)。通常,將原有的知識(shí)稱為源域,將新的知識(shí)稱為目標(biāo)域,兩者不同但一定存在關(guān)聯(lián)。遷移學(xué)習(xí)利用數(shù)據(jù)、任務(wù)或模型之間的相似性,將源域中學(xué)習(xí)到的模型應(yīng)用到目標(biāo)域。與傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)致力于同時(shí)從每個(gè)任務(wù)中獲取信息的特點(diǎn)不同,遷移學(xué)習(xí)致力于當(dāng)目標(biāo)任務(wù)缺少高質(zhì)量的訓(xùn)練數(shù)據(jù)時(shí),從之前任務(wù)向目標(biāo)任務(wù)遷移知識(shí),解決目標(biāo)域缺少標(biāo)簽的問題[21]。

在加密流量檢測(cè)領(lǐng)域,文獻(xiàn)[22]采用遷移學(xué)習(xí)的思想,提出了一種半監(jiān)督的檢測(cè)方法。該方法首先在一個(gè)大的未標(biāo)記數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)模型,然后將學(xué)習(xí)到的權(quán)值轉(zhuǎn)移到一個(gè)新的模型中,該模型在一個(gè)小的標(biāo)記數(shù)據(jù)集上進(jìn)行再訓(xùn)練。作者表示,盡管每個(gè)類只使用20個(gè)樣本,但該方法幾乎可以達(dá)到與完全監(jiān)督方法在大的標(biāo)記數(shù)據(jù)集上相同的精度。文獻(xiàn)[23]重點(diǎn)研究了離散順序協(xié)議消息(discrete sequential protocol messages,DSM)中加密數(shù)據(jù)的分類問題,提出了一種基于LSTM和遷移學(xué)習(xí)(transfer learning,TL)的LSTM-TL 方法。該方法將在源域上預(yù)訓(xùn)練的LSTM 模型轉(zhuǎn)移到目標(biāo)域,可以在不需要目標(biāo)區(qū)域內(nèi)任何標(biāo)記數(shù)據(jù)的情況下對(duì)未標(biāo)記DSM 數(shù)據(jù)進(jìn)行分類。作者在Text、ACARS、HTTP&SSH和AIS數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),在前三個(gè)數(shù)據(jù)集上,該方法的F1 分?jǐn)?shù)和準(zhǔn)確性均大于0.96,而在AIS數(shù)據(jù)集上分別僅為50%和67%,原因是用于預(yù)訓(xùn)練的源域與該目標(biāo)域差異過大。這也證明要想實(shí)現(xiàn)高性能的遷移學(xué)習(xí),選擇合適的源域是至關(guān)重要的。

可以發(fā)現(xiàn),遷移學(xué)習(xí)能夠解決目前主流的加密流量檢測(cè)方法過分依賴大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練的問題,在合適的源域條件下,能夠以很少的樣本得到性能良好的加密流量檢測(cè)器。

2 架構(gòu)設(shè)計(jì)

圖1給出了本文提出的加密惡意流量檢測(cè)模型TLEMTD 的基本結(jié)構(gòu),包括數(shù)據(jù)預(yù)處理階段、模型訓(xùn)練階段以及測(cè)試階段。整體檢測(cè)流程可概述為:首先對(duì)原始流量數(shù)據(jù)進(jìn)行預(yù)處理,轉(zhuǎn)換為模型所需的輸入格式;預(yù)處理后的數(shù)據(jù)輸入到檢測(cè)模型中,模型對(duì)輸入數(shù)據(jù)進(jìn)行自動(dòng)化特征提取;提取的特征向量經(jīng)過最后一層Softmax層得到最終的檢測(cè)結(jié)果。

圖1 TL-EMTD方法整體架構(gòu)示意圖Fig.1 Overall architecture of TL-EMTD

2.1 數(shù)據(jù)預(yù)處理

在數(shù)據(jù)預(yù)處理階段,被存儲(chǔ)為Pcap 格式的原始流量數(shù)據(jù)經(jīng)流量切分、數(shù)據(jù)清洗、長度統(tǒng)一、格式轉(zhuǎn)換及數(shù)據(jù)集劃分等步驟,轉(zhuǎn)換為可作為模型輸入的png 格式,如圖2所示。

圖2 數(shù)據(jù)預(yù)處理步驟示意圖Fig.2 Data preprocessing step

(1)流量切分:根據(jù)五元組將原始流量劃分為會(huì)話。

原始流量數(shù)據(jù)存儲(chǔ)在單獨(dú)的Pcap 文件中,每個(gè)Pcap文件是一個(gè)包含不同大小的數(shù)據(jù)包的集合,每個(gè)文件代表一種應(yīng)用程序。在這一步驟中,原始流量文件首先按會(huì)話分段,使用所有協(xié)議層次數(shù)據(jù),這是在文獻(xiàn)[16]中王偉等所評(píng)價(jià)的基于深度學(xué)習(xí)的流量分類中最理想的流量表示形式。會(huì)話是由具有相同五元組(源IP,源端口,目的IP,目的端口,傳輸層協(xié)議)的雙向流組成的一組數(shù)據(jù)包,其源IP和目的IP可以互換。

(2)數(shù)據(jù)清洗:刪除與檢測(cè)無關(guān)的信息。

對(duì)于每條會(huì)話,依次迭代其中的每個(gè)數(shù)據(jù)包,刪除數(shù)據(jù)鏈路層中一些與以太網(wǎng)相關(guān)的數(shù)據(jù),如MAC地址;同時(shí),刪除重復(fù)的數(shù)據(jù)包和空數(shù)據(jù)包。

(3)長度統(tǒng)一:固定會(huì)話長度以適應(yīng)模型輸入的要求。

為了使傳輸層段均勻,在UDP 段的標(biāo)頭(8 Byte)末尾填充0,以使其與TCP 標(biāo)頭的長度(20 Byte)相等;此外,將每條會(huì)話的長度固定為1 024 Byte,如果會(huì)話長度大于1 024 Byte 則截?cái)啵∮? 024 Byte 則在會(huì)話末尾補(bǔ)零。

(4)格式轉(zhuǎn)換:將會(huì)話文件轉(zhuǎn)換為灰度圖像。

將長度統(tǒng)一后的會(huì)話文件根據(jù)模型需要的輸入分辨率大小進(jìn)行迭代復(fù)制擴(kuò)充,即以分辨率要求是64×64為例,分別將每條會(huì)話(1024 Byte)迭代復(fù)制擴(kuò)充至長度為4 096(64×64)。之后將擴(kuò)充后的會(huì)話文件轉(zhuǎn)換為的二維灰度圖像,輸出格式為png格式。會(huì)話文件中的一個(gè)字節(jié)對(duì)應(yīng)灰度圖像中的一個(gè)像素值,例如0x00 對(duì)應(yīng)黑色,0xff對(duì)應(yīng)白色。

(5)數(shù)據(jù)集劃分:將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。

將所有類別的灰度圖像按9∶1 的比例分割成訓(xùn)練集和測(cè)試集。

2.2 模型架構(gòu)

本文提出一種基于遷移學(xué)習(xí)的加密惡意流量檢測(cè)方法,即TL-EMTD 方法,首次將谷歌團(tuán)隊(duì)在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的Efficientnet-B0 模型及其參數(shù),遷移到加密流量數(shù)據(jù)集上進(jìn)行再訓(xùn)練。

Efficientnet 是谷歌大腦的工程師譚明星和首席科學(xué)家Le 等于2019 年在文獻(xiàn)[4]中提出的。在這篇論文中,作者構(gòu)造了一個(gè)基線網(wǎng)絡(luò)結(jié)構(gòu)Efficientnet-B0,同時(shí)提出了一種可以同時(shí)兼顧速度與精度的模型擴(kuò)展方法,并應(yīng)用在Efficientnet-B0 上,通過擴(kuò)大不同倍數(shù)分別生成 了Efficientnet-B1~Efficientnet-B7。相 對(duì) 于Resnet、Xception、ResNet等經(jīng)典網(wǎng)絡(luò)模型,Efficientnet系列模型在ImageNet 數(shù)據(jù)集上的分類性能實(shí)現(xiàn)了碾壓;而對(duì)比此前效果最好的Gpipe 模型,雖然Efficientnet 在準(zhǔn)確率上只提高了0.1%,但模型參數(shù)卻減少了8.4倍。

考慮到數(shù)據(jù)集規(guī)模較小,本文只使用參數(shù)最少的考慮到Efficientnet-B0模型來進(jìn)行遷移。之所以選擇Efficientnet模型,是因?yàn)槠浔旧硎怯米鲌D片分類的,而流量數(shù)據(jù)能夠被處理為二維圖像格式,因此可以認(rèn)為兩者之間存在一定的聯(lián)系,具備遷移的條件。

在遷移過程中,將Efficientnet-B0 模型最后的全連接層去除,保留之前所有的層,并在其之后添加全局平均池化層(global average pooling,GAP)[24]、密集層以及Softmax 層。以基于Efficientnet-B0 模型的6 分類實(shí)驗(yàn)為例,整體網(wǎng)絡(luò)架構(gòu)如圖3所示。

圖3 TL-EMTD方法網(wǎng)絡(luò)架構(gòu)圖Fig.3 Network architecture of TL-EMT

2.2.1 Efficientnet-B0層

在構(gòu)造Efficientnet-B0時(shí),作者使用MobileNet V2[25-26]中的移動(dòng)翻轉(zhuǎn)瓶頸卷積(mobile inverted bottleneck convolution,MBConv)模塊作為模型的主要構(gòu)造塊,在此基礎(chǔ)上用多目標(biāo)神經(jīng)架構(gòu)搜索[26],確定了最終的基線網(wǎng)絡(luò)Efficientnet-B0,其結(jié)構(gòu)如表1所示。其中,MBConv模塊是通過在深度可分離卷積(depthwise separable convolution,DSC)的基礎(chǔ)上,使用SENet[27]中的壓縮與激發(fā)(squeeze and excitation,SE)方法進(jìn)行優(yōu)化而形成的。

表1 Efficientnet-B0網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of Efficientnet-B0

在TL-EMTD方法中,Efficientnet-B0模型可以看作是一個(gè)高效的特征提取器。被預(yù)處理為二維圖像的加密流量數(shù)據(jù)輸入到其中,經(jīng)過一系列的卷積、池化、激活等操作后,輸出更加精煉且表達(dá)能力更強(qiáng)的特征向量。

2.2.2 全局平均池化層

在全局平均池化技術(shù)被提出之前,全連接層一直是卷積神經(jīng)網(wǎng)絡(luò)的標(biāo)配,用來改變卷積層輸出特征圖的維度,將學(xué)到的“分布式特征表示”映射到樣本標(biāo)記空間,即實(shí)現(xiàn)特征圖的向量化,從而實(shí)現(xiàn)分類。但是全連接層參數(shù)過多,容易造成過擬合。為了避免此風(fēng)險(xiǎn),同時(shí)實(shí)現(xiàn)特征圖到特征向量的轉(zhuǎn)換,全局平均池化技術(shù)應(yīng)運(yùn)而生,兩者的結(jié)構(gòu)如圖4所示。

圖4 全連接層和全局平均池化層結(jié)構(gòu)示意圖Fig.4 Structure comparison diagram of full connection layer and global average pooling layer

2.2.3 密集層

卷積層輸出的特征圖在經(jīng)過全局平均池化層之后,可以得到長度為1 280的一維特征向量。為了進(jìn)一步整合特征,增強(qiáng)模型的非線性表達(dá)能力,本文增加一個(gè)密集全連接層,采用線性整流函數(shù)(rectified linear unit,ReLU)作為激活函數(shù),可以得到長度為256的高階特征向量。其中,ReLU函數(shù)如式(1)所示:

ReLU函數(shù)保留全部正值,并將所有負(fù)值置為0,通過這種方式賦予神經(jīng)元稀疏激活性,從而使其能夠更好地挖掘輸入信息中與目標(biāo)相關(guān)的特征,擬合訓(xùn)練數(shù)據(jù)。與線性函數(shù)相比,ReLU函數(shù)具有更強(qiáng)的表達(dá)能力;而與其他非線性函數(shù)相比,其非負(fù)區(qū)間的梯度為常數(shù),因此能夠避免神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中經(jīng)常出現(xiàn)的梯度消失問題。

2.2.4 Softmax層

網(wǎng)絡(luò)結(jié)構(gòu)的最后一層,即Softmax層,本質(zhì)上依然是一個(gè)全連接層,但是激活函數(shù)采用的是Softmax函數(shù)。該層將密集層輸出的一維特征向量,繼續(xù)映射為(-∞,+∞)范圍內(nèi)的實(shí)數(shù),又稱為分?jǐn)?shù)。Softmax函數(shù)將這些實(shí)數(shù)進(jìn)一步轉(zhuǎn)化為(0,1)范圍內(nèi)的實(shí)數(shù),即各類的概率,同時(shí)保證它們的和為1。Softmax函數(shù)的計(jì)算公式如式(2)所示:

其中,pi是輸入樣本屬于類別i的概率,zi是分?jǐn)?shù),i為加密流量類別索引,k為加密流量類別總數(shù)。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境

本文使用的實(shí)驗(yàn)環(huán)境與配置如表2所示。

表2 實(shí)驗(yàn)環(huán)境與配置Table 2 Experimental environment and configuration

3.2 數(shù)據(jù)集

翟明芳等在文獻(xiàn)[28]中對(duì)目前常見的流量數(shù)據(jù)集做出了總結(jié),從中可以看出,如今很難找到一個(gè)能夠滿足同時(shí)包含加密惡意流量與正常流量且以Pcap包存儲(chǔ)原始流量等條件的公共數(shù)據(jù)集。因此,本文決定綜合正常加密流量數(shù)據(jù)集ISCX VPN-nonVPN[29]和加密惡意流量數(shù)據(jù)集CTU-13[30],構(gòu)造一個(gè)滿足上述條件的原始流量數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn)。

ISCX VPN-nonVPN數(shù)據(jù)集中包含14種加密流量,包括7 種常規(guī)加密流量和7 種協(xié)議封裝流量,且同時(shí)包含流特征數(shù)據(jù)和原始流量數(shù)據(jù),但原始流量數(shù)據(jù)沒有標(biāo)簽。由于本文主要關(guān)注加密流量的檢測(cè),因此選擇其中的常規(guī)加密流量。此外,由于Browser和Streaming兩種流量中包含重復(fù)的文件[16],因此本文將Browser 這類流量去掉,選擇剩余的電子郵件(Email)、聊天(Chat)、流媒體(Streaming)、文件傳輸(File Transfer)、VoIP和P2P這6 類常規(guī)加密流量進(jìn)行標(biāo)記。該數(shù)據(jù)集的構(gòu)成及預(yù)處理后生成的二維圖像數(shù)量如表3所示。

表3 加密正常流量數(shù)據(jù)集Table 3 Encrypted benign traffic dataset

CTU 數(shù)據(jù)集是捷克共和國CTU 大學(xué)在2011 年至2015年間在真實(shí)環(huán)境中捕獲的,本文從中選取6種加密惡意流量,該數(shù)據(jù)集的構(gòu)成及預(yù)處理后生成的二維圖像數(shù)量如表4所示。

表4 加密惡意流量數(shù)據(jù)集Table 4 Encrypted malicious traffic dataset

3.3 評(píng)價(jià)指標(biāo)

本文使用以下指標(biāo)來評(píng)價(jià)本文提出的方法:

準(zhǔn)確率(Acuuracy),表示樣本被正確分類的比例:

精確率(Precision,又稱查準(zhǔn)率),表示在所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本所占的比例:

召回率(Recall,又稱查全率),表示在實(shí)際為正的樣本中被預(yù)測(cè)為正的樣本所占的比例:

F1 分?jǐn)?shù)(F1-Score),是精確率和召回率的調(diào)和平均,可作為模型的實(shí)際評(píng)分準(zhǔn)則:

其中,TP表示預(yù)測(cè)為正實(shí)際也為正的樣本數(shù)目,TN表示預(yù)測(cè)為負(fù)實(shí)際也為負(fù)的樣本數(shù)目,F(xiàn)P表示預(yù)測(cè)為正實(shí)際為負(fù)的樣本數(shù)目,F(xiàn)N表示預(yù)測(cè)為負(fù)實(shí)際為正的樣本數(shù)目。

3.4 實(shí)驗(yàn)結(jié)果與分析

本文設(shè)置4個(gè)實(shí)驗(yàn)來測(cè)試所提TL-EMTD方法的性能。首先測(cè)試輸入圖像的分辨率大小對(duì)檢測(cè)結(jié)果的影響,為后續(xù)實(shí)驗(yàn)提供依據(jù);其次對(duì)所有流量數(shù)據(jù)進(jìn)行二分類,以測(cè)試TL-EMTD方法檢測(cè)加密惡意流量的性能;在此基礎(chǔ)上,在正常樣本數(shù)量情況下,針對(duì)加密惡意流量數(shù)據(jù)集進(jìn)行細(xì)粒度分類實(shí)驗(yàn),并與文獻(xiàn)[17]及文獻(xiàn)[18]中的方法進(jìn)行對(duì)比;最后通過設(shè)置不同的訓(xùn)練樣本數(shù)量,測(cè)試小樣本條件下該方法的細(xì)粒度檢測(cè)性能。在實(shí)驗(yàn)中,batch_size 設(shè)置為16,采用RMSprop 優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)率衰減系數(shù)設(shè)置為0.01,同時(shí)采用動(dòng)量梯度下降法加快收斂速度,動(dòng)量設(shè)置為0.9。

3.4.1 實(shí)驗(yàn)1:輸入分辨率大小對(duì)檢測(cè)結(jié)果的影響

在該實(shí)驗(yàn)中,本文以加密惡意流量數(shù)據(jù)集為基礎(chǔ),通過將原始流量預(yù)處理為4種不同分辨率的二維圖像,研究分辨率大小對(duì)TL-EMTD方法檢測(cè)結(jié)果的影響。表5 顯示了4 種分辨率下的檢測(cè)準(zhǔn)確率以及平均精確率、召回率和F1分?jǐn)?shù)。

表5 不同分辨率下的檢測(cè)結(jié)果Table 5 Detection results at different resolutions

從表5中可以看出,隨著分辨率的增加,各個(gè)評(píng)價(jià)指標(biāo)的數(shù)值均隨之增大,即模型的檢測(cè)性能不斷增強(qiáng)。在分辨率為32×32 時(shí),檢測(cè)準(zhǔn)確率為95.83%,而在分辨率為224×224 時(shí),準(zhǔn)確率達(dá)到了98.88%,其余評(píng)價(jià)指標(biāo)均達(dá)到了99%左右。因此,對(duì)TL-EMTD 方法所使用的模型架構(gòu)來說,輸入圖像的分辨率越大,其檢測(cè)性能越好。

3.4.2 實(shí)驗(yàn)2:基于遷移學(xué)習(xí)的加密惡意流量檢測(cè)

在該實(shí)驗(yàn)中,本文將所有正常加密流量標(biāo)記為0,所有加密惡意流量標(biāo)記為1,對(duì)原始流量進(jìn)行二分類。根據(jù)實(shí)驗(yàn)1 結(jié)果,選擇224×224 作為輸入圖像的分辨率大小。將所有原始流量預(yù)處理為224×224 大小的二維圖像,輸入到2.2節(jié)中描述的網(wǎng)絡(luò)結(jié)構(gòu)中,此處需要將該網(wǎng)絡(luò)結(jié)構(gòu)的最后一層fc-out的輸出維度修改為(1,2),以測(cè)試TL-EMTD方法檢測(cè)加密惡意流量的性能。訓(xùn)練和測(cè)試過程中的準(zhǔn)確率及損失值如圖5所示。

圖5 訓(xùn)練和測(cè)試過程中的準(zhǔn)確率及損失值變化Fig.5 Changes of accuracy and loss during training and testing

圖5(a)是TL-EMTD 方法在訓(xùn)練過程中的準(zhǔn)確率變化圖,圖5(b)是訓(xùn)練過程中的損失值變化圖,其中橫坐標(biāo)均是訓(xùn)練輪次Epoch。準(zhǔn)確率越高、損失值越小,說明模型的檢測(cè)性能越好。

從圖5 中可以看到,在訓(xùn)練伊始,TL-EMTD 方法的檢測(cè)準(zhǔn)確率就達(dá)到了0.9 以上,證明了本文選擇Efficientnet-B0 模型進(jìn)行遷移的合理性和有效性。隨著訓(xùn)練的進(jìn)行,TL-EMTD方法的檢測(cè)準(zhǔn)確率不斷升高,損失值不斷降低,最終,本文所提的基于遷移學(xué)習(xí)的加密惡意流量檢測(cè)方法能在二分類的情況下達(dá)到0.998 7的準(zhǔn)確率,損失值無限接近于0,并且達(dá)到該檢測(cè)水平所需的訓(xùn)練輪次小于5 輪,在本文實(shí)驗(yàn)環(huán)境下,所需訓(xùn)練時(shí)間在30 s以內(nèi)。

3.4.3 實(shí)驗(yàn)3:基于遷移學(xué)習(xí)的加密惡意流量細(xì)粒度檢測(cè)

在實(shí)際應(yīng)用中,檢測(cè)模型不僅需要將加密惡意流量從大規(guī)模復(fù)雜流量中檢測(cè)出來,還應(yīng)實(shí)現(xiàn)細(xì)粒度分類,對(duì)其所屬類型進(jìn)行標(biāo)記。本文選擇文獻(xiàn)[17]提出的2DCNN 方法以及文獻(xiàn)[18]提出的BotCatcher 方法進(jìn)行對(duì)比,其中2D-CNN模型采用類似經(jīng)典的LeNet-5結(jié)構(gòu),只提取流量的空間特征信息,而BotCatcher 模型將CNN與雙向LSTM結(jié)合,同時(shí)利用流量的空間和時(shí)間特征對(duì)其進(jìn)行分類。基于本文構(gòu)造的加密惡意流量數(shù)據(jù)集,對(duì)三種方法進(jìn)行細(xì)粒度多分類實(shí)驗(yàn)。最終,TL-EMTD 方法能夠達(dá)到98.88%的準(zhǔn)確率,高于2D-CNN方法所達(dá)到的98.52%的準(zhǔn)確率以及BotCatcher 方法所達(dá)到的98.64%的準(zhǔn)確率。此外,每種方法中各類別的精確率、召回率和F1分?jǐn)?shù)如圖6~圖8所示。

圖6 三種方法中每一類別的精確率Fig.6 Precision of each category in three methods

從圖6~圖8 中可以看出,本文提出的TL-EMTD 方法與文獻(xiàn)[17]提出的2D-CNN方法以及文獻(xiàn)[18]提出的BotCatcher方法,除了在Virut這種類型的流量上各項(xiàng)檢測(cè)指標(biāo)略低之外,對(duì)于其他5種流量的檢測(cè),精確率、召回率、F1分?jǐn)?shù)總體持平,且均達(dá)到了98%以上。此外,針對(duì)Virut 流量,與其他兩種方法對(duì)比,本文方法在精確率、召回率和F1分?jǐn)?shù)等指標(biāo)上有較為明顯的提升。

圖7 三種方法中每一類別的召回率Fig.7 Recall of each category in three methods

圖8 三種方法中每一類別的F1分?jǐn)?shù)Fig.8 F1_Score of each category in three methods

此外,三種模型訓(xùn)練參數(shù)量、模型大小對(duì)比結(jié)果如表6所示。

表6 模型訓(xùn)練參數(shù)量與模型大小對(duì)比Table 6 Comparison of model training parameters and size

從表6 中可以看出,本文所提的TL-EMTD 方法需要訓(xùn)練的參數(shù)量最少,為329 478,同時(shí)模型大小只有19.59 MB,低 于2D-CNN 和BotCatcher。這 是 因 為TL-EMTD 方法在遷移學(xué)習(xí)的過程中,凍結(jié)了源模型Efficientnet-B0 卷積層中預(yù)訓(xùn)練好的參數(shù),只允許新替換的全連接層參與訓(xùn)練及更新,這就大大減少了網(wǎng)絡(luò)中需要訓(xùn)練的參數(shù)量,能夠在同等實(shí)驗(yàn)條件下縮短訓(xùn)練時(shí)間,有效平衡了分類精度和運(yùn)行時(shí)間的要求。同時(shí),在保存訓(xùn)練好的模型時(shí)能更好地降低存儲(chǔ)開銷,也更加方便之后對(duì)模型的再次調(diào)用。

3.4.4 實(shí)驗(yàn)4:小樣本條件下基于遷移學(xué)習(xí)的加密惡意流量檢測(cè)

該實(shí)驗(yàn)利用實(shí)驗(yàn)1中6類分辨率為224×224的二維圖像集合,構(gòu)造樣本數(shù)量不同的7個(gè)加密惡意流量訓(xùn)練集,同時(shí)保留原有的測(cè)試集不作改變,以觀察不同訓(xùn)練樣本情況下TL-EMTD、2D-CNN 以及BotCatcher 三種方法對(duì)加密惡意流量的檢測(cè)與分類性能。各數(shù)據(jù)集中包含的訓(xùn)練樣本數(shù)量及三種方法對(duì)應(yīng)的準(zhǔn)確率如表7所示。

表7 三種方法在不同樣本數(shù)量下的檢測(cè)準(zhǔn)確率Table 7 Accuracy of three methods in different sample size

從表7中可以看出,在訓(xùn)練數(shù)據(jù)集中每一類流量的樣本數(shù)量為5 000個(gè)時(shí),本文所提的TL-EMTD方法能夠達(dá)到98.84%的準(zhǔn)確率,接近在原始數(shù)據(jù)集上的最高檢測(cè)準(zhǔn)確率98.88%,當(dāng)訓(xùn)練樣本數(shù)量減少到每類流量中有1 000 個(gè)樣本時(shí),準(zhǔn)確率只降低了1.52 個(gè)百分點(diǎn),能夠達(dá)到97.32%;當(dāng)減少到訓(xùn)練集只有100 個(gè)樣本時(shí),準(zhǔn)確率仍然能夠達(dá)到96.35%;而隨著訓(xùn)練樣本的減少,2D-CNN 和BotCatcher 兩種檢測(cè)方法準(zhǔn)確率下降明顯,在訓(xùn)練集中每一類樣本數(shù)量只有100 時(shí),2D-CNN 方法檢測(cè)準(zhǔn)確率只有72.35%,而BotCatcher僅能達(dá)到56.73%。這是因?yàn)橛?xùn)練樣本數(shù)量減少時(shí),模型所提取的特征數(shù)量減少,2D-CNN 和BotCatcher 所用模型中需要訓(xùn)練的參數(shù)量較大,模型得不到充分訓(xùn)練,而TL-EMTD方法所用的模型中大部分參數(shù)都是從預(yù)訓(xùn)練好的Efficientnet-B0模型中遷移而來的,只需訓(xùn)練替換的全連接層即可,因此訓(xùn)練參數(shù)較少,訓(xùn)練樣本減少時(shí)其受到的影響也較小。綜合考慮,本文提出的TL-EMTD 方法在訓(xùn)練樣本減少至原有數(shù)量的2%時(shí),準(zhǔn)確率只降低了2.49 個(gè)百分點(diǎn),且模型訓(xùn)練參數(shù)數(shù)量較少,能夠有效節(jié)省計(jì)算機(jī)的存儲(chǔ)開銷。因此可以認(rèn)為,本文提出的基于遷移學(xué)習(xí)的加密惡意流量檢測(cè)方法能夠在小樣本條件下取得較高的檢測(cè)性能,在可用樣本數(shù)量較少的場(chǎng)景中具有一定的實(shí)用價(jià)值。

4 結(jié)束語

本文提出了一種基于遷移學(xué)習(xí)的加密惡意流量檢測(cè)方法,即TL-EMTD方法,利用遷移學(xué)習(xí)的思想,首次將在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的模型Efficientnet-B0遷移到加密流量數(shù)據(jù)集上。該方法將原始流量數(shù)據(jù)預(yù)處理為二維圖像格式,作為模型的輸入。在訓(xùn)練時(shí),“凍結(jié)”Efficientnet-B0的卷積層,只允許新替換的全連接層進(jìn)行梯度更新。實(shí)驗(yàn)結(jié)果表明,該方法能夠達(dá)到較高的檢測(cè)精度及細(xì)粒度分類精度,同時(shí)能夠縮短訓(xùn)練時(shí)間,降低存儲(chǔ)開銷,并且在小樣本條件下也能實(shí)現(xiàn)良好的檢測(cè)和分類效果。在下一步工作中,將收集更多可靠的加密惡意流量數(shù)據(jù)集,進(jìn)行進(jìn)一步實(shí)驗(yàn)以驗(yàn)證模型的泛化能力,同時(shí)嘗試在實(shí)際網(wǎng)絡(luò)環(huán)境中部署并評(píng)估TL-EMTD的檢測(cè)性能。

猜你喜歡
分類檢測(cè)方法
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产一区二区在线视频观看| 欧美一区二区精品久久久| 三上悠亚精品二区在线观看| 欧美性天天| 精品91视频| 久久中文电影| 中文天堂在线视频| 91在线播放免费不卡无毒| 亚洲欧美在线综合图区| a国产精品| aⅴ免费在线观看| 青青青视频免费一区二区| www成人国产在线观看网站| 一级高清毛片免费a级高清毛片| 久久久久中文字幕精品视频| 国产一二三区在线| 久久美女精品国产精品亚洲| 伊大人香蕉久久网欧美| 91午夜福利在线观看| 成人亚洲国产| 亚洲综合色婷婷中文字幕| 久久综合色天堂av| 成人国产精品一级毛片天堂| 欧洲熟妇精品视频| 国产欧美视频综合二区| 国产乱码精品一区二区三区中文| 中文字幕首页系列人妻| 国产精品原创不卡在线| 国产成人无码Av在线播放无广告| 亚瑟天堂久久一区二区影院| 精品99在线观看| 亚洲an第二区国产精品| 欧美精品亚洲精品日韩专区| 亚洲精品无码日韩国产不卡| 欧美性久久久久| 噜噜噜综合亚洲| 午夜无码一区二区三区| 中文字幕在线看视频一区二区三区| 99re在线视频观看| 午夜一区二区三区| 欧美日韩资源| 精品无码国产自产野外拍在线| 又污又黄又无遮挡网站| 中文字幕人成人乱码亚洲电影| 久久精品aⅴ无码中文字幕| 色综合天天综合中文网| 日韩av无码精品专区| 亚洲美女视频一区| 日本精品一在线观看视频| 日韩123欧美字幕| 欧美一区二区啪啪| 噜噜噜久久| 婷婷色狠狠干| 日韩中文字幕亚洲无线码| 亚洲欧洲国产成人综合不卡| 国产在线观看一区精品| 欧美亚洲一二三区| 中文无码毛片又爽又刺激| 亚洲视频影院| 亚洲成aⅴ人在线观看| 久久亚洲中文字幕精品一区| 91无码网站| 国产精品成人一区二区| 亚洲精品无码久久毛片波多野吉| 欧美不卡二区| 国产在线八区| 国产精品手机视频一区二区| 精品99在线观看| 97se亚洲| 99爱视频精品免视看| 亚洲人成成无码网WWW| 在线综合亚洲欧美网站| 久久国产高潮流白浆免费观看| 综合色亚洲| 在线欧美日韩国产| 国产精品午夜福利麻豆| 色视频国产| 国产精品人成在线播放| 国产凹凸视频在线观看| 亚洲视频欧美不卡| 日本免费高清一区| 99久久99这里只有免费的精品|