999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向SSL VPN加密流量的識(shí)別方法

2022-01-22 07:46:26王宇航姜文剛翟江濤史正爽
關(guān)鍵詞:特征模型

王宇航,姜文剛,翟江濤,史正爽

1.江蘇科技大學(xué)電子信息學(xué)院,江蘇 鎮(zhèn)江 212003

2.南京信息工程大學(xué)智能網(wǎng)絡(luò)與信息系統(tǒng)研究院,南京 210000

3.愛(ài)丁堡大學(xué)信息學(xué)研究院,愛(ài)丁堡 EH8 9YL

互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,在為人們生活帶來(lái)便利的同時(shí),也會(huì)被一些犯罪分子用于不法傳輸,這對(duì)網(wǎng)絡(luò)空間的穩(wěn)定性及安全性產(chǎn)生了極大的影響,使得網(wǎng)絡(luò)安全問(wèn)題越來(lái)越受到人們的關(guān)注,因此,全球加密網(wǎng)絡(luò)流量不斷飆升。雖然流量經(jīng)過(guò)加密后再傳輸,使得傳輸數(shù)據(jù)的安全性得到保障,但也為流量的審計(jì)增加了難度。

常用的VPN 技術(shù)有MPLS VPN、IPSEC VPN、SSL VPN三種。MPLS VPN主要應(yīng)用在路由器和交換機(jī)等設(shè)備上,IPSEC VPN 是IPSec 協(xié)議在VPN 上的一種應(yīng)用,SSL VPN 屬于應(yīng)用層VPN 技術(shù)。相比于前兩種在使用上更加便捷,這使得SSL VPN 在安全傳輸中得到了廣泛使用,但這也使得一些惡意流量有了可乘之機(jī)。一些非法應(yīng)用利用SSL VPN來(lái)繞過(guò)防火墻等安全設(shè)施的檢測(cè)。因此,對(duì)SSL VPN 加密流量的有效識(shí)別對(duì)網(wǎng)絡(luò)信息安全具有重要意義。

Shen等人[1]通過(guò)增加Markov鏈的狀態(tài)多樣性,來(lái)建立二階Markov 鏈模型從而對(duì)HTTPS 應(yīng)用進(jìn)行識(shí)別。程光等人[2]采用相對(duì)熵區(qū)和蒙特卡洛仿真方法結(jié)合實(shí)現(xiàn)加密流量和非加密流量的識(shí)別,取得了不錯(cuò)的識(shí)別效果。Lotfollahi 等人[3]采用卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)流量進(jìn)行分類(lèi)。趙博等人[4]利用加密數(shù)據(jù)的隨機(jī)性特點(diǎn),對(duì)網(wǎng)絡(luò)報(bào)文逐一實(shí)施累積和檢驗(yàn),最終,實(shí)現(xiàn)了對(duì)加密流量的普適識(shí)別。目前,對(duì)加密流量分類(lèi)的相關(guān)文獻(xiàn)取得不錯(cuò)的成果。

針對(duì)SSL 流量的識(shí)別常采用機(jī)器學(xué)習(xí)的方法和指紋識(shí)別的方法,文獻(xiàn)[5]對(duì)SSH 流量的識(shí)別問(wèn)題展開(kāi)研究,提出了一種SSH 流量識(shí)別方法。該方法基于SSH協(xié)議建立連接階段的特征,對(duì)使用SSL 協(xié)議的流量進(jìn)行識(shí)別。文獻(xiàn)[6]采用簽名和統(tǒng)計(jì)相結(jié)合的方法,選擇了13 個(gè)特征字段和14 個(gè)流屬性,通過(guò)C4.5,Naive Bayesian 和SVM 等多種機(jī)器學(xué)習(xí)算法,對(duì)SSL 協(xié)議流進(jìn)行識(shí)別。

流量識(shí)別研究大多圍繞對(duì)某種協(xié)議流量的識(shí)別展開(kāi),針對(duì)VPN 流量識(shí)別的研究尚不足。西佛羅里達(dá)大學(xué)[7]的研究人員對(duì)文獻(xiàn)[8]發(fā)布的數(shù)據(jù)集開(kāi)展深一步的研究,比較了Logistic回歸、樸素貝葉斯、SVM、KNN、RF和GBT 方法的識(shí)別效果,并對(duì)算法參數(shù)進(jìn)行了相應(yīng)的優(yōu)化,最終VPN 流量達(dá)到了90%以上識(shí)別率。王琳等人[9]提出一種將指紋識(shí)別與機(jī)器學(xué)習(xí)方法相結(jié)合識(shí)別SSL VPN流量,雖然取得了91%以上的識(shí)別率,但是該方法需要手工提取流的特征。

本文在現(xiàn)有研究基礎(chǔ)上,提出一種基于Bit 級(jí)DPI和深度學(xué)習(xí)的檢測(cè)方法,分兩步實(shí)現(xiàn)SSL VPN 流量的識(shí)別。先使用本文提出的一種新的基于Bit級(jí)DPI的指紋生成技術(shù)——位編碼,通過(guò)將流的少量初始位與生成的位指紋匹配,來(lái)判斷當(dāng)前數(shù)據(jù)包是否使用SSL 協(xié)議、當(dāng)前數(shù)據(jù)流是否為SSL 流。對(duì)于第二階段的SSL VPN 流量識(shí)別,本文提出了一種基于注意力機(jī)制的改進(jìn)的CNN網(wǎng)絡(luò)流量識(shí)別模型,并與一般的CNN模型進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,本文提出的方法不僅有效解決了SSL 加密流量指紋識(shí)別方法存在的漏識(shí)別率較高的問(wèn)題,同時(shí)改進(jìn)后的深度學(xué)習(xí)模型,能提取網(wǎng)絡(luò)流量中具有非常顯著性的細(xì)粒度的特征,從而更加有效地捕捉網(wǎng)絡(luò)流量中存在的依賴(lài)性,識(shí)別模型具有良好的實(shí)驗(yàn)效果。

1 相關(guān)工作

1.1 DPI識(shí)別技術(shù)

深度包檢測(cè)技術(shù)(deep packet inspection,DPI)采用匹配特征字段對(duì)網(wǎng)絡(luò)流量進(jìn)行識(shí)別[10]。許多基于DPI的檢測(cè)方法使用有效負(fù)載內(nèi)容生成特定于應(yīng)用程序的指紋。DPI可快速準(zhǔn)確地識(shí)別指紋庫(kù)存在的流量,但也存在著致命的缺陷,DPI 識(shí)別依賴(lài)于應(yīng)用協(xié)議特征字段,無(wú)法識(shí)別協(xié)議交互階段加密數(shù)據(jù)和私有協(xié)議[11]。但本文提出了一種基于Bit 級(jí)DPI 的指紋生成技術(shù),用于快速篩選識(shí)別SSL協(xié)議流量,發(fā)揮了DPI識(shí)別速度快的優(yōu)點(diǎn),對(duì)識(shí)別模型預(yù)處理過(guò)程有很大的作用。

1.2 SSL協(xié)議

SSL(安全套接字協(xié)議)在傳輸層與應(yīng)用層之間對(duì)網(wǎng)絡(luò)連接進(jìn)行加密,是一種為主機(jī)間通信提供安全的協(xié)議。SSL 協(xié)議由握手協(xié)議、記錄協(xié)議、更改密文協(xié)議和警報(bào)協(xié)議組成,如圖1所示。

圖1 SSL協(xié)議位置與組成Fig.1 SSL protocol location and composition

握手協(xié)議是SSL協(xié)議中十分重要的協(xié)議,是在應(yīng)用程序的數(shù)據(jù)傳輸之前使用的。該協(xié)議允許服務(wù)器和客戶(hù)機(jī)通過(guò)握手相互驗(yàn)證,在這一過(guò)程中雙方需要確認(rèn)密鑰和算法,同時(shí)還要協(xié)商信息摘要算法、數(shù)據(jù)壓縮算法等。在握手協(xié)議結(jié)束后,雙方開(kāi)始加密數(shù)據(jù)的傳輸。握手協(xié)議的通信流程如圖2所示。

圖2 握手協(xié)議的通信流程Fig2 Flow of handshake protocol communication

1.3 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),是深度學(xué)習(xí)的代表算法之一,提供了一種端到端的學(xué)習(xí)模型。這一深度學(xué)習(xí)網(wǎng)絡(luò)模型相較于傳統(tǒng)的其他模型存在以下優(yōu)點(diǎn):

網(wǎng)絡(luò)中的神經(jīng)元采用稀疏連接的方式,而非像一般神經(jīng)網(wǎng)絡(luò)的神經(jīng)元采取全連接的方式。達(dá)到了降低參數(shù)的數(shù)量的目的,方便網(wǎng)絡(luò)結(jié)構(gòu)模型的擴(kuò)展和模型的訓(xùn)練。

采用參數(shù)共享,其過(guò)程就是針對(duì)每個(gè)神經(jīng)元與前面層次的所有連接都貢獻(xiàn)權(quán)重值,這樣也能夠進(jìn)一步的減少訓(xùn)練的參數(shù)數(shù)量[12]。

利用池化操作獲取更具代表性的特征值,同時(shí)降低了參數(shù)的數(shù)據(jù)量信息。有利于后面模型的訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)能自動(dòng)從學(xué)習(xí)樣本中很好的學(xué)習(xí)原始數(shù)據(jù)中的特征,并完成對(duì)數(shù)據(jù)特征的提取與分類(lèi),無(wú)需像機(jī)器學(xué)習(xí)那樣人工設(shè)計(jì)特征。

1.4 注意力機(jī)制

注意力模型最近幾年在圖像處理、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域得到廣泛應(yīng)用,其核心目標(biāo)是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息,增加感興趣區(qū)域,抑制無(wú)用信息。因此,本文將注意力機(jī)制引入到CNN 模型當(dāng)中,用來(lái)提取序列中非常顯著性的細(xì)粒度的特征,實(shí)現(xiàn)短期的有效提取。從而優(yōu)化輸入信息,達(dá)到提升模型分類(lèi)能力的目的。

注意力機(jī)制可分為,硬注意力(hard attention)及軟注意力(soft attention)。硬注意力核心的原理在于直接限制深度學(xué)習(xí)模型當(dāng)中輸入內(nèi)容的這種處理方法,但是在時(shí)序預(yù)測(cè)的相關(guān)領(lǐng)域相對(duì)來(lái)說(shuō)并不是完全適合[13]。同時(shí)硬注意力是一個(gè)隨機(jī)的預(yù)測(cè)過(guò)程,更強(qiáng)調(diào)動(dòng)態(tài)變化。其訓(xùn)練過(guò)程往往是通過(guò)增強(qiáng)學(xué)習(xí)來(lái)完成的,且后期模型訓(xùn)練難度較大,導(dǎo)致模型的通用性比較差。與硬注意力機(jī)制不同,軟注意力是確定性的注意力。學(xué)習(xí)完成后,可以通過(guò)神經(jīng)網(wǎng)絡(luò)得到注意力的權(quán)重,直接加權(quán)全局上的信息作為輸入特征。軟注意力機(jī)制更關(guān)注區(qū)域或者通道,最關(guān)鍵的地方是軟注意力是可微的,可以很好地與一種端到端的學(xué)習(xí)方式相結(jié)合。

基于以上分析,本文將軟注意力機(jī)制引入到一維卷積神經(jīng)網(wǎng)絡(luò)當(dāng)中。采取對(duì)輸入特征逐個(gè)加權(quán)的方式,達(dá)到關(guān)注特定空間和通道目的。最終,對(duì)時(shí)間序列上細(xì)粒度的顯著性特征進(jìn)行提取,從而完成對(duì)網(wǎng)絡(luò)流量中存在的依賴(lài)性的有效捕捉。

2 基于Bit級(jí)DPI的SSL加密流量識(shí)別

SSL握手協(xié)議采用明文傳輸?shù)男问剑虼丝梢岳媒馕鯬CAP文件得到的數(shù)據(jù)包的頭部信息,判斷出當(dāng)前數(shù)據(jù)包為何種SSL 握手協(xié)議的消息類(lèi)型。一個(gè)完整的握手協(xié)議,其通信過(guò)程一定包含ClientHello、SeverHello、SeverHelloDone、ClientKeyExchange、ChangeCipherSpec類(lèi)型的消息。基于傳統(tǒng)的DPI 檢測(cè)技術(shù)若某數(shù)據(jù)流中未能全部包含以上5 種類(lèi)型的消息,則判斷為非SSL流。當(dāng)數(shù)據(jù)流中只檢測(cè)到部分類(lèi)型信息時(shí),可能是自身握手協(xié)議建立不成功,或者是抓取數(shù)據(jù)包時(shí)存在漏包的情況。然而在實(shí)際抓取數(shù)據(jù)包時(shí),設(shè)置確定截?cái)鄷r(shí)間,會(huì)存在一個(gè)流雖然是SSL 流,但并不是從開(kāi)始截取的,而是從其他傳輸階段截取的。這時(shí),基于傳統(tǒng)的DPI檢測(cè)技術(shù)會(huì)因?yàn)闆](méi)有檢測(cè)到SSL握手協(xié)議的消息,將其判定為非SSL 流,因此,會(huì)產(chǎn)生漏識(shí)別的情況。為了解決這一問(wèn)題,本文提出一種基于Bit 級(jí)DPI 的SSL 加密流量識(shí)別。

SSL 加密的數(shù)據(jù)包根據(jù)其消息類(lèi)型的不同,有不同的消息格式,但其前5 個(gè)字節(jié)的格式是固定的,分別表示通信的階段(握手(Handshake)、開(kāi)始加密傳輸(ChangeCipherSpec)還是正常通信(Application)等),SSL 協(xié)議版本號(hào)和剩余包長(zhǎng)度[2],如表1 所示。基于位級(jí)DPI的SSL加密流量識(shí)別方法,僅使用來(lái)自TCP數(shù)據(jù)段的少量初始位,并將不變位標(biāo)識(shí)為位指紋。隨后,對(duì)這些指紋進(jìn)行編碼,將其轉(zhuǎn)換為狀態(tài)轉(zhuǎn)換機(jī),用來(lái)識(shí)別SSL流量。這種方法擴(kuò)大了SSL流識(shí)別的范圍,不僅能夠識(shí)別SSL握手階段的流,同時(shí)也能識(shí)別數(shù)據(jù)傳輸階段的SSL流。

表1 協(xié)議前5個(gè)字節(jié)格式Table 1 First five bytes of protocol format

整個(gè)識(shí)別過(guò)程分為以下幾個(gè)部分:

(1)重構(gòu)流

網(wǎng)絡(luò)流由兩個(gè)主機(jī)之間交換的一系列數(shù)據(jù)包組成。這兩個(gè)主機(jī)由兩個(gè)唯一的IP 地址標(biāo)識(shí)。共享相同5 元組的所有包都是流的一部分,依據(jù)相同的5元組信息對(duì)流進(jìn)行重構(gòu),從而將所有數(shù)據(jù)包(流內(nèi))的有效載荷數(shù)據(jù)都被獲取并連接起來(lái),用作后續(xù)指紋生成階段的輸入。

(2)位指紋生成

位編碼使用前一階段選擇的有效載荷的不變位集生成應(yīng)用程序特定的位指紋。假設(shè)訓(xùn)練集中存在L(L∈I)個(gè)SSL流,它從SSL的L個(gè)流中各收集前n位,并為SSL流生成n位位指紋。第h個(gè)流(1 ≤h≤L)的前n位為f1h,f2h,…,fnh。L個(gè)流都被提取都用于生成如下位指紋。每個(gè)流提取的第k位[1,n]位置用來(lái)決定SSL流的第k個(gè)指紋位。指紋創(chuàng)建過(guò)程如下所示,其中每個(gè)Si是一個(gè)指紋位:

如果每個(gè)流的第k位(1 ≤k≤L)的值都為0,k指紋位設(shè)置為0,如果每個(gè)流的第k位(1 ≤k≤L)的值為1,k指紋位設(shè)置為1。如果這些位的位置中有0位和1位,則第k個(gè)指紋位設(shè)置為“^”。圖3 顯示了SSL 流的位指紋生成過(guò)程,在這個(gè)示例中,有3 個(gè)流,每個(gè)流有15 位,用于指紋生成。

圖3 生成位指紋Fig.3 Generate bit signature

(3)運(yùn)行長(zhǎng)度編碼

指紋位由1 位、0 位和^位組成,每個(gè)指紋為n位。為了有效地表示、存儲(chǔ)和比較,對(duì)這n位進(jìn)行了運(yùn)行長(zhǎng)度編碼(RLE)。RLE 是一種用于無(wú)損數(shù)據(jù)壓縮的技術(shù)。RLE 通過(guò)指定重復(fù)次數(shù)來(lái)減少重復(fù)字符串的大小。在RLE中,數(shù)據(jù)的運(yùn)行是指在許多連續(xù)數(shù)據(jù)元素中具有相同數(shù)據(jù)值的序列存儲(chǔ)為單個(gè)值,并存儲(chǔ)該數(shù)據(jù)值重復(fù)的次數(shù)計(jì)數(shù)。例如,它的位值是1111111000000^^^^111,在使用RLE編碼之后,它被轉(zhuǎn)換為7O6Z4^3O顯示狀態(tài)。

(4)狀態(tài)轉(zhuǎn)換機(jī)器創(chuàng)建

經(jīng)過(guò)第(3)步驟之后生成一個(gè)編碼指紋,將經(jīng)過(guò)編碼的位指紋轉(zhuǎn)換成狀態(tài)轉(zhuǎn)換機(jī)。然后與需要的網(wǎng)絡(luò)流量流進(jìn)行比較,以識(shí)別應(yīng)用程序。狀態(tài)轉(zhuǎn)換機(jī)的定義如下:

用20 位指紋(11111111000000^^^111,編碼指紋為8O6Z3^3O)生成的示例狀態(tài)轉(zhuǎn)換機(jī)如圖4 所示。在狀態(tài)轉(zhuǎn)換機(jī)中有5種狀態(tài),從q0到q4,q0是開(kāi)始狀態(tài),q4是結(jié)束狀態(tài)。每個(gè)狀態(tài)都有一個(gè)計(jì)數(shù)器(C0到C4),每次轉(zhuǎn)換訪問(wèn)該狀態(tài)時(shí),該計(jì)數(shù)器都會(huì)被初始化為一個(gè)新值。機(jī)器在q0狀態(tài)下啟動(dòng),將q0的計(jì)數(shù)器設(shè)置為0,從測(cè)試流中讀取比特,并進(jìn)行允許的轉(zhuǎn)換以達(dá)到最終狀態(tài)。狀態(tài)轉(zhuǎn)換機(jī)的轉(zhuǎn)換有一個(gè)輸入符號(hào)(位值)和一個(gè)對(duì)計(jì)數(shù)器值的約束,計(jì)數(shù)器值充當(dāng)保護(hù),只有當(dāng)約束被滿足(評(píng)估為true)時(shí),才允許轉(zhuǎn)換。

圖4 生成狀態(tài)轉(zhuǎn)換機(jī)Fig.4 Transition machine of generating state

在圖4中,狀態(tài)q0在輸入1上定義了一個(gè)到自身的轉(zhuǎn)換。這個(gè)轉(zhuǎn)換對(duì)C0的計(jì)數(shù)器值有一個(gè)約束,它在0到8之間。這個(gè)約束映射了在開(kāi)始時(shí)在流中讀取8個(gè)連續(xù)的1 要求。從q0到q1的轉(zhuǎn)換是在輸入0 上,只有當(dāng)C0處的計(jì)數(shù)器值為8時(shí)才有效(已經(jīng)讀取了8個(gè)連續(xù)的1),并將q1處的計(jì)數(shù)器C1設(shè)置為1(在8 個(gè)連續(xù)的1 之后讀取0)才有效。無(wú)論何時(shí)在指紋中有^,它將有兩個(gè)轉(zhuǎn)換,一個(gè)是輸入0,另一個(gè)是輸入1,這兩個(gè)轉(zhuǎn)換都將增加計(jì)數(shù)器值。

(5)識(shí)別SSL流

與狀態(tài)轉(zhuǎn)換機(jī)匹配的簽名過(guò)程如圖5 所示。與簽名生成過(guò)程類(lèi)似,在這個(gè)階段也存在重構(gòu)該流,數(shù)據(jù)流的前n位被提取出來(lái)作為輸入(從第一個(gè)位到最后一個(gè)位,每次一個(gè)位),來(lái)自測(cè)試流的n位將提供給SSL狀態(tài)轉(zhuǎn)換機(jī)。SSL狀態(tài)轉(zhuǎn)換機(jī)進(jìn)行了允許的轉(zhuǎn)換,如果數(shù)據(jù)流能達(dá)到SSL 狀態(tài)轉(zhuǎn)換機(jī)最終狀態(tài),則流被標(biāo)記SSL流;如果沒(méi)有達(dá)到最終狀態(tài),則標(biāo)記為非SSL流。

圖5 匹配狀態(tài)轉(zhuǎn)換機(jī)Fig.5 Transition machine of matching state

以位序列11111111000000101111 和001111110000 00101111。第一個(gè)序列作為輸入提供11111111000000 101111 給圖4 狀態(tài)轉(zhuǎn)換機(jī),很容易看到它到達(dá)最終狀態(tài),因?yàn)樗?個(gè)1開(kāi)始,接下來(lái)是6個(gè)0,隨后三位0或1都行,最后三位數(shù)是1。然而,第二個(gè)序列不被狀態(tài)轉(zhuǎn)換機(jī)接受,因?yàn)樗鼜?開(kāi)始,并且當(dāng)計(jì)數(shù)器C0在狀態(tài)q0下為0時(shí),不存在與輸入0的轉(zhuǎn)換。

3 基于注意力機(jī)制的改進(jìn)CNN 網(wǎng)絡(luò)流量分類(lèi)識(shí)別模型

3.1 基于注意力機(jī)制的CNN結(jié)構(gòu)

在本文中注意力機(jī)制模塊引入到一維CNN 中,包含特征的聚合和尺度恢復(fù)兩個(gè)部分。特征聚合主要是采用多層次的卷積和池化層次的堆疊,從跨尺度的子序列中提取出細(xì)粒度的顯著性的特征,最后一層上則用來(lái)挖掘其中的線性關(guān)系。尺度恢復(fù)指是將關(guān)鍵性的特征直接恢復(fù)到與網(wǎng)絡(luò)模型中的CNN模塊的輸出保持一致。為將數(shù)值直接保持在0~1 之間,采用Sigmoid 函數(shù)。最后將獲得的上下文特征,作為實(shí)際的基礎(chǔ)性的顯著性特征。

令xi∈Rk,也就是用k維向量表示數(shù)據(jù)流中的第i個(gè)流量字節(jié),一個(gè)長(zhǎng)度為n的數(shù)據(jù)流的定義如下:

xi:j為流量字節(jié)的連接結(jié)果,卷積操作由一個(gè)過(guò)濾器或卷積核構(gòu)成,w∈Rhk,過(guò)濾器的窗口寬度為h,過(guò)濾器對(duì)一組流量字節(jié)操作一次,就輸出一個(gè)新的特征CI。具體操作如下:

其中,Patt為注意力機(jī)制的權(quán)重,b為偏置項(xiàng),f是ReLU的非線性函數(shù)。過(guò)濾器將在每個(gè)可能的流量字節(jié)窗口進(jìn)行操作,產(chǎn)生一個(gè)特征映射。時(shí)序最大池化操作,在特征映射上找到最大值,最終輸出對(duì)應(yīng)輸入在每一類(lèi)輸出上的概率分布。

基于注意力機(jī)制的CNN 結(jié)構(gòu),由于將原本的CNN的輸入替換為注意力模塊支路輸入,并采用堆疊深層卷積和池化層的方式,所以擴(kuò)大了特征對(duì)應(yīng)的輸入感受野。這樣有利于捕捉網(wǎng)絡(luò)流量中存在的依賴(lài)性,從而學(xué)習(xí)當(dāng)前局部序列特征的重要程度。通過(guò)引入注意力模塊,能夠提高重要時(shí)序特征的影響權(quán)重,抑制非重要特征時(shí)序的干擾,因而有效解決了模型無(wú)法區(qū)分時(shí)間序列數(shù)據(jù)重要程度的差異性的問(wèn)題。

3.2 基于注意力機(jī)制的改進(jìn)CNN 網(wǎng)絡(luò)流量分類(lèi)識(shí)別模型

本文提出的基于注意力機(jī)制的改進(jìn)CNN網(wǎng)絡(luò)流量分類(lèi)識(shí)別模型如圖6所示。模型包含數(shù)據(jù)預(yù)處理、模型訓(xùn)練和模型測(cè)試3個(gè)階段。

圖6 改進(jìn)的CNN網(wǎng)絡(luò)流量分類(lèi)識(shí)別模型Fig.6 Improved traffic classification and recognition model of CNN network

數(shù)據(jù)預(yù)處理階段:將數(shù)據(jù)集中的原始流量進(jìn)行預(yù)處理,得到CNN 模型輸入所需的數(shù)據(jù)格式文件。這里使用的王偉博士開(kāi)發(fā)的USTC-TK2016,包括流量切分、流量清理、圖片生成、IDX轉(zhuǎn)換4個(gè)步驟[13]。流程全過(guò)程如圖7所示。

圖7 網(wǎng)絡(luò)流量數(shù)據(jù)預(yù)處理流程圖Fig.7 Flow chart of network traffic data preprocessing

訓(xùn)練階段:使用上一階段處理得到的流量數(shù)據(jù)(IDX3 格式)和標(biāo)簽數(shù)據(jù)(IDX1 格式)訓(xùn)練改進(jìn)的CNN模型,訓(xùn)練方法是最小批隨機(jī)梯度下降技術(shù)。為使模型具有良好的泛化能力,訓(xùn)練采用10 折交叉驗(yàn)證技術(shù)。最終,得到的改進(jìn)CNN 模型作為測(cè)試階段使用的模型。

測(cè)試階段:使用訓(xùn)練階段得到改進(jìn)的CNN模型數(shù),對(duì)數(shù)據(jù)預(yù)處理階段輸出的IDX3格式的測(cè)試數(shù)據(jù)進(jìn)行類(lèi)別預(yù)測(cè),得出最終分類(lèi)結(jié)果。

其中,在數(shù)據(jù)預(yù)處理階段的圖片生成步驟,每個(gè)流量結(jié)果樣本可以表示成28×28 像素的灰度圖,結(jié)果如圖8 所示。從流量可視化的結(jié)果看,大部分圖片之間還是很容易區(qū)分的。SSL VPN 流量的黑色部分主要集中在底下部分,而非SSL VPN 流量的黑色部分主要集中在底部1/4 處。因此二者之間的區(qū)分度較為明顯,可以推測(cè),使用CNN 模型對(duì)其進(jìn)行分類(lèi)應(yīng)該能夠取得良好效果。

圖8 可視化結(jié)果Fig8 Visualization results

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)集

本文采用的數(shù)據(jù)集是Lashkai等人[14]在2016年發(fā)布的VPN-nonVPN數(shù)據(jù)集,共包含28 GB數(shù)據(jù)。該實(shí)驗(yàn)室的官網(wǎng)對(duì)數(shù)據(jù)集進(jìn)行了詳細(xì)介紹,并提供下載,不同類(lèi)別的流量生成方式如表2所示。

表2 實(shí)驗(yàn)數(shù)據(jù)集Table 2 Experimental data set

4.2 SSL流識(shí)別結(jié)果

SSL加密的數(shù)據(jù)包雖然有不同的消息格式,但其前5個(gè)字節(jié)的格式是固定的。分別表示通信的階段(握手(Handshake)、開(kāi)始加密傳輸(ChangeCipherSpec)還是正常通信(Application)等)、SSL 協(xié)議版本號(hào)和剩余包長(zhǎng)度[9]。因此,本文選定SSL流數(shù)據(jù)包的前40位生成指紋將壓縮后,生成狀態(tài)轉(zhuǎn)換機(jī),用以識(shí)別SSL 流。由于傳統(tǒng)的SSL 加密流量指紋識(shí)別方法在沒(méi)有檢測(cè)到完整的SSL 握手協(xié)議的消息,就會(huì)將其判定為非SSL 流。本文在此基礎(chǔ)上提出了基于Bit級(jí)DPI的SSL加密流量識(shí)別技術(shù),有效地解決了傳統(tǒng)SSL 加密流量指紋識(shí)別方法存在的漏識(shí)別率較高的問(wèn)題。除Vimeo 等少數(shù)流量識(shí)別率未到97%外,其余應(yīng)用的SSL 流識(shí)別率均達(dá)到99%以上,與傳統(tǒng)SSL 識(shí)別方法的實(shí)驗(yàn)結(jié)果對(duì)比如圖9所示。

圖9 SSL流識(shí)別結(jié)果對(duì)比Fig.9 Comparison of SSL stream identification results

4.3 改進(jìn)CNN模型識(shí)別VPN流量實(shí)驗(yàn)結(jié)果

本文選擇精準(zhǔn)率P、召回率R和F1這3 項(xiàng)評(píng)分來(lái)評(píng)估基于注意力機(jī)制的改進(jìn)CNN模型。其計(jì)算公式為:

式中,Tp真正表示加密流量的樣本被正確識(shí)別的個(gè)數(shù),F(xiàn)p假正表示真實(shí)是加密流量但被錯(cuò)誤的標(biāo)識(shí)的個(gè)數(shù),F(xiàn)N假負(fù)表示未加密流量的樣本被正確識(shí)別的個(gè)數(shù)。

為了驗(yàn)證本文提出的算法模型的有效性及優(yōu)越性,本文選擇了KNN(K近鄰)、PGA-RF(基于參數(shù)優(yōu)化的改進(jìn)RF 算法)和CGA-RF(基于子分類(lèi)器優(yōu)化的改進(jìn)RF算法)進(jìn)行比較。為驗(yàn)證一維CNN 模型相比于二維CNN 模型更適合于流量分類(lèi),本文還設(shè)計(jì)了二維CNN模型與之對(duì)比,結(jié)果如表3所示。

從表3 可以看出,相比較于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,本文提出的模型具有很好的識(shí)別效果,網(wǎng)絡(luò)流量的服務(wù)識(shí)別性能都有了大幅度的提升。本文方法的準(zhǔn)確率為97.6%,相比于文獻(xiàn)[7]中KNN 的83.7%提升了13.9個(gè)百分點(diǎn)。與文獻(xiàn)[9]中改進(jìn)的方法PGA-RF 的91.6%相比,CGA-RF 的92.2%提升了0.6 個(gè)百分點(diǎn)。在精確率對(duì)比實(shí)驗(yàn)中,本文方法的精確率為98%,相比于文獻(xiàn)[7]中KNN 的83.9%提升了14.1 個(gè)百分點(diǎn),而參考文獻(xiàn)[9]中PGA-RF、CGA-RF 的精確度分別為92.1%、92.6%,本文方法精確率明顯高于參考文獻(xiàn)[9]。同時(shí)本實(shí)驗(yàn)還對(duì)召回率進(jìn)行了對(duì)比,召回率優(yōu)于文獻(xiàn)[7]中KNN的82.5%與文獻(xiàn)[9]中91.1%和91.9%。最后,本文方法與各方法的F1-score 進(jìn)行對(duì)比,本文方法的F1-score 為97.8%,文獻(xiàn)[7]中KNN 為83%,參考文獻(xiàn)[9]的F1-score 分別為92.3%、92.1%,本文方法F1-score 上也是高于參考文獻(xiàn)[9],提升了5.7 個(gè)百分點(diǎn)。綜合4 項(xiàng)指標(biāo)對(duì)比實(shí)驗(yàn)可以看出,本文模型優(yōu)于文獻(xiàn)[7]中使用的KNN 與文獻(xiàn)[9]中改進(jìn)傳統(tǒng)機(jī)器學(xué)習(xí)方法PGA-RF 與CGA-RF。

表3 SSL VPN 流量識(shí)別結(jié)果對(duì)比Table 3 Comparison of SSL VPN traffic identification results

通過(guò)四項(xiàng)指標(biāo)對(duì)比實(shí)驗(yàn)可以看出,一維CNN 模型在準(zhǔn)確率、精確率、和F1-score 上均優(yōu)于二維CNN 模型。這是由于網(wǎng)絡(luò)流量本質(zhì)上是一種時(shí)序數(shù)據(jù),是按照字節(jié)、幀、會(huì)話、整個(gè)流量層次化結(jié)構(gòu)組織起來(lái)的一維字節(jié)流,因此選擇一維CNN 網(wǎng)絡(luò)模型識(shí)別加密流量更符合數(shù)據(jù)流的特征。

此外,相比于其他普通的深度神經(jīng)網(wǎng)絡(luò)模型,本文所提模型在準(zhǔn)確率上提升了2.9 個(gè)百分點(diǎn),精確率提升了2.9 個(gè)百分點(diǎn),召回率提升了2.7 個(gè)百分點(diǎn),F(xiàn)1-score則提升了3.2個(gè)百分點(diǎn)。這是由于注意力機(jī)制的引入能夠?qū)W(wǎng)絡(luò)流量中存在的依賴(lài)性的進(jìn)行有效捕捉,從而提高重要時(shí)序特征的影響,抑制非重要特征時(shí)序的干擾,因而有效解決了模型無(wú)法區(qū)分時(shí)間序列數(shù)據(jù)重要程度的差異性的問(wèn)題。

因此,本文還將改進(jìn)前后的一維CNN 網(wǎng)絡(luò)模型進(jìn)行了對(duì)比,分別選擇前5 輪訓(xùn)練的準(zhǔn)確率結(jié)果進(jìn)行比較,如圖10。可以看出引入注意力機(jī)制的改進(jìn)CNN 模型比普通的CNN 模型收斂速度快,且平均準(zhǔn)確率提升了0.3 個(gè)百分點(diǎn)以上。如圖11 展示了基于注意力機(jī)制的改進(jìn)的CNN識(shí)別模型在實(shí)際訓(xùn)練過(guò)程中準(zhǔn)確率的變化趨勢(shì);圖12 展示了是基于注意力機(jī)制的改進(jìn)CNN 識(shí)別模型訓(xùn)練過(guò)程中的損失率變化的情況。

圖10 改進(jìn)前后的一維CNN網(wǎng)絡(luò)實(shí)驗(yàn)對(duì)比圖Fig.10 One-dimensional CNN network experimental comparison diagram of before and after improvement

圖11 模型訓(xùn)練過(guò)程中準(zhǔn)確率的變化Fig.11 Change of accuracy during model training

圖12 模型訓(xùn)練過(guò)程中損失率的變化Fig.12 Change of loss during model training

5 結(jié)語(yǔ)

本文提出了一種基于混合方法的SSL VPN 加密流量識(shí)別方法。本文的Bit 級(jí)DPI 技術(shù)識(shí)別SSL 流具有快速、準(zhǔn)確的優(yōu)點(diǎn),極大地改善了流的漏識(shí)別問(wèn)題,最大程度上發(fā)揮了DPI 的優(yōu)勢(shì)。所提基于注意力機(jī)制的改進(jìn)CNN 網(wǎng)絡(luò)流量識(shí)別模型對(duì)SSL VPN 流量識(shí)別,其平均的精準(zhǔn)率、召回率和F1-score 分別達(dá)到了98.0%、96.9%和97.8%,與傳統(tǒng)的流量識(shí)別模型相比具有優(yōu)良的識(shí)別性能,實(shí)現(xiàn)了SSL VPN 加密流量的有效識(shí)別。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲美女一区二区三区| 中文无码影院| 亚洲一区二区约美女探花| 青青草a国产免费观看| 91破解版在线亚洲| 青青久久91| 国产玖玖视频| 黄片一区二区三区| 亚洲欧美自拍中文| 国产福利一区视频| 国产综合日韩另类一区二区| 国产美女91呻吟求| 天天综合天天综合| 婷婷激情亚洲| AV网站中文| 伊人精品成人久久综合| 日韩精品成人网页视频在线| 精品视频福利| 亚洲欧美成人在线视频| 精品视频在线观看你懂的一区| 亚洲精品波多野结衣| 中国国语毛片免费观看视频| 538国产在线| 国产91av在线| 久久久噜噜噜久久中文字幕色伊伊 | 欧美国产在线看| 日韩欧美中文字幕在线精品| 亚洲天堂高清| 精品一区二区三区四区五区| 国产午夜人做人免费视频| 人妻精品全国免费视频| 成人伊人色一区二区三区| 九九热精品视频在线| 日韩中文精品亚洲第三区| 美女毛片在线| 手机在线免费不卡一区二| 欧美综合一区二区三区| 日日碰狠狠添天天爽| 亚洲精品无码不卡在线播放| 无码内射在线| 亚洲无限乱码| 日本道中文字幕久久一区| 欧美日本在线观看| 免费无遮挡AV| 久操线在视频在线观看| 国产美女91呻吟求| 国产系列在线| 在线观看亚洲天堂| 日本一区中文字幕最新在线| 国产真实自在自线免费精品| 日韩精品欧美国产在线| 欧美色丁香| 曰韩免费无码AV一区二区| 国产成人91精品免费网址在线| 免费国产小视频在线观看| 国产噜噜噜| 国产69精品久久| 亚洲床戏一区| 在线国产欧美| 午夜电影在线观看国产1区| 欧美成人午夜影院| 无码国产偷倩在线播放老年人| 天堂成人在线视频| 精品国产毛片| 亚洲全网成人资源在线观看| 蜜桃臀无码内射一区二区三区| 97se亚洲| 亚亚洲乱码一二三四区| 亚洲色成人www在线观看| 国产麻豆福利av在线播放 | 久久精品国产999大香线焦| 红杏AV在线无码| 一本无码在线观看| 久久性视频| 乱人伦视频中文字幕在线| 国产精品亚洲精品爽爽| 最新亚洲人成无码网站欣赏网| 亚洲午夜综合网| 国产丝袜丝视频在线观看| 日韩精品亚洲人旧成在线| 人妻丝袜无码视频| 国产一级二级在线观看|