999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征融合卷積神經網絡的端到端加密流量分類

2021-09-26 10:43:24薛文龍郭志琦李梓楊
計算機工程與應用 2021年18期
關鍵詞:分類特征方法

薛文龍,于 炯,郭志琦,李梓楊

1.新疆大學 軟件學院,烏魯木齊830008

2.新疆大學 軟件工程技術重點實驗室,烏魯木齊830008

3.新疆大學 信息科學與工程學院,烏魯木齊830046

網絡流量的準確分類是網絡管理和網絡空間安全中的一項重要任務,有助于網絡的智能化運維和管理、網絡質量服務保障和維護網絡安全等。近年來,隨著加密技術在網絡應用中的廣泛應用,流量加密已成為當今的標準做法。加密流量可以在一定程度上保護私人信息的機密性和完整性,但也給網絡上的惡意行為提供了庇護。2015年,有21%的網站流量被加密,到了2019年,有超過80%的網站流量被加密,同比增長了90%以上。攻擊者開始將網站的加密傳輸協議作為隱藏惡意行為的工具。2018年思科公司對超過40萬的惡意軟件進行了分析,發現其中有超過70%的惡意軟件在通信時使用了加密。根據ISO/OSI層的不同,流量加密技術可以分為應用層加密,表示層加密和網絡層加密[1]。應用層加密意味著應用程序使用自己的加密協議加密數據,在應用層中安全的傳輸數據,也稱為常規加密。表示層加密和網絡層加密意味著應用程序在這些層之上加密整個數據包,典型的技術是TLS和IPsec。一些隧道技術(例如VPN)就是基于這些技術,也被稱為VPN隧道傳輸加密。特別是許多惡意軟件利用TLS等加密技術對通信流量進行加密,以逃避防火墻和網絡入侵檢測系統的檢測,給傳統的流量分類方法帶來了新的挑戰[2]。

流量分類模型已被廣泛應用于從大規模網絡流量中自動識別異常流量。這些模型可以分為四類:基于端口的分類方法[3]、深度包檢查(DPI)[4]、統計分類方法[5]和行為分類方法[6]。基于端口的方法對于具有特定端口號的應用程序(例如,具有端口21的FTP流量)的分類性能很好,但是由于隨機端口和端口偽裝技術的普遍使用,基于端口的方法對加密流量分類的精確率低,已不再適用于加密流量的分類。DPI分析整個數據包數據,然后識別其網絡協議和應用程序。因為流量負載數據通常用協議加密或封裝,包含較少的恒定特征,使得DPI在加密流量分類任務中不再可行。基于統計的方法和基于行為的方法是當前加密流量分類任務中使用的主要方法。這兩種方法都是傳統的機器學習方法,其一般工作流程如下:首先手工設計特征(如流量特征或分組特征),然后從原始流量中提取和選擇合適特征,最后用人工設計的分類器(如決策樹、樸素貝葉斯和隨機森林等[7-9])對流量進行分類。然而,這些方法極大地依賴于特征選擇,通常無法找到確切的特征,導致分類效果很大程度上依賴于人工提取特征的準確性,并且分類準確率不高,也是目前機器學習發展所遇到的瓶頸之一。

最近,研究人員更加關注深度學習方法。深度學習采用訓練多個單層非線性網絡,組合底層特征構成數據的抽象表示,從而表達數據的本質特征。為了學習空間特征,文獻[10]提出一種基于卷積神經網絡(CNN)的流量分類算法,分別采用公開數據集和私有數據集進行測試,并與傳統分類方法相比,提高了流量分類的精確率,減少了分類使用的時間,但該方法并未涉及對加密流量的分類識別。此外,研究人員為了使CNN達到更好的效果,對網絡結構進行了加深和加寬,這種操作帶來的負面影響就是計算量的增加并且網絡也易過擬合。文獻[11]提出采用自編碼(SAE)和CNN對加密流量進行識別,但對于數據的預處理和模型參數的選擇等方面論述得不夠清晰。文獻[12]提出了兩種基于深度學習的流量識別模型:卷積自編碼(CAE)和CNN,對6種不同應用產生的VPN加密流量進行實時分類識別,但未涉及對非VPN加密流量的分類識別。也有一些研究人員使用長短期記憶網絡(LSTM)[13]提取流量數據包之間的時間序列特征,問題在于一旦LSTM的時間跨度較大,并且網絡結構較深,就會導致訓練時間長,計算量過大。文獻[14]提出了一種使用深度卷積生成對抗網絡(DCGAN)的半監督學習方法,利用DCGAN生成器生成的樣本以及未標記的樣本,來提高經過少量標記樣本訓練的分類器性能,在使用少量帶標記數據的情況下得到了較高的分類精度,但該模型的訓練耗時遠大于傳統加密流量分類方法。

針對上述存在的問題,本文提出了一種基于特征融合的輕量級網絡模型Inception-CNN用于端到端加密流量的分類。Inception-CNN是一種具有優良局部拓撲結構的網絡。利用Inception模塊中1×1卷積層,來限制輸入信道的數量,以降低計算成本。同時采用不同的卷積尺寸來提供不同的感受野,可以做不同級別上的特征提取,并將其融合在一起,旨在從原始數據中提取更為豐富的信息,利用不同尺度的特征彌補現有方法的不足,提高網絡分類性能。網絡中池化操作本身有提取特征的作用,因為沒有參數所以不會產生過擬合。相比于現有的加密流量分類技術,該方法能夠以較小的代價,實現對加密流量快速高效的分類。

1 方法

1.1 端到端方法

圖1顯示了提出的端到端加密流量分類方法的概述。其中包含數據預處理過程、模型訓練過程和測試過程。使用傳統的分而治之的機器學習方法時,一個明顯的問題是誤差的累積,前一模塊產生的偏差可能影響后一個模塊。在端到端的處理框架中,所有模塊都被集成到網絡模型中,僅使用一個模型、一個目標函數,就規避了多模塊固有的缺陷,并減少了工程的復雜度。這里直接對流量進行分類,中間的學習過程并不需要人為干涉,最終確定輸入與期望輸出之間的非線性關系,達到端對端學習的目的。

圖1 端到端框架結構Fig.1 End-to-end frame structure

1.2 數據預處理

本文所采用的數據來源于“ISCX VPN-nonVPN traffic dataset”[15],已發布的ISCX數據集包括7種常規加密流量和7種VPN隧道傳輸流量。本文選擇6種常規加密流量和6種VPN隧道傳輸加密流量作為訓練和測試的樣本數據,樣本數據集均為PCAP文件格式。表1顯示了本文樣本數據集的詳細內容(序號1~6為常規加密流量,序號7~12為VPN隧道傳輸加密流量)。

表1 樣本數據集描述Table 1 Description of sample data set

文獻[16]證明了會話更適合作為用于加密流量分類的流量表示類型。因為會話包含的雙向流相對于單向流來說,包含更多的交互信息,所以端到端的方法可以從會話中學習到比流更多的特征。因此本文將采用會話類型的流量樣本進行實驗。

為了減少原始流量中的噪聲并調整為適合深度學習模型的輸入形式,通過以下步驟對原始流量進行轉換:pcap-會話分段,刪除Mac&IP,統一輸入大小,轉換為IDX。

(1)pcap-會話分段:根據一定的粒度將連續的原始流量劃分為多個離散的流量單元[17]。

(2)刪除Mac&IP:Mac地址和IP地址往往不是區分信息。相反,它們的存在將導致模型擬合。因此,通過丟棄數據包中的相關字符串來達到刪除的目的。

(3)統一輸入大小:使用深度學習網絡訓練數據需要固定的輸入量,因此將上述步驟中的會話分段統一大小為784 Byte。如果分段大小大于784 Byte,則將其裁剪為784 Byte。如果分段大小小于784 Byte,則在末尾添加0x00以補充到784 Byte。

(4)轉換為IDX:IDX格式是機器學習領域常見的文件格式。將784 Byte的流量轉換為大小為28×28的流量矩陣,然后通過IDX文件打包它們及其標簽。

對數據預處理的結果使用可視化技術分析,如圖2所示。通過可視化后的圖像,可以明顯看到不同類別的加密流量之間有很大區分度,因此可以通過特征融合的方法對這些非結構化的抽象數據進行探索,利用更豐富的特征對加密流量進行分類。

圖2 12類流量可視化Fig.2 Visualization of 12 types of traffic

1.3 模型結構

本研究提出的基于特征融合卷積神經網絡的端到端加密流量分類方法,保留了傳統卷積神經網絡的結構。模型的輸入是經過處理的會話加密流量分類數據,輸出是要估計的對象標簽。該模型由傳統CNN的卷積層、平鋪層以及全連接層組成,同時引入了歸一化層[18]與Inception模塊增強網絡的泛化能力。該模型的詳細結構如圖3所示。首先,模型接收待處理的網絡流量數據,網絡流量本質上是順序數據,它是由層次結構組織的一維字節流。由于模型的輸入信息是一維數據,因此在第一層卷積中訓練一維卷積核,并有8個大小相同的過濾器,經過該層,輸入數據將被轉換為8個尺寸較小的特征圖。卷積表示如下:

圖3 會話加密流量分類模型結構Fig.3 Session encryption traffic classification model structure

Hj和xi分別是第j個輸出映射和第i個輸入映射。wij代表卷積濾波器權重,*表示卷積,bj是第j個映射的偏差參數。函數f表示激活函數。對于該卷積層,激活函數采用Relu來增加神經網絡各層之間的非線性關系。該激活函數描述為:

ReLU實現稀疏后的模型能夠更好地挖掘相關特征,擬合訓練數據。在激活函數之前加入了一個批歸一化層,它的目標是對特征進行歸一化處理,得到標準差為1的零均值狀態。這種操作可以盡可能保證Inception模塊的輸入具有相同的分布,并能大大加快訓練速度。批歸一化的算法流程如圖4所示。

圖4 批歸一化算法流程Fig.4 Batch normalization algorithm flow

接著是Inception模塊的引入。Inception模塊是一種混合模型,它是對卷積層的修改,在寬度和深度上將卷積操作進行了擴展。Inception模塊的基本結構如圖5所示。

圖5 Inception模塊結構Fig.5 Inception module structure

在傳統的卷積神經網絡中,卷積層是疊加在一起的,多個卷積層組成一個復雜的非線性模擬器,同一卷積層中所有的卷積核都具有相同的超參數,也就是說每層能夠提取到特征在維度上是不變的。Inception模塊加入尺寸為1的卷積核,在相同尺寸的感受野中疊加更多的卷積,能提取到更豐富的特征,將不同尺寸的特征融合在一起能夠為最后分類判斷時提供更多依據。Inception模塊加入了尺寸為1的卷積核,降低了輸入的通道數,減少了卷積核參數,同時在并行pooling層后面加入了1×1卷積層,由于其只有一個參數,相當于對feature map做了參數縮放,降低了輸出的feature map數量。另外,加入一層尺寸為1的卷積能夠對數據進行降維,減少了模型參數,降低了網絡計算復雜度。同時可以增加網絡的深度和非線性,也可以對不同特征進行尺寸的歸一化,用于不同尺度上特征的融合。圖5的Inception模塊中,1×1、3×3、5×5則是Inception模塊在多個尺度上提取特征的表現(本文采取1×1,3×1,5×1的卷積尺度),輸出的多個特征就不再是均勻分布,而是將相關性強的特征融合在一起(多個密集分布的子特征集)。這樣的特征集因為相關性較強的特征而聚集在了一起,不相關的非關鍵特征被弱化,同樣是輸出多個特征,Inception方法輸出的特征中的“冗余”信息較少。用這樣純凈的特征集層層傳遞最后作為反向計算的輸入,收斂的速度更快,并且Inception對卷積層擴充不僅在寬度上,在深度上也可增加操作單元。

Inception模塊的輸出連接了一個平鋪層,該層沒有可訓練的參數,它將模塊的輸出轉換為一維單矢量,并饋入全連接層。全連接層含有比平鋪層更少的神經元個數。模型的最后是輸出層,采用softmax分類器輸出分析結果。使用softmax函數可以將輸入向量擬合為[0,1]范圍內的實數,所有實數的和為1。表示如下:

其中wi與x是列向量,k是觀測樣本的類別數。

2 實驗

2.1 實驗環境

本文實驗的主機配置:操作系統為Windows 10專業版,CPU為Intel core i7 4790/3.6 GHz/4cores,16 GB內存,深度學習平臺為keras[19],深度學習后端為Tensor-Flow cpu 1.14.0,開發環境為Python 3.7.0。

訓練網絡時,使用分類交叉熵損失誤差來使訓練過程更快收斂:

其中,n是樣本的標簽索引,Xi和Yi是分別是測量值和預測值,樣本的測量標簽由獨熱編碼向量給出。

使用Adam優化器進行參數學習,它能基于訓練數據迭代地更新神經網絡權重,適合于求解帶有大規模數據或參數的問題。Adam參數的默認值來自于參考文獻[20]。模型學習率為0.001(lr=0.001),一階矩估計的指數衰減率為0.9(beta_1=0.9),二階矩估計的指數衰減率為0.999(beta_2=0.999),epsilon為1E-08。

由于神經網絡經常會被過度訓練,驗證成為了開發分類模型的關鍵步驟。本文采用十折交叉驗證的方法,對該模型的可行性和有效性進行了評價,避免了單一測試集的隨機性與偶然性。具體來說,將數據集劃分為10份,輪流將其中1份作為測試數據,其余9份作為訓練數據進行試驗,并將10次結果的平均值作為對算法性能的估計。

2.2 評估指標

隨著網絡流量種類的飛速增加,分類效果的評估也不再是單一的準確度,評估指標也越來越多,從各個角度分析流量分類系統的效果。在本文中,使用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1-Score來評估提出的方法,從而反映出該方法識別加密流量的性能。作為一個多分類問題,首先可以使用準確率用于評估該方法的整體效果,該指標就是分類正確樣本數量除以總的樣本數,表征預測類別與實際類別的差別比率,目的是從全局層面對模型效果進行評價。精確率和召回率用于評估該方法在每個類別中的識別效率,F1-Score同時考慮精確率和召回率,是精確率和召回率的加權調和平均數,讓兩者同時達到最高,取得平衡,用于綜合反映整體的指標[21]。評估指標計算公式如下:

真正例(True Positive,TP)是指屬于類別X的流量被正確分類成類別X。假正例(False Positive,FP)是指不屬于類別X的流量被分類成類別X。真反例(True Negative,TN)指不屬于類別X的流量被正確分類成非類別X。假反例(False Negative,FN)指屬于類別X的流量被分類成非類別X。

3 結果與分析

3.1 特征選擇

為顯示本文所提出的網絡模型中每一層提取的特征對最終分類結果的影響,將卷積層與Inception層和全連接層提取的特征用于實驗,并計算其分類性能。實驗結果如圖6所示,橫軸代表網絡層名稱,縱軸為評價指標。從四種評價指標的結果來看,全連接層取得的結果相較于其他兩層最高,能夠最好地提取數據特征。因此,使用全連接層提取的特征送入分類器進行實驗。

圖6 特征選擇對分類結果的影響Fig.6 Impact of feature selection on classification results

3.2 實驗結果

為驗證Inception-CNN在加密流量多分類任務上的性能,采用ISCX VPN-nonVPN數據集對本文的方法進行了實驗。每類加密流量識別的精確率、召回率和F1-Score結果如表2所示。實驗表明,除Voip外,各類的精度、召回率和F1-score均達到92%以上,其中Vpn_P2P的精確率、召回率和F1-score達到了100%。

表2 Inception-CNN對加密流量的分類結果Table 2 Inception-CNN’s classification results of encrypted traffic

文獻[16]提出了一種基于一維卷積神經網絡(1DCNN)的加密流量分類方法。實驗結果比二維卷積神經網絡(2D-CNN)和C4.5方法獲得了更好的性能。文獻[13]提出了一種結合卷積網絡和遞歸網絡(CNN+LSTM)的新型神經網絡,以提高分類結果的準確性。卷積網絡用于提取單個包的包特征。遞歸網絡基于流中任意三個連續包的包特征的輸入來挑選流特征,進行淺層時間序列特征提取。模型與現有的基于CNN的最新模型進行了比較。實驗結果表明,該模型在效率和有效性上均優于原方法。文獻[14]提出了一種使用DCGAN的半監督方法對加密流量進行分類,利用DCGAN生成器生成的樣本以及未標記的樣本,來提高經過少量標記樣本訓練的分類器性能,緩解了大型數據集收集和標記相關的難題。實驗結果表明,其準確率超過了完全監督學習的MLP和CNN模型。

1D-CNN、CNN+LSTM、SEMI-DCGAN和Inception-CNN對ISCX VPN-nonVPN數據集分類的準確率、精確率、召回率和F1-Score比較結果如表3所示。實驗結果表明,Inception-CNN對12類加密流量分類的準確率達到97.3%,比1D-CNN、CNN+LSTM和SEMI-DCGAN的分類準確率分別高出0.107、0.058、0.095。在精確率、召回率和F1-Score上,Inception-CNN方法同樣具有明顯的提升,相對于1D-CNN、CNN+LSTM,精確率分別提升0.109、0.075、0.054,召回率分別提升0.102、0.079、0.063,F1-Score分別提升0.106、0.078、0.059。

表3 1D-CNN、CNN+LSTM、SEMI-DCGAN和Inception-CNN的比較結果Table 3 Comparison result of 1D-CNN,CNN+LSTM,SEMI-DCGAN and Inception-CNN

為進一步驗證所提出的方法在加密流量多分類任務上的性能,使用精確率、召回率和F1-Score對每類流量進行了更為詳細的評估。圖7顯示了以上四種實驗方法對ISCXVPN-nonVPN數據集中每類加密流量識別的精確率對比。在12類加密流量中,除對Streaming、Voip和Vpn_Email的識別精確率較低外,Inception-CNN對其他9類加密流量識別的精確率均高于1D-CNN、CNN+LSTM和SEMI-DCGAN。圖8展示了四種實驗方法對12類加密流量識別的召回率對比。在所有加密流量中,Inception-CNN對File的識別召回率低于1D-CNN,但高于CNN+LSTM,對Voip的識別召回率低于SEMIDCGAN,對Vpn_Email的識別召回率也略低于所對比的方法,其余9類的召回率均高于其他三類方法。圖9展示了12類加密流量的F1-score對比。結果表明除Inception-CNN對Vpn_Email識別的F1-Score低于CNN+LSTM和SEMI-DCGAN,對其他11類加密流量識別的F1-Score全部高于其他三類方法,其中F1-Score最低為92.3%,最高為100%。

圖7 1D-CNN、CNN+LSTM、SEMI-DCGAN和Inception-CNN精確率比較Fig.7 Accuracy comparison of 1D-CNN,CNN+LSTM,SEMI-DCGAN and Inception-CNN

圖8 1D-CNN、CNN+LSTM、SEMI-DCGAN和Inception-CNN召回率比較Fig.8 Comparison of recall rates of 1D-CNN,CNN+LSTM,SEMI-DCGAN and Inception-CNN

圖9 1D-CNN、CNN+LSTM、SEMI-DCGAN和Inception-CNN F1-Score比較Fig.9 F1-Score comparison of 1D-CNN,CNN+LSTM,SEMI-DCGAN and Inception-CNN

在12類加密流量中,Inception-CNN方法對Chat和Email的識別率相對于其他兩種方法提升最為明顯,對Chat識別的精確率、召回率和F1-Score分別為99.0%、99.7%、99.3%,對Email識別的精確率、召回率和F1-Score分別為99.8%,99.2%,99.5%。

從精確率、召回率和F1-Score對比結果的整體來看,相比于1D-CNN、CNN+LSTM和SEMI-DCGAN,Inception-CNN的分類結果浮動更小。說明對于不同類型的加密流量,1D-CNN、CNN+LSTM和SEMI-DCGAN不能保證穩定的分類效果,而Inception-CNN對不同類型流量均能實現穩定分析,具有更強的泛化能力。

如表4所示,基于特征融合的輕量級網絡模型Inception-CNN在訓練上花費的時間最少,證明了提出的模型大大降低了網絡計算復雜度。

表4 實驗方法的時間消耗比較結果Table 4 Time consumption comparison results of experimental methods

綜上所述,通過4種評估指標和時間消耗的對比結果,證明了Inception-CNN在加密流量多分類任務上顯然能夠以較小的代價實現更杰出的性能。

4 結語

本文在對當前加密流量分類研究的基礎上,提出了一種基于特征融合卷積神經網絡的端到端加密流量分類方法。端到端的分類方法可以省去傳統機器學習方法中常用的特征設計、特征提取和特征選擇等步驟。在傳統的卷積神經網絡中加入Inception模塊,通過增加網絡的深度與寬度,來增強模型的非線性表示,同時還減少了參數和計算量,更高效地利用了計算資源,在相同的計算量下能提取到更多的特征,在保證分類性能良好的同時,進一步避免了參數過多和易過擬合的問題。實驗結果表明,與1D-CNN、CNN+LSTM和SEMI-DCGAN相比,該方法具有更優秀的分類效果,進一步證明了深度學習技術在流量分類領域有很大的應用潛力。在未來的工作中有三個問題需要進一步研究:(1)在12類加密流量中,對某些類別的識別率較低,如何提高這些類別的識別率需要進一步研究;(2)目前開源的加密流量數據集相對較少,因此需要獲得更多專門用于加密流量分類的數據集;(3)深度學習模型普遍在處理加密流量時速度較慢,對原始流量數據格式的改進也是接下來的工作計劃。

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产精品福利导航| 香蕉99国内自产自拍视频| 精品自窥自偷在线看| 欧美第一页在线| 在线国产欧美| 丁香六月激情综合| 国产丝袜91| 欧美一级黄片一区2区| 亚洲国产中文综合专区在| 婷婷六月色| 亚洲区视频在线观看| 亚洲va视频| 美女潮喷出白浆在线观看视频| 97视频在线精品国自产拍| 亚洲欧美一区二区三区麻豆| 中文字幕在线观看日本| 99精品视频播放| 午夜福利视频一区| 91福利一区二区三区| 亚洲大尺码专区影院| 日韩乱码免费一区二区三区| 国产h视频在线观看视频| 中文字幕久久亚洲一区| 高清无码一本到东京热| 在线观看亚洲天堂| 在线国产毛片| 欧美激情视频二区| 无码精油按摩潮喷在线播放| 色男人的天堂久久综合| 亚洲伦理一区二区| 欧美区一区二区三| 精品伊人久久久久7777人| 久久9966精品国产免费| 伊人色天堂| 国产亚洲精品97在线观看| 国产成人麻豆精品| 91久久国产热精品免费| 久久99精品国产麻豆宅宅| 99久久精品久久久久久婷婷| 性欧美在线| 久久国产亚洲欧美日韩精品| 国产亚洲欧美另类一区二区| 色亚洲激情综合精品无码视频| 中文无码精品A∨在线观看不卡| 又污又黄又无遮挡网站| 女人18毛片一级毛片在线 | 日韩欧美国产精品| 99精品福利视频| 国产精品一区在线麻豆| 欧美精品另类| 色窝窝免费一区二区三区 | 成人91在线| 日本欧美一二三区色视频| 亚洲精品无码久久久久苍井空| 欧美一级一级做性视频| 亚洲精品天堂在线观看| 国产精品网拍在线| a色毛片免费视频| 久青草国产高清在线视频| 亚洲午夜久久久精品电影院| 国产黄视频网站| hezyo加勒比一区二区三区| 日本一区二区三区精品AⅤ| 亚洲午夜福利精品无码不卡 | 丁香五月激情图片| 大陆国产精品视频| 一级成人欧美一区在线观看| 国产成人精品免费av| 国内精品一区二区在线观看| 免费又黄又爽又猛大片午夜| 久综合日韩| 久久久久国产精品熟女影院| 国产精品太粉嫩高中在线观看 | 亚洲大尺码专区影院| 久久熟女AV| 日本免费新一区视频| 欧美国产日韩在线播放| 激情综合婷婷丁香五月尤物| 欧美一区精品| 亚洲AⅤ波多系列中文字幕| 91po国产在线精品免费观看| 熟妇丰满人妻|