999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向加密流量的網絡應用識別方法

2020-04-20 05:03:02孫中軍翟江濤
計算機工程 2020年4期
關鍵詞:實驗模型

孫中軍,翟江濤

(江蘇科技大學 電子信息學院,江蘇 鎮江 212003)

0 概述

近年來,以僵尸網絡[1]、高級持續性威脅(Advanced Persistent Threat,APT)[2-4]、木馬[5]等為主要形式的網絡攻擊事件不斷發生,用戶對隱私保護和網絡安全意識逐漸增強,使得加密流量在互聯網流量中占比越來越大。安全套接層(Secure Socket Layer,SSL)協議具備良好的兼容性和易用性[6],因此網絡應用大多使用SSL加密協議來保證信息在網絡中安全的傳輸,針對其的識別研究也受到科研工作者的廣泛關注。

當前國內外學者在加密流量識別領域取得了諸多研究成果。文獻[7]計算未加密流量與加密流量的相關性,從相關性角度選取29種未加密流量與加密流量強相關的特征輸入機器學習算法識別加密流量并取得了較好的效果,但是該方法選取特征多、計算量大,不能實現在線流量實時識別。文獻[8]在國際公開ISCX VPN-nonVPN數據集上對數據包進行填充、截取等處理,無需提取特征并將數據包字節輸入CNN算法模型進行識別,實驗結果證明該方法能有效地進行流量分類識別。文獻[9]根據加密數據的隨機性特點,提出一種基于加權累積和檢驗的時延自適應加密流量盲識別算法,通過實驗驗證了該方法能有效區別加密流量。然而,上述方法通常只進行網絡中加密流量粗顆粒的識別,但是隨著流量分析需求的提高,僅識別流量是否加密遠遠不夠,需要更進一步精細化識別加密流量的具體應用[10],實現對網絡中流量的可控可管,同時由于安全性和兼容性的考慮,SSL協議的應用變得越來越復雜,如何有效進行精細化識別SSL協議下的網絡應用已成為當前網絡管理面臨的挑戰。本文提出基于SSL協議交互字段與多輸入最大化單輸出隱馬爾可夫模型(Hidden Markov Model,HMM)的并行識別方法。

1 SSL協議與消息編碼

SSL協議提供應用層和傳輸層之間的數據安全性機制[11],在客戶端和服務器之間建立安全通道,對數據進行加密保護,從而保證數據在網絡傳輸過程中的信息安全,SSL協議現已廣泛應用于網絡中。SSL協議分層及數據封裝如圖1所示,上層為SSL握手協議、SSL改變密碼規則協議和SSL報警協議,下層為SSL記錄協議[12]。

圖1 SSL數據封裝格式Fig.1 Format of SSL data encapsulation

SSL在客戶端和服務器中的會話過程如圖2所示。客戶端與服務器相互問詢并協商所使用的協議版本,選擇加密算法;客戶端服務器相互認證,協商加密密鑰及其更改規范;協商完成后開始在加密的網絡通道傳輸應用數據[13]。

圖2 SSL會話過程Fig.2 SSL session process

為更方便地描述及識別具體的加密流量應用,本文對SSL協議會話消息按圖3的方式進行編碼。

圖3 SSL會話編碼表Fig.3 Encoding table of a SSL session

本文實驗識別對象為SSL加密協議下的應用,相比傳統的特征向量,本文方法采用SSL協議交互階段的字段作為特征向量可靠性高,并且容易提取。本文實驗根據SSL協議交互階段的字段特點進行識別具體加密流量的應用,不同加密應用數據流在來自服務器端方向和來自客戶端方向的SSL協議交互階段的字段具有不同的出現規律,比如本文使用來自服務器端方向的網絡流,則可以采用圖4的方式表示2條來自某應用Y的流,其具有在C:3,C:6字段后出現A、C字段的特點,之后傳輸不同個數的應用數據包。

圖4 加密應用消息編碼流Fig.4 Coding streams of an encrypted application message

本文用X={X1,X2,…,Xn}表示網絡流的集合,其中,X集合中包含n個網絡流,Xi表示X集合中的一條網絡流,Xi={Z1,Z2,…,Zk}表示Xi這條網絡流的集合包括k個數據包,Zi表示其中的一個數據包,本文定義數據包為五元組Zi=,其中,No表示數據包序號,Source表示源IP,Destination表示目的IP,Protocol表示傳輸層協議,Info表示SSL協議交互子協議。Y={Y1,Y2,…,Ym}表示共有m個加密應用的集合,本文設計的識別模型功能即實現集合X到集合Y的映射,從而實現SSL加密流量應用的有效識別。

2 基于隱馬爾可夫模型的加密應用識別方法

2.1 隱馬爾可夫模型

隱馬爾可夫模型[14]是關于時序的概率模型,滿足“將來”的狀態分布只取決于“現在”與“過去”無關的馬爾科夫過程[15]和任一時刻的觀測狀態只與該時刻的隱藏狀態有關的假設,其包含了一個底層隱藏的隨時間改變的馬爾科夫過程,可以看作是馬爾科夫模型的概率函數。

隱馬爾科夫模型的構建首先要初始化均勻分布模型;然后利用Viterbi算法求得第一次計算的狀態序列;之后利用Baum-Welch算法[16]計算出第一次的五元組模型的參數ψ={S,O,A,B,π},其中,S表示隱藏狀態的集合,N為隱狀態個數,O表示觀測狀態的集合,M為觀測狀態個數,A表示隱藏狀態的N×N的狀態轉移概率矩陣,B表示隱藏狀態到觀測狀態的N×M的混淆矩陣,π表示隱藏狀態的初始化概率矩陣;最后用重估公式判斷是否收斂,若沒有收斂則繼續不斷的迭代計算,否則即可得到最優的模型參數。具體模型的建立過程如圖5所示。

圖5 隱馬爾科夫模型建立過程Fig.5 Establishment process of HMM

2.2 面向加密流量的應用識別方法

傳統模型在識別加密應用時通常存在特征提取困難和特征冗余的問題,而本文方法采用SSL協議交互階段的字段作為隱馬爾科夫模型的觀測序列O=(O1,O2,…,Ot),相比較傳統方法的特征,SSL協議交互階段的字段容易提取,且避免了過多的特征帶來的特征冗余問題,繼而造成特征偏置降低模型分類性能和效率。因此,本文提出一種基于SSL協議交互字段的多輸入最大化單輸出HMM并行識別框架。該框架只需觀察來自客戶端或者服務器單方向數據流的SSL協議交互階段字段序列作為隱馬爾科夫的觀測序列,通過對均勻分布的初始化模型不斷迭代訓練學習,找到最佳的模型λ,從而獲得與觀測序列最匹配的隱藏狀態。該觀測序列與隱藏狀態并不是一一對應的關系,而是存在概率的對應關系,即通過前向算法得到最大的P(λ|O),利用隱馬爾科夫模型的雙重隨機性可以達到識別加密流量應用的目的。多輸入最大化單輸出的HMM并行識別流程(如圖6所示)具體如下:

1)通過電腦開啟無線熱點功能,用智能手機連接無線熱點并訪問應用服務器,同時用Wireshark捕獲手機訪問應用服務器的數據包作為原始數據集。

2)進一步對原始數據集進行預處理,過濾丟棄非SSL數據包,提取SSL數據包五元組存入數據庫,并對SSL交互協議字段排序連接去重,最后構成SSL網絡流實驗數據集。

3)對待識別的所有應用建立模型形成指紋庫。獲取觀測序列樣本并輸入每個HMM模型,利用前向算法計算得出該加密應用被識別為每個HMM模型的概率,并進行對數變換以避免得出的概率值太小導致數值太密集。

4)隨機選擇每種應用的100個樣本特征輸入每個HMM模型進行比較,取所得的最小的概率值作為閾值。

5)將求得概率與閾值進行比較,若得出的概率小于閾值的樣本,則反饋給模型,表示模型不存在該應用;若大于閾值,則取概率最大的模型對應的應用作為識別結果,表示應用識別成功。

圖6 多輸入最大化單輸出的HMM并行識別流程Fig.6 Procedure of HMM parallel identification with multipleinputs and a maximal single output

3 實驗結果與分析

3.1 實驗環境

本文實驗的主機配置:操作系統為Windows 7專業版,CPU為四核Intel(R)Core(TM)i5-3230M CPU @2.60 GHz,8 GB內存。第三方軟件及API包括VMware Worksation 12、Ubuntu 16.04、Wireshark 2.2.1、MySQL 8.0.13、Python 3.6.4、scapy-ssl、hmmlearn等。

3.2 實驗數據集

3.2.1 數據集預處理

本文實驗的數據集預處理流程如圖7所示,首先通過智能手機連接無線熱點捕獲原始數據集,進一步過濾丟棄非SSL數據包,提取SSL數據包五元組存入數據庫,并對SSL交互協議字段排序連接與去重,最后構成SSL網絡流實驗數據集。

圖7 數據集預處理流程Fig.7 Procedure of dataset preprocessing

3.2.2 數據集獲取

為測試本文方法檢測加密應用的準確性,實驗數據集來源于實驗室真實網絡。如圖8所示,通過智能手機連接無線熱點訪問應用服務器,并用Wireshark捕獲支付寶、新浪微博、印象筆記、前程無憂51Job這4種SSL加密應用流量數據包,實驗數據集信息如表1所示。

圖8 數據集獲取示意圖Fig.8 Schematic diagram of dataset acquisition

表1 實驗數據集設置Table 1 Setting of the experimental dataset

3.2.3 SSL過濾

由于流經網卡的數據包有多個網絡應用,而并非每個應用都使用SSL協議加密數據包,因此捕獲的流量有很多是與本文實驗無關的非SSL數據包,需要進一步過濾處理獲得純凈的實驗數據集。

本文實驗根據網絡流的前3個數據包字節判斷過濾SSL數據包,其中,biti[x]表示包i中的第x比特,biti[x:y]表示包i中的第x比特至第y比特,令Bytei[z]表示包i中的第z個字節,Sizei表示包i的大小。過濾算法的偽代碼如下:

If bit2[0]=1 and bit2[1]=0 and bit2[2:15]=Size2 and Byte2[3]=4

This is an SSLv2 connection

Else If Byte2[1]=22 and Byte2[2]=3

If Byte2[3]=0

This is an SSLv3.0 connection

Else If Byte2[3]=1

This is a TLS connection

Else Connection is not using SSL

Else Connection is not using SSL

3.2.4 網絡流構成

對于過濾出數據集的SSL加密網絡數據流,本文提取數據包的五元組信息并存入Mysql數據庫。由于網絡等原因SSL協議交互階段存在重復發送的現象,因此需要進一步去除重復交互字段提高實驗效果。

通過大量的數據包統計和SSL協議設計的特點,發現加密應用的SSL會話由“Server Hello”開始,因此可以按照Info字段的值,“Server Hello”將不同會話的數據包分割構成隱馬爾可夫模型的觀測序列。本文設計的多輸入最大化單輸出HMM識別框架僅需對來自一個方向的網絡流進行分析,實驗選取服務器到客戶端的數據流作為研究對象,最終獲取的實驗數據集樣式如表2所示。

表2 實驗數據集樣式Table 2 Format of the experimental dataset

3.2.5 數據集標記

本文實驗采用逆向域名解析系統(Reverse Domain Name System,RDNS)和人工標記相結合的方法標記數據集。RDNS是域名解析系統的逆向解析過程,能夠根據輸入的IP地址,獲取該IP的歸屬信息。本文系統使用Linux的nslookup命令解析IP,如命令nslookup qt=ptr 110.75.130.49解析結果為49.130.75.110.in-addr.arpa name=host-49.alipay.com,則將IP 110.75.130.49標記為支付寶應用,但是并不是所有的IP都能用RDNS得到IP的歸屬信息,對于這部分的應用采用人工標注的方法,在連接到無線熱點的智能手機上,僅啟動目的應用,從捕獲到的數據包中利用排除法確定目的應用的服務器IP。

3.3 結果分析

3.3.1 評價指標

為客觀評價本文方法的性能,選擇準確率(True Positive Rate,TPR)和虛警率(False Positive Rate,FPR)這2項評價指標,準確率是所有預測正確樣本占總樣本的比重,虛警率是反映被判為正例樣本中負例樣本數量的比重,計算公式為:

TPR=Tp/(Tp+Fp)

(1)

FPR=FP/(FP+TN)

(2)

其中,Tp表示目的加密應用的樣本被正確識別的個數,Fp表示真實是非目的加密應用但被正確標識為目的加密應用的個數,TN表示真實是非目的加密應用被錯誤標識為目的加密應用的個數。

3.3.2 不同方向數據流的比較

如圖9所示,來自服務器單方向(SC)數據流和兩個方向(SC-CS)的數據流在本文方法中都具有良好的識別效果,由于SC單方向數據流相對于SC-CS方向數據流模型計算量小,考慮到模型時間效率和計算機的資源開銷,本文采用只觀察來自SC單方向數據流來識別加密應用,這更符合對加密應用的實時識別需求。

圖9 不同方向數據流的準確率比較Fig.9 Comparison of true positive rate of data streams indifferent directions

3.3.3 與傳統識別方法的比較

圖10、圖11是本文提出的基于SSL協議交互字段與多輸入最大化單輸出HMM的并行識別方法與文獻[17-18]識別方法的實驗效果對比。本文方法通過對數據集按7 ∶3的比例隨機劃分訓練集和測試集,經過多次實驗驗證其對加密應用識別的平均準確率和虛警率分別為95.78%和5.16%,較文獻[17-18]識別方法在平均準確率上分別提高了5.66%和2.46%,同時在平均虛警率上分別下降了3.19%和2%,各項性能指標均優于已有的加密應用識別模型。對本文方法識別失敗的樣本進行分析可知,少量數據流存在某個SSL會話字段的發送失敗,這就造成了不同加密應用的特征模糊化,降低了模型識別效果。文獻[17]將網絡流的前15個數據包的大小、包間間隔和流的方向作為特征輸入C4.5算法分類器,對加密應用識別的平均準確率和虛警率分別為90.12%和8.35%,但是該方法很容易通過修改數據包大小,從而達到規避模型識別的目的,導致模型識別加密應用失敗。而本文采用SSL協議交互階段的字段作為隱馬爾科夫模型的觀測序列,很難將非法數據包偽裝成合法數據包,具有較好的安全保障。文獻[18]先去除原始數據零負載的數據包預處理操作,并設置Brust Threshold為1 s,進行Service Brust后提取特征通過多分類器融合分類,對本文實驗數據集的加密應用識別的平均準確率和虛警率分別為93.32%和7.18%,但該方法所提取的時間流特征容易受到網絡波動的影響,可靠性較低,同時存在部分加密應用的流特征表現相似的問題,從而導致模型不能進行準確識別,造成模型之間識別效果的差異。

圖10 3種識別方法的準確率比較Fig.10 Comparison of true positive rate of threeidentification methods

圖11 3種識別方法的虛警率比較Fig.11 Comparison of false positive rate of threeidentification methods

3.3.4 魯棒性分析

為測試識別方法的魯棒性,本文實驗通過數據集新加入百度貼吧、有道云筆記應用模擬出現新的未知SSL加密應用。本文設計的識別方法具有一定的自主學習能力,只需將未知序列進行不斷迭代訓練得到新的HMMi,無需對其他已經建立的HMM進行重新訓練,這樣既節約了時間,又方便應用指紋庫的管理。如圖12所示,本文方法對加密應用的平均識別準確率和虛警率分別為95.51%和5.42%,可以看出其在有干擾的情況下總體表現穩定,并且具有良好的魯棒性。

圖12 本文方法在未知加密應用下的識別性能Fig.12 Identification performance of the proposed methodunder unknown encrypted applications

4 結束語

本文對原始數據集進行過濾與去重處理以構成SSL數據流,使用逆向域名解析系統和人工標記相結合的方法標記實驗數據集,根據不同加密應用在SSL協議中的會話特征構建單個隱馬爾可夫模型到多個隱馬爾可夫模型的集合,從而提出一種基于SSL協議交互字段與多輸入最大化單輸出HMM的并行識別方法。實驗結果表明,該方法只需觀察來自客戶端或者服務器單方向數據流的SSL協議交互階段的字段序列即可完成模型建立和加密應用識別。但由于實驗處于簡單的網絡環境,本文方法僅可應用于某些特定的安全傳輸協議(如SSL協議)的加密應用分類中,因此下一步將考慮在更復雜的網絡環境中研究加密應用識別問題。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 日韩无码黄色| 欧美日韩福利| 久久久久中文字幕精品视频| 女人天堂av免费| 国产91透明丝袜美腿在线| 99资源在线| 少妇极品熟妇人妻专区视频| 久久国产高清视频| 福利一区三区| 亚洲欧美精品一中文字幕| 国产极品嫩模在线观看91| 欧洲熟妇精品视频| 粗大猛烈进出高潮视频无码| 日韩福利在线观看| 91久久天天躁狠狠躁夜夜| 亚洲天堂视频网站| 又爽又大又黄a级毛片在线视频 | 黄色污网站在线观看| 久久久黄色片| 国产丝袜啪啪| 蜜桃视频一区二区三区| 国产在线啪| 色婷婷成人| 日韩在线观看网站| 久久婷婷人人澡人人爱91| 免费无码在线观看| 91精品综合| 精品乱码久久久久久久| 国内精品免费| 欧美国产日韩在线播放| 亚洲精品动漫在线观看| 国产网站在线看| 自拍亚洲欧美精品| 乱人伦中文视频在线观看免费| 亚洲精品桃花岛av在线| 国产尤物jk自慰制服喷水| 在线免费观看AV| 国产成人精品一区二区免费看京| 国产1区2区在线观看| 91成人在线免费视频| 97国产在线观看| 999国内精品久久免费视频| 亚洲黄色网站视频| 久久久久久久97| 久久精品国产91久久综合麻豆自制| 久久婷婷五月综合97色| 国产在线专区| 国产原创自拍不卡第一页| 妇女自拍偷自拍亚洲精品| 这里只有精品在线播放| 天堂在线www网亚洲| 免费AV在线播放观看18禁强制| 亚洲侵犯无码网址在线观看| 精品国产一二三区| 亚洲欧洲一区二区三区| 国产精品美女免费视频大全| 18禁黄无遮挡免费动漫网站| 国产丝袜啪啪| 国产欧美日韩资源在线观看| 亚洲精品无码日韩国产不卡| 国产91视频免费| 成人午夜视频免费看欧美| 日日拍夜夜嗷嗷叫国产| 亚洲无限乱码一二三四区| 91精品国产自产在线观看| 老司机久久99久久精品播放| 精品久久蜜桃| 亚洲精品天堂自在久久77| 91精品啪在线观看国产| 日韩一区二区三免费高清| 91小视频在线观看| 亚洲第一网站男人都懂| 婷婷激情亚洲| 亚洲国产成人精品一二区| 亚洲爱婷婷色69堂| 久久国产V一级毛多内射| 伊人无码视屏| 国产乱子伦精品视频| 日韩精品毛片| 91色在线观看| 中文字幕在线一区二区在线| www亚洲精品|