999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

DPI和DFI相結合的網絡協議自動識別系統構建

2018-01-31 15:04:30蔡樂石榮許都
現代電子技術 2018年3期

蔡樂+石榮+許都

摘 要: 目前常用的網絡協議識別軟件大多采用單一方法,且只能針對特定的網絡數據包或數據流進行識別,自動化程度低,識別準確度不高。針對上述情況構建了一種新的協議識別系統,該系統將DPI深度包檢測和DFI深度流檢測相結合,對非加密的數據使用深度包檢測方法,在特征字提取之后進行自動推理識別;對未知的加密數據則采用深度流檢測方法,提取數據流特征之后使用支持向量機進行識別。測試數據表明,所構建的系統在保證準確率的情況下,不僅可以識別多層網絡協議,而且提高了識別的自動化程度,從而為網絡傳輸數據分析、狀態監控、安全防護提供了新的技術手段。

關鍵詞: 深度包檢測; 深度流檢測; 協議識別; 自動推理; 支持向量機; 安全防護

中圖分類號: TN915?34; TN971 文獻標識碼: A 文章編號: 1004?373X(2018)03?0101?06

Abstract: Most commonly?used network protocol identification softwares use single method, can only identify the specific network data packet or data stream, and has low automation degree and identification accuracy. Therefore, a new protocol identification system is proposed, which is based on the combination of deep packet inspection (DPI) and deep flow inspection (DFI). The DPI method is used to perform the automatic reasoning for the unencrypted data after character word extraction. The DFI method is used to identify the unknown encrypted data with support vector machine (SVM) after data stream feature extraction. The test data shows that the constructed system can recognize the multi?layer network protocol and improve the recognition automatic degree while ensuring the accuracy, and provides a new technical means for network transmission data analysis, state monitoring and security protection.

Keywords: DPI; DFI; protocol identification; automatic reasoning; SVM; security protection

0 引 言

隨著信息技術的高速發展,網絡通信成為人們日常生活的主要交流方式,隨之而來的則是木馬、入侵等網絡信息安全問題,計算機網絡的完整性、安全性、保密性均受到了非常大的挑戰。雖然傳統的網絡安全技術能夠解決一部分問題,但是對于網絡管理員或者用戶來說,能夠準確地識別通信數據所使用的協議具有重要的意義,其是研究區分服務、入侵檢測[1]、流量監控以及分析用戶行為的前提和基礎。

目前,網絡協議識別技術得到了快速的發展和應用,主要包括基于端口、負載[2]以及協議行為進行識別,其識別對象主要集中在應用層協議。但是隨著網絡協議種類的不斷增加,協議規范的不斷變化,加上網絡代理和協議加密等技術的應用,使得網絡協議的識別更加困難,傳統的單一識別技術已經無法有效地識別眾多的協議。因此,本文提出了DPI和DFI[3]相結合的網絡協議自動識別方法,針對不同的協議數據進行分類識別,并在綜合分析模塊中加入了自動推理等技術手段,形成了一套完整的協議識別系統,下面對該系統的構建方法與識別效果進行詳細的闡述。

1 系統組成與工作原理

針對單一協議識別技術的缺陷和協議特征庫自動更新困難的問題,結合深度包檢測和深度流檢測技術,在原有識別模塊的基礎上加入了反饋機制。該系統由以下幾部分組成:數據預處理模塊、特征提取模塊、協議識別模塊、綜合分析模塊。

整個系統架構如圖1所示。

圖1中各個模塊的主要功能和工作流程概述如下:

1) 數據預處理模塊:整個識別系統針對的數據類型是以太幀,預處理階段是將訓練數據和待識別數據以幀格式進行輸入,后續處理模塊也是以幀為單位進行處理。系統識別的對象是兩層以上的協議,包括網絡層、傳輸層以及應用層的協議。

2) 特征提取模塊:此模塊主要包括深度包檢測和深度流檢測兩部分,其特征提取流程如圖2所示。

由圖2可知,未加密數據流主要采用深度包檢測進行特征字提取,得到數據包特征;而對于加密數據流則采用深度流檢測進行特征提取,得到數據的流特征。同時對于新興或者未知協議的數據流進行雙重的特征識別,得到包和流的特征向量,其中新興的或者未知協議數據可能是綜合分析模塊通過反饋機制發送回來的數據,此時在特征提取之后對未知數據的協議類型進行自定義命名并存入特征庫中,達到對特征庫進行更新和補充的目的。

3) 協議識別模塊:協議識別模塊整體流程類似于特征提取模塊,其識別流程如圖3所示,區別在于特征提取模塊是對被識別數據進行有針對性的特征提取,而協議識別模塊需要再通過對特征庫中的特征向量進行“特征比對”,從而得到數據特征。例如,包特征檢測部分則是直接針對特征庫中的特征字進行匹配,判斷被識別數據是否具有此特征字,若匹配成功則將該特征字作為此數據的數據包特征,最后輸入到綜合分析模塊中處理。endprint

另外,協議識別模塊中的數據是不確定協議類型的網絡原始數據,而特征提取模塊中的數據是特定的協議數據。

4) 綜合分析模塊:此模塊主要由自動推理模塊和SVM模塊構成,其中,自動推理模塊主要應用于DPI系統中,推理模塊中的推理機由推理模型[4]和推理規則構成。首先將數據及其特征進行組合生成RDF[5](Resource

Description Framework)格式數據作為推理機的輸入,然后將自定義推理規則作為推理依據進行數據推理。SVM模塊主要應用于DFI系統中,首先用提取的數據流特征作為訓練集對SVM進行訓練,隨后直接輸入待識別數據的流特征進行協議識別。

5) 特征庫:特征庫主要分為包特征向量和流特征向量兩個部分,這兩部分數據主要由特征提取模塊獲得。除此之外,對于互聯網中大部分已有的協議如IP,TCP,UDP等都有明確的格式和規范,因此,規范中定義的字段值可以直接作為協議識別的特征字存入特征庫中,同樣地,對于已有協議的流特征也可以存入特征庫中,此部分特征稱為先驗知識。

2 數據包特征的提取

2.1 特征提取流程

對于未加密協議數據采用深度包檢測技術進行協議特征字提取,特征提取流程分為兩部分:頻繁集提取、關聯規則分析。其流程如圖4所示。

由圖4可知,首先對數據流進行頻繁集提取,在提取過程中將出現次數超過設定閾值的特征字符串集稱為頻繁集。在分析過程中,由于數據流都是按照協議標準進行組織的,所以特定位置上的特定序列不會隨著數據內容的改變而改變,并且同一幀中的頻繁序列之間也存在著關聯關系,如協議首部某些字段的位置和內容是固定不變的。因此,采用關聯規則分析算法對頻繁序列之間的關聯關系進行分析,從而得出關聯規則。關聯規則不僅能夠直接作為協議識別的特征向量,而且可以剔除錯誤的特征集,保留識別效率高的頻繁序列作為協議識別的特征字。

2.2 頻繁集提取算法

頻繁集的提取一般采用多模式匹配算法[6],常用的多模式匹配算法有AC[7]算法,AC?BM算法,Wu?Manber算法。其中,AC算法是模式匹配問題中最經典的算法,該算法應用有限自動機巧妙地將字符比較轉換為狀態轉移。AC?BM算法則是在AC算法的基礎上,引入了BM[8]單模式匹配算法中的跳躍思想,結合好后綴和壞字符規則,加快了匹配的速度。Wu?Manber算法則完全不同于AC算法,在性能上也明顯優于AC算法,兩者的區別主要體現在對模式序列的預處理上,Wu?Manber算法用字典結構代替自動狀態機,對于數量較大的模式序列,這樣處理節省了大量的時間和空間資源。由于本文在進行多模式匹配中使用的是窮舉模式序列的方法,將會產生數量較大的模式集,因此采用Wu?Manber算法進行頻繁集提取。

頻繁集提取流程如圖5所示。

1) 首先定義需要提取的頻繁序列的長度范圍此范圍根據網絡協議特征字段允許長度而定,可以隨著不同的對象進行調整,然后窮舉所有符合長度范圍的十六進制序列作為模式序列;

2) 輸入模式序列和數據流進行匹配,對于匹配成功的模式序列進行個數統計,并記錄模式序列出現在相應幀的位置;

3) 當所有的數據幀匹配完成之后,統計出現次數大于或者等于所設定閾值的模式序列,并將其規定為頻繁集。

2.3 關聯規則挖掘算法

關聯規則(Association Rules)是對一個事物和其他事物的相互依存和關聯關系的一種描述。本文中的關聯規則表示的是特征向量的關聯關系,當兩個或多個特征向量同時出現的次數超過所設定閾值時,就認為此協議必須要同時具有這兩個或多個特征向量,即在判斷過程中,同時具有此兩個或多個特征向量的數據才被判定為此協議。

關聯規則挖掘的算法主要分為兩類:Apriori[9]算法,FP?Growth[10]算法。FP?Growth算法將數據I/O次數降低為兩次,相比于Apriori算法在時間效率上有較大的提高。除此之外,FP?Growth算法不需要產生候選項集,減少了產生和測試候選項集的時間,并且采用分而治之的方式對數據庫進行挖掘,減少了搜索時間。因此本文采用FP?Growth算法進行關聯規則分析。

關聯規則挖掘過程如下:首先將頻繁序列以及頻繁序列在各個幀中出現的位置情況作為輸入;然后利用FP?Growth進行關聯規則的挖掘,記錄頻繁序列在所給數據中的關聯情況,包括關聯序列出現的次數和位置;最后經過分析將確定有效的協議特征存入特征庫中。

3 數據流特征的提取

3.1 特征提取流程

數據流分析主要針對應用層協議。其提取流程如圖6所示。

1) 訓練數據是由網絡抓包工具wireshark抓取的原始網絡數據,之后將其處理為十六進制格式并以幀為單位進行存儲。

2) 將訓練數據輸入深度包檢測系統,此系統結合L7?filter[11]中pat文件對訓練數據進行信息提取,以七元組的格式輸出,保存在packetMessage.txt文件中。七元組為:應用層協議、源/目IP、源/目端口、TCP/UDP、pid;其中pid是對每一幀數據的惟一標識。

3) 流特征提取:對packetMessage.txt文件進行處理,提取五元組信息(源/目IP、源/目端口、傳輸層協議)并去重,區分TCP、UDP數據。

4) 對抓取的數據根據五元組信息進行分類,提取每一類中前15幀數據的三個基本特征(傳輸方向、包到達時間間隔、包大小)以及協議類型作為該協議的訓練特征集,而對于待識別數據則只需提取傳輸方向和包大小。

3.2 數據流協議的識別

針對數據流進行識別主要采用SVM[12]分類器實現,如圖7所示。其處理流程如下:endprint

主站蜘蛛池模板: h网址在线观看| 亚洲精品你懂的| 欧美精品xx| 99久久性生片| 免费不卡视频| 欧美日韩一区二区在线免费观看| 91精品人妻互换| 国产亚洲精品自在线| 久久久久国色AV免费观看性色| 日韩国产精品无码一区二区三区| 久久国产高清视频| 欧美不卡视频一区发布| 国产18在线播放| 欧美一区福利| 999在线免费视频| 国产精品永久不卡免费视频| 国产成人午夜福利免费无码r| 国产91无码福利在线| 中文字幕伦视频| 精品伊人久久久久7777人| 免费人成黄页在线观看国产| 国产精品入口麻豆| 色婷婷成人| 亚洲国产无码有码| 91九色最新地址| 亚洲一区二区约美女探花| 毛片视频网址| 亚洲综合亚洲国产尤物| 免费高清毛片| 69精品在线观看| 精品无码视频在线观看| 91精品综合| 亚洲国产精品久久久久秋霞影院| 伊人无码视屏| 真人免费一级毛片一区二区| 国产麻豆永久视频| 九九热视频在线免费观看| 亚洲91精品视频| 精品人妻一区无码视频| 91原创视频在线| 精品亚洲欧美中文字幕在线看| 丁香六月激情婷婷| 伊人查蕉在线观看国产精品| 成人免费午间影院在线观看| 四虎国产精品永久一区| 97视频免费在线观看| 在线观看免费AV网| 91久久精品国产| 无码日韩视频| 免费看a级毛片| 91精品啪在线观看国产91九色| a在线亚洲男人的天堂试看| av在线5g无码天天| 亚洲第一视频网| 国产美女精品一区二区| 国模沟沟一区二区三区| 亚洲一区二区三区香蕉| 欧美影院久久| 欧洲亚洲欧美国产日本高清| 伊人久综合| 精品国产成人av免费| 996免费视频国产在线播放| 久久久久青草线综合超碰| 福利视频久久| 亚洲男女在线| 国产幂在线无码精品| 999国内精品视频免费| 黑色丝袜高跟国产在线91| 久久国产精品嫖妓| 国产综合另类小说色区色噜噜| 国产女人18水真多毛片18精品| 国产精品自拍露脸视频| 激情综合网址| 欧洲av毛片| 国产一级二级在线观看| 在线欧美一区| 国产精品无码作爱| 亚洲丝袜中文字幕| 久久77777| 无码精油按摩潮喷在线播放 | 国产视频入口| 国产精品嫩草影院av|