基于抽樣分組長度分布的加密流量應用識別

2015-01-01 02:56:32高長喜吳亞飚王樅

通信學報 2015年9期

高長喜，吳亞飚，王樅

(1.北京郵電大學博士后流動站，北京 100876；2. 北京天融信公司企業博士后工作站，北京 100085)

1 引言

網絡流量應用協議識別是內容過濾、QoS、流量分析、安全通信及互聯網監管和運維的基礎。在網絡安全領域，網絡流量主要可分為明文流量、加密流量、匿名通信流量、入侵/攻擊/滲透流量、病毒/木馬/蠕蟲/僵尸網絡異常流量等。下一代網絡中流量組成的復雜性及流量行為的多樣性，特別是流量加密、偽裝、隧道透傳和分片等流量特征隱藏技術使網絡流量應用協議識別面臨著嚴峻的挑戰。

根據所采用的協議特征的不同，應用協議識別方法可分為：基于端口、深度分組檢測（DPI,deep packet inspection）和動態流檢測（DFI, dynamic flow inspection）[1]等。基于端口的應用協議識別方法將知名端口作為協議特征，例如 P2P應用的固定服務端口、DNS的 53號端口等，然而動態端口、端口復用等機制使該方法已不能對應用流量進行精確分類。DPI將數據分組載荷內部位置固定或變動的靜態字節序列作為協議特征，或者通過深入可識別的信令通道提取協商數據通道的 IP地址和端口而間接識別無特征數據流的應用協議類型（例如SIP），支持數據流中的單個數據分組或多個數據分組協議特征，并可實現細粒度應用協議區分；然而隨著網絡應用（如BitTorrent、eMule、Skype、Thunder 和 Tor 等）采用消息流加密或協議混淆來實現保密通信，除了極少數應用可通過逆向算法實時解密獲取明文關鍵字特征之外，DPI已無法有效識別加密類應用協議。DFI將傳輸層連接模式、流統計特性[2]等流量行為作為協議特征，并使用啟發式算法或機器學習方法進行流量分類，既能進行粗粒度應用分類（例如P2P類、交互類等），又能進行細粒度協議識別并且不依賴數據分組載荷內容（例如SSH、HTTPS），因此該方法非常適用于加密流量應用協議識別。

本文基于DPI和DFI混合方法，提出了一種基于假設檢驗的加密流量應用識別統計決策模型，并給出相應的加密流量應用識別算法。該方法首次將確定性抽樣數據分組序列的位置、方向、分組長度和連續性、有序性等流統計特征作為協議特征，給出了典型的分組長度統計簽名，并通過單數據分組的位置、方向約束及半流關聯動作提升了傳統DPI方法。基于加密應用BitTorrent和eMule評估數據集的實驗驗證了該加密流量應用識別算法的有效性。

2 相關工作

當前加密流量應用識別的研究主要采用流統計特征的DFI方法。文獻[3]基于流的指定方向上的前若干個數據分組的分組長度以及數據分組載荷前若干字節內容的概率分布定義了 34種用于度量加密應用協議行為的統計屬性指紋，提出了基于K-L散度（kullback-leibler divergence）的協議識別模型和算法，并通過實驗評估了該算法識別混淆/加密協議的有效性；然而，該方法依賴載荷內容并且未充分利用流之間的相關性。文獻[4]將流的支撐數據分組集合的分組長度分布作為協議特征，并根據端口局部性啟發將流分組為會話，進而提出了一種基于距離相似性測度的會話級流分類方法，評估結果表明該方法對于流和會話都可以實現高準確率的分類；不過，該方法沒有考慮到數據分組在流中的方向性。文獻[5]基于流的前若干個數據分組在指定方向上的分組個數、分組長度及其均值、方差等給出了17種流量統計特征參數，提出了k-means和k-nearest neighbors機器學習算法相結合的加密流量混合分類算法，并在嵌入式實時環境中驗證了該算法實時分類加密流量的可行性；但是，該方法未能將 DPI與統計方法有效結合起來實現多重識別。文獻[6]將流在指定方向上的分組長度與交互到達時間的最大值、最小值、均值、標準差和分組個數等作為流特征，并基于采集自不同網絡的數據集評估了 AdaBoost、支持向量機（SVM）、Na?ve Bayesian、RIPPER和C4.5等5種機器學習算法用于分類SSH和Skype加密流量的頑健性，實驗結果表明 C4.5算法具有最優的分類性能。文獻[7]將流的前若干個數據分組的帶有方向標記的分組長度（經過縮放預處理）作為協議特征，基于Gaussian mixture model和SVM分類器對SSH隧道承載的應用協議進行識別，并通過對經過SSH加密的POP3、POP3S、HTTP和eMule的實驗驗證了該方法的有效性。文獻[8]對近年運用機器學習方法進行 IP流量分類的研究進展進行了綜述和評論，將分類方法分為聚類、有監督的學習和混合方法等3類，并總結和比較了相關研究工作采用的具體機器學習算法、統計特征、評估數據集、待分類流量類型、分類粒度等策略以及準確率、實時性、計算復雜度和流方向依賴性等分類性能。

3 加密流量應用識別模型

基于假設檢驗的加密流量應用識別統計決策模型HTSDM (hypothesis testing-based statistical decision model) 定義如下。

定義1流方向

流方向定義為由五元組（源IP地址、源端口、目的IP地址、目的端口和傳輸協議號）標識的流的數據分組發送方向，記為DF={du,dd,db}。其中，du表示客戶端向服務器發送分組的上行流方向，dd表示服務器向客戶端發送分組的下行流方向，db表示不區分上下行的雙向流方向。

定義2分組序列位置

分組序列位置定義為某個流方向上的帶有有效負載的抽樣數據分組序列的位置編號，并且位置編號在指定的流方向意義上針對全部帶有有效負載的數據分組獨立進行，記為X={xi,…,xj|1≤xk≤N,1≤i≤k≤j≤N}。其中，xk表示單個數據分組的位置編號，稱作分組位置；N表示所在流方向上可取的最大位置編號。

根據所取的抽樣位置序列{xi,…,xj}的不同，分組序列位置可分為單個固定位置、離散序列位置和連續區間位置。所謂的離散序列位置是指具有不等長間隔的抽樣位置序列，而連續區間位置是指步長固定為1的均勻位置序列。

定義3分組序列方向特征

分組序列方向特征定義為帶有有效負載的抽樣數據分組序列在流中出現時所位于的流方向，記為DP={di,…,dj|dk∈DF,1≤i≤k≤j≤N}。其中，dk表示分組位置為k的數據分組位于的流方向，稱作分組方向；N表示可取的最大分組位置。

定義4分組序列分組長度特征

分組序列分組長度特征定義為帶有有效負載的抽樣數據分組序列在流中指定的分組位置上的分組長度（即分組載荷長度）、分組長度序列、分組長度集合或分組長度統計量所應滿足的特定閾值約束，記為L={li,…,lj|lk=[infk,supk],i≤k≤j}。其中，infk和supk分別表示分組長度特征分量lk的閾值下限和閾值上限，當infk與supk相等時，lk取固定值，否則取范圍值。

特別地，L可取位置分組長度變量，所謂的位置分組長度變量是指某個分組位置處的數據分組長度，該數據分組長度事先未知，而只能進行動態提取和確定。

定義5分組序列連續性

在流中指定的流方向DF上的數據分組序列在連續區間位置X上不間斷的一一出現并且滿足相應的分組序列方向特征DP和分組序列分組長度特征L，則稱為分組序列滿足連續關系。分組序列連續關系記為Rc(DF,X,DP,L)={rcc,rcv}，其中rcc表示分組序列連續，rcv表示分組序列不必連續。

定義6分組序列有序性

在流中指定的流方向DF上的數據分組序列在指定的分組序列位置（離散序列位置或連續區間位置）X上按照指定的先后順序依次出現并且滿足相應的分組序列方向特征DP和分組序列分組長度特征L，則稱為分組序列滿足有序關系。分組序列有序關系記為Rs(DF,X,DP,L)={rss,rsv}，其中rss表示分組序列有序，rsv表示分組序列不必有序。

定義7分組長度分布特征

分組長度分布特征定義為帶有效負載的抽樣數據分組序列在流中指定的流方向DF、指定的分組序列位置X上應存在一個長度為N的數據分組子序列并滿足分組序列方向特征DP、分組序列分組長度特征L、分組序列連續性Rc和分組序列有序性Rs約束，記為F(DF,X,DP,L,Rc,Rs,N) =DFXDPLRc Rs。

定義8分組長度統計簽名

分組長度統計簽名定義為應用協議類型C已知的加密流量的分組長度分布特征F、統計量T以及統計量T的期望值Te，記為P(F,T,Te,C)。其中，Te=[tinf,tsup]。典型的分組長度統計簽名如表1所示，對于不同的統計簽名，Te表示數據分組子序列的長度或單個分組長度。

表1 典型的分組長度統計簽名

定義9分組長度統計簽名變量分組位置

分組長度統計簽名可以引用其他的分組長度統計簽名定義其分組序列位置。相對于當前分組長度統計簽名所引用的分組長度統計簽名的命中位置、在某個流方向上的帶有有效負載的抽樣數據分組序列的偏移位置編號，稱為分組長度統計簽名變量分組位置，記為j≤N}。其中，表示單個數據分組的偏移位置編號；N表示所在流方向上可取的最大偏移位置編號。

分組長度統計簽名決策模型

零假設H0：加密流量應用協議類型為C。

備擇假設H1：加密流量應用協議類型不為C。

檢驗值z：分組長度統計簽名P的統計量T。

顯著性水平：α

定義10DFI特征

滿足一定的邏輯關系Rl的多個分組長度統計簽名P的集合，稱為DFI特征，記為FF({Pi};Rl)。其中，邏輯關系Rl支持AND、OR和邏輯表達式，缺省為 AND；邏輯表達式由 AND、OR和分組長度統計簽名P的編號組成。

定義11半流關聯特征

已識別應用協議類型C的流的源（或目的）IP、源（或目的）端口port和指定的傳輸協議tp組成的二元組或三元組稱為半流關聯特征，記為RF(IP,port,tp,C)。其中，由IP、端口和傳輸協議組成的三元組稱為強關聯特征，而IP和傳輸協議組成的二元組稱為弱關聯特征；半流關聯特征RF中緩存有關聯的應用協議類型C。

已識別應用協議類型的流的半流關聯特征RF通過散列運算生成關聯半流表（RT, relational table），后續可通過提取的強關聯特征直接進行關聯查表確定流的應用協議類型，或通過提取的弱關聯特征進行預過濾以篩選出需根據指定了該弱關聯特征的規則進行后續識別的流。

定義12單數據分組特征

單數據分組特征定義為在流中指定的流方向DF、指定的分組位置X和指定的分組方向DP上的單個數據分組應滿足的關鍵字特征、分組長度特征、端口特征、IP地址特征或半流關聯特征等特征簽名sig，并且多個特征簽名之間滿足一定的邏輯關系Rl，記為PF((DF,X,DP, {sig});Rl)。其中，邏輯關系Rl支持AND、OR和邏輯表達式，缺省為AND；邏輯表達式由AND、OR和特征簽名sig的編號組成。

定義13提升型DPI規則

由規則頭HD、單數據分組特征PF和可選的關聯動作ACT組成的應用識別規則，稱為提升型bDPI（boosting DPI）規則，并記為DR(HD,PF,ACT)。其中，規則頭HD包括規則編號、應用協議類型C、傳輸協議tp、優先級prio等；關聯動作ACT指定在規則命中時應提取并添加到關聯半流表RT中的半流關聯特征RF。

定義14DFI規則

由規則頭HD、單數據分組特征PF和DFI特征FF組成的應用識別規則，稱為DFI規則，并記為SR(HD,PF,FF)。其中，規則頭HD包括規則編號、應用協議類型C、傳輸協議tp、優先級prio等；單數據分組特征PF為在驗證DFI特征FF之前應首先滿足的預過濾條件。

DFI決策模型

預過濾條件H(PF):

決策規則H(DFI) =H(PF) ∧H(FF)

4 加密流量應用識別算法

4.1 PLSSI匹配算法

分組長度統計簽名匹配算法 PLSSI(packet length statistical signature identification)基于分組長度統計簽名決策模型實現，其偽代碼如下文所示。

算法輸入：分組長度l，分組方向d，分組長度統計簽名P、分組長度統計簽名P的匹配狀態SP和流在各方向上的當前分組位置cp[]。其中，匹配狀態SP包括當前分組位置x、統計量T的當前分組長度統計量l'、統計量T的當前分組計數n、位置分組長度變量的當前值l"、連續性狀態rc、有序性狀態rs、當前識別狀態QP（PENDING、HIT、FAILED）。

算法輸出：帶更新狀態的分組長度統計簽名P。

算法描述：

4.2 HMETI識別算法

HMETI（hybrid method for encrypted traffic identification）加密流量應用識別算法基于 DFI決策模型實現，分為預處理和識別2個階段。其中，預處理階段根據bDPI規則和DFI規則的單數據分組特征生成包括多模式匹配狀態機和散列表的DPI引擎，而識別階段則首先利用DPI引擎篩選出命中了預過濾條件的DFI規則集，然后基于HTSDM模型對初步命中的DFI規則進行DFI特征的驗證。通常情況下，需要對目標流進行多次識別，并且最多只處理流的前N（通常取N=60）個帶有效負載的數據分組。HMETI算法的偽代碼如下所示。

算法輸入：規則集合 SET，分組上下文pkt，流節點fn，關聯半流表RT。其中，規則集合 SET包括bDPI規則DR和DFI規則SR；分組上下文pkt包括當前數據分組的分組長度l、分組方向d、載荷payload和五元組tuple等；流節點fn為會話流表節點，包括流統計子節點鏈表fsnlist、流在各方向上的當前分組位置cp[]、流識別狀態QF、流應用協議類型cid等；流統計子節點fsn與DFI規則SR相對應，包括DFI規則SR的各個分組長度統計簽名P的匹配狀態SP和規則識別狀態QR。

算法輸出：帶有更新狀態的流節點fn。

算法描述：

5 實驗與結果分析

為了對前文所述的加密流量應用識別方法的有效性進行評估，本文在 Linux平臺上實現了HMETI應用識別引擎庫，并基于Libpcap和readline庫實現了相應的驅動測試平臺 TrafficBench，支持規則集配置、報文回放、識別結果統計報表、基于識別結果的報文過濾及導出等功能。

5.1 評價指標

網絡流量應用識別方法準確性的評價指標主要有誤報率、精確率、召回率、總體準確率和總體誤報率等幾種。此處討論的網絡流量應用識別方法包括應用協議識別算法和對應的規則集合。

誤報（FP, false positive）是指將本不屬于某類應用的流量識別為該類應用；漏報（FN, false negative）是指將本屬于某類應用的流量識別為其他類型應用；真報（TP, true positive）是指將屬于某類應用的流量識別為該類應用。

表2 識別方法評價指標的符號約定

假定測試樣本集由N類應用的流量構成，使用網絡流量應用識別方法對該測試集進行識別，按照表2給出的符號約定，第i類應用協議識別的準確性評價指標定義如下。

總體誤報率（overall FPR）

如果上述定義采用不同的統計粒度（例如流、分組個數、字節數等），則可得到網絡流量應用識別方法在不同維度的應用協議識別準確性評價指標。

5.2 數據集

本文選取了支持協議加密/混淆的 P2P應用BitTorrent（簡稱BT）和eMule評估前文所述加密流量應用識別方法的有效性，其中，BitTorrent客戶端選用 BitTorrent V7.6.1和 uTorrent V3.3，eMule客戶端選用eMule V0.50a和easyMule V1.2.0，并且開啟了協議加密/混淆功能。

評估所用的數據集分別單獨按照不同應用捕獲自實驗室環境，如表3～表5所示。表3中的BitTorrent和eMule數據集1由19個Trace文件組成，每個Trace為BitTorrent或eMule產生的全部TCP和UDP混合流量，包括Web流量、明文數據流量和加密流量，并且濾除了 DNS、ARP等無關流量。表 4中的BitTorrent和eMule數據集2分為訓練集和測試集2部分，其中，訓練集為人工分類和標注的TCP加密數據流，而測試集為從數據集1中過濾出的無法通過DPI識別的全部BitTorrent或eMule TCP數據流，具體的bDPI規則如下文表6所示。表5中的背景流量數據集3共計286個Trace文件，分別對應各種常見的加密應用和普通應用（或協議），其中加密應用占據了絕大部分流量。

表3 BitTorrent和eMule數據集1

表4 BitTorrent和eMule TCP數據集2

表5 背景流量數據集3

為了模擬真實網絡環境出口捕獲流量的特性，例如本地主機IP分布和不同應用在本地主機上的分布，數據集的全部Trace統一進行了單個本地主機IP的重新映射處理。本地主機IP的映射方法如下：1）預設私有IP地址池1和2，其中，IP地址池1容量設置為30，IP地址池2容量設置為200，并且IP地址池1為IP地址池2的子集；2）將每個BitTorrent或eMule Trace中的本地主機IP隨機映射為IP地址池1中的某個私有IP，將背景流量的每個Trace中的本地主機IP隨機映射為IP地址池2中的某個私有IP，并保證不同應用類型Trace之間的本地主機IP、非知名端口和傳輸協議三元組無沖突。經過重映射處理之后，數據集的Trace包含多個本地主機，并且每個本地主機IP對應一種或多種應用，與實際網絡流量分布模型相一致。

5.3 規則集

實驗采用的規則集包括 BitTorrent、eMule和Web的相應bDPI規則和DFI規則。

由于BitTorrent、eMule和Web HTTP都屬于開源協議，其單數據分組特征較易于分析和提取，具體的bDPI規則如表6所示。為方便計算，bDPI規則的單數據分組特征的關鍵字特征采用正則表達式語法描述，在實際解析和預處理時，應分離出正則表達式的所有因子字符串并保留其在數據分組內的位置信息和字符串之間的邏輯關系。作為典型的P2P應用，BitTorrent和eMule使用UDP和單個端口與大量的節點進行 DHT/Kad網絡通信以執行查找資源、維護節點聯通性等功能或進而進行基于UDP的數據傳輸，因此，通過將相應的bDPI規則關聯動作設定為源強關聯以直接識別該類 UDP流量。由于BitTorrent在進行TCP加密數據傳輸時必然伴隨著與 Tracker進行通信，因此，通過將相應的 bDPI規則關聯動作設定為源弱關聯可輸出運行BitTorrent應用并可能進行加密數據傳輸的候選主機，該弱關聯特征可作為進行BitTorrent加密流量識別的先決條件。

表6 BitTorrent、eMule和Web應用協議的bDPI規則

為了選擇和提取BitTorrent和eMule的DFI特征，基于數據集2中的訓練集樣本和典型的分組長度統計簽名，考察BitTorrent和eMule在雙向流方向、上行流方向上的分組長度分布以及 BitTorrent的同向連續分組長度和，統計結果如圖1～圖4所示。

圖1為分別從BitTorrent和eMule的36條加密數據流中抽取的雙向流方向上的前30個數據分組的分組長度分布散點圖，其中，X軸表示雙向流方向上的分組位置，Y軸表示數據分組長度，正值表示分組方向為上行，而負值則表示分組方向為下行（坐標軸正負值含義下同）。由圖 1可知，BitTorrent加密數據流的首分組分組長度介于70～300，eMule首分組分組長度介于12～270，第2個分組的分組方向總為下行且分組長度介于6～261，第3個分組的分組方向總為上行且分組長度介于95～200，第4個分組的分組方向總為下行且分組長度介于86～358。

圖2為BitTorrent的36條加密數據流上行流方向上的第4～20分組位置上分組長度小于200的數據分組的分組長度分布散點圖，其中，X軸表示流編號，Y軸表示在對數坐標下的數據分組長度。由圖2可知，分組長度17和34為頻繁項并構成所有流的集合覆蓋，這表明在BitTorrent加密數據流上行流方向的第4～20分組位置上至少存在1個分組長度等于17或34的數據分組。

圖1 BitTorrent和eMule加密流雙向前30個數據分組長度分布

圖2 BitTorrent加密流上行數據分組分組長度分布

圖3為eMule的36條加密數據流上行流方向上的第3～10分組位置上分組長度小于300的數據分組的分組長度分布散點圖，其中，X軸表示流編號，Y軸表示在對數坐標下的數據分組分組長度。由圖3可知，分組長度6、11和22為頻繁項并構成所有流的集合覆蓋，這表明在eMule加密數據流的上行流方向的第3～10分組位置上至少存在1個分組長度等于6、11或22的數據分組。

圖3 eMule加密流上行數據分組分組長度分布

圖4為從BitTorrent的36條加密數據流中抽取的上行和下行流方向上同向連續數據分組分組長度和的散點圖，其中，X軸表示上/下行連續交替位置，Y軸表示同向連續分組長度和。由圖4可知，在BitTorrent加密數據流的上行流方向的第1～2輪同向連續數據分組的分組長度和分別介于 95～610和5～640，下行流方向的第1輪同向連續數據分組的分組長度和介于80～610。

圖4 BitTorrent同向連續數據分組的分組長度和

基于上述分析，可以得到 BitTorrent和 eMule的TCP加密協議DFI規則，如表7和表8所示。

5.4 實驗結果

以數據集3作為背景流量，基于上述BitTorrent和eMule TCP加密協議DFI規則，取顯著性水平α=0.01，運用 HMETI算法對數據集 2的測試集樣本進行加密流量識別，得到的識別結果如表9所示。由表9可知，BitTorrent加密流量識別的字節精確率和召回率可達98%以上，而eMule加密流量識別的字節精確率和召回率則分別為 100%和 99.9%；eMule誤報率為0%，而BitTorrent誤報率則相對較高，其字節誤報率接近2%。

表7 BitTorrent TCP加密協議DFI規則

表8 eMule TCP加密協議DFI規則

為了降低BitTorrent加密流量誤報率，考慮結合 bDPI方法進一步加強預過濾條件進行優化，只對由bDPI判定為具有BitTorrent行為的主機進行后續加密流量識別，為此，在表7中的DFI規則的單數據分組特征 PF中引入源弱關聯特征并且聯合表6中的 bDPI規則 BT-TCP-2，利用數據集 1中的BitTorrent Trace重復上述BitTorrent加密流量識別過程，得到的BitTorrent加密流量優化識別結果如表10所示。與表9所示的優化之前的識別結果相比，字節誤報率顯著降低，僅有0.364%，字節精確率提高到99.6%以上，而召回率保持不變。

表9 BitTorrent和eMule加密流量識別結果

表10 BitTorrent加密流量優化識別結果

本文將HMETI算法與其他典型的加密流量應用識別方法進行了對比，結果如圖5所示。其中，SPID、SLFC和K-K算法分別由文獻[3～5]提出。由圖可知，無論是對于加密應用BiTorrent還是eMule，本文提出的HMETI算法都具有比其他加密流量應用識別方法更高的識別準確率，這是由于 HMETI算法引入了確定性抽樣數據分組序列的位置、方向、分組長度和連續性、有序性等流統計特征，從而使該方法能夠成功捕獲加密應用在流坐標空間中獨特的統計流量行為。

最后，考察BitTorrent和eMule產生的全部應用流量識別的總體準確性。利用HMETI算法和包括所有bDPI規則和DFI規則在內的規則集，取顯著性水平.α= 0.01，以數據集3作為背景流量，按照4種方法分別對數據集1進行完全流量識別，得到的總體準確率和總體誤報率如圖 6所示。其中，X軸表示識別方法，方法1使用傳統DPI規則（無關聯動作），方法2使用bDPI規則（帶關聯動作），方法3使用bDPI規則和未優化的DFI規則（不含源弱關聯預過濾特征），方法4使用bDPI規則和優化的DFI規則（含源弱關聯預過濾特征）；Y軸表示在對數坐標下的總體準確率和總體誤報率。

圖5 各算法的加密應用識別準確率對比

圖6 全部應用協議識別的總體準確率和總體誤報率

由圖6可知，傳統DPI方法的字節總體準確率僅有26.133 2%，這表明協議加密/混淆使傳統DPI方法已經部分失效，而引入半流關聯方法和DFI方法之后的字節總體準確率則逐步升高，在方法4時達到峰值，其字節總體準確率為98.720 3%，這表明占據大部分比例且無DPI特征的TCP加密流量和UDP數據流量已被準確識別。另外，不同統計粒度（字節、分組與流）的總體準確率差別較大，這主要是由于在 P2P類應用產生的大量會話中真正進行業務數據傳輸的流數量非常少，大部分為短會話或無效流，并且有部分加密數據流無法被識別。

同時，如圖6所示，BitTorrent和eMule流量識別的總體誤報率非常低，對于識別方法 4，其在達到最高字節總體準確率的同時，字節總體誤報率僅為0.138 5%，具有最優的識別性能。從方法2到方法4時總體誤報率抖動較大，原因是方法3引入了未優化的DFI方法導致了較高的加密流量識別誤報，而方法4則使用了優化的DFI方法使加密流量識別的誤報數量迅速下降。

6 結束語

本文基于加密應用在流坐標空間中的分組序列統計特征和典型的分組長度統計簽名，提出了一種基于假設檢驗的加密流量應用識別統計決策模型 HTSDM，并給出了相應的基于 DPI和 DFI混合方法的加密流量應用識別算法 HMETI。最后，通過加密應用BitTorrent和eMule數據集評估了 HMETI算法的有效性。實驗結果表明，本文提出的加密流量應用識別方法可以達到接近99%的字節總體準確率，并且僅有約0.1%的字節總體誤報率。

HMETI算法依賴于數據分組在流中的位置和到達順序等，因此需要對待識別流進行數據分組的去重傳、分片重組、亂序重排等預處理，并且通常只應用于可靠有序的 TCP加密流。同時，HMETI算法對非對稱路由[9]具有頑健性，對于無法獲取完整流的應用場景，可使用單向流的分組序列統計特征。另外，由于采用了預過濾方法并且只需抽樣識別流的少量數據分組，因此HMETI算法具有較低的計算復雜度并可應用到實時環境。

選取恰當的加密流量分組序列統計特征和分組長度統計簽名是保證HMETI算法應用識別準確性的關鍵。目前，加密應用的流量統計特征和分組長度統計簽名的提取主要是通過人工對捕獲的大量流量Trace的分類、標注和分析進行，提取效率、特征的顯著性和完整性都比較低。因此，下一步的研究工作將是利用數據挖掘算法進行加密流量統計特征和分組長度統計簽名的自動提取和驗證。

[1] GOMES J V, INáCIO P R M, PEREIRA M,et al. Detection and classification of peer-to-peer traffic: a survey[J]. ACM Computing Surveys, 2013, 45(3):1-40.

[2] MOORE A, ZUEV D, CROGAN M. Discriminators for use in flow-based classification[R]. Technical Report RR-05-13, ISSN 1470-5559, University of London, 2005.

[3] HJELMVIK E, JOHN W. Breaking and improving protocol obfuscation[R]. Technical Report No.2010-05, ISSN 1652-926X, Chalmers University of Technology, 2010.

[4] LU C N, HUANG C Y, LIN Y D,et al. Session level flow classification by packet size distribution and session grouping[J]. Computer Networks, 2012, 56(1):260-272.

[5] BAR-YANAI R, LANGBERG M, PELEG D, RODITTY L. Realtime classification for encrypted traffic[A]. Proceedings of 9th International Symposium on Experimental Algorithms (SEA 2010)[C]. Naples,2010.373-385.

[6] ALSHAMMARI R, ZINCIR-HEYWOOD A N. Machine learning based encrypted traffic classification: identifying SSH and skype[A].Proceedings of the 2009 IEEE Symposium on Computation Intelligence in Security and Defense Applications (CISDA 2009)[C]. Ottawa,2009.1-8.

[7] DUSI M, ESTE A, GRINGOLI F, SALGARELLI L. Using GMM and SVM-based techniques for the classification of SSH-encrypted traffic[A]. Proceedings of the 44th IEEE International Conference on Communication(ICC’ 09)[C]. Dresden, 2009.1-6.

[8] NGUYEN T, ARMITAGE G. A survey of techniques for internet traffic classification using machine learning[J]. IEEE Communications Surveys & Tutorials, 2008, 10(4):56-76.

[9] CROTTI M, GRINGOLI F, SALGARELLI L. Impact of asymmetric routing on statistical traffic classification[A]. Proceedings of the 7th IEEE Global Communications Conference (GLOBECOMM 2009)[C].Honolulu, 2009.1-8.