999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SDN 的實際網絡流中Tor 網頁復合特征提取方法

2022-03-31 07:11:02言洪萍周強王世豪姚旺何劉坤王良民
通信學報 2022年3期
關鍵詞:深度特征方法

言洪萍,周強,王世豪,姚旺,何劉坤,王良民

(江蘇大學計算機科學與通信工程學院,江蘇 鎮江 212013)

0 引言

網站指紋(WF,website fingerprinting)攻擊[1-3]作為一類典型的基于流量特征識別的去匿名技術,通過挖掘加密網頁流量中存在的流量特征來識別犯罪分子匿名訪問的網站,是科學研究和打擊網絡犯罪實踐的熱點。但是,現有的WF 攻擊工作主要研究如何識別Tor 流量對應的匿名網頁,這在實驗室環境下往往具有很好的效果。但是在實際應用中,首先還需從原始網絡流量中精準地區分出Tor 流量,否則現有的WF 攻擊效果將大大降低且不可用。因此,從實際網絡流中識別Tor 網頁流量是WF 攻擊的研究成果走向實用的基礎性和關鍵性課題。

在實際的流量環境中,面向Tor 流量的WF 攻擊方法如果需要發揮實際用途,需要建立在區分Tor 流量與其他流量的基礎上,該工作的困難主要在于Tor 流量相對于實際應用流量的比重非常小,因而訓練數據的收集和特征的分離均非常困難。收集Tor 流量的困難還有網絡結構的問題,由于公網IPv4 資源缺乏,目前Internet 廣泛使用網絡端口地址轉換技術解決內部網絡地址訪問外部網絡資源的問題,內部網絡的所有主機均共享一個合法外部IP 地址,導致位于外部網絡的審查者難以收集Tor流量。為此,本文充分發掘了現有網絡體系結構中作為區域中心節點的數據中心的功能,這些作為網絡中心節點的數據中心,不僅是Tor 流量匯聚的關鍵位置,而且在實施中往往采用軟件定義網絡(SDN,software defined network)[4]作為網絡架構。充分利用數據中心在網絡體系中的關鍵作用,并發揮數據中心的SDN 架構將網絡設備控制面和數據面分離的特點,能對網絡流量進行靈活控制,本文以此作為提高Tor 流量監控范圍與收集能力的基礎[5],提出了一種基于SDN 架構的數據中心下大范圍Tor流量發現的方法,進而提出了有效提升Tor 網頁流量識別效果的復合特征表示與流量數據增強方法,其主要貢獻包括如下三點。

1)基于SDN 架構獲取能體現應用協議交互過程的網絡流量信息,提出一種區分Tor 流量和其他流量的雙向統計特征(BSF,bi-direction statistic feature)。

2)提出融合BSF和LSF(lifted structure fingerprinting)的復合流量特征(CTTF,composed Tor-webpage-identification traffic feature),其中LSF 是使用LS Loss[6]訓練深度神經網絡提取的深度特征。

3)提出一種對Tor 流量數據進行增強的方法,通過最小化訓練數據與真實工作環境中捕獲的Tor 流量數據分布差異獲取增強數據,用于改進和提升Tor 網頁流量識別模型在訓練數據較少情況下的識別效果。

本文對仿真環境下采集的數據進行了實驗,并將CTTF 結合當前相關方法進行對比實驗,實驗表明,其均能提升原方法的識別率;基于增強的Tor流量數據基礎上提取的CTTF,在面向實際網絡流識別時,即使訓練數據較少,也能明顯提升識別結果,并且可以有效降低誤報率。

1 相關工作

本文研究面向實際流量的Tor 網頁特征識別,建立在數據中心是Tor 流量匯聚的關鍵場景以及SDN 架構提供了全局流量分析數據的基礎上。為此,相關工作部分主要介紹SDN 架構中的安全假設、SDN 架構中的流量發現、網頁流量識別和基于Tor 網頁識別的指紋攻擊。

1.1 SDN 架構中的安全假設

本文主要探討SDN架構下對Tor的流量收集和流量識別,因此審查者需要收集Tor 用戶的流量用于進一步分析。本文做出以下兩點假設。

1)假設審查者為數據中心級別,即審查者位于數據中心內,且具有修改OpenFlow 流表項的能力[7]。這意味著即使審查者與Tor 用戶不在同一網段下,其仍然能通過操縱流規則將同屬于一個數據中心下的用戶流量重定向到未經授權的接收者或單純地阻礙流的轉發。

2)假設Tor 用戶同樣存在于數據中心內,通過SDN 轉發設備與Tor 網絡建立三跳匿名連接訪問不同的服務。

基于以上兩點假設的具體網絡結構如圖1 所示,在該結構內,SDN 控制器通過北向應用程序接口(API,application program interface)實現與SDN應用交互[8],通過南向控制-數據平面接口實時監控數據中心各交換機的流量情況以及網絡拓撲情況;轉發層的設備通過接收控制器的控制信息生成轉發表,并對接收到的流量進行按表查找,若存在匹配的流表項,則根據流表項的指示轉發數據包。默認情況下,系統內的Tor 用戶通過與Tor 網絡建立三跳連接從而匿名訪問不同的站點。Tor 用戶首次通過匿名連接訪問網頁產生的流量數據包將被SDN 交換機捕獲并詢問控制器以選擇合適的路徑傳輸給目標地址。由于審查者具有修改OpenFlow流表項的能力,因此可以在流表項中添加一條將所有的該用戶流量復制轉發到自己本地的動作,進一步分析該網絡流量,從而判斷用戶的實際行為。

1.2 SDN 架構中的流量發現

SDN 架構通過開放的API和協議來動態管理和控制網絡,由于控制平面與數據平面是解耦的,這樣可使控制平面通過操縱數據平面中流量的路徑和走向,從而給應用于各種匿名通信系統中的流量發現方案提供機會。

Oconnor 等[9]通過在每個主機的內核中標記IP報頭的服務類型字段,利用SDN 的代理服務器跟蹤APT(advanced persistent threat)流量的來源,以此在SDN 交換機上檢測出被標記的數據包。但是,這樣就需要在每個主機上安裝一個定制的內核,以便實現精確的基于標簽的跟蹤。由于在大型SDN中實現此條件較困難,該方案只局限于小型受控制的網絡環境。

Ling 等[10]提出了一種新穎實用的匿名流量發現技術來確定可疑服務器和用戶之間的通信關系,利用目標服務器端的SDN 交換機來攔截指向服務器的目標流量,并修改發布的TCP 窗口大小,從而改變服務器端的流量速率。通過精心地改變流量速率,將一個秘密信號調制到流量中,承載該信號的流量通過匿名通信系統到達用戶端的SDN 交換機。然后從用戶端的流量中檢測出調制信號,以確定服務器和用戶之間的通信關系。文獻[10]通過在3 種流行的匿名通信系統(SSH、Open VPN和Tor)中進行了大量的實驗,驗證了技術的可行性和有效性。結果表明,SSH和Open VPN 的檢測率接近100%,Tor 的檢測率接近95%,而假陽性率則非常低,接近0。

由于匿名通信系統Tor 利用單跳或多跳代理服務器建立匿名加密隧道來中轉用戶流量,目的服務器只能觀察到最后一跳代理服務器的IP 地址,使跟蹤工作變得復雜。因此,發現用戶和入口節點之間的通信是非常重要的。

1.3 網頁流量識別

網頁流量識別方法可以概括為基于端口的方法、基于有效負載的方法、基于傳統機器學習的方法和基于深度學習的方法。

基于端口的方法。IANA(Internet assigned number authority)將已知的傳輸層端口分配給不同的協議,基于端口的分類器[11]簡單地從包頭中提取端口號值,并將其與相應的協議相關聯,但端口混淆、NAT、端口轉發和協議嵌入會使該方法的準確率顯著降低。

基于有效負載的方法。有效負載檢測技術[12]主要通過分析報文的應用層有效負載的內容進行流量識別,但在負載加密時會使它們的有效性降低。

基于傳統機器學習的方法。在過去的幾十年里,將機器學習技術應用于流量統計特征以進行網絡流量識別的方法得到了大量關注[13-14]。這種方法假設流量的最大包大小、最小包大小、數據包到達間隔時間、流量持續時間等統計特征對于每個應用來說幾乎是唯一的?;谶@一假設,大量的機器學習方法被應用于匿名流量分類。雖然將流量統計特征與各種機器學習算法結合起來在協議或業務級別的流量分類中取得了良好的效果,但在表征不同特定應用的流模式時,它們沒有鑒別力。

基于深度學習的方法。近年來,深度學習技術由于其強大的特征表示能力,在計算機視覺領域取得了巨大的成功[15-16]。因此,一些研究者開始探索深度學習技術在流量識別領域的應用[17-22],如Shen等[20]僅使用加密數據包長度進行細粒度網站指紋攻擊,Cadena 等[21]針對現有的深度指紋攻擊提出Tor 流量分離機制,Hardegen 等[22]基于深度學習和真實世界流量來預測網絡流量特性。

與基于傳統機器學習的方法相比,基于深度學習的方法使用深度神經網絡(如堆疊式自動編碼器或卷積神經網絡)從原始流量數據中自動學習深度特征表示。該方法最大的優點是深度特征表示直接通過深度神經網絡從原始數據中提取得到,而不涉及大量的工程技能和領域專家知識。此外,利用多個堆疊的特征提取層提取的深度特征往往比流統計特征更強大。

1.4 基于Tor 網頁識別的指紋攻擊

在正確識別Tor 網頁流量的基礎上,現有的WF 攻擊方法按照使用的技術可以分為兩類:一類是基于傳統機器學習的WF 攻擊方法,如基于流量相似度匹配的攻擊方法[13,23]、基于支持向量機(SVM,support vector machine)的攻擊方法[2,14,24]、基于K-近鄰的攻擊方法[3]以及基于隨機森林的攻擊方法[25];另一類是基于深度學習的WF 攻擊方法,如深度指紋攻擊方法[17]。傳統機器學習的WF 攻擊方法基于網頁數據包大小、包時間間隔以及數據包方向等特征,受限于技術人員的知識范圍,人工提取的特征并不是最具分離性的特征;基于深度學習的WF 攻擊方法在提取特征時忽略了人工經驗信息,因此,提取具有高分離性的特征對提升Tor 網頁流量指紋攻擊方案的性能至關重要。

基于傳統機器學習的WF 攻擊方法的優勢是能夠使用較少的樣本數量達到一個不錯的分類效果,而基于深度學習的WF 攻擊方法的優勢是能夠自動提取有效特征達到更好的分類效果,但其訓練模型的過程需要消耗大量的訓練樣本。從本質上說,WF 攻擊的根本目的在于使用分類模型識別Tor 網頁流量所對應的具體網站,與Tor 流量識別十分類似,WF 攻擊同樣利用了流量中存在的特征,且特征同樣分為人工特征和原始流量特征。在進行WF 攻擊時,基于原始流量特征和深度學習模型的方案能夠取得很好的效果,證明了原始流量特征包含豐富的信息。

總體來說,雖然基于深度學習的方法在進行網頁流量識別和Tor 網頁識別的指紋攻擊效果更好,但計算量也相對較大,對應實際需求的時效性往往不夠,更困難的是,當面對實際網絡中原始流量中Tor 流量占比少、訓練數據不足的情形時,當前方法基本失效。

2 基于SDN 的Tor 流量雙向統計特征

本文工作直接面向數據中心收集的原始數據流,首先基于SDN 架構提供的豐富的網絡流信息,提出可以區分Tor 流量與其他流量的BSF;然后經過雙向統計初步篩選的Tor 嫌疑流量,利用深度網絡模型作為特征提取器,并為模型設計更有效的損失函數,來增強對深度特征表示的判別能力,獲取更有效的LSF;最后將BSF和LSF 融合,形成用于Tor 網頁識別的CTTF。

2.1 基于SDN 的Tor 流量發現機制

發現Tor 流量的基礎在于找出Tor 網絡內提供服務的節點信息,而Tor 的運行機制使本文能夠獲得Tor 網絡內絕大部分節點的信息,Tor 網絡內的節點主要由普通節點與網橋節點組成,普通節點的信息是完全公開的,而網橋節點的信息是半公開的。對于普通節點,Tor 網絡由多個權威目錄服務器共同維護包含所有普通節點信息的共識文件。因此通過解析共識文件,本文能夠獲取所有的普通節點信息。而對于網橋節點,由于其半公開的性質,本文無法一次性獲取所有節點的信息。但目前很多文獻[26-27]提出了發掘Tor 網絡中所有網橋節點的信息方法。因此本文可以掌握Tor 網絡中絕大多數節點的信息,這為本文發現Tor 流量奠定了基礎。

傳統網絡是分布式的網絡,沒有中心控制點,數據包的控制和轉發均由路由設備負責。SDN 將網絡元素(如路由器和交換機)的路由和轉發決策與數據平面分開,控制平面僅處理與邏輯網絡拓撲相關的信息,數據平面則根據控制平面中已建立的配置來協調網絡流量。

由于數據平面的轉發設備不具備決策能力,當SDN 控制器所轄SDN 域內Tor 用戶生成新的網絡流量時,數據平面的轉發設備會將其轉發至控制器并由控制器及上層的應用程序決定網絡流量的轉發方式。因此本文可以基于SDN 架構的特性對Tor 流量進行全局發現。應用程序層定義Tor流量發現規則,程序依據Tor 流量發現規則維護Tor 節點列表,當控制器接收到數據平面的設備傳來的請求時,依據Tor 節點列表中的IP 進行匹配。若匹配失敗,則正常轉發該網絡流量;若匹配成功,則將該網絡流量復制轉發到專用的服務器。

利用SDN 結構,通過人工分析,掌握Tor 網絡中絕大多數節點的信息之后,就可以捕獲一部分Tor 流量,這為后續Tor 流量統計特征的分析奠定了基礎。

2.2 Tor 流量BSF 提取方法

針對SDN結構中捕獲人工標定的Tor流量和原始流量的對比分析,本文發現原始流量特征中包含更加完整以及豐富的信息,因為分類器能夠從原始流量特征中獲取不同的應用協議的交互信息。而當前基于去匿名化技術標定的人工特征相較原始流量特征雖然包含的信息量有一定程度的下降,但是直接用原始特征進行識別,由于匿名流量在原始流量中的占比往往具有較大的波動,這個波動對深度學習模型造成巨大的影響,因為深度學習模型對數據的輕微變動非常敏感,往往會讓WF 攻擊等網頁分析方法效果顯著下降。

本文提出了一種新的Tor 流量序列表示方法BSF。該方法同時利用人工特征和原始流量特征,在提供豐富信息的同時,保證了對基于偽數據包填充防御的穩健性,也為后續的深度特征提取提供有力的支撐。

本文通過分析網頁加載過程可知,用戶與服務器建立TCP 連接需要進行少量交互,在用戶請求網頁后,服務器會向用戶發送HTML 文件,從而引發大量發往用戶的數據包,而在瀏覽器解析HTML 文件后會再次向外界發送少量數據包請求相應的圖片、視頻等其他資源數據,繼而再次引發服務器向用戶發送大量數據包。音樂播放、視頻播放、文件下載和郵件下載雖然都是服務器向用戶發送大量數據包,但是用戶短時間內只需要向服務器發出一次請求。此外,語音通話、聊天工具具有明顯的交互特征,因此2 個用戶之間的數據包傳輸量類似,而郵件上傳、文件上傳時用戶向外發送的流量更多。

因此本文提出了BSF 來剔除捕獲的非Tor 流量,BSF 的基本理念在于展現Tor 流量的前N個數據包或TLS 記錄的交互過程蘊含的應用協議握手信息,這將同時進一步突出Tor 網頁流量與其他流量的差異性,具體步驟如算法1 所示。

算法1BSF 提取算法

輸入流量樣本集T={item1,item2,…,itemn},Tor 用戶IP 地址集G,相關參數TLS(樣本類型標志)、N(流量子集長度)、weight(item 大小權重標志)

輸出雙向統計特征集M

3 Tor 網頁流量LSF 特征提取

從應用類型混雜的Tor 流量中識別出網頁流量,包含3 個方面的基本步驟。圖2 展示了網頁流量識別模型的具體架構和工作流程[28]。

如圖2 所示,該流程由3 個部分組成。1)使用大量有標簽Tor 流量數據集D1訓練流量特征提取模型;2)使用訓練好的流量特征提取模型來提取少量有標簽Tor 流量數據集D2中流量樣本的深度特征,并將其用于訓練流量分類模型;3)首先使用流量特征提取模型提取無標簽Tor 流量數據集D3中流量樣本的深度特征,而后輸入流量分類模型來確認該樣本是否屬于Tor網頁流量。與其他方案[29-30]不同,本文將Tor 網頁流量特征提取任務和分類任務分開處理,基于深度學習算法的Tor 網頁流量特征提取模型能夠確保提取有效的深度特征,基于機器學習算法的Tor 網頁流量分類模型能夠保證分類器的靈活更新,從而同時滿足了有效性與靈活性。

圖2 Tor 網頁流量識別模型的具體架構和工作流程

本節LSF 提取方法基于該模型設計,LSF 主要用于從經過BSF 初步篩選的應用類型混雜的Tor 流量中識別出網頁流量,首先將深度神經網絡作為特征提取器,然后使用光滑化方法對深度度量學習(MDL,deep metric learning)損失函數LS Loss 進行優化,來增強網絡對于深度特征表示的判別能力,最后使用該網絡提取更有效的深度學習特征LSF。

3.1 DML 模型方案

DML 依靠深度學習模型自動提取特征的能力,將原始數據映射到嵌入空間。在嵌入空間中,可以用常用的度量如歐氏距離或余弦距離評價樣本之間的相似性。相較于原始空間中的樣本,在嵌入空間中同類樣本的相似度更高,異類樣本的相似度更低,即樣本在嵌入空間中更具可分離性。

模型的網絡架構、樣本選擇策略和損失函數是DML 領域最重要的3 個因素。在5.4 節實驗中,本文通過實驗選取了DF[17]作為基本網絡架構。在損失函數方面,DML 領域已有眾多非常成熟的損失函數,如Contrastive Loss[31]、Triplet Loss[32]、Npair Loss[33]等。

根據Tor 網頁流量的特點,本文選取LS Loss函數,利用其對類內樣本數據結構的破壞性相對較低的特性,學習針對流量識別任務的有效特征,為后續進一步實行網站指紋攻擊做準備。

本文基于小批次樣本中所有的正負流量樣本對來計算LS Loss。具體來說,正流量樣本指與每次所選取類型屬于同一類型的流量樣本,負流量樣本指不同于此類型的流量樣本。給定用于訓練的小批次流量樣本,LS Loss 定義為

其中,Li,j為

其中,是正流量樣本對的集合,是負流量樣本對的集合,Di,j是正流量樣本對{i,j}的距離。對于每一個正流量樣本對{i,j},LS Loss 指導DNN 模型分別挖掘相對i和j來說距離最近的負流量樣本,假設分別為m和n。這些樣本在原始空間中直接進行分類是相對困難的,因此選取它們作為困難訓練樣本來加速和改善模型的收斂,使通過模型將所有流量樣本從原始空間映射到嵌入空間后,不同類型的樣本可分離性得到提高。之后進一步通過比較Di,m和Dj,n,選擇兩者中距離較小的負流量樣本作為最難負樣本,假設為l。最后,計算由流量樣本{i,j,l}確定的Loss 來指導DNN 模型執行反向傳播。如圖3 所示,最難負流量樣本針對的是正流量樣本對的每一個樣本。在這個包含6 個流量樣本的小批次樣本中,正流量樣本對中每一個樣本都是獨立地與所有其他負流量樣本進行比較,并挖掘出最難負流量樣本。

圖3 最難負流量樣本挖掘方案

由于式(1)定義的LS Loss 并不是光滑的函數,嵌套的 max 函數在實際訓練過程中容易導致DNN 模型執行反向傳播時陷入局部最優的困境。因此,可以將其改進為一個光滑的函數,即

3.2 基于DML 的LSF 提取方法

深度神經網絡不需要人工經驗,可以端到端地學習到數據的高層次特征表示,從而更有效地提升流量數據的分類性能,本節詳細介紹基于DML 的LSF 提取方法。

DML 方法將樣本映射到特征空間中,通過使相同類別的特征相似性更高,不同類別的特征相似性更低,從而使不同類別的樣本在特征空間中有更好的可分離性。在本文流量特征分類中,選取余弦距離來度量特征空間中不同特征的相似性,選取LS Loss 函數來發掘類內樣本數據結構的破壞性相對較低的特性,學習針對流量識別任務的有效特征,基于改進的光滑LS Loss 函數來避免深度網絡訓練時陷入局部最優,具體步驟如算法2 所示。

算法2LSF 深度特征提取算法

輸入流量樣本集T={item1,item2,…,itemn},正流量樣本P=,負流量樣本N=,深度特征提取器G

輸出LSF 深度特征

4 CTTF 復合特征與流量數據增強

4.1 CTTF 特征和網頁特征識別流程

SDN 架構下,基于實際流量的Tor 網頁流量分類分為2 個層次進行,如圖4 所示,第一個層次針對SDN 數據中心采集到的原始流量,提取原始流量的BSF,將原始流量分為Tor 流量和非Tor 流量,為后續進一步細粒度分類奠定基礎。

圖4 CTTF 特征和網頁特征識別流程

第二個層次是將上述Tor 流量中的網頁流量識別出來。針對已知的Tor 流量,本文通過對Tor 流量提取相應的BSF,基于LS Loss 訓練提取LSF,二者融合獲得Tor 流量的CTTF,再基于標記的訓練數據訓練KNN 分類器,識別Tor 流量數據中的網頁流量。

針對訓練數據稀缺的問題,本文提出基于平移的流量數據增強方法,對增強后的流量提取BSF和LSF 得到CTTF?;谏鲜龅玫降奶卣?,本文提出的流量數據增強方法也能有效解決訓練數據稀缺的問題,提升Tor 網頁流量分類準確率。

4.2 基于平移的流量數據增強方法

通過對Tor 流量識別任務的觀察,本文提出了一種基于平移的流量增強方法,該方法利用移位的數據增強手段來彌補可能遇到的訓練樣本不足的問題。數據增強[34]是計算機視覺中常用的減少過擬合問題的方法,通過數據增強提高訓練數據規模和質量,可以為機器學習算法提供容量更大、更接近真實分布的訓練數據,令訓練集和實際需要識別的數據之間的分布盡量匹配。

因此本文探索使用小數據集進行實驗,最終選取離線增強方式進行數據擴充,具體的Tor 數據增強策略算法的描述如算法3 所示。

算法3左右平移的數據增強算法

輸入流量樣本集T={item1,item2,…,itemn},每條流開始收集時間集start,每條流結束收集時間集end

輸出數據增強后的流量樣本集T

5 實驗評估

本文首先在SDN 仿真環境中驗證了第2 節提出的Tor 流量發現機制的有效性,基于收集的流量數據驗證了基于CTTF 的Tor 網頁流量識別方法的有效性。在此基礎上,本文研究了流量增強機制對Tor 網頁流量識別效果的影響。

5.1 Tor 流量發現機制有效性驗證

為了驗證了本文提出的Tor 流量發現機制的有效性,本文首先基于物理機器搭建了具備4 個節點的私有Tor 網絡,在SDN 仿真環境Mininet[35]中進行了實驗。本文基于Mininet 搭建了具有2 個交換機和2 個PC 的數據平面,并使用RYU 作為SDN控制器,在RYU中以應用程序的形式實現本文所需的Tor 流量發現功能,實驗中使用如圖1 所示的網絡結構拓撲。

首先,應用程序周期性地向權威目錄服務器請求獲取Tor 網絡內的節點信息。當Tor 用戶訪問Tor網絡時生成新的網絡流量數據,則SDN 交換機會向RYU 控制器請求該網絡流量數據的處理方法。控制器經過對比發現該網絡流量數據為Tor 流量,則在正常轉發該流量的前提下將該網絡流量數據復制轉發到服務器進行保存,以完成對Tor 流量的發現。接下來,令Tor 用戶不通過Tor 網絡向網站上傳文件,20 s 后再通過Tor 網絡向網站上傳文件,在此過程中審查者記錄收集到的Tor 流量。

如圖5 所示,在前20 s 雖然Tor 用戶并未使用Tor 進行傳輸數據,但是審查者仍能夠捕獲少量Tor 流量,這是因為Tor 用戶在維護與入口節點之間的鏈路,而20 s 后Tor 用戶使用Tor 進行通信,此時審查者能夠捕獲大量的Tor 流量。

圖5 不同使用狀態下的Tor 流量大小

5.2 網頁流量識別機制有效性驗證

為了驗證本文提出的網頁流量識別機制的有效性,本文收集了8 種類型的流量用于實驗,包括網頁流量、在線音樂、網絡視頻、語音通話、即時聊天、文件傳輸、電子郵件和P2P。

由于本文的主要任務是識別網頁流量,因此本文將網頁流量與其他流量的比例調整為1:1。對于網頁類型的Tor 流量,本文將Alexa 網頁排名榜單中排行前2 000 的網頁作為研究對象。同時使用火狐和谷歌2 種瀏覽器訪問網頁,每種瀏覽器獲取每個網頁的5 個Tor 流量樣本,最終獲得了20 000 條網頁類型的Tor 流量樣本。對于其他7 種類型的流量,每個類型抓取3 000 個Tor 流量樣本,共21 000 個樣本。

本文將所有類型的流量樣本均分為2 個部分,即Dataset1 數據集和Dataset2 數據集,每個數據集包含20 500 條流量。Dataset1 被LS Loss 用來指導本文深度特征提取器的訓練,Dataset2 流量用于各方案分別提取特征來訓練分類器和測試其識別效果。

本文將Wang 等[29]提出的方案命名為J48,Lotfollahi 等[30]中提出的方案命名為DP。J48 方案使用Tranalyzer2 提取Tor 流量中的79 種特征,并結合J48 分類器得到了較好的流量識別效果。本文將J48 提出的特征定義為F1,通過F1 對Dataset2處理后得到特征集Dataset2F1,分別在Dataset2F1上訓練J48、DP 分類器,并對它們的識別效果進行評估。本文將3.2 節提出的BSF 定義為F2,通過F2對Dataset2 進行處理后得到特征集Dataset2F2。利用LS Loss 指導DNN 模型在Dataset1 上訓練得到LSF 提取器E1,利用E1 對Dataset2 進行提取特征進一步得到深度特征集Dataset2E1,將Dataset2F2和Dataset2E1融合得到Dataset2 的CTTF,用于訓練KNN 分類器,并對其識別效果進行評估。通過控制參與訓練的流量數據占比,實驗分別得出了J48、DP 以及CTTF 方案的準確率、真正確率及假正確率隨訓練數據占比變化的曲線。

網頁流量識別效果對比如圖6 所示。首先隨著訓練數據占比的增加,3 種模型的識別效果都呈從快速提升到緩慢提升的變化趨勢,其中,本文提出的CTTF 方案相較其他2 種方案在數據量更少時識別效果提升更加明顯,在40%的數據參與訓練的情況下,CTTF 方案已經達到了收斂。然而,基于手工特征集和機器學習分類算法的J48 方案并未達到收斂?;谏疃葘W習模型的DP 方案由于訓練數據量不足,識別效果最差。圖6 實驗結果顯示了本文方案能夠通過提取更加穩健、有效的流量特征使分類器以更少的訓練數據達到更好的識別效果。隨著參與訓練的數據量進一步增大,當80%的數據參與訓練時,巨大的訓練數據量使基于深度學習模型的DP 方案識別效果進一步提升,DP 方案與本文提出的CTTF 方案的識別率達到同一水平。然而由于本文設計的CTTF 方案為負樣本對設計了更高的損失值權重,誤報更少,FPR 相較DP 方案更低,在實際應用中其他類型流量被誤識別為網頁流量的概率更小。

圖6 網頁流量識別效果對比

5.3 數據增強機制有效性驗證

為了驗證數據增強機制的有效性,本節對本文提出的方案在數據增強機制輔助下的識別效果進行了評估。由于審查者很難掌握Tor 流量的具體位置,但是仍能大致判斷Tor 流量的起始位置。因此,本文對流量數據的平移操作被限制到了100 個數據包的范圍,通過左右平移流量形成新的流量數據。本文采用隨機平移的方式對涉及訓練特征提取器和分類器的數據進行在線擴充至原來的5 倍。

如圖7 所示,本文將未采用數據增強機制的方法稱為CTTF,只在測試數據上執行數據增強的方法稱為Non,在訓練數據和測試數據同時進行數據增強的方法稱為Arg。當參與訓練的數據占比超過40%時,經過數據增強后分類的準確率和TPR 都有小幅提升,FPR 有小幅下降,但是均無明顯改善。當參與訓練的數據占比小于40%時,經過數據增強后分類的準確率和TPR 都有較大幅度的提升,FPR 也有較大幅度的下降。當訓練數據較少時,通過平移操作對Tor 流量進行數據增強,能夠使訓練數據與實際需要識別的數據更加相似,從而提高分類器的識別效果。當訓練數據充足時,數據增強雖然會少量增加分類器的識別效果,但與此同時也會增加訓練分類器的時間消耗,因此,這種情況下需要謹慎采用數據增強技術。

圖7 數據增強機制的效果

5.4 模型超參數的選取

通常情況下,模型訓練的epoch 越多,預測效果越好。使用不同DNN 子網絡模型的性能曲線如圖8 所示。DF 作為子網絡時,在10 個epoch時就達到82%的精確率和85%的召回率。隨著epoch 不斷增加,模型性能逐漸變好,最終在40 個epoch 后趨于平穩。本文發現,DF 作為子網絡時模型在訓練epoch 最少的情況下就能達到收斂,性能仍表現最好,在流量識別的任務中再次展現了強大的特征提取能力。因此,本文最終選擇DF 作為LSF 提取模型中的基礎網絡,且模型的訓練epoch 為40。

圖8 使用不同DNN 子網絡模型的性能曲線

通過對比測試,本文選擇余弦距離作為LSF提取模型中的距離度量,依靠其獨有的特性來衡量流量樣本間的相似度。此外,Adam 優化器[28]結合了SGDM[36]的一階動量和RMSProp[37]的二階動量,在梯度下降的過程中加入了慣性,并實現了自適應的學習率調整。因此,本文選擇Adam作為LSF 提取模型訓練過程中的優化器,以獲得更佳的性能。

通過基于DML 訓練得到的特征提取器,將流量樣本在高維空間中的原始稀疏特征向量映射到低維空間中稠密特征向量后,同類別流量樣本間距離減少,異類流量樣本間距離增加。由于由DML 指導訓練得到的深度學習模型通常配合KNN 一起完成分類任務,因此本文同樣采用KNN 作為目標分類器,以BSF和LSF 二者融合獲得的CTTF 特征訓練KNN。與普通的分類算法不同,KNN 通過在歐氏空間中從參與訓練分類器的流量樣本中找出與需要預測的樣本距離最接近的K個流量樣本,然后在它們當中找出某一標簽對應樣本數量最多的標簽作為預測樣本的類別,該思想類似于“投票法”。K值的選取在一定程度上會影響KNN 模型的預測結果。如果選擇較小的K值,只有與輸入流量樣本較近或相似的訓練樣本才會對預測結果起作用,但意味著模型容易發生過擬合;如果選擇較大的K值,就相當于利用較多訓練時的流量樣本進行預測,但此時與輸入流量樣本不相似的訓練樣本也會對預測結果起作用,導致預測錯誤。通過交叉驗證,本文對KNN 主要采取以下超參數指導分類器進行訓練和預測。

1)采用余弦距離來衡量樣本間的相似度。

2)每個參與訓練樣本的權重設置為與距離成反比。

3)每一次查找10 個與輸入流量樣本最近的樣本,也就是K為10。

針對K的取值問題,本文采用測試多個K值,并從中選取使分類性能達到最佳的值作為最終的K值,如圖9 所示,當K取值為9、10、11時,模型取得最高的準確率,本文選取中間值10 作為K的最終取值。

圖9 使用不同K 值對識別準確率的影響

6 結束語

本文基于SDN 架構特性,在數據中心環境下發現和收集Tor 流量,據此分析獲得了Tor 流量的BSF;進一步基于卷積網絡提取深度特征的流量特征表示,使用LS Loss 訓練深度特征提取器,獲得了基于深度度量學習的Tor 網頁LSF;針對訓練數據不足的情形,提出了流量數據增強的方法。實驗表明,基于BSF+LSF 的復合特征CTTF 能針對實驗模擬的數據中心的原始流量進行Tor 網頁流量識別,相比現有方法,識別率提升了4%,達到85.9%,TPR 達到88.7%,FPR降至10.9%;其中基于Tor 流量數據進行增強的方法可將分類器的分類效果在訓練數據較少的情況下得到有效提升。

猜你喜歡
深度特征方法
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产激爽大片在线播放| 亚洲综合天堂网| 日本不卡在线视频| 超级碰免费视频91| 91综合色区亚洲熟妇p| 波多野结衣一区二区三区四区视频| 久久中文字幕av不卡一区二区| 亚洲欧洲日产国产无码AV| 国产在线视频欧美亚综合| 黄色网站在线观看无码| 国产综合精品一区二区| 日本在线亚洲| 久久综合色播五月男人的天堂| 欧美国产综合视频| 岛国精品一区免费视频在线观看 | 亚洲 欧美 日韩综合一区| 日韩欧美中文亚洲高清在线| 99热亚洲精品6码| 青青草91视频| a国产精品| 自拍亚洲欧美精品| 国产免费一级精品视频 | 国产91高清视频| 98精品全国免费观看视频| 成人字幕网视频在线观看| 精品人妻一区无码视频| 亚洲综合第一区| 无码'专区第一页| 婷婷综合在线观看丁香| 华人在线亚洲欧美精品| 欧美三级自拍| 欧美日韩一区二区三区四区在线观看| 国产精品视频猛进猛出| 色综合中文字幕| av在线5g无码天天| 国产真实乱子伦精品视手机观看 | 日韩A∨精品日韩精品无码| 日韩黄色大片免费看| 国产欧美日韩另类精彩视频| 日本伊人色综合网| 亚洲AV色香蕉一区二区| 国产三级视频网站| 亚洲狼网站狼狼鲁亚洲下载| 国产亚洲男人的天堂在线观看| 久久中文字幕不卡一二区| 亚洲精品视频免费| 国产幂在线无码精品| 国产精品国产三级国产专业不| 国产欧美日韩在线一区| 久久国产精品嫖妓| 亚洲国模精品一区| 色综合色国产热无码一| 国产国拍精品视频免费看 | 亚洲天堂成人在线观看| 天天做天天爱夜夜爽毛片毛片| 人妻丝袜无码视频| 国产人免费人成免费视频| 亚洲第七页| 亚洲男人的天堂在线| 国产成人你懂的在线观看| 国产一级在线观看www色| 久久无码免费束人妻| 成年女人18毛片毛片免费| 亚洲av无码久久无遮挡| 啪啪啪亚洲无码| 欧美亚洲香蕉| 日韩美女福利视频| 亚洲国产理论片在线播放| 国产视频一二三区| 亚洲精品777| 亚洲欧洲一区二区三区| 九九九精品成人免费视频7| 免费av一区二区三区在线| 亚洲成a人片在线观看88| 在线欧美日韩国产| 国产香蕉97碰碰视频VA碰碰看| 国产精品黄色片| a天堂视频在线| 国产欧美综合在线观看第七页| 国产无码精品在线播放| 综合天天色| 免费久久一级欧美特大黄|