SDN網(wǎng)絡(luò)流量分類技術(shù)研究綜述

2018-03-29 08:26:35蔣海軍郭小帆邱宏瓊

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2018年2期

關(guān)鍵詞：分類特征

蔣海軍，謝鈞，郭小帆，邱宏瓊，強(qiáng) 振

(1.陸軍工程大學(xué) 指揮控制工程學(xué)院，江蘇南京 210007； 2. 31103部隊(duì)，江蘇南京 210016；3.73127部隊(duì)，福建福州 350003；4.31618部隊(duì)，福建福州 350003)

0 引言

當(dāng)前，以互聯(lián)網(wǎng)為代表的信息技術(shù)在全球范圍得到了迅速發(fā)展和普及。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)第40次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]數(shù)據(jù)顯示：截至2017年6月，我國(guó)網(wǎng)民總數(shù)達(dá)到7.51億，互聯(lián)網(wǎng)普及率達(dá)到54.3%。其中移動(dòng)互聯(lián)網(wǎng)的主導(dǎo)地位進(jìn)一步加強(qiáng)，手機(jī)網(wǎng)民7.24億，占總網(wǎng)民數(shù)的96.3%。截止到2017年6月，我國(guó)國(guó)際出口帶寬達(dá)到7 975 Gb/s，較2016年12月增長(zhǎng)20.1%。網(wǎng)絡(luò)用戶增多，傳輸數(shù)據(jù)流量增大，網(wǎng)絡(luò)應(yīng)用業(yè)務(wù)不斷豐富，使得網(wǎng)絡(luò)資源使用緊張，存在資源分配不均衡、利用率低等問題。

傳統(tǒng)的互聯(lián)網(wǎng)體系架構(gòu)在最初的設(shè)計(jì)理念、方法上存在“先天性的”不足，導(dǎo)致其在網(wǎng)絡(luò)流量的管理控制、網(wǎng)絡(luò)資源的高效使用和網(wǎng)絡(luò)運(yùn)行的安全性、穩(wěn)定性等方面都遇到了很多問題和挑戰(zhàn)。為了應(yīng)對(duì)這些挑戰(zhàn)，產(chǎn)業(yè)界和學(xué)術(shù)界很多學(xué)者都展開了對(duì)下一代網(wǎng)絡(luò)的研究。在眾多的研究方案中，美國(guó)斯坦福大學(xué)的MCKEOWN N教授等提出的基于OpenFlow的軟件定義網(wǎng)絡(luò)(Software Defined Network，SDN)[2]被認(rèn)為是最具前途的技術(shù)之一。SDN作為一種新型的網(wǎng)絡(luò)架構(gòu)[3]，很好地解決了傳統(tǒng)網(wǎng)絡(luò)把控制邏輯和數(shù)據(jù)轉(zhuǎn)發(fā)耦合在網(wǎng)絡(luò)設(shè)備上而導(dǎo)致網(wǎng)絡(luò)控制平面管理的復(fù)雜性問題，也使得網(wǎng)絡(luò)控制層面新技術(shù)的更新和發(fā)展具有更好的靈活性和擴(kuò)展性。

在基于OpenFlow協(xié)議的SDN網(wǎng)絡(luò)架構(gòu)下，數(shù)據(jù)根據(jù)流表進(jìn)行轉(zhuǎn)發(fā)，雖然控制器可以通過匹配IP地址、通信端口、物理地址等流表項(xiàng)屬性值實(shí)現(xiàn)對(duì)單個(gè)流的管理和控制，但是SDN并沒有提供一種機(jī)制來(lái)分類數(shù)據(jù)流所對(duì)應(yīng)的應(yīng)用和協(xié)議類型。因此在SDN網(wǎng)絡(luò)架構(gòu)下，流量分類仍然是實(shí)施精細(xì)化、個(gè)性化網(wǎng)絡(luò)管理的重要前提。此外由于SDN具有更強(qiáng)的對(duì)全局網(wǎng)絡(luò)態(tài)勢(shì)的感知能力和對(duì)全局網(wǎng)絡(luò)流量的控制能力，流量分類發(fā)揮的作用更為明顯。目前網(wǎng)絡(luò)流量分類方法主要有4種：基于端口的流量分類技術(shù)、基于深度包檢測(cè)(Deep Packet Inspection，DPI)的流量分類技術(shù)、基于流統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)(Machine Learning，ML)的流量分類和基于用戶行為特征的流量分類技術(shù)。

1 傳統(tǒng)網(wǎng)絡(luò)架構(gòu)流量分類主要技術(shù)

1.1 基于端口的流量分類技術(shù)

在傳統(tǒng)的網(wǎng)絡(luò)環(huán)境下，互聯(lián)網(wǎng)數(shù)字分配機(jī)構(gòu)(IANA)對(duì)一些常用的傳輸層服務(wù)端口進(jìn)行了預(yù)定義，通常在0～1 023之間。例如HTTP協(xié)議使用80端口，DNS域名服務(wù)使用53端口，F(xiàn)TP文件傳輸協(xié)議使用21端口等。此外，注冊(cè)協(xié)議主要使用1 024-49 151之間的端口，剩下的49 152-65 535端口不作特殊規(guī)定。早期，各種協(xié)議和網(wǎng)絡(luò)應(yīng)用都遵循該規(guī)則，使用的端口比較固定，因此通過端口映射的方法可以進(jìn)行網(wǎng)絡(luò)流量分類。這種方法只需要進(jìn)行端口匹配，因此具有簡(jiǎn)單、快速、易于實(shí)現(xiàn)、準(zhǔn)確率高等優(yōu)點(diǎn)。但是隨著網(wǎng)絡(luò)應(yīng)用的發(fā)展，出于不同的目的，一部分網(wǎng)絡(luò)應(yīng)用使用了端口變換和偽裝技術(shù)，使得基于端口映射的流量分類技術(shù)無(wú)法有效應(yīng)用。MADHUKAR A等[4]在實(shí)驗(yàn)中證實(shí)了有30%～70%的流量都無(wú)法利用端口來(lái)進(jìn)行正確分類。

1.2 基于DPI的流量分類技術(shù)

數(shù)據(jù)包的載荷部分含有大量信息，DPI就是利用這些信息進(jìn)行分類。基于DPI流量分類技術(shù)是依據(jù)特定協(xié)議或應(yīng)用的特征碼來(lái)實(shí)現(xiàn)的，通過對(duì)網(wǎng)絡(luò)流量中的載荷數(shù)據(jù)進(jìn)行特征碼匹配，來(lái)獲取流量的分類。

基于DPI的分類技術(shù)雖然具有較高的準(zhǔn)確率，但也存在一些缺點(diǎn)：消耗較多的計(jì)算資源，對(duì)數(shù)據(jù)加密分類能力較弱，各類應(yīng)用特征碼提取和更新比較困難，對(duì)載荷數(shù)據(jù)的分析會(huì)帶來(lái)對(duì)用戶隱私權(quán)的侵犯。

DPI作為一種成熟的流量分類技術(shù)，在商業(yè)場(chǎng)合有著廣泛的應(yīng)用。目前很多學(xué)者試圖從硬件、架構(gòu)、多技術(shù)融合、數(shù)據(jù)處理方式等多個(gè)方面提高DPI技術(shù)的分類效率和速度。BUJLOW T等[5]通過建立真實(shí)標(biāo)簽的可信數(shù)據(jù)集，對(duì)流行的商業(yè)和開源DPI軟件進(jìn)行測(cè)試。在提升DPI性能方面，DE SENSI D等[6]提出了一種基于FastFlow庫(kù)的DPI框架，以更好地解決DPI對(duì)多核硬件平臺(tái)的支持。付文亮等[7]基于FPGA硬件和DPI技術(shù)進(jìn)行實(shí)時(shí)網(wǎng)絡(luò)流分類，取得了很好的效果。Alcock等[7]利用開源軟件庫(kù)Libprotoident，提出一種輕量級(jí)的DPI分類方案，只通過數(shù)據(jù)包載荷的前4字節(jié)進(jìn)行分類，在準(zhǔn)確率和性能上相對(duì)于其他基于DPI的開源軟件庫(kù)都有很大的優(yōu)勢(shì)。GRIMAUDO L等[8]基于DPI技術(shù)，采用層次化分類結(jié)構(gòu)，結(jié)合多種策略，對(duì)DPI進(jìn)行優(yōu)化。YEGANEH S H等[9]則采用一種加權(quán)“Term”的智能化表達(dá)式代替?zhèn)鹘y(tǒng)的正則表達(dá)式，類似Libprotoident的思想，并且只檢測(cè)一個(gè)流的前幾個(gè)字節(jié)，從而提高網(wǎng)絡(luò)流分類的效率。

1.3 基于流統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)方法

近年來(lái)，隨著人工智能技術(shù)的發(fā)展，越來(lái)越多的研究者開始利用機(jī)器學(xué)習(xí)算法來(lái)解決流量分類問題。利用機(jī)器學(xué)習(xí)解決流量分類問題，主要有兩個(gè)部分：訓(xùn)練數(shù)據(jù)集和機(jī)器學(xué)習(xí)算法。訓(xùn)練數(shù)據(jù)集的生成首先需要利用DPI工具、系統(tǒng)進(jìn)程監(jiān)控或人工的方法標(biāo)注訓(xùn)練樣本，得到樣本標(biāo)簽，然后從網(wǎng)絡(luò)流量中提取數(shù)據(jù)流的特征，最后利用訓(xùn)練集和機(jī)器學(xué)習(xí)算法得到分類器，即可用訓(xùn)練好的分類器對(duì)網(wǎng)絡(luò)流量進(jìn)行分類。早在2005年，MOORE A W等人[10]提出的248維特征，就從四層協(xié)議端口號(hào)、流的包數(shù)目、包大小、包之間的時(shí)間間隔等流屬性進(jìn)行特征提取，并對(duì)這些流屬性進(jìn)行傅里葉變換等計(jì)算，從不同視角提取特征，從而提高特征的維度和層次。文獻(xiàn)[11]對(duì)包級(jí)別和流級(jí)別兩種不同粒度的特征進(jìn)行融合，提出載荷和流統(tǒng)計(jì)信息相結(jié)合的流特征屬性，從而提高流分類的精度。

基于流統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)的流量分類方法主要有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩種。

(1)有監(jiān)督機(jī)器學(xué)習(xí)算法

有監(jiān)督機(jī)器學(xué)習(xí)算法在各個(gè)領(lǐng)域都有廣泛應(yīng)用，研究者們也將各種機(jī)器學(xué)習(xí)算法運(yùn)用到流量分類中。ESTE A等[12]采用SVM對(duì)互聯(lián)網(wǎng)TCP流量進(jìn)行分類，共使用了3個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，獲得了相當(dāng)高的精度。近年來(lái)，為提高大規(guī)模網(wǎng)絡(luò)流的分類效率，也有學(xué)者基于Hadoop、Spark分布式平臺(tái)提高SVM的處理性能[13-14]。文獻(xiàn)[15-16]使用C5.0決策樹對(duì)流量進(jìn)行分類，并且都是通過系統(tǒng)守護(hù)進(jìn)程監(jiān)視數(shù)據(jù)包與應(yīng)用程序之間的聯(lián)系，產(chǎn)生真實(shí)應(yīng)用標(biāo)簽來(lái)產(chǎn)生數(shù)據(jù)集，取得了很好的分類效果。文獻(xiàn)[17-18]將神經(jīng)網(wǎng)絡(luò)算法用與網(wǎng)絡(luò)流分類，對(duì)各種神經(jīng)網(wǎng)絡(luò)進(jìn)行了算法改進(jìn)和架構(gòu)改進(jìn)，取得了很好的效果。

(2)無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法

無(wú)監(jiān)督機(jī)器學(xué)習(xí)主要使用聚類分析方法，與有監(jiān)督的機(jī)器學(xué)習(xí)算法不同，在無(wú)監(jiān)督機(jī)器學(xué)習(xí)中，訓(xùn)練樣本無(wú)需標(biāo)注。文獻(xiàn)[19]使用高斯混合模型(GMM)利用數(shù)據(jù)包大小和方向進(jìn)行加密流量的分類。ZANDER S等[20]提出了基于AutoClass的無(wú)監(jiān)督網(wǎng)絡(luò)流量分類方法，是一種基于期望最大化(Expectation maximization，EM)算法的無(wú)監(jiān)督貝葉斯分類器。文獻(xiàn)[21-22]都將無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法用與流量分類領(lǐng)域，此類算法為處理未知流量提供了很好的解決思路。

1.4 基于用戶行為特征的流量分類技術(shù)

隨著流特征加密技術(shù)的涌現(xiàn)，給基于流統(tǒng)計(jì)特征進(jìn)行流量分類帶來(lái)了一定的局限性。近年來(lái)，研究人員開始利用主機(jī)不同的通信行為模式進(jìn)行網(wǎng)絡(luò)流量分類。文獻(xiàn)[23-24]提出了利用用戶連接模式、連接圖、網(wǎng)絡(luò)連接直徑等主機(jī)行為特征，對(duì)網(wǎng)絡(luò)流量進(jìn)行分析，開辟了分析網(wǎng)絡(luò)流量分類的新方法。基于行為特征的流量分類技術(shù)主要通過分析網(wǎng)絡(luò)協(xié)議和應(yīng)用的連接特性和行為模式上的固有特性，達(dá)到對(duì)不同流量進(jìn)行分類的目的。這種方法通常建模時(shí)間較長(zhǎng)，時(shí)空復(fù)雜度高，應(yīng)用有一定的局限性。

1.5 網(wǎng)絡(luò)流量分類技術(shù)優(yōu)缺點(diǎn)比較

表1對(duì)當(dāng)前主流的網(wǎng)絡(luò)流量分類技術(shù)的種類和各自特點(diǎn)和存在的缺點(diǎn)進(jìn)行了比較，以便在實(shí)際工程應(yīng)用中根據(jù)不同需求選擇合適的技術(shù)方案。

表1 主要網(wǎng)絡(luò)流量分類技術(shù)分類表

2 未來(lái)網(wǎng)絡(luò)SDN架構(gòu)下的流量分類

SDN對(duì)控制層面的集中，強(qiáng)化了對(duì)流量實(shí)施統(tǒng)一控制和管理的能力。基于SDN的流量分類對(duì)于進(jìn)一步拓展網(wǎng)絡(luò)的功能，實(shí)現(xiàn)網(wǎng)絡(luò)流量的精細(xì)化管理和精準(zhǔn)控制具有十分重要的意義，也得到了廣大學(xué)者的關(guān)注。在基于OpenFlow的SDN環(huán)境下，文獻(xiàn)[25]通過前N個(gè)數(shù)據(jù)包長(zhǎng)度、源目的IP、端口信息作為流特征，將C5.0決策樹算法運(yùn)用到SDN上進(jìn)行流量分類，但未能解決數(shù)據(jù)流隨時(shí)間發(fā)生變化的問題。文獻(xiàn)[26]通過采樣技術(shù)，利用OpenFlow的本地計(jì)數(shù)器實(shí)現(xiàn)流統(tǒng)計(jì)特征采集，但此方法采集流特征的實(shí)時(shí)性不強(qiáng)，限制了在流早期分類場(chǎng)景下的應(yīng)用。文獻(xiàn)[27]則利用DPI的方法來(lái)分類YouTube視頻流進(jìn)行分類，并通過QoS預(yù)留帶寬。文獻(xiàn)[28]設(shè)計(jì)了一個(gè)基于DPI和機(jī)器學(xué)習(xí)算法的混合流量分類器，但未考慮數(shù)據(jù)流隨時(shí)間發(fā)生變化的問題。

2.1 SDN環(huán)境下的流量分類和控制的特點(diǎn)

無(wú)論是在傳統(tǒng)網(wǎng)絡(luò)環(huán)境下還是在SDN網(wǎng)絡(luò)環(huán)境下，流量分類的對(duì)象一直是網(wǎng)絡(luò)流量本身，這一點(diǎn)始終沒有發(fā)生變化，因此能夠適用于傳統(tǒng)網(wǎng)絡(luò)下的流量分類技術(shù)、方法都可以用在SDN網(wǎng)絡(luò)環(huán)境下，但是作為新一代網(wǎng)絡(luò)的SDN，在體系結(jié)構(gòu)，運(yùn)行方式等方面都發(fā)生了很大的變化，因此基于SDN的流量分類在流量采集方式、流量特征提取、流量的控制管理等方面都發(fā)生了新的變化。

在SDN網(wǎng)絡(luò)環(huán)境中，控制層面邏輯業(yè)務(wù)的集中，使控制器對(duì)流量的控制能力大大加強(qiáng)，通過流表項(xiàng)就可以實(shí)現(xiàn)數(shù)據(jù)報(bào)文的轉(zhuǎn)發(fā)、丟棄和進(jìn)入隊(duì)列操作，其中進(jìn)入隊(duì)列操作就可以實(shí)現(xiàn)QoS功能。因此，如果能在流量建立的早期階段就能通過流量分類來(lái)感知流量業(yè)務(wù)類型，并根據(jù)業(yè)務(wù)需求進(jìn)行相應(yīng)的控制，就能在控制器完成流量采集、特征提取、流量分類和流量控制整個(gè)閉合的流量控制過程，從而極大地提高流量分類在SDN網(wǎng)絡(luò)環(huán)境下的應(yīng)用價(jià)值。

2.1.1流量獲取方式

在傳統(tǒng)網(wǎng)絡(luò)環(huán)境中，流量的獲取方式通常有兩個(gè)步驟：一是通過端口鏡像或者分光器等手段引出所關(guān)注的流量；二是通過流量捕獲設(shè)備獲得流量數(shù)據(jù)并進(jìn)行處理。流量捕獲設(shè)備大多是基于Libpcap的包捕獲機(jī)制，通過安裝數(shù)據(jù)包捕獲函數(shù)庫(kù)(Library of Packet Capture，Libpcap)來(lái)實(shí)現(xiàn)。這種流量獲取方式缺乏對(duì)數(shù)據(jù)進(jìn)行有效的過濾，只能全盤接收鏡像的所有流量，由于總帶寬受端口速率的限制，在高帶寬、大流量的場(chǎng)景下不可避免地存在丟包現(xiàn)象。

在基于OpenFlow的SDN網(wǎng)絡(luò)環(huán)境下，數(shù)據(jù)以流為單位進(jìn)行轉(zhuǎn)發(fā)，當(dāng)數(shù)據(jù)進(jìn)入交換機(jī)時(shí)，會(huì)根據(jù)匹配的流表項(xiàng)中規(guī)定的動(dòng)作對(duì)數(shù)據(jù)包進(jìn)行操作，若未匹配到流表項(xiàng)，則會(huì)將數(shù)據(jù)包以Packet_in的消息形式轉(zhuǎn)發(fā)到控制器，經(jīng)過控制器決策后，決定該數(shù)據(jù)包的操作并下發(fā)該流的流表項(xiàng)，更新交換機(jī)流表。由此可知，數(shù)據(jù)流開始的第一個(gè)數(shù)據(jù)包會(huì)被轉(zhuǎn)發(fā)到控制器中，后面的數(shù)據(jù)會(huì)根據(jù)控制器下發(fā)的流表項(xiàng)進(jìn)行操作，如果控制器在下發(fā)的流表項(xiàng)的動(dòng)作字段增加轉(zhuǎn)發(fā)到控制器，那么該流的后續(xù)數(shù)據(jù)包都會(huì)發(fā)送到控制器中，從而實(shí)現(xiàn)了網(wǎng)絡(luò)流量的采集。

但是，將所有數(shù)據(jù)轉(zhuǎn)發(fā)到控制器并不是OpenFlow協(xié)議設(shè)計(jì)的初衷，因?yàn)檫@樣會(huì)使控制器處理開銷大大增加而不堪重負(fù)，特別是在網(wǎng)絡(luò)流量大的網(wǎng)絡(luò)節(jié)點(diǎn)上，很容易因?yàn)榭刂破鞯谋罎⒍鴮?dǎo)致網(wǎng)絡(luò)癱瘓。如果只將網(wǎng)絡(luò)流的前幾個(gè)數(shù)據(jù)包轉(zhuǎn)發(fā)到控制器，這樣發(fā)送到控制器的流量將大大減少，在流量分類這個(gè)應(yīng)用場(chǎng)景下，這就要求控制器在只分析流的開始前N個(gè)數(shù)據(jù)包情況下，能夠完成流的分類工作，這也決定了SDN網(wǎng)絡(luò)環(huán)境下更適合進(jìn)行流量的早期分類。

2.1.2流統(tǒng)計(jì)特征提取

在傳統(tǒng)網(wǎng)絡(luò)環(huán)境中，數(shù)據(jù)流統(tǒng)計(jì)特征提取只有一種途徑，那就是先獲取流量，然后將流量按流進(jìn)行重組、排序，再對(duì)流中的每一個(gè)數(shù)據(jù)包進(jìn)行統(tǒng)計(jì)，從而得到流的統(tǒng)計(jì)信息。從上一節(jié)分析可知，在SDN控制器也可以通過這種方法得到流的統(tǒng)計(jì)信息，但是這種方法在流量大的場(chǎng)景下會(huì)極大地消耗控制器資源直至崩潰，因此用這種方法來(lái)提取數(shù)據(jù)流特征只適合轉(zhuǎn)發(fā)數(shù)據(jù)包數(shù)量不多的場(chǎng)景，比如流量的早期分類。在OpenFlow交換機(jī)流表中針對(duì)每個(gè)流表、流表項(xiàng)和每個(gè)交換機(jī)端口都有一組計(jì)數(shù)器。其中基于流的計(jì)數(shù)器有接收的數(shù)據(jù)包數(shù)、接收的字節(jié)數(shù)、秒級(jí)持續(xù)時(shí)間和納秒級(jí)持續(xù)時(shí)間。借助OpenFlow的Read-State消息，通過周期性地讀取這些計(jì)數(shù)器信息，然后利用這些采樣值，為提取數(shù)據(jù)流的統(tǒng)計(jì)信息提供了新的方法[26]。

假設(shè)以周期性C對(duì)SDN交換機(jī)的流本地計(jì)數(shù)器信息進(jìn)行n次采樣，得到n個(gè)流接收的字節(jié)數(shù)計(jì)數(shù)器數(shù)據(jù)記為B={b(1),b(2),…,b(n)}，則第t個(gè)周期內(nèi)流接收到的字節(jié)數(shù)為：

B(t)=b(t)-b(t-1)

(1)

得到n個(gè)流接收的數(shù)據(jù)包數(shù)計(jì)數(shù)器記為P={p(1),p(2),…,p(n)}，則第t個(gè)周期內(nèi)接收到的數(shù)據(jù)包數(shù)為：

P(t)=p(t)-p(t-1)

(2)

則第t個(gè)周期內(nèi)平均數(shù)據(jù)包大小為：

(3)

該第t個(gè)周期內(nèi)平均包到達(dá)時(shí)間間隔為：

(4)

以S(t)、T(t)作為基本量，進(jìn)一步計(jì)算它們的均值和方差，可以得到S(t)的均值和方差為：

(5)

(6)

可以得到T(t)的均值和方差為：

(7)

(8)

根據(jù)MOORE AW等人[10]的研究，對(duì)包時(shí)間間隔進(jìn)行離散傅里葉變換(Discrete Fourier Transform，DFT)可以得到在頻域上的一系列分量，這些分量作為流特征從一定程度上刻畫數(shù)據(jù)流在頻域內(nèi)的變化情況。式(9)是對(duì)包時(shí)間間隔進(jìn)行DFT的計(jì)算公式。

(9)

通過以上采樣數(shù)據(jù)計(jì)算，可以得到一系列關(guān)于流的統(tǒng)計(jì)特征。由于這些統(tǒng)計(jì)特征是依據(jù)采樣數(shù)據(jù)計(jì)算的，因此采樣周期C影響著統(tǒng)計(jì)數(shù)據(jù)與真實(shí)值之間的差異，同時(shí)，控制器發(fā)送Read-State消息對(duì)計(jì)數(shù)器進(jìn)行采樣的頻率也極大地影響控制器的性能。因此周期C的選擇要綜合考慮統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性和控制器性能之間的平衡，在取得可接受的數(shù)據(jù)準(zhǔn)確性的同時(shí)盡量減少對(duì)控制器的影響。

3 網(wǎng)絡(luò)流量分類領(lǐng)域主要面臨的挑戰(zhàn)

3.1 數(shù)據(jù)集的可信標(biāo)注

無(wú)論是用于訓(xùn)練機(jī)器學(xué)習(xí)算法分類器的訓(xùn)練數(shù)據(jù)集，還是作為評(píng)價(jià)各種分類器性能的測(cè)試數(shù)據(jù)集，對(duì)數(shù)據(jù)集進(jìn)行可信標(biāo)注都是不可或缺的，但仍然是一個(gè)尚未解決的問題。目前對(duì)網(wǎng)絡(luò)數(shù)據(jù)集的標(biāo)注一般采用兩種方法，即生成法和經(jīng)驗(yàn)法。經(jīng)驗(yàn)法是通過捕獲網(wǎng)絡(luò)數(shù)據(jù)包，并利用已有經(jīng)驗(yàn)，對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。很多研究者通過DPI工具L7-filter或nDPI等對(duì)數(shù)據(jù)包進(jìn)行標(biāo)注，就是運(yùn)用了經(jīng)驗(yàn)法。生成法是在一個(gè)受控環(huán)境或?qū)嶒?yàn)環(huán)境中部署目標(biāo)應(yīng)用，模擬各種運(yùn)行模式，運(yùn)行生成的日志即標(biāo)注為目標(biāo)運(yùn)用。如可信標(biāo)注工具GT(Ground Truth)，文獻(xiàn)[16]中提到的VBS系統(tǒng)和文獻(xiàn)[29]中運(yùn)行在移動(dòng)設(shè)備端的守護(hù)進(jìn)程，都是通過監(jiān)測(cè)網(wǎng)絡(luò)套接字的變化狀態(tài)來(lái)收集數(shù)據(jù)流對(duì)應(yīng)的應(yīng)用，進(jìn)行可信標(biāo)注。相比于經(jīng)驗(yàn)法，生成法難以真實(shí)反映真實(shí)的網(wǎng)絡(luò)環(huán)境，但是其環(huán)境可控，標(biāo)注可信，工作量也相對(duì)較少，已經(jīng)越來(lái)越得到研究者的認(rèn)可。

3.2 大規(guī)模實(shí)時(shí)分類的挑戰(zhàn)

在線流量分類不同于離線流量分類，特別是高速網(wǎng)絡(luò)環(huán)境下的在線流量分類，對(duì)特征提取速度和分類器效率提出了很高的要求，在線流量分類從工程實(shí)際角度出發(fā)，在數(shù)據(jù)流建立初期就進(jìn)行分類，為后續(xù)的服務(wù)質(zhì)量管理和流量安全管理提供了先決條件，在線流量分類的重要性不言而喻，從而吸引了大量學(xué)者進(jìn)行研究。

在流量的早期分類方面，ACETO G等[30]利用網(wǎng)絡(luò)流的第一個(gè)報(bào)文的載荷數(shù)據(jù)來(lái)進(jìn)行在線流量分類。BERNAILLE L等[31]利用網(wǎng)絡(luò)流建立初始階段的前n個(gè)數(shù)據(jù)包的大小和方向作為流特征，取得了較好的分類效果。彭建芬等[32]發(fā)現(xiàn)在網(wǎng)絡(luò)流建立初始階段的前幾個(gè)報(bào)文在大小、方向等特征上能夠提取流特征，用于在線流量分類。這些研究說(shuō)明了通過流的早期部分?jǐn)?shù)據(jù)包進(jìn)行流分類是可行的，提供了理論依據(jù)。在具體實(shí)現(xiàn)方面，文獻(xiàn)[33-34]從提升網(wǎng)絡(luò)流量處理性能角度對(duì)網(wǎng)絡(luò)流量的在線分類工作進(jìn)行改進(jìn)，以提高在線分類速度和效能。

實(shí)時(shí)性的要求包含兩個(gè)方面：快速的線上檢測(cè)、快速的模型更新。但由于網(wǎng)絡(luò)規(guī)模的日益增大，用戶規(guī)模的不斷增長(zhǎng)，傳統(tǒng)的機(jī)器學(xué)習(xí)方法在處理大規(guī)模網(wǎng)絡(luò)流量分類問題時(shí)，其分類準(zhǔn)確率與模型訓(xùn)練速率等通常難以取得平衡。僅靠使用更多的計(jì)算資源，無(wú)法滿足現(xiàn)實(shí)的發(fā)展，需要從算法方面進(jìn)行革新。

3.3 網(wǎng)絡(luò)流量快速演化的挑戰(zhàn)

網(wǎng)絡(luò)流量數(shù)據(jù)最突出的特點(diǎn)就是其隨時(shí)間快速演化，存在概念漂移的現(xiàn)象，并且不同地域、不同網(wǎng)絡(luò)環(huán)境的協(xié)議類型的分布也不一致。現(xiàn)有方法缺乏對(duì)數(shù)據(jù)流中概念漂移的深入研究。一方面，網(wǎng)絡(luò)數(shù)據(jù)流的演化特性，使其不能按照靜態(tài)數(shù)據(jù)的傳統(tǒng)方式多次反復(fù)讀取，并且需要對(duì)于增量數(shù)據(jù)能夠快速有效地更新模型。另一方面，還需要將不同地域、不同環(huán)境的網(wǎng)絡(luò)流量統(tǒng)一處理，以獲得良好的泛化能力。

4 結(jié)語(yǔ)

在移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等新事物新技術(shù)不斷發(fā)展的今天，流量分類出現(xiàn)了很多新情況，面臨眾多新的挑戰(zhàn)。

一是面對(duì)海量數(shù)據(jù)，傳統(tǒng)的單機(jī)處理模式已經(jīng)很難滿足計(jì)算要求，在這種情況下，利用Hadoop、Spark等并行處理技術(shù)和集群計(jì)算模式來(lái)處理實(shí)時(shí)網(wǎng)絡(luò)流已經(jīng)成為一種趨勢(shì)，得到很多學(xué)者的關(guān)注。

二是在線學(xué)習(xí)是近年來(lái)廣泛使用的一種解決大規(guī)模機(jī)器學(xué)習(xí)問題的方法。將在線學(xué)習(xí)算法用于實(shí)時(shí)流量分類也是當(dāng)前研究的一個(gè)方向。但是一般意義上的在線學(xué)習(xí)算法在使用中并不區(qū)分訓(xùn)練階段與測(cè)試階段，模型在對(duì)樣本進(jìn)行預(yù)測(cè)后，通過接收正確的樣本類別來(lái)決定是否更新模型。而網(wǎng)絡(luò)流量分類問題中，模型在對(duì)樣本進(jìn)行預(yù)測(cè)后無(wú)法接收真實(shí)的樣本類別。這就導(dǎo)致了在網(wǎng)絡(luò)流量分類應(yīng)用中，在線學(xué)習(xí)算法僅能運(yùn)用于模型的離線訓(xùn)練階段，無(wú)法實(shí)現(xiàn)模型的實(shí)時(shí)更新，使用在線算法的優(yōu)點(diǎn)是能大大縮短模型離線訓(xùn)練所需要的時(shí)間，以實(shí)現(xiàn)模型的快速更新。

三是未來(lái)網(wǎng)絡(luò)SDN控制層面的集中，對(duì)大型網(wǎng)絡(luò)的集中管控和統(tǒng)一策略具有很大的實(shí)用價(jià)值，特別是對(duì)于大規(guī)模網(wǎng)絡(luò)環(huán)境，其運(yùn)行機(jī)制的復(fù)雜度會(huì)大大增加，因此大規(guī)模復(fù)雜的SDN環(huán)境的流量分類問題值得進(jìn)一步研究。

[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC). 第40次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》.(2017-08-04) http://cnnic.cn/gywm/xwzx/rdxw/201708/t20170804_69449.htm.

[2] MCKEOWN N. Software-defined networking[J]. INFOCOM Keynote Talk, 2009.

[3] FEAMSTER N, REXFORD J, ZEGURD E. The road to SDN: an intellectual history of programmable networks[J]. ACM SIGCOMM Computer Communication Review, 2014, 44(2): 87-98.

[4] MADHUKAR A, WILLIAMSON C. A longitudinal study of P2P traffic classification[C]//14th IEEE International Symposium on Modeling, Analysis, and Simulation. IEEE, 2006: 179-188.

[6] DE SENSI D, DANELUTTO M, DERI L. DPI over commodity hardware: implementation of a scalable framework using fastflow[D]. University of Pisa, 2013.

[7] 付文亮, 嵩天, 周舟. RocketTC: 一個(gè)基于 FPGA 的高性能網(wǎng)絡(luò)流量分類架構(gòu)[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(2): 414-422.

[8] GRIMAUDO L, MELLIA M, BARALIS E. Hierarchical Learning for Fine Grained Internet Traffic Classification[C]//2012 8th International Wireless Communications and Mobile Computing Conference (IWCMC). IEEE, 2012: 463-468.

[9] YEGANEH S H, EFTEKHAR M, GANJALI Y,et al. CUTE: Traffic Classification Using Terms[C]//2012 21st International Conference on Computer Communications and Networks (ICCCN). IEEE, 2012: 1-9.

[10] MOOREA W, ZUEV D. Internet Traffic Classification Using Bayesian Analysis Techniques[C]//ACM SIGMETRICS Performance Evaluation Review. ACM, 2005, 33(1): 50-60.

[11] HJELMVIK E, JOHN W. Breaking and improving protocol obfuscation[R]. Chalmers University of Technology, 2010.

[12] ESTE A,GRINGOLI F, SALGARELLI L. Support vector machines for TCP traffic classification[J]. Computer Networks, 2009, 53(14): 2476-2490.

[13] D′ALESSANDRO V, PARK B, ROMANO L, et al. Scalable network traffic classification using distributed support vector machines[C]//2015 IEEE 8th International Conference on Cloud Computing. IEEE, 2015: 1008-1012.

[14] 劉澤燊, 潘志松. 基于 Spark 的大規(guī)模網(wǎng)絡(luò)流量分類研究[J]. 計(jì)算機(jī)時(shí)代, 2016 (4): 1-5.

[15] BUJLOW T, RIAZ T, PEDERSEN J M. Classification of HTTP Traffic Based on C5.0 Machine Learning Algorithm[C]// Computers and Communications (ISCC). IEEE, 2012: 882-887.

[16] QAZI Z A, LEE J, JIN T, et al. Application-awareness in SDN[J]. ACM SIGCOMM Computer Communication Review, 2013, 43(4): 487-488.

[17] AKILANDESWARI V, SHALINIE S M. Probabilistic neural network based attack traffic classification[C]//2012 Fourth International Conference on Advanced Computing (ICoAC). IEEE, 2012: 1-8.

[18] SINGH K,AGRAWAL S. Internet traffic classification using RBF neural network[C]//International Conference on Communication and Computing Technologies (ICCCT-2011), Jalandhar, India, 2011: 39-43.

[19] BERNAILLE L, TEIXEIRA R. Early recognition of encrypted applications[C]//International Conference on Passive and Active Network Measurement. Springer Berlin Heidelberg, 2007: 165-175.

[20] ZANDER S, NGUYEN T,ARMITAGE G. Automated traffic classification and application identification using machine learning[C]//The IEEE Conference on Local Computer Networks 30th Anniversary (LCN'05) l. IEEE, 2005: 250-257.

[21] YANG C, WANG F, HUANG B. Internet traffic classification usingdbscan[C]// Information Engineering, 2009. ICIE'09. IEEE, 2009, 2: 163-166.

[22] FINAMORE A, MELLIA M, MEO M. Mining Unclassified Traffic Using Automatic Clustering Techniques[C]// International Conference on Traffic Monitoring and Analysis. Springer-Verlag, 2011:150-163.

[23] CONSTANTINOU F, MAVROMMATIS P. Identifying known and unknown peer-to-peer traffic[C]//Fifth IEEE International Symposium on Network Computing and Applications (NCA'06). IEEE, 2006: 93-102.

[24] 張震, 汪斌強(qiáng), 陳鴻昶, 等. 互聯(lián)網(wǎng)中基于用戶連接圖的流量分類機(jī)制[J]. 電子與信息學(xué)報(bào), 2013, 35(4): 958-964.

[25] QAZI Z A, LEE J, JIN T, et al. Application-awareness in SDN[J]. ACM SIGCOMM Computer Communication Review, 2013, 43(4): 487-488.

[26] DA SILVA A S, MACHADO CC, BISOL R V, et al. Identification and selection of flow features for accurate traffic classification in SDN[C]// Network Computing and Applications (NCA). IEEE, 2015: 134-141.

[27] JARSCHEL M, WAMSER F, HOHN T, et al. SDN-based application-aware networking on the example of youtube video streaming[C]//2013 Second European Workshop on Software Defined Networks. IEEE, 2013: 87-92.

[28] LI Y, LI J.MultiClassifier: A combination of DPI and ML for application-layer classification in SDN[C]// Systems and Informatics (ICSAI). IEEE, 2014: 682-686.

[29] Volunteer-Based System for Research on the Internet, 2012. [Online]. Available:http://vbsi.sourceforge.net/.

[30] ACETO G, DAINOTTI A, DE DONATO W, et al. PortLoad: taking the best of two worlds in traffic classification[C]//INFOCOM IEEE Conference on Computer Communications Workshops, 2010. IEEE, 2010: 1-5.

[31] BERNAILLE L, TEIXEIRA R, SALAMATIAN K. Early application identification[C]//Proceedings of the 2006 ACM CoNEXT conference. ACM, 2006(6): 1-12.

[32] 彭建芬, 周亞建, 王樅, 等. TCP 流量早期分類方法[J]. 應(yīng)用科學(xué)學(xué)報(bào), 2011, 29(1): 73-77.

[33] ALSABAH M, BAUER K, GOLDBERG I. Enhancing Tor's Performance Using Real-time Traffic Classification[C]//Proceedings of The 2012 ACM Conference on Computer and Communications Security. ACM, 2012: 73-84.

[34] SZAB? G, G?DOR I, VERES A, et al. Traffic classification over Gbit speed with commodity hardware[J]. IEEE Journal of Communications Software and Systems, 2010, 5(3): 93-100.