

【摘 要】高效的網絡流量分類是實現網絡管理、流量控制以及安全檢測的重要環節。詳細介紹了現有的網絡流量特征選擇方法和分類方法的國內外研究現狀,在對比各種方法優缺點的基礎上,指出半監督學習方法在網絡流量特征選擇和分類方面的優勢,同時,總結了半監督學習方法在網絡流量分類領域亟待解決的問題。
【關鍵詞】網絡流量 特征選擇 分類 半監督學習
【中圖分類號】G【文獻標識碼】A
【文章編號】0450-9889(2013)10C-0190-03
網絡的持續發展與變化,導致Internet數據流量持續增長,應用屬性動態變化,應用類型多樣化。政府、企業和個人用戶每天都會產生成千上萬條不同的網絡應用流量,這給網絡運營和管理帶來巨大的機遇,也帶來前所未有的挑戰。視頻、P2P、游戲、聊天、商務交易等各種應用不斷涌現,造成新興應用層出不窮、帶寬消耗急劇增加、安全問題日益增多,如何為用戶提供一個安全、可靠和高效的網絡環境,是當前亟待解決的關鍵問題。網絡流量分類是實現網絡可控性的基礎技術,在網絡管理、服務質量保障和網絡安全等領域都有應用。但隨著網絡的發展,網絡速度不斷提高,新型的網絡應用和技術不斷出現,對網絡流量分類技術提出了更高的要求。
一、網絡流量的定義
網絡中存在的“流”是指在一個特定時間段內,一個節點(可以是計算機、路由器或者服務器等網絡設備)收到或發送的具有相同五元組(源IP地址,目的IP地址,源端口號,目的端口號,協議類型)的單向數據包集合。只要數據包的上述五個要素中有一個不相同,它們就不屬于同一條流。在流的定義的基礎上,網絡流量分類是指:對流按照其應用層的應用類型(如FTP,MAIL,WWW,P2P等),將網絡中存在的TCP流或UDP流進行分類。對網絡流量分類的研究主要是網絡流量特征選擇和分類方法兩方面。
二、網絡流量特征選擇方法研究現狀
特征選擇是從原始特征集中選取有助于分類決策特征子集以使特定的評價標準最優的過程。網絡流量數據維數過高和訓練樣本不足的矛盾會導致一些學習算法出現“過擬合”現象,甚至面臨“維數災難”。一個高效的特征選擇算法對數據的分析十分重要,它通過剔除大量網絡流量特征中冗余的、有噪聲的特征,降低特征維數,從而達到減少分類器的建模時間,提高分類器識別率的目的。面對不同的網絡流量實際問題,一方面,高維的原始數據直接影響分類器訓練時間,可通過特征選擇來降維,平衡訓練時間和分類精度的矛盾;另一方面,大量無關或冗余的特征直接影響分類器的設計,可通過特征選擇來去掉無效的特征,提高分類器泛化性。特征選擇技術有助于增強分類系統的速度、準確率和可理解性,因此,信息充分、低冗余、低噪聲的特征子集是設計并優化分類器性能的前提條件。
2005年,Zander S等人提出基于統計特征的機器學習流量分類框架,采用了序列前向的特征選擇方法(SFS)獲取最佳的流特征集,分類精度達到87%,但用于實驗的流的數量和應用類型有限。2006年,Williams N等人采用五種經典的機器學習算法,比較特征選擇分別采用最佳搜索、貪婪搜索策略、前向和后向搜索方向下對分類性能的影響。2007年,Yang Yue-xiang根據經驗選取了12個對分類最有效的流統計特征用于SVM流量分類,而未用算法進行特征選擇,導致某些類型的流量精度偏低。2008年,Hyunchul Kim在基于filter型特征選擇模型下,采用最佳優先搜索策略來選取流統計學特征。HUANG等人將粒子群算法用于特征搜索,但粒子被過多束縛,容易導致局部最優。2009年,Li等人利用遺傳算法進行特征屬性選擇,搜索能力強,對求解大規模復雜問題具有較好的適應性,但算法容易收斂過早。2010年,Xu等人就特征產生及特征選擇對分類的速度及精度的影響進行了詳細分析。2011年,Pereira提出了一種新的基于屬性相關性的數據流特征選擇算法,通過曲線擬合趨勢相關性屬性進行特征選擇,一定程度上克服了傳統方法的局限性,但仍然存在著計算量大,消耗時間較長的不足。2012年,Wang以流的統計學特征為依據,提出了一種基于filter和wrapper的組合式特征選擇,獲得識別P2P的最優流特征子集,但該方法的通用性有待提高。
目前,各種新的搜索機制和評價標準如支持向量機、馬爾可夫、粗糙集、神經網絡等方法被廣泛應用于改進現有的特征選擇算法,使該領域的研究呈現多樣化趨勢。流量樣本中是否含有監督信息是特征選擇算法分類的標準,它可歸類為有監督、無監督和半監督特征選擇流量分類方法三大類。有監督的流量特征選擇方法使用如類標記、成對約束等有監督信息進行特征約簡;無監督的流量特征選擇方法根據大量無標記樣本特征間的相似性來進行特征選擇;而半監督的流量特征選擇方法是同時充分利用少量有標記和大量無標記樣本信息,選擇候選特征中有價值的特征。
三、網絡流量分類方法研究現狀
國內外學者從不同角度對網絡流量分類方法進行了研究,大致可以分為四大類:
(一)基于端口號匹配的分類方法
基于端口號匹配的分類方法是根據數據包包頭中的端口號來區分不同的網絡應用類型。在國際互聯網代理成員管理局(IANA)中進行了注冊的應用層協議都有著對應的端口號,其中端口號0-1023被稱為公認端口號,每一個公認端口都對應著一個常用的應用層協議。基于端口號匹配的分類方法,就是通過分析數據包中傳輸層的端口號,再將其與公認端口號進行匹配確定其應用層協議類別。新型網絡應用(如P2P、被動FTP等)都普遍采用隨機端口(端口范圍在1024-65535)技術進行數據傳輸,使得這種方法不夠準確。Moore等人通過實驗發現,該方法容易受到干擾,在最佳情況下也僅有31%的準確率。但是基于端口號匹配的分類方法由于只需要獲取數據包的端口號,而不需要進行復雜的計算分析,實現簡單且分類速度快。該方法應用在高速網絡環境時,能夠快速并很好地識別公認端口號對應的應用層協議類別,因此仍然具有一定的實際使用價值。而且數據包的端口號是流的重要組成部分,在其它網絡流量分類方法中經常得到使用,仍然起著重要的作用。
(二)基于特征字段分析的分類方法
基于特征字段分析的分類方法是基于應用所產生的數據包表現出的特征來進行識別的。在識別其應用層協議類型的過程中,其采用特征字段分析的方法,而該方法的主要手段是檢查數據包的內容。該方法需要對待識別的應用層協議進行深入的分析,找出其在網絡傳輸和交互過程中表現出來的與其它應用層協議不同的特征字符串和特征字段。在對網絡流量進行分類時,通過在一條流的數據包中去識別這些特征,就能夠確定其所屬的應用協議類型,從而對一條未知應用類型的流進行應用層協議標識。它需要通過解析數據包并獲得特征字段,其分類準確性較高。Moore等人設計了一個由多個子方法分析數據包內容來進行分類的方法,實驗表明其分類準確率極高(大于99.99%)。但隨著網絡技術的發展,不少應用采用了負載加密技術,無法有效地解析數據包內容,因而無法提取出特征字段,使該方法的有效性受到限制。另一方面,隨著新型應用的不斷涌現,該方法需要分析新的未知應用類型的應用層協議,并提取出相應的特征字段來對網絡流量進行匹配,這一過程需要大量的計算和存儲能力,因此在實時性方面也不能適應高速網絡流量分類的要求。
(三)基于傳輸層行為模式的分類方法
不同的網絡應用在網絡傳輸和交互的過程中,會在傳輸層表現出互不相同的行為特征。因此利用已知的網絡應用的行為特征與未知流量所表現出的行為特征進行匹配,就可以分類其網絡流量應用類型,這就是基于傳輸層行為模式的分類方法的原理。由于該方法具有無需解析數據包負載內容,不需要采集端口號和特征字段等信息,額外開銷小等優點,因此基于傳輸層行為模式的分類方法有不少的研究。其中最著名的方法是Karagiannis提出的BLINC(Blind Classification)方法,BLINC方法對網絡流量所表現出的傳輸層行為從不同的方面(社會層、功能層和應用層)進行分析,構建出傳輸層行為模式與應用協議的匹配表,再通過匹配表來對未知流量進行分類,文獻中的實驗表明,使用BLINC方法可以識別出實驗流量數據中的80%~90%,且準確率高于95%。但基于傳輸層行為模式的分類方法存在以下缺陷:在數據包首部被加密的情況下,該方法無法使用;分類準確率受網絡地址轉換的影響;對流量的分類不夠精細。
(四)基于流統計特征的機器學習分類方法
2005年,Moore等人研究流量在網絡中的傳輸過程,通過一系列的測量和處理,得出了249個統計學特征用于對不同的流進行區分,這就是流統計特征,而他們提出的流量的上述統計學特征也成為經典的流屬性統計特征集合。基于流統計特征的機器學習分類方法根據網絡流量在網絡傳輸時表現出的流屬性的統計信息,利用已知應用層協議類型的網絡流量樣本集及其流統計特征,通過機器學習方法訓練得到分類模型,再用分類模型對未知應用層協議類型的網絡流量進行分類。
由于該方法使用流統計特征進行網絡流量分類,所以不會被隨機端口、數據包加密和網絡地址轉換等技術影響,其分類精度高、適用范圍廣,比前三種網絡流量分類方法更優。
(五)各種流量分類方法比較
表1對上述四種網絡流量分類方法從分類準確率、優缺點等方面進行比較。
從表1的對比可看出,基于端口號匹配的分類方法雖然識別范圍有限,但其開銷小,適合應用于高速網絡環境,可以將端口號匹配與其它分類方法組合使用,首先通過端口號匹配識別出使用公認端口號的應用流量,再采用別的分類方法對無法識別的流量進行進一步的識別分類。基于特征字段分析的分類方法分類準確率極高,但由于無法識別加密流量,且計算和存儲開銷大,所以完全不適合用于高速網絡環境下的網絡流量分類。基于傳輸層行為模式的分類方法應用于高速網絡環境下,雖然有其開銷小的優點,但是其分類性能受到目前互聯網上普遍使用的數據包加密和網絡地址轉換技術的影響,因此并不是非常合適。基于流統計特征的機器學習分類方法整體分類性能較好,分類算法選擇面大,應用范圍廣,但還需要對其在樣本處理和計算開銷方面進一步改進,以更好地適應高速網絡環境下的網絡流量分類,這也是未來網絡流量分類研究的發展方向。
四、網絡流量分類的發展趨勢及挑戰
目前,基于流統計特征的機器學習方法主要分為有監督的機器學習分類方法,無監督的機器學習分類方法和將上述兩者相結合的半監督方法。在信息化技術的帶動下,機器學習的理論與方法在實際生活的應用越來越廣泛,相關問題也日益凸顯:基于監督學習的方法如貝葉斯、決策樹等,只對有標記樣本進行建模,準確率較高,但不能發現未知類別;基于無監督的學習方法如K-means聚類,只對無標記樣本進行建模,分類效率較好,但在可擴展性方面有明顯的局限。半監督學習因其能同時利用有標記和無標記樣本進行特征選擇和流量分類,避免了有監督學習和無監督學習的不足,因而實現了長足的發展。
半監督學習研究涉及的范圍十分廣泛,它主要關注如何在訓練樣本包含有價值信息缺乏的情況下,提高網絡流量分類算法的魯棒性、健壯性和可擴展性。一方面,改進現有的有監督和無監督網絡流量分類算法,增強其對已標記和無標記樣本信息的利用能力;另一方面,引入數學方法,從多角度減少半監督學習方法的時間復雜度和空間復雜度。由于半監督學習對復雜環境具有較好的適應性,其研究對象從單純的半監督數據訓練,拓展到半監督高維特征降維、海量文本分類和大規模流形分析等,在發現新的應用類型,提高分類器的泛化能力方面進行了有效的探索,這為基于半監督學習的網絡流量特征選擇和分類方法的研究奠定了堅實的基礎。
盡管半監督學習在網絡流量特征選擇和分類方法方面有其他方法無法比擬的優勢,但基于半監督學習的流量分類方法研究還處在研究階段,在實際高速大規模的網絡流量分類中,仍有幾類問題需進一步研究:
一是選擇有利于高效訓練分類器的無噪聲、信息含量高的訓練樣本,充分挖掘流量中隱藏的特征;二是改進和拓展有監督和無監督學習算法,當遇到新應用協議,能自動獲取其應用的流量特征,提高其對半監督學習的可擴展性;三是構建真實網絡環境下的協同多分類器系統,多角度統計和歸類網絡流行為模式,提升其對大規模網絡環境的適應性;四是在半監督學習中融合數據挖掘與模式識別方法中的各種數據處理技巧和分類技術,重點考慮其與機器學習算法的結合點,提高流量分類器的分類有效性。
【參考文獻】
[1]Zhang Hongli, Lu Gang,Qassrawi Mahmoud Tetal. Feature selection for optimizing traffic classification [J].Computer communications.2012,35(12)
[2]Zander S,Nguyen T,Armitage G.Self-learning IP traffic classification based on statistical flow characteristics[C].Proceedings of the 6th International Workshop on Passive and Active Network Measurement. Boston,Spinger.2005
[3]Yang Yuexiang,Wang Ruiwang,Liu Yang,et al. Solving P2P traffic identification problems via optimized support vector machines[C].Proceedings of IEEE /ACS International Conference on Computer Systems and Applications (aiccsa),Amman,IEEE.2007
[4]Hyunchul Kim,KC Claffy,Marina Fomenkov,et al. Internet traffic classification demystified: myths, caveats,and the best practices [C].Proceedings of the 2008 ACM CoNEXT Conference,Madrid, ACM.2008
[5]HUANG Chenglung, DUN Jianfan.A distributed PSO-SVM hybrid system with feature selection and parameter optimization [J].Applied Soft Computing Journal,2008,8(4)
[6]LI Yongming,ZHANG Sujuan,ZENG Xiaoping. Research of multi-population agent genetic algorithm for feature selection [J].Expert Systems with Applications,2009,36(7)
[7]Xu He,Wang Suoping,Wang Ruchuan.Research of P2P traffic identification based on naive bayes and decision tables combination algorithm[C]. Proceeding of 2010 7th International Conference on Fuzzy Systems and Knowledge Discovery. Yantai, IEEE.2010
[8]Pereira Rafael B,Plastino Alexandre, Zadrozny Bianca. Lazy attribute selection: Choosing attributes at classification time[J]. Intelligent Data Analysis.2011,15(5)
[9]Wang, Zhenling.A novel peer to peer traffic identification approach based on hybrid feature selection algorithm[J].International Journal of Digital Content Technology and its Applications, 2012,6(8)
[10]Li Wei, CANINI M, MOORE A W. Efficient application identification and the temporal and spatial stability of classification schema [J].Computer Networks, 2009,53(6)
[11]Moore A W, Papagiannaki K. Toward the accurate identification of network applications [J].Computer Science, 2005
[12]Karagiannis T., Papagiannaki K., Faloutsos M.. BLINC: Multilevel traffic classification in the dark[C]. In: ACM SIGCOMM.Philadelphia: ACM, 2005
[13]Zuev D., Moore A.W.. Traffic classification using a statistical approach[C]. Proceedings of the 6th International Workshop on Passive and Active Network Measurement. Heidelberg:Springer,2005
(責編 丁 夢)