許朝暉
摘要:當(dāng)今互聯(lián)網(wǎng)發(fā)展迅速,網(wǎng)絡(luò)應(yīng)用涉及到人們?nèi)粘I钪懈鱾€(gè)領(lǐng)域,導(dǎo)致網(wǎng)絡(luò)管理成為目前的重大難題。網(wǎng)絡(luò)流量分類(lèi)在網(wǎng)絡(luò)管理方面具有至關(guān)重要的作用,不僅提高網(wǎng)絡(luò)質(zhì)量,同時(shí)保障網(wǎng)絡(luò)安全正常運(yùn)營(yíng)。
關(guān)鍵詞:網(wǎng)絡(luò)管理;流量分類(lèi);網(wǎng)絡(luò)安全
中圖分類(lèi)號(hào):TP393.08 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)05-0052-02
0概述
近年來(lái),針對(duì)各種類(lèi)型的網(wǎng)絡(luò)流量異常檢測(cè)國(guó)內(nèi)外學(xué)者發(fā)表了許多論文及方法。參考Ahmed等的研究成果,提出了基于端口匹配、基于負(fù)責(zé)匹配、基于主機(jī)、基于機(jī)器學(xué)習(xí)等四類(lèi)方法。但最為關(guān)鍵的分類(lèi)技術(shù)是基于網(wǎng)絡(luò)流量分類(lèi)。網(wǎng)絡(luò)流量分類(lèi)技術(shù)是網(wǎng)絡(luò)安全及管理的基礎(chǔ),通過(guò)將流量分類(lèi)至規(guī)定的應(yīng)用類(lèi)型。因而網(wǎng)絡(luò)流量分類(lèi)技術(shù)在目前網(wǎng)絡(luò)安全及管理領(lǐng)域具有決定性作用。網(wǎng)絡(luò)流量分類(lèi)技術(shù):
1基于端口匹配分類(lèi)方法
基于端口匹配分類(lèi)方法通過(guò)獲取端口信息并將端口號(hào)映射對(duì)不同應(yīng)用分類(lèi),這種方法是目前最快最簡(jiǎn)單的流量分類(lèi)方法。通用端口號(hào)0-I1023是由互聯(lián)網(wǎng)地址編碼機(jī)構(gòu)分配,例如:端口80為HTTP協(xié)議應(yīng)用端口,端口20.21是FTP通信,25、110號(hào)端口是常用電子郵箱協(xié)議端口,此外49152-65535為動(dòng)態(tài)端口。
基于端口匹配分類(lèi)方法優(yōu)勢(shì)在于效率快,計(jì)算復(fù)雜度低。早期研究者只需要要提取數(shù)據(jù)包頭相關(guān)聯(lián)的特定端口號(hào),并和LANA庫(kù)中TCP/lP端口號(hào)匹配。但缺點(diǎn)在于目前網(wǎng)絡(luò)技術(shù)發(fā)展迅速,網(wǎng)絡(luò)應(yīng)用數(shù)目增多,混合端口、偽裝端口的出現(xiàn)以及其他應(yīng)用,該類(lèi)方法降低了準(zhǔn)確性和可靠性。目前]Pv4技術(shù)逐漸轉(zhuǎn)型lPvl6,越來(lái)越多的單位將多個(gè)內(nèi)部地址轉(zhuǎn)變?yōu)橐粋€(gè)外部公網(wǎng)地址,端口地址的轉(zhuǎn)變(NAT)也大大降低了該類(lèi)方法的有效性。面臨當(dāng)今開(kāi)放性的互聯(lián)網(wǎng)時(shí)代,用戶個(gè)人隱私和大量重要數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò)上,加密技術(shù)受到了人們的關(guān)注。由于原始數(shù)據(jù)轉(zhuǎn)變成隨機(jī)模式,使解密過(guò)程變得更為困難導(dǎo)致無(wú)法對(duì)流量特征進(jìn)行識(shí)別。Petr Velan等人總結(jié)了有關(guān)加基于特征和負(fù)載的密流量的分類(lèi)方法。
Thomas Karagiannis等人研究表明基于端口匹配的分類(lèi)方法使用隨機(jī)端口和偽裝端口準(zhǔn)確性大幅度降低,盡管基于端口匹配分類(lèi)方法針對(duì)目前P2P應(yīng)用準(zhǔn)確性較低,但是效率快計(jì)算復(fù)雜度低,方便實(shí)現(xiàn)是這種分類(lèi)方法最大的優(yōu)勢(shì)。
2基于深度包檢測(cè)的分類(lèi)方法
基于深度包檢測(cè)的分類(lèi)方法出現(xiàn)于上世紀(jì)90年代與基于端口匹配分類(lèi)方法不同,不僅擺脫了非標(biāo)準(zhǔn)端口和隨機(jī)端口的問(wèn)題依賴,而且可以準(zhǔn)確有效對(duì)具體類(lèi)型進(jìn)行分類(lèi)識(shí)別。主要通過(guò)比較數(shù)據(jù)包和特征字符串,檢測(cè)應(yīng)用層有效負(fù)載內(nèi)容來(lái)對(duì)流量進(jìn)行分類(lèi),這種分類(lèi)方式基于正則表達(dá)式匹配的方式。很多文獻(xiàn)中又將這些字符串稱為指紋,字符串主要存儲(chǔ)在預(yù)定義的數(shù)據(jù)包中,因此也稱預(yù)定義的字符串叫指紋庫(kù)。
此外,深度包檢測(cè)方法與基于端口匹配類(lèi)方法相比針對(duì)P2P應(yīng)用識(shí)別準(zhǔn)確性要更優(yōu)。Subhabrata send等人發(fā)現(xiàn)識(shí)別P2P應(yīng)用可以通過(guò)應(yīng)用層識(shí)別特征字段,并且在性能上面用五種P2P協(xié)議檢查對(duì)比發(fā)現(xiàn):此類(lèi)方法具有擴(kuò)展性,能夠?qū)崿F(xiàn)在絕大部分條件下小于5%的FP和FN。
深度包檢測(cè)方法缺點(diǎn)主要表現(xiàn)在以下四個(gè)方面:
(1)計(jì)算復(fù)雜度較高。在處理大量數(shù)據(jù)檢測(cè)是需要對(duì)字節(jié)進(jìn)行逐個(gè)匹配,因此占據(jù)大量計(jì)算時(shí)間。面臨現(xiàn)如今高速網(wǎng)絡(luò)的時(shí)代,檢測(cè)速度已經(jīng)無(wú)法滿足實(shí)時(shí)性需要。
(2)無(wú)法處理加密流量。目前開(kāi)放性的互聯(lián)網(wǎng)時(shí)代,用戶個(gè)人隱私和大量重要數(shù)據(jù)通過(guò)加密或者協(xié)議封裝存儲(chǔ)在網(wǎng)絡(luò)上。這種字符串匹配和正則表達(dá)式匹配的方式已經(jīng)無(wú)法檢測(cè)。
(3)獲取指紋流量難度變得越來(lái)越困難。流量指紋需要通過(guò)匹配指紋庫(kù),由于匹配流量的唯一方式就是它,因而對(duì)于網(wǎng)絡(luò)管理來(lái)說(shuō)每出現(xiàn)新的流量就需要提取并添加已經(jīng)變成了非常困難的任務(wù)。
(4)面臨未知流量。因?yàn)樯疃劝鼨z測(cè)方法是一類(lèi)匹配指紋庫(kù)的方法,一旦出現(xiàn)指紋庫(kù)未發(fā)現(xiàn)的指紋,這類(lèi)方法就無(wú)計(jì)可施。從而引發(fā)現(xiàn)如今在網(wǎng)絡(luò)攻擊領(lǐng)域類(lèi)突出的“Oday”攻擊事件,由于目前很多檢測(cè)系統(tǒng)是基于指紋匹配分類(lèi)方法,攻擊者依靠著這類(lèi)方法的局限性:無(wú)法對(duì)未知指紋進(jìn)行識(shí)別攔截,繞過(guò)入侵檢測(cè)系統(tǒng)攻擊主機(jī)。
3基于行為特征的分類(lèi)方法
基于行為特征的分類(lèi)方法是一類(lèi)不基于端口和負(fù)載的分類(lèi)方法,通過(guò)解析行為特征識(shí)別應(yīng)用從而實(shí)現(xiàn)分類(lèi)識(shí)別。所謂的行為特征指的是類(lèi)似于通信主機(jī)使用的傳輸層協(xié)議在一段時(shí)間間隔內(nèi)產(chǎn)生的流量行為模式,Karagiannis T在文獻(xiàn)[2]中提出后BLlNC分類(lèi)方法。該方法主要通過(guò)收集與主機(jī)產(chǎn)生反映傳輸層行為的信息并解析,再將一個(gè)或多個(gè)應(yīng)用程序與主機(jī)聯(lián)系,產(chǎn)生對(duì)流量進(jìn)行間接分類(lèi)的結(jié)果。從Karagiannis T提出的結(jié)果數(shù)據(jù)報(bào)告中發(fā)現(xiàn),使用該類(lèi)分類(lèi)方法可以將接近80%甚至90%的流量進(jìn)行分類(lèi),并且可以保證準(zhǔn)確性能夠達(dá)到95%以上。基于Karagiannis的研究結(jié)果,熊剛等人在此基礎(chǔ)對(duì)主機(jī)行為管理提出加密P2P流量實(shí)時(shí)分類(lèi)方法。最后的實(shí)驗(yàn)數(shù)據(jù)表明,在流量分類(lèi)的流量及準(zhǔn)確性上與Karagiannis T的研究結(jié)果比較都是優(yōu)于之前的實(shí)驗(yàn)結(jié)果,同時(shí)優(yōu)化實(shí)驗(yàn)過(guò)程使計(jì)算更優(yōu),性能更高。
4基于機(jī)器學(xué)習(xí)的分類(lèi)方法
有關(guān)機(jī)器學(xué)習(xí)相關(guān)技術(shù)理念是始于上世紀(jì)90年代Frank J提出的當(dāng)前人工智能與入侵檢測(cè)與未來(lái)的發(fā)展方向,這是機(jī)器學(xué)習(xí)技術(shù)在網(wǎng)絡(luò)領(lǐng)域的首次運(yùn)用。基于機(jī)器學(xué)習(xí)的分類(lèi)方法原理是不同的應(yīng)用類(lèi)型取決于傳輸層的特征流識(shí)別,從而分為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩大類(lèi)。監(jiān)督學(xué)習(xí)通過(guò)與訓(xùn)練集樣本建立網(wǎng)絡(luò)流特征關(guān)系對(duì)標(biāo)記的樣本數(shù)據(jù)進(jìn)行流量分類(lèi),以貝葉斯、SVM、C4.5決策樹(shù)、K近鄰為代表。而無(wú)監(jiān)督學(xué)習(xí)的典型檢測(cè)方法是聚類(lèi),建立分類(lèi)模型然后基于分類(lèi)模型對(duì)新樣本分類(lèi)。該類(lèi)方法無(wú)需標(biāo)記數(shù)據(jù)根據(jù)相似性來(lái)分類(lèi)。最為常見(jiàn)的聚類(lèi)算法可以分為常規(guī)聚類(lèi)和協(xié)同聚類(lèi):K Means、DBSCAN和AutoClass。Jeffrey Erman等人為了比較這三種聚類(lèi)算法更優(yōu),通過(guò)收集兩所大學(xué)公共網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行驗(yàn)證,最終實(shí)驗(yàn)結(jié)果表明AutoClass聚類(lèi)算法準(zhǔn)確性更高更優(yōu)。
一種Tom Auld等人提出流量分類(lèi)器無(wú)須目標(biāo)源、主機(jī)地址或端口信息基于貝葉斯神經(jīng)網(wǎng)絡(luò),通過(guò)對(duì)當(dāng)天的流量分類(lèi)分析發(fā)現(xiàn)準(zhǔn)確率能夠達(dá)到99%。ID3和C42.5是決策樹(shù)算法的典型代表,在一篇關(guān)于基于c42.5決策樹(shù)的網(wǎng)絡(luò)流量分類(lèi)研究中表明:利用C42.5決策樹(shù)網(wǎng)絡(luò)流量方法與穩(wěn)定性較高的樸素貝葉斯方法相比較更適合處理大規(guī)模流量分類(lèi)。實(shí)驗(yàn)內(nèi)容是通過(guò)訓(xùn)練后的數(shù)據(jù)進(jìn)行重新構(gòu)建分類(lèi)模型,然后對(duì)未知網(wǎng)絡(luò)流樣本進(jìn)行匹配分類(lèi)模型,從結(jié)果數(shù)據(jù)顯示C42.5決策樹(shù)網(wǎng)絡(luò)流量方法更具優(yōu)勢(shì)。
與經(jīng)典機(jī)器學(xué)習(xí)分類(lèi)方法比較,支持向量機(jī)流量分類(lèi)方法具有更高準(zhǔn)確性。支持向量機(jī)sVM分類(lèi)方法是一種將正負(fù)樣本之間最大化分隔平面的流量分類(lèi)方法。近幾年關(guān)于基TSVM的網(wǎng)絡(luò)流量檢測(cè)的研究國(guó)內(nèi)外學(xué)者發(fā)表許多觀點(diǎn),Hu在2003年發(fā)表了一篇基于SVM的網(wǎng)絡(luò)異常檢測(cè)方法。為驗(yàn)證支持向量機(jī)流量分類(lèi)方法具有更高準(zhǔn)確性VapniK首次提出,同時(shí)Zhu Li等人發(fā)表的支持向量機(jī)算法對(duì)流量進(jìn)行分類(lèi)的實(shí)驗(yàn)數(shù)據(jù)表明無(wú)偏差訓(xùn)練和測(cè)試樣本準(zhǔn)確性都可以達(dá)到96.9%,此外基于支持向量機(jī)分類(lèi)方法F-measure值更優(yōu),支持向量機(jī)sVM分類(lèi)方法更具有可靠性。
Jun Zhan等人用四種方法通過(guò)F-measure值度量對(duì)兩個(gè)數(shù)據(jù)進(jìn)行每一類(lèi)性能測(cè)試來(lái)驗(yàn)證最近鄰分類(lèi)方法是否會(huì)被數(shù)據(jù)集大小影響。通過(guò)實(shí)驗(yàn)數(shù)據(jù)表明,分類(lèi)的準(zhǔn)確性由每類(lèi)F-measure影響。
關(guān)于BP算法存在缺陷問(wèn)題,譚駿等人利用雙粒子群算法優(yōu)化神經(jīng)網(wǎng)絡(luò)初始權(quán)值動(dòng)態(tài)確定神經(jīng)元隱藏個(gè)數(shù)對(duì)基于BP神經(jīng)網(wǎng)絡(luò)的流量分類(lèi)進(jìn)行改良優(yōu)化。最終的實(shí)驗(yàn)數(shù)據(jù)表明,改良的BP算法比傳統(tǒng)算法相比更好同幅度增長(zhǎng)14.3%,同時(shí)識(shí)別uDP協(xié)議準(zhǔn)確率較高。
5結(jié)語(yǔ)
網(wǎng)絡(luò)流量進(jìn)行分類(lèi)是網(wǎng)絡(luò)流量檢測(cè)的前提關(guān)鍵,選取正確高效的網(wǎng)絡(luò)流量分類(lèi)方法是重要步驟。目前的流量分類(lèi)技術(shù)主要以機(jī)器學(xué)習(xí)技術(shù)為主,傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)技術(shù)基于統(tǒng)計(jì)和行為。如何改進(jìn)檢測(cè)方法提高網(wǎng)絡(luò)流量分類(lèi)效率,對(duì)于目前國(guó)內(nèi)外研究人員仍有不斷進(jìn)步的空間。