張甲 侯磊
【摘 要】一直以來,網絡應用協(xié)議識別都是網絡技術研究的難點與熱點問題,屬于網絡安全系統(tǒng)的核心。在當前,主流的網絡應用協(xié)議識別方法主要為基于網絡流行為的網絡應用識別方法及基于載荷的網絡應用協(xié)議識別方法,這兩種網絡應用協(xié)議識別系統(tǒng)都存在著一定的局限性,為更好地分析真實網絡中存在的網絡數據,對有效區(qū)分應用協(xié)議網絡流特征向量進行統(tǒng)計與挖掘,提出建立聚類算法下網絡應用協(xié)議識別系統(tǒng)。本文從網絡應用協(xié)議識別系統(tǒng)的研究現(xiàn)狀出發(fā),提出建立聚類算法下網絡應用協(xié)議識別系統(tǒng),并對幾種聚類算法進行簡述,最終通過實際試驗證明了聚類算法下網絡應用協(xié)議識別系統(tǒng)具備良好的識別效果。
【關鍵詞】聚類算法 網絡應用協(xié)議識別系統(tǒng)
【中圖分類號】G250.72【文獻標識碼】A【文章編號】1672-5158(2013)07-0143-01
隨著互聯(lián)網應用技術的不斷發(fā)展,互聯(lián)網網絡應用日新月異,層出不窮,致使網絡流量日趨復雜化。在互聯(lián)網發(fā)展之初,僅僅存在著簡單的幾種協(xié)議,如HTTP、FTP、SMTP,伴隨著即時通信、視頻、P2P等技術的發(fā)展與應用,讓互聯(lián)網中承載的內容日趨多樣,尤其是P2P資源共享技術,實現(xiàn)了用戶之間對等的資源共享。隨著網絡應用種類的不斷增加,為網絡管理與運行帶來了極大的挑戰(zhàn)。加上當前人們對網絡應用的依賴程度越來越高,對網絡的實時性提出了更高的要求,從而推動了網絡帶寬技術的進步。然而,面對龐大的網絡流量,網絡安全系統(tǒng)需要進行更大數據量的處理,更是對流量實時處理提出了更高的性能要求。
一、網絡應用協(xié)議識別系統(tǒng)研究現(xiàn)狀
網絡應用協(xié)議識別系統(tǒng)屬于網絡安全系統(tǒng)的核心,通過網絡應用識別系統(tǒng),可以快速準確地識別出網絡流中所應用的業(yè)務,并控制各類網絡應用協(xié)議的使用帶寬,限制非授權網絡應用寬帶需求,滿足授權網絡應用的帶寬要求,通過這種方式,分配網絡容量,深化網絡流量安全檢測,進一步提高網絡服務的質量,為用戶帶來更好的網絡體驗。
在當前,網絡應用協(xié)議中網絡流呈現(xiàn)出靜態(tài)特征與動態(tài)特征。根據網絡應用協(xié)議識別方法的使用特征,大致可以分為三個種類,分別為基于網絡流行為的網絡應用識別方法、基于載荷的網絡應用協(xié)議識別方法與基于端口的網絡應用協(xié)議識別方法。
(一)網絡應用協(xié)議中網絡流特征
在不同的網絡應用協(xié)議中,存在著不同的流量特征,這些流量特征是建立網絡應用協(xié)議識別的基礎。主要的流量特征包括流行為統(tǒng)計特征、端口特征及應用層負載數據字符特征等,這些網絡流表現(xiàn)出靜態(tài)特征與動態(tài)特征。
1.網絡應用協(xié)議的靜態(tài)特征
靜態(tài)特征,在所有網絡協(xié)議中都不會隨著時間與空間因素的變化而發(fā)生改變,具備固有特征。靜態(tài)特征主要是對數據報所攜帶的數據內容進步處理分析,最終對不同網絡應用協(xié)議特征進行區(qū)分,靜態(tài)特征主要包括應用層負載數據字符特征與端口特征兩種。
靜態(tài)特征中應用層負載數據字符特征主要指的是應用層中用戶的數據會存在特定的特殊字段,如在P2P網絡應用的控制報文中,報文應用層所攜帶的數據會具備一些特定存在的字符。通過網絡流檢測技術,針對報文中所攜帶的特定字符判斷出報文是否屬于P2P文件共享應用所發(fā)報文,然后進行網絡流的管理與控制。隨著網絡應用領域不斷擴大,人們對信息傳遞的安全性提出了更高要求,更是將加密機制應用在網絡應用之中,在防止信息泄露的同時,也隱藏了網絡流數據字符特征,導致網絡流數據特征不能快速及時地識別出網絡應用協(xié)議。
2.動態(tài)特征
動態(tài)特征,指的是在某一種網絡應用協(xié)議中,隨著時間與空間因素的變化而出現(xiàn)不同結果,動態(tài)特征又被稱之為網絡應用行為特征,需要一定的連續(xù)時間與空間積累才可以將動態(tài)特征顯示出來。
(二)網絡應用協(xié)議識別方法研究現(xiàn)狀
1. 基于網絡流行為的網絡應用識別方法
基于網絡流行為的網絡應用識別方法主要是對數據報中行為特征進行統(tǒng)計,并將統(tǒng)計結果抽象成多維向量,結合機器學習方式,對多維向量間大小關系進行識別,最終對網絡流應用協(xié)議進行判斷。這種方法擴展性良好,可以發(fā)現(xiàn)新特征流,局限性是難以通過簡單匹配的方式完成應用協(xié)議識別。
2.基于載荷的網絡應用協(xié)議識別方法
基于載荷的網絡應用協(xié)議識別方法采取還原技術與協(xié)議分析的方法,針對數據報采取深度檢測,獲取應用層所攜帶的數據內容,并對其數據中包含的內容進行分析,最終呈現(xiàn)出協(xié)議正則表達式,通過協(xié)議正則表達式判斷網絡流中所應用的網絡協(xié)議,對網絡流進行管理與控制。這種識別方法精確度高,維護簡單,其局限性在于不能實現(xiàn)隱私保護,對新型應用實用性較差等。
3.基于端口的網絡應用協(xié)議識別方法
基于端口的網絡應用協(xié)議識別方法主要應用于傳統(tǒng)的互聯(lián)網應用協(xié)議識別系統(tǒng)中,在傳統(tǒng)互聯(lián)網應用中,服務端口具備統(tǒng)一規(guī)范的特性,加上協(xié)議的數量較少,采取端口的網絡應用協(xié)議識別方法十分有效,且技術實現(xiàn)簡單,開銷較小,能夠優(yōu)化網絡性能,提高網絡服務的質量。但隨著端口自定義的出現(xiàn)及應用,龐大網絡流量及網絡協(xié)議種類不斷增加,越發(fā)顯示出基于端口的網絡應用協(xié)議識別方法的落后。
二、基于聚類算法的網絡應用協(xié)議識別系統(tǒng)及聚類算法
聚類算法,其核心為是將相似對象聚成為一個簇,對不同對象進行分類處理?;诰垲愃惴ǖ木W絡應用協(xié)議識別系統(tǒng),將網絡流視為相似對象,通過有效區(qū)分網絡流特征地提進行聚類,將相同網絡協(xié)議的網絡流聚成為一個簇,從而判斷出網絡流所使用的網絡協(xié)議。
(一)基于聚類算法的網絡應用協(xié)議識別系統(tǒng)實現(xiàn)的總體流程
基于聚類算法的網絡應用協(xié)議識別系統(tǒng)實現(xiàn)的總體流程如下:對正在傳遞的網絡流量進行抓取;對網絡流量中數據報通過特殊網絡流劃分方式進行劃分,獲得不同的網絡流;對每個網絡流所攜帶數據進行提取,并將提取結果與每種網絡應用協(xié)議中存在的匹配正則表達式作匹配處理;通過匹配處理分析出網絡流使用的網絡協(xié)議;如通過匹配處理分析出網絡流使用的網絡協(xié)議,則進行網絡流管理與控制;如不能通過匹配處理分析出網絡流使用的網絡協(xié)議,則提取網絡流中特征向量,將網絡流特征向量及標識存儲到網絡流信息數據中;采用聚類算法對網絡流特征進行處理;通過判斷每簇所含有的網絡應用協(xié)議,判斷出網絡應用協(xié)議的類型。
(二)聚類算法
1.K-means聚類算法
當前,最為經典的聚類算法就是K-means聚類算法,其算法實現(xiàn)的思想是:隨機的選擇出空間中某個點作為中心,進行聚類,劃分出不同的簇,然后使用迭代方式,對各類聚成中心值進行更新,最終實現(xiàn)良好的聚類結果。
2.網格密度聚類方法
網格密度聚類方法可以發(fā)現(xiàn)任意形狀的聚類簇,通過網格密度聚類方法,對低密度區(qū)域進行過濾,發(fā)現(xiàn)樣本密集處,最終發(fā)現(xiàn)任意形狀的聚類簇。這種計算方法的目的是明確密度相連對象的最大集合,并對結果進行分析。
3.EM聚類算法
EM聚類算法可以實現(xiàn)對非完整數據集中計算,屬于一種簡單實用的學習方法。通過迭代最大化完整數據對數似然函數期望進行最大化不完成數據對數似然函數,最終獲取模型估計參數。
三、結束語
隨著互聯(lián)網科學技術的進步與網絡的普及,人們對網絡的依賴程度越來越高,各種網絡應用,為互聯(lián)網網絡帶寬資源的優(yōu)化配置帶來了極大挑戰(zhàn)。通過對網絡應用協(xié)議識別,可以有效實現(xiàn)對網絡應用流量的管理與控制,限制不合理網絡應用,優(yōu)化網絡帶寬配置,提高網絡服務質量。當前主要的網絡應用識別協(xié)議為基于網絡流行為的網絡應用識別方法及基于載荷的網絡應用協(xié)議識別方法,這兩種方法存在著一定的局限性,本文提出建立基于聚類算法的網絡應用協(xié)議識別系統(tǒng),并通過實際試驗,證明聚類算法的網絡應用協(xié)議識別效果顯著,值得推廣應用。
參考文獻
[1] 梁波. 基于聚類算法的網絡應用協(xié)議識別系統(tǒng)的研究與實現(xiàn)[D].山東大學,2012
[2] 楊爽.基于雙重特征的網絡應用協(xié)議識別系統(tǒng)[D].北京交通大學,2012
[3] 劉炯,徐同閣. 基于NetFlow的應用協(xié)議半監(jiān)督識別算法[J].計算機技術與發(fā)展,2010,07:9-12+16
[4] 譚駿,陳興蜀,杜敏.基于BPSO與神經網絡的實時P2P協(xié)議識別算法[J].中南大學學報(自然科學版),2012,06:2190-2197