◆宋龍高 朱從喜
(華信咨詢設計研究院有限公司 浙江 310014)
網絡業務流識別研究綜述
◆宋龍高 朱從喜
(華信咨詢設計研究院有限公司 浙江 310014)
互聯網的蓬勃發展出現了多種多樣的網絡運用功能,但與此同時也爆發嚴重的安全危機。分類和識別互聯網流量能夠營造安全可信的互聯網環境,保證各項網絡服務功能可以正常發揮作用。
網絡業務流;文獻研究;網絡技術
網絡管理員能夠通過網絡流量的分類和識別,了解到當前網絡的運行狀況,及時進行設備的搶修和擁塞鏈路的疏通。同時可以幫助管理員明確當前的網絡結構,根據網絡流量的分析結果進行網絡結構的科學優化和補足設計[2][3],防止出現掃描式的修補和投資。
網絡流量能夠察覺到各種病毒信息,受到不同病毒信息影響時網絡流量會呈現出不同的變化趨勢,因此分類和識別網絡流量能夠分析不同的病毒信息,如木馬、僵尸[5]、分布式拒接服務攻擊[1]等等。而且網絡流量的識別和分類,能夠讓網絡提供商加強網絡安全的監管力度,保證用戶的個人隱私。
雖然當前的網絡應用較多,但是在眾多網絡應用中,少部分應用占據大多數流量,甚至會影響內存導致其他網絡應用無法正常發揮功能。ISP為了實現網絡流量的合理分配,根據不同用戶的需求提供針對性的網絡服務。通過網絡流量的識別和分類可以了解不同應用的實際運用情況,了解網絡應用的未來發展狀況的發展潛力,采用預期性的路由政策,保證網絡流量資源的合理配置。
網絡流量的分配和識別,能夠了解當前網絡業務的開展狀況,進行網絡結構的科學優化和補足設計,及時進行設備搶修和擁塞鏈路的疏通,提高服務質量等。如今越來越多的學者專家開始進行網絡業務流精確識別和分類研究,這是當前的熱門研究方向,目前在眾多學者專家的努力下取得了驕人的成績。當前業界內權威的方法有四種,分別為:主機行為法、端口分析法、深度包檢測(DPI)流識別法以及流統計特征的識別方法。
早期互聯網地址指派機構(Internet Assigned Numbers Authority,IANA[7])頒布了端口映射表,成為指導人們識別和分類網絡業務流的準則,可以進行網絡業務流的分類。操作基礎是SYN包或TCP,根據端口號確定網絡業務流,這是較為基礎和簡單的操作方法[2],也是當時業界內使用較多的方法。但是隨著新技術的發展,這種原理簡單、操作簡便的識別方法,已經不能滿足當前的社會需求,而且弊端也逐漸顯露,P2P的應用也讓它逐漸被時代淘汰[10][11]。臨時端口無法得知動態端口號信息和IANA信息。很多P2P應用是基于動態端口或隱藏端口,因此防火墻難以實現有效的阻隔,當前的互聯網環境下這種分類方法已經逐漸喪失競爭優勢。
二十一世紀初Moore[3]等人通過IANA列表信息確定端口的分類標準,實踐后發現獲取的分類結果擁有低于七成的準確率。Williamson[4]等人通過實證測試了解端口號流量的識別情況,發現近6成的流量無法進行有效識別。
在當前的互聯網環境下,端口號網絡流識別方法已經逐漸喪失競爭優勢,為了滿足當前的流量識別需求,眾多學者專家和網絡工作者希望能夠研發出更加精準的識別方法,能夠提高網絡流量分類的準確率,由此誕生了基于深度包檢測(Deep Packet Inspection,DPI)的網絡流識別分類方法。Sen[13]等人發現該方法的確能夠改善以往網絡流量分類準確率不足的情況。Papagiannaki等在該技術的基礎上結合端口號后,能夠識別69%的網絡業務測試流,能夠實現近百分之百的分類流量識別率,雖然基于深度包測試的方法能夠彌補以往測試方法的不足,但是本身并不是完美無缺的:如果網絡流數據包超出負荷,處理器雖然能夠維持運轉但是內存消耗量巨大,容易造成硬件設備的損壞;而且移動寬帶的拓寬,需要處理和解析的數據流量越來越多,很多重要數據資料無法保存,會影響顧客的使用體驗;加密處理雖然能夠保障通信數據信息的隱秘性,但是也會降低網絡業務流分類的效率和準確度。
不管是基于端口號還是DPI,這些分類識別方法都會泄露隱私信息和違反國家法律規定,而且難以對動態加密信息進行識別分類。而基于主機行為的方法,既不需要端口號,也不需要獲取數據包的字符信息,但是也可以進行網絡流的分類和識別。Karagiannis等人在研究P2P流量的識別時,發現基于P2P流量額連接模式明顯優于深度包檢測方法,能夠實現近99%的P2P流量識別。之后Karagiannis[17]等人在以往研究成果的基礎上,指出基于主機行為的識別分類方法具有明顯的優勢,不僅能夠識別較多的實驗數據流量,而且準確率高。可是該種方法的識別分類能力較差,如果首層加密后就會切斷與其他域的關聯,該種方法也無法正常發揮功能。
上述介紹的方法主要有各自的優缺點,學者專家在總結三種方法的優缺點后創造出更為科學有效的方法——基于機器學習的流統計方法,它不僅將以上方法的優點結合,而且能夠改善上述方法的不足之處,受到越來越多學者專家的重視和推崇,應用范圍越來越廣。目前分類方法分為無監督學習和有監督學習兩種。Mcgregor等人將數據包內存、網絡流量時間等作為分類標準。Zander等人結合SFS和貝葉斯分類方法,選出有效的特征集后可以自發分類數據流。Erman等人在研究網絡流的分類時,將平均包內存、時間和間隔作為WeB、FTP的分類標準。Murthy是決策樹概念的首創人,Corinna Cortes等人是向量機(support vector machine,SVM)分類方法的首批擁護者。Zhu Li等人選取9個特征作為流量分類指標,在SVM方法的幫助下發現該種分類方法的準確率較高。Auld等人在研究網絡流時,結合神經網絡分類標準獲得246個特征數據,網絡數據流分類識別結果的準確率較高。Williams等人在對比不同的分類方法后,指明每種監督學習分類方法的優勢,其中比較典型的就是 C4.5決策樹,它不僅能在較短時間內獲得分類結果,而且準確率較高,可是無法和其他算法拉開差距,與其他算法也沒有本質差別。王宇等人確定了 C4.5決策樹算法的適用范圍,認為一般復雜情況的網絡流可以應用該方法,而且能夠保持較高的準確率。徐鵬等人在研究 C4.5隨機決策樹算法時,通過實踐結果證明它的高效性和準確性。
無論是基于深度包檢測、基于端口還是基于主機行為,這些網絡業務流識別和分類方法都有各自的缺點。二十一世紀以來互聯網技術的發展,互聯網環境復雜多變,因此這些方法都無法滿足當前網絡業務流的分類需求。相較于上述三種方法而言,基于流統計特征的網絡流量分類方法能夠較好的滿足數據流的分類需求,不僅速度快而且準確率高,可是該種方法也不是完美無缺的,需要解決測試樣本敏感的問題,這也需要眾多的學者專家和研究者們不斷努力,不斷進行方法的改進和完善,從而滿足當前互聯網環境下網絡流分類識別的新要求。
[1]劉穎,朱斯燕,孫晨華,李國彥.面向時延約束的多跳自組網絡性能建模分析[J/OL].北京郵電大學學報,2017.
[2]曹靜,武君勝,楊文超,王碩晨.認知無線Ad Hoc 網的多尺度跨層路由協議[J/OL].西安電子科技大學學報,2017.
[3]張元寶,唐倫,陳前斌.基于業務感知的增強型小區間干擾協調算法[J/OL].計算機應用研究,2017.
[4]高會生,方子希.PTN時分復用業務的時延抖動分析模型[J/OL].西安電子科技大學學報,2017.