龔壘+王一帆

摘 要
本文將機器學習分類方法,引入到網絡流量領域。結合構風險最小化原則,提出基于支持向量機的網絡流量分類方法,將網絡流量分類問題轉化為二次尋優問題,以解決網絡流量過程中訓練樣本較少和屬性過濾等問題。實驗表明,支持向量機網絡流量分類方法,有效地保證網絡流量分類的精度,具有較好的推廣性。
【關鍵詞】網絡流量分類 機器學習 支持向量機
近年來,隨著互聯網規模的迅速發展,網絡擁堵問題日益加劇。因此,容量規劃、流量調度等網絡流量控制策略成為網絡安全與管理領域研究的熱點問題。在網絡流量分類研究中,分類對象通常是網絡報文,而在海量的網絡數據集合下,網絡報文流量分類精度會因為維數的增高而下降。傳統的分類算法有 近鄰、樸素貝葉斯等方法。然而上述傳統算法實際應用中,在已知樣本有限情況下,難以構建有效的分類規則,無法保證分類精度。
支持向量機方法是建立在統計學習理論基礎上,根據結構風險最小化原則,將分類問題轉化為二次尋優問題(即尋找最優超平面),從而避免在分類學習過程中對訓練樣本的依賴,同時具有較高的分類精度。目前,支持向量機方法在文本分類、圖像識別等多個領域,具有較好的推廣性。因此,本文將支持向量機學習方法引入到網絡流量分類中,以利用該算法的特點,解決實際的網絡流量分類問題。
1 網絡流量分類
目前主流的網絡流量分類方法是以網絡報文作為分類元素,按照一定的策略和學習算法進行分類,將特定端口的網絡流量劃分到相對應的網絡,以便進行網絡管理。但海量的網絡報文數據呈高維分布,且大多數特征項決策因子較低,難以滿足分類需求。因此,現階段的分類方法均是對網絡報文做降維處理,提取對分類有影響的特征項,即以報文序列相同的5元組作為取值對象(源IP、目的IP、源端口、目的端口、協議),構成網絡流。其中網絡流又分為單向流和雙向流。單向流是以5元組的單向網絡傳輸報文序列作為特征項。雙向流是同一網絡連接的雙向報文5元組序列。通過對網絡報文特征項的提取,建立特征集合,進而利用機器學習建立多分類問題。網絡流量分類問題可以概括為:已知屬性集合,報文流集合,利用分類學習算法構建模型,依據分類模型對未知網絡報文進行分類。
2 支持向量機網絡流量分類方法
支持向量機是建立在統計學習理論基礎上,以結構結構風險最小化為原則,尋求最優超平面的學習方法。支持向量機的二次尋優問題可以表示為:已知樣本x在樣本集合m中存在n個樣本,超平面為。其中,,,。
對于網絡流量分類問題,本文采用“一對一”方法,根據支持向量機的特點,將多元的網絡流量分類問題,轉換為元分類問題,將分類判別函數轉換為網絡流量分類模型,即:
。
支持向量機網絡流量分類方法可以描述為以下三點:
(1)通過將實際問題轉換到高維特征空間中,構建分類決策函數,使得在原維數的非線性問題轉換為線性可分,有效地提高分類精度。
(2)支持向量機將網絡流量分類轉化為二次尋優,在已知樣本(訓練樣本)較少的情況下,能夠保證分類的準確性。
(3)支持向量機通過最優超平面來優化分類器的學習能力,該方法不需要依賴網絡流量樣本的先驗概率,具有較好的推廣性。
3 實驗結果與分析
本文選取Moore_Set數據集合中,提取10個數據子集(每個數據子集選取100條樣本)。其中1個數據子集作為訓練集,其他9個數據子集作為測試集。學習算法選取樸素貝葉斯算法和支持向量機方法進行比較分析,結果如表1。
從表1中可以看出,樸素貝葉斯方法分類方法,其準確率會隨著訓練集的增加而下降。特別是到900個訓練樣本時,分類準確率僅為56.95%。支持向量機分類方法相比較而言,分類精度不會隨著維數的增高而下降,比較穩定。通過實驗表明,支持向量機分類方法以最優超平面構建分類模型,在劃分網絡流量時,維數的增加,不會對分類結果產生較大的影響,相比較而言,支持向量機網絡流量分類方法具有健壯性,有較好的推廣價值。
4 小結
網絡流量分類是近年來網絡安全與管理領域的熱點研究問題。目前主流的研究均是利用機器學習方法構建分類規則,從而完成多元分類問題。本文將支持向量機方法引入到網絡流量分類學習中,并與傳統方法進行比較研究。通過實驗可以看出支持向量機方法在穩定性、準確率等方面均有明顯優勢,具有一定的推廣價值。今后的研究重點在于如何從海量數據集中提取對分類有影響的子集,以進一步提高分類性能。
參考文獻
[1]朱明.數據挖掘[M].合肥:中國科技大學出版社,2008:13-56.
[2]丁世飛等.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011(07).
[3]林平等.基于流統計特性的網絡流量分類算法[J].北京郵電大學學報,2008(09).
[4]劉穎秋等.網絡流量分類與應用識別的研究[J].計算機應用研究,2008(02).
[5]佘鋒等.基于半監督學習的網絡流量分類[J].計算機工程,2009(12).
[6]李平紅等.一種混合約束的半監督網絡流量特征選擇方法[J].計算機仿真,2013(09).
作者簡介
龔壘(1984-),男,河南省淅川縣人。現為南陽醫學高等專科學校助教。研究方向為計算機應用技術。
作者單位
南陽醫學高等專科學校 河南省南陽市 473061