易 燦,彭 婷
(湖南大眾傳媒職業技術學院,湖南 長沙 410100)
目前,用戶對網絡運維提出更高要求,主要體現在網絡流量識別、預測、流量異常的監控等方面。流量識別算法和網絡流量模型在網絡設計、服務質量、網絡管理及監視中起著重要作用。任何情況下的應用程序與管理員都需要實時監視網絡運行狀況,以保證網絡服務質量與網絡安全,從而通過使用網絡流量應用程序層分類技術來防止網絡攻擊影響管網。
網絡流量分類技術的關鍵性作用在于對網絡流量的細粒度進行深入分析,能夠承載各個通路網絡應用所產生的流量,并以此展開網絡流量中的網絡協議模型,能夠準確分析網絡用戶行為,評估網絡安全水平,并以此為依據展開流量控制,是實現三網融合的有效手段。
首先,通過檢測端口數據來對網絡流量展開分類,這一方法的實效性已經開始逐步減少。結合端口檢測技術下的網絡流量識別技術與相關管理部門提出的規則,整合出更加完整的通信機制,才能對當前網絡流量進行有效識別與分類,即通過端口與應用協議之間的映射機制來實現高校的流量分類。
其次,當基于端口映射技術的網絡流量分類起著重要作用時,大規模網絡流量分類技術的骨干也起著關鍵作用。
再次,考慮到應用層協議已經全面覆蓋了網絡流量信息中的數據。基于此,從理論層面出發,DPI技術在網絡協議的識別中具有更高應用價值。DPI技術能夠更加深入挖掘特定協議,網絡數據包中經常會出現穩定的字符串的獨特特征,這些字符又存在大多數帶有網絡通信協議簽名中。
最后,基于網絡流量統計特征的識別方法具有創新意義,且已成為當前流量識別與分類的主要手段之一。此類方法的作用機制是將與網絡協議不一致的統計特征進行收集,并通過分類算法,對網絡流量分類情況仿真模擬訓練,以此達成網絡流量精準分類的目的[1]。
自相似性能受定向性行為特征的影響,用戶定期訪問具有穩定的隨機訪問過程和時間順序,并且不同用戶訪問內容具有很強的自相關性,網絡流量的運算特征與相似性數學特性相符合。
首先,滿足網絡流量是平穩的隨機過程X=(x(t),t≥0),類似參數H滿足X(ct)=cH=X(t),t≥0,c>0,0<H<1。
其次,網絡流量運行情況受其自身影響較多,不穩定的網絡流量狀態是正常的。若處于抽象不確定性構造情況下,隨機過程X的平均值為常數A,A=E{X(t)},而網絡訪問自相關函數符合R(θ)=E{X*(t)X(T+θ)}。
最后,堆疊X以生成一個時間序列,該時間序列表示為X(m)={Xk(m),k≥θ},并且該時間序列能夠表示出每單位時間所到達的數量。
對網絡力量進行檢測時,盡管各個對象之間存在較大的時間間隔,但其依舊具備較強的長相關特性。用戶可以結合自身需求對平臺進行訪問,時間間隔通常為數月、一年或更長時間。以數學形式表達,將選取時間函數用X代表,t和t+k時的值分別為X(t)和X(t+k),則長相關函數表示為:
μ代表平均值,σ代表方差。得出全部相關總和這表明k網絡流量中存在長相關性[2]。

針對屬性的選擇,首先需要結合網絡流量數據,整合生成相對應的數據子集,之后對全部子集展開評估與篩選。通過對比分析,查找出最符合要求的子集,并以此判斷子集的實際優越性。如果選擇的子集為最佳,則停止準則,開始驗證;如果選擇的子集沒有達到最佳值,則將原有子集進行替換,并重新進行子集評估。
網絡平臺中關于流量屬性的選擇,可以通過包裝模型的流動特征進行針對性選擇,而包裝模型需要分類器進行評估函數屬性進行區分。這一模型識別準確性較高,但是每次搜索都需要選擇一個屬性子集進行交叉,存在識別速度慢、靈活性差的缺點。基于此,將ReliefF算法添加至包裝模型的計算過程中,并對各個屬性展開權重分類,之后結合權重,將屬性按照順序進行排列[3]。當相鄰k個樣本時,特征權重值是T,循環過程為m次,更新后的權重公式表示為:

機器學習用于描述網絡流量樣本集,表示為Y={Y1,Y2,…,Yn},輸出類型集表示為X={X1,X2,…,Xn},以F:X→Y表示網絡流量分析流程。數據源涵蓋整體數據記錄,在屬性選擇算法的基礎上,分類整理數據包資源,通過機器學習識別方法,完成特征的統計,之后創建特征列表,完成數據評估與檢測。
K-means聚類算法能夠將數據樣本之間的相關性展開聚類,并通過聚類明確未知樣本。但是,由于K-means聚類算法不具備直接用于判斷網絡流量的功能,所以,需要將監督學習方法與非監督學習方法引入K-means聚類算法中。
數據集表示為:Sm={(S1,l1),L,(Sm,l2)}∪(Sm+1,Sm+2,L,Sm+n)。
其中,(Sm,lz)是已知類型的數據樣本;L={l1,l2,…,lz}代表流量應用程序具體類型;m和n代表樣本數;z代表應用程序類型的數量。在K-means算法的基礎上,初始中心點選擇已知類型標簽數據的樣本。使用捕獲工具進行專業認證以捕獲平臺網絡流量數據,并結合源地址、源端口、目的地址、目的端口以及傳輸協議屬性將流量數據進一步歸納整理,以便于將過濾后的數據進行抽樣檢查[4]。
平臺訪問實時數據包括瀏覽頁面、上載、下載、交互、網絡安全、數據庫訪問等所產生的流量。劃分流量類型并收集相關流量編號,如表1所示。

表1 流量類型及其個數與占比
選擇IP數據包的容量與TCP窗口大小的負載容量,并將兩個數據包的到達時間進行標記,以此作為流量分類特征。之后利用IO構建Map/Reduce并進行相關實驗環境界面映射中輸入數據,通過在Reduce端選擇屬性,進行度量,設置流量識別模型,運行時將進行并行計算,合并完成后將數據分為幾個數據塊計算。
通過仿真實驗得出,創建出的新型模型能夠實現對數據流量的精準分類,并能快速完成標記流量的識別與分類,通過聚類算法準確計算出未知標簽流,從識別速度出發,通過將樣本數量從100 M增加到600 M的實驗。實驗結果表明:在樣本數量逐步遞增的情況下,設計模型的識別效率基本保持穩定狀態。
綜上,本文從3個方面研究了職業認證平臺的網絡流量監控和識別算法。首先,選擇平臺的網絡流量屬性以降低二元性,并采用ReliefF算法和打包模型進行度量;其次,結合K-means聚類算法,采用機器學習中的監督學習方法和非監督學習方法,建立交通監控模型;最后,選擇專業的認證平臺來捕獲實時數據包。實驗證明該模型識別流量準確有效。