網絡流量異常監測是網絡維護管理中的關鍵性環節。對網絡流量的實時監控與分析,能夠對網絡的實際運行狀態進行準確預測,進而采取相應的解決策略以確保網絡的穩定運行。因此,如何設計并實施行之有效的網絡流量異常監測方案是網絡維護管理中的重要研究課題。本文將對網絡流量異常監測中的數據采集方法進行分析,探討網絡流量異常監測中監測模型的應用。
在網絡維護管理工作中,網絡監測是重點工作內容。網絡流量異常監測是網絡監測工作的重要組成部分,借助對異常流量的精準監測與分析,用戶能夠實時獲取網絡環境中所有的異常流量動向,實現對各類網絡安全威脅引發的流量波動的全面監控。一旦監測到異常,用戶便可依據流量分析結果確定相應的網絡攻擊類型,采取具有針對性的應對策略。為了有效提升網絡流量異常監測水平,需要合理的應用監測模型,保證流量異常監測的有效性與準確性。
(一)簡單統計模型的應用
通過δ函數建立簡單數學模型,可以展現流量的關鍵指標。模型建立完成后,可以計算歷史數據的均值數與方差。將均值作為基準,在其上下的三個標準差范圍內,即為正常流量的數值區間。如果流量在這個區間以外,可以認定其為異常流量。這種方式是根據正態分布中的置信區間來確定的,其優勢在于計算過程簡潔明了。但模型僅適用于流量變化相對穩定的場景,對于更為復雜的情況可能會出現過高的誤報率。如果在均值與方差的計算中物理數據存在異常,會導致監測結果偏差。
(二)協方差矩陣模型的應用
協方差矩陣屬于二階統計量,其主要功能是找到變量在何種程度上影響了網絡狀態的異常。借助協方差分析方法,能夠有效地監測出網絡中是否存在泛洪攻擊等異常。這種方法通過建立基于流量模型,在模型中獲取實踐序列樣本,并對其進行計算,通過這種方式來確認泛洪攻擊。關注協方差矩陣出現的,包括其他相關特征的互動特征,有助于區分正常流量與攻擊流量。保證隨機變量的合理性,借助空間可預測的特點,對相鄰的數據片段進行分析,可以判斷出哪些數據片段可能存在異常。為了降低運算的復雜程度,可以采用樣本協方差矩陣的方式。在特征維度較低的情況下,適合應用協方差矩陣模型;但在特征維度較高的情況下,計算其相關性的復雜度將會呈現出以指數形式增長的趨勢,導致計算效率大幅度下降。
(三)隱馬爾可夫模型
隱馬爾可夫模型能夠利用具有時間序列形態作為基礎,建立相應的模型,對流量數據進行辨別,在數據滿足時間序列特征的情況下,能夠通過隱馬爾可夫模型進行相應的監測,判斷其是否出現異常。運用隱馬爾科夫模型,可以從行為序列的角度對網絡流量進行分析,挖掘潛在的異常活動。當面對較長的序列數據時,隱馬爾科夫模型的應用可能會導致計算資源無法滿足需求。在該模型中,對于隱狀態的設置,需要參考以往的經驗以及具體的應用狀態。

在監督分類模型的構建過程中,需要收集并分析大量的正常流量以及異常流量數據,構建出一套二元分類器,再使用這個二元分類器處理未知類型的數據,實現準確分類。通過監督分類模型,可以實現對正?;虍惓A髁繑祿墨@取,再對獲取的數據進行相應的預處理,提取數據特征,再通過這些數據進行訓練,能夠獲得高效的分類模型,在產品中部署該模型,就能夠實現對異常流量的實時監測與識別。圖1為此模型工作流程。
通過監督學習,能夠實現對正常流量與異常流量的識別,并對這兩類流量進行比較,確定二者之間的不同之處,在異常行為識別中展現出卓越的性能。然而,在真實環境中收集正常數據流量相對容易,而獲取異常數據流則相對困難,異常數據流的樣本量覆蓋范圍較為有限。在進行數據訓練時,由于樣本數量不足、覆蓋面不廣泛等問題,容易產生模型過度擬合現象,雖然在訓練中可能展現出良好的性能,但是應用于實際測試數據上,其效果不佳。為了解決監督模型在離線訓練中所遇到問題,可以采用在線訓練監督模型,通過此模型的應用,可以對流量進行分析,并進行相應的訓練。經過多次對相同流量的監測,可以促進模型性能的提高。
(一)聚類算法模型的應用
聚類算法模型是典型的無監督模型,處理中僅需輸入相應的特征向量,無須額外的標簽信息。主要目標是自動地將具有相似特性的樣本聚集成類簇結構。目前常見的聚類算法包括K-均值法、DBSCAN等。聚類算法的最終效果取決于所采用的相似度計算方法。應用聚類算法進行數據分析時,可靠性很大程度上取決于所使用的距離測度標準能否準確體現出數據之間的關聯性。如果距離測度無法展現數據間的近似程度,聚類算法模型在預測準確性出現較大誤差,導致誤報率與漏報率的上升。
(二)孤立森林模型的應用
孤立森林是一種集成模型,將其用于識別異常數據點時,不采用距離測量或者密度評估的方法,而是應用孤立樹中的二叉搜索結構進行評估。在孤立森林模型中,存在著大量的孤立樹,這些孤立樹都是獨立生長的,隨著孤立樹數量的增加,模型的穩定性也會隨之提高,在進行預測分析的過程中,需要更多的計算資源。在監測異常流量的過程中應用孤立森林模型,需要面對時間復雜性的特點,可以通過大量的數據集進行模型的訓練。孤立樹具有獨立生長的特性,在大規模分布式系統中采用并行處理模式能發揮其優勢。然而,孤立森林在特征維度極高的環境中可能出現不適用的情況,這是由于此類環境中有大量維度的信息未得到充分利用,算法的可靠性大打折扣。
(三)自編碼器模型的應用
在自編碼器模型的應用中,通過解碼器的應用,可以使獲得的向量恢復到最初的狀態。自編碼器的特點是可以更好理解數據分布中出現的規律特征,選擇與訓練過程中分布規律類似的數據,對其進行編碼、還原,有利于降低與原始數據的誤差,盡量將其控制到最小。通過自編碼器模型可以對異常流量進行準確監測,雖然自編碼器具備出色的擬合性能,而在實際應用中,仍需借助大規模的數據集來對其進行訓練,以便充分地掌握和理解原始數據的分布特征與差異性。在數據樣本匱乏的情況下,模型很有可能陷入過擬合狀態,表現為在訓練數據上的重構誤差較低,未曾接觸過的數據則產生較大的重構誤差,引發眾多誤報信息。
對于網絡流量異常監測而言,選擇合適的監測模型是保證監測效率的關鍵。因此,相關人員必須充分了解不同監測模型的特點,根據實際情況選擇合適的監測模型。
作者單位:煙臺市融媒體中心技術維護部