王金華
(四川大學,四川 成都 610207)
基于網絡的入侵檢測的目標是識別那些企圖通過網絡跨越被保護系統安全邊界的行為,任何損害系統安全性的網絡入侵行為都應被識別,從而讓系統快速做出響應。異常入侵檢測對于網絡安全有著重要的意義,通過對正常用戶行為的建模它可以識別出異常的流量,從而檢測新型的攻擊。在檢測過程中,研究者面對的是網絡上捕獲的網絡流量數據,對于這些數據,其中一種處理方法是根據專家知識和統計學提取人工特征,形成特征集,然后基于人工特征數據執行入侵檢測,識別某條記錄是異常流量還是正常流量。
KDDCup-99數據集[1]是1999 KDD杯挑戰賽提出的入侵檢測數據集,該數據集對網絡流量進行預處理,提取了基本特征、內容特征、基于主機的流量特征、基于時間的流量特征4大類人工特征,共計41個小特征,含有4種攻擊類型,總計包含400萬條記錄,保存為txt文件。然而,使用KDDCup-99數據集來驗證檢測方法存在著諸多的不足,如存在攻擊類型定義模糊、冗余的記錄過多等問題。針對KDDCup-99數據集的缺點,Tavallaee等人[2]在該數據集的基礎上,刪除了冗余項,規劃了訓練集和測試集的比例,提出了NSL-KDD數據集,此數據集對于41維特征沒有做出改變,主要優點是類別分配平衡,是用于入侵檢測方法比較的基準數據集。
上述兩種數據集并沒有提供網絡流量數據文件,而在2015年公開的UNSW-NB15[3]和2018年公開的CICIDS-2018[4]數據集則提供了網絡流量數據pcap文件和已經預處理提取好特征的csv文件?!?br>