999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡入侵檢測評測數據集對比研究

2020-08-21 01:01:00鄧妙然王開云張春瑞張有
現代計算機 2020年20期
關鍵詞:環境檢測

鄧妙然,王開云,張春瑞,張有

(中國工程物理研究院計算機應用研究所,綿陽621900)

0 引言

作為一種重要的網絡安全保障技術,網絡入侵檢測(NIDS)在監測和預警網絡威脅方面已有廣泛研究和應用。然而隨著網絡入侵事件數量和規模日益增長,現有網絡入侵檢測技術,特別是基于異常的NIDS 面臨攻擊種類過時、誤報率高等挑戰。

網絡入侵檢測模型基于入侵檢測算法和網絡數據集,其構建流程通常包括:數據集選擇、數據預處理、確定知識發現算法、數據挖掘、知識評價[1]。流量數據集作為訓練和評估網絡入侵檢測模型的數據來源,其數據質量直接影響入侵檢測模型的分類效果和評測結果。Malowidzki 等人[2]研究表明,公開可用的網絡數據集在異常類型和流量方面往往是過時的,因此缺乏有代表性的數據集是NIDS 目前面臨最大的問題之一。因此,選擇或建立一個符合現代真實網絡環境的公開數據集,是比較各種NIDS 模型性能以及改進算法的基礎。為了達到該目的,需要對公認的流量數據集及進行分析研究。

1 相關工作

最早用于入侵檢測評測的數據集是1998 年由MIT Lincoln 實驗室創建的DARPA 1998/99 數據集,在此基礎上又產生了KDD CUP99 以及NSL-KDD,這是目前使用最廣泛的一組入侵檢測數據集,這其中不乏針對DARPA 1998/99 的詳細研究和說明[3-5],表明帶有相關文獻或詳細描述文檔的數據集更容易被使用,繼而有更大可能發現及完善其問題,有利于入侵檢測評測體系的良性發展。

Bhuyan 等人[6]分析了6 種基準數據集以及3 種真實網絡環境捕獲的數據集,認為缺乏真實背景流量是目前基準數據集普遍面臨的短板;Divekar 等人[3]認為KDD CUP 99 的數據分布不平衡和缺乏現代攻擊的缺點影響了分類有效性,通過對UNSW-NB15 數據集的對比分析認為該數據集可作為前者的現代化替代。由于缺乏符合要求的可用數據集,Yu[7]和Wang[8]在CTU-13 數據集的基礎上混合其他數據生成新的數據集用于深度神經網絡模型。國內相關研究以DARPA 系列數據集為主,史美林[5]分析了DARPA 1998 和1999 的測評方法,對數據集評測的問題提出改進,尹述峰[9]在此基礎上對基于該數據集的二次處理數據集KDD CUP99 進行了介紹。上述工作以經典數據集的評析為主,提出部分數據集存在的問題,以及現代復雜網絡環境下對于更新和更適配的數據集的共同需求。本文在以上研究的基礎上將相關研究中使用最廣泛的DAR?PA 1998/99 數據集、被認為是其現代化替代數據集的UNSW-NB15 以及目前最新基準網絡入侵檢測數據集CSE-CIC-2018 進行多方面的對比分析,給出相關數據集的使用建議,并提出性能優良的網絡數據集可能的生成方向。

2 網絡數據集

網絡流量數據集按照數據格式可分為基于數據包和基于網絡流兩類,數據包記錄網絡中的原始流量,網絡流是關注網絡連接的元信息。關注應用層攻擊的數據集通常采用基于包的格式,而一些數據集出于數據存儲空間或避免隱私問題等考慮,采取基于流的數據格式。由于數據包含載荷,對一些針對特定應用或利用傳輸數據實施的攻擊能夠被更好地識別。基于流的數據則關注網絡連接的整體情況,通過將網絡層和傳輸層首部的信息提取以及高度聚合,形成特定的屬性集合。一般的流數據包含但不限于某一段時間窗口內的五元組信息,即:源IP 地址、目的IP 地址、源端口號、目的端口號以及協議,也可根據需要加入其他字段,如流持續時間、流包含數據包個數、流SYN flag 總數等聚合性信息。

網絡數據集按照數據的生成方式可分為真實、模擬和生成[10]。真實流量是在生產網絡環境中捕獲的,如通過高校網絡、企業網絡、ISP 等真實生產環境中的網絡設備捕獲。模擬數據由測試平臺或仿真(模擬)網絡環境中獲得。而由一些流量生成器或人工智能算法合成創建的流量則是合成數據。研究人員需要高質量的真實流量數據集建立符合真實網絡環境的入侵檢測系統,然而生產網絡的復雜性及保密要求導致真實數據難以獲得,更難的是對大量流量數據打上正確標簽,因此大多數真實數據集都是不帶標簽以及對部分字段匿名化處理的,導致使用受限。

3 NIDS評測數據集

3.1 DARPA 1998/99

1998 年,MIT 林肯實驗室在DARPA 基金資助下對入侵檢測系統進行了創造性的離線數據集評估,并公開提供了可供下載的評測數據集“1998 DARPA 入侵檢測評測數據集”,即DARPA 1998 數據集。1999 年和2000 年MIT 也提供了更新的版本DARPA 1999[11]和DARPA 2000,2000 年后林肯實驗室的研究工作從公開轉為政府內部專用,至此以后便沒有公布測評數據及相關報告[5]。

DARPA 1998/99 模擬網絡環境可以分為兩部分:代表對空軍基地流量模擬的內網和代表Internet 的外網。由圖1,1998 內網實驗環境包含3 個機器,分別搭載當時普遍使用的Linux 2.0.27、SunOS 4.1.4 和Sun So?laris 2.5.1;一個用于模擬上百臺內部機和工作站的網關機器。外網實驗環境模擬Internet,包含一個用于捕獲網絡數據的嗅探器,以及一個用于模擬上百個工作站的網關和另一個模擬上百個Web 服務器的網關。由圖1,DARPA 99 在以下方面做了改進:①內網增加了一個Windows NT 工作站作為受害主機;②收集Windows NT 的安全事件和內網捕獲數據作為后續分析的數據源。

圖1 DARPA 1998及199評測數據及網絡環境示意圖

DARPA 1998 數據集包含3 種數據源:外網的網絡數據包、Solaris 審計數據和3 臺UNIX 受害主機的安全備份數據。網絡數據部分包含7 周訓練數據和2 周測試數據。訓練數據包含帶標簽的正常流量和22 種攻擊的惡意流量,測試數據中,除訓練集中出現過的攻擊種類外,新增17 種攻擊類型,而在1998 的測評中,測試集是不帶標簽的。1998 包含4 大類35 種超過120次網絡攻擊,4 大類分別是DoS、R2L、U2R 以及Probe,其中Probe 5 種實施43 次,DoS 11 種實施17 次,R2L 11 種實施38 次,U2R 8 種實施22 次。

DARPA 1999 數據集包含4 種數據源:內外網的網絡數據包、Solaris 審計數據、WinNT 主機審計日志以及4 臺主機夜間和安全有關的備份數據。網絡流量數據共包含5 周數據,分為3 周訓練數據和2 周測試數據。訓練集中,第1 和第3 周的流量不包括任何攻擊行為,第2 的攻擊流量包含部分1998 的攻擊數據和一些新增的攻擊類型。測試集中,56 種攻擊分布在第4與第5 周,用于入侵檢測系統的評估。其攻擊種類包含5 大類:DoS、R2L、U2R、Data 和Probe,總共56 種攻擊,212 次攻擊。其中Probe 8 種實施37 次,DoS 16 種實施65 次,R2L 16 種實施56 次,U2R 12 種實施37次,Data 4 種實施13 次。

DARPA 1999 相較1998 增加了一些攻擊類型,并基于當時空軍基地內網Window NT 系統的普及,增加了針對該系統的攻擊類型。1998 捕獲的網絡數據均來自于部署在外網的嗅探器,而1999 的數據來自于內外網數據。測試集中有17 類攻擊則是在1998 及1999訓練集中均未出現,可作為NIDS 系統未知攻擊的評測來源。

表1 DARPA 1999 測試集未知攻擊類別

3.2 UNSW-NB15

2015 年,新南威爾士大學(UNSW)在澳大利亞網絡安全中心(ACCS)網絡靶場中模擬了一個小型網絡,使用IXIA 工具模擬真實流量,產生大量正常和攻擊流量。IXIA 攻擊數據來源于CVE 網站上不斷更新的網絡漏洞和攻擊,該數據集包含9 種不同的攻擊,包含pcap 原始流量和csv 文件,并預分了訓練集和測試集。UNSW-NB15 被認為是可作為DARPA 良好替代的網絡數據集[3]。

IXIA 流量生成器由3 個虛擬服務器配置,服務器1 和服務器3 都用于傳輸正常流量,服務器2 用于形成攻擊行為。在服務器1 上安裝Tcpdump,用于采集模擬實驗過程中的所有流量數據。三臺服務器通過兩臺路由器與主機連接,如圖2 所示。防火墻將路由器相連之外,所有流量不論異常與否都需要通過防火墻。整個模擬過程分兩部分,第一部分持續16 小時,捕獲約50GB 文件,第二部分持續15 小時,捕獲約50GB 文件。每一部分的文件都分成1000MB 以內的小文件保存。通過模擬實驗過程的攻擊執行表獲得標簽數據,該攻擊執行表通過IXIA 實驗報告獲得[12]。

圖2 UNSW-NB15數據集實驗環境示意圖

該數據集包含2 類數據源:原始流量(Pcap)和經IDS 處理后的特征文件(csv)。捕獲的原始流量共100GB,然后經過IDS 特征匹配,提取出49 個關鍵特征以及標簽,共254 萬條記錄。其中CSV 文件分為訓練集和測試集,訓練集17 萬條記錄,測試集8 萬條記錄,包含各類異常和正常數據。UNSW-NB15 產生9 類攻擊,未進行二級分類,如表2 所示。

3.3 CSE-CIC-2018

加拿大通信安全機構(Communications Security Es?tablishment/CSE)和網絡安全研究院(Canadian Institute for Cybersecurity/CIC)于2018 年合作并公布了入侵檢測數據集CSE-CIC-IDS2018[13],這也是目前為止最新的公開IDS 數據集。

表2 UNSW-NB15 數據集攻擊數據分類及描述

CSE-CIC-IDS2018 實現的網絡是基于AWS 計算平臺搭建的LAN 網絡拓撲,被攻擊的網絡包括420 臺計算機和30 臺服務器,劃分了5 個子網,分別是研發部門、管理部門、技術人員部門、運營部門、IT 部門以及服務器機房。其中除IT 部門外的其他部門均安裝了不同的Windows 操作系統,如Windows 8.1 和Win?dows 10,而IT 部門均安裝Ubuntu 操作系統。服務器機房則部署了不同Windows Server 版本如2012 和2016 版本,包括郵件服務器、文件服務器和應用服務器等。實施攻擊的網絡則包括50 臺計算機,包括Win?dows 8、Windows 10 和Ubuntu 等。該數據集網絡結構最大的特點是模擬企業網絡劃分和涵蓋豐富的操作系統平臺,使得該數據集更加貼近真實網絡環境。生成數據集的實驗網絡拓撲結構可見圖3。

根據該網絡拓撲方案,實現從目標網絡外部的一臺或多臺計算機實施攻擊,并采集相應數據。數據捕獲過程持續10 天,每天捕獲時間從13 分鐘到97 分鐘不等。通過CICFlowMeter 特征提取工具處理,原始流量被83 個統計流量特征表示,例如持續時間、數據包個數、字節總數、數據包長等。數據集包含3 種數據源:①實驗過程捕獲的原始流量(Pcap);②主機日志記錄;③帶標簽的流(CSV)。網絡數據除了良性(Benign)流量外,還包括7 種攻擊場景下產生的流量,并細分為14 種攻擊類型。全部流量(Pcap)約350GB。除原始流量外,CIC2018 數據集還提供了經提取后的流數據,每一條記錄是一個具有83 種特征及標簽的流記錄,方便將數據集用于機器學習各類算法。CSE-CIC-IDS2018 的7 大類14 種攻擊數據分布在10 天,實驗涉及主機包含一攻一、一攻多和多攻多等模式,涉及7 種協議:HTTPS、HTTP、SMTP、POP3、IMAP、SSH 和FTP,其中大部分是HTTP 和HTTPS。表3 描述了各個入侵類型生成使用的工具、平臺以及持續時間。

圖3 CSE-CIC-IDS2018數據集實驗環境示意圖

3.4 對比分析

雖然DARPA 1998/99 評估數據集距今已有二十年歷史,但該數據集及其衍生出的KDD CUP99 及NSLKDD 仍是使用最廣泛的網絡數據集。DARPA 1999 增加了完全不含攻擊流量的訓練數據,擴展了對異常檢測的支持、增加了對NT 內網網絡流量的記錄、增加了隱蔽性強和新類型所占的比例,并且一部分攻擊僅在測試集出現,便于評估未知攻擊的檢測能力。DARPA 1998/99 數據集缺點主要在于:模擬網絡環境簡單,時隔較遠,不能體現現如今企業復雜的生產環境下的產生的網絡流量;實驗中用到的主機OS 版本較為過時或被主流市場淘汰,涉及協議類型和服務或存在同樣的問題;當攻擊利用IDS 未監控的協議和服務時,會出現漏檢[9]。

UNSW-NB15 產生9 類攻擊,未進行二級分類。UNSW-NB15 攻擊數據的產生來源于攻擊不斷更新的CVE 網站,故它包含的攻擊類型較新且在其他數據集中較少出現,如Fuzzers、Generic 等,對于其他類型較少的數據集可以作為補充。同時,攻擊數據的記錄數占總體數據約12.64%,正常流量占絕大多數。對比DARPA 數據集,UNSW-NB15 具有更全面和現代的攻擊類型,包含更多IP 地址數量,更符合現代攻擊場景特點[14]。但相較于DARPA 和CSE-CIC-IDS2018,其數據捕獲時間相對較短,而一般而言,數據采集時間越長,該數據集的流量分布會越貼近真實環境。

CSE-CIC-IDS2018 數據集是在模擬環境下產生的網絡流量數據集,包括基于數據包的原始流量和帶標簽的雙向流文件,正常行為由腳本產生。相比較DAR?PA 數據集,其優勢在于:模擬企業網絡劃分和涵蓋豐富的操作系統平臺:CSE-CIC-IDS2018 數據集模擬超過400 臺計算機和30 臺服務器、包含5 個內網的公司內部網絡結構,而DARPA 1999 數據集產生的攻擊數據僅來源于4 臺主機;涵蓋的OS 系統包括Windows 10、Windows 8 及Kali Linux 等目前主流平臺,攻擊流量對當前網絡環境更有針對性和威脅性。DARPA 1999 中計算機的操作系統例如Solaris 2.5(1996 年發布),Sun 公司已停止對其的支持。覆蓋到的攻擊類型較新,例如DDoS,僵尸網絡,Heartbleed 和內網滲透等;攻擊數據占比小,符合真實流量分布情況。當然,也存在一些遺憾:數據集未預分出訓練和測試集;流量捕獲時間為10 天,相較于DARPA 1999 數據集5 周的采集時間,持續時間不長。

表3 CSE-CIC-IDS2018 數據集攻擊類型及實施情況

4 結語

本文從數據產生環境、數據構成及攻擊流量的角度詳細介紹了三個數據集,DARPA 系列數據集作為最為久遠的入侵檢測評測數據集仍然是廣大研究人員使用最普遍的數據集,其實現工具及環境雖然已經過時,但細致的流量分類方法可為今后的數據集生成提供參考。如果需要將數據直接用于機器學習模型,提供預處理后數據的UNSW-NB15 和CSE-CIC-IDS2018 是很好的選擇,尤其是前者,提供預先分類的訓練集和測試集。CSE-CIC-IDS2018 作為最新的NIDS 數據集,模擬企業網絡劃分和涵蓋豐富操作系統平臺使得其對當今網絡環境的適配性更強。

基于以上的分析,對今后網絡數據集的研究方向做出一些展望。首先,由于不同的數據集對于數據類型,尤其是攻擊流量的分類方式存在很大差異,在類型上可能存在交叉、重疊或者沖突等問題,在利用多數據集進行NIDS 模型訓練時限制了其泛化能力。因而為了在數據源層面對模型進行改進,對數據集的網絡攻擊統一分類是有必要的。另外,針對數據集過時或與環境不相適應而導致模型可用性低的問題,可生成針對當前網絡環境的評測數據集。如針對專用網絡的NIDS 可基于由本地網絡環境采集流量數據構建的數據集來建立;或者在公共網絡中構建符合廣泛需求的公開數據集。評測數據集對于入侵檢測技術的發展有著積極意義,尤其在改進入侵檢測系統性能以及研究相關評測標準等方面發揮重要作用,在今后的研究中將會對相關領域做進一步探索。

表4 DARPA 1998/99、UNSW-NB15 及CSE-CIC-IDS2018 數據集概況對比

猜你喜歡
環境檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
“幾何圖形”檢測題
“角”檢測題
孕期遠離容易致畸的環境
不能改變環境,那就改變心境
環境
主站蜘蛛池模板: 凹凸精品免费精品视频| 国产91蝌蚪窝| 成人综合在线观看| 天天综合网色| 亚洲熟女中文字幕男人总站| 啦啦啦网站在线观看a毛片| 国产精品林美惠子在线播放| 国产成人一区| 国产成人夜色91| 一边摸一边做爽的视频17国产| 最新国产网站| 97久久超碰极品视觉盛宴| 午夜精品久久久久久久2023| 国产高潮视频在线观看| 无码专区在线观看| 热这里只有精品国产热门精品| 国产美女免费| 国产午夜无码专区喷水| 日韩最新中文字幕| aaa国产一级毛片| 日韩精品一区二区三区视频免费看| 亚洲欧美日韩中文字幕在线| 免费播放毛片| 亚洲无码37.| 最新国产高清在线| 亚洲日韩Av中文字幕无码| 九九热免费在线视频| 2021国产乱人伦在线播放| 五月婷婷丁香色| 久久久噜噜噜| 午夜小视频在线| 91无码国产视频| 久久综合色播五月男人的天堂| 国产一级α片| 中文字幕人成人乱码亚洲电影| 国产第八页| 亚洲人成色在线观看| 成人噜噜噜视频在线观看| 欧美精品成人| 91亚洲精品国产自在现线| 久操线在视频在线观看| 日本一区中文字幕最新在线| 99久久精品视香蕉蕉| 国内精品视频在线| 日本精品视频| 在线观看国产精品日本不卡网| 99久久国产综合精品2023| 国产精品一区在线麻豆| 自慰高潮喷白浆在线观看| 久久一级电影| 国产亚洲视频免费播放| 国产一区二区三区免费| 国产在线专区| 99er这里只有精品| 午夜一级做a爰片久久毛片| 国产精品视频白浆免费视频| 美女黄网十八禁免费看| 2048国产精品原创综合在线| 日本午夜影院| 国产精品久久自在自线观看| 国产欧美视频综合二区| 国产91导航| 亚洲成人在线网| 3344在线观看无码| 精品国产免费观看一区| 91年精品国产福利线观看久久| 国产精品视频公开费视频| 71pao成人国产永久免费视频| 91久久夜色精品国产网站| 欧美日韩激情| 黄片一区二区三区| 国产免费久久精品44| 三上悠亚精品二区在线观看| 国产亚洲高清视频| jijzzizz老师出水喷水喷出| 国内精自视频品线一二区| 亚洲系列中文字幕一区二区| 91探花国产综合在线精品| 欧美精品不卡| 亚洲系列中文字幕一区二区| 国产精品一区二区久久精品无码| 网友自拍视频精品区|