999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于可解釋學習的物聯網安全通用入侵檢測系統

2021-11-24 06:49:06魏明銳
綿陽師范學院學報 2021年11期
關鍵詞:特征檢測模型

魏明銳

(安徽農業大學經濟技術學院,安徽合肥 230011)

0 引言

物聯網是一個由互聯設備組成的生態系統,每個設備都嵌入了計算工具,如傳感器或處理單元,以通過互聯網收集、存儲和交換數據[1].然而,保護物聯網網絡安全已經成為實施此類網絡的主要挑戰之一[2].網絡入侵檢測系統(NIDS)旨在保護數字物聯網網絡免受網絡威脅[3].傳統NIDS旨在分析傳入的流量特征,并將它們與已知的攻擊特征之一進行匹配.這種方法對已知的攻擊具有很高的檢測精度,但是它無法檢測到物聯網網絡中看不見的威脅,即零日攻擊.因此,研究人員應用新興的機器學習技術來學習和檢測網絡流量的有害模式,以檢測入侵[4].在這一領域已經進行了大量的學術研究,開發了許多基于機器學習的NIDS算法,當應用于某些數據集時,大多達到了較高的檢測精度.然而,這種系統在網絡中的實際部署數量非常少[5].主要原因是缺乏對基于機器學習的內部NIDS操作的理解[6]和不可靠的評估方法[7].目前,基于機器學習的網絡入侵檢測系統是作為一個復雜的“黑盒”提供的,它在某些數據集上取得了很好的檢測結果.機器學習模型的復雜性使得它們很難解釋所做預測背后的基本原理.因此,在入侵檢測等高度敏感的領域,組織不愿意相信機器學習決策[6].因此,可解釋的人工智能方法被應用于現代系統,以解釋和解釋機器學習模型所做的決定.通過理解和修改影響模型決策的因素,可解釋的模型輸出可以幫助維護和排除基于模型的NIDS部署的故障.此外,在此類系統的評估階段使用的數據集通常是用一組獨特的數據特征生成的.提出一個標準特征集,該標準特征集允許使用一個公共特征集跨多個數據集評估所提出的系統.然而,在提出的基于網絡流的特征集上,機器學習模型的性能從未與跨多個數據集的另一組特征進行過比較.因此,本文旨在通過三個數據集比較由CICFlowMeter[8]設計的特征集和的NetFlow特征集.這將允許使用跨多個數據集的NetFlow(網絡流量)和CICFlowMeter特征集對建議的機器學習模型進行可靠評估.此外,通過使用SHAP解釋方法計算每個特征的Shapley值,已經解釋了由機器學習分類器獲得的分類結果.這將有助于識別模型預測中使用的關鍵特征.

1 可解釋的網絡入侵檢測系統

在基于機器學習的NIDS的設計已經涌現出了大量工作,并且達到很高的準確度.然而,與其他領域相比,該方法的錯誤成本要高得多.因為NIDS的運作要求在任何時候都是最佳的,以避免出現安全隱患.機器學習通常被認為是一種“黑箱”技術,在這種技術中,人們不清楚學到了什么模式,也不清楚為什么要做出預測.在基于機器學習的NIDS環境中,模型訓練、預測和將網絡流量分類為攻擊類別的方式通常很神奇.因此,很多機構不愿意實現基于語言模型的工具.有多種原因,如數據源、數據特征、類不平衡和不準確的數據集,會對機器學習模型做出的預測產生巨大影響.這使得理解和深入了解機器學習內部運營和決策變得至關重要.

上述動機導致了可解釋學習該研究領域的出現,其目標是分析和解釋機器學習模型的內部操作.因此,將可解釋學習的技術應用于基于機器學習的NIDS,對于通過增加對機器學習的信任來縮小廣泛的學術研究和操作部署之間的偏見就顯得尤為重要.解釋機器學習模型檢測結果的一種方法是確定哪些網絡數據特征有助于分類器的決策,這就意味著確定分類器使用數據集的哪些特征來區分良性樣本和攻擊樣本至關重要.首先,它有助于識別哪些包含安全事件的特征應該在模型設計層面考慮.另一方面,定位出那些僅包含有限數量安全事件的特征,且從數據集中省略.此外,模型的分類決策將基于這些特征的值來加以證明.這有助于排除模型預測錯誤導致的不良影響.因為它允許安全專家分析導致誤分類的特征值.在獲得這些信息后,可以進一步調整模型參數和所利用的特征.

(1)

通過計算每個特征的貢獻程度來解釋模型的決策將有助于揭示機器學習的“黑箱”.本文利用Shapley值來解釋網絡數據特征在網絡攻擊檢測中的重要性.Shapley值是由Lloyd Shapley在1953年發明的,這是一種根據玩家對游戲總支出的貢獻來分配玩家支出的方法.Shapley值背后的理論已經在機器學習領域中采用,其中“游戲”代表數據集中單個樣本的預測任務.“支出”是一個樣本的實際預測減去所有樣本的平均預測.“玩家”是合作獲得“支出”的樣本的特征值.總的來說,Shapley值是特征值各自貢獻的加權平均值.Shapley值(?j)通過等式1定義,其中S是模型使用的特征的子集.x表示數據集樣本的特征值向量,p是總特征數.每個xj是j = 1的特征值,...,.p和valx(S)是子集S中特征值的預測.

SHAP解釋是由Lundberg和Lee開發的一種常見的可解釋人工智能技術.它基于一種計算Shapley值的附加特征重要性方法,稱為核SHAP和樹SHAP.與其他可解釋學習方法相比,SHAP方法具有很強的理論基礎,可以用來解釋任何機器學習模型的輸出.SHAP提出的新方法顯示出比其他方法更高的性能.KernelSHAP是一種基于核的Shapley值計算方法,受用于解釋任何機器學習模型的局部代理模型的啟發.樹形圖用于解釋基于樹的機器學習模型,如決策樹、隨機森林和額外的樹,通過利用它們內部的“樹”結構來加速解釋過程.當實現時,SHAP通過基于每個特征對預測過程的貢獻計算每個特征的重要性來解釋每個數據樣本x的預測.等式2定義了由SHAP指定的解釋,其中g是機器學習模型.z'∈{0,1}M是所用特征的聯合向量,M代表最大聯合大小,?j∈R是特征j的Shapley值.當使用SHAP來確定特征重要性時,具有較大Shapley值的特征更重要.SHAP計算數據集內每個要素的平均重要性.

(2)

2 數據集

控制數據集信息的網絡數據特征對機器學習模型的最終質量有很大的影響[10].需要這些特征來表示足夠數量的安全事件,以幫助模型的分類任務.為了可靠地評估基于機器學習的NIDS性能,需要使用相同的特征集在多個數據集上對模型進行評估.多個數據集將有助于評估模型對不同攻擊類型和網絡環境的檢測的泛化能力.目前,NIDS數據集具有不同的特征集,這些特征集通常彼此完全不同.然而,當模型部署在實際網絡上時,提取這些信息是不可行的.因此,跨多個數據集使用單個特征集在模型設計中至關重要,這增加了評估的可靠性和潛在部署的機會.NIDS數據集需要在表示的信息方面相似,以促進可靠的實驗.數據集表示的信息由組成數據集的網絡要素的選擇決定.由于數據集作者在選擇網絡要素時已經應用了他們的領域知識,因此大多數可用的數據集都由一組幾乎唯一的要素組成.

通用特征集支持跨不同數據集和攻擊類型的機器學習模型的可靠實驗評估.目前,共有四個NIDS數據集共享一個基于網絡流的公共要素集.這些特征被提議作為在未來的NIDS數據集上使用的標準集.因此,在本文中,由CICFlowMeter工具[8]設計的特征與三個數據集的標準NetFlow特征集進行了比較.作為實驗的一部分,CICFlowMeter工具已被用于從ToN-IoT和BoT-IoT數據集提取特征.從數據包捕獲文件生成的數據流已經使用標注的真實事件以二進制和多類方式進行了標記.生成的數據集分別被命名為CIC-ToN-IoT和CIC-BoT-IoT提供用于研究目的.所選數據集包括:NFC-CSE-CIC-IDS2018-v2、NFC-ToN-IoT-v2、NFC-BoT-IoT-v2、CSE-CIC-IDS 2018、CIC-ToN-IoT和CIC-BoT-IoT將允許對跨多個網絡環境和攻擊類型的兩個常見特征集的機器學習實驗進行評估.它還將綜合評估這兩個特征集,并比較啟用機器學習模型進行入侵檢測的性能.數據集介紹如下:

(1)CSE-CIC-IDS2018[11].一個著名的NIDS數據集,于2018年在一個涉及通信安全機構和加拿大網絡安全研究所的項目中發布.用于模擬網絡流量的試驗臺是以涉及多個部門的組織網絡方式建立的.暴力、機器人、DoS、DDoS、滲透和網絡攻擊等攻擊類型都是從外部發起的.數據集包含75個使用CIC FlowMeter-v3工具提取的特征[8].總共有16,232,943個數據流,其中13,484,708(83.07%)是良性的,2,8,235(16.93%)是攻擊樣本.CIC-ToN-IoT.,其中CICFLowMeter的特征集是從ToN-IoT數據集的pcap文件中提取的[12].CICFlowMeter-v4[8]用于提取83個特征.有5,351,760個數據樣本,其中2,836,524(53.00%)是攻擊樣本,2,515,236(47.00%)是良性樣本.

(2)CIC-BoT-IoT.CICFlowMeter-v4[8]用于從BoT-IoT數據集[13]pcap文件中提取83個特征.數據集總共包含13,428,602條記錄,其中包含13,339,356條(99.34%)攻擊樣本和89,246條(0.66%)良性樣本.攻擊樣本由繼承自父數據集的四種攻擊場景組成,即.DDoS、DoS、偵察和盜竊.

(3)NFC-CSE-CIC-IDS 2018-v2[7].CSE-CIC-IDS 2018數據集[11]已使用nProbe[14]轉換為43個基于NetFlow的要素,以生成NFC-CSE-CIC-IDS 2018-v2.流量總數為18,893,708,其中2,258,141(11.95%)為攻擊樣本,16,635,567(88.05%)為良性樣本.有六種攻擊類別,如暴力、機器人、DoS、DDoS、過濾和網絡攻擊.

(4)NF-ToN-IoT-v2[7].基于2021年發布的43個NetFlow特性生成的物聯網數據集.這些特征是使用nProbe[14]從原始母(ToN-IoT)數據集[12]的pcaps文件提取的,該數據集由澳大利亞網絡安全中心(ACCS)在Cyber Range實驗室生成的.攻擊數據流總數10,841,027(63.99%)和6,099,469(36.01%)是良性數據流,總計16,940,496個樣本.有九種攻擊類別,分別是后門、拒絕服務、拒絕服務、注入、MITM、密碼、軟件、掃描和XSS.

(5)NF-BoT-IoT-v2[7].2021年發布了一個新生成的基于43個NetFlow特性的物聯網數據集.這些特征是使用nProbe[14]從原始數據集的pcaps中提取的,原始數據集被稱為BoT-IoT,由ACCS的網絡實驗室生成[13].它包含37,763,497個標記的網絡數據流,其中大多數是攻擊樣本;37,628,460(99.64%)和135,037(0.36%)為良性.數據集中有四種攻擊類別,即.DDoS、DoS、偵察和盜竊.

3 評價

在實驗過程中,深度前饋和隨機森林分類器被用來對數據集中存在的網絡數據流進行分類.目的是評估CICFlowMeter格式(CSE-CIC-IDS2018、CIC-BoT-IoT和CIC-ToNIoT的三個數據集以及它們各自的NetFlow格式(NF-CSE-CIC-IDS2018-v2、NF-BoT-IoT-v2和NF-ToN-IoT-v2)的數據集.此外,將利用SHAP方法對結果進行分析和解釋,以確定有助于模型最終預測的關鍵特征.為了避免對攻擊設備和受害設備的學習偏見,丟棄了源/目標入侵防御系統和端口.此外,也刪除了時間戳和流標識特征,因為它們對于每個數據樣本是唯一的.最小-最大定標器用于歸一化0和1之間的所有值.使用幾個二進制分類指標來對結果進行量化評估,例如準確度、F1分數、檢測率(DR)、誤報率(FAR)、曲線下面積(AUC)和預測單個數據樣本所需的預測時間(以微秒計).為了公平評估,進行了五次交叉驗證,并測量了平均結果.

為了評估,深度前饋和隨機森林分類器被設計為將數據集樣本分類為攻擊和良性兩種類別.表1和表2分別列出了使用隨機森林和深度前饋分類器的六個數據集的攻擊檢測結果.兩種分類器通過增加容積率和降低容積率,在NF-CSE-CICID 2018-v2數據集上獲得了比CSE-CIC-IDS2018數據集更高的檢測精度.導致分別使用隨機森林和深度前饋分類器的F1分數從0.93增加到0.98和從0.90增加到0.97.這證實了的.隨機森林分類器在ToN-IoT和BoT-IoT數據集的NetFlow和CICFlowMeter特征集上獲得了非常相似的檢測結果.在這兩個數據集中,F1分數從0.99增加到1.00.FAR從CIC-ToN-IoT的1.22%降至NF-ToN-IoT-v2的0.58%,從CIC-BoT-IoT的1.53%降至NF-BoT-IoT-v2的0.25%.在這兩個數據集中,NetFlow特性比CICFlowMeter特性需要更少的預測時間.深度前饋模型在NF-ToN-IoT-v2數據集上的檢測率(DR)顯著提高,達到95.37%,而在CIC-ToN-IoT數據集上的檢測率為92.29%,這導致F1評分從0.94提高到0.96.這也是NFC-BoT-IoT-v2數據集的NetFlow功能中的場景,與CIC-BoT-IoT僅95.99%的檢測率相比,該數據集實現了99.54%的高檢測率.

表1 隨機森林的分類結果

表2 深度前饋網絡的分類結果

與CICFlowMeter特征相比,NetFlow特征所需的預測時間更短,這可以用組成數據集的特征總數更少來解釋.較高的攻擊檢測率和較低的誤報率表明基于網絡流的特征包含更多或更高質量的安全事件,有助于機器學習模型進行有效的網絡入侵檢測.總的來說,不斷提高的檢測精度表明提出的網絡流特征集能夠更好地幫助機器學習模型識別所有三個數據集中存在的攻擊.圖1直觀地展示了在攻擊檢測場景中使用NetFlow特性集與CICFlowMeter特征集相比的優勢.圖1a和1b分別基于隨機森林和深度前饋分類器對結果進行了分組.圖中顯示,與CICFlowMeter特征相比,NetFlow特征在三個數據集上始終獲得更高的F1分數.

圖1 在三個NIDS數據集中兩種特征集的分類性能

當使用NetFlow特征集對機器學習模型的檢測精度進行訓練和評估時,機器學習模型的檢測精度的不斷提高證明了在NIDS方向對其進行標準化的優勢.NetFlow特征集支持兩種機器學習模型:深度前饋網絡和隨機森林,遵循深層次和淺層次的學習結構,在針對不同網絡環境設計的三個數據集上實現可靠的性能,并包含大量不同的攻擊類型.在BoT-IoT和ToN-IoT數據集上,CICFlowMeter的結果稍差,在CSE-CIC-IDS2018數據集上,檢測攻擊的效率在一定程度上較低.此外,NetFlow特征集的另一個優點是,與包含83個特征的CICFlowMeter相比,它包含的特征較少,只有43個.較少數量的特征將有助于增強網絡的特征提取、分析和存儲操作.最后,NetFlow特征自然存在于網絡數據包的報頭中,不需要額外的任務來收集,不像CICFlowMeter特征包括基于總和、最大值、最小值、標準偏差和平均值計算的統計測量特性,這在實時高速網絡中是不可行的.

4 結果分析

在本節中,將利用SHAP技術對上述結果進行解釋和分析.SHAP用于篩選出有助于最終預測的特征,并因此確定機器學習模型的分類性能.Shapley值定義了每個數據樣本的特征值對最終結果的貢獻程度.平均Shapley值是所有測試樣本的Shapley值的平均值.Shapley平均值越高,表示該特征值對模型最終預測結果的影響越大.因此,Shapley值越大的特征越值得我們去分析和研究.前20個特征的平均Shapley值如圖23所示(本文僅列出CSE-CIC-IDS2018和NF-CSE-CIC-IDS2018-v2兩個數據集上的可視化結果).Y軸特征基于它們在用于評估機器學習模型的整個測試數據樣本中的平均Shapley值(X軸)結果進行排序.每個圖都顯示了分別由隨機森林和深度前饋模型的KernelSHAP和TreeSHAP方法確定的平均Shapley值.為了直觀且有效的進行比較,平均Shapley值已被標準化為從0到1的取值范圍.由于相似的特征集和攻擊類型,本節將對每個數據集的結果分別進行分析.

圖2 CSE-CIC-IDS2018數據集中前20個特征的Shapley值分布圖

在圖2中,CSE-CIC-IDS2018數據集的特征已經通過它們各自的平均Shapley值進行了排序.圖2a和2b分別解釋了隨機森林和深度前饋分類器的結果.使用隨機森林分類器時,包含與流前進方向相關的安全事件的特征構成了影響模型決策的前四個特征.特別是“Fwd Seg Size Min”(前向分段大小最小值)特征對結果的影響幾乎是其他任何特征的兩倍.隨機森林分類器似乎給特征分配了相對分布的權重,導致Shapley值逐漸減小.然而,深度前饋分類器通過常規操作,根據特征的重要性程度為不同特征分配不同的權重,因此Shapley值急劇下降.導致前十個特征對模型的決策有幾乎占據了大部分的影響.前兩個特征分別表示每秒前向和后向數據包的數量,隨后是“Fwd Seg Size Min”(前向分段大小最小值)特征,這是影響隨機森林分類器的主要特征.

圖3a和3b分別解釋對比了使用隨機森林和深度前饋分類器在NF-CSE-CIC-IDS2018-v2數據集上的攻擊檢測性能.兩個分類器的前20個影響特征中有13個共同特征.這表明它們包含關鍵的安全事件,可用于檢測NFC-CSE-CIC-IDS 2018-v2數據集中存在的攻擊.常見特征主要包括基于傳輸控制協議(TCP)和生存時間(TTL)的特征.“TCP_WIN_MAX _OUT”分別是深度前饋和隨機森林分類器中影響最大的第一個和第二個特征,它表示從目的主機到源主機的最大TCP窗口.總的來說,深度前饋分類器為特征分配權重的特性可以從Shapley值的急劇下降現象中看出,前10個特征對分類器的決策結果占據了絕大部分的影響.

圖3 NF-CSE-CIC-IDS2018-v2數據集中前20個特征的Shapley值分布圖

5 結論

基于機器學習的網絡入侵檢測系統在研究界取得了卓越的攻擊檢測性能.然而,應用在實際部署的規模一直不足.對跨多個數據集的公共特征集的有限評估以及對分類結果的解釋行不足均導致了將研究結果轉化為產品的失敗局面.本文對所提出的基于網絡流的特征集進行了評估,并與CICFlowMeter設計的特征集進行了比較.在三個數據集上使用兩種機器學習分類器分別進行了評估.通過這種評估方式表明了在NIDS數據集上擁有通用特征集的重要性和必要性.由機器學習模型生成的分類結果表明網絡流特征在三個數據集上的一致性影響.其中深度前饋和隨機森林分類器在更短的預測時間內實現了更高的攻擊檢測精度.此外,SHAP方法通過測量特征重要性來解釋機器學習模型的預測結果.已經為每個數據集確定了影響模型預測的關鍵特征.

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 伊人天堂网| 亚洲精品成人片在线观看| 亚洲三级影院| 4虎影视国产在线观看精品| 久久精品人妻中文系列| 日本欧美一二三区色视频| 青青草一区| 在线亚洲精品福利网址导航| 欧美一区福利| 国产精品免费p区| 热这里只有精品国产热门精品| 午夜爽爽视频| 精品国产自在现线看久久| 午夜爽爽视频| 老司机午夜精品视频你懂的| 一本色道久久88综合日韩精品| 99久久精品免费看国产免费软件| 婷婷六月激情综合一区| 亚洲精品第一页不卡| 99热6这里只有精品| 日日摸夜夜爽无码| 欧美一区二区精品久久久| 亚洲日本在线免费观看| 国产美女91视频| 黄色国产在线| 日韩区欧美国产区在线观看| 色AV色 综合网站| 99国产精品免费观看视频| 奇米精品一区二区三区在线观看| 国产网友愉拍精品视频| 亚洲天堂2014| 亚洲啪啪网| 国产97色在线| 成人免费一区二区三区| 亚洲精品午夜天堂网页| 99这里精品| jizz在线免费播放| 婷婷亚洲视频| 国产在线观看精品| 免费一级成人毛片| 欧美三級片黃色三級片黃色1| 91网在线| 激情在线网| av在线5g无码天天| 亚洲国产亚洲综合在线尤物| 国产视频入口| 免费av一区二区三区在线| 精品五夜婷香蕉国产线看观看| 午夜毛片福利| 99热这里只有精品5| 欧美成人手机在线视频| 国产精品自在在线午夜区app| 无码精品一区二区久久久| 人妖无码第一页| 国产成人精品第一区二区| 国产亚洲精品资源在线26u| 亚洲精品大秀视频| 日韩免费毛片视频| 久久99国产综合精品女同| 91免费国产高清观看| 美女无遮挡免费网站| 久久女人网| 日韩二区三区无| 欧美色视频网站| 国产91透明丝袜美腿在线| 女同国产精品一区二区| 2048国产精品原创综合在线| 免费精品一区二区h| 日韩高清中文字幕| 青青青伊人色综合久久| 国产va免费精品| 高清精品美女在线播放| 精品国产网| 她的性爱视频| 亚洲区视频在线观看| 她的性爱视频| 亚洲国产精品无码久久一线| 亚洲日韩第九十九页| 午夜毛片福利| 成人综合在线观看| 无码免费视频| 亚洲成人高清无码|