999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學(xué)習(xí)算法的網(wǎng)絡(luò)入侵檢測(cè)模型研究

2025-09-02 00:00:00李安邦
電腦知識(shí)與技術(shù) 2025年23期

摘要:鑒于網(wǎng)絡(luò)威脅的復(fù)雜性,網(wǎng)絡(luò)入侵檢測(cè)算法需不斷升級(jí)以提高識(shí)別率和攔截率。文章基于集成學(xué)習(xí)算法,結(jié)合多種機(jī)器學(xué)習(xí)模型的優(yōu)點(diǎn),提出一種新型網(wǎng)絡(luò)入侵檢測(cè)模型。該模型集成各種基礎(chǔ)算法,如決策樹、K近鄰(KNN) 、多層感知器(MLP) 和樸素貝葉斯,綜合各個(gè)算法在測(cè)評(píng)指標(biāo),如準(zhǔn)確率、精確率、召回率、混淆矩陣、F1值中體現(xiàn)出的優(yōu)勢(shì),采用分層方法克服單個(gè)模型的缺點(diǎn),同時(shí)采用交叉驗(yàn)證法確保模型的可靠性及擴(kuò)展性。評(píng)估實(shí)驗(yàn)表明,該模型對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)集的預(yù)測(cè)顯示出較高的準(zhǔn)確性、精確性和召回率,從而證明該模型在識(shí)別網(wǎng)絡(luò)惡意活動(dòng)方面的有效性。

關(guān)鍵詞:集成學(xué)習(xí);網(wǎng)絡(luò)入侵檢測(cè);模型訓(xùn)練;機(jī)器學(xué)習(xí)

中圖分類號(hào):TP3" "文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2025)23-0078-03

開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)

1 概述

入侵檢測(cè)系統(tǒng)(IDS) 是實(shí)現(xiàn)網(wǎng)絡(luò)安全的重要工具,而基于機(jī)器學(xué)習(xí)的檢測(cè)方法是應(yīng)用最廣泛的技術(shù)之一。機(jī)器學(xué)習(xí)算法可以對(duì)網(wǎng)絡(luò)流量、系統(tǒng)日志等進(jìn)行分析和訓(xùn)練,通過學(xué)習(xí)來適應(yīng)新的攻擊特征,構(gòu)建模型來識(shí)別入侵行為,可以適應(yīng)不斷變化的攻擊方式。然而,基于機(jī)器學(xué)習(xí)的檢測(cè)法也存在一定缺陷。一方面,其需要大量的標(biāo)記樣本進(jìn)行訓(xùn)練,且可能受到攻擊者對(duì)訓(xùn)練數(shù)據(jù)的干擾。另一方面,網(wǎng)絡(luò)威脅和網(wǎng)絡(luò)架構(gòu)的復(fù)雜性也提高了對(duì)算法模型要求[1]。

本文基于集成學(xué)習(xí)算法,提出一種先進(jìn)、穩(wěn)定的網(wǎng)絡(luò)入侵檢測(cè)模型。該模型使用堆疊集成技術(shù),通過結(jié)合多種機(jī)器學(xué)習(xí)模型來提高檢測(cè)的魯棒性和準(zhǔn)確性。其中,多層感知器(MLP) 、K近鄰(KNN) 、樸素貝葉斯和決策樹等多個(gè)基礎(chǔ)模型構(gòu)成了集成框架的核心。單個(gè)模型通過獨(dú)立處理輸入數(shù)據(jù)并進(jìn)行預(yù)測(cè),來形成捕捉可能威脅的獨(dú)特感知。然后,通過使用這些預(yù)測(cè)作為使用邏輯回歸實(shí)現(xiàn)的元模型的輸入,進(jìn)而有效地合成信息,以最終確定通信數(shù)據(jù)的性質(zhì)。

2 基于集成學(xué)習(xí)算法的網(wǎng)絡(luò)入侵檢測(cè)模型數(shù)據(jù)描述及處理

2.1 數(shù)據(jù)描述

本研究采用的數(shù)據(jù)集來自Kaggle,共有50 384個(gè)條目,每個(gè)條目包含42個(gè)特征,所涉網(wǎng)絡(luò)指標(biāo)包括協(xié)議類型、服務(wù)和流量數(shù)據(jù)類型,如從源傳輸?shù)侥繕?biāo)的字節(jié)數(shù)、登錄狀態(tài)和錯(cuò)誤率。“流量數(shù)據(jù)類型作為目標(biāo)變量,描述網(wǎng)絡(luò)流量是被歸類為“正常”還是“異常”。具體來說,該數(shù)據(jù)集由26 898個(gè)標(biāo)記為“正常“的實(shí)例和23 486個(gè)標(biāo)記為”異常“的實(shí)例組成。本數(shù)據(jù)集為機(jī)器學(xué)習(xí)模型的訓(xùn)練提供了基礎(chǔ)數(shù)據(jù),旨在有效區(qū)分正常與異常網(wǎng)絡(luò)行為。

網(wǎng)絡(luò)流量數(shù)據(jù)類型分布如圖1所示。x軸表示流量分類(正常或異常) ,y軸表示每個(gè)類別的頻率。在這種情形下,數(shù)據(jù)集似乎與大約26 898個(gè)正常流量實(shí)例和23 486個(gè)異常流量實(shí)例相平衡。這種平衡分布降低了在使用不平衡數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)出現(xiàn)偏差問題的可能性。

根據(jù)數(shù)據(jù)統(tǒng)計(jì),將網(wǎng)絡(luò)流量事件分為正常或異常兩類,三種常見網(wǎng)絡(luò)協(xié)議(TCP、UDP和ICMP) 中網(wǎng)絡(luò)流量事件的分布情況如圖2所示。其中,TCP是最常用的協(xié)議,其大部分流量均為正常。UDP流量的頻率較低,異常率也較低。ICMP流量最不常見,異常率也很低。而十種常見服務(wù)類型中觀察到的網(wǎng)絡(luò)流量事件正常異常情況如圖3所示。其中,大部分異常流量來自所謂“私人”服務(wù),表明可能存在安全問題。相反,HTTP流量表現(xiàn)出較低的異常率和大量的正常活動(dòng)。而其他服務(wù),如“telnet”和“ftp數(shù)據(jù)”,則表現(xiàn)出正常和異常流量的混合,表明可能存在漏洞或有針對(duì)性的攻擊[2]。

2.2 數(shù)據(jù)處理

數(shù)據(jù)處理主要包括以下幾個(gè)步驟:1) 數(shù)據(jù)加載:使用pd.read_csv()函數(shù)將數(shù)據(jù)集導(dǎo)入Python環(huán)境。此步驟涉及從文件NID_data.csv讀取數(shù)據(jù),并將其加載到pandas DataFrame中進(jìn)行額外處理;2) 刪除常量特征:發(fā)現(xiàn)并刪除常量特征(在每個(gè)實(shí)例中具有相同值的特征) 。這個(gè)過程是必要的,因?yàn)楹愣ㄌ卣鞑粫?huì)增加模型的預(yù)測(cè)能力。每個(gè)特征的唯一值的數(shù)量是通過將apply()函數(shù)與pd.Series.ninunique結(jié)合使用來確定的。通過丟棄只有一個(gè)唯一值的特征,數(shù)據(jù)集的維度和可能的噪聲得以降低;3) 分離特征和目標(biāo)變量:對(duì)于監(jiān)督學(xué)習(xí)任務(wù),其目標(biāo)是根據(jù)輸入特征預(yù)測(cè)目標(biāo)變量,分離特征和目標(biāo)變量必不可少。特征(X)和目標(biāo)變量(Y)組成了數(shù)據(jù)集的兩部分。“分類”目標(biāo)變量指示網(wǎng)絡(luò)流量是典型還是異常;4) 編碼分類列和標(biāo)準(zhǔn)化:為了將分類變量轉(zhuǎn)換為便于機(jī)器學(xué)習(xí)算法進(jìn)行更好預(yù)測(cè)的格式,此步驟需要通過使用pd.get_dummies()函數(shù),將特征集中的分類變量通過一次熱編碼轉(zhuǎn)換為數(shù)值表達(dá)。然后,使用sklearn..preprocessing中的StandardScaler()函數(shù)對(duì)標(biāo)準(zhǔn)化特征進(jìn)行縮放,使平均值為0,標(biāo)準(zhǔn)偏差為1。標(biāo)準(zhǔn)化對(duì)于測(cè)量數(shù)據(jù)點(diǎn)之間距離或假設(shè)數(shù)據(jù)呈正態(tài)分布的算法而言至關(guān)重要;5) 主成分分析(PCA) :主成分分析作為降維的一部分,被應(yīng)用于標(biāo)準(zhǔn)化特征集,將原始特征轉(zhuǎn)化為一組新的不相關(guān)成分,這些成分按其捕獲的方差量排序[3]。本研究中主成分分析被配置為保留數(shù)據(jù)集中95%的方差,確保在減少特征數(shù)量的同時(shí)保留最關(guān)鍵的信息,有助于降低計(jì)算復(fù)雜性、減輕維數(shù)災(zāi)難;6) 標(biāo)簽編碼:在進(jìn)行主成分分析之后,為了使機(jī)器學(xué)習(xí)算法在二元分類任務(wù)中處理目標(biāo)變量,需要使用sklearn的LabelEncoder來轉(zhuǎn)換目標(biāo)變量。在這一步中,數(shù)字標(biāo)簽0和1用于對(duì)分類目標(biāo)變量進(jìn)行編碼,該變量指示網(wǎng)絡(luò)流量是“正常”還是“異常”[4];7) 分割訓(xùn)練集和測(cè)試集:利用sklearn.model_selection中的train_test_split函數(shù),將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。該模型使用訓(xùn)練集進(jìn)行訓(xùn)練,訓(xùn)練集包含80%的數(shù)據(jù),剩下的20%用于驗(yàn)證和測(cè)試模型在未測(cè)試數(shù)據(jù)上的性能。為了確保多次運(yùn)行結(jié)果的可重復(fù)性或一致性,將隨機(jī)參數(shù)設(shè)置為機(jī)器學(xué)習(xí)算法中常見的42,即“random_state=42”[5]。

3 基于集成學(xué)習(xí)算法的網(wǎng)絡(luò)入侵檢測(cè)模型定義及訓(xùn)練

3.1 模型定義

模型集成分類器通過使用sklearn.ensemble中的StackingClassifier將許多基礎(chǔ)模型與最終的元模型組合在一起。StackingClassifier 是一種高階集成方法,通過將多個(gè)基模型的預(yù)測(cè)結(jié)果作為輸入訓(xùn)練元模型,其具有分層結(jié)構(gòu)特性,即:基模型層(Level-0) 和元模型層(Level-1) 。前者為多個(gè)異質(zhì)或同質(zhì)的基礎(chǔ)分類器(如隨機(jī)森林、KNN、邏輯回歸) ,后者以基模型的輸出為特征,訓(xùn)練一個(gè)高階分類器進(jìn)行最終決策。該集成方法的優(yōu)勢(shì)和特點(diǎn)如下:1) 提升泛化性能。通過結(jié)合多個(gè)基模型的預(yù)測(cè),利用模型多樣性降低單一模型的偏差或方差,通常能獲得比單一模型或簡(jiǎn)單投票/平均更好的泛化能力;2) 自適應(yīng)融合優(yōu)勢(shì)。元模型(如邏輯回歸、梯度提升樹等) 能夠自動(dòng)學(xué)習(xí)基模型輸出的最優(yōu)組合方式,而非簡(jiǎn)單平均或投票,更靈活地捕捉不同模型間的互補(bǔ)性;3) 減少過擬合風(fēng)險(xiǎn)。Stacking 默認(rèn)使用交叉驗(yàn)證生成基模型的預(yù)測(cè)(如 cv=5) ,避免直接用訓(xùn)練集預(yù)測(cè)導(dǎo)致元模型過擬合,增強(qiáng)魯棒性;4) 支持異構(gòu)模型融合。基模型可以是不同類型(如決策樹、SVM、神經(jīng)網(wǎng)絡(luò)等) ,充分利用不同算法對(duì)數(shù)據(jù)特征的差異化捕捉能力。

本研究中被定義為估計(jì)器的基礎(chǔ)模型包括:1) MLP分類器:ReLU激活和兩個(gè)隱藏層(128和64神經(jīng)元) 組成了這個(gè)多層感知器神經(jīng)網(wǎng)絡(luò)。通過max_iter=1000和“adam”求解器等參數(shù)確保了有效的訓(xùn)練;2) KNeighborsClassifier:一種距離加權(quán)投票算法,使用K近鄰分類器來檢查五個(gè)近鄰;3) GaussianNB:一個(gè)適合高斯樸素貝葉斯模型的大數(shù)據(jù)集,具有特征獨(dú)立性;4) DecisionTreeClassifier:每個(gè)分割和葉子的最小樣本數(shù),最大深度為10,以避免決策樹中的過擬合。而最終的估計(jì)器LogisticRegression能夠有效地組合基礎(chǔ)模型預(yù)測(cè)。同時(shí),設(shè)置cv=5可通過5倍交叉驗(yàn)證確保穩(wěn)健性。

3.2 模型訓(xùn)練

首先,通過調(diào)用fit(X_train, y_train)函數(shù)對(duì)堆疊集成模型進(jìn)行訓(xùn)練。其次,基礎(chǔ)模型預(yù)測(cè)最初被訓(xùn)練為新的特征集,最終估計(jì)器使用基礎(chǔ)模型預(yù)測(cè)進(jìn)行訓(xùn)練。再次,通過這一過程,最終估計(jì)器可以通過基于幾個(gè)基本模型的信息改進(jìn)預(yù)測(cè)來提高整體性能。

3.2.1 訓(xùn)練過程

訓(xùn)練過程具體分為以下四個(gè)步驟:1) 在原始數(shù)據(jù)上訓(xùn)練基礎(chǔ)模型:在堆疊集成模型中,原始訓(xùn)練數(shù)據(jù)集(X_train)用于單獨(dú)訓(xùn)練每個(gè)基礎(chǔ)模型。由于該數(shù)據(jù)集包括原始輸入特征,因此每個(gè)模型都可以識(shí)別信息中的趨勢(shì)和聯(lián)系;2) 為新數(shù)據(jù)集生成預(yù)測(cè):基礎(chǔ)模型在訓(xùn)練完后會(huì)根據(jù)X_train生成預(yù)測(cè)。這些預(yù)測(cè)不僅用于評(píng)估,還用作創(chuàng)建輔助數(shù)據(jù)集的新特征。新數(shù)據(jù)集作為最終估計(jì)器的輸入,可有效地將問題轉(zhuǎn)化為更高層次的學(xué)習(xí)任務(wù);3) 通過交叉驗(yàn)證確保魯棒性:為了增強(qiáng)模型的魯棒性并防止過擬合,本研究采用了交叉驗(yàn)證方法(cv=5)。在此過程中,X_train的每個(gè)段都被用作一次驗(yàn)證集,而其余段則用作訓(xùn)練集。在每個(gè)折疊過程中做出的預(yù)測(cè)被組合在一起,以創(chuàng)建一個(gè)新的數(shù)據(jù)集,確保最終的估計(jì)器不會(huì)收到可能導(dǎo)致過擬合的過度樂觀信息;4) 創(chuàng)建Level-1數(shù)據(jù)集:將所有基礎(chǔ)模型的預(yù)測(cè)疊加在一起,形成一個(gè)新的特征集,稱為L(zhǎng)evel-1數(shù)據(jù)集。該數(shù)據(jù)集保留了X_train中實(shí)例的原始順序,但用基礎(chǔ)模型生成的預(yù)測(cè)替換了原始特征。這種新的表達(dá)方法從多個(gè)模型中捕獲了學(xué)習(xí)到的模式,使最終的估計(jì)器能夠做出更明智的決策。

3.2.2 預(yù)測(cè)過程

模型預(yù)測(cè)過程具體分為以下兩個(gè)步驟:1) 訓(xùn)練最終估計(jì)器:將根據(jù)基礎(chǔ)模型的預(yù)測(cè)創(chuàng)建的Level-1數(shù)據(jù)集用于訓(xùn)練最終估計(jì)器。在此情形下,其為一個(gè)邏輯回歸模型。最終估計(jì)器學(xué)習(xí)如何對(duì)來自基礎(chǔ)模型的預(yù)測(cè)實(shí)現(xiàn)最優(yōu)組合,以提高集成的整體性能;2) 進(jìn)行最終預(yù)測(cè):一旦最終估計(jì)器獲得訓(xùn)練,便可以用于對(duì)新的、不可見數(shù)據(jù)進(jìn)行預(yù)測(cè)(X_test)。該過程首先將測(cè)試數(shù)據(jù)傳遞給基礎(chǔ)模型以生成預(yù)測(cè),然后由最終估計(jì)器使用這些預(yù)測(cè)來生成最終結(jié)果。這種分層方法允許堆疊集成利用多個(gè)模型的優(yōu)勢(shì),做出更準(zhǔn)確、更穩(wěn)健的預(yù)測(cè)。

4 基于集成學(xué)習(xí)算法的網(wǎng)絡(luò)入侵檢測(cè)模型性能評(píng)估

本研究對(duì)來源于Kaggle的數(shù)據(jù)集應(yīng)用堆疊集成算法模型,采用用于評(píng)估網(wǎng)絡(luò)入侵檢測(cè)的準(zhǔn)確性、精確度、召回率和F1分?jǐn)?shù)的評(píng)估指標(biāo),對(duì)該模型在實(shí)際應(yīng)用中的效果進(jìn)行評(píng)估。評(píng)估結(jié)果顯示,采用堆疊集成模型后,多個(gè)關(guān)鍵指標(biāo)均取得了良好表現(xiàn),如表1所示。

1) 準(zhǔn)確率:算法預(yù)測(cè)結(jié)果與真實(shí)結(jié)果一致程度達(dá)到99.93%,表明算法預(yù)測(cè)結(jié)果高度接近真實(shí)結(jié)果;2) 精確率:算法正確識(shí)別為正例的樣本數(shù)量占所有識(shí)別為正例的樣本數(shù)量的比例為99.89%,說明算法對(duì)正例具有很強(qiáng)的判斷能力;3) 召回率:算法找出所有正例樣本的比例為99.98%,代表算法對(duì)正例樣本具有高度的識(shí)別能力;4) 混淆矩陣揭示了模型的分類性能:其中真陰性(TN) 為4707,假陽性(FP) 為6,假陰性(FN) 為1,真陽性(TP) 為5363。通過比較TP、FN、FP和TN的數(shù)值,可以看到模型的TN和TP數(shù)值很高,而FP和FN數(shù)值很低,說明模型將很少負(fù)類樣本預(yù)測(cè)為正類,從而不存在過擬合或模型參數(shù)設(shè)置不當(dāng)?shù)膯栴};5) F1值:精確率和召回率的調(diào)和平均值為99.93%,說明算法具有優(yōu)良的綜合性能。表1中的各類算法指標(biāo)測(cè)算結(jié)果共同證明了堆疊集成模型在準(zhǔn)確分類實(shí)例方面的有效性,具有最小的錯(cuò)誤分類和較高的整體性能。

5 結(jié)束語

本文提出的網(wǎng)絡(luò)入侵檢測(cè)模型,通過堆疊集成多種學(xué)習(xí)方法,將多個(gè)基礎(chǔ)模型的預(yù)測(cè)結(jié)果結(jié)合起來,顯著提高了網(wǎng)絡(luò)入侵檢測(cè)準(zhǔn)確性,提升了網(wǎng)絡(luò)安全性。同時(shí),該模型還具備多功能和可擴(kuò)展性,可在不同網(wǎng)絡(luò)環(huán)境中部署,為網(wǎng)絡(luò)安全提供一種能夠不斷適應(yīng)新威脅的彈性解決方案,拓寬了集成算法在網(wǎng)絡(luò)入侵檢測(cè)乃至網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用范圍,探索開發(fā)更具彈性和可解釋性的入侵檢測(cè)系統(tǒng)提供實(shí)證案例支持。展望未來,有必要進(jìn)一步提升模型的泛化能力以及其對(duì)各種入侵場(chǎng)景的適應(yīng)性,包括考慮將生成對(duì)抗網(wǎng)絡(luò)(GAN) 集成到模型架構(gòu)中,以顯著增強(qiáng)其檢測(cè)性能。

參考文獻(xiàn):

[1] MOUSTAFA N,TURNBULL B,CHOO K R.An ensemble intrusion detection technique based on proposed statistical flow features for protecting network traffic of Internet of Things[J].IEEE Internet of Things Journal,2019,6(3):4815-4830.

[2] GAUTAM A,RAHIMI N.Viability of machine learning in Android scareware detection[C]//EPiC Series in Computing.EasyChair,2023:19-10.

[3] SHI Q,CHEN Y,XIE X L.Interplay of surface geometry and vorticity dynamics in incompressible flows on curved surfaces[J].Applied Mathematics and Mechanics (English Edition),2017,38(9):1191-1212.

[4] BROOME H,SHRESTHA Y,HARRISON N,et al.SMS malware detection:a machine learning approach[C]//2022 International Conference on Computational Science and Computational Intelligence (CSCI).December 14-16,2022.Las Vegas,NV,USA.IEEE,2022:936-941.

[5] TAO T.Finite time blowup for an averaged three-dimensional Navier-Stokes equation[J].Journal of the American Mathematical Society,2016,29(3):601-674.

【通聯(lián)編輯:朱寶貴】

主站蜘蛛池模板: 国产成人1024精品下载| 又黄又湿又爽的视频| 九九精品在线观看| 国产欧美在线| 亚洲视频无码| 国产成人综合在线视频| 亚洲AV无码不卡无码| 99一级毛片| 国产自无码视频在线观看| 青草视频久久| 人妻21p大胆| 91福利片| 国产乱子伦一区二区=| 波多野结衣一区二区三区AV| 青青青草国产| 亚洲视频四区| 亚洲有无码中文网| 亚洲香蕉久久| 久久特级毛片| 一级毛片免费观看久| 成人精品亚洲| 欧美翘臀一区二区三区| 日本午夜三级| 日韩午夜福利在线观看| 色135综合网| 91无码视频在线观看| 亚洲天堂伊人| 日韩视频福利| 亚洲欧美精品在线| 免费久久一级欧美特大黄| 色综合激情网| 东京热av无码电影一区二区| 99精品影院| 午夜毛片免费看| 中文国产成人精品久久| 青草娱乐极品免费视频| 不卡午夜视频| 久久人搡人人玩人妻精品| 亚洲天堂啪啪| 在线精品亚洲一区二区古装| 国产精品专区第1页| 午夜激情婷婷| 国产青榴视频| 欧美视频在线第一页| 婷婷亚洲天堂| av无码一区二区三区在线| 亚洲成人一区二区三区| 免费人成视网站在线不卡 | 色135综合网| 国产精品 欧美激情 在线播放| 免费无码在线观看| 中文字幕波多野不卡一区| 欧美精品成人| 宅男噜噜噜66国产在线观看| 欧美一道本| AV天堂资源福利在线观看| 四虎永久在线视频| 欧美色综合网站| 99精品福利视频| 亚洲中文字幕av无码区| 国产91高跟丝袜| 亚洲午夜18| 久久成人免费| 在线无码私拍| 曰AV在线无码| 亚洲va欧美va国产综合下载| 亚洲第七页| 99re66精品视频在线观看| 18禁黄无遮挡网站| 精品综合久久久久久97超人| 人人爽人人爽人人片| 香蕉精品在线| 亚洲二区视频| 国产高清无码麻豆精品| 91精品啪在线观看国产91| 亚洲欧美不卡中文字幕| jizz国产视频| 玖玖免费视频在线观看| 99热这里只有精品久久免费| 国内熟女少妇一线天| 中国国产A一级毛片| 欧美亚洲一区二区三区导航|