999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向非平衡小樣本數據集的人侵檢測方法研究

2025-09-15 00:00:00柯泓明王夢鴿
荊楚理工學院學報 2025年4期

中圖分類號:TP393.08 文獻標志碼:A 文章編號:1008-4657(2025)04-0018-07

0 引言

網絡入侵檢測系統作為工業物聯網安全中不可或缺的技術,通常作為一種軟件機制部署,用于監控和檢測整個工業網絡的入侵事件或異常[11。在工業物聯網中從大量高維網絡流量數據中進行可靠的入侵檢測結果對于傳統的規則型入侵檢測系統來說仍然是一項非常艱巨的任務。現有的人侵檢測研究已經探索了不同種類的自動編碼器(AE)技術[2],并在將高維特征重新編碼為低維特征方面取得了巨大成功。但是在面對不平衡并且數據特征維度高的數據集時,模型仍表現出超高的誤報率[3](FAR)。

本文設計了一種基于變分長短期記憶網絡(VLSTM)的網絡人侵檢測模型來處理不平衡網絡流量數據集中的特征維度高引起的模型誤報率高的問題。

1VLSTM模型框架

本文提出的VLSTM模型主要是解決不平衡數據集的中數據的高維特征入侵檢測問題。該模型旨在追求原始數據的壓縮和特征保留之間的平衡,其主要由壓縮網絡和估計網絡兩個模塊組成。模型框架圖如圖1所示,壓縮網絡是VLSTM模型的核心模塊,其主要包括LSTM編碼模塊[4]變分重參數模塊和LSTM解碼模塊,估計網絡的設計目的是通過一個輕量級的分類網絡根據輸入的網絡流量數據的低維特征表示來獲得準確度更高的入侵檢測識別結果。

如圖1所示,受傳統AE的啟發[5],使用了編碼器——解碼器結構來對信息進行編碼和解碼,已獲得保留全部特征信息的低維特征表示[6]。

圖1VLSTM模型框架圖

模型中使用LSTM來作為編碼器對輸入特征向量 ?x1,x2,x3? 進行編碼。編碼過程的數學表達如下:

w=h(X,θs)#

其中 θs 為LSTM編碼器的參數, h(*) 為LSTM編碼器的數學函數。 w 為經過LSTM編碼器壓縮之后的嵌入向量。與AE類似,如果模型直接使用LSTMEncoder的輸出時,獲得的嵌入向量的不可觀察性通常會導致分類結果的不確定性。因此,變分重參數化模塊被設計為與LSTM編碼器共同優化低維特征向量。變分重參數模塊的具體原理是通過變分貝葉斯方法對 w 進行轉換成一個新的隱變量。在這個模塊中,LSTM編碼器模塊的輸出 w 作為其輸入,用于生成一個低維度的隱變量其數學符號定義為 Z 這個過程可以用如下數學公式來表達:

Z=ν(w,θν)#

其中 θν 為變分貝葉斯方法的參數, u(*) 為變分貝葉斯方法。

變分重參數模塊的壓縮過程可能會損失一些模型判別人侵數據的關鍵特征信息也有可能會帶來新的噪聲數據。為避免這些問題,讓模型能夠獲得一個更好的低維特征表示,并實現更佳的檢測效果,該框架也設計成了AE框架類似的結構即編碼器-解碼器結構。模型通過增加一個解碼器,使用中間的隱變量 Z 進行重構成一個和輸入向量相似的特征向量。從而保證了中間的隱變量中信息的完整性。其過程的數學公式可以表述如下:

X'=g(Z,θd)#

其中 θd 為LSTM解碼器的參數。 g(*) 為LSTM解碼器的函數。 X' 為重構向量,其維度必須要和輸入向量 X 一致。

基于全連接深度神經網絡構建的估計網絡旨在識別輸入數據是否可以歸類為正常流量數據或一種特定類型的網絡攻擊[3]。估計網絡的輸入來自壓縮網絡計算出的低維隱變量 Z

y' 表示估計網絡的輸出,可看作是基于本文提出的VLSTM模型的最終分類結果

總的來說,VLSTM模型的主要功能可以總結為:i)通過LSTM編碼器從高維原始輸入數據中獲得低維輸出 w 。ii)使用變分貝葉斯方法構造隱變量Z,并通過LSTM解碼器以及變分重新參數化中涉及的特殊的損失函數對Z進行優化,以應對不平衡數據。ii)通過基于更明確的隱變量 Z 輸入到估計網絡進行網絡流量分類,用于入侵檢測。

2 變分LSTM模型架構

2.1 變分法重構隱變量

傳統的采樣方法(例如,馬爾可夫蒙特卡洛采樣方法[7])計算 AE 的邊際似然函數 的解空間,即使在一個非常小的數據集中,所需要的計算成本也是十分高昂。變分自編碼器(VAE)中采用變分貝葉斯的方法采用的估計的方法來計算,使得計算成本不再是一個問題。本研究受其啟發,在模型中也使用變分貝葉斯方法來計算AE 的邊際似然函數的解空間。變分貝葉斯方法通過構造一個新的分布 q(Z|X) 來近似不可計算的后驗分布 p(w|X) ,然后通過優化他們之間最大似然的最小下界,從而達到計算 p(w|X) 的目的。

輸入 X(i) 的最大對數似然函數可以分解為 p(w|X(i)) 和 的Kullback-leibler(KL)散度與 X(i) 的密度函數的下限之和。公式如下:

本文將 定義為重構項,主要用于估計 Z 和 X(i) 分布之間的差異。 DKL[q(Z|X(i))|| ]用來估計 和 p(w∣X(i)) 分布之間的差異。模型中采用了梯度上升的方法來獲得似然函數 L(θ,X(i)) 的最大下界的值。變分法構造出 來近似替代 。具體的構造方法為:先引入一個參數 ρ∈~N(0,1) ,然后采用重參數方法對 w 的分布進行估計,估計后的分布為 Z ,具體的計算如下:

Z=μ+μ∈?ρ#

Z 服從一個特定的高斯分布 Z~N(μ,ρ2) 。其中 μ 和 ρ 分別由一個不同的非線性神經網絡來計算。通過這個重新參數化過程,與傳統的AE方案相比,可以學習到更合理、更明確的隱藏變量 Zc 0

2.2隱變量的魯棒性約束

在優化過程中,深度學習模型可能會受到多種因素的影響,甚至會在對抗性競爭中引入不必要的噪音。因此,在學習過程中引入了三個損失函數來約束并優化隱藏變量 Z ,以保證重構隱藏變量的特征分布與原始輸入數據的特征分布一致。

首先,模型設計了輸入向量 X(i) 和重構向量 X(i) 之間的重構損失,用來衡量隱變量 Z 中保留了 X 的特征信息量。計算公式如下:

然后,定義了真實數據的標簽 y' 和預測結果 y(i) 之間的交叉信息熵,用來作為分類器的損失函數 lμi (2公式如下:

lμi=-p(y(i))logq(y(i))#

此外,進一步研究了 Z 和 X(i) 之間的 KL 散度損失。先考慮它倆的互信息。按照定理可以知道,互信息 I(X(i),Z) 的值越大,表示 Z 中包含 X(i) 中的信息越多。互信息的公式表達如下:

I(X(i),Z)=Ep(X0,Z)[logp(X(i),Z)-logp(X(i))p(Z)]=Ep(X0,Z)[Dkl[p(Z|X(i))||p(Z)]]#

公式(8)中可以看到能使用 DKL 來對 Z 和 X(i) 進行估計。然而這一項也是公式(4)的一個組成項,我們要使公式(4)最大化,在此過程中反而最小化了 DKL° 這意味著減小了公式(8)的值,同時這兩個優化之間存在著一個對抗的過程,然而在后續的實驗中也觀察到了種現象。實際上,公式(4)的重構項和KL散度項相互依賴。最大 I(X(i),Z) 的下限可以通過最小化重構項來實現。重構項用于調整公式(4)和公式(8)之間的平衡,最終可以促進VLSTM模型中更顯式和更有意義的隱藏變量的學習。因此,可以定義 LKL(i) 來表示Z和 X(i) 之間的散度損失,可以用對抗性競爭的方式表示如下:

lKL(i)=-L(θ;X(i))#

2.3損失函數設計及算法

在VSLTM模型中,為了能夠處理非平衡數據集下的高維數據,我們通過設計了三個損失函數:重構損失 lrecon 、分類損失 lμ 和KL散度損失 l?KL 一起協作的限制低維特征表示隱變量 Z ,從而減少優化過程中噪聲的影響。模型的整體損失函 lνistm 用數學形式描述如下:

lvistm(i)=lrecon(i)+lKL(i)+lμ(i)#

VLSTM網絡入侵檢測模型的流程描述如下。

輸入:訓練數據集 D 和 Y 對應的標簽

輸出:各個數據的預測標簽 Y 。

Step1對訓練數據的特征向量進行歸一化處理;

Step2使用LSTM編碼器對輸入數據的特征向量進行特征抽取并降低其維度,利用變分貝葉斯方法生成隱變量Z,并在訓練過程中不斷更新;

Step3使用LSTM解碼器重構 X' ,它的特征維度與輸入數據 X 相同;

Step4將隱變量 Z 輸入到分類網絡,得到異常檢測的分類結果 Y 。

3 實驗結果與分析

3.1 實驗準備

使用64位Win10操作系統,四核八線程Intel(R)core i5-1135G7CPU和16GBDDR4 RAM,采用Python3.7編程,分別在公共的IBD數據集UNSW-NB15[8]和CIC-IDS2017[9]數據集進行對比實驗,UNSW-NB15 數據集記錄了9種網絡攻擊行為,分別為Fuzzers,Analysis,Backdoors,Dos,Exploits,Generic,Reconnaissance,Shellcode,Worms,包括49個特征,本實驗去除了原始數據Lable 標簽項,將attack_cat項作為標簽項,入侵問題轉化為十分類問題,共有48個特征,訓練集1750002條,測試集700001條,無須平衡處理。CIC-IDS2017數據集是在一個模擬正常流量的小型網絡環境中記錄的,原始數據包捕獲和具有80個特性的網絡流量都可以使用,訓練集1979513,測試集848363,數據集涵蓋了許多最新的互聯網的攻擊類型,因此在實驗中使用它。

3.2 隱變量效果檢驗

首先對隱變量 Z 的表示進行可視化,以評估壓縮網絡的重新參數化有效性。在本實驗中,將生成的隱變量 Z, 輸入向量 X 和重構向量 X' 分別使用主成分分析(PCA)降維成一個三維向量,并進行可視化分析,并用不同形狀和顏色的點表示不同的數據類型,結果如圖2所示。

圖2基于PCA的特征表示可視化結果圖

從圖2(a)和圖2(b)觀察到輸入向量和重構向量的數據分布幾乎是一致的。這個結果表明,用于生成重構向量的隱藏變量保留了足夠的原始向量特征信息。

為了驗證特征抽取的效果,基于PCA將隱藏變量可視化,如圖2(c)所示。從圖2(c)可以看出,隱變量特征表示可視化的結果,數據被清楚地分為兩部分,即攻擊和正常部分。這種聚類現象顯然表明攻擊數據被成功識別并與正常數據嚴格區分開來,這意味著原始輸人數據中的那些關鍵特征被有效地保留在隱藏變量中。此外,兩個集群之間的明顯距離,表示為藍點和紅點,說明這個隱藏變量將導致后者估計網絡中的FAR分數相對較低。總之,這些PCA結果可以驗證VLSTM模型在通過所提出的壓縮網絡優化隱變量方面的有效性,尤其是在處理不平衡數據集中的高維特征數據時。

3.3網絡入侵檢測結果分析

實驗中,選擇Adam作為模型的優化策略,它是隨機梯度下降(SGD)的升級版本。

在本實驗中,模型的學習率設置為0.005,最大迭代次數設置為200。為了評估本文提出的檢測模型的訓練過程,將 lrecon?lKL 、 lμ 在每次迭代中的損失分別比較,模型收斂速度曲線如圖3所示。

圖3VLSTM訓練過程的損失曲線圖

由圖3可知,模型的整體損失在前10次迭代便快速下降,然后變得相對穩定,結果表明了該模型在網絡入侵檢測中的魯棒性。

進一步將本文提出的模型與六種基線方法,在檢測網絡入侵的能力方面進行了比較。實驗中,分別在公共的IBD數據集UNSW-NB15和CIC-IDS2017數據集進行對比實驗,采用了耗時/s,Precision,Recall,F1score,FAR和AUC作為模型的評估指標體系[10]。在數據不平衡,網絡流量特征維度高的背景下,更加關注模型對于FAR指標的優化程度[1]。表1、2中分別展示了模型在驗證數據集和測試數據集的檢測結果。

表1UNSW-NB15數據集入侵檢測結果比較表

表2CIC-IDS2017數據集入侵檢測結果比較表

從如表1、2結果中,我們發現六種基線方法在驗證數據上表現良好,但在測試數據上表現相對較差,這是因為模型產生了過度擬合問題。相比之下,VLSTM方法在測試數據上優于這六種方法,F1為,FAR為,AUC為。這表明所提出的VLSTM模型可以有效地避免過度擬合問題。總體結果表明,與基線方法相比,本文的方法可以有效地區分攻擊與正常網絡流量數據,并顯著降低了誤報率;在兩個一數據集下進行相同的數據預處理步驟,VLSTM運行模型的運行時間分別為 1032s,1245 s相比于其他方法運行時間更短,也更適合現實場景下的需求。

4結論

本文設計了一種VLSTM入侵檢測模型來應對不平衡網絡數據集中的數據維度高的問題。提出的VLSTM模型,它主要由一個壓縮網絡和一個分類網絡組成,其中壓縮網絡主要包括LSTM編碼器模塊、變分重參數模塊和LSTM解碼器模塊,旨在降低高維原始數據的復雜性,但不丟失關鍵特征。并提出了一種基于變分貝葉斯的重新參數化方案,以重建用于低維特征表示的隱藏變量。特別地,模型中設計了三個損失函數,即重建損失、分類損失和KL散度損失,他們之間互相約束,將隱藏變量約束為更明確的和有意義的形式。從而模型可以構建出更加精細的特征表示以至于只需要非常輕量級估計網絡就可以進行網絡流量分類。實驗過程中采用了UNSW-NB15和CIC-IDS2017的開放數據集進行實驗。評估結果表明,VLSTM模型可以顯著增強特征提取,降低誤報率并提高檢測精度,運行時間更短,從而表明本文的方法在非平衡網絡數據集中數據特征維度高的網絡入侵檢測中的有用性及可行性。但本文仍存在一些需要改進的問題,比如探索更好的數據預處理技術或對非平衡數據更為敏感的損失函數來進一步提高模型的效果,提高計算效率來用于實時網絡入侵檢測,這是下一步改進的方向。

參考文獻:

[1]徐忠原,楊秀華,王業,等.面向不平衡數據集的網絡入侵檢測算法[J].吉林大學學報(信息科學版),2023,41(6):1112-1119.

[2]張國令,王曉丹,李睿,等.基于棧式降噪稀疏自編碼器的極限學習機[J].計算機工程,2020,46(9):61-67.

[3]陳鋼,李德英,陳希祥.基于改進XGBoost模型的低誤報率竊電檢測方法[J].電力系統保護與控制,2021,49(23):178-186.

[4]張鵬飛.基于機器學習的入侵檢測模型對比研究[J].信息安全研究,2023,9(8):739-744.

[5]KurniabudiK,HarrsA,MintariaAE.Komparasi formationgain,ainratio,CFsbestfirstdanCFs-SOsearchterhdapper formadeteksianomali[J].JurnalMediaInformatikaBudidarma,2O21,5(1):332-343.

[6]KristianYSantosoJ.Pemanfaaandeepconvolutionalutoencoderuntukitigasiseranganadversarialattckpadacitradigital[J].JournalofInformationand Technology,2O23,11(1):50-59.

[7]Muharisa C,YanuarF,Yozza H.Perbandingan metode maximum likelihooddan metode bayes dalammengestimasi parameter model regresi linier berganda untuk data berdistribusi normal[J]. Jurnal Matematika,2O19,4(2):100-107.

[8]Ohno H.Auto-encoder-based generativemodels fordataaugmentationonregresionproblems[J].Soft Computing,220,24 (11):7999-8009.

[9]ZhouXiaokang,HuYiyong,LiangWei,etal.VariationalLSTenhancedanomalydetectionforidustrialbigdata[J]EEE TransactionsonIndustrial Informatics,2020,17(5):3469-3477.

[10]JoseJ,JoseDV.Depleamingalgorithsforntrusiondetectionsystems ininteretoftngsusingCICIDO17datase]. International Journal of Electrical and Computer Engineering(IJECE),2023,13(1) :1134-1141.

[11]Haris A I,Riyanto B,Surachman F,etal.Analisis pengamanan jaringan menggunakanrouter mikrotik dari serangandos dan pengaruhnya terhadap performansi[J]. Komputika:Jurnal Sistem Komputer,2O22,11(1) :67-76.

Research on Intrusion Detection Methods for Unbalanced Small Sample Datasets

KE Hongming,YANG Jing,SHI Yang,WANG Mengge (School of Mathematicsand Computer Science,Hanjiang Normal University,Shiyan442OOo,China)

Abstract:Inordertodealwiththeproblemofhighmodel1alarmratecausedbyhighfeaturedimensionalityinunbalanced few-samplenetworktraffcdatasets,anetworkintrusiondetectionmodelbasedonreconstructedfeaturerepresentationforetwork detectionwith VariationalLngShort-Tem Memory(VLSTM)isproposed.Anencoder-decoderneuralnetwork associated witha combinedvariationalreparameterizationschemeisdesignedimingtolearlow-dimensionalfeaturerepresentationsfromhighdimensionalrawdata.Threelossfunctions aredefinedtoconstrain thereconstructedhidden variablesintoclearerand more meaningfulfeaturerepresentatios,andtenproviderefinedfeaturerepresentationstoelightweightstimationnetworkfordentifgnet work anomaliesinIBD.Using thecommonIBDdatasets UNSWNB15andCIC-IDS2017forcomparative experiments,theresults showthatthe VSTMmodelcaneffectivelydealwith imbalanceandhigh-dimensionalproblems,andtheresultsofF1,AUC,and FAR indicate improved accuracy and reduced 1 alarm rates for network detection.

Key Words :intrusion detection;sample less leaming;feature selection;unbalanceddataset;GAN;variational Bayesian

[責任編輯:許立群]

主站蜘蛛池模板: 国产成人综合日韩精品无码首页 | 91系列在线观看| 欧美日韩亚洲国产主播第一区| 美女扒开下面流白浆在线试听| 野花国产精品入口| 欧美成人影院亚洲综合图| 狠狠v日韩v欧美v| 午夜福利视频一区| 亚洲香蕉在线| 一本大道香蕉中文日本不卡高清二区| 国产精品一区二区久久精品无码| 国产午夜精品鲁丝片| 亚洲视频二| 青青操国产视频| 国产成人做受免费视频| 亚洲AV成人一区国产精品| 中文字幕无码中文字幕有码在线| 熟女成人国产精品视频| 成人午夜天| 亚洲区第一页| 国产精品3p视频| 久久无码免费束人妻| 亚洲国产欧美中日韩成人综合视频| 国产精品.com| 伊人久久精品无码麻豆精品 | 国产日本一线在线观看免费| 亚洲国产成人久久77| 一级毛片免费观看不卡视频| 国产无码性爱一区二区三区| 蜜桃臀无码内射一区二区三区| 精品一区二区三区视频免费观看| 制服丝袜在线视频香蕉| 欧美a在线看| 欧美成人免费午夜全| 人妻精品全国免费视频| 国产福利大秀91| 少妇被粗大的猛烈进出免费视频| 成人午夜福利视频| 97se亚洲综合在线天天| 久久人搡人人玩人妻精品一| 久久网欧美| 欧美特级AAAAAA视频免费观看| 亚洲欧美一区二区三区图片| 成年人国产视频| 人妻无码一区二区视频| 日韩无码白| 欧美成人一级| 国产AV无码专区亚洲精品网站| 免费精品一区二区h| 国产资源站| 91香蕉国产亚洲一二三区| 狼友视频国产精品首页| 99精品热视频这里只有精品7| 福利小视频在线播放| 国产精品一区二区在线播放| 欧美日韩国产在线观看一区二区三区 | 日韩精品高清自在线| 亚洲国产精品无码AV| 国产精品页| 四虎国产永久在线观看| 四虎精品免费久久| 一区二区三区成人| 色悠久久久久久久综合网伊人| 国产不卡一级毛片视频| 综合色88| 亚洲成人网在线播放| 人妻21p大胆| 国产91丝袜在线观看| 国产色婷婷| 国产精品片在线观看手机版| www.91在线播放| 强奷白丝美女在线观看| 欧美啪啪一区| 成人福利免费在线观看| 久久亚洲高清国产| 成人另类稀缺在线观看| 国产农村1级毛片| 国产18在线播放| 在线人成精品免费视频| 在线精品亚洲一区二区古装| 三级欧美在线| 日本国产一区在线观看|