999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

代價約束算法對入侵檢測特征提取的優化研究*

2022-12-22 11:32:52鄭文鳳
計算機工程與科學 2022年3期
關鍵詞:特征提取分類特征

劉 云,鄭文鳳,張 軼

(昆明理工大學信息工程與自動化學院,云南 昆明 650500)

1 引言

惡意網絡攻擊帶來了嚴重的安全問題,入侵檢測系統IDS(Intrusion Detection System)對維護網絡安全尤為重要[1]。數據特征提取則是IDS防御的關鍵,選擇相關不冗余的數據特征可以提高模型的檢測準確性[2,3]。針對類不平衡的高維數據特征,深度學習方法可以直接從原始數據中自動提取相關特征,快速處理高維復雜數據[4]。因此,利用深度學習模型可降低傳統特征提取算法的計算復雜度,應對復雜數據集的特征提取,提高IDS的識別精度[5]。

Yang等人[6]結合稀疏自編碼器SAE(Sparse AutoEncoder)和降噪自編碼器DAE(Denoising AutoEncoder)的優點,設計了融合自編碼器FAE(Fusion AutoEncoder)深度學習算法,提出了多級降噪和重采樣的方法解決數據丟失和不平衡問題,FAE增強了模型的適用性和數據特征提取的學習能力,比傳統自動編碼器AE(AutoEncoder)具有更精確的檢測效果。Shone等人[7]根據深度學習和淺層學習的模型,提出非對稱深度自動編碼器NDAE(Nonsymmetric Deep AutoEncoder)學習算法,使用堆疊的NDAE和隨機森林構建深度學習分類模型,可有效進行無監督的特征學習,降低了非對稱數據維數并顯著減少模型的訓練時間,算法準確性與普通深度神經網絡算法相比更優。

為了從高維復雜數據中自動提取重要特征,構建更加可靠的IDS,本文提出代價約束算法CCA(Cost Constraint Algorithm),并將其集成到AE中進行無監督的特征學習。首先構建深度學習的神經網絡模型,利用L2正則化和稀疏約束方法優化目標函數;然后根據類別樣本分布生成的代價矩陣調整神經網絡模型的參數,通過堆疊多層的自編碼器學習數據特征;最終在分類器中輸入提取的約簡特征檢測分類結果。仿真結果表明,CCA減少了特征的冗余度,且對少數攻擊類別數據的識別更敏感,相比其他現有算法檢測網絡異常數據的精度更高。

2 基于深度學習的入侵檢測模型

2.1 入侵檢測模型

入侵檢測模型通過入侵檢測識別網絡攻擊行為,并給出適當的警告以提高網絡的安全性,該模型主要由數據特征提取和分類組成,其中,基于深度學習方法進行特征提取可以快速降低數據維度,并獲得更有效的數據特征[8]。為了應對大規模入侵數據,研究人員通常選擇多層神經元構成的自編碼器構建新的入侵檢測模型,其結構如圖1所示。

Figure 1 Intrusion detection model based on autoencoder

在圖1中,模型先用AE自動提取一組數據向量x=(x1,x2,…,xn)的相關特征,其中,xi表示第i個(i∈{1,2,…,n})訓練數據向量,n是輸入數據的總數。將最后一個隱藏層輸出的重構數據和特征作為分類層的輸入,優化損失函數得到模型的分類結果。Softmax是自編碼器常用的分類器,適用于解決多分類問題,可用該分類器作為檢測算法的輸出層。Softmax函數將多個神經元的輸出映射到[0,1],計算每個樣本數據分類為某個類別的概率如式(1)所示[9]。

(1)

其中,j∈{0,1,2,…,c}表示數據的類別;yi表示數據xi的類標記,如yi=0時,式(1)表示數據預測為正常網絡流量的概率。θ為訓練時的參數向量,θj為數據屬于第j類的參數。因此,入侵檢測模型通過P(yi=j|xi;θ)評估數據類別的概率值,為了進一步反向調節神經網絡參數,一般通過最小化交叉熵損失函數來實現,計算公式如式(2)所示:

(2)

其中,N表示訓練樣本的個數,I{yi=j}表示標簽yi屬于類別j的可能性,如果yi=j,則I=1,否則I為0。

由AE構成的入侵檢測模型,可以實現高維數據空間到低維數據空間的非線性轉換,但這種神經網絡只能學習簡單的數據特征。為了快速發現復雜數據中的重要信息,提取更深層次的數據特征,需要在基本的神經網絡上進行優化。通常的做法是在神經網絡的隱藏層添加約束或者重復多次學習,提高入侵檢測模型的檢測精度和收斂性[10]。

2.2 棧式稀疏自編碼器

將多個AE堆疊在一起學習的方法稱為棧式自編碼器SAE(Stacked AutoEncoder)[10]。為了降低時間復雜度,本文使用堆疊2個隱藏層的自編碼神經網絡進行深度學習,將最終提取的數據特征輸入分類器,其結構如圖2所示。

Figure 2 Structure of stacked autoencoder

輸入層、隱藏層和輸出層是SAE深度學習的基本組成,m和m′分別是隱藏層神經元的數量,+1是偏向神經元。神經網絡的上一層的輸出用作自編碼器的下一層的輸入,以便獲得輸入數據更高級別的特征表示。

無監督的神經網絡深度特征提取模型,學習數據的特征表示主要包含2個學習過程:編碼和解碼,編碼過程如式(3)所示[11]:

h=f(Wx+b)

(3)

其中,f(·)表示編碼器的非線性激活函數,W∈Rm×n表示編碼權重矩陣,b∈Rm表示編碼偏置向量。

式(3)將輸入向量x映射到隱藏層,編碼結果用h表示,然后用解碼激活函數g(·)重構隱藏表示h,如式(4)所示:

(4)

(5)

通過最小化重構誤差,可優化特征提取參數。

隱藏層的輸出數據是原始數據的低維表示,對隱藏神經元施加稀疏約束,選擇性地激活相關的神經元,構成棧式稀疏自編碼器SSAE(Stacked Sparse AutoEncoder)[3]。第k個神經元的平均激活如式(6)所示:

(6)

其中,ak(xi)表示在輸入xi時隱藏神經元k的激活度。

(7)

(8)

在稀疏懲罰項中,β為稀疏控制權重系數,其值在0~1。

常見的特征提取算法主要基于類別分布平衡的數據,但在實際入侵檢測中,數據存在嚴重的類不平衡問題,不同類別的攻擊存在明顯的分布不均。數據分布不均會嚴重影響算法的性能,為了提高IDS的可靠性,所提算法在特征提取中引入代價敏感學習方法,可獲得更加有效的低維數據特征[14]。

3 代價約束算法(CCA)

3.1 代價矩陣

為了降低IDS的誤報率,正確識別未知攻擊數據的入侵行為,需要增強少樣本數據特征的敏感性。用采樣技術平衡訓練數據的傳統方法具有一定的局限性,因此,將根據不同類別的樣本分布提出的代價矩陣C,集成到SSAE中進行特征學習,可提取稀缺數據的相關特征,提高IDS的可靠性。

表1表示具有5個類別數據集的代價矩陣C,其中,Cij表示實際類別i被預測為類別j的代價。當i=j時,Cij=0,表示正確分類的代價;當i≠j時,Cij> 0,表示錯誤分類的代價,數據分類錯誤的代價根據式(9)的樣本分布計算。

Table 1 Cost matrix with 5 types of data

(9)

其中,Ni表示i類數據實際樣本量,Nj表示i類數據預測為j類的樣本量。數據樣本越少,被錯分的代價越高。根據代價矩陣優化交叉熵損失函數,可得到具有代價約束的特征提取參數調整模型,如式(10)所示:

(10)

通過Cij降低少數類樣本數據錯分的概率,可使該類的數據特征更加敏感。

為了防止特征提取模型過度擬合,本文在代價函數中使用正則化方法優化權重參數,如式(11)所示:

(11)

利用L2正則化優化權重矩陣W,用正則化參數λ來控制權重懲罰力度,L是隱藏層的個數,ml是第l個隱藏層中神經元的數量。

通過最小化代價目標函數調整權重和偏置參數,可得到最優的SSAE特征提取模型,如式(12)所示:

(12)

3.2 代價約束算法步驟

為了解決算法初始化參數問題,CCA算法使用無監督學習預訓練模型的較低層,為第1層網絡生成初始參數,并將輸出作為下一層的輸入,最后通過貪婪的逐層訓練得到SSAE中每層網絡的初始參數。預訓練后,使用有監督的反向傳播學習對整個網絡進行微調,可以減少重構輸出與原始輸入的誤差。代價約束算法主要步驟如算法1所示。

算法1代價約束算法(CCA)

輸入:預處理后的n維原始數據x,代價矩陣C。

輸出:參數向量θ*,分類結果。

(1)Begin

(2)預訓練得到初始化參數θ1=(W1,b1,W′1,b′1)。

(3)根據代價矩陣C最小化式(12)的目標函數,利用原始數據x和參數θ1計算隱藏層的輸出h。

(4)訓練得到下一層網絡的參數θ2,計算第2個隱藏層的輸出。最后訓練得到初始化參數θ3。

(5)將提取的特征和重構數據輸入分類器并懲罰分類結果。當數據被錯分時,減少分類輸出值:

y′i=yi-Cij×yi

當預測類為實際類時,增加分類輸出值:

y″i=yi+Cij×yi

(6)反向傳播調整誤差,更新權重和偏置:

wij+lδyi←wij+Δwij←wij

bj+lδ←bj+Δbj←bj

(7)最小化目標函數值在幾個時期內變化極小時,神經網絡達到收斂,停止訓練步驟。

(9)End

在步驟(5)中,CCA算法通過相應的成本對實際分類和錯誤分類都進行懲罰,yi是預測輸出的類別,y′i是錯誤預測減少的新輸出,y″i是實際類預測增加的新輸出。因為預測類別輸出的值越大,預測數據類別的概率越高,所以CCA算法的特征懲罰學習可降低錯誤分類的輸出,提高數據類別檢測的準確性。

在步驟(6)中,wij是第l個隱藏層中神經單元i到下一層神經元j的連接權重。δ是神經元的誤差,反向傳播過程主要通過誤差調整2個參數值。

最后一層神經元誤差由預測類的輸出與實際類的輸出決定,計算公式如式(13)所示:

(13)

同時,當i不是最后一層的神經單元時,計算誤差要考慮2個連接單元的誤差的加權和,如式(14)所示:

(14)

wik是神經元i到下一層神經元k的連接權重。預訓練和微調可以降低訓練深度模型的時間復雜度,提高模型的泛化性能。在AE的Softmax分類器中,根據算法1得到的最優參數,激活函數F(x)計算最大條件概率P(yi=j|xi;θj),輸出x所屬的類別。

(15)

4 仿真分析

4.1 數據集及仿真環境

經典的KDDCUP99數據集缺少新的網絡攻擊數據,與現有的網絡流量存在較大差距,為此,澳大利亞網絡安全中心創建了UNSW-NB15數據集[16],該數據集包含更多新的網絡數據特征,可提高IDS評估的可靠性。UNSW-NB15數據集包含9個攻擊類和1個正常類,共有44個數據特征,主要分為:時間特征、內容特征、流特征、基本特征、標記特征和其他原始特征。在257 673個數據樣本中,有 175 341個訓練數據和82 332個測試數據。具體的數據分布如表2所示。

實驗環境的操作系統為Windows 10,CPU為Intel i5-8265U,主頻為1.80 GHz,內存為8 GB,開發環境為Python。首先,根據數據分布對數據進行預處理,將所有的特征數據都轉換為數值,再通過歸一化處理將所有的屬性值縮放到0~1,以加快模型的訓練速度。采樣數據時,選擇80%的樣本組成訓練集,其余組成測試集,并將攻擊類別分開進行平衡采樣,這樣可相對減少類不平衡問題的影響。

Table 2 Distribution of UNSW-NB15 dataset

4.2 評價指標

利用CCA算法從高維復雜數據中提取重要的約簡特征,可得到最優的檢測結果。為了評估算法的性能,使用準確率Acc、召回率R、精度Pre、F值和誤報率FAR這5個指標來衡量入侵檢測系統的優劣。Acc表示準確率,即正確分類的樣本數的比例,是最常用的評價指標。召回率R表示正常樣本數據被正確分類的比例。精度Pre表示預測的正樣本數中正確分類的比例,精度高則誤報率低。R和Pre都是重要的評估指標,為了綜合考慮兩者的影響,需要用調和均值F-measure來權衡。誤報率FAR是預測的攻擊樣本中實際為正常數據的比例,降低誤報率是IDS工作的重要方面。5個指標的計算方法如式(16)~式(20)所示:

(16)

(17)

(18)

(19)

(20)

其中,TP表示正常數據被正確分類的樣本數,FP表示正常數據誤報的樣本數,TN表示攻擊數據被正確分類的樣本數,FN表示攻擊數據漏報的樣本數[6,15]。式(19)中的調整參數a是一個正值,用于確定精度在召回率上的相對重要性,在不平衡樣本中將a設置為4可以減小FN。

4.3 檢測精度分析

在兩分類問題中,所有類型的攻擊都被視為惡意事件,通過結合分類器可評估入侵檢測算法的精度。為了驗證CCA算法的普適性,本文同時采用標準UNSW-NB15 數據集和通用的KDDCUP99數據集進行標準化訓練。使用5個度量指標分析正常數據和異常數據的檢測結果,對比算法對異常數據的檢測準確性。NDAE、FAE和CCA算法的性能指標如表3所示。

Table 3 Performance of three algorithms in two categories problems

在UNSW-NB15數據集上,CCA算法仿真檢測數據的Acc和Pre都接近99%,驗證了該算法可以準確預測正常流量數據和攻擊數據。其次,FAE和 NDAE算法的FAR值為0.038和0.027,而CCA算法的FAR值減少到0.013。在對比的KDDCUP99數據集上,CCA算法的前4個指標基本達到99%,FAR值減少到0.009,說明該算法優化的分類器的誤報概率更低,提高了入侵檢測的可靠性。從訓練結果可知,更復雜的UNSW-NB15數據集對算法的要求更高。

由于數據集中的攻擊樣本數遠高于正常樣本數,其他2種算法的兩分類檢測精度也很高,因此不能反映少數攻擊類數據對IDS的影響。圖3為不同算法在UNSW-NB15 數據集上的多分類混淆矩陣,0表示正常數據,1~9表示9種不同攻擊類別。多類混淆矩陣可以更好地反映IDS的檢測性能,評估特征提取算法對少數類別數據的影響。

Figure 3 Multi-class confusion matrix of different algorithms on UNSW-NB15 dataset

樣本少的數據特征通常更難提取,所有算法對攻擊類別的檢測精度隨著樣本數量的減少逐漸下降。從圖3 的混淆矩陣中可以看到,CCA算法對少數攻擊類的識別精度更高,特別是對Shellcode和Worms的識別精度分別達到了80%和66%,說明CCA算法對少數類數據的特征提取更敏感。

4.4 收斂性分析

算法收斂時,IDS的檢測精度能夠直接反映特征提取算法的有效性。圖4為不同算法性能隨迭代次數變化的擬合結果,水平軸表示迭代次數,縱軸表示檢測精度。

Figure 4 Detection accuracy when different algorithms converge on UNSW-NB15 dataset

在CCA、NDAE和FAE算法的擬合曲線中,檢測算法收斂時分別迭代了35次,40次和45次左右。相比于另外2個算法,CCA算法以最快的收斂速度實現了最高的精度,表明該算法在IDS模型中要比其他算法的收斂性好。

生成入侵檢測模型所需的訓練時間會影響IDS的檢測成本,為了在處理大規模數據時減少計算成本,需要控制算法的收斂時間。在SSAE深度學習中,隱藏層的神經元數量會影響模型的學習時間,模型訓練時間隨隱藏層神經元數量的變化如圖5所示。從圖5中可以看出,隨著神經元數量增多,算法的時間復雜度增加,模型的訓練時間變慢。但是,CCA算法通過數據降維來減少冗余特征,在UNSW-NB15 數據集上算法收斂速度仍比另外2個算法快,并且可持續減少模型所需的學習時間,執行速度分別是FAE和NDAE算法的1.35和1.10倍。訓練KDDCUP99數據集也得到了相同的結果。

Figure 5 Model training time changes with network neuron numbers

5 結束語

在面臨高維和復雜的網絡入侵數據時,傳統特征提取算法的性能達不到理想的效果,基于深度學習的CCA算法能更好地減少特征冗余并增強對少樣本數據特征的敏感度。本文利用SSAE構建多層神經網絡堆疊學習特征,通過KL散度對目標函數添加稀疏約束,最后結合代價矩陣訓練特征提取模型的最優參數。仿真結果表明,CCA算法能夠處理高維和類不平衡數據,精確提取重要的數據特征,使IDS具有更高的檢測精度和效率。數據的不完整和噪聲也會影響IDS的檢測性能,下一步將深入研究如何提高數據特征學習的魯棒性。

猜你喜歡
特征提取分類特征
分類算一算
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 亚洲色成人www在线观看| 久久久精品久久久久三级| 老司机午夜精品网站在线观看 | 蜜桃视频一区二区| 永久在线精品免费视频观看| 国产精品深爱在线| 久久综合伊人77777| 欧美日韩中文国产| 亚洲欧美成aⅴ人在线观看| 国产激情影院| 精品国产乱码久久久久久一区二区| 伊人久久婷婷| 亚洲黄网在线| 在线播放91| 国产欧美在线观看精品一区污| 韩国v欧美v亚洲v日本v| 国产毛片片精品天天看视频| 亚洲综合天堂网| 国产视频欧美| 欧美日韩亚洲国产| 国产日产欧美精品| 国产成人精品综合| 极品国产在线| 国产不卡国语在线| 久久综合AV免费观看| 成人夜夜嗨| 四虎国产在线观看| 日韩毛片免费观看| 亚洲中文字幕久久精品无码一区| av在线5g无码天天| 91无码国产视频| 综合色区亚洲熟妇在线| 亚洲αv毛片| 99久久精品国产自免费| 国产流白浆视频| 97国产精品视频自在拍| 理论片一区| 又粗又硬又大又爽免费视频播放| 中文字幕人成人乱码亚洲电影| 久久网欧美| 在线精品欧美日韩| 潮喷在线无码白浆| 午夜少妇精品视频小电影| 青青青视频蜜桃一区二区| 狠狠v日韩v欧美v| 白浆视频在线观看| 国产欧美视频一区二区三区| 高清欧美性猛交XXXX黑人猛交 | 国内精品久久久久鸭| 色爽网免费视频| 久久人午夜亚洲精品无码区| 在线播放91| 国产三级成人| 精品综合久久久久久97超人该| 久久精品人妻中文系列| 日本欧美视频在线观看| 久久精品国产国语对白| 狠狠五月天中文字幕| 亚洲AV无码久久精品色欲| 久热99这里只有精品视频6| 极品av一区二区| 久久精品视频亚洲| 伊人久久大线影院首页| 亚洲精选无码久久久| 免费视频在线2021入口| 婷婷综合缴情亚洲五月伊| 另类重口100页在线播放| 亚洲黄色成人| 成人午夜视频免费看欧美| 亚洲综合二区| 秋霞午夜国产精品成人片| 99re在线视频观看| 欧美中文字幕第一页线路一| 国产精品露脸视频| 国产精品亚洲片在线va| 国产毛片高清一级国语 | 久久精品国产91久久综合麻豆自制| 在线日本国产成人免费的| 国产夜色视频| 91久久偷偷做嫩草影院电| 久久久久亚洲AV成人人电影软件| 亚洲成a人片7777|