利用哈里斯鷹算法優化卷積神經網絡的入侵檢測研究

2023-08-06 07:08:08李響繆祥華張如雪張宣琦

化工自動化及儀表 2023年4期

李響　繆祥華　張如雪　張宣琦

摘要以往利用卷積神經網絡（CNN）搭建入侵檢測模型時，需用人工經驗設定網絡結構，導致其網絡性能很難發揮最優。為此，提出利用哈里斯鷹算法（HHO）對CNN的網絡結構進行自適應優化，構建入侵檢測模型。首先針對傳統CNN全連接層易發生過擬合的問題，采用全局池化層（GAP）對參數進行縮減；然后采用哈里斯鷹算法選取CNN最佳網絡結構，避免人工干預引起的檢測不確定性，從而縮短參數選擇時間，提升入侵檢測模型的適用性和入侵檢測性能。在NSL-KDD數據集的實驗結果表明：所提哈里斯鷹算法優化改進后的卷積神經網絡構建的入侵檢測模型，檢測準確率93.68%，誤報率1.65%，檢測性能優于SVM、AdaBoost、BP入侵檢測模型。

關鍵詞入侵檢測 HHO-GCNN模型卷積神經網絡哈里斯鷹算法自適應優化全局池化層? ? NSL-KDD數據集

中圖分類號 TP393.08? ?文獻標識碼 A? ?文章編號 1000-3932（2023）04-0513-08

隨著科學技術的不斷發展，網絡幾乎成為生產和生活中不可或缺的部分。網絡給人類帶來便利的同時，越來越多的網絡安全事件頻發，因此，有效維護網絡安全是國內外研究人員一直關注的重要課題。入侵檢測作為網絡安全防護的有效手段被廣泛研究，傳統的入侵檢測系統易受時間復雜度和空間復雜度的制約，導致其自適應能力較差。因此，許多研究人員將機器學習引入入侵檢測中，針對不同攻擊類型提出了多種類型的檢測模型，但仍存在一系列的問題［1］：首先，機器學習模型在檢測準確率上效果一般并存在較高的誤報率；其次，在進行大規模數據流量處理時，并不能表現出良好的性能。而深度學習在進行大數據分析處理時取得了較好的成效，因此越來越多的深度學習技術被運用到入侵檢測中，目前主流的深度學習模型有卷積神經網絡（Convolutional Neural Network，CNN）［2，3］、長短期記憶（Long Short-Term Memory，LSTM）［4］、自編碼（Auto Encoder，AE）［5，6］和生成對抗網絡（Generative Adversarial Networks，GAN）［7，8］。

作為深度學習的經典有效網絡CNN，在進行多種分類時需要對數據集進行預處理，將其轉換為符合CNN輸入的灰度圖進行訓練，將其運用到入侵檢測可將流量分類問題近似于圖片分類，通過CNN提取數據流量特征，基于其權值共享特性提高分類處理效率，進而提高入侵檢測效率。文獻［9］提出將主成分分析（PCA）方法降維與卷積神經網絡結合，PCA對數據進行清洗降維減少了數據的冗余，將降維后的數據輸入到CNN中進行數據特征提取和分類。文獻［10］在進行入侵檢測模型構建時，采用自編碼器進行特征提取，將提取后的特征矩陣進行聚類轉換再放入CNN模型中進行訓練。文獻［11］提出生成對抗網絡結合CNN的入侵檢測模型，由生成對抗網絡生成未知攻擊，以達到平衡數據的效果，最后將平衡后的數據放入CNN模型中進行訓練。以上由卷積神經網絡構建的入侵檢測模型，在進行數據流量分類處理時都取得了較好的成效。筆者采用CNN作為算法優化模型，使其入侵檢測性能進一步提升。

1 卷積神經網絡（CNN）

2 哈里斯鷹算法

哈里斯鷹算法（Harris Hawk Optimization，HHO）是由HEIDARI A A等提出的一種元啟發式智能優化算法［12］。HHO算法通過公式演練模擬哈里斯鷹在不同情況下捕捉獵物的策略。

HHO算法主要分為3個階段，分別為全局探索階段、過渡階段和局部開發階段。

2.1 全局探索階段

2.2 過渡階段

2.3 局部開發階段

3 入侵檢測模型整體流程

3.1 數據預處理階段

3.2 HHO-GCNN模型

4 實驗

4.1 實驗數據

本項目實驗選用的是NSL-KDD入侵檢測數據集，該數據集包含多種現代網絡攻擊，訓練集樣本數量有125 973條數據，測試集有22 543條數據樣本，數據集包含42維數據特征，前41列為屬性特征，第42列為類別標簽。NSL-KDD數據集的訓練測試樣本分布見表1。

4.2 實驗環境與評價標準

4.3 實驗結果與分析

4.3.1 不同分類層對模型性能的影響

4.3.2 HHO算法模型優化

采用HHO算法對CNN和GCNN參數尋優時模型的訓練和驗證損失變化如圖4所示。其中，HHO算法初始種群規模30，最大迭代次數40，模型訓練時選取訓練集的20%作為驗證集。以網絡的交叉熵損失loss值作為適應度值，網絡的損失越小則適應度越高結果越優。

由圖4a、b可知，HHO-GCNN模型在迭代20次左右時滿足收斂精度，而HHO-CNN模型在迭代35次左右時滿足收斂精度，可見HHO-GCNN模型相比于HHO-CNN模型的收斂速度快，并且HHO-GCNN模型收斂的loss值低于HHO-CNN模型的loss值。綜上所述，采用GAP層進行參數縮減后，HHO算法進行適應度值調優的精度和效率高于傳統CNN適應度值調優。

HHO-GCNN和HHO-CNN兩種模型優化后的檢測性能比較見表4，可以看出，HHO-GCNN模型的ACC值為93.68%，Precision值達到95.67%，Recall值和F1-score分別為92.53%和94.04%，相比于HHO-CNN模型，各參數指標均有提升。HHO-GCNN模型的誤報率FPR相比于HHO-CNN降低0.76%。各項指標的實驗數據表明：HHO-GCNN模型在檢測性能上均優于HHO-CNN模型。HHO-GCNN相比于未進行優化的GCNN模型在準確率上提升了4.74%，HHO-CNN模型相比于未進行優化的CNN模型在準確率上提升了2.49%。可見，采用GAP層代替全連接層對HHO算法進行尋優空間縮減有利于提升模型的檢測性能。

4.3.3 不同分類模型對比

5 結束語

筆者針對傳統CNN網絡參數設置不當易產生參數爆炸發生過擬合導致檢測性能不佳的問題，提出HHO-GCNN檢測模型。采用GAP層替代全連接層進行參數縮減，避免了參數量過大模型所致的過擬合情況；采用HHO算法對改進后的GCNN網絡結構進行自適應優化。通過哈里斯鷹算法采取不同策略對適應度值進行捕捉。實驗結果表明：采用GAP層進行縮減網絡參數，能夠在一定程度上提升CNN模型的分類性能；采用HHO算法進行優化，能夠使GCNN網絡進行自適應優化，提升了入侵檢測性能，避免了人工干預導致的檢測結果不確定性。

后續的工作重點將針對不同種類的入侵檢測數據集的數據不平衡問題提出解決方案，對數據集中少數類樣本過采樣處理后進行模型訓練，進而增強模型的泛化能力。

參考文獻

［1］劉新倩，單純，任家東，等.基于流量異常分析多維優化的入侵檢測方法［J］.信息安全學報，2019，4（1）：14-26.

［2］ LIU P J.An intrusion detection system based on convolutional neural network［C］//Proceedings of the 2019 11th International Conference on Computer and Automation Engineering，2019：62-67. DOI：10.1109/ICCSN T47585.2019.8962490.

［3］黎佳升，趙波，李想，等.基于深度學習的網絡流量異常預測方法［J］.計算機工程與應用，2020，56（6）：39-50.

［4］ HOCHREITER S，SCHMIDHUBER J.Long Short-term memory［J］.Neural-Computation，1997，9（8）：1735-1780.

［5］ BALDI P.Autoencoders，unsupervised learning，and deep? architectures［C］//Proceedings of ICML Workshop on Unsupervised and Transfer Learning.JMLR Workshop and Conference Proceedings，2012：37-49.

［6］高妮，高嶺，賀毅岳，等.基于自編碼網絡特征降維的輕量級入侵檢測模型［J］.電子學報，2017，45（3）：730-739.

［7］ LEE J H，PARK K H.GAN-based imbalanced data intrusion detection system［J］.Personal and Ubiquitous Computing，2021，25（1）：121-128.

［8］ FERDOWSI A，SAAD W.Generative adversarial networks for distributed intrusion detection in the internet of things［C］//2019 IEEE Global Communications Conference（GLOBECOM），2019：1-6.DOI：10.1109/GLOBECOM 384 3 7.2019.9014102.

［9］ XIAO Y H，XING C，ZHANG T N，et al.An intrusion detection model based on feature reduction and convolutional neural networks［J］.IEEE Access，2019（7）：42210-42 219.

［10］ ANDRESINI G，APPICE A，MALERBA D.Nearest cluster-based intrusion detection through convolutional neural networks［J］.Knowledge-Based Systems，2021，216：10 6798.

［11］ ANDRESINI G，APPICE A，DE ROSE L，et al.GAN a-?ugmentation to deal with imbalance in imaging-based intrusion detection［J］.Future Generation Computer Systems，2021，123：108-127.

［12］ HEIDARI A A，MIRJALILI S，FARIS H，et al.Harris hawks optimization：Algorithm and applications［J］.Future Generation Computer Systems，2019，97：849-872.

（收稿日期：2022-11-18，修回日期：2023-01-10）

Research on Intrusion Detection Using Harris Hawk Algorithm to Optimize Convolutional Neural Network

LI Xianga ， MIAO Xiang-huaa，b ， ZHANG Ru-xuea， ZHANG Xuan-qia

（a. Faculty of Information Engineering and Automation; b. Yunnan Key Laboratory of Computer Technology Applications， Kunming University of Science and Technology）

Abstract? ?In the past， having convolutional neural networks（CNN） adopted to build intrusion detection models asks for artificial experience to set the network structure which resulting in the difficulty in playing its network performance better. To this end， applying Harris Hawk algorithm to adaptive optimization of CNN structure to build an intrusion detection model was proposed. Firstly， aiming at the overfitting in the fully-connected layer of traditional CNN， having the global pooling GAP layer used to reduce parameters； then having the Harris Hawk algorithm adopted to select CNNs optimal structure to avoid uncertainty of detection incurred by the manual intervention so as to shorten parameters selection time and improve applicability and intrusion detection performance of the intrusion detection model. The experimental results on the NSL-KDD dataset show that， the intrusion detection model established with Harris Hawk algorithm-improved CNN has a detection accuracy of 93.68% and a misinforming rate of 1.65% and its detection performance outperforms that of SVM， AdaBoost and BP intrusion detection models.

Key words? ? intrusion detection， HHO-GCNN model， CNN， Harris Hawk algorithm， self-adaptive optimization， global pooling layer， NSL-KDD dataset