doi:10.3969/J.ISSN.1672-7274.2025.06.017
中圖分類號:TP3 文獻標志碼:B 文章編碼:1672-7274(2025)06-0050-04
Research on Network Security Threat Detection System Based on Big Data Analysis
ZHANGLianlian
(Chifeng Vocational College of Applied Technology,Chifeng O24oo5,China)
Abstract: With the increasing complexity of network security threats, traditional detection methods are facing challenges.This article proposes a network security threat detection system that combines big data analysis and deep learning.The system uses Apache Spark to process network traffcand log data,extract features,and improve the accuracyand real-time performance of network security threat detection through a combined model of LSTM and XGBoost.The experimental results show that compared to traditional SVM and decision tres, the proposed method has improved accuracy by 4.4% and recall rate by 10.7% (compared to SVM). Although there is a certain detection delay,it stillmeets the real-time detectionrequirements.Research has shown thatcombining big data and dep learning models can efectively improve network security threat detection capabilities and provide new ideas for network security protection.
Keywords:security threat detection;deep learning;bigdataanalysis
1 研究背景
隨著網絡攻擊技術不斷升級,傳統安全措施難以應對復雜的網絡威脅。特別是在檢測復雜威脅時,傳統方法依賴規則和特征庫,難以適應新型攻擊。近年來大數據和深度學習技術的快速發展,讓基于這些技術的威脅檢測方法成為研究熱點。這些方法能從海量網絡數據中挖掘有價值信息,識別異常行為和攻擊模式,尤其在處理時序數據和復雜特征方面表現突出。本文結合LSTM和XGBoost模型,提出基于大數據分析的網絡安全威脅檢測系統,旨在提高檢測精度和響應速度。
2基于大數據分析的網絡安全威脅檢測系統背景介紹
在當今數字化時代,網絡空間的安全威脅愈發復雜多變,傳統安全防護體系面臨嚴峻挑戰。以往,支持向量機(SVM)和決策樹在網絡安全檢測中占主導。SVM通過構建超平面分類數據,但依賴手動特征和預定義規則,對新型攻擊適應性差,且處理大規模數據時計算復雜度高,難以滿足實時性要求[1。決策樹通過節點分裂條件分類數據,但易在高維數據和復雜特征交互下過擬合,泛化能力下降,且對時序數據處理能力有限,難以捕捉網絡流量的異常時序模式。鑒于傳統方法局限,隨著大數據和深度學習興起,更智能的威脅檢測框架出現。大數據分析能挖掘海量網絡流量數據的隱藏模式[2]。
3 基于大數據分析的網絡安全威脅檢測系統設計
3.1系統總體設計
如圖1所示,本系統架構的設計圍繞著四個緊密相連的核心模塊展開:數據采集模塊、大數據處理模塊、威脅檢測模塊以及威脅預警模塊。這四個模塊共同驅動著整個網絡安全威脅檢測及預警系統的運作。
3.2系統分析
3.2.1數據采集模塊
數據采集模塊是網絡安全威脅檢測系統的核心數據源負責實時、準確地捕獲關鍵數據。該模塊主要包含兩大功能:
(1)網絡流量采集:利用Wireshark等網絡流量分析工具,捕捉并解析網絡數據包,提取關鍵特征信息(如IP地址、端口號等),同時實施數據包過濾,去除冗余數據,確保數據的精準性和有效性。
(2)IDS/IPS日志采集:收集入侵檢測系統(IDS)和入侵防御系統(IPS)的日志信息,這些日志詳細記錄了網絡中的異常行為和潛在攻擊事件,為威脅檢測提供重要依據。
3.2.2大數據處理模塊
緊隨數據采集模塊之后,大數據處理模塊承擔著數據清洗、預處理和特征提取的重任。面對海量且復雜的網絡數據,該模塊利用ApacheSpark等先進的大數據處理技術,實現了數據的快速處理和高效分析。通過數據清洗,模塊能夠去除冗余和無效信息,確保數據的純凈性;通過預處理,模塊對數據進行了歸一化和標準化處理,提高了后續分析的準確性;而特征提取則是從數據中挖掘出對威脅檢測具有關鍵意義的特征,為威脅檢測模塊提供了有力的支持。
3.2.3威脅檢測模塊
威脅檢測模塊是一個集成先進機器學習和大數據處理技術的系統,該模塊的核心組件包括時序數據處理(LSTM)和特征融合與分析(XGBoost),它們共同協作,以實現對網絡流量的深度分析和威脅預測。
3.2.3.1時序數據處理(LSTM)
由于網絡攻擊具有時序性,威脅檢測模塊使用長短期記憶網絡(LSTM)來捕捉網絡流量和事件間的時間關聯。LSTM能識別網絡流量的動態變化,尤其擅長發現隱藏的攻擊行為,如DDoS攻擊和蠕蟲傳播。LSTM模塊功能包括:
(1)識別時間依賴性:利用LSTM模型,模塊從網絡流量數據中提取時間特征,理解長期和短期依賴關系,揭示潛在攻擊模式。
(2)生成特征向量:LSTM將時序數據轉換為固定長度的特征向量,反映網絡流量的時序特性,支持后續分析和預測。
細胞更新公式表示為
Ct=ft?Ct-1+it?gt
式中, Ct"是當前時間步的記憶細胞狀態; ft"是遺忘門狀態,決定了上一時間步記憶細胞狀態 ?Ct-1"有多少信息被保留下來; it"是輸入門狀態,決定了當前時間步的候選記憶細胞狀態gt有多少信息被加入記憶細胞中。通過LSTM的記憶細胞更新機制,模型能夠學習到網絡流量數據中的長期和短期依賴關系,進而識別出潛在的威脅模式。

3.2.3.2特征融合與分析(XGBoost)
在LSTM生成的時序特征和通過大數據處理平臺(如Spark)提取的靜態特征的基礎上,威脅檢測模塊采用XGBoost算法進行進一步的特征融合與威脅預測[3]。XGBoost模塊的功能包括:
(1)特征融合:模塊將LSTM輸出的時序特征與靜態特征(如流量大小、協議類型等)進行融合,生成更為豐富、全面的特征向量。這些特征向量能夠提高威脅檢測的準確性。
(2)威脅預測:利用XGBoost模型對融合后的特征進行分類,預測是否存在網絡攻擊威脅。XGBoost算法能夠自動學習不同特征的重要性,進行高效的威脅分類和預測,確保在處理大量特征時能夠快速、準確地做出決策[4]。XGBoost中的目標函數為

式中,
第i個樣本的損失函數,用于衡量模型預測值
和真實值 yi 之間的差異;
表示第k個弱學習器的復雜度。在威脅檢測中,損失函數用于衡量模型預測值與實際值之間的差異,而正則化項則用于控制模型的復雜度,防止過擬合。XGBoost中的樹的復雜度定義公式為

式中,T表示樹的葉子節點數量; ω 表示葉子節點輸出值組成的向量; γ 和入是正則化項的系數。在威脅檢測中,使用過于復雜的模型可能會導致過擬合。XGBoost通過定義樹的復雜度來控制模型的復雜度。
3.2.4威脅預警模塊
最后,威脅預警模塊根據威脅檢測模塊的輸出結果,對識別出的網絡安全威脅進行及時預警和響應。該模塊設定了合理的閾值,當檢測到的威脅程度超過該閾值時,將觸發預警機制。
4 實驗設計與結果
4.1實驗設計
在本實驗中,采用聯合訓練的方法,結合LSTM和XGBoost兩種模型來進行網絡安全檢測。聯合訓練的目標是將LSTM用于時序特征提取,XGBoost用于分類任務,通過端到端訓練使得兩個模型能夠共同優化,從而提升威脅檢測的精度和準確性。
4.1.1數據集選擇
本實驗采用NSL-KDD和CICIDS數據集進行模型訓練和測試,這兩個數據集均包含正常流量及多種攻擊流量,適合用于網絡安全威脅檢測。
NSL-KDD數據集涵蓋DoS、R2L等多種網絡攻擊類型,廣泛用于網絡安全研究。該數據集包含41個特征,如包大小、協議類型、源/目標IP等網絡流量統計信息,每個樣本標記為正常或攻擊。
CICIDS數據集包含DDoS攻擊、端口掃描、網絡掃描等更復雜多樣的攻擊類型。該數據集包含源IP、目標IP流量大小等多個特征,以及時間戳信息,有助于分析流量的時序變化。
4.1.2訓練模型部分
LSTM和XGBoost是兩個獨立的組件,在系統中被聯合訓練,它們的參數會一起被優化,以達到最佳的分類效果。
首先,數據集需要經過預處理,包括清洗原始數據,去除缺失值和異常值,并對數據進行標準化處理,以確保輸入模型的數據質量。
LSTM模型用于捕捉網絡流量數據中的時序依賴關系。輸入的時序數據包含了每個時間窗口內的網絡流量特征LSTM網絡由兩層LSTM層組成,每層包含128個神經元,并在每層后面加入了Dropout層(比率為0.3),以防止模型過擬合。LSTM層輸出的時序特征向量會經過一層全連接層(包含128個神經元),作為最終的特征向量輸出,并傳遞給XGBoost進行進一步的分類預測。由于是二分類問題(即判斷是否為攻擊),輸出層使用了sigmoid激活函數,輸出預測結果為0或1。
XGBoost模型則負責對LSTM提取的時序特征與其他靜態特征進行分類任務。XGBoost是基于梯度提升樹(GBDT)算法的集成學習方法,能夠有效處理復雜的非線性特征。具體來說,在XGBoost的訓練過程中,我們使用了1000棵樹,每棵樹的最大深度為6,學習率設置為0.05,子樣本比例和列采樣比例均為0.8。通過這些參數設置,XGBoost能夠準確地捕捉靜態特征與時序特征之間的關系,并對數據進行分類。
在端到端的聯合訓練中,LSTM和XGBoost的參數會同時進行調整。損失函數采用的是binary_crossentropy,適用于二分類問題,優化器使用的是Adam,它可以自適應調整學習率,加快訓練速度并提高訓練的穩定性。本文目標是通過聯合優化,減少LSTM的特征提取誤差和XGBoost的分類誤差,從而提升整體模型的準確性。
4.2實驗結果
為了評估基于LSTM + XGBoost的基于大數據分析的網絡安全威脅檢測系統的效果,本文將其與兩種傳統的機器學習方法支持向量機(SVM)和決策樹(DT)進行比較。

實驗結果證明,LSTM+XGBoost的方法取得了顯著的效果,在準確率方面,相較于SVM提升了 4.4% 較決策樹提升了 5% 。這表明深度學習方法在整體分類性能上具有明顯優勢。在精確率方面,則分別提升了6% 和 6.7% ,這一結果表明,深度學習模型能夠有效減少誤報(FalsePositive),在判定威脅時更加準確。召回率的提升尤為顯著,分別提升了 10% 以及 14% ,這表明本文模型在捕捉威脅時具有更高的敏感性,特別是對于低頻或難以發現的網絡安全威脅。AUC提升 7%和 10.1% ,反映了模型的分類性能,LSTM+XGBoost在識別正常流量和攻擊流量時具有更好的區分能力。
LSTM ?+ XGBoost的檢測延遲為 25ms ,比sVM( 35ms, 和決策樹( 30ms?")要低。盡管深度學習模型通常需要更多計算資源,但該系統在實時檢測延遲方面表現優異,且 25ms 的延遲仍然在可接受范圍內,低于許多實時檢測系統的要求。
5 結束語
本文提出了一種基于LSTM和XGBoost的基于大數據分析的網絡安全威脅檢測系統。實驗結果表明,與傳統的SVM和決策樹方法相比,基于LSTM+XGBoost的方法在準確率、召回率和AUC等指標上均有顯著提升,尤其在捕捉網絡安全威脅的敏感性方面表現突出。并且檢測延時也優于另外兩種方法。但是未來仍然存在提升的空間。
參考文獻
[1]王鵬飛,張華,李立偉.基于深度學習的網絡入侵檢測方法研究[J].計算機工程與應用,2020,56(10):68-73.
[2]劉楊,張明,周天亮.基于卷積神經網絡和LSTM的網絡安全威脅檢測方法[J].電子學報,2019,47(8):1482-1488.
[3]李玲,王浩.基于XGBoost算法的網絡流量異常檢測方法[J].計算機科學與探索,2021,15(6):1019-1027.
[4]孫悅,劉濤.基于XGBoost的網絡安全異常檢測系統研究[J].信息與控制,2020,49(5):890-897.