羅卓君
(湖南大眾傳媒職業技術學院,湖南 長沙 410100)
隨著通信網絡的快速發展,網絡入侵威脅逐漸成為信息安全領域備受關注的議題[1-3]。在數字化時代,通信網絡不僅是大量敏感信息的承載體,也是政府、企業及個人之間進行信息傳遞的主要渠道。然而隨著網絡入侵行為的不斷演變,傳統的安全防護手段已無法滿足當前的安全需求。
鑒于傳統方法在捕獲入侵特征方面的限制,文章設計了一種基于機器學習的創新型入侵檢測系統,旨在提高檢測準確性和實時性。首先,為克服傳統模型在處理復雜時序數據上的困難,本次設計將循環神經網絡(Recurrent Neural Network,RNN)作為入侵檢測系統的核心模型[4]。與傳統的靜態模型不同,RNN 能夠有效捕捉網絡流量中的時序關系,從而全面地反映入侵行為的動態特征。其次,為進一步提升模型的泛化能力和抗干擾性,引入了正則化約束,從而在模型訓練過程中有效控制參數的復雜度[5-7]。最后,為驗證所提方法的有效性,選用UNSW-NB15數據集進行實驗。
文章使用的通信網絡入侵檢測架構由數據預處理模塊、特征提取與選擇模塊、引入正則化約束的機器學習模型以及檢測與識別等部分組成。
第一,數據預處理模塊負責對原始網絡數據進行清洗、標準化等預處理操作,確保后續模塊能夠規范化處理輸入;第二,特征提取與選擇模塊負責提取網絡流量中的關鍵特征,并利用特征選擇技術篩選最具代表的信息量特征,以降低模型復雜度,提高計算效率;第三,機器學習模型模塊(如RNN),主要用于學習網絡流量中的時序關系和復雜模式,并引入正則化技術對模型參數進行約束,以防止過擬合,提高模型泛化性能;第四,基于學習模型對網絡流量進行檢測和識別,以標識潛在的入侵行為。
RNN 由輸入層x、隱藏層s、輸出層o以及參數U、V、W等關鍵部分組成,具體如圖1 所示。

圖1 RNN 基本結構
輸入層x是RNN的起始部分,負責接收外部輸入,通常表示時間序列中的觀測值或特征。
隱藏層s是RNN 的核心,具有記憶功能,能夠捕捉輸入序列的時序關系。隱藏層通過循環連接,使網絡能夠保持對過去信息的記憶,并在當前輸入的基礎上進行計算。
輸出層o從隱藏層s中獲取信息,并產生最終的輸出。在通信網絡入侵檢測中,輸出層通常表示對當前輸入數據的分類結果,即是否存在入侵行為。
參數U、V、W是RNN 的權重矩陣,分別對應輸入層到隱藏層、隱藏層到輸出層、某時間步隱藏層到下一個時間步隱藏層的權重矩陣。
RNN 能夠處理序列數據,將每個輸入視為在不同的時間步中依次出現。在數學上,一個時間步t的輸入表示為x(t),相應的隱藏狀態為s(t),輸出為o(t)。通過引入時間步,RNN 能夠建立輸入數據中的時序關系。RNN 的隱藏狀態更新方法為
式中:U為輸入到隱藏狀態的權重矩陣;W為某時間步隱藏層到下一個時間步隱藏層的權重矩陣;b為偏置向量;f(·)為激活函數。式(1)表示當前隱藏狀態s(t)是由當前時間步的輸入x(t)與上一時間步的隱藏狀態s(t-1)、相應的權重和偏置共同決定的。RNN 的輸出表示為
式中:V為隱藏狀態到輸出的權重矩陣;c為輸出層的偏置向量;g(·)為輸出層的激活函數。式(2)表示當前時間步的輸出o(t)是由當前隱藏狀態s(t)經過權重和偏置的計算得到的。
RNN 通過在不同時間步之間共享參數U、V、W、b以及c,實現對序列數據的學習和記憶。這種參數共享機制使RNN 能夠處理不同長度的序列,具有一定的泛化能力。RNN的訓練過程使用了反向傳播算法,通過最小化損失函數調整網絡參數,以提高模型對輸入序列的擬合能力。具體而言,通過鏈式法則,計算梯度,并使用梯度下降等優化算法更新參數。
為提高RNN 在通信網絡入侵檢測中的性能,本研究引入了正則化項,通過在損失函數中添加正則化懲罰項實現對模型參數的約束。引入正則化項后的損失函數為
原題 (2018年山東淄博)如圖1,點P為等邊三角形ABC內的一點,且點P到△ABC三個頂點A、B、C的距離分別為3、4、5,則△ABC的面積為( ).
式中:L(y,)為原始的損失函數;λ為正則化系數;R(θ)為正則化項??倱p失函數由原始損失和正則化項2 個部分組成,通過調整正則化系數,可以平衡兩者之間的影響。原始損失函數的確定仍基于任務的特定要求,通常采用交叉熵損失函數等形式,用公式表示為
式中:N為樣本數;C為類別數;yi,j為真實標簽;i,j為模型的預測輸出。
正則化項通常采用L2 正則化,即參數的平方和,用公式表示為
式中:θk為模型的第k個參數。正則化項通過懲罰參數的幅值,防止模型過擬合,從而提高模型的泛化能力。通過總損失函數計算總梯度,以得到對應的梯度向量,即
式中:η為學習率;θo為更新前的參數;θn為更新后的參數。通過引入正則化項,模型在更新梯度的同時會考慮對參數的正則化懲罰,使模型在學習時更加穩健。
本研究使用UNSW-NB15 數據集對所提方法進行測試[8-10]。UNSW-NB15 數據集是一個用于網絡入侵檢測研究的開放數據集,由新南威爾士大學的網絡團隊創建,旨在模擬真實網絡環境中的各種入侵行為。
本研究實施基于UNSW-NB15 數據集的實驗,以驗證所提方法的有效性,具體步驟如下。
第一步,數據集準備。從UNSW-NB15 數據集中獲取網絡流量數據,并對數據進行適當的清理和預處理。
第二步,數據集分割。將數據集劃分為訓練集和測試集,比例為70 ∶30。
第三步,特征提取與選擇?;陬I域專家知識和特征選擇技術對網絡流量數據進行特征提取。
第四步,模型設計。構建引入正則化約束的RNN 模型。
第五步,模型訓練。使用訓練集對設計的模型進行訓練。
第六步,模型驗證。在測試集上進行模型驗證,評估模型在新數據上的性能。
文章利用混淆矩陣分析實驗結果。該混淆矩陣包含4個關鍵指標,即真正例TP、假正例FP、真負例TN以及假負例FN。其中,TP為235,表示實際為正常流量,且模型正確預測為正常流量的樣本數量;FP為15,表示實際為正常流量,但模型錯誤預測為入侵的樣本數量;TN為230,表示實際為入侵流量,且模型正確預測為入侵的樣本數量;FN為20,表示實際為入侵流量,但模型錯誤預測為正常流量的樣本數量。實驗結果的準確率為
準確率表示模型正確預測樣本的比例,本次實驗為93.25%。準確率越高表明模型在整體上區分正常和入侵流量的效果越好。精確度為
精確度指標衡量模型在預測正常流量時的準確性,本實驗為94%。高精確度表示模型對正常流量分類的可靠性高。召回率為
召回率是衡量模型對入侵流量的敏感性,本次實驗為92.16%。高召回率表示模型對入侵流量的識別較為全面。通過分析混淆矩陣和相關指標可知,文章所提方法在實驗中取得了較好的入侵檢測性能,具有較高的準確率、精確度及召回率。
文章通過深入研究通信網絡入侵檢測問題,在RNN 中引入正則化約束,設計了基于機器學習的通信網絡入侵檢測系統。同時,利用UNSW-NB15 數據集進行實驗,證明了所提方法的可行性和優越性,充分展示了其在實際網絡環境中的應用潛力。通過分析混淆矩陣,全面評估了模型的性能,其在準確率、精確度和召回率等方面具有卓越表現。文章研究內容為通信網絡入侵檢測領域提供了新的思路和有效的解決方案,也為網絡安全的持續發展提供了有力的支持。