張佳佳
(湖南信息職業技術學院,湖南 長沙 410200)
隨著信息技術的飛速發展,互聯網已經成為人們日常生活、商業活動和政府機構運作的重要基礎[1]。然而隨著網絡的普及和廣泛應用,網絡入侵事件日益嚴重,網絡安全面臨更嚴峻的挑戰。網絡入侵不僅會導致敏感信息泄露,而且可能對關鍵基礎設施和服務造成嚴重威脅,因此網絡入侵檢測是當前網絡安全領域的一個關鍵問題[2]。
為提高網絡入侵識別的及時性和準確性,人工智能技術在網絡安全領域受到廣泛關注。文章旨在探討基于人工智能的網絡入侵檢測方法,通過構建一個綜合性的網絡入侵檢測系統架構,實現對網絡流量中潛在入侵行為的有效監測和識別[3]。首先,介紹網絡入侵檢測的背景和相關工作;其次,提出一個結合卷積神經網絡(Convolutional Neural Network,CNN)與K-means 聚類的網絡入侵檢測方法,并結合深度學習和聚類分析的優勢來提高檢測系統對入侵行為的敏感性和準確性;最后,通過對1998 DARPA數據集的實驗測試,驗證所提方法在實際網絡環境中的有效性與可行性,為網絡入侵檢測領域的進一步探索和應用提供有益的參考[4]。
文章設計的網絡入侵檢測方法采用CNN 提取特征向量,再結合K-means 聚類進行入侵檢測,系統架構如圖1 所示。

圖1 系統架構
數據輸入層負責接收網絡流量數據。CNN 層通過卷積、池化等操作,提取網絡流量數據的特征[5]。CNN 能夠捕捉數據中的空間關系,有效提取網絡流量中的有用特征來構成特征向量。K-means 聚類層利用K-means 聚類算法對特征向量進行處理,實現數據聚類操作。K-means 算法通過迭代優化,將相似的特征向量聚集到同一類別,從而實現對網絡入侵和正常流量的有效區分。輸出層將最終的入侵檢測結果反饋給系統用戶或其他安全管理系統,實現對網絡安全狀態的實時監測與響應。
該系統架構結合深度學習和聚類分析的優勢,實現對網絡流量中入侵行為的高效檢測。CNN 用于提取復雜的特征,而K-means 聚類能夠有效集成這些特征,為入侵檢測提供更精準的判定依據[6]。
文章提出的入侵檢測方法采用CNN 和K-means聚類相結合的方式。
首先,通過CNN 卷積和池化網絡流量數據,提取關鍵特征來構成特征向量[7]。設輸入數據X的維度為N×M×C,其中N為數據樣本數量,M為每個樣本的空間尺寸,C為通道數。假設CNN 的卷積層參數為W和偏置項b,卷積操作可表示為
式中:Y為卷積層輸出;Wi為第i個通道的卷積核;bi為第i個通道的偏置項;*為卷積操作符號,f為激活函數。
其次,采用池化操作采樣卷積層輸出,具體可表示為
式中:Z為池化層輸出。
最后,通過全連接層將池化層輸出轉換為特征向量V。全連接操作可表示為
式中:Wfc為全連接層的權重;bfc為全連接層的偏置項;softmax(·)為激活函數。通過卷積、池化和全連接操作,從原始網絡數據X中提取出具有抽象表示的特征向量V。利用K-means 聚類算法對這些特征向量進行分組,將相似的特征劃分到同一類別。K-means聚類算法可表示為
式中:N為樣本數量;K為聚類中心數量;vi為第i個樣本的特征向量;cij為樣本vi是否被分配到聚類中心j的指示變量;μj為聚類中心。K-means 的優化目標是最小化樣本到其所屬聚類中心的歐氏距離的平方和,通過迭代優化C和μ,實現對樣本的劃分和聚類中心的更新。K-means 的迭代步驟可以表示為
式中:arg mink為取使后面表達式最小的k值。通過多次迭代,K-means 將特征向量V劃分為K個簇,每個簇代表一種模式或類別。通過設定適當的K值和判定閾值,系統可將入侵行為對應的特征向量判定為異常類別,有效檢測網絡入侵。
通過CNN 和K-means 聚類相結合,充分發揮深度學習和聚類分析的優勢,提高網絡入侵檢測的準確性和敏感性[8]。在具體實現中,包括以下4 步。
第一,數據準備。收集并準備網絡流量數據集X,確保數據包含有關正常和入侵行為的信息。每個數據樣本Xi應包括時間序列、源地址、目標地址等網絡信息。第二,CNN 特征提取。對每個數據樣本Xi進行CNN特征提取。通過卷積、池化等操作,將原始的網絡數據轉化為抽象的特征向量Vi。該步驟利用深度學習的優勢,提取數據中的關鍵特征,使其更具有判別性[9]。第三,K-means 聚類。將得到的特征向量集合輸入K-means 聚類算法。通過迭代優化,將特征向量分為K 個簇,其中K 可根據具體需求設置。每個簇代表一類相似的特征向量。第四,簇分析與異常檢測。分析K-means 聚類的結果,識別出具有異常特征的簇。這些異常簇可能包含網絡入侵的特征向量。可以通過設定適當的閾值和規則,自動判定哪些簇屬于異常類別,從而實現入侵檢測。
文章采用1998 DARPA 數據集進行所提方法的網絡入侵檢測實驗。1998 DARPA 數據集是由美國國防高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)贊助,用于評估網絡入侵檢測系統性能的公開數據集。該數據集包含模擬真實網絡環境中的大量網絡流量數據,涵蓋多種正常和異常網絡活動[10]。
實驗步驟如下文所述。第一,數據預處理。從1998 DARPA 數據集中選擇合適的子集,確保包含有關網絡入侵的充分信息。對數據進行清洗、去噪和標準化等預處理步驟,確保實驗的準確性和可重復性。第二,訓練集與測試集劃分。將預處理后數據集的70%和30%劃分為訓練集和測試集。第三,CNN 特征提取。利用訓練集訓練CNN,通過卷積、池化等操作提取網絡流量數據的特征向量。第四,K-means聚類。利用CNN提取的特征向量K-means聚類訓練集。通過迭代優化,將特征向量分為預設的聚類中心數量,形成簇集合。第五,異常檢測與參數調優。通過分析K-means 聚類的結果,識別出異常簇。根據實驗需求,調優K-means 的聚類中心數量等參數,提高系統的性能[11]。
在利用測試集測試訓練好的模型后,評估網絡入侵檢測系統的性能。在指標方面,選擇準確率、召回率、精確率等指標進行量化,結果如表1 所示。

表1 實驗結果
準確率反映系統正確預測的樣本占總樣本的比例,其值越高表明系統整體性能越可靠。召回率衡量系統對正樣本的識別能力,0.88 的召回率意味著系統能夠較好地捕捉實際入侵行為。精確率表示系統在識別為正樣本的情況下的準確性,0.94 的精確率說明系統在入侵檢測方面的判斷相對精準。綜上所述,基于CNN 和K-means 聚類的網絡入侵檢測方法在綜合性能上表現出色,為實際應用提供有力支持。
通過研究網絡入侵檢測的前沿技術,提出一種基于CNN 和K-means 聚類的網絡入侵檢測方法。實驗表明,該方法在1998 DARPA 數據集上性能較好。憑借CNN 的特征提取和K-means 聚類的數據分類,實現對入侵行為的高效識別。在實驗中,該方法表現出較高的準確性、召回率和精確率,證明了其可行性和有效性。未來的研究方向包括進一步優化模型、拓展適用性等,以更好地滿足不斷演化的網絡安全需求。