齊智江
(黑龍江幼兒師范高等專科學校,黑龍 江牡丹江 157011)
在互聯網時代,計算機信息技術已經滲透到日常生活、工作辦公等各個領域。由于互聯網具有開放性的特點,一些黑客通過植入木馬、傳播病毒的方式,破壞計算機安全系統,竊取網絡用戶的隱私信息、重要數據,對網絡信息安全構成了巨大威脅。隨著人們對網絡安全重視程度的提升,近年來也出現了大量的網絡安全技術。例如防火墻保護、用戶權限認證。入侵檢測是通過實時收集和分析用戶行為數據,一旦發現異常行為可以立即采取隔離、防御或清除等措施,不僅識別精度高,而且能夠從源頭上解決入侵行為,將損失降到了最低,是現階段網絡信息安全保護中應用效果較好的技術之一。
獲取用戶行為數據是進行入侵檢測的基礎步驟,保證數據全面、及時、準確,對降低入侵檢測的誤報率、漏報率有積極幫助。基于數據挖掘的入侵檢測,主要包含了兩個步驟:第一是數據的準備。在計算機網絡系統運行中,每時每刻都會產生大量的用戶行為數據。這些數據被收集起來并統一存儲到了歷史數據庫中。在數據準備步驟中,需要將數據庫中的用戶行為數據提取出來,并按照特定的規則完成數據預處理。在經過清洗、整理后,所得數據被暫時存放到知識規則庫。第二是數據的檢測。將實時產生的用戶行為數據作為檢測數據,采集之后同樣經過一道預處理工序,進行特征提取后,與知識規則庫中存放中的數據進行對比、分析。根據分析結果,如果未發現入侵風險,則繼續采集實時用戶行為數據,進入到下一周期的入侵檢測中;如果檢測到入侵風險,則進行預警。整個檢測流程如圖1 所示。

圖1 基于數據挖掘的入侵檢測流程圖
1.2.1 流量異常檢測模型
入侵檢測流量異常是在管理員設定的監測范圍中,用基線模板(Baseline Template)對所有封包流量進行檢測的一種模型。它將網絡中正常流量形成的模型作為參照物,并與網絡中實時產生的流量進行配對,如果配對成功,則說明運行正常;如果配對失敗,則說明存在流量異常,這樣就可以實時發現問題流量。管理員可靈活設定網絡監測范圍及監測對象,并且能通過參數調節劃分異常敏感度從而實現分級告警,例如中度異常、高度異常等。流量異常檢測模型在識別異常流量后,還會對其展開分析,判斷異常流量的狀態。通常來說有4 種狀態,分別是該異常流量正在進行(Ongoing)、已經復原(Recovered)、已經檢查(Checked) 和設定無效(Obsolete)。
1.2.2 協議濫用異常檢測模型
DDoS 攻擊與協議濫用是常見的網絡入侵形式,構建面向協議濫用的入侵檢測模型,可以根據封包長度、通訊協議、端口號、網絡非法地址等流量特征,實現對DDoS 攻擊、協議濫用異常的入侵檢測,從而達到保護網絡安全的目的。協議濫用異常的攻擊流量模式定義如表1 所示。

表1 協議濫用異常的常見攻擊模式
基于協議濫用異常的檢測模型,不僅提供了幾種常見的攻擊特征定義(如Sasser、Code Red 等),而且支持管理員自定義添加一些病毒的特征信息。通過不斷豐富檢測模型,進一步提高該模型對協議濫用異常的識別精度。例如,Sasser病毒的特征是每個聯機傳送兩個封包,每個封包長度為96字節;而Code Red 病毒的特征是每個聯機傳送三個封包,每個封包長度144 字節。基于這些病毒特征,該模型能夠準確檢測異常并且根據異常信息識別出具體的攻擊類型,從而提高了網絡安全保護的能力。
早期基于數據挖掘的入侵檢測,主要采用單一的關聯規則算法,其原理是在挖掘海量數據的前提下,在實時數據與標準數據之間建立起某種關聯,根據特定的關聯規則計算兩者之間的異同點。如果差異明顯,則認為是異常數據,判定為入侵行為。實踐表明,基于單一關聯規則算法的入侵檢測模型存在數據比較分析時間長、異常識別準確度低等問題。因此,本文提出了一種關聯規則與決策樹相結合的混合算法,并基于混合算法構建了入侵檢測模型,其結構如圖2 所示。

圖2 基于混合算法的入侵檢測模型
關聯規則與決策樹在數據挖掘機制方面存在差異。如上文所述,關聯規則主要是對比兩種或多種數據的某種關聯性、規律性,根據對比結果是否存在異常來判斷有無入侵行為;而決策樹則是基于用戶行為,首先判斷該行為是否存在風險,若識別出風險,則直接完成入侵檢測。若用戶行為無風險,則確定行為名稱,劃分行為主體和行為客體。再根據行為路徑判斷是否存在風險。基于決策樹的入侵檢測模型雖然提高了對入侵行為的識別精度,但是由于決策樹中包含的分類較多,也會耗費較長的檢測時間。因此,采用關聯規則與決策樹相結合的方式,做到有機互補。在基于混合算法的入侵檢測模型中,一方面利用關聯規則來減少決策樹的條件屬性個數,提高決策樹分類精度,以便于更高效率檢測出入侵行為;另一方面利用決策樹的強關聯規則,進一步提高了入侵識別的精度。因此,該入侵檢測模型可以在異常行為檢測效率和識別精度上達到統一。
該系統采用集中控制模式和分布式數據采集模式。基于數據挖掘和流量分析發現入侵行為后,系統進入防御狀態,同時發出預警,提醒管理員盡快解決問題,降低負面影響。從系統功能實現方式上來看,入侵檢測主要流程為:從日志樣本數據庫中提取出數據并做預處理,包括數據清洗、數據訓練等。將預處理完畢的數據輸入到由ID3 決策樹模型和強關聯規則結合的混合模型中。然后與保存好的訓練參數進行配對,根據配對結果判斷是否存在風險。如果識別出風險,則進行預警。基本流程如圖3 所示。

圖3 入侵檢測原型系統實現流程
該系統的核心功能模塊有4 個,分別是數據預處理、數據挖掘模型、數據挖掘檢測和基礎管理模塊。其中,數據預處理模塊提供數據的采集和標準化處理兩項功能。主要作用是從網絡運行日志中提取數據,并根據模型訓練需要,將數據轉化成標準數據格式,提高異構數據的兼容性。在數據獲取方式上,支持讀取事件源日志文件獲取,或者SNMP Trap 獲取等。數據挖掘檢測模塊支持在線監測和離線監測兩種模式,并且在獲得檢測結果后,根據有無入侵行為決定是否向管理員發送預警消息。如果檢測到入侵行為,則自動生成并發送預警消息,內容包括入侵時間、入侵目標、入侵路徑等。
為進一步驗證基于混合算法的入侵檢測系統對于入侵行為的檢測精度,創建了適用于該系統運行的實驗環境。硬件方面,包括1 臺主機服務器,使用P4 2.4G 處理器,4G 內存,500G 硬盤;1 臺控制臺主機服務器,配置同上;100M 局域網。軟件方面,使用Windows 10 操作系統,SQLevrer 2018 數據庫。
本次實驗重點對系統基礎管理、數據預處理和入侵檢測功能3 項內容展開測試。測試內容及結果如下:
3.2.1 系統基礎管理測試。測試內容包括登錄測試和退出測試兩部分。在登錄測試中,首先給定“用戶名:ABC,密碼:”,測試時驗證ABC 用戶身份,并提示該用戶輸入對應的密碼,與期望一致。然后給定“用戶名:ABC,密碼:1234”,測試時驗證ABC 用戶身份,并提示該用戶成功登錄,與期望一致。在退出測試中,用戶點擊“退出系統”選項,測試時提示用戶成功退出系統,并返回至登錄界面,與期望一致。
3.2.2 數據預處理功能測試。向日志樣本庫中導入10000 條系統用戶行為歷史數據。然后由該系統對上述數據進行預處理,包括數據清洗、整理等。最后得到4160條有效使用的用戶行為數據記錄。數據預處理用時為13ms。
3.2.3 基于預處理所得數據,使用本文提出的基于決策樹和強關聯規則的混合算法入侵檢測系統進行用戶異常行為檢測,檢測結果如表2 所示。為了驗證該系統的應用效果,實驗中還另外設計了未使用關聯混合模型的入侵檢測系統作為對比,檢測結果如表3 所示。

表2 基于混合模型入侵檢測系統的實驗驗證

表3 未使用關聯混合模型的入侵檢測系統對比實驗
對比表2、表3 數據可以發現,傳統基于單一關聯規則的入侵檢測系統,檢測正確率在58.3%-71.4%之間,平均63.9%。另外漏報率最高達到了4.2%、誤報率最高達到了4.8%。對比來看,基于混合模型的入侵檢測系統,檢測正確率在66.7%-76.9%之間,平均72.8%,可以發現該系統對于入侵行為的識別率更高,平均檢測正確率提升了8.9 個百分點。同樣的,該系統的漏報率最高為3.3%,假報率最高為3.1%,也出現了不同程度的降低。
在計算機入侵檢測中,使用強關聯規則和決策樹相結合的混合模型,構建入侵檢測系統,在提高入侵行為檢測精度,降低誤報率和假報率方面效果良好,極大地提升了網絡信息安全。