◆杜國真
基于遷移學習的入侵檢測技術研究
◆杜國真
(河南護理職業學院 河南 455000)
隨著計算機和網絡技術的快速發展,網絡的安全逐漸被各國重視,本文在深入了解國內外信息安全方面現有研究的基礎上,針對入侵檢測技術存在的源數據樣本采集困難、數據模型建立時間長以及檢測率不平衡等問題,提出了一種基于遷移學習的入侵檢測技術,通過實驗分析得到預期的檢測效果。
網絡安全;入侵檢測;遷移學習;網絡異常檢測.
隨著計算機和網絡技術的飛速發展,網絡安全已經逐漸被各個國家所重視,隨著我國網絡安全戰略的提出,網絡空間的安全問題被提升到前所未有的高度。網絡安全技術起初提出時主要是基于防火墻技術通過限制訪問列表等策略來實現的,防火墻技術顧名思義主要是通過軟件與硬件相結合設立外網與內網之間的一道安全防范措施。防火墻技術是需要根據自身網絡的特點定義一些安全策略,但是這種偏向主觀的設置安全策略的方式,在遇到定義模糊或者漏項時,這些將會導致系統出現漏洞的危機現象,這些漏洞將有可能導致系統被入侵和攻擊。其次,防火墻技術主要是對進出內部網絡的服務和訪問進行審計與控制,這種方式在面臨網絡或者計算機收到惡意代碼的入侵和攻擊時,這種處理方式帶來的效果將是有限度的。
綜上所述,入侵檢測技術很好地解決了上述問題,而且一經提出便成為網絡安全領域的研究熱點之一,入侵檢測技術主要是對內部網絡進行實時監控,然后將內部網絡的活動記錄下來,如果發現異常現象便會采取相應措施。而且從20世紀80年代提出以來,一直是網絡安全領域研究的熱點之一。
入侵檢測是指收集并記錄用戶以及系統的活動信息,然后按照預定的算法對收集到的系統信息進行分析計算,將分析結果與系統正常時的行為數據進行對比分析,參照一定的標準判斷當前系統是否收到可疑文件,是否發生異常現象。主要包括攻擊預估、相應攔截和檢測。入侵檢測系統的評價主要有以下幾個方面:有效性,入侵檢測技術的有效性是指系統受到入侵攻擊行為時能夠正確地做出響應,并且保證對攻擊行為的誤報率要保持一定的低比例;實用性,主要是指當系統遇到攻擊行為時能夠正確做出判斷,并對入侵行為能夠進行適時處理;適應性,主要是指當入侵檢測系統在設定并部署應用之后能根據網絡和計算機系統的實時行為記錄對攻擊行為進行相應的處理。
按照不同的分類方式,入侵檢測系統可以有以下幾種分類:
(1)異常檢測技術:這種檢測技術是當前研究入侵檢測技術的主流之一,最初的Denning模型便是基于這種檢測技術建立的檢測模型。其建立過程大致為:首先將該系統模型部署在一個正常的計算機系統中,根據當前正常的計算機信息,通過分析計算逐步建立正常的行為模式,然后將正常模式對計算機對系統進行分析推理判斷。入侵檢測系統在采集收集數據時,通過檢測網絡和計算機操作日志對數據進行前期處理。
(2)誤用檢測模型:主要是通過統計學原理而建立的模型。該模型首先通過對網絡和計算機系統正常模式下工作的數據進行收集分析,逐步建立正常模式下的計算機系統信息數據庫,當系統出現與之前數據庫信息相悖時,便定義為入侵行為。其主要缺點有:誤報率與正常行為的特征數據庫建立維度有關;正常行為特征庫的正常值難以確定;判斷入侵行為的閾值界定難度大,這些都容易導致誤報率高。隨著誤報率的提高,入侵檢測系統也會漸漸失去檢測能力。
2.2.1基于主機的入侵檢測系統
根據計算機操作系統中如應用程序的服務器事件、系統調用以及內核記錄等日志文件,然后將這些數據信息與計算機內部攻擊的數據庫進行對比分析,這種方式通常情況下只會保護計算機系統不受侵害。其結構如圖1。

圖1 結構示意圖
優點主要有:(1)更好地利用計算機系統本身的數據信息,通過這種利用本機系統建立數據庫的方式使得收集到的信息更加精確,更加具有針對性;(2)能夠對特洛伊木馬以及其他破壞軟件的完整性進行檢測;(3)這種方式可以應用在需要對數據進行加密和被交換的網絡環境;(4)可以檢測到管理員實施的非正常操作。不足之處在于:系統本身容易受到攻擊,管理難度大;因為系統需要收集的信息量大,因此需要很大的存儲空間;因為是基于主機的檢測系統,在執行檢測的過程中會占用主機更多的CPU和內存等資源,使得主機的其他數據處理能力下降;對來自網絡的多點攻擊很難做到完整判別。
2.2.2基于網絡的入侵檢測系統
與基于主機的入侵檢測系統不同的是,該系統模式主要是對來自網絡的數據信息進行收集和處理。數據的收集主要是通過計算機本身的網卡進行實時收集并分析的,標識攻擊行為的屬性通常有:通過網卡的最大值、表達式、模式、頻率以及低級事件的相關性,在整個網段及系統受到攻擊時,NIDS便會發出預警并采取相應的阻止行為。該系統的優點有:成本較低;能夠實現對整個網絡系統的實時監控和保護,大規模的網絡檢測較適用;主要缺點在于:分類器的訓練時間太久,因為需要收集大量的數據才能分析建成,而且訓練數據也是動態變化的,與現有的或者以往的數據存在很多不同。
在不同領域之間的知識遷移稱為遷移學習。而對于機器學習是指在處理不同任務能夠實現不同域或者不同任務之間的學習。遷移學習大致可以分為以下幾類:
這種遷移學習方式要求目標任務和源任務不同,但是不考慮目標域與源域是否相同。
與歸納型遷移學習方式不同的是,這種學習方式要求源任務必須與目標任務完全一致,但是要求源域與目標域不相同。因此根據兩個域之間的不同情況,可以分為以下兩種:
(1)目標域與源域概率密度函數相同,但是兩者的分布位置不同;
(2)目標域與源域邊緣在特征空間和分布位置上相同,但是兩者的概率密度函數不同。
根據數據流的處理以及檢測反應可以將入侵檢測模型的組成劃分為:收集計算機系統數據模塊、數據預處理模塊、特征學習模塊和分析檢測模塊。其一般過程為對網絡和計算機系統數據進行收集,并存放于數據庫中,該過程可以劃分為清洗冗余數據、數據規范化、數據歸一處理等;產生的數據通過概率計算等方式進行特征提取和學習,主要是為后期入侵檢測做準備,然后系統根據預先得到的數據樣本特征進行判斷系統是否受到入侵攻擊。
通用入侵檢測模型結構大致如下:事件產生器,事件分析器,事件數據庫和響應單元。大致流程如下:事件產生器首先收集相關事件的數據,然后將信息檢測誤用模式;將事件信息存放到事件數據庫中,并為其他事件分析提供額外的信息。
模型大致包括以下單元:數據采集,數據格式設置,數據預處理,樣本訓練和學習模塊,數據多分類器,專家判別模塊,入侵規則和日志數據庫。
本文在深入研究國內外關于入侵檢測技術和遷移學習理論等相關研究背景和發展趨勢的基礎上,針對當前系統應用中出現的問題,將遷移學習的觀點和方法應用到計算機網絡安全的入侵檢測系統中,并應用于基于網絡的入侵檢測系統,為今后遷移學習在入侵檢測系統中的應用研究奠定了一定的基礎。
[1]王東東.基于遷移學習的入侵檢測技術研究[D].山西太原:中北大學,2015.
[2]趙新杰,劉淵,孫劍.基于遷移學習和D-S理論的網絡異常檢測[J].計算機應用研究,2016(04):1137-1140.
2016年河南省高等學校青年骨干教師培養計劃項目:遷移學習方法在網絡入侵檢測中的應用研究,編號:2016GGJS-285。