張軍 劉亞茹
摘要:為了更好地提高入侵檢測的準確率,節省檢測時間,文章提出了一種基于增量式的決策樹檢測算法。該方法采用了基于粒度決策熵和改進的主成分分析方法對數據集中的冗余以及不相關屬性進行歸類、降維。該方法將數據挖掘增量學習技術與決策樹分類算法相結合,在屬性降維后的決策樹基礎上,對于新的測試樣本實例,引入擴展貝葉斯結點,比較貝葉斯分類方法與決策樹分類方法的準確率,返回更新后的決策樹。針對屬性降維,主成分分析方法在約簡屬性的基礎上,能夠有攻擊分類結果準確率高、耗時少的特點。將增量式決策樹算法與貝葉斯算法、ID3算法進行對比,發現在檢測精確率、檢測效率的指標下,增量式決策樹算法在一定程度上優于其他算法,并且誤報率有效降低。
關鍵詞:粒度決策熵;貝葉斯算法;增量學習;入侵檢測
中圖分類號:TP3文獻標志碼:A0引言 隨著互聯網快速發展,數據泄露、病毒肆虐等問題對社會發展產生了極大的危害。如何設計一套安全訪問資源和數據的系統,是當前網絡安全領域的一個十分重要而迫切的問題[1]。入侵檢測系統能積極主動防御外部入侵,而被廣泛應用到網絡安全領域[2]。
針對入侵檢測導致的網絡安全事件。李軍豪等[3]提出了多通道高速數據安全傳輸方法,利用FPGA配合高速串行收發器實現四路通道的高速數據安全傳輸。但由于該方法穩定性較差,不能保證涉密信息在網絡傳輸中的機密性。邢璐等[4]提出了改進UDT協議的傳輸方法。通過分析帶寬下的UDT傳輸瓶頸、優化系統參數、增強UDT可靠性和減少系統調用代價等方式實現數據傳輸,而該方法沒有分類,導致傳輸效率過低、完整性差。
在已有入侵檢測技術中,決策樹分類算法模型簡單,能有效對入侵檢測數據分類,但有新的樣本數據時,在構造決策樹模型的過程中需要對網絡連接數據集進行多次順序掃描和排序[4],導致檢測效率低,為此引入增量式決策樹算法,對已學習到的知識庫進行更新、糾正,不用重新對數據進行學習,提高入侵檢測的效率。本文所做工作如下:(1)在初始決策樹的基礎上,對自頂向下構造決策樹算法進行優化,在葉子結點處插入貝葉斯結點,比較貝葉斯分類方法和決策樹分類方法的準確率,更新修正決策樹模型。(2)對于數據集中連續屬性需離散化問題,本文采用無監督離散化算法Equal-width Binning方法離散化連續屬性。(3)對于傳統決策樹算法ID3和C4.5得到的決策樹子樹重復、屬性存在大量冗余的問題,本文通過引入粒度決策熵和主成分分析法來選擇分裂屬性,降低數據集合的數量級和數據量[5]。實驗結果表明,模型的入侵檢測效率性、機密性、完整性相比目前的研究方法都有很大的提高。
1增量式決策樹算法模型
1.1決策樹歸納算法
1.2貝葉斯算法原理
1.3增量式決策樹算法描述網絡入侵檢測分為兩種,一種是將數據信息與數據庫中已有的入侵行為對照匹配規則檢測,若匹配成功則判定為入侵行為。另一種是數據庫中無數據信息的入侵行為,則需要使用貝葉斯結點將數據信息插入數據庫。
貝葉斯結點:設一個樣本數據集的決策樹的某個結點A,對新的到達A結點的樣本數據進行樸素貝葉斯分類,A稱為貝葉斯結點。
貝葉斯參數:決策樹的某個結點屬性空間D和分類情況稱為貝葉斯參數。
貝葉斯結點插入決策樹的葉子節點上的思路是對于新的數據樣本到達決策樹葉子節點P,通過設置flag,當需要對P插入貝葉斯結點時,才將P改為貝葉斯結點。即只有部分葉子結點是貝葉斯結點。
1.4增量式決策樹算法實驗使用UCI數據庫中部分數據集對算法進行實驗測試,選擇的對比算法是擴展前貝葉斯分類器的增量式決策樹算法、ID3算法和貝葉斯分類算法,針對3種算法的準確率和耗時指標,分別從非增量和增量兩種情況進行比較分析,測試兩者的分類效果。
從表1看出,實驗硬件配置為Core(TM)i5-8250U,使用的軟件開發平臺為Eclipse4.2,JDK版本為1.8。實驗軟硬件環境符合實驗要求。
從表2中UCI數據集信息看出,Letter數據集的樣本規模最大,達到20 500;Banding數據集的樣本規模最小為146。數據集Soybean的樣本屬性個數最多為41個;Monk1的樣本屬性個數最少為9個。在6個數據集中,Banding,Crx,Monk1,Vote數據集歸為類別2。Letter,Soybean歸為其他類別。
3種算法在非增量的情況下準確率和耗時結果如表3所示。從表3看出,在非增量情況下,增量式決策樹算法的分類準確率比ID3算法提高了3.75%,比貝葉斯算法提高了8.64%,說明增量式決策樹算法在分類準確率方面優于ID3和貝葉斯算法。
使用同樣的數據集,在增量學習的情況下,比較兩種算法的效果如表4所示。
從表4看出,在增量情況下,增量式決策樹算法的分類準確率比ID3算法提高了2.65%??梢园l現增量式決策樹算法的不足,算法的開銷比ID3算法和貝葉斯算法較大,這是因為算法主要集中對葉子結點進行貝葉斯分類學習,所以會有一定的時間花費。
2結語針對在入侵檢測重復計算效率低下的問題,本文提出了增量式決策樹歸納算法。首先,針對屬性冗余問題,通過粒度決策熵和主成分分析法對屬性精簡和降維。其次,在構造決策樹中引入擴展貝葉斯結點,在一定程度上可以避免重復計算的問題。通過貝葉斯算法、樸素貝葉斯算法和增量式決策樹算法在正確率、精確率、召回率3個方面進行比對,發現增量式決策樹算法比其他算法提高了10%。本文實驗部署在基于Windows的電腦上,結果表明使用增量式決策樹算法能夠在較短的時間內有效甄別入侵檢測。雖然本方案能夠在一定程度上有效識別入侵檢測,但是隨著現在技術更新發展,入侵檢測的防范技術會不斷更新,只使用一種算法很難做到有效地分類識別,所以需要做進一步的改進,以擴大本方案的適用范圍。
參考文獻
[1]蔣建春,馬恒太,任黨恩,等.網絡安全入侵檢測:研究綜述[J].軟件學報,2000(11):1460-1466.
[2]李貝貝,宋佳芮,杜卿蕓,等.DRL-IDS:基于深度強化學習的工業物聯網入侵檢測系統[J].計算機科學,2021(7):47-54.
[3]李君豪,畢麗霞,王永利.多通道高速數據安全傳輸系統的設計與實現[J].電子技術應用,2018(9):125-128.
[4]邢璐,嚴明,吳承榮.高速網絡環境中適合大數據傳輸的改進UDT協議[J].計算機應用與軟件,2018(6):138-145.
[5]張昊,張小雨,張振友,等.基于深度學習的入侵檢測模型綜述[J].計算機工程與應用,2022(6):17-28.
[6]解濱,董新玉,梁皓偉.基于三支動態閾值K-means聚類的入侵檢測算法[J].鄭州大學學報(理學版),2020(2):64-70.
[7]OGHENEOVO E,NLERUM P.Iterative Dichotomizer 3(ID3) Decision Tree:A Machine Learning Algorithm for Data Classification and Predictive Analysis[J].International Journal of Advanced Engineering Research and Science,2020(4):514-521.
(編輯王 永超)
Research on intrusion detection based on invremental decision tree algorithm Zhang? Jun, Liu? Yaru
(Henan Vocational College of Water Conservancy and Environment, Zhengzhou 450008, China)Abstract:? In order to improve the accuracy of intrusion detection and save detection time, an incremental decision tree detection algorithm is proposed. This method adapts attribute reduction algorithm based on granularity decision entropy to classify redundant and irrelevant attributes in data set.Then the paper combines incremental learning technology of data mining with decision tree classification algorithm. On the basis of initial decision tree, Bayesian nodes are introduced to compare the accuracy of Bayesian classification method and decision tree classification method, and the updated decision tree is returned. For attribute reduction, the granular decision entropy algorithm can ensure high accuracy and recall on the basis of reducing attribute. Compared with Bayes algorithm and ID3 algorithm, it is found that the incremental decision tree algorithm is better than other algorithms in detection accuracy and detection efficiency, and the false alarm rate is significantly reduced.
Key words: granular decision entropy; Bayesian algorithm; incremental learning; intrusion detection