何新洲



摘要:傳統的網絡入侵行為檢測方法檢測時間長、檢測率低,導致網絡安全受到嚴重威脅,因此基于貝葉斯分類算法對網絡入侵行為檢測方法進行研究。首先設計用戶行為日志采集系統,通過采集節點模塊、數據分析與存儲模塊對用戶行為日志數據進行采集,其次通過消除冗余數據、數據規范化等環節預處理采集到的數據。針對預處理后的數據,構建基于樸素貝葉斯分類的網絡入侵行為檢測模型,基于不同的屬性集構建非網絡入侵與網絡入侵分類規則,實現網絡入侵行為檢測。實驗結果顯示該方法檢測結果準確度在97%以上,檢測過程花費時間與對比方法相比降低4s以上。
關鍵詞:貝葉斯分類;網絡入侵;行為檢測;行為日志;屬性;分類規則;卡方檢驗法
中圖分類號:TP393
文獻標志碼:A
NetworkIntrusionDetectionMethodBasedonBayesianClassificationAlgorithm
HEXinzhou
(DataandInformationSchool,ChangjiangPolytechnic,Wuhan430074,China)
Abstract:Thetraditionalnetworkintrusiondetectionmethodhasalongdetectiontimeandlowdetectionrate,whichleadstoaseriousthreattothenetworksecurity.ThispaperstudiesthenetworkintrusiondetectionmethodbasedonBayesianclassificationalgorithm.Firstly,theuserbehaviorlogcollectionsystemisdesigned,itcollectstheuserbehaviorlogdatathroughthecollectionnodemodule,dataanalysisandstoragemodule,andthenpreprocessesthecollecteddatabyeliminatingredundantdataanddatanormalization.Accordingtothepreprocesseddata,thenetworkintrusiondetectionmodelbasedonnaiveBayesianclassificationisconstructed,andthenonnetworkintrusionandnetworkintrusionclassificationrulesbasedondifferentattributesetsareconstructedtorealizethenetworkintrusiondetection.Theexperimentalresultsshowthattheaccuracyofthemethodismorethan97%,andthedetectionprocesstakesmorethan4slesstimethanthecomparisonmethod.
Keywords:Bayesianclassification;networkintrusion;behaviordetection;behaviorlog;attributes;classificationrules;Chisquaretest
0引言
隨著互聯網技術在人們日常生活中的普遍使用,具有復雜性和連通性的開放系統逐漸替代原有的獨立系統[1],隨著而來的不僅是互聯網強大的使用功能,還有網絡安全與計算機安全問題。在此條件下,高效的網絡入侵行為檢測方法研究對于網絡安全具有重要意義,是網絡信息安全建設的關鍵環節[2]。
檢測互聯網上無授權計算機資源使用情況的行為即網絡入侵行為檢測[3]。目前已有很多學者網絡入侵行為檢測方法進行相關研究。劉強、蔡志平等學者針對入侵檢測框架、特征自動生成、安全檢測理論及方法等問題進行研究,梳理出網絡安全檢測算法和框架、并總結了網絡安全檢測與控制技術發展趨勢。鄧帥等學者提出使用改進的湯普森采樣方法作為采集函數,基于改進貝葉斯優化算法的CNN超參數優化。IDS作為使用最普遍的網絡入侵檢測系統,IDS在分析海量數據集過程中采用神經網絡、模糊邏輯與支持向量機的機器學習方法[4]。但隨著網絡入侵行為的升級,上述方法下的網絡入侵行為檢測方法對于用戶行為的分類效率與精度均有不同程度的下降,無法滿足當前網絡入侵行為檢測的需求。
貝葉斯分類算法是一種概率分類方法[5],是當前未知分類檢測的最佳算法,普遍應用于不同信息領域內。在網絡入侵行為檢測中引入貝葉斯分類算法,提出基于貝葉斯分類算法的網絡入侵行為檢測方法,可在短時間內準確分類用戶行為日志數據集。
1網絡入侵行為檢測方法
1.1用戶行為日志數據獲取
用戶行為日志數據是網絡入侵行為檢測的基礎[6],利用行為日志采集系統可實現用戶行為日志數據的采集。
用戶行為日志采集系統結構框架,如圖1所示。
用戶行為日志采集系統由采集節點模塊、數據分析與存儲模塊、WEB查詢統計與管理模塊、管理員模塊四部分組成。數據分析與存儲模塊和WEB查詢統計與管理模塊均選取JAVA語言開發[7],在開發工程中使用Spring和Hibernate等框架。以CentOS操作系統為采集節點模塊運行平臺,該模塊同數據分析與存儲模塊和WEB查詢統計與管理模塊相對獨立,具有數量變化特性[8],滿足數據采集過程的動態擴充需求。
同時,行為日志采集系統具有交換機網絡端口流量鏡像功能,無需額外安裝插件,即可實現目標業務流量與系統連接網絡端口之間的鏡像,方便用戶行為日志數據的處理。
1.2用戶行為日志數據的預處理
用戶行為日志數據預處理共分為三個環節[9],分別是消除冗余數據、數據規范化和日志數據庫。
在海量的用戶行為日志數據內,存在大量重復的,不必要的信息,為降低網絡入侵行為檢測難度,提升檢測效率,需先消除日志數據內的冗余數據,再規范數據形式。
日志數據內的各信息中均包含部分重要屬性信息與部分次要信息。舉例說明:在某日志數據內包含的相關內容有:用戶IP地址、用戶名、使用時間、請求內容以及反饋使用端的狀態碼與字節數等,當此日志數據可疑時,其中的請求內容與反饋使用端的狀態碼是重要屬性信息,其余則為次要信息。日志來源有所差異的條件下日志格式也有所差異,因此日志規范化處理應以完整性、簡潔性與可擴展性為目標[10]。其中完整性和簡潔性是確保日志數據處理后其中的不必要信息刪除,而重要屬性信息需完整;可擴展性則是表示規范后的日志數據內可容納類型差異的日志數據。
日志數據庫設計過程中,通過設計同類日志擴展格式,使類型相同系統日志的擴展,利于網絡入侵行為檢測效率的提升。
1.3網絡入侵行為檢測
1.3.1樸素貝葉斯分類下的網絡入侵行為檢測
針對預處理后的用戶行為日志數據以WenkeLee入侵檢測理論為基礎[11],構建基于樸素貝葉斯分類的網絡入侵行為檢測模型(以下簡稱為樸素貝葉斯分類檢測模型),模型結果如圖2所示。
樸素貝葉斯分類檢測模型構建過程如下:利用n維特征向量描述用戶行為日志數據,訓練樣本的類標識可固定模型結構,即類節點。各訓練樣本內包含的全部特征屬性均為存在于根節點內、具有獨立性的子節點[12],基于此當確定貝葉斯分類模型結構后,基于訓練樣本A節點的概率即可確定模型參數。
如圖2所示的模型以預處理后的用戶行為日志數據為基礎進行分組,將其分為測試集和訓練集。首先,對訓練集內的用戶行為日志數據經過學習后實施樸素貝葉斯分類,通過類標識標記訓練數據,來區分正常記錄和異常記錄,獲取分類結果。測試集內的用戶行為日志數據與訓練結果均通過樸素貝葉斯分類器去掉數據中一些與分類相關性不大甚至不相關的屬性,最后獲得檢測所需結果,實現網絡入侵行為檢測目的。利用該模型進行網絡入侵行為檢測的過程中,訓練過程與檢測過程是重中之重。
上述模型分類原則,如式(1)。
RLjB1,B2,…Bn=max
RLiB1,B2,…Bn(1)
式中,n所表示的是類別總數,R表示訓練樣本的概率,Lj類內包含B1,B2,…Bn。
上述模型工作原理如下。
用B={B1,B2,…Bn}和L1,L2,L3,…,Lm分別描述一個n維特征向量和m個類別,維數n表示特征數量。
用Y表示一個給定用戶行為日志數據樣本,通過上述模型將樣本內的數據劃分至類Lj內,
在RLjY>RLiY條件下,
1≤i,j≤m,i≠j。根據貝葉斯理論,如式(2)。
RLjY=RYLj
R(Lj)R(Y)(2)
1.3.2貝葉斯分類模型優化
樸素貝葉斯分類檢測模型內,特征差異對于分類結果不產生影響。但在實際分類應用過程中,不同特征對于分類結果產生的作用是有所差異的[13]?;诖?,需要優化樸素貝葉斯分類檢測模型,利用卡方檢驗法確定不同分類特征對分類結果產生的不同作用[14],由此獲取某問題的重要特征,利用該特征降低用戶行為日志數據分類難度。通過優化后的分類檢測模型既能夠確保特征數據的正確獲?。ǚ诸惤Y果準確性)又能夠降低數據分類難度,提升網絡入侵行為檢測效率。
特征對于分類的關鍵度可通過特征權值描述,特征權值定義,如式(3)。
ej=CH(Bj)∑nj=1CH(Bj)(3)
式中,CH所表示的是關鍵度基數,表示第j個特征數量的特征向量。
在樸素貝葉斯分類檢測模型內引入特征權值進行優化后,檢測模型未知樣本的后驗概率可計算過程描述,如式(4)。
RLjB1,B2,…Bn=R(Lj)∏nn=1enr
(BnLj)∑mi=1R(Lj)∏nn=1enr(BnLj)(4)
式中,R(Lj)∏nn=1enr(BnLj)表示對Lj類樣本存在概率
r(BnLj)的最大化處理。
∑mi=1R(Lj)∏nn=1enr(BnLj)
表示在假定類概率為等概率的條件下,對r(BnLj)的最大化處理。
針對給定的未知用戶行為日志數據樣本,∑mi=1R(Lj)∏nn=1en
r(BnLj)通常為常數,由于y=lnx函數為單調遞增函數[15],因此分類未知用戶行為日志數據樣本時僅需對比lnR(Lj)∏nn=1enr(BnLj)即可。
優化后的樸素貝葉斯分類檢測模型實現網絡入侵行為檢測的過程如下:
(1)計算各訓練樣本中的不同特征,清除用戶行為日志數據內冗余特征,獲取新的特征集合。利用式(3)確定分類特征權值,由此定性、定量的判斷不同特征對于數據分類的影響。
(2)評估Rj=R(Lj)描述所屬Lj類的樣本在特征集合中存在的概率。
(3)評估用戶行為日志數據集合內各屬性B的各取值Bi在Lj類樣本內存在的概率R(BiLj)。
(4)通過式(5)實現類別劃分,如式(5)。
Lnb=argmaxlnR(Lj)∏nj=1ejr(BjLj)
(5)
通過上述分類過程即可達到網絡入侵行為檢測目的。
2實驗分析
2.1實驗環境
實驗為測試本文提出的基于貝葉斯分類算法的網絡入侵行為檢測方法性能優勢,選取2011年深圳舉辦的第十五屆亞太知識發現與數據挖掘國際會議中檢測網絡入侵檢測系統性能過程中所使用的相關數據集為實驗用數據集。該數據集內各數據中均包含如持續時間與協議類型等不同的39個特征,并對全部數據進行正確類型(是否為入侵行為)劃分。在該數據中隨機選取十萬條數據作為實驗用訓練集,并選取九萬條數據作為隨機生成5個測試集,所選數據中入侵行為劃分,如表1所示。
各測試集內網絡入侵行為數據信息情況,如表2所示。
2.2實驗結果
分別采用本文方法、基于模糊邏輯的檢測方法和基于支持向量機的檢測方法對上述三個測試集中的數據實施網絡入侵行為檢測,如表3—表5所示。
由表3、表4和表5可得,本文方法檢測三個測試集得到的檢測結果準確度基本控制在97%以上,兩種對比方法檢測結果準確度均顯著低于本文方法,由此可知本文方法在網絡入侵行為檢測過程中具有較高的檢測精度。
各測試集檢測過程中花費的時間,如圖3所示。
分析圖3能夠得到,采用本文方法檢測三個測試集花費的平均時間均控制在11s左右,與兩種對比方法相比降低4s以上,由此可知本文方法具有較高的檢測效率。
3總結
網絡入侵檢測技術隨著計算機技術的發展與普遍使用受到越來越多的關注。本文針對以往基于支持向量機等的機器學習算法的檢測方法檢測效率與檢測精度無法滿足當前網絡入侵行為檢測需求的問題,提出基于貝葉斯分類算法的網絡入侵行為檢測方法,實驗結果顯示本文方法的檢測精度與檢測效率均優于對比方法。
參考文獻
[1]陳惠娟,馮月春,趙雪青.利用SSO的自適應黑名單分組過濾器網絡入侵檢測方法[J].控制工程,2018,25(10):19401945.
[2]劉強,蔡志平,殷建平,等.網絡安全檢測框架與方法研究[J].計算機工程與科學,2017,39(12):22242229.
[3]夏景明,李沖,談玲,等.改進的隨機森林分類器網絡入侵檢測方法[J].計算機工程與設計,2019,40(08):21462150.
[4]鄧帥.基于改進貝葉斯優化算法的CNN超參數優化方法[J].計算機應用研究,2019,36(7):19841987.
[5]梁瀟,王海峰,郭進,等.基于貝葉斯網絡的列控車載設備故障診斷方法[J].鐵道學報,2017,39(8):93100.
[6]劉浩然,孫美婷,王海羽,等.基于分類優化貝葉斯結構算法的篦冷機參數狀態分析及其算法收斂性分析[J].計量學報,2019,40(4):662669.
[7]RifaiChai,GaneshRNaik,TuanNghiaNguyen,etal.DriverFatigueClassificationWithIndependentComponentbyEntropyRateBoundMinimizationAnalysisinanEEGBasedSystem[J].IEEEJournalofBiomedical&HealthInformatics,2017,21(3):715724.
[8]劉彬,范瑞星,劉浩然,等.基于混合樽海鞘差分進化算法的貝葉斯網絡結構學習算法[J].通信學報,2019,40(7):151161.
[9]BrankovicA,FalsoneA,PrandiniM,etal.AFeatureSelectionandClassificationAlgorithmBasedonRandomizedExtractionofModelPopulations[J].IEEETransactionsonCybernetics,2018,48(4):11511162.
[10]王洋,吳建英,黃金壘,等.基于貝葉斯攻擊圖的網絡入侵意圖識別方法[J].計算機工程與應用,2019,55(22):7379.
[11]魏照坤,謝新連,潘偉,等.基于樸素貝葉斯算法的船舶異常行為監測[J].交通運輸系統工程與信息,2017,17(6):147154.
[12]李海玲,張昊.卷積邊界擴展研究與實現[J].微型電腦應用,2018,34(10):4749.
[13]石樂義,朱紅強,劉祎豪,等.基于相關信息熵和CNNBiLSTM的工業控制系統入侵檢測[J].計算機研究與發展,2019,56(11):23302338.
[14]郭雷.遠程網絡校準測控系統設計[J].微型電腦應用,2018,34(7):4345.
[15]X.Geng,Q.Li,D.Ye,etal.Intrusiondetectionalgorithmbasedonroughweightilyaveragedonedependenceestimators[J].JournalofNanjingUniversityofScience&Technology,2017,41(4):420427.
(收稿日期:2020.04.07)