朱 敏
(湄洲灣職業(yè)技術(shù)學(xué)院,福建 莆田 351119)
近年來,網(wǎng)絡(luò)不斷延伸到社會各個領(lǐng)域,網(wǎng)絡(luò)中的機密信息大量增加,網(wǎng)絡(luò)安全技術(shù)的重要性日益凸顯,如何有效檢測信息,確定網(wǎng)絡(luò)數(shù)據(jù)安全,成為當前亟待解決的問題[1]。
近年來,隨著網(wǎng)絡(luò)用戶和信息的增加,網(wǎng)絡(luò)攻擊的數(shù)量也在增加。入侵檢測技術(shù)是發(fā)現(xiàn)一系列威脅信息資源完整性、機密性和可用性的惡意行為的有效安全手段。對于網(wǎng)絡(luò)大量事件數(shù)據(jù),入侵檢測技術(shù)能夠在考慮最佳分類率的同時,準確地對正常和異常事件進行分類,以達到過濾網(wǎng)絡(luò)攻擊事件、降低誤報率的目的[2-3]。
當前提出的入侵檢測行為取證模型多是利用數(shù)據(jù)挖掘?qū)崿F(xiàn)入侵檢測,通過數(shù)據(jù)挖掘檢測網(wǎng)絡(luò)中的誤用信息和異常信息,利用匹配法分析網(wǎng)絡(luò)流量中的攻擊行為和樣本。數(shù)據(jù)挖掘法雖然能夠降低錯誤檢測率、加快檢測速度,但是數(shù)據(jù)挖掘法過于依賴訓(xùn)練集,如果訓(xùn)練集中不存在異常檢測和誤用檢測的模型,則無法匹配[4]。
本文基于已有研究,應(yīng)用樸素貝葉斯構(gòu)建了一種新的社交網(wǎng)絡(luò)入侵行為取證模型,在樸素貝葉斯模型上引入調(diào)控參數(shù),通過分析精確度來確定最佳性能,利用實驗驗證取證模型的有效性,實驗結(jié)果表明,該模型能夠有效檢測到入侵行為。
本文通過建立改進的神經(jīng)網(wǎng)絡(luò)模型擴展已有的入侵檢測框架,基于特征選擇和離散化預(yù)處理的思想,分析網(wǎng)絡(luò)中海量數(shù)據(jù)的復(fù)雜度和虛警率,從而減少分析時間、提高分析速度。本文提出的算法不同于傳統(tǒng)的入侵檢測模型,在進行網(wǎng)絡(luò)事件分類時,通過合理地選擇和調(diào)整參數(shù),有效地調(diào)整正確分類率和錯誤分類率,并結(jié)合學(xué)習(xí)和訓(xùn)練等機械方法,得到最佳的分類結(jié)果。本算法不受應(yīng)用領(lǐng)域的限制,具有很強的靈活性和可擴展性,能對各種概率事件進行分類[5-6]。本算法有如下優(yōu)點:(1)快速分類,降低了算法的復(fù)雜性;(2)虛警率低、漏檢率低、誤報率低;(3)結(jié)構(gòu)適應(yīng)性和靈活性良好;(4)具有較好的穩(wěn)定性和擴展性。
貝葉斯網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)為圖形化網(wǎng)絡(luò)結(jié)構(gòu),這種結(jié)構(gòu)能夠有效減少概率推理時間,提高應(yīng)用價值。樸素貝葉斯網(wǎng)絡(luò)如圖1所示。

圖1 樸素貝葉斯網(wǎng)絡(luò)
樸素貝葉斯網(wǎng)絡(luò)雖然網(wǎng)絡(luò)結(jié)構(gòu)簡單,但是內(nèi)部節(jié)點都是父節(jié)點,這些父節(jié)點具備自己的屬性,并且沒有連接[7-8]。
貝葉斯方法的知識表達為判別函數(shù),而非參數(shù)方法為判別函數(shù)。數(shù)據(jù)挖掘在機器學(xué)習(xí)中的應(yīng)用主要有決策樹方法、規(guī)則歸納法、產(chǎn)生規(guī)則的決策樹方法和規(guī)則表示法[9]。該方法分為兩部分:一是建立入侵分類模型,二是對入侵進行分類,圖2為具體步驟。
當前入侵檢測中建立分類模型的方法有很多種,其原理和策略也不盡相同,通過研究決策樹和數(shù)學(xué)表達公式來展示模型結(jié)果。

圖2 入侵檢測分類過程圖
分析標記連接記錄數(shù)據(jù)實現(xiàn)新訓(xùn)練,這樣可以有效減少重復(fù)和評價花費的時間,根據(jù)特征分析完成分類進行檢測,連接記錄被輸入到分類器,然后分類器會輸出記錄所屬的類別[10-11]。
入侵行為取證模型是入侵檢測技術(shù)中的一個重要組成部分,貝葉斯網(wǎng)絡(luò)能夠建立廣泛的認知行為模型,具有神經(jīng)網(wǎng)絡(luò)所沒有的概率推理能力[12]。本文以貝葉斯概率理論為基礎(chǔ),建立取證模型,它不僅具有理論基礎(chǔ),而且具有表達和推理的能力。入侵行為取證模型如圖3所示。

圖3 基于樸素貝葉斯的社交網(wǎng)絡(luò)入侵行為取證模型
決定理論是主觀貝葉斯歸納理論的重要組成部分,它在完全智能條件下估計局部知識狀態(tài)的主觀概率,再用貝葉斯公式修正發(fā)生概率,最后根據(jù)預(yù)測值和修正概率進行優(yōu)化。這種方法的核心思想是利用測驗前的概率估計測驗后的概率[13]。
本文基于貝葉斯決策理論,建立并簡化了樸素貝葉斯分類模型。這種方法具有簡單、速度快、分類精度高的特點。核心算法如下:
計算步驟為:
(1)計算訓(xùn)練樣本Cj的概率,表達為P(Cj),計算公式為:

其中,cj對應(yīng)的訓(xùn)練樣本數(shù)據(jù)集為表示訓(xùn)練的總樣本數(shù)據(jù)集。
(2)分析訓(xùn)練樣本中的特征?a,特征值在網(wǎng)絡(luò)事件類別出現(xiàn)的相對概率值P(ai∣cj) ,計算公式為:

(3)根據(jù)上述公式得到訓(xùn)練樣本中的特征值,計算公式為:

(4)利用樸素貝葉斯網(wǎng)絡(luò)得到獨立假設(shè),分析入侵行為概率,計算公式為:

基于事件的貝葉斯網(wǎng)絡(luò)是入侵檢測的基本實現(xiàn)方法。為獲得能夠真實反映樣本間關(guān)系的有向無環(huán)網(wǎng)絡(luò)拓撲,對貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)進行了研究,本文的貝葉斯網(wǎng)絡(luò)能夠在數(shù)據(jù)中顯示潛在的條件無關(guān)關(guān)系和概率分布函數(shù)。
貝葉斯網(wǎng)絡(luò)社交網(wǎng)絡(luò)入侵行為取證模型依據(jù)參數(shù)學(xué)習(xí)方法的特點,可將參數(shù)估計劃分為經(jīng)典統(tǒng)計估計和貝葉斯統(tǒng)計估計兩類,通常采用矩估計和極大似然估計兩種方法進行統(tǒng)計參數(shù)估計。
貝葉斯網(wǎng)絡(luò)分為兩個階段,分別是結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí),結(jié)構(gòu)學(xué)習(xí)通過網(wǎng)絡(luò)拓撲結(jié)構(gòu)來實現(xiàn)信息分析,探索網(wǎng)絡(luò)內(nèi)部節(jié)點變量學(xué)習(xí)條件概率。
貝葉斯網(wǎng)絡(luò)能夠很好地訓(xùn)練樣本數(shù)據(jù),利用研究對數(shù)據(jù)和先驗知識進行分析,從而得到最好的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。貝葉斯網(wǎng)絡(luò)的推理方式包括因果分析、診斷分析和支持分析。因果推理采用的是自下向上的推理,在分析原因后得出結(jié)論,根據(jù)已知的證據(jù)驗證不同情況下出現(xiàn)的不同現(xiàn)象;診斷推理是利用結(jié)論分析原因,在確定推理結(jié)果后,確定原因所發(fā)生的概率;支持推理是通過驗證不同原因之間的相互影響,從而分析數(shù)據(jù)。貝葉斯網(wǎng)絡(luò)作為概率網(wǎng)絡(luò),通過統(tǒng)計學(xué)研究知識分類,在大型數(shù)據(jù)庫中,判斷不同的屬性值,提高方法的準確性。
基于樸素貝葉斯的社交網(wǎng)絡(luò)入侵行為取證模型的入侵檢測流程如圖4所示。在第一階段分析網(wǎng)絡(luò)流量數(shù)據(jù),在辨別不同取證類型后,獲得映射集,映射集合為,通過訓(xùn)練完成數(shù)據(jù)的離散化處理和特征選擇,即實現(xiàn)數(shù)據(jù)的預(yù)處理,在預(yù)處理中將有效數(shù)據(jù)過濾出來,根據(jù)統(tǒng)計結(jié)果得到先驗概率通過映射關(guān)系,確定集中數(shù)據(jù)集,從而能夠檢測到整個社交網(wǎng)絡(luò)內(nèi)部入侵行為。在第二階段,提取整個框架中的數(shù)據(jù),借鑒離散化和特征選擇的思想把提取的網(wǎng)絡(luò)數(shù)據(jù)具象化,簡化內(nèi)部冗余數(shù)據(jù)和不重要的特征數(shù)據(jù),通過降低社交網(wǎng)絡(luò)入侵時間復(fù)雜度和空間復(fù)雜度,提高社交網(wǎng)絡(luò)入侵行為檢測的精度。

圖4 取證模型入侵檢測流程
為了驗證本文提出的基于樸素貝葉斯的社交網(wǎng)絡(luò)入侵行為取證模型的有效性,設(shè)定對比實驗,分別與基于信息增益的社交網(wǎng)絡(luò)入侵行為取證模型以及基于數(shù)據(jù)挖掘的社交網(wǎng)絡(luò)入侵行為取證模型進行對比。本文選用的實驗數(shù)據(jù)來自于KDDCUP入侵檢測數(shù)據(jù)集,KDD入侵檢測數(shù)據(jù)集內(nèi)部的數(shù)據(jù)來源主要有兩個部分:
(1)7 周時間訓(xùn)練數(shù)據(jù),網(wǎng)絡(luò)連接記錄大約為5000000個。
(2)異常攻擊類型。共有22種攻擊類型,可以具體化為4類主要的攻擊種類,如表1所示。實驗過程如圖5所示。設(shè)置的實驗參數(shù)表2所示。

表1 異常種類描述方式

圖5 檢測實驗過程

表2 實驗參數(shù)
根據(jù)上述參數(shù)進行實驗,比較不同的入侵取證模型分析異常類型匹配度的準確率,得到的分析結(jié)果如圖6所示。

圖6 入侵匹配度實驗結(jié)果
根據(jù)圖6 可知,本文提出的基于樸素貝葉斯的社交網(wǎng)絡(luò)入侵行為取證模型具有很強的信息匹配能力,能夠匹配到所有的入侵行為,精準地分析出所有的入侵類型,從而實現(xiàn)行為取證。樸素貝葉斯的社交網(wǎng)絡(luò)入侵行為取證模型內(nèi)部的訓(xùn)練樣本值通過不斷擴展,逐漸降低條件概率的誤差,提高模型自身的連續(xù)學(xué)習(xí)能力和擴展能力,使入侵檢測能力有所增強。
本文提出的入侵模型通過建立決策樹和分類模型,連接神經(jīng)網(wǎng)絡(luò),構(gòu)建大型數(shù)據(jù)庫,在大型數(shù)據(jù)庫中提取信息,從而提高分析的準確度。
在確定入侵匹配度后,分析不同模型的入侵取證匹配范圍,取證匹配范圍如表3所示。

表3 取證匹配范圍
由表3 可知,本文提出的入侵行為取證模型取證范圍遠遠大于傳統(tǒng)的取證模型匹配范圍,能夠?qū)崿F(xiàn)數(shù)據(jù)的分析匹配,使絕大多數(shù)的信息都能夠?qū)崿F(xiàn)匹配。
在因特網(wǎng)上發(fā)生復(fù)雜大規(guī)模攻擊時,入侵檢測行為實際上就是一系列不確定性行為過程的結(jié)合。因為樸素貝葉斯定理最適合解決概率事件問題,所以在入侵檢測技術(shù)中采用樸素貝葉斯決策的行為證據(jù)方法是可行的。本文基于現(xiàn)有的經(jīng)驗和思考,基于樸素貝葉斯建立了社會網(wǎng)絡(luò)入侵取證模型。傳統(tǒng)的數(shù)據(jù)預(yù)處理和數(shù)據(jù)挖掘技術(shù)進一步提高了入侵檢測過程中的數(shù)據(jù)特征提取能力,降低了分類的時間復(fù)雜度,通過模型測試,確定最佳分類參數(shù),并對分類結(jié)果進行綜合分析。實驗結(jié)果表明,該模型匹配誤差較小,其識別效果優(yōu)于其他幾種方法,但這一方法仍需進一步完善。在復(fù)雜多變的網(wǎng)絡(luò)數(shù)據(jù)中,如何更有效地細化控制參數(shù),結(jié)合其他有效的分類方法,進一步提高分類器的預(yù)測性能是下一步的工作。