文/白軼 車宇
目前信息安全問題已經(jīng)得到社會的廣泛關注,目前在信息安全管理中主要依靠現(xiàn)有的病毒庫,采用病毒查殺的方法來保證系統(tǒng)安全。但是在實際上,這種病毒查殺方法并不具有高效、預先防御的功能,導致很多新型病毒出現(xiàn)后系統(tǒng)的安全保護出現(xiàn)滯后性。而PCA 技術的出現(xiàn)進一步強化信息安全管理能力,可以有效避免信息安全事件發(fā)生,具有先進性,值得關注。
在當前的實時網(wǎng)絡環(huán)境下,網(wǎng)絡數(shù)據(jù)的流通數(shù)量越來越大,并表現(xiàn)出高度的數(shù)據(jù)維度特征,尤其是在業(yè)務的高峰時期,有效的識別數(shù)據(jù)特征并對異常數(shù)據(jù)進行隔離是保證信息安全的關鍵。在這種情況下,基于統(tǒng)計學中的PCA 技術(主成分分析方法)出現(xiàn),并成為現(xiàn)階段處理網(wǎng)絡數(shù)據(jù)的常見方法,與傳統(tǒng)技術相比,該技術能夠進一步降低數(shù)據(jù)維度,并最大程度上保證了數(shù)據(jù)所具有的原始特征。在這種情況下,數(shù)據(jù)量減少且維度降低有助于提高異常數(shù)據(jù)的監(jiān)測性能,這是傳統(tǒng)技術所不具備的。
PCA 技術是一種可以將高緯度數(shù)據(jù)的不同數(shù)據(jù)映射成為少數(shù)幾個能夠代表元數(shù)據(jù)特征值的降維方法,在經(jīng)過這種數(shù)據(jù)處理之后,這些少數(shù)的特征值可以反映出原有數(shù)據(jù)的特征屬性,并且為了保證數(shù)據(jù)處理效果,這些處理之后的數(shù)據(jù)是沒有關聯(lián)性的。
在PCA 的數(shù)學表達過程中,假設待處理的網(wǎng)絡異常源數(shù)據(jù)具有n 個維數(shù)特征值,表述為:x1、x2……xn,在經(jīng)過PCA 處理之后,就可以將其轉變?yōu)閚 個綜合變量,通過這種計算方法可以確定不同綜合指標因子y 的維度數(shù),并且從第一個變量開始一直到第n 個變量數(shù),且方差呈現(xiàn)出依次遞減的特征。
BP 神經(jīng)網(wǎng)絡最初是對人類大腦的工作進行抽象模擬的技術,其中涉及到了計算機科學、生物學、數(shù)學等內容,目前已經(jīng)在廣泛應用在人工智能機器學中。從功能來看,BP 神經(jīng)網(wǎng)絡可以通過學習與訓練過程來調整網(wǎng)絡的連接權值,最終達到從輸入到輸出過程的完整收斂狀態(tài)。所以在當前的數(shù)據(jù)處理中,BP 圣經(jīng)網(wǎng)絡具有滿意的網(wǎng)絡信息處理能力,針對網(wǎng)絡信息傳輸過程中存在的信息變形失真或者信息丟失不完整情況進行抽象補充。最后,BP 神經(jīng)網(wǎng)絡具有一定的自主學習能力,能夠識別訓練樣本中各種異常數(shù)據(jù),且對于異常數(shù)據(jù)的變形形式也有一定的識別效果。
在BP 神經(jīng)網(wǎng)絡中,在學習樣本從輸入層輸入到網(wǎng)絡中之后,神經(jīng)元的激活值開始從輸入層一直想輸出層傳遞,這個過程中,各層的神經(jīng)元在數(shù)據(jù)上否會得到相應;之后根據(jù)減少目標情況,可以反向從輸出層到隱含層再到輸入層,通過一層一層的修正權值,保證了數(shù)據(jù)處理過程。而在實際上,這種反向誤差的持續(xù)修正,可以提高網(wǎng)絡對輸入模式相應的正確率。
本次仿真實驗中采用了KDD CUP99 數(shù)據(jù)集,該數(shù)據(jù)集主要包含4898431 條記錄,本文在該數(shù)據(jù)集的基礎上,基于10%的測試子集與訓練自己進行仿真實驗,實驗中不僅包含了各種正常數(shù)據(jù),也包含異常數(shù)據(jù),并且每個異常數(shù)據(jù)中都包含不同的入侵攻擊行為。
3.2.1 選擇仿真平臺
本次研究中選擇了MATLAB 仿真平臺,該平臺是一款在圖像處理、系統(tǒng)仿真以及計算機等領域應用十分廣泛的軟件平臺,經(jīng)過長時間的發(fā)展,仿真平臺可以提供大量的便捷工具,因此在科研領域得到充分運用。
3.2.2 PCA 相關函數(shù)的提取
本文所界定的PCA 相關函數(shù)的資料與表1所示。
3.2.3 攻擊類型與數(shù)目的確定
在本次仿真分析過程中所使用的Kddcup文件中包含494021 條源數(shù)據(jù),在這些數(shù)據(jù)處理中,通過SQL 數(shù)據(jù)庫進行處理,篩除其中的重復數(shù)據(jù),得到了攻擊數(shù)據(jù)的詳細資料,相關內容如表2所示。
同時在數(shù)據(jù)處理階段,考慮仿真過程中由于MATLAB 環(huán)境下無法識別費數(shù)據(jù)化資料,因此數(shù)據(jù)中的234 維度都需要轉變?yōu)榉菙?shù)值化數(shù)據(jù),采用1 代替。
3.3.1 數(shù)據(jù)歸一化處理
數(shù)據(jù)歸一化處理在實際上就是數(shù)據(jù)標準化處理,本文為了進一步提高數(shù)據(jù)質量水平,在保證數(shù)據(jù)集不丟失自身特征的基礎上轉變?yōu)橐环N更緊湊的形式,所以在數(shù)據(jù)處理過程中,將詭異處理后的數(shù)據(jù)集進行集中處理,使整個仿真分析所需要的資源與時間更少,效率更高,則處理過程為:

表1:PCA 的相關函數(shù)資料表

表2:攻擊類型與數(shù)目

表3:識別效果對比
(1)計算帶訓練數(shù)據(jù)集中的源數(shù)據(jù)集,提取數(shù)據(jù)集中的所有元素的平均值,記為P0;
(2)將源數(shù)據(jù)集中的所有元素標準化,獲得標準差;
(3)將源數(shù)據(jù)集歸一化處理。
3.3.2 仿真處理
考慮到實驗結果是未知的,并且基于PCA 的BP 神經(jīng)網(wǎng)絡安全中存在不同分量特征的數(shù)目,這些神經(jīng)元數(shù)量無法確定,因此在數(shù)據(jù)處理過程中,可以在分類模擬訓練的基礎上通過多次連續(xù)的實驗來保證PCA 的模型仿真結果實現(xiàn)最優(yōu)化。因此在本次研究中,本文將結合訓練數(shù)據(jù)集Train.txt 與測試數(shù)據(jù)集進行降維處理,這樣可以獲得不同主分量,之后獲取完成的主分量加入到BP 神經(jīng)網(wǎng)絡中,將測試集通過的PCA 對BP 神經(jīng)網(wǎng)絡進行識別,經(jīng)過多次反復的數(shù)據(jù)處理,可以得到基于PCA的BP 神經(jīng)網(wǎng)絡安全管理結果。
在數(shù)據(jù)處理過程中,基于PCA 的BP 神經(jīng)網(wǎng)絡信息安全管理直接與未改進的BP 神經(jīng)網(wǎng)絡上進行對比,通過對比兩種方法對信息安全數(shù)據(jù)的識別效果,評價PCA 技術的優(yōu)勢。
從本次仿真實驗來看,基于PCA 的BP神經(jīng)網(wǎng)絡對于不同攻擊類型具有更強的識別率,相關資料如表3所示。
根據(jù)表3的相關資料可知,結果相比基于PCA 改進的BP 神經(jīng)網(wǎng)絡對于各類網(wǎng)絡攻擊具有更高的識別率,整體信息安全管理能力要顯著高于傳統(tǒng)方法。根據(jù)這一結果,共得出以下結論:
(1)與傳統(tǒng)的檢測方法相比,PCA 改進的BP 神經(jīng)網(wǎng)絡誤報率顯著下降,證明該方法可以在BP 神經(jīng)網(wǎng)絡信息安全管理中提高了安全事件的信息識別率;
(2)在五種攻擊類型中,系統(tǒng)對NORMAL 攻擊類型的識別率最好,對U2R 攻擊類型的識別率較差。這一結果在一定程度上說明了人工神經(jīng)網(wǎng)絡在訓練樣本充足的情況下,系統(tǒng)對閾值的調節(jié)更細致,所以網(wǎng)絡信息安全管理的效果好,且識別率更高;相反訓練樣本不足,在一定程度上會影響識別率。
因此可以認為基于PCA 的BP 神經(jīng)網(wǎng)絡通過處理對于異常數(shù)據(jù)具有很高的識別率,因此面對海量異常數(shù)據(jù)也保持著滿意的識別率,這是傳統(tǒng)技術所具備的,該方法通過主成分分析保證了原有數(shù)據(jù)的特征,提高了數(shù)據(jù)識別的準確率。
本文詳細分析了基于PCA 的BP 神經(jīng)網(wǎng)絡信息安全管理問題,從本文的實驗仿真結果來看,PCA 方法滿足BP 神經(jīng)網(wǎng)絡信息安全管理要求,與傳統(tǒng)方法相比,該方法對于安全信息具有更高的識別率,因此值得推廣。