999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優化數據處理的深度信念網絡模型的入侵檢測方法

2017-09-03 10:23:54萬廣雪肖振久
計算機應用 2017年6期
關鍵詞:數據處理檢測模型

陳 虹,萬廣雪,肖振久

(遼寧工程技術大學 軟件學院,遼寧 葫蘆島 125105)

基于優化數據處理的深度信念網絡模型的入侵檢測方法

陳 虹,萬廣雪*,肖振久

(遼寧工程技術大學 軟件學院,遼寧 葫蘆島 125105)

(*通信作者電子郵箱avril_snow@foxmail.com)

針對目前網絡中存在的對已知攻擊類型的入侵檢測具有較高的檢測率,但對新出現的攻擊類型難以識別的缺陷問題,提出了一種基于優化數據處理的深度信念網絡(DBN)模型的入侵檢測方法。該方法在不破壞已學習過的知識和不嚴重影響檢測實時性的基礎上,分別對數據處理和方法模型進行改進,以解決上述問題。首先,將經過概率質量函數(PMF)編碼和MaxMin歸一化處理的數據應用于DBN模型中;然后,通過固定其他參數不變而變化一種參數和交叉驗證的方式選擇相對最優的DBN結構對未知攻擊類型進行檢測;最后,在NSL-KDD數據集上進行了驗證。實驗結果表明,數據的優化處理能夠使DBN模型提高分類精度,基于DBN的入侵檢測方法具有良好的自適應性,對未知樣本具有較高的識別能力。在檢測實時性上,所提方法與支持向量機(SVM)算法和反向傳播(BP)網絡算法相當。

入侵檢測;優化數據處理;深度學習;深度信念網絡;未知攻擊檢測

0 引言

近年來,國內外網絡安全事件層出不窮,僅在2015年度發生的信息泄漏事件就不勝枚舉,越來越多的企業和用戶成為網絡攻擊的受害者,因此,如何保護隱私信息,使其免受或少受來自互聯網惡意用戶的攻擊,已經成為當今網絡技術人員和業界密切關注的問題。

入侵檢測系統是信息安全綜合防御系統的重要組成部分,其核心技術是通過分析網絡節點采集的流量數據來發現違反安全策略的入侵行為,在發現可疑通信時發出警報或者采取主動反應措施,是一種積極主動的安全防護技術。

入侵檢測技術一般分為基于標志和基于異常兩類[1],傳統檢測方式都是以離線數據庫的方式實現的,通過和本地樣本庫的已知攻擊樣本進行模式匹配來實現網絡上的攻擊檢測。顯而易見,這種方式的缺陷是只能檢測出樣本庫中已經存在的類型攻擊,檢測過程中自適應能力差,無法保證能夠應對當今日益擴大的網絡規模和層出不窮的攻擊手段。針對上述問題,則需要設計更加智能化方法來構造自適應的、對未知攻擊類型識別率高的、快速的入侵檢測模型。

在已經成功應用于入侵檢測領域的方法中,神經網絡(Neural Network, NN)算法具有自適應、自學習、較好的容錯性,以及能夠進行大規模并行計算和非線性映射等優點,非常適用于變化多端的網絡入侵檢測數據,在一定程度上克服了上述缺陷[2-5]。文獻[5]提出了將增量式生長型分層自組織映射(Growing Hierarchical Self-Organizing Map, GHSOM)神經網絡模型用于對未知攻擊類型進行檢測,取得了較高檢測率;但在遇到不同類型的未知攻擊時,新增子網數不確定,模型存在著不穩定的缺陷。正是由于不同類型網絡攻擊產生的數據分布規律往往難以知道,因此,其他非參數化方法也廣泛地被應用到入侵數據的分類中,包括數據挖掘[6-7]、支持向量機(Support Vector Machine, SVM)[8]和聚類方法[9]等。

2006年,文獻[10]提出了利用無監督的、分層訓練的深度信念網絡(Deep Belief Network, DBN)實現對數據特征提取和分類,為圖像分類、語音識別等諸多疑難問題帶來了突破性進展[11-12]。深度學習是對NN的進一步發展,對輸入的數據進行多層特征提取,得到更適合分類的特征集,使機器能更好地學習數據之間規律,從而提高對新樣本的預測或分類的準確性。近年來,一些研究人員將DBN應用于入侵檢測領域,逯玉婧[13]提出采用基于DBN模型和隨機森林(Random Forest, RF)結合的方式進行入侵檢測;Atom等[14]將DBN模型僅用于特征提取,而采用SVM算法對提取后的特征進行分類。但在前期數據處理上,上述研究都是在將41維原始數據映射為122維的基礎上,建立DBN模型進行特征提取和分類[15-17]。以上方法都是在選用的訓練集和測試集存在相當一部分重復數據的前提下,取得較高的檢測率,但沒有考慮到如何提高對未知攻擊類型檢測的問題;同時,由于在數據處理上大幅增加了原始數據維度而導致模型結構復雜,采用DBN方法和其他算法相結合增加了算法的復雜性等原因,可能無法滿足檢測的實時性,且沒有充分利用DBN模型強大特征提取能力的優點。

針對上述的數據處理對DBN模型復雜性和檢測結果的影響,以及對未知攻擊類型的檢測問題,本文提出了一種基于優化數據處理的DBN模型的入侵檢測方法,在不增加原始數據維度的前提下,選擇對DBN模型而言最優的數據處理方式和網絡結構,主要解決對未知類型攻擊的檢測問題,同時盡量不破壞已經學習到的知識,不降低檢測實時性,并基于NSL-KDD數據集設計實驗進行驗證。

1 DBN模型

DBN作為一種深度模型在學術界受到了廣泛的關注,隨后被成功應用到圖像識別、自然語言處理等領域。結構上,DBN是由若干層無監督的受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)網絡和一層有監督的反向傳播(Back Propagation, BP)網絡組成的一種深層神經網絡,以包含兩層RBM結構的DBN模型為例,其結構如圖1所示。

DBN的學習過程可分為預訓練(pre-training)和微調(fine-tuning)兩個階段。預訓練(pre-training)階段通過將低一層的RBM輸出作為高一層RBM的輸入,完成對RBM逐層無監督訓練的方式。微調(fine-tuning)階段將實際輸出與期望輸出的誤差進行反向傳播,采用有監督的學習方式完成對頂層的BP網絡進行訓練,從而達到對pre-training階段初始化的模型參數調優的目的。因此,RBM 的pre-training過程可以認為是對一個深層 BP 網絡權值參數的初始化,這樣就使得DBN克服了 BP 網絡因隨機初始化權值參數而容易陷入局部最優和訓練時間長的缺點。

1.1 RBM模型

RBM是DBN的基本組成部件,在結構上是具有兩層的淺層神經網絡:第一層稱為可見層(Visible Layer),也稱為輸入層;第二層是隱含層(Hidden Layer),或稱為特征提取層。RBM結構如圖2所示,其中:v和h分別代表隱含層和可見層;a和b為隱含層和可見層的偏置(bias);w表示兩層之間的連接權值。這種結構的特點是層內無連接,層與層之間全連接,因此RBM結構是一個有向無環圖。

圖2 RBM結構

在計算過程中,可見層與隱含層的變量取值存在著多樣性,為了方便描述,假設兩者均為二值變量{0,1}。設可見層與隱含層節點數目分別為m和n,vi和hj分別代表可見層第i個節點與隱含層第j個節點的狀態。而RBM是一種典型的基于能量的模型,RBM的能量函數可描述如下:

(1)

式中:θ=(wij,ai,bj)是RBM的參數,wij表示可見層節點vi與隱含層節點hj之間的連接權值,ai和bj分別表示vi和hj節點所對應的偏置。基于上述的能量函數,(v,h)的聯合分布概率為:

P(v,h|θ)=e-E(v,h|θ)/Z(θ)

(2)

(3)

由于RBM模型結構特征(層內無連接),因此在給定可見層節點vi值(經過處理的樣本數據)時,得到的各個隱層節點hj之間狀態相互獨立。此時,hj的激活值為:

(4)

式中,σ(x)=1/(1+e-x)為sigmoid函數,是神經網絡學習過程中典型的非線性激活函數。經過式(4)計算出hj的激活值后,將其作為反向傳遞中的輸入值,來達到對可見層節點vi值的重構,從而得到原始的vi近似值:

(5)

由此可見,RBM在學習過程中采用反復迭代的方式,目標在于經過學習得到最優參數θ來盡可能地擬合樣本數據。假設在訓練過程中,樣本數目為T,當前的樣本為t,則參數θ通過求訓練樣本的極大似然函數得到:

(6)

為了得到最優θ值θ*,在RBM中釆用隨機梯度上升的方法求得l(θ)的最大值,在這里假設θ僅為一個具體參數,就轉化為l(θ)的偏導函數的求解。

(7)

同理,可以展開對θ的每個分量進行求偏導數,可分別得到w、a和b的最優值。

基于對比散度(Contrastive Divergence, CD)算法[18],將訓練數據作為RBM的可見層的輸入值,經過式(4)的計算得到隱含層節點(隱含層節點數目需要根據需要事先設定)的激活狀態值,經過式(5),再次計算得到可見層節點的重構值(訓練數據的近似值),從而得到訓練數據的重構誤差,經過完整的CD算法后,得到參數的更新準則為:

(8)

式中:ε為訓練過程中的學習率;〈·〉data為訓練數據集所定義的分布上的數學期望;〈·〉recon為重構后模型所定義的分布之上的期望。

1.2BP網絡

在DBN模型中,最上層的BP網絡,是以一種有監督的方式對多層RBM經過pre-training提取的特征向量進行分類,在實際輸出值和期望輸出值不符時,承擔著對pre-training階段初始化的參數進行調優的作用。

傳統的BP網絡是一種按誤差逆傳播算法訓練樣本的多層前饋網絡,分為信息正向傳播和誤差反向傳播兩個階段。但DBN模型頂層的BP網絡的信息正向傳播階段被多層RBM的pre-training代替,直接由BP層得到對RBM的提取特征進行分類輸出結果。通過計算實際輸出值和期望輸出值間的誤差判斷兩者是否相符,如果誤差過大,進入BP網絡的誤差反向傳播階段。誤差通過DBN的BP輸出層,按誤差梯度下降的方式修正各層權值,向多層RBM層、輸入層逐層反傳。經過反復的信息正向傳播和誤差反向傳播過程,是RBM各層權值不斷調整的過程,也是DBN模型學習樣本的過程,這個過程一直進行到BP層輸出值和期望輸出值的誤差減小到可以接受的程度,或者完成預先設定的迭代次數為止,以此完成對模型參數的調整。

對于上述反向傳播過程,需要計算每層的下降梯度δ,通過δ實現自頂向下的網絡權值修正。對于輸出層,如果第i個節點的實際輸出值為oi,而期望輸出值為di,δ的表達式為:

δi=oi(1-oi)(di-oi)

(9)

對于第l個隱含層,δ的計算表達式為:

(10)

由此,可以根據式(10)中的δ值對DBN的連接權值和偏置進行如下更新:

(11)

其中,εfine-tuning為fine-tuning階段的學習率,在模型的設計中,需要多次實驗確定最優值。

與傳統的BP神經網絡相比,基于BP的DBN的權值微調算法克服了因隨機初始化權值參數而容易陷入局部最優和訓練時間過長的缺點,只需要對RBM的pre-training獲得的權值空間進行微調,大大縮減了參數尋優的收斂時間。

2 基于優化數據處理的DBN入侵檢測

為了更好地理解本文提出的思想,首先將算法的流程和算法的優勢描述如圖3所示。在本文的研究中,算法的兩個優勢分別在數據處理階段和選用的DBN模型設計階段,如圖3虛線框中標注內容。數據處理階段將不同類型的數據分開處理,并將經過不同數據處理方法產生的數據集在后續的內容中設置了仿真實驗對比,闡明了數據處理對于數據之間的規律和DBN模型分類結果的影響,最后確定一種能夠顯著提高基于DBN模型分類效果的數據處理方式;DBN模型設計階段主要完成的工作為經過控制其他參數不變而改變一個參數的大量實驗交叉驗證和分析已有文獻,最終確定了一種最優的DBN網絡結構,使得對未知攻擊類型的識別率最高。

圖3 本文算法流程和改進點

2.1 數據處理

適當的數據處理能夠較好地描述數據之間的規律,是提高分類精度的第一步,由于實際問題產生的原始數據中數據類型不符合條件或數量級的差異等原因,往往不能直接用于訓練,需要經過處理后才能作為分類器的訓練輸入數據,而通過相關研究人員對入侵檢測的研究[19-20]發現,數據分類器的分類結果好壞除了和方法的選擇有關,還與數據的處理方式有關,對于選定一種分類方法,適合的數據處理方式能夠給分類結果帶來可觀的提升,不當的數據處理也能導致數據收斂慢甚至不收斂,從而降低數據的分類精度。

在選定的入侵檢測數據集中,本文將41維特征數據分為字符(nominal)類型和數值(numeric)類型,對其分別進行如下處理。

2.1.1Nominal類型PMF編碼

入侵檢測的輸入數據來源于網絡的信息流,每條數據中包含多個信息特征,這些特征除了基本的numeric類型,也包括nominal類型,這些數據和數據特征共同構成了整個數據集用于訓練分類器和檢測異常數據。但是在實際的檢測過程中,包括DBN模型等分類器輸入的訓練數據只能是numeric類型,然而nominal類型的數據對于分類結果可能起到關鍵性作用,比如網絡數據包中的字段protocoltype和servicetype都是nominal類型,也是網絡數據包的分類的重要標準,不能輕易忽略,需要將其轉換為numeric類型。

對于有n個特征的數據集,將其映射為M個特征矢量,每個特征矢量表示為x=(x1,x2,…,xn)(n∈N),假設xj=(x1j,x2j,…,xMj)(j∈{1,2,…,n})表示每條數據的第j個特征為nominal類型,xj中包含K種nominal值分別為nom1j,nom2j,…,nomKj,將rkj∈N記為在xj中值nomkj出現的次數,可得:

rkj=|{i∈N|xij=nomkj,i=1,2,…,M}|;k=1,2,…,K

(12)

根據式(12),nomkj在xj中出現的頻率值fkj可以表示為:

fkj=rkj/M;k=1,2,…,K

(13)

(14)

s.t. 0≤rkj/M≤1,k=1,2,…,K

對于數據集中的nominal類型數據xkj:一些研究人員的處理方式是對其進行數字編碼(Number)方法[21],根據字段可能取值的個數將對應字段編碼為0,1,…,N,這種處理方式也能實現nominal類型向numeric類型的轉換,但還需要對轉換后的數據再次進行歸一化;而在文獻[13-17]中采用的是二進制編碼(Binary)方式,轉換后的數據雖然都處于[0,1],但是這種方式會嚴重增加原始數據的維度,從而導致需要多層復雜DBN的模型結構來提取分類有效特征,也可能需要對處理后的數據再進行降維步驟。

針對上述問題,本文通過概率質量函數(ProbabilityMassFunction,PMF)的計算方式將nominal類型的xkj轉化為numeric類型的xkj=fkj后,轉換后的數據維度沒有發生變化,且能夠保證所有的轉化后的值為[0,1],相當于同時進行了類型轉化和數據歸一化兩個操作。

2.1.2numeric類型歸一化處理

在一個數據集中,各個特征數據往往不在同一數量級下,例如在入侵檢測標準數據集KDD中,“dst_bytes”字段的取值可能為14 421,“dst_host_rerror_rate”字段的取值為0.02,這就導致在學習數據規律的時候,降低了梯度下降求最優解的速度,也有可能由于收斂速度慢甚至不能收斂導致影響分類精度,因此需要將數據歸一化處理為[0,1]的數據。

假設選定的數據集共包含N個樣本,可以將所有樣本的每個特征屬性列映射為x=(x1,x2,…,xN)T,如果xi是第i個樣本對應的屬性值為numeric類型數據,可以分別用MinimumMaximum歸一化、Statistical歸一化和Decimal歸一化這三種廣泛的歸一化方式,具體形式如下:

1)MinimumMaximum歸一化(本文簡稱Maxmin)。其計算式如下:

f1(xi)=(xi-min(x))/(max(x)-min(x))

其中:min(x)和max(x)分別為x可取值中的最小值和最大值。

2)Statistical歸一化。其計算式如下:

f2(xi)=(xi-μ)/σ

其中:μ的取值為所有x取值的平均值;σ為x的標準差。

3)Decimal歸一化。其計算式如下:

f3(xi)=xi/10e

其中:e的取值為能使x中的最大值經過處理后處于[0,1]的最小值。

2.2 基于DBN的入侵檢測

采用DBN方法對未知攻擊類型進行檢測的方式主要是利用DBN模型包含多層RBM進行特征提取和CD學習方法的反向更新來反復優化網絡權值,從而達到通過已知的訓練樣本對未知檢測樣本的良好學習能力與適應能力。

一般來說,入侵檢測數據維度相對較高,部分特征的存在不僅無法標識攻擊的類型,反而會因為其干擾降低分類的精度。為了得到更好的檢測結果,往往需要選用能夠合理標識類別特征的數據,因此,進行特征提取的DBN模型一般會包括多層RBM結構,多層RBM的學習過程可通過圖4來描述。

圖4 多層RBM的學習過程

處理好的數據x作為DBN模型的第一個RBM的可見層輸入數據(一般來說第一個RBM可見層單元數一般等于訓練數據的特征維數),采用CD算法對RBM進行逐層訓練,前一層的RBM輸出值作為下一層的輸入值,直至多層RBM訓練結束。CD算法逐層訓練RBM模型步驟如下:

輸入 一個訓練樣本x,隱含層單元個數n,學習率ε,最大訓練周期T;

輸出 連接權重矩陣w,可見單元的偏置a,隱藏單元的偏置b。

End for

End for

End for

按照下式更新參數:

a←a+ε(v1-v2)

b←b+ε(P(h1=1|v1)-P(h2=1|v2))

Endfor

對多層RBM訓練結束后,頂層BP層通過反向傳播,根據重構誤差對訓練RBM得到的參數進行微調,從而得到最優θ=(wij,ai,bj)值。在這個過程中,由于在實際應用的時候數據量往往較大,檢測需要滿足實時性,為了加快訓練過程,一般采用批量訓練的方式進行,即每次對訓練數據隨機采樣固定的數量輸入到DBN中,每次采樣的數量對應程序中設定的min-batch的值,每訓練一個min-batch的數量,網絡權值更新一次,直至全部樣本訓練完畢。

檢測過程中,測試樣本的數據維度與訓練數據相同,在已經訓練好的網絡結構中輸入測試數據和對應的屬性標簽,通過前向傳播計算得到對每條檢測數據的實際分類結果,然后將分類結果和輸入的屬性標簽進行比對,得到對測試樣本檢測的正確檢測率。

3 實驗與結果分析

3.1 實驗數據

在本文中,實驗采用的是NSL-KDD數據集[22],NSL-KDD是在KDD99數據集的基礎上去除了部分冗余數據的數據集,能更好地檢測出模型對未知數據的識別能力。

在數據集的每條數據中,共包括41個屬性特征和1個標識攻擊類別的屬性標簽。41個屬性中分為3個nominal類型和38個numeric類型數據。屬性標簽將數據分為4類攻擊(Anormal)類別和1類正常(Normal)數據,4類攻擊數據又被劃分為39個詳細類別。將41中屬性分為nominal和numeric類型描述如表1所示,將4大類攻擊類型和1類正常數據描述如表2所示。

大多數研究人員的工作都是基于NSL-KDD數據集的KDDTrain+_20Percent訓練子集和KDDTest-21測試子集完成的,經過統計,在KDDTrain+_20Percent訓練集中,Normal數據和拒絕服務攻擊(DenialofService,DoS)數據所占比例分別為53.39%和36.65%,在KDDTest-21中,Normal數據約占43.08%,而DoS類別約為33.08%,由此可見這兩個數據集之間存在大量重復數據且屬于嚴重不平衡數據集,在一定程度上不能完全反映出本文要解決的對未知樣本的識別問題,因此,根據NSL-KDD包括各類數據的數量,選用的訓練數據集、測試數據集和驗證數據集如表3,其中驗證數據集是為了驗證所選模型對未知類型檢測效果較好的同時,是否破壞已學習到的知識。

表1 屬性特征

表2 攻擊類型

表3 數據集選擇

為設置對比實驗,采用上述的基于PMF編碼nominal類型數據和三種方式對numeric類型數據歸一化后,形成三個不同的數據集。另外,設置一個未經處理的數據集及根據文獻[15]和文獻[21]中分別使用的數據處理方式,共組成6個數據集,通過實驗驗證的方式,尋求一種對于DBN模型而言檢測率最高的數據處理方式。用于評估數據處理對正確檢測率影響的數據集如表4所示。

表4 評估數據集

3.2 實驗環境與評價標準

在入侵檢測領域,對未知樣本的正確檢測率和檢測時間是評價檢測結果的重要指標,由此可以分辨將該方法應用于入侵檢測領域是否可行和高效,此外,本文通過和應用于入侵檢測領域的其他經典算法相比較,通過對相同數據的訓練和檢測的正確檢測率來驗證本文提出方法的穩定性。具體的實驗環境和實驗結果的評價標準設置如下:

1)實驗環境。

Window7 操作系統,MatlabR2014a,2.20GHzCPU,2.00GBRAM。

2)實驗評價標準。

定義:N為測試數據集包含的Normal數據量,A表示Anormal(包含各種攻擊類型)數據量,NF為Normal數據準確地被識別為Normal類型的數量,AF表示Anormal類型被準確識別出來的數量,T為檢測時間,則可以得出:

1)正確檢測率 =(NF+AF)/(N+A),表示被正確識別出來的樣本占總樣本的比例,檢測率越高,則選用的模型越高效。

2)檢測時間T,表示檢測測試樣本過程中消耗的時間,時間越短,證明模型可用性和實時性越好。

3.3 結果分析

本節內容主要包括如下兩個方面:一是DBN模型結構和參數選取對正確檢測率和實時性的影響;二是分析不同數據處理下的檢測結果,找到基于DBN模型的入侵檢測的最優化數據處理方式。

3.3.1DBN模型結構和參數選取。

以經過處理的Train-PMF-Maxmin和Test-PMF-Maxmin數據集為例,共有41個數據特征,輸出的分類數據共分為1類Normal數據和4類Anormal數據,因此DBN輸入數據為41維,輸出的維數為5。由于目前DBN結構的確定還沒有確切的理論支撐,需要通過相關文獻和大量的實驗驗證來確定相對較優的結構模型。為了易于觀察檢測結果隨DBN網絡結構變化的情況,將DBN結構的隱層數限制在5層以內(包含5層),將各隱層節點數目分別在{10,20,40,60,80}中選取且各隱層節點數目相同,根據文獻[23-24]和反復實驗的交叉驗證[25-26]方式,將DBN模型其他參數設置如下:pre-training和fine-tuning階段的學習率設置為0.05,min-batch數量為100(可根據樣本數量和種類進行調整),pre-training階段迭代次數為5,fine-tuning階段迭代20次后檢測結果趨于穩定。如圖5所示,通過固定其他參數不變(20節點)時,討論各隱層節點數目對正確檢測率的影響。

圖5 正確檢測率隨隱層數目變化(20節點)

從圖5可知,當隱層數目為2,即DBN模型深度為4時,該模型在檢測過程中取得相對較高的檢測率,由此可以說明,增加DBN的深度不一定能夠增強DBN的特征提取能力,反而會導致DBN的泛化能力降低,產生過擬合現象。因此,DBN的層數設置可能和數據處理后的維度相關,并不是層數越多,分類效果越好。

在固定隱層數為2,變化各隱層的節點數目時,正確檢測率的變化趨勢如圖6所示。由圖6可知,在節點數目為10的時候,由于節點之間相互連接較少,不足以提取適合分類的特征集,而節點的數目過大也出現了過擬合的問題。本文實驗中,當各隱層節點數設置為20時,正確檢測率相對最高。通過觀察DBN模型包含的隱層數目和各隱層節點數目對正確檢測的影響,綜合上述的分析,在后面選用DBN的隱層層數為2、各隱層節點均為20的網絡結構來討論數據處理對檢測率的影響和結構的穩定性。

圖6 正確檢測率隨隱層節點數目變化(隱層數2)

3.3.2 數據處理對檢測結果的影響

經過3.1節的數據處理,得到6組測試數據,將這6組數據分別用本文所選的模型和文獻[15]中的方法進行訓練和測試,不同數據處理下的正確檢測率如圖7所示。

圖7 不同數據處理方式下的未知樣本檢測率

由圖7可以看出,在未經過處理的數據集PMF-Non上,檢測率僅達到57%,因此,未經過處理的原始數據收斂性較差。經過Maxmin歸一化處理的PMF-Maxmin和Num-Maxmin數據集上的檢測率均相對較高,高于Statistical歸一化和Decimal歸一化方式處理的數據集;但Bin-Maxmin數據由于經過二進制編碼后存在著維數高的缺點,文獻[15]為了更好地降低數據維度和提取有效特征而采用的模型層數、節點數較多,對檢測率和檢測實時性將會存在一定影響。實驗結果表明,樣本的正確檢測率和數據處理之間存在著不可忽略的關系,即數據處理能夠在一定程度上影響數據的分布規律,選擇合理的數據處理方式能夠提高對樣本的檢測率。

因此,針對基于DBN的入侵檢測問題,通過實驗選取了一種基于PMF編碼nominal類型數據、Maxmin歸一化處理numeric類型數據的優化數據處理方式,確定了一種深度為4、2個隱層、節點數目均為20的DBN模型,對設定的測試數據集中的完全未知樣本的檢測率能夠達到87.76%。

3.3.3 選定模型的訓練性能分析

對于選定的深度為4、各隱層節點均為20的DBN模型,在對表4中經過PMF編碼和Maxmin歸一化處理的訓練數據集進行訓練的過程中,根據訓練數據集包含的數據條數及大量的訓練實驗可知,10折交叉檢驗是在本文實驗已選用的數據集的前提下獲得最大正確率的恰當選擇,通過10折交叉檢驗,將訓練數據集的20 100條數據隨機分為10份,其中9份用作訓練,而剩下的1份用來驗證,則相當于每條數據都有一個預報的正確檢測率,每次檢測的正確率及10次檢測的平均正確檢測率如表5所示。

表5 10折交叉檢驗結果

在已經進行的大量實驗中,10折交叉檢驗是獲得相對較高的每個樣本的平均檢測率,能夠達到94.96%。除此之外,訓練時間也是評價分類器性能的一個重要標準,如果將訓練數據集的20 100條數據在上述模型中進行訓練,訓練10次的每次平均用時為19.289 74s,而考慮到數據量和實驗環境等因素,在訓練上消耗的時間是可以接受的,因此下文可選用上述確定的模型來進行實驗。

3.4 驗證選定的DBN模型識別性能

從表3中的訓練數據集和測試數據集包含的攻擊類型和數量來看,訓練數據集中共包含normal類型和12種攻擊類型,則這12種攻擊類型對分類器而言可以看作已知類型的攻擊,而測試數據集中包含了normal類型和8種完全不同于訓練數據集中的攻擊類型,則對于分類器而言,這8種攻擊類型則是未知攻擊類型,本文通過選定的DBN模型能夠對測試數據集中的8種攻擊類型具有較高的正確檢測率的方式來驗證DBN模型對未知攻擊類型的識別能力。

同時,將本文的方法與已經在入侵檢測取得較好檢測結果的BP神經網絡和SVM算法進行了對比。通過統計對各類未知攻擊類型的正確檢測率和檢測時間來驗證本文選用的基于優化數據處理的DBN模型的高效性和實時性。

對比算法中的BP神經網絡參數與本文選取的DBN模型相似,隱層節點數為20,迭代次數為20次,SVM算法采用LibSVM開源工具,核函數采用徑向基函數(RadialBasisFunction,RBF),根據文獻[27-28],錯誤懲罰因子C=10 000,RBF核函數的控制因子為2。不同分類算法對各類未知類型攻擊的正確檢測率如表6所示。

表6 不同分類算法對未知樣本的正確檢測率對比 %

Tab. 6 Comparison of correct detection rate of differentclassification algorithms for unknown samples%

由于數據集中包含的buffer_overflow和rootkit類別的數據較少,所以每條數據所占該類數據總量的比例較大,因此各類算法對這兩種攻擊的檢測效果差異較為明顯。從表6可以看出,基于DBN模型的正確檢測率比SVM算法和基于BP神經網絡的算法均有所提高:DBN模型在Test-PMF-Maxmin上的整體檢測率相比SVM算法提高了4.43%,對應到測試數據集中10 100條數據,則DBN模型正確檢測出的數據量比SVM算法多376條;DBN模型在Test-PMF-Maxmin上的整體檢測率相比基于BP神經網絡的算法提高了5.37%。

三種算法在Test-PMF-Maxmin數據集上的檢測時間如下:SVM算法為2.14s,基于BP神經網絡的算法為1.97s,DBN算法為2.44s。由于DBN模型比BP網絡結構復雜,和BP網絡的檢測相比,有一定的延遲,但與SVM算法的檢測時間相當。由此可知,本文所選擇的DBN模型對未知類型攻擊具有較高檢測率的同時,對檢測的實時性無嚴重影響。

3.5 驗證選定的DBN模型的穩定性

在對未知攻擊類型具有較高的檢測率的DBN模型上,使用表3中的驗證數據集作為已經訓練好的模型的輸入,統計其對已知類型的正確檢測率,判斷是否對已學習到的知識造成影響。驗證數據集上三種對比算法對于已知攻擊類型的正確檢測率如下:SVM算法為93.87%,基于BP神經網絡的算法為91.22%,DBN算法為97.10%。DBN模型對已知攻擊類型的檢測率高于BP神經網絡和SVM算法,表明對未知攻擊類型具有較高的檢測率的DBN模型沒有破壞已學習的知識,驗證了本文選擇的DBN模型的穩定性。

4 結語

本文提出了一種基于優化數據處理的DBN模型的入侵檢測方法,通過實驗驗證了不同數據處理能夠對數據的分布規律產生影響,采用經過PMF編碼和Maxmin歸一化處理的數據應用于DBN模型時,取得了相對較高的檢測率。通過和SVM及BP神經網絡算法的對比可驗證,DBN對復雜數據具有良好的特征提取能力,能夠更好地發掘和學習數據之間的規律,在不影響對已知攻擊類型識別和檢測實時性的前提下,能夠提高對未知攻擊類型數據的識別率,目前可用于對變化多端的網絡數據進行入侵檢測。但由于DBN網絡結構和參數的不確定性,檢測率會受到迭代次數和不同數據集等因素影響,因此如何確定高效的DBN模型參數和選擇合理的數據處理仍然是下一步有待解決的問題。

)

[1] 卿斯漢,蔣建春,馬恒太,等.入侵檢測技術研究綜述[J].通信學報,2004,25(7):19-29.(QINGSH,JIANGJC,MAHT,etal.Researchonintrusiondetectiontechniques:asurvey[J].JournalofChinaInstituteofCommunications, 2004, 25(7): 19-29.)

[2] 潘志松.基于神經網絡的入侵檢測研究[D].南京:南京航空航天大學,2003:20-64.(PANZS.Researchonintrusiondetectionbasedonneuralnetwork[D].NanjingUniversityofAeronauticsandAstronautics, 2003:20-64.)

[3] 胡明霞.基于BP神經網絡的入侵檢測算法[J].計算機工程,2012,38(6):148-150.(HUMX.IntrusiondetectionalgorithmbasedonBPneuralnetwork[J].ComputerEngineering, 2012, 38(6): 148-150.)

[4] 楊雅輝,姜電波,沈晴霓,等.基于改進的GHSOM的入侵檢測研究[J].通信學報,2011,32(1):121-126.(YANGYH,JIANGDB,SHENQN,etal.ResearchonintrusiondetectionbasedonanimprovedGHSOM[J].JournalonCommunications, 2011, 32(1): 121-126.)

[5] 楊雅輝,黃海珍,沈晴霓,等.基于增量式GHSOM神經網絡模型的入侵檢測研究[J].計算機學報,2014,37(5):1216-1224.(YANGYH,HUANGHZ,SHENQN,etal.ResearchonintrusiondetectionbasedonincrementalGHSOM[J].ChineseJournalofComputers, 2014, 37(5): 1216-1224.)

[6] 毛國君,宗東軍.基于多維數據流挖掘技術的入侵檢測模型與算法[J].計算機研究與發展,2009,46(4):602-609.(MAOGJ,ZONGDJ.Anintrusiondetectionmodelbasedonminingmulti-dimensiondatastreams[J].JournalofComputerResearchandDevelopment, 2009, 46(4): 602-609.)

[7] 郭春.基于數據挖掘的網絡入侵檢測關鍵技術研究[D].北京:北京郵電大學,2014:89-106.(GUOC.Researchonkeytechnologiesofnetworkintrusiondetectionbasedondatamining[D].Beijing:BeijingUniversityofPostsandTelecommunications, 2014: 89-106.)

[8] 饒鮮,董春曦,楊紹全.基于支持向量機的入侵檢測系統[J].軟件學報,2003,14(4):798-803.(RAOX,DONGCX,YANGSQ.Anintrusiondetectionsystembasedonsupportvectormachine[J].JournalofSoftware, 2003, 14(4): 798-803.)

[9] 羅敏,王麗娜,張煥國.基于無監督聚類的入侵檢測方法[J].電子學報,2003,31(11):1713-1716.(LUOM,WANGLN,ZHANGHG.Anunsupervisedclustering-basedintrusiondetectionmethod[J].ActaElectronicaSinica, 2003, 31(11): 1713-1716.)

[10]HINTONGE,SALAKHUTDINOVRR.Reducingthedimensionalityofdatawithneuralnetworks[J].Science, 2006, 313(5786): 504-507.

[11]DONGY,LID.Deeplearninganditsapplicationstosignalandinformationprocessing[J].IEEESignalProcessingMagazine, 2011, 28(1): 145-154.

[12]ARELI,ROSEDC,KARNOWSKITP.Deepmachinelearning—anewfrontierinartificialintelligenceresearch[J].IEEEComputationalIntelligenceMagazine, 2010, 5(4): 13-18.

[13] 逯玉婧.基于深度信念網絡的入侵檢測算法研究[D].石家莊:河北師范大學,2016:26-46.(LUYJ.Researchonintrusiondetectionalgorithmbasedondeepbeliefnetwork[D].Shijiazhuang:HebeiNormalUniversity, 2016: 26-46.)

[14]ALOMMZ,BONTUPALLIVR,TAHATM.Intrusiondetectionusingdeepbeliefnetworks[C]//Proceedingsofthe2015NationalAerospaceandElectronicsConference.Piscataway,NJ:IEEE, 2015: 339-344.

[15]GAON,GAOL,HEYY,etal.Intrusiondetectionmodelbasedondeepbeliefnets[J].JournalofSoutheastUniversity(EnglishEdition), 2015, 31(3): 339-346.

[16] 楊昆朋.基于深度學習的入侵檢測[D].北京:北京交通大學,2015:31-47.(YANGKP.Intrusiondetectionbasedondeeplearning[D].Beijing:BeijingJiaotongUniversity, 2015: 31-47.)

[17] 安琪.基于深度置信網絡的入侵檢測研究[D].蘭州:蘭州大學,2016:20-50.(ANQ.Researchonintrusiondetectionbasedondepthconfidencenetwork[D].Lanzhou:LanzhouUniversity, 2016: 20-50.)

[18]HINTONGE.Trainingproductsofexpertsbyminimizingcontrastivedivergence[J].NeuralComputation, 2002, 14(8): 1771-800.

[19]SAIDD,STIRLINGL,FEDEROLFP,etal.Datapreprocessingfordistance-basedunsupervisedintrusiondetection[C]//Proceedingsofthe2011NinthAnnualInternationalConferenceonPrivacy,SecurityandTrust.Piscataway,NJ: 2011: 181-188.

[20]SALEMM,BUEHLERU.Miningtechniquesinnetworksecuritytoenhanceintrusiondetectionsystems[J].InternationalJournalofNetworkSecurity&ItsApplications, 2012, 4(6): 167-172.

[21] 白雪.基于DBN的網絡流量分類的研究[D].呼和浩特:內蒙古大學,2015:18-30.(BAIX.ResearchonnetworktrafficclassificationbasedonDBN[D].Huhhot:InnerMongoliaUniversity, 2015: 18-30. )[22] DHANABAL L, SHANTHARAJAH S P. A study on NSL-KDD dataset for intrusion detection system based on classification algorithms [J]. International Journal of Advanced Research in Computer and Communication Engineering, 2015, 4(6): 446-452.

[23] HINTON G E. A practical guide to training restricted Boltzmann machines [M]// Neural Networks: Tricks of the Trade, LNCS 7700. Berlin: Springer, 2012: 599-619.

[24] 張春霞,姬楠楠,王冠偉.受限波爾茲曼機[J].工程數學學報,2015, 32(2): 159-173.(ZHANG C X, JI N N, WANG G W, et al. Restricted Boltzmann machine [J]. Chinese Journal of Engineering Mathematics, 2015, 32(2): 159-173.)

[25] 邱龍金,賀昌政.神經網絡穩定性的交叉驗證模型[J].計算機工程與應用,2010,46(34):43-45.(QIU J L, HE C Z. Cross validation model for stability of neural networks [J]. Computer Engineering and Applications, 2010, 46(34): 43-45.)

[26] 范永東.模型選擇中的交叉驗證方法綜述[D].太原:山西大學,2013:19-41.(FAN Y D. A summary of cross-validation in model selection [D]. Taiyuan: Shanxi University, 2013: 19-41.)

[27] CHANG C C, LIN C J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 389-396.

[28] 賀其備.基于支持向量機的入侵檢測研究[D].長春:東北師范大學,2013:29-44.(HE Q B. Research on intrusion detection based on support vector machine [D]. Changchun: Northeast Normal University, 2013: 29-44.)

This work is partially supported by the Science and Technology Research Project of Liaoning Education Department (LJYL052).

CHEN Hong, born in 1967, M. S., associate professor. Her research interests include information security.

WAN Guangxue, born in 1992, M. S. candidate. Her research interests include information security, deep learning.

XIAO Zhenjiu, born in 1968, M. S., associate professor. His research interests include information security.

Intrusion detection method of deep belief network model based on optimization of data processing

CHEN Hong, WAN Guangxue*, XIAO Zhenjiu

(SchoolofSoftware,LiaoningTechnicalUniversity,HuludaoLiaoning125105,China)

Those well-known types of intrusions can be detected with higher detection rate in the network at present, but it is very difficult to detect those new unknown types of network intrusions. In order to solve the problem, a network intrusion detection method of Deep Belief Network (DBN) model based on optimization of data processing was proposed. The data processing and method model were improved respectively without destroying the existing knowledge and increasing detection time seriously to solve the above problem. Firstly, the data processed by Probability Mass Function (PMF) encoding and MaxMin normalization was applied to the DBN model. Then, the relatively optimal DBN structure was selected through fixing other parameters, changing a parameter and the cross validation. Finally, the proposed method was tested on the benchmark NSL-KDD dataset. The experimental results show that, the optimization of data processing can improve the classification accuracy of the DBN model, the proposed intrusion detection method based on DBN has good adaptability and higher recognition ability of unknown samples. The detection time of DBN algorithm is similar to that of Support Vector Machine (SVM) algorithm and Back Propagation (BP) neural network model.

intrusion detection; optimization of data processing; deep learning; Deep Belief Network (DBN); unknown attack detection

2016- 11- 04;

2016- 12- 26。 基金項目:遼寧省教育廳科學技術研究項目(LJYL052)。

陳虹(1967—),女,遼寧阜新人,副教授,碩士,CCF會員,主要研究方向:信息安全; 萬廣雪(1992—),女,遼寧大連人,碩士研究生,主要研究方向:信息安全、深度學習; 肖振久(1968—),男,內蒙寧城人,副教授,碩士,CCF會員,主要研究方向:信息安全。

1001- 9081(2017)06- 1636- 08

10.11772/j.issn.1001- 9081.2017.06.1636

TP393.08

A

猜你喜歡
數據處理檢測模型
一半模型
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 国产拍揄自揄精品视频网站| 国产午夜在线观看视频| 曰韩人妻一区二区三区| 99热最新在线| 国产网站免费观看| 久久精品aⅴ无码中文字幕| 国产呦精品一区二区三区网站| 一级毛片无毒不卡直接观看| 国产h视频在线观看视频| 日本成人在线不卡视频| 中文纯内无码H| 国产成人艳妇AA视频在线| 亚洲最猛黑人xxxx黑人猛交| 精品国产福利在线| 精品国产Ⅴ无码大片在线观看81| 亚洲不卡影院| 亚洲综合欧美在线一区在线播放| 色偷偷综合网| 性激烈欧美三级在线播放| 免费欧美一级| 国产精品污视频| 热久久这里是精品6免费观看| 国产精品专区第1页| 毛片免费在线| 国产拍在线| 亚洲综合色吧| 91年精品国产福利线观看久久| 久久人人97超碰人人澡爱香蕉 | 中文无码日韩精品| 色噜噜久久| 一本视频精品中文字幕| 草草线在成年免费视频2| 亚洲日本在线免费观看| 呦视频在线一区二区三区| 国产美女精品在线| 中文字幕无码制服中字| 四虎影视永久在线精品| 久久这里只有精品23| 久草视频中文| 欧美h在线观看| 伊伊人成亚洲综合人网7777| 91美女在线| 热热久久狠狠偷偷色男同 | 国产精品第一区在线观看| 国产网站免费看| 一级香蕉人体视频| 伊人91在线| 亚洲午夜天堂| 久久国产精品影院| 亚洲国产精品一区二区第一页免 | 四虎国产精品永久一区| 日韩精品毛片人妻AV不卡| 夜夜操天天摸| 99热在线只有精品| 日韩午夜伦| 亚洲国产理论片在线播放| 热99精品视频| 91青青视频| 久996视频精品免费观看| 色网站在线视频| 精品少妇人妻av无码久久| 亚洲精品成人片在线播放| 四虎国产永久在线观看| 91美女视频在线| 久久福利网| 国产精品午夜福利麻豆| 国产麻豆va精品视频| 免费不卡视频| 国产精品亚洲一区二区三区在线观看| 免费国产高清精品一区在线| 亚洲大学生视频在线播放| 国产激爽大片高清在线观看| 99精品福利视频| 亚洲天堂啪啪| 亚洲最大福利网站| 久久精品国产精品一区二区| 国产丝袜丝视频在线观看| 中文成人在线视频| 在线欧美一区| 久久精品人人做人人爽| a毛片在线| 999在线免费视频|