999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SMOTE和深度信念網絡的異常檢測

2018-08-27 10:42:38沈學利覃淑娟
計算機應用 2018年7期
關鍵詞:特征實驗檢測

沈學利,覃淑娟

(遼寧工程技術大學 電子與信息工程學院,遼寧 葫蘆島 125105)(*通信作者電子郵箱qinshujuanup@163.com)

0 引言

隨著網絡規模的日益擴大和網絡攻擊的日益增加,入侵檢測(Intrusion Detection, ID)依然是人們研究的熱點之一。為了提高入侵檢測系統(Intrusion Detection System, IDS)對未知網絡攻擊的識別能力和用戶數據的關聯性分析能力,許多研究學者將機器學習的方法引入到入侵檢測系統中[1-2],如支持向量機(Support Vector Machine, SVM)[3-5]在處理小樣本數據集時檢測率較高,但是由于其時間復雜度(為O(n3))和空間復雜度(為O(n2))的局限性,處理海量數據集時性能較差;神經網絡(Neural Network, NN)[6-7]在一定程度上具有適應性和可擴展性,但是處理海量數據集時魯棒性仍有待提高;深度學習(Deep Learning, DL)[8-10]能夠挖掘高維數據的潛在特征,分類識別能力較強,但是現有的方法沒有考慮到少數類別樣本的入侵檢測問題。而在入侵檢測系統中,把提權(User to Root, U2R)攻擊識別為正常用戶數據,比把拒絕服務(Denial of Service, DoS)攻擊識別為正常用戶數據對系統的危害更大,因此,在保證較高檢測率和較低誤報率的基礎上,識別并阻斷少數類別的攻擊有著重要的現實意義。

針對上述問題,本文提出了一種基于合成少數類過采樣技術(Synthetic Minority Oversampling Technique, SMOTE)和深度信念網絡的異常檢測(anomaly detection based on SMOTE and Deep Belief Network, SMOTE-DBN)方法,在保證其他類別樣本檢測率的前提下,能夠提高少數類別樣本的檢測率,同時降低誤報率。

1 異常檢測框架

基于SMOTE和深信網的異常檢測框架包含三部分內容,如圖1所示。

1) 數據預處理。如圖1(a)部分所示,通過合成少數類過采樣技術(SMOTE)降低數據集的不平衡度,再將數據集中的符號型特征數據數值化,并對數據型特征數據進行歸一化處理,詳見3.1節內容。

2) 數據特征降維。如圖1(b)部分所示,將預處理后的數據集用深度信念網絡(Deep Belief Network, DBN)進行特征抽取,先用受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)對數據集自底向上進行預訓練,獲得模型的初始參數,再用BP(Back Propagation)網絡微調模型參數,獲得較優模型參數,更好地將原始高維數據映射至低維數據,詳見2.3、2.4節內容。

3)邏輯回歸(Logistic Regression, LR)分類器。如圖1(c)部分所示,通過softmax邏輯回歸分類器,對較優低維數據集進行5種用戶數據狀態的識別,詳見2.5節內容。

圖1 基于SMOTE-DBN模型的異常檢測框架

2 相關算法

2.1 SMOTE

SMOTE算法是一種典型的過取樣方法[11-12]。它用少數類樣本控制人工樣本的生成與分布,實現均衡數據集的目的。核心思想是在某少數類別樣本中隨機地選取一個樣本點,并在其最近鄰的k個樣本之間,插入n個人工合成的少數類別樣本,從而增加少數類別樣本的數量,均衡化數據集。

由于入侵檢測基準數據集中的數據分布很不均勻,現有檢測方法對少數類別樣本的檢測率很低[13-14],因此采用SMOTE方法來消除非均衡樣本集對檢測精度的影響。

此外,由于SMOTE選取樣本的隨機性,可能會選取在樣本集邊緣的樣本點進行近鄰插值,引起模糊樣本邊界的問題。為了避免新合成的樣本點具有極少的少數類樣本特征,致使數據集的原始分布改變,要盡可能地選取不在樣本邊緣的樣本點,K-means算法[15]能有效解決這個問題。用K-means計算出樣本點的簇心m,選取簇心的k個近鄰進行插值操作,得出新樣本xnew:

xnew=m+rand(0,1)*(x-m)

(1)

其中x為簇心m的近鄰樣本,rand(0,1)表示0~1的隨機數。

插入新樣本的步驟如算法1所示。

算法1 插入新樣本。

輸入:原始少數類訓練樣本集,需要合成的樣本數n,循環變量k。

輸出:少數類訓練樣本集。

fort=1,2,…,k

用K-means算法記錄少數類樣本的簇心m

fori=1,2,…,n

隨機選取簇心m的近鄰樣本點x,用式(1)在x與m之間插入新的樣本點

end

2.2 DBN模型

DBN[16]是由若干層非監督的RBM網絡和單層BP神經網絡構成的深層神經網絡。訓練模型的主要步驟如下:

1)用對比分歧(Contrastive Divergence, CD)算法[17]單獨無監督地訓練每一層RBM網絡,確保特征向量映射到不同特征空間時,盡可能多地保留特征信息。

2)BP網絡接收RBM的低維輸出特征向量作為輸入特征向量,有監督地訓練實體關系分類器。由于每一層RBM網絡只能確保自身層內的權值對該層特征向量映射達到最優,并不是對整個DBN的特征向量映射達到最優,所以反向傳播網絡將錯誤信息自頂向下傳播至每一層RBM,微調整個DBN。RBM網絡訓練模型的過程可以看作對一個深層BP網絡權值參數的初始化,使DBN克服了BP網絡因隨機初始化權值參數而容易陷入局部最優和訓練時間長的缺點。

通過上述步驟,能夠構建出具有多隱藏層的非線性網絡結構,挖掘海量數據集的潛在特征,從而學習出高維數據的較優低維表示,得到更易分類的入侵檢測數據特征。

2.3 預訓練

RBM是DBN的核心模塊之一[18],由可見層單元(v)和隱藏層單元(h)構成。可見層與隱藏層的層內無連接,層級之間全連接。如圖2所示,可見層單元為v=(v1,v2,…,vm)描述輸入數據的特征,隱藏層單元為h=(h1,h2,…,hm),通過學習輸入數據的特征自動生成。

圖2 RBM結構

已知v的情況下,隱藏層節點的條件概率分布滿足:

(2)

同理,在已知h的情況下,可見層節點的條件概率分布滿足:

(3)

關于RBM建立的能量函數為:

(4)

其中:θ={W,b,c}為RBM的模型參數,W為可見層到隱藏層間的權值連接矩陣,b和c分別表示可見層和隱藏層上的乘性偏置。

基于能量函數,可以建立v,h的聯合分布函數:

(5)

為了求得聯合概率分布的最大值,更新模型參數,本文采用CD算法獲取樣本。首先,初始可見單元狀態被設置為一個訓練樣本,并由初始可見層單元v學習得到第一層隱藏層單元h1,獲得后驗概率P(h1|v)。再由隱藏層單元h1確定每個可見單元取值為1的概率,重構獲得新的可見層單元v1。接著采用梯度下降法求解參數,訓練樣本的梯度為:

(6)

獲得模型參數的更新規則:

(7)

預訓練過程如算法2所示。

算法2 預訓練過程。

輸入:可見層特征變量v=(v1,v2,…,vm),初始權重W,乘性偏置b、c,學習率ε,迭代次數k。

輸出:RBM的模型參數θ={W,b,c}。

fort=1,2,…,k

forj=1,2,…,n

fori=1,2,…,m

P(vi|h(t))

fori=1,2,…,m

forj=1,2,…n

由式(7)更新模型參數θ={W,b,c}

end

2.4 BP微調權重

BP神經網絡是帶監督的前饋神經網絡[19],有監督的訓練經過預訓練的DBN模型,利用輸出誤差自頂向下地估計每一層RBM的傳播誤差,獲得更優的模型參數。BP微調權重過程如算法3所示。

算法3 BP微調權重過程。

輸入:可見層特征變量v=(v1,v2,…,vm),預訓練得到的模型參數θ={W,b,c},迭代次數k,學習率ε。

輸出:微調后的模型參數θ={W,b,c}。

fort=1,2,…,k

對所有vi的輸出單元oi,計算其誤差梯度σi(ei為期望輸出):

σi=oi(1-oi)(ei-oi)

(8)

對所有隱藏層單元hj,計算其誤差梯度σj,并更新模型參數θ:

(9)

(10)

end

2.5 softmax分類器

測試數據集中有五種用戶數據狀態[20-21],分別為正常狀態(Normal)、拒絕服務(Denial of Service, DoS)攻擊、遠程未授權(Remote to Local, R2L)攻擊、提權(User to Root, U2R)攻擊、端口掃描(Probing),依序標記為1~5,如表1所示。

由表1可知,數據集中有多類用戶數據狀態,而softmax分類器能夠適應多分類問題,且相較于SVM等分類器結構簡單,因此,構建一個softmax分類器,對訓練后獲得的較優低維表示的數據進行分類。

如式(11)所示,對測試數據集進行五種用戶數據狀態的識別:

(11)

其中:θ′={W′,b′}為模型參數,W′表示權值矩陣,b′表示加性偏置。

表1 測試數據集分布

將要分類的較優低維數據x′輸入到一套超平面中,每個超平面代表一個類,以輸入的數據到第j類超平面的距離表示該數據屬于第j類的概率,概率最大的類即為數據的所屬類別:

P(y=j|x(i),θ′)=softmaxj(W′x′(i)+b′)

(12)

3 實驗驗證

3.1 數據預處理

本文采用KDD 1999數據集[22]作為測試數據集。該數據集中的每一項數據共有41項特征屬性和1項標簽屬性,特征屬性包括傳輸控制協議(Transmission Control Protocol, TCP)基本連接特征(No.1~No.9)、TCP連接的內容特征(No.10~No.22)、基于時間的網絡流量特征(No.23~No.31)以及基于主機的網絡流量統計特征(No.32~No.41),特征屬性的類型分別為連續型(Continuous, C)和離散型(Symbolic, S)[23],如表2所示。實驗所選取的數據集如表3所示。

表2 數據集特征

數據預處理分3個步驟。

1)降低數據集的不平衡度。

由表3可知,KDD 1999數據集的數據狀態分布很不均衡,訓練集中樣本U2R的數量遠小于DoS和Normal的樣本數,因此,本文采用SMOTE技術,將U2R的樣本數增大至原來的10倍,以均衡樣本數。

2)字符型特征數值化。

用屬性映射法將字符型特征數據數值化,分別為TCP、用戶數據報協議(User Datagram Protocol, UDP)、網際控制報文協議(Internet Control Message Protocol, ICMP),如表4所示。

3)數據型特征歸一化。

將數值化后的數據取對數,再根據式(13)歸一化到[0,1]區間內:

y=(y-min)/(max-min)

(13)

其中:y為屬性值,min為對應特征屬性的最小值,max為對應特征屬性的最大值。

表3 實驗數據集

表4 字符型特征數值化

3.2 實驗評價標準

評價標準定義如下。

TP(True Positive):樣本正確判斷為正類的樣本數。

TN(True Negative):樣本正確判斷為負類的樣本數。

FP(False Positive):樣本錯誤判斷為負類的實際正類樣本數。

FN(False Negative):樣本錯誤判斷為正類的實際負類樣本數。

則檢測率(Detection Rate, DR)、誤報率(False Alarm, FA)、精確率(Accuracy, AC)分別如下:

DR=TN/(TN+FN)

(14)

FA=FP/(TP+FP)

(15)

AC=(TP+TN)/(TP+FP+TN+FN)

(16)

3.3 實驗分析

實驗環境:Windows 7 (64位)操作系統,Intel Core i5- 5200U CPU @2.2 GHz,4 GB RBM,Python3.5。

實驗內容:

1)設置實驗參數。

2)在相同分類方法的基礎上驗證SMOTE技術對異常入侵檢測的影響。

3)在相同數據集上分析不同分類技術對異常入侵檢測的影響。

3.3.1 實驗參數設置

實驗過程中,用DBN對選取的數據集進行訓練,由于DBN的參數設置會影響到模型的訓練結果,根據文獻[24-25]對模型的部分參數進行了設置,訓練參數如表5所示,同時通過固定參數,驗證了微調的迭代次數對檢測率結果的影響,如圖3所示。

由圖3可知,當迭代次數大于100時,精確率曲線逐漸趨于平緩。為了避免過擬合,后續實驗中選取微調的迭代次數為100。

3.3.2 SMOTE算法的有效性驗證

為了驗證SMOTE算法的有效性,將經過SMOTE技術處理前后的數據集在DBN算法上進行驗證。實驗結果表明,經過SMOTE預處理的數據集相較于未經過SMOTE的數據集在精確率方面提高了2.01個百分點,檢測率結果如圖4所示,DoS的檢測率有所降低,但是對少數類樣本U2R的檢測率有明顯提高,其他類別樣本的檢測率與未經過SMOTE處理的數據集檢測率相當。

表5 實驗參數

圖3 精確率隨微調迭代次數的變化

圖4 SMOTE處理前后檢測率對比

3.3.3 對比實驗

將SMOTE-DBN方法與DBN和SVM方法在相同數據集上進行對比實驗,如表6所示,SMOTE-DBN方法的檢測率相對略高于DBN和SVM方法,且在誤報率方面相對較低。

表6 SMOTE-DBN與DBN、SVM實驗結果對比 %

4 結語

本文提出了一種基于SMOTE和深度信念網絡的異常檢測方法,提高了入侵檢測的數據分析能力。通過SMOTE處理技術,均衡化非均衡數據集,在一定程度上解決了分類器傾向于將用戶數據歸類到多數類類別樣本的問題。同時結合softmax算法改進了DBN算法,并與DBN和SVM方法進行對比實驗。實驗結果表明,SMOTE-DBN算法的性能相對較優,對高維數據有很強的特征提取能力和信息識別能力,可應用于網絡分布復雜的環境下;但DBN中的結構參數為人工設置,不一定是最優的網絡結構,因此如何選取合理的網絡參數是下一步解決的問題。

猜你喜歡
特征實驗檢測
記一次有趣的實驗
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 极品国产在线| 无码免费的亚洲视频| 无码精品福利一区二区三区| 国产成人精品视频一区二区电影| 无码丝袜人妻| 国产精品亚洲五月天高清| 99久久99视频| 国产精品无码制服丝袜| 中文无码伦av中文字幕| 国产午夜精品一区二区三区软件| 色综合天天视频在线观看| 97综合久久| 91国内视频在线观看| 成色7777精品在线| 亚洲嫩模喷白浆| 国产精鲁鲁网在线视频| 在线播放精品一区二区啪视频| 亚洲性色永久网址| 免费a级毛片视频| jizz亚洲高清在线观看| 国产亚洲欧美在线视频| 3344在线观看无码| 97精品国产高清久久久久蜜芽| 国产va免费精品观看| 亚洲第一视频网站| 欧美激情伊人| 亚洲首页在线观看| 国产精品尤物铁牛tv| 99久久精品美女高潮喷水| 欧美在线视频a| 天天综合亚洲| 亚洲综合久久一本伊一区| 97国产在线视频| 欧美成人影院亚洲综合图| 国产xxxxx免费视频| 国产精品视频a| 免费99精品国产自在现线| 国产丝袜丝视频在线观看| 亚洲人视频在线观看| 国产一区二区免费播放| 久久久久久尹人网香蕉 | 久久国产免费观看| 国产69囗曝护士吞精在线视频| 黄色三级网站免费| 日韩最新中文字幕| 亚洲码在线中文在线观看| 国产成人区在线观看视频| 亚洲资源在线视频| 成年片色大黄全免费网站久久| 在线欧美日韩| 国产成人综合网| 国产精品成人观看视频国产 | 亚洲国产成人在线| 午夜国产小视频| 不卡国产视频第一页| 久久国产精品麻豆系列| 亚洲国产精品久久久久秋霞影院| 国产小视频在线高清播放| 日韩国产 在线| 亚洲黄网在线| 亚洲欧美日韩成人高清在线一区| 97av视频在线观看| 日韩高清欧美| 伊人91在线| 99在线视频免费| 无码'专区第一页| 精品视频在线观看你懂的一区| 国产真实乱子伦视频播放| 国产乱子伦手机在线| 亚洲国产成人无码AV在线影院L| 亚洲色图欧美在线| 日本日韩欧美| 国产成人福利在线视老湿机| 亚洲高清日韩heyzo| 国产视频一二三区| 亚洲男女天堂| 成人韩免费网站| 免费av一区二区三区在线| 草草影院国产第一页| 九九热精品视频在线| 女人一级毛片| 日韩欧美成人高清在线观看|