999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于深度學習的網絡異常行為檢測方法

2020-08-13 07:16:34李錚傅陽
網絡安全技術與應用 2020年8期
關鍵詞:特征檢測方法

◆李錚 傅陽

(1.中國電子科技集團公司第十研究所 四川 610036;2.電子科技大學計算機科學與工程學院 四川611731)

隨著云計算、大數據、人工智能等技術的快速發展,各行各業的信息化程度越來越高,逐步向數字化網絡方向發展。各類行業互聯網快速形成和使用,提供了豐富的數據資源、計算資源和服務資源等網絡內容,網絡已經成為人類社會的重要基礎設施和各國的重要戰略資源。然而伴隨新技術的使用、智能設備的引入、數據共享及平臺互聯的趨勢,網絡環境成了黑客攻擊的熱點,其面臨的安全風險和安全問題更加嚴峻。同時,由于智能化因素的加入,使得網絡攻擊手段更加多樣、隱蔽和快速演變,越來越多的新型網絡攻擊不斷出現,對現有網絡入侵檢測技術提出了巨大挑戰[1]。

傳統網絡攻擊檢測主要依賴于特征和規則,無法自動利用歷史數據,及時發現最新攻擊。目前,有許多論文中使用了機器學習和深度學習的方法來實現網絡安全狀態感知,取得了較好的效果。但由于網絡日志數據規模巨大但質量較差,具有不完備特性,既存在宏觀上的大量冗余數據和特征,又存在微觀上的大量數據值缺失,導致現有方法存在歷史數據利用率低、訓練時間開銷大、模型精度低等問題,無法滿足實際業務需要[2]。

為此,本文提出了一種基于深度學習的網絡異常行為檢測方法,實現對不完備網絡數據進行補全和冗余屬性約簡,并結合深度學習的方法,對網絡異常行為檢測進行建模,基于訓練的檢測模型,可以實時檢測網絡安全狀況并對網絡中的異常行為進行檢測和告警,從而對動態風險進行及時有效的控制,起到保護網絡資產和用戶的隱私、維護網絡安全的作用。

1 相關工作

在網絡數據不完備方面,由于網絡攻擊行為具有隱蔽性、對抗性、復雜性等特點,同時還包含制造虛假數據或刪除數據的行為,使得面向行為刻畫的網絡數據存在不完備特性,包括內容缺失、特征冗余等問題。因此,對不完備數據的有效處理,是后續對網絡行為準確建模的前提。現有處理方法包括數據補全和數據篩選等。文獻[3]將BP網絡應用于“多源網絡”數據融合,利用加權分類方法確定數據特征之間的距離,從而得到數據特征間的相互支持度,并利用特征提取方法降低數據維度。但該方法存在訓練時間較長、實時性較差的問題。文獻[4]提出動態填充的不完備數據聚類方法,實現了不完備數據的有效填充。文獻[5]將“粗糙集”和深度學習相結合,將收集到的網絡數據進行特征屬性集約簡,以去除內容殘缺特征或冗余特征的干擾,文獻[6-7]中提出了基于“粗糙集”理論的不完整數據補全方法。

在網絡行為檢測模型方面,文獻[8]提出了基于深度置信網絡的網絡行為建模方法,通過搭建多層的限制玻爾茲曼機,并將原始網絡網絡數據規整為相同長度的向量,輸入到網絡中對行為進行建模,達到了93%以上的精確度。文獻[5]在深度置信網絡的基礎上,還加入了基于“粗糙集”理論的缺失數據補全和屬性集約簡,使得精度進一步提升。

此外,近幾年態勢感知方面的文獻[9-12]中也用到了DBN、SVM等方法進行網絡行為的建模和異常行為的檢測,取得了較好的精度,但還存在進一步優化的空間。因此,利用深度學習方法進行行為建模和異常行為檢測具有技術上和理論上的基礎,具有很高的可行性。

2 方法設計

本文提出了一個基于深度學習的網絡異常行為檢測方法,該方法包括模型訓練和異常檢測、模型再訓練三階段,如圖1所示。

訓練階段利用具有標簽的歷史數據,訓練得到網絡異常行為檢測模型。在檢測階段,利用該模型對實時獲取到網絡數據進行分析,對于異常行為系統要進行及時告警,并記錄在日志中。在訓練階段,則利用最新加入的樣本數據,對模型進行更新,使得模型能夠適應最新的網絡攻擊。其中,訓練階段是本文的重點,主要包括數據預處理、模型構建與訓練兩個步驟,數據預處理步驟,針對采集的網絡數據的不完備性,需要對原始數據存在的數據缺失、特征冗余的問題進行處理,使得數據更完整、準確可靠,并要對預處理后的數據進行規整,整合成為同一長度的向量。模型構建與訓練,則基于一種深度學習算法設計了網絡異常行為檢測模型,并基于歷史數據進行模型訓練。下面對兩個步驟的具體方法進行詳細介紹。

圖1總體方案

3 數據預處理

由于,采集到的網絡數據存在典型不完備的情況,需要對數據進行“缺失值”填充、冗余特征約簡、數據規整,整合成為統一尺度的特征向量。

(1)“缺失值”補全

針對原始數據中的缺失值,“缺失值”填充使用了基于聚類的“缺失值”動態填充方法。該方法首先將數據集劃分為不完整數據集和完整數據集,對缺失數據使用完整數據集中對應屬性的平均值進行填充,然后迭代使用K-Means進行聚類,對“缺失值”使用其所在聚類中心的對應屬性值進行再次填充。迭代的終止條件由定義的相似度進行判別,相似度S的定義如下:

其中,K為聚類的類個數,ib表示連續兩次聚類結果中某個類iC中所共有的對象個數,n表示對象總數。當相似度S大于設定閾值(0.98)時,則動態填充已經趨于穩定,“缺失值”的填充是合理的。

(2)冗余特征約簡

“缺失值”充分填充后,計算數據中每個特征的權重,并設定閾值,去除權重值較小的特征。在冗余特征約簡的過程中應用了ReliefF算法,該算法是Relief算法的改進版,與Relief算法僅適用于二分類不同,ReliefF算法能夠應用在多分類問題中的特征約簡問題。

該算法首先計算特征的權重矩陣,每個特征值的權重初始化為0。并從數據樣本中,隨機取出一個樣本及其標簽值tag,在同一標簽的樣本中隨機選取K個樣本,并在其他不同標簽的樣本中隨機選取K個樣本。然后計算樣本之間在特征上的距離,并更新每個特征的權重w。即用上一輪的權重值,減去相同分類的該特征差值,然后加上不同分類的該特征的差值,計算公式如下:

其中dist(A,R,Y)為距離公式,計算樣本R在特征A上與樣本Y的距離(歐氏距離),w(A)為上一次迭代的權重,w'()A為更新后的權重。在設置適當的迭代次數后,會得到各個特征的權重矩陣,通過設定閾值,去除影響因素較小的權重,從而達到冗余特征約簡的目的,對最終的精度影響較小并能夠縮短時間開銷。

(3)數據歸一化

數據歸一化,是將數據中的特征進行分類,分為數字型特征和字符型特征。在冗余特征完成后,將數據輸入到規整子模塊中,生成統一尺度的特征向量。

首先,需要對數字型數據進行遍歷獲得最大最小值以便進行歸一化,通過歸一化將數字型數據的值固定在[0,1]之間,能夠減少特征之間由于尺度不同而造成的差異。歸一化公式如下:

同時,獲取所有字符型數據的類型以便進行熱編碼。首先,生成字符型數據的字典,字符型數據的每一個類,都對應一個數字,然后再根據字典進行熱編碼,字典的長度即為該字符型數據的種類個數,也是熱編碼向量的長度。其次,將熱編碼向量全部初始化為0,然后將該類型在字典中對應數字作為索引,將該熱編碼向量中該索引對應的值設定為1即可完成數據的熱編碼化。

4 模型構建與訓練

本文異常檢測模型采用深度神經網絡(DNN)算法進行構建,然后將規整向量輸入到模型中進行訓練和測試,保存訓練好的模型。

本文構建的基于DNN的檢測模型共有6層,包含一層輸入層,一層輸入層以及四個隱藏層,輸入層大小為n,對應輸入特征向量的維度;輸出層大小為m,對應分類標簽值數量;四個隱藏層的大小分別設置為128、512、512、128,神經元的激活函數選擇了RELu函數,即線性整流函數,一般情況下線性整流函數代指了數學中的斜坡函數,即:

當輸入值小于等于0時,函數輸出值均為0;當輸入值大于0時,函數直接輸出輸入值。建模模型的損失函數選擇了交叉熵誤差函數,其計算方式如下:

其中,log表示以e為底的自然對數,yk是神經網絡的輸出,tk是正確解標簽,并且當標簽值是熱編碼處理時,只有正確解標簽的索引對應的值是1,其余均為0。

在模型過程中,由于訓練樣本數據規模通常較大,若一次全部訓練完成需要的開銷過大,為了加快訓練過程,將數據分成m塊,并分m批進行模型訓練,減小訓練的開銷。第一次訓練時需要初始化模型,每一批數據訓練完成后還需要保存本次訓練的模型。然后,下一批訓練開始時直接加載上次訓練的模型繼續訓練即可,當所有批次的訓練完成后,再使用測試數據進行測試。在具體模型訓練時,優化器選擇了Adamoptimizer,batch_size設置為10000,學習率為0.001,每批數據的訓練輪次為10000次。

5 實驗與分析

在Windows 10操作系統環境下,基于TensorFlow-GPU 1.8.0深度學習框架、Python3.6開發語言,設計實現了算法模型代碼。對本文數據預處理中的特征約簡,以及完整模型的效果進行了對比實驗,來驗證方法的有效性。

(1)冗余特征約簡效果對比

為了驗證冗余特征約簡效果,需要在數據預處理部分采用和不采用約簡步驟,得到兩組不同的規整特征向量,輸入到本文模型中進行訓練、測試,將得到約簡前后的測試精度進行對比,從而說明冗余特征約簡的有效性。冗余特征約簡的效果對比如表1所示:

表1冗余特征約簡對比

從表中可以看出,在相同訓練樣本和測試樣本下,冗余特征約簡后,精度較未約簡降低了0.13%,原因是約簡特征時,去除特征的權值不為0,因此其對最終的精度是有一定影響的。但是去除特征后時間縮短了將近17s。因此,冗余特征約簡是有效的,其能夠在不大幅度影響精度的條件下,節省比較可觀的時間。

在使用冗余特征約簡方法時,考慮了模型訓練中的損失值變化如圖2所示:

圖2模型訓練損失變化圖

可以看出,模型訓練損失值在三個時間段內都很高,然后通過后訓練損失值逐漸降低,最后損失值在0附近波動,說明訓練對部分數據已經有了很好的特征提取,因此能夠很準確地識別訓練數據。

同時,經過對數據進行分析,找到了為什么會出現兩次損失的原因:不同標簽的數據分布不均勻,可能某批次的數據中包含與前幾次訓練標簽不同的數據,因此在該輪訓練中損失值會非常高,然后通過多輪訓練將損失值再次降低,最終將損失值降低到0附近,實現對數據集的完整訓練。

(2)模型效果對比

未來驗證本文基于DNN的異常行為檢測模型的效果,都采用本文的數據預處理方法,對比測試了基于DBN和SVM算法的兩種情況,性能對比如表2所示:

表2三種建模方法對比

從上表可以看出,本文模型在測試精度和平均測試時間來看為三種方法中最佳的,達到了96.66%,超出了基于DBN方法的93.10%,以及基于SVM方法的83.23%。同時,本文模型的平均耗時也是三者中最少的。

6 結束語

本論文提出了一種基于深度學習的網絡異常行為檢測方法,其核心是利用歷史網絡數據,建模并訓練網絡異常行為檢測模型,進而實現快速、高精度的異常行為檢測。通過對比實驗與分析,驗證了本文方法中冗余特征約簡,以及整體模型的有效性。下一步工作,將繼續關注如何提高模型的時間和精度性能,以及考慮模型的持續演進問題。

猜你喜歡
特征檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 日韩a在线观看免费观看| 国产精品黑色丝袜的老师| 制服丝袜 91视频| 老色鬼欧美精品| 极品私人尤物在线精品首页| 亚洲视频无码| 精品国产电影久久九九| 日本黄色a视频| 国产福利拍拍拍| www.99在线观看| 91色在线观看| 中文无码精品a∨在线观看| 日韩免费中文字幕| 永久天堂网Av| 一区二区理伦视频| 国产福利免费视频| 国产成人精品午夜视频'| 一级片免费网站| 伊人色综合久久天天| 青草视频免费在线观看| 97se亚洲综合在线| 国产精品成人久久| 欧美成人区| 久久香蕉国产线看观看精品蕉| 国产av剧情无码精品色午夜| 亚洲精品在线91| 亚洲高清国产拍精品26u| 久久综合九色综合97网| 国产成人精品优优av| 天天躁夜夜躁狠狠躁图片| 欧美性天天| www.av男人.com| 无码内射在线| 丁香亚洲综合五月天婷婷| 日韩中文精品亚洲第三区| 国产96在线 | 久久精品无码一区二区国产区| 制服丝袜一区| a国产精品| 国产精品成人第一区| 乱人伦中文视频在线观看免费| 99在线观看免费视频| 国产综合另类小说色区色噜噜| 91美女在线| 国产精品网曝门免费视频| 熟女日韩精品2区| 欧美色综合网站| 亚洲一区二区三区中文字幕5566| 91成人免费观看| 国内毛片视频| 精品久久人人爽人人玩人人妻| Aⅴ无码专区在线观看| 在线观看av永久| 国产91麻豆免费观看| 亚洲欧美激情另类| 一本久道久综合久久鬼色| 四虎成人精品在永久免费| 狂欢视频在线观看不卡| 亚洲最黄视频| 午夜福利免费视频| 久久久久免费精品国产| 亚洲熟妇AV日韩熟妇在线| аv天堂最新中文在线| 国产成年无码AⅤ片在线 | 免费在线一区| 亚洲小视频网站| 亚洲成人在线网| 亚洲人成色77777在线观看| 日韩无码视频专区| 亚洲国产av无码综合原创国产| 久久久噜噜噜| 国产拍揄自揄精品视频网站| 国产天天色| 免费看一级毛片波多结衣| 久久亚洲国产一区二区| 欧美一级视频免费| 日韩中文无码av超清| 欧美国产视频| 欧美激情成人网| 波多野结衣一区二区三视频 | 日本一区中文字幕最新在线| 无码中文字幕加勒比高清|