999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據技術的網絡異常行為檢測模型

2020-04-07 10:39:52
計算機測量與控制 2020年3期
關鍵詞:分類檢測模型

(西南科技大學 計算機科學與技術學院,四川 綿陽 621010)

0 引言

隨著互聯網、云計算、大數據、機器學習等技術的快速發展,目前已經全面進入大數據時代,網絡數據迅速增長且類型多樣,網絡規模越來越大,設備更加多樣化[1]。在日益復雜的網絡環境中,網絡攻擊行為越來越復雜,手段也越來越隱蔽,且潛伏周期很長,新型攻擊多種多樣[2-3]。面對如此復雜嚴峻的形式,迅速、準確地區分正常和異常網絡行為,有效防御非法入侵,成為網絡安全領域研究的重點。

自20世紀80年代Denning提出網絡入侵檢測模型以來[4],學者們提出了很多網絡異常行為檢測方法,目前異常行為檢測方法主要包含基于統計分析的方法、基于數據挖掘的方法、基于特征規則的方法和基于機器學習的方法[5-6]。其中基于機器學習的網絡異常檢測是學者們研究的重點,但由于傳統的存儲空間及計算能力有限,機器學習的檢測效果不佳。隨著大數據技術的發展,提升了對大量數據的采集、存儲及處理能力。將機器學習和大數據技術相結合應用到網絡異常行為檢測中[7],通過對數據流實時檢測和歷史數據的離線分析,可以識別更隱蔽及復雜的網絡攻擊,而且極大提高了網絡異常檢測的準確率。因此,已成為近年來安全領域的一大熱門。

Son S[8]提出了一種基于apache的數據存儲和分析架構,用于處理大量的Hadoop日志數據,并設計實現了三種有效的異常檢測方法,進行了對比實驗。S.Zhao等[9]提出了一種基于機器學習算法的實時網絡流量異常檢測的框架,所提出的原型系統結合了機器學習技術和現有的大數據處理框架,并利用校園網數據進行了結果測試。Wang H等人[10]為了解決入侵檢測算法耗時大、數據分類占用內存大、單點檢測效率低的問題,提出了一種基于Spark平臺的并行主成分分析和支持向量機組合算法。B.Senthilnayaki等人[11]在模型預訓練過程中首先采用遺傳算法進行特征選擇,然后應用SVM進行分類,實驗表明檢測效果較好。S.Sahu等人[12]采用決策樹構建了網絡入侵檢測系統,對網絡數據包中的正常、已知攻擊和未知攻擊進行分類。結果表明,決策樹算法對未知攻擊具備識別檢測能力。王萍[13]提出了一種基于大數據技術的網絡異常行為分析的方法,可以識別更隱蔽及復雜手法的攻擊行為,并基于該理論方法實現了一個網絡異常行為分析監測系統。李若鵬[14]設計與實現了一個基于大數據的網絡異常行為檢測平臺,實現多種海量數據的可靠高效的接入、存儲以及分析。

綜上所述,面對大數據時代網絡復雜多樣的數據,傳統的數據處理平臺已無法對海量數據進行高效、全面的處理;傳統單一的機器學習算法存在對已知異常檢測效果較低,無法檢測未知攻擊行為的問題。針對以上問題,結合大數據技術和機器學習,提出了一種基于大數據技術的網絡異常行為檢測方法。詳細介紹了該模型的總體架構設計,該模型架構包括數據采集與預處理層、數據分析層、數據存儲層和可視化層;結合并行化的模擬退火優化的支持向量機和隨機森林算法構建網絡異常行為檢測模型;利用Flume、Kafka、Spark streaming技術以及網絡異常行為檢測模型實現數據流的實時檢測,并將結果可視化展示。利用NSL-KDD數據集對本文提出的方法和相關算法進行對比測試,實驗結果表明,本文提出的方法在準確率和誤報率方面明顯優于其他算法,并測試了網絡異常行為實時檢測流程。

1 相關技術介紹

1.1 支持向量機

支持向量機(support vector machine,SVM)是一種基于VC維度理論和結構風險最小化原理的機器學習算法,SVM是一種二分類模型。基本思路就是在特征空間中找到一個能夠滿足限制條件的最優超平面,該超平面能夠把數據集中的點準確的分類,而且使兩側的點到該超平面的距離最大。其學習策略是求解超平面問題,可以等價為求解相應的凸二次規劃問題。SVM在一定程度上克服了傳統機器學習算法中過擬合、維數災難和局部極小值等不足,具有很強的學習和泛化能力等。

在線性可分的情況下,給出一組訓練樣本,可將其分類的超平面用一個分類函數表示:

f(x)=ω·xi+b

(1)

這里用1和-1分別表示兩類樣本,當f(x)>0時,x屬于1的樣本點,反之屬于-1的樣本點。然而這樣的分類超平面在分類問題中并不唯一,需要尋找并確定最佳超平面。因此,將分類問題轉化為二次規劃問題的求解,公式如下:

(2)

在線性不可分的情況下通過引入非負松弛因子和懲罰因子,允許存在少量分類錯誤的樣本,其約束條件為:

(3)

基于spark ML的SVM是具有一個Hinge損失函數的線性分類,其中Hinge loss用于最大間隔分類,Hinge函數的標準形式:

L(w;x,y):=max{0,1-ywTx}

(4)

默認情況下,線性支持向量機通過L2正則化訓練,其中正則化系數的設置對訓練模型至關重要。支持向量機在高維或無限維空間中構造一個超平面或一組超平面,輸出SVM模型結構。對于新的數據節點x,則模型基于wTx值來預測,如果wTx>0,則結果為正常,否則為異常。

1.2 改進的模擬退火優化支持向量機

模擬退火(simulated annealing,SA)算法來源于固體退火原理,即將固體加熱到足夠高的溫度,當溫度很高時,內能比較大,內部粒子處于快速無序運動狀態,而在溫度緩慢冷卻時,固體的內能減小,內部粒子逐漸趨于有序,最終趨于平衡狀態,內能達到最小,粒子最為穩定。在實際應用中,將優化問題的最優解比作退火過程中能量處于最低的穩定狀態,也就是溫度達到最低點的狀態或概率分布中具有最大概率的狀態。其實現主要是在局部搜索的過程中引入了隨機擾動的機制,對于產生的新解,如果好于舊解,則無條件接受或更新,如果差于舊解,則以一定概率接受或更新。

模擬退火算法存在兩個主要缺點。首先,退火速度問題。對于復雜的目標函數,為了找到全局最優解,設置的初始溫度足夠高,冷卻速度足夠慢,導致計算量很大。第二,最優解的丟失和循環問題。由于模擬退火的隨機性,可以跳出局部最優,但也可能丟棄當前最優解,以及對某個已經訪問過的解進行多次重復的搜索。為了克服以上缺點,本文對傳統的模擬退火算法進行改進。改進的SA和傳統的SA主要區別在于:

1)溫度冷卻函數在傳統的SA中是恒定的,而在改進的SA中采用分段函數。起初溫度較高的時候,采用遞減較快的函數來降低溫度,在退火的后期,采用遞減較慢的函數。溫度冷卻函數如下:

(5)

其中:m是預先設定的值,t是迭代次數,T0為起始溫度。

2)內循環次數在傳統的SA中是恒定的,而在改進的SA中,如果當前溫度的解在足夠長的時間內保持不變,超過了算法預設的閾值,則跳出循環。

3)改進的SA增加記憶功能來保存最近訪問的解和歷史最優解。

改進的模擬退火算法的整體步驟大致如下:

1)設定初始溫度T0,隨機產生初始解ω0,并計算目標函數值f(ω0),終止溫度Te,內迭代因子γ,內循環閾值θ,設定降溫函數分段點m;

2)通過擾動當前解ω產生新解ω′,若ω′內存中存在,則丟棄,否則計算相應的目標函數f(ω′),得到Δf=f(ω′)-f(ω);

4)持續在鄰近區域內生成新解并重復步驟2)、3),直到達到內循環閾值θ;

5)判斷溫度是否到達終止條件Ti

傳統基于spark ML的SVM正則化系數靠經驗設置,存在較強的主觀性,不同的值可能會得到不同的結果。然而模擬退火算法非常適合求解優化問題的最優解。因此本文利用改進的SA算法優化SVM參數的設定,使模型準確率達到全局最優。

1.3 隨機森林

隨機森林(random forest,RF)算法是一種通過隨機的方式建立多棵決策樹從而形成一片森林的過程,其輸出的類別基于每個決策樹輸出類別的眾數而定。通過Bagging方法抽取森林中每棵決策樹的訓練樣本,利用這些子訓練集并行訓練一套決策樹,每棵決策樹相互獨立。對于測試數據集,在每個決策樹做出決策后,隨機森林模型將通過投票決定最終結果。隨機森林算法是一種集成學習,是一種多個決策樹組合成為一個強分類器的過程。在實際應用中,隨機森林分類精度高、多次預測結果穩定,且降低過度擬合模型的風險。隨機森林的算法流程如下:

1)從原始的數據集中采用Bagging思想進行有放回抽樣,抽取K個和原數據集數量相等的訓練子集{D1,D2,...,Dk};

2)使用每個訓練集構建子決策樹,在決策樹的每個結點,從全部特征中隨機采樣有m(m≤M)個特征的子空間,并基于這m個特征計算所有可能的分裂方式,選擇最佳分類方式(如entropy度量最大)用于該結點的分裂,繼續這個過程直到達到某個預設的停止條件。本文中預設的停止條件為決策樹的深度達到設定的值。

3)把K個不剪枝的樹集成得到一個隨機森林,隨機森林的分類決策采用投票的方式。當新的數據需要通過隨機森林得到分類結果,就可以通過對子決策樹的判斷結果的投票,得到隨機森林的輸出結果了。

2 基于大數據技術的網絡異常行為檢測

2.1 網絡異常行為檢測模型設計

基于大數據的網絡異常行為檢測模型如圖1所示,包括數據采集層、數據預處理層、數據存儲層、數據分析層、可視化層。

1)數據采集層。負責從多源異構的數據源采集數據,數據源指用來支撐數據分析和實時監測的各類原始安全數據。通過Flume采集數據發布到Kafka上。

2)數據預處理層。主要負責對收集到的原始數據進行數值化、歸一化的處理工作,方便后面網絡異常行為分析使用。

3)數據分析層。負責大批量數據的計算,主要分為離線分析和實時檢測兩部分。通過基于Spark ML的機器學習算法實現離線分析,完成網絡行為檢測模型的構建。實時檢測基于Spark streaming框架通過消息訂閱讀取Kafka中的實時數據流,并依據檢測模型對實時數據流進行檢測。

4)數據存儲層:按照數據的類型及使用情況實現各類數據的存儲與集中管理,本文將原始數據存儲到HDFS,部分分析處理結果存儲在關系型數據庫Mysql中。

5)可視化層:主要用于結果的展示和查詢,方便查看和操作。

圖1 基于大數據的網絡異常行為檢測模型

2.2 基于Spark的并行SA_SVM_RF實現

傳統串行機器學習算法處理大規模數據時速度會降低。針對此問題,本文將并行框架Spark與前面描述的模擬退火、支持向量機和隨機森林算法結合,實現了基于Spark的并行化SA_SVM_RF模型。在不降低分類精度的前提下,可以明顯提高算法的分類效率。

Spark有兩個內部機器學習庫,分別為基于彈性分布式數據集(Resillient Distributed DataSet,RDD)的MLlib和基于DataFrame的ML。若數據集結構復雜需經過多次處理或數據需要集成學習的思想進行綜合預測時,Spark ML明顯優于Spark MLlib,因此,本文算法是基于Spark ML實現的。

基于Spark的并行化SA_SVM_RF算法的實現步驟如圖2所示。在模型訓練開始之前,將數據集上傳到HDFS分布式文件存儲系統。Spark集群的任務調度將數據集劃分為K個部分,每個數據子集都會在Executor中創造一項新任務,并分配計算資源。然后在Spark集群上先后進行并行SA優化的SVM和RF算法訓練以獲得K個模型,最后,將局部最優模型進行合并操作,輸出全局最優模型。

圖2 基于Spark的并行化SA_SVM_RF算法實現流程

1)數據集切分。利用textFile()函數從HDFS讀取數據集并將其轉換為具有列名的DataFrame,StringIndexer()對字符串的標簽列進行編碼,同時按照partition類中的分割規則將原數據集隨機切分成大小適中的獨立數據分區,并分布到各Executor上。

2)Map階段。每個Executor將數據子塊里的原始DataFrame用transform() 方法轉化成適合SVM算法輸入格式的DataFrame,創建一個Pipeline對象,同時設置對應的多個順序執行的PipelineStage,構建SA優化的SVM算法對象并設置參數,然后調用fit()方法對SA優化的SVM分類器進行迭代訓練產生一個SA_SVMModel。接著調用SA_SVMModel的transform() 方法得到新的DataFrame,并將其傳入下一個Stage(即RF算法),RF算法用同樣的方法得到Model。

3)Combine階段。Combine階段位于Map和Reduce之間,通過Combiner對象,將所有數據子塊以及Map階段得到的局部模型Model洗牌后合并,交予Reduce階段。

4)Reduce階段。接收Combine階段的結果并對合并后的分類模型進行測試。按照準確率高誤報率低的測試標準輸出全局最優分類器GlobelModel。

2.3 網絡異常行為建模與實時檢測

本文提出的網絡異常行為檢測主要分為兩個階段:離線構建檢測模型和實時檢測數據流,網絡異常行為建模與實時檢測的流程圖如圖3所示。

圖3 網絡異常行為建模與實時檢測流程

基于并行化SA_SVM_RF的網絡異常行為模型構建主要是將模擬退火優化的支持向量機和隨機森林有效結合,充分利用各自的優勢來提高網絡異常檢測的效果。模型構建主要包括:數據預處理、模型訓練、模型評估。數據預處理主要是對數據集進行數值化、歸一化處理。訓練階段主要是先利用模擬退化優化的支持向量機將數據集分成兩類,然后利用隨機森林再次分類形成五類,得到訓練模型。模型評估主要是利用測試數據評估訓練的網絡異常行為檢測模型的好壞,并將測試結果反饋到模型訓練階段來不斷調整模型,直至產生滿足要求的模型。

基于Flume_Kafka_Spark Streaming的網絡異常實時檢測步驟如下:

1)Flume實時采集數據,并發送到Kafka的topic中;

2)采用Spark streaming實時計算框架通過消息訂閱讀取Kafka 的topic中實時數據流,利用檢測模型進行實時檢測,并將結果保存在mysql數據庫中;

3)以可視化的形式輸出最終的異常檢測結果。

3 實驗結果與分析

3.1 測試環境和測試數據集

測試環境Spark集群包括3個虛擬機,其中一個主節點,兩個從節點,每個節點都具有相同的配置,設置2核CPU,4 GB內存,20 G硬盤。測試環境中配置的組件主要包括Hadoop、Zookeeper、Flume、Kafka、Spark。

本文使用NSL-KDD數據集作為模型的訓練和測試數據集,同時用多種算法對模型進行比較驗證。使用KDD CUP99中未標簽的數據集模擬實時產生數據流測試網絡異常行為實時檢測流程。

3.2 算法有效性驗證

使用NSL-KDD數據集將本文算法與四種傳統算法進行比較驗證。表1表示不同算法分別在KDDTest+和 KDDTest-21上的整體檢測效果。表2表示不同算法在 KDDTest+和KDDTest-21上對四種攻擊類型檢測的準確率。

表1 不同模型在KDDTest+和KDDTest-21上的整體檢測效果

從表1中可以看出,與傳統機器學習算法相比,本文算法的整體準確率都高于以上四種傳統機器學習算法,誤報率要略微低于決策樹和隨機森林算法,高于其余兩種算法。

表2 四種攻擊類型在KDDTest+和KDDTest-21上檢測的準確率

從表2中可以看出,與傳統機器學習算法相比,本文提出的算法除了對Probe的檢測準確率略低于Bayes算法外,對四種攻擊類型的檢測準確率明顯優于四種傳統算法,尤其是提升了對R2L攻擊和U2R攻擊的檢測能力。

將本文算法與文獻[14]進行比較驗證,對比結果如圖4所示。

圖4 不同算法檢測準確率對比結果

由圖可知,本文算法的整體檢測準確率比文獻[18]高12.86%。從四種攻擊類型的檢測準確率來看,本文算法對DOS、Probe、R2L和U2R的檢測準確率比文獻[18]分別提高了1.58%,10.39%,8.27%,51.52%。綜合來看,本文算法具有更高的檢測準確率,進一步提高了入侵檢測分類效果。

3.3 網絡異常行為實時檢測測試

網絡異常實時檢測情況如圖5所示。其中左上角的柱狀圖展示了一天內網絡實時檢測到的各類別的總數,右上角的儀表盤展示了一天內網絡的總量,下面的散點圖可以看出某一時間點出現了某種網絡攻擊。

圖5 網絡異常實時檢測展示

網絡異常行為實時檢測過程中網絡總量實時展示如圖6所示。從圖中可以看出網絡總量的實時變化情況。

圖6 網絡總量實時展示

網絡行為歷史數據查詢部分結果如圖7所示。可以通過設置網路異常類型、起始時間和結束時間查詢網絡行為數據記錄。

圖7 網絡行為歷史數據查詢展示

4 總結與展望

針對現有網絡異常檢測存在的問題,本文將大數據技術和機器學習結合,提出了一種基于大數據技術的網絡異常行為檢測方法。首先利用基于Spark的并行SA_SVM_RF算法構建網絡異常行為檢測模型。然后運用Flume、Kafka、Spark steaming等技術框架實現了數據流的高效采集、存儲和處理,完成網絡異常行為實時檢測。并且使用NSL-KDD數據集進行實驗驗證,結果表明,本文提出的方法有效提高了網絡異常行為檢測準確率、降低了誤報率,具有較好的檢測性能,并驗證了大數據環境下實時數據流的處理。下一步工作中,將進一步優化本文提出的算法來完善模型,使之更適用于實際應用。

猜你喜歡
分類檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 手机永久AV在线播放| 极品国产在线| 亚洲成人www| 国产一区二区网站| 一本色道久久88| 第一页亚洲| 91麻豆国产精品91久久久| 黄色国产在线| 理论片一区| 亚洲永久免费网站| 刘亦菲一区二区在线观看| 国产第一页屁屁影院| 亚洲人成色在线观看| 激情乱人伦| 国内毛片视频| 日韩中文字幕亚洲无线码| 在线视频97| 亚洲福利一区二区三区| 强乱中文字幕在线播放不卡| 国产精品爆乳99久久| 国产精品无码作爱| 激情無極限的亚洲一区免费| 亚洲中文字幕日产无码2021| 久久综合色视频| 国产午夜无码专区喷水| 无码高潮喷水专区久久| 久久久精品无码一二三区| 一本色道久久88综合日韩精品| 色婷婷狠狠干| 波多野结衣久久精品| 大香网伊人久久综合网2020| 久久综合国产乱子免费| 国产福利微拍精品一区二区| 国产欧美日韩18| 毛片视频网址| 日本久久免费| 无遮挡国产高潮视频免费观看| 青草娱乐极品免费视频| 日韩欧美国产精品| 19国产精品麻豆免费观看| 国产亚洲精品无码专| 超清无码熟妇人妻AV在线绿巨人| 2021国产v亚洲v天堂无码| 91午夜福利在线观看| 婷婷伊人久久| 国产在线拍偷自揄拍精品| 伊人久久精品无码麻豆精品| 高潮爽到爆的喷水女主播视频 | 欧美亚洲一区二区三区在线| 久久毛片网| 国精品91人妻无码一区二区三区| 久久天天躁狠狠躁夜夜躁| 思思热精品在线8| 在线欧美日韩国产| 婷婷色在线视频| 91精品国产自产在线观看| 精品无码一区二区三区在线视频| 99re热精品视频国产免费| 波多野结衣一区二区三视频| 亚洲乱伦视频| 久久免费视频6| 亚洲视频免费播放| 人妻免费无码不卡视频| 日本成人在线不卡视频| 成年午夜精品久久精品| 激情综合网激情综合| av在线人妻熟妇| 久久亚洲综合伊人| 国产精品九九视频| 无码一区二区三区视频在线播放| 亚洲男人天堂久久| 天天摸天天操免费播放小视频| 亚洲av无码久久无遮挡| 亚洲天堂网视频| 久久精品国产免费观看频道| 99久久成人国产精品免费| 国产成人无码Av在线播放无广告| AV无码一区二区三区四区| 91免费在线看| 亚洲一区二区日韩欧美gif| 就去色综合| 婷婷亚洲最大|