互聯(lián)網(wǎng)環(huán)境下網(wǎng)絡(luò)入侵檢測(cè)算法研究與應(yīng)用

2016-04-12 00:00:00王海珍

現(xiàn)代電子技術(shù) 2016年21期

摘要：隨著云計(jì)算的發(fā)展和應(yīng)用范圍的不斷擴(kuò)大，云環(huán)境下的安全和隱私問題日益突出。傳統(tǒng)的入侵檢測(cè)系統(tǒng)已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足當(dāng)今海量數(shù)據(jù)的要求，建立云環(huán)境下高效的入侵檢測(cè)系統(tǒng)已經(jīng)成為入侵檢測(cè)領(lǐng)域的重要研究方向。基于云計(jì)算提供的超大規(guī)模的計(jì)算能力和海量存儲(chǔ)能力，提出了一種基于云環(huán)境的入侵檢測(cè)系統(tǒng)，系統(tǒng)能夠?qū)Ａ咳肭謾z測(cè)數(shù)據(jù)學(xué)習(xí)，實(shí)時(shí)檢測(cè)，在入侵檢測(cè)的效率和精度上比傳統(tǒng)的入侵檢測(cè)系統(tǒng)有所提高。

關(guān)鍵詞：云計(jì)算；入侵檢測(cè)系統(tǒng)； MRGA?BP均值法；入侵檢測(cè)效率

中圖分類號(hào)： TN915.08?34； TM417 文獻(xiàn)標(biāo)識(shí)碼： A 文章編號(hào)： 1004?373X（2016）21?0107?05

Research and application of network intrusion detection

algorithm in Internet environment

WANG Haizhen

（School of Computer Science and Technology， Inner Mongolia University for Nationalities， Tongliao 028000， China）

Abstract： With the development of cloud computing， and continuos expansion of its application range， the security and privacy issues under cloud environment become increasingly prominent. However， the traditional intrusion detection system can′t satisfy the requirement of mass data nowadays， the establishment of high?efficiency intrusion detection system under cloud environment has become the important research direction of the intrusion detection field. On the basis of ultra?large?scale computing power and massive storage capacity provided by cloud computing， an intrusion detection system based on cloud environment is proposed. This system is able to learn and detect the massive intrusion detection data in real time， and its intrusion detection efficiency and accuracy are higher than those of the traditional intrusion detection system.

Keywords： cloud computing； intrusion detection system； MRGA?BP mean value method； intrusion detection efficiency

0 引言

在信息爆炸的時(shí)代，海量數(shù)據(jù)的安全問題是云計(jì)算面臨的最大問題，云平臺(tái)的入侵檢測(cè)和預(yù)防是大數(shù)據(jù)時(shí)代安全關(guān)注的核心。本文在大數(shù)據(jù)的背景下，面對(duì)海量數(shù)據(jù)的安全問題，從數(shù)據(jù)安全問題的處理速度和處理精度方面改進(jìn)傳統(tǒng)的入侵檢測(cè)算法，通過分析現(xiàn)在云環(huán)境中網(wǎng)絡(luò)數(shù)據(jù)的特點(diǎn)，建立了一個(gè)適用于云環(huán)境下的入侵檢測(cè)算法——MRGA?BP均值法算法[1]，最終通過實(shí)驗(yàn)證明，此算法可以保證在一定的入侵檢測(cè)精度下，提升檢測(cè)的效率，更適合當(dāng)下大數(shù)據(jù)環(huán)境入侵檢測(cè)[2]。

1 基于云計(jì)算平臺(tái)的網(wǎng)絡(luò)入侵檢測(cè)算法建立

1.1 MRGA?BP算法的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的確定

BP神經(jīng)網(wǎng)絡(luò)是由網(wǎng)絡(luò)層數(shù)、節(jié)點(diǎn)個(gè)數(shù)、激活函數(shù)、初始權(quán)值系數(shù)、學(xué)習(xí)算法、系統(tǒng)誤差確定的，確定這些需要一定的原則：

（1）隱含層數(shù)的選擇

根據(jù)先前的經(jīng)驗(yàn)，優(yōu)先考慮3層BP神經(jīng)網(wǎng)絡(luò)：輸出層，輸入層，隱含層。

（2）每層節(jié)點(diǎn)數(shù)的確定

在精度確保的前提下，以隱含層節(jié)點(diǎn)數(shù)最少為目標(biāo)。隱含層和很多因素有關(guān)，例如樣本數(shù)據(jù)的特點(diǎn)和轉(zhuǎn)換函數(shù)的型式、輸入與輸出節(jié)點(diǎn)數(shù)都有關(guān)系。

（3）初始權(quán)值系數(shù)的確定

初始權(quán)值是在一定范疇的數(shù)隨機(jī)生成的，一般情況下，初始權(quán)值分布在0～1之間。在本文中，利用random隨機(jī)生成。

（4）算法的確定：

[ω（t+1）=-η?Ε?ω+ω（t）] （1）

式中：[t]為學(xué)習(xí)次數(shù)；[η]取0.01～0.8。

（5）結(jié)束條件

BP神經(jīng)網(wǎng)絡(luò)算法的結(jié)束條件就是全局誤差降到可接受的范圍或者學(xué)習(xí)次數(shù)達(dá)到最大[3]。本文中只是應(yīng)用遺傳算法進(jìn)行BP神經(jīng)網(wǎng)絡(luò)權(quán)值的優(yōu)化，所以在本文中只控制其進(jìn)化的次數(shù)，當(dāng)進(jìn)化次數(shù)達(dá)到最大時(shí)終止。

1.2 并行化思想

首先將數(shù)據(jù)模塊化，然后將這些數(shù)據(jù)模塊分給各個(gè)機(jī)器進(jìn)行并行處理，他們之間處理的過程沒有關(guān)聯(lián)，所以在處理效率上會(huì)有很大提高。

并行化有兩種思路：一種是物理節(jié)點(diǎn)的并行化，即將網(wǎng)絡(luò)節(jié)點(diǎn)分布在不同的機(jī)器節(jié)點(diǎn)上進(jìn)行計(jì)算；第二種是數(shù)據(jù)的并行化，每個(gè)計(jì)算節(jié)點(diǎn)都有一個(gè)完整的網(wǎng)絡(luò)，且網(wǎng)絡(luò)的初始狀態(tài)是一樣的[4]。并行化體現(xiàn)在進(jìn)行訓(xùn)練時(shí)，每個(gè)節(jié)點(diǎn)都是取一部分樣本數(shù)據(jù)進(jìn)行BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，計(jì)算節(jié)點(diǎn)內(nèi)達(dá)到某個(gè)收斂要求后再進(jìn)行匯總，匯總之后決定是否進(jìn)行下一場(chǎng)迭代。

1.3 MRGA?BP算法描述

提出的MRGA?BP均值法算法的主體思路是：GA算法的Map階段，隨機(jī)產(chǎn)生[N]個(gè)個(gè)體，上傳到HDFS文件系統(tǒng)，讀入每個(gè)個(gè)體的值，每一個(gè)個(gè)體代表的是每一個(gè)BP網(wǎng)絡(luò)的權(quán)值，調(diào)用BP神經(jīng)網(wǎng)絡(luò)算法，每個(gè)個(gè)體的輸入權(quán)值和每個(gè)樣本的值，進(jìn)行BP神經(jīng)算法，求出每個(gè)個(gè)體對(duì)應(yīng)所有樣本的誤差和，這個(gè)誤差和稱為全局誤差值，全局誤差值作為GA遺傳算法Map階段的輸出值，Redcue階段的輸入值為Map的輸出值，計(jì)算每個(gè)個(gè)體的適應(yīng)度，接著遺傳算法的選擇，交叉，變異等。經(jīng)過數(shù)次迭代后，篩選出最優(yōu)個(gè)體，輸出到HDFS文件，作為BP神經(jīng)算法的初始權(quán)值。

1.4 MRGA?BP均值法算法原理

（1） MRGA?BP均值法描述

提出的MRGA?BP均值法，在BP神經(jīng)網(wǎng)絡(luò)階段用map輸出的是每個(gè)樣本的所有權(quán)值變化量，然后將每個(gè)樣本所有權(quán)值的變化量輸出，在reduce階段，將所有樣本相對(duì)應(yīng)的權(quán)值相加求出算數(shù)平均值，并且更新權(quán)值一次上傳到HDFS，之后再使用新的權(quán)值HDFS文件進(jìn)行第二次迭代，將產(chǎn)生的權(quán)值上傳到HDFS[5]。迭代Hadoop作業(yè)，迭代結(jié)束的標(biāo)志是迭代次數(shù)達(dá)到最大或者誤差在范圍內(nèi)。

（2） BP神經(jīng)網(wǎng)絡(luò)算法的MapReduce化

對(duì)BP神經(jīng)算法的MapReduce過程，算法可以拆成三個(gè)過程：

第一個(gè)過程，訓(xùn)練神經(jīng)網(wǎng)絡(luò)。Map類調(diào)用map函數(shù)，接收數(shù)據(jù)樣本和權(quán)值樣本，開始訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)，這個(gè)過程相當(dāng)于三個(gè)大型矩陣在相乘，可以先讓兩個(gè)矩陣相乘，再和第三個(gè)矩陣相乘，Reduce最終生成一個(gè)實(shí)際計(jì)算出來的結(jié)果，作為輸出矩陣。

第二個(gè)過程，主要是為了將實(shí)際輸出結(jié)果和輸入的樣本進(jìn)行合并，為第三個(gè)階段進(jìn)行調(diào)整權(quán)值準(zhǔn)備。

第三個(gè)過程，讀入第二階段生成的Text，計(jì)算每一個(gè)樣本所有權(quán)值的變化量。最終求出新的權(quán)值。

（3） GA遺傳算法的MapReduce化

應(yīng)用GA遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)值。采用實(shí)數(shù)編碼，將BP神經(jīng)網(wǎng)絡(luò)中的權(quán)值標(biāo)記為“染色體”，適應(yīng)度為誤差的倒數(shù)，接著選擇，交叉，變異，選出最優(yōu)權(quán)值。GA算法MapReduce的流程圖如圖1所示。

Map階段讀取HDFS上的群體信息，計(jì)算每一個(gè)個(gè)體經(jīng)過一次BP神經(jīng)網(wǎng)絡(luò)迭代學(xué)習(xí)時(shí)所有樣本的學(xué)習(xí)全局誤差，作為Map的輸出[6]。Reduce階段的輸入是每個(gè)權(quán)值個(gè)體所對(duì)應(yīng)的誤差，因?yàn)檎`差計(jì)算比較復(fù)雜，所以將誤差值設(shè)定為全局變量，按照誤差，求出每個(gè)個(gè)體的適應(yīng)度，適應(yīng)度為誤差的倒數(shù)，適應(yīng)度最高的個(gè)體不進(jìn)行下邊的步驟。而剩下的個(gè)體，使用賭盤算法選擇、交叉、變異，選出一個(gè)最優(yōu)個(gè)體。

1.5 基于云計(jì)算的入侵檢測(cè)流程

為了更好地在云環(huán)境下檢測(cè)入侵行為，提出了基于云平臺(tái)下的海量數(shù)據(jù)的入侵檢測(cè)系統(tǒng)，流程圖如圖2所示，具體的檢測(cè)過程如下：

（1）將入侵檢測(cè)數(shù)據(jù)源以分布式的形式存儲(chǔ)到HDFS上；

（2）將隨機(jī)產(chǎn)生的權(quán)值以分布式的形式存儲(chǔ)到HDFS上；

（3）運(yùn)用MapReduce GA開始BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值的優(yōu)化，優(yōu)化出較小的解空間，提高收斂率；

（4）使用MapReduce GA優(yōu)化數(shù)據(jù)源權(quán)值，用BP神經(jīng)網(wǎng)絡(luò)計(jì)算出每一個(gè)權(quán)值對(duì)應(yīng)的所有樣本的誤差和，作為GA遺傳算法的適應(yīng)度函數(shù)的基礎(chǔ)；

（5）將MapReduce GA遺傳算法優(yōu)化完的權(quán)值作為訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值，開始MapReduce BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練，訓(xùn)練一定的次數(shù)，使樣本的誤差和達(dá)到人們所能接受的范圍之內(nèi)，或者預(yù)設(shè)定的迭代次數(shù)[7]；

（6）訓(xùn)練完成后，使用檢測(cè)樣本統(tǒng)計(jì)比較檢測(cè)結(jié)果[8]。

2 網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2.1 系統(tǒng)的整體結(jié)構(gòu)

提出的解決方案主要是針對(duì)當(dāng)下海量數(shù)據(jù)，傳統(tǒng)的入侵檢測(cè)系統(tǒng)因?yàn)閿?shù)據(jù)量大，不能快速、即時(shí)地進(jìn)行檢測(cè)，而且由于數(shù)據(jù)量大，致使權(quán)值調(diào)整過程是一個(gè)巨大的程序運(yùn)行過程，最終要使檢測(cè)率很低，通過使用本文提出的MRGA?BP均值法算法解決上述傳統(tǒng)入侵檢測(cè)的缺點(diǎn)。

基于云平臺(tái)的入侵檢測(cè)系統(tǒng)的檢測(cè)流程一般為：首先使用一些工具收集數(shù)據(jù)，再對(duì)收集到的數(shù)據(jù)源進(jìn)行預(yù)處理，然后再使用基于Hadoop云平臺(tái)下的MRGA?BP均值法進(jìn)行分析，根據(jù)已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)改數(shù)據(jù)或者流量是否為正常行為，做出相應(yīng)的預(yù)警，其流程見圖3。

2.2 數(shù)據(jù)源采集

在數(shù)據(jù)源獲取階段，常用的獲取數(shù)據(jù)源的部件是收發(fā)器、代理、適配器，獲取的數(shù)據(jù)源主要來自于主機(jī)、網(wǎng)絡(luò)、日志等。

2.3 數(shù)據(jù)源的預(yù)處理

由于數(shù)據(jù)預(yù)處理需要為后續(xù)進(jìn)行入侵檢測(cè)分析提供數(shù)據(jù)源，因此它對(duì)整個(gè)過程影響極為關(guān)鍵。在本次研究中，后續(xù)的處理是在Hadoop平臺(tái)下BP神經(jīng)網(wǎng)絡(luò)中完成的，在進(jìn)行訓(xùn)練時(shí)，需要特定的數(shù)據(jù)格式，因此在數(shù)據(jù)預(yù)處理階段要對(duì)數(shù)據(jù)進(jìn)一步處理，轉(zhuǎn)換成BP神經(jīng)網(wǎng)絡(luò)能夠處理的格式。在本階段，預(yù)處理的數(shù)據(jù)源直接保存到Hadoop的分布式文件系統(tǒng)中。

因此，對(duì)數(shù)據(jù)源的預(yù)處理過程為：首先將源數(shù)據(jù)去除多余的字段以及多余的格式；將處理好的數(shù)據(jù)源保存到HDFS中。

2.4 數(shù)據(jù)存儲(chǔ)

對(duì)于來自不同環(huán)境的數(shù)據(jù)源，可以將數(shù)據(jù)源先進(jìn)行分類，在分類后的基礎(chǔ)上進(jìn)行存儲(chǔ)，可以加快機(jī)器的運(yùn)行速度。使用一個(gè)HBase分布式實(shí)時(shí)數(shù)據(jù)庫(kù)，HBase是面向列的多維排序key?value表，可以對(duì)其進(jìn)行實(shí)時(shí)操作。使用HDFS分布式數(shù)據(jù)存儲(chǔ)，HDFS將數(shù)據(jù)放入集群中的每一個(gè)機(jī)器上，并且可以同時(shí)備份。

2.5 入侵檢測(cè)Hadoop平臺(tái)下MRGA?BP均值法

2.5.1 MRGA?BP均值法整體思路

在云平臺(tái)下的詳細(xì)流程圖如圖4所示。

（1）先使用MapReduce GA算法實(shí)現(xiàn)對(duì)BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的初始權(quán)值的優(yōu)化，將GA遺傳算法優(yōu)化后的初始權(quán)值輸出到HDFS文件中，作為下一步神經(jīng)網(wǎng)絡(luò)的初始權(quán)值。

（2）使用預(yù)處理后的數(shù)據(jù)源，同時(shí)，輸入初始權(quán)值開始神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。直到訓(xùn)練結(jié)果的誤差達(dá)到預(yù)期值或者迭代次數(shù)已經(jīng)達(dá)到預(yù)先設(shè)定的值。

（3）輸入測(cè)試樣本，使用建立的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出結(jié)果，與期望結(jié)果進(jìn)行對(duì)比，判斷檢測(cè)率、誤報(bào)率。

2.5.2 GA遺傳算法的MapReduce

因?yàn)镚A遺傳算法是對(duì)初始值的優(yōu)化，將其應(yīng)用到入侵檢測(cè)領(lǐng)域就是對(duì)初始權(quán)值的優(yōu)化，所以，要經(jīng)過以下幾個(gè)步驟：

（1）隨機(jī)生成初始權(quán)值，這個(gè)初始值的生成由函數(shù)random（）生成，每一個(gè)初始的權(quán)值是種群中一個(gè)個(gè)體，生成一定數(shù)量的初始權(quán)值，稱為一個(gè)種群。

（2）執(zhí)行Map函數(shù)，使用隨機(jī)生成的初始權(quán)值計(jì)算種群中每個(gè)個(gè)體對(duì)應(yīng)所有樣本的誤差，求和，誤差之和作為種群中每個(gè)個(gè)體的適應(yīng)度倒數(shù)。

（3）開始Reduce函數(shù)，通過Map輸出誤差，計(jì)算群體中每個(gè)個(gè)體的適應(yīng)度fitness（）。在Reduce（）函數(shù)中，執(zhí)行select（），cross（），muta（）。到達(dá)最大迭代次數(shù)時(shí)停止。

2.5.3 BP神經(jīng)網(wǎng)絡(luò)算法的MapReduce

利用BP神經(jīng)算法是對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。它首先使用訓(xùn)練樣本和MapReduce GA優(yōu)化后的權(quán)值訓(xùn)練網(wǎng)絡(luò)，開始BP神經(jīng)網(wǎng)絡(luò)的多次訓(xùn)練，BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練在Hadoop平臺(tái)下，相當(dāng)于三個(gè)大型矩陣進(jìn)行相乘，計(jì)算之后會(huì)得到樣本的計(jì)算結(jié)果，和原來初始的入侵檢測(cè)數(shù)據(jù)源形成一個(gè)新的HDFS文件，作為下一步進(jìn)行MapReduce GA?BP均值法算法的輸入，由于GA算法只是對(duì)初始權(quán)值的一個(gè)大致的優(yōu)化，所以利用BP神經(jīng)網(wǎng)絡(luò)算法對(duì)權(quán)值進(jìn)一步優(yōu)化，讓樣本的誤差和取到人們可以接受的范圍，直到誤差達(dá)到設(shè)定的范圍內(nèi)，或者是迭代次數(shù)達(dá)到最大時(shí)，停止訓(xùn)練，之后再使用測(cè)試樣本，對(duì)樣本是否為入侵行為進(jìn)行預(yù)測(cè)。

在本次研究中，以海量入侵檢測(cè)數(shù)據(jù)為數(shù)據(jù)源，經(jīng)過預(yù)處理，保留對(duì)BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練有益的數(shù)據(jù)屬性，將字符串過濾掉，利用MapReduceGA算法優(yōu)化出來的數(shù)據(jù)源，通過分解出輸入分量和預(yù)期結(jié)果，開始多次BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。訓(xùn)練之后，將測(cè)試樣本的數(shù)據(jù)源進(jìn)行預(yù)處理，預(yù)測(cè)出測(cè)試樣本的結(jié)果。

3 實(shí)驗(yàn)與實(shí)驗(yàn)結(jié)果分析

3.1 基于Eclipse的Hadoop程序開發(fā)環(huán)境

Hadoop平臺(tái)搭建好之后，在Ecliepse環(huán)境下能夠方便地開始Hadoop并行程序的開發(fā)和測(cè)試，將hadoop?1.2.1?eclipse?plugin.jar復(fù)制到eclipse＼plugins中，啟動(dòng)Eclipse。

在Eclipse界面下有一個(gè)Map/Reduce Location欄目，選擇New Hadoop location，在相應(yīng)的位置設(shè)置Hadoop運(yùn)行環(huán)境。驗(yàn)證Hadoop環(huán)境配置是否成功，在瀏覽器的地址欄中輸入：http：//localhost：50070，檢查namenode是否配置正確。

在瀏覽器輸入http：//localhost：50030檢查9001端口是否正常。

創(chuàng)建一個(gè)MapReduce Project，在項(xiàng)目src創(chuàng)建Package，bpnetwork和ga，分別添加Mapper類，Reducer類以及MapReducer Driver類。

3.2 程序數(shù)據(jù)源說明

為了驗(yàn)證本文提出的基于云計(jì)算平臺(tái)的入侵檢測(cè)算法MRGA?BP均值法的可行性，測(cè)試使用該算法的預(yù)測(cè)入侵檢測(cè)數(shù)據(jù)的精度，收斂速度，所以使用的測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)源均為KDDCUP99。該數(shù)據(jù)集包含多種入侵行為和正常行為，該數(shù)據(jù)類似于云環(huán)境中的數(shù)據(jù)，具有一定的意義。本文中試驗(yàn)檢測(cè)的數(shù)據(jù)源分為訓(xùn)練樣本和測(cè)試樣本。

訓(xùn)練樣本共有494 019個(gè)樣本記錄，正常行為97 276個(gè)，入侵行為396 743個(gè)。

設(shè)置實(shí)驗(yàn)的參數(shù)如下：

（1）輸入： KDDCUP99中每一個(gè)樣本共有38個(gè)屬性值參與計(jì)算。因?yàn)楸疚念A(yù)測(cè)是否為入侵?jǐn)?shù)據(jù)源，所以將數(shù)據(jù)源最后的預(yù)期結(jié)果根據(jù)是否是正常數(shù)據(jù)源設(shè)定為1和0兩個(gè)參數(shù)，0表示入侵檢測(cè)病毒，1為正常數(shù)據(jù)源。

輸入還有隨機(jī)產(chǎn)生的權(quán)值文件。當(dāng)網(wǎng)絡(luò)訓(xùn)練結(jié)束后，可以進(jìn)行預(yù)測(cè)。預(yù)測(cè)樣本文件的處理和訓(xùn)練樣本處理的方式一樣。

（2）輸出：程序的輸出為網(wǎng)絡(luò)的權(quán)值。輸出還有預(yù)測(cè)結(jié)果。BP神經(jīng)網(wǎng)絡(luò)算法中的參數(shù)說明如表1所示。

3.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)的目的是對(duì)比在Hadoop平臺(tái)下實(shí)現(xiàn)MapReduce BP神經(jīng)網(wǎng)絡(luò)、MRGA?BP均值法，MRGA?BP三種實(shí)現(xiàn)運(yùn)行效率和效果。

3.1.1 算法的收斂速度運(yùn)行效率測(cè)試

對(duì)比項(xiàng)：MapReduceBP、MRGA?BP算法、本文提出的MRGA?BP均值法。

數(shù)據(jù)源：完整的數(shù)據(jù)集為708.2 MB，10%的KDDCUP99數(shù)據(jù)集（71.4MB）。

實(shí)驗(yàn)驗(yàn)證了本文提出的MRGA?BP均值法相比MRGA?BP在訓(xùn)練速度上確實(shí)有提高，原因是MRGA?BP中間產(chǎn)生很多結(jié)果，這些結(jié)果放入到內(nèi)存中，當(dāng)超出內(nèi)存容量，數(shù)據(jù)就會(huì)在磁盤中寫入臨時(shí)文件，在這個(gè)過程中，有很多I/O操作，此外，每一次的Map階段會(huì)輸出很多結(jié)果傳到Reduce端，這也是將時(shí)間延長(zhǎng)的一個(gè)原因。根據(jù)以上分析，這兩個(gè)原因?qū)е翸RGA?BP算法耗時(shí)較長(zhǎng)。

3.3.2 算法的訓(xùn)練精度測(cè)試

對(duì)比項(xiàng)：MapReduce BP，MRGA?BP均值法

評(píng)價(jià)指標(biāo)：

[檢測(cè)率=正確檢測(cè)樣本樣本總數(shù)]

[誤檢率=正確樣本檢測(cè)為異常樣本總數(shù)]

[漏報(bào)率=異常樣本檢測(cè)為正常樣本總數(shù)]

通過上述實(shí)驗(yàn)，證明提到的MRGA?BP均值法和MapReduce BP以及MRGA?BP在學(xué)習(xí)速度上有很大提高。對(duì)于相同的數(shù)據(jù)源，MapReduce BP神經(jīng)算法以及MRGA?BP均值法算法的比較結(jié)果證明GA?BP均值法在學(xué)習(xí)有效性方面也有較大的提高，同時(shí)也證明了本文的MRGA?BP算法的可行性。最終結(jié)果表明，該算法在執(zhí)行的時(shí)間上也有提高，同時(shí)和MapReduce BP相比具有更高的檢測(cè)率。

4 結(jié) 論

本文提出了MRGA?BP均值法作為入侵檢測(cè)算法的核心，該算法采用并行化思想，首先利用遺傳算法尋找最優(yōu)的權(quán)值，尋找到最優(yōu)權(quán)值后開始進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，整個(gè)過程采用分布式計(jì)算平臺(tái)Hadoop框架，將遺傳算法和神經(jīng)網(wǎng)絡(luò)算法在云計(jì)算平臺(tái)下實(shí)現(xiàn)，同時(shí)將算法進(jìn)行改進(jìn)，在入侵檢測(cè)的效率和精度上有所提升。

參考文獻(xiàn)

[1] 顏謙和，顏珍平.遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)[J].計(jì)算機(jī)仿真，2011，28（4）：141?144.

[2] 胡宏，陳彥萍.基于隨機(jī)森林算法的混合入侵檢測(cè)系統(tǒng)研究[J].西安文理學(xué)院學(xué)報(bào)（自然科學(xué)版），2013，16（3）：68?71.

[3] 王杰，李冬梅.數(shù)據(jù)挖掘在網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)中的應(yīng)用[J].重慶工學(xué)院學(xué)報(bào)（自然科學(xué)版），2008，22（8）：135?138.

[4] 陳真.Hadoop云平臺(tái)的入侵檢測(cè)系統(tǒng)優(yōu)化設(shè)計(jì)[J].西安工業(yè)大學(xué)學(xué)報(bào)，2012，32（9）：716?722.

[5] 張新有，曾華燊，賈磊.入侵檢測(cè)數(shù)據(jù)集KDDCUP99研究[J].計(jì)算機(jī)工程與設(shè)計(jì)，2010，31（22）：4809?4812.

[6] 陳英和，慕德芳，郝嘉佳.有效測(cè)量元認(rèn)知監(jiān)控的新方法：Master Mind任務(wù)分析[J].心理科學(xué)，2011（3）：750?754.

[7] 李軍華，黎明，袁麗華.基于個(gè)體相似度交叉率自適應(yīng)的遺傳算法[J].系統(tǒng)工程，2006，24（9）：108?111.

[8] 孫勝永，胡雙演，李釗，等.基于粒子群優(yōu)化算法的BP神經(jīng)網(wǎng)絡(luò)圖像復(fù)原[J].無線電工程，2014（10）：5?7.

現(xiàn)代電子技術(shù)2016年21期

現(xiàn)代電子技術(shù)的其它文章: 基于粒子群優(yōu)化算法的配電網(wǎng)優(yōu)化調(diào)度模型; 基于黑盒測(cè)試的嵌入式系統(tǒng)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn); 層次分析法和神經(jīng)網(wǎng)絡(luò)的電網(wǎng)安全評(píng)估; 磁致伸縮換能器熱聲制冷機(jī)結(jié)構(gòu)設(shè)計(jì)與驗(yàn)證; 一種基于動(dòng)態(tài)規(guī)劃的虛擬機(jī)分配方法; 基于SPWM的Z源T型三電平逆變器中點(diǎn)平衡和升壓控制