999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合隨機森林的PSO-CNN入侵檢測研究

2021-12-14 01:37:04譚敏生楊帥創
計算機應用與軟件 2021年12期
關鍵詞:特征檢測

譚敏生 楊帥創 丁 琳 彭 敏

(南華大學計算機學院 湖南 衡陽 421001)

0 引 言

據統計2018年全球互聯網用戶突破40億,數據的傳輸呈現爆發式增長。傳統的入侵檢測技術(Intrusion Detection System,IDS)已不能滿足人們的需求,并日益顯露弊端。因此,如何更好地提高網絡的有效防御已成為當前網絡安全技術的研究熱點。

近階段的入侵檢測技術主要是將機器學習運用于IDS中[1]。所采用的機器學習算法主要有支持向量機(SVM)[2]、神經網絡[3]、卷積神經網絡[4]。在此基礎上為進一步提高檢測系統的檢測性能[5],機器學習融合群體智能算法的檢測系統也逐漸被研究者提起。例如:利用蟻群算法優化SVM參數[6],混沌粒子群算法結合最小二乘支持向量機的混合算法[7],以及遺傳算法優化卷積神經網絡的方法[8-9]。針對原始網絡數據包含大量冗余和無用特征,易出現“維數災難”[10]降低入侵檢測效率,群體智能算法融合傳統機器學習存在入侵檢測準確率低,卷積神經網絡(CNN)的網絡結構及初始參數對其性能影響較大的問題,本文提出結合隨機森林(RF)和粒子群(PSO)優化CNN網絡結構和初始參數的方法構建入侵檢測模型。利用隨機森林對獨熱編碼后的數據進行特征度量。在不影響分類性能的基礎上,保留主要特征信息,實現數據的最優壓縮[11-12]。以此來縮減建立模型時數據的特征數,降低模型復雜度。采用粒子群優化卷積神經網絡的網絡結構和初始參數,使卷積神經網絡在非經驗指導下自主選擇[13]最佳網絡結構參數和初始權重。實驗證明,相比之下,本文方法有效地提升了分類的準確率和精確率,降低了誤報率。

1 相關工作

1.1 隨機森林

隨機森林(RF)是由一組決策樹構成的集成機器學習算法。運用其魯棒性和分類準確性特點,可對數據特征進行篩選。使用隨機森林進行特征選擇的兩個基本指標分別是袋外數據誤差和基尼指數。

(1)

隨機森林使用基尼指數作為特征分割效果度量指標,其原則是選擇基尼指數小的特征,其值越小得到的分割效果就越好。主要計算過程是:根據所給節點t可計算出當前節點的基尼指數,然后選擇某一個特征構建分離節點,劃分后的兩個子集也可計算出各自的基尼指數,計算父節點與子節點的基尼指數差值作為當前特征的重要性度量。其公式如下:

(2)

式中:Q為目標變量的樣本個數;p(k/t)為節點t中目標變量為第k類的條件概率。使用式(2)計算所有決策樹的基尼指數,對所有特征的重要性進行排名,作為本文訓練模型的輸入數據。

1.2 粒子群算法

粒子群優化算法(PSO)最初是由Eberhart和Kennedy于1995年提出的群體智能啟發式全局算法。該算法是模擬鳥群在飛行中覓食的社會行為,通過群體協作改進目標解來優化問題的計算方法。粒子群算法與其他優化方法相比具有的明顯特色是所需調整的參數少、收斂速度快、搜索范圍廣。其算法原理如下:

假設一個具有m個粒子的種群在一個D維空間進行搜索,每個粒子都具有記憶功能,存儲所搜尋到的最佳位置表示為pbest,種群所搜尋的最好位置表示為gbest。每個粒子都根據搜索到的pbest和gbest調節自身速度vd和xd位置,以實現搜尋整個區域空間。通常位置變化范圍限定在[Xmin,d,Xmax,d],速度變化范圍限定在[-Vmax,d,Vmax,d]。第i個粒子在D維中的速度和位置更新公式為:

(3)

(4)

1.3 卷積神經網絡

卷積神經網絡起始于20世紀70年代,基本特征包含稀疏連接、權重共享和降采樣。其中LeNet-5是1998年LeCun等提出的迄今為止最經典的卷積神經網絡結構。其網絡模型結構如圖1所示。

圖1 LeNet-5網絡結構

卷積神經網絡的卷積層主要通過上一層的特征向量使用激活函數與卷積核進行卷積來進行特征提取。假設yi為神經元的輸出,xi為輸入向量。對于輸入向量與輸出向量之間對應關系可表示為:

(5)

式中:n為輸入到神經元j的向量總數;*表示為卷積;wij為輸入向量xi與神經元j連接的權重參數;bj為偏置參數;f()是激活函數。

本文卷積神經網絡使用池化類型為Max-pooling,主要用于降采樣、全連接層整合卷積層或者池化層中具有類別區分性的局部信息[14]。

2 RF-PSO-CNN的入侵檢測流程

本文采用結合隨機森林(RF)的粒子群(PSO)優化CNN網絡結構和初始參數的融合算法構建入侵檢測模型。主要使用隨機森林對原始數據進行特征度量以減少數據維度和對硬件的依賴性;運用粒子群算法的全局尋優能力強、參數少等特點來優化CNN網絡結構及初始權重,有效地避免了CNN使用梯度下降算法使訓練落入局部最優,影響模型性能。

2.1 粒子群優化CNN結構

傳統的卷積神經網絡結合權值共享與局部區域連接技術,降低了網絡模型的復雜度,減少了參數規模。但是,在研究過程中,傳統的卷積神經網絡人工選取的濾波器大小、濾波器個數、激活函數和學習率等參數對卷積神經網絡學習準確率有較大影響。而且,傳統卷積神經網絡的初始權重在使用最陡梯度下降算法訓練過程中容易陷入局部最優,對學習性能產生較大影響。所以,本文提出利用具有參數少、收斂速度快、搜索范圍廣等特點的粒子群算法優化CNN網絡結構及初始參數。每一個粒子就是一種CNN網絡結構,其原理為:在卷積神經網絡計算出期望值與實際值之間的誤差后,每個粒子都將CNN網絡的濾波器大小、濾波器個數、激活函數、學習率、初始權重、初始偏置作為粒子維度。以卷積神經網絡訓練數據得到的測試誤差作為適應度函數值,經過粒子群迭代選取訓練過程最優模型即為最終測試模型。圖2為PSO優化CNN網絡結構及初始參數算法流程。

圖2 PSO-CNN算法流程

PSO優化CNN網絡結構和初始參數的融合算法過程如下:

(1) 初始化系統參數,如粒子群算法的迭代次數、學習因子、種群規模、每個粒子的位置向量及速度向量、常系數c1和c2、慣性權值、每個粒子個體極值與全局最優值及其他參數[15]。

(2) 設置卷積神經網絡需優化的超參數取值范圍,并作為各粒子維度的速度和位置的更新區間,其中粒子位置作為網絡參數取值。隨機生成包括位置和速度的種群粒子作為PSO粒子初始化。

(3) 將初始化粒子作為CNN網絡結構,根據式(3)和式(4)更新粒子速度和位置,通過訓練CNN得到CNN測試誤差作為粒子適應度函數值,如果得到的適應度值優于個體最佳值,則更新個體最佳值;若得到的粒子適應度值優于群體極值,則更新群體極值;若群體極值滿足閾值判定或者迭代次數結束,所得的群體極值即為所求最優的CNN網絡結構。否則,返回步驟(3)。

2.2 RF-PSO-CNN算法應用

本文依據CIDF(Common Intrusion Detection Framework)及IDWG(Intrusion Detection Working Group)兩個組織的入侵檢測系統設計標準[16]構建基于隨機森林與粒子群優化CNN結構的入侵檢測模型。該模型主要包括原始數據、數據規范化、PSO-CNN模塊、響應模塊4個模塊,其模型結構如圖3所示。

圖3 RF-PSO-CNN入侵檢測結構

PSO-CNN模塊主要分為PSO-CNN入侵檢測模型和PSO-CNN檢測代理兩部分,PSO-CNN入侵檢測模型部分功能為輸入規范化數據進行模型訓練得到最優分組檢測模型,PSO-CNN檢測代理部分功能為對數據進行分析并完成檢測階段的數據檢測與處理。

結合隨機森林(RF)的粒子群(PSO)優化CNN網絡結構和初始參數的融合算法構建入侵檢測模型過程如下:

(1) 原始數據:本實驗數據集采用KDD-CUP99入侵檢測數據集。

(2) 數據規范化:本文對原始數據集進行one-hot編碼后,使用隨機森林特征度量標準篩選顯著特征,以降低數據特征數和計算復雜度。并對選擇出的子特征數據集進行歸一化處理,以提高網絡訓練準確率。

(3) PSO-CNN模塊:CNN使用PSO優化后的最優參數及初始權重來進行訓練樣本并建造入侵檢測模型,使用規范化后的測試數據對最優模型分類器進行驗證分析。

(4) 響應模塊:本模塊主要用以接收PSO-CNN模塊的檢測結果,并對入侵行為進行響應。

3 實驗與分析說明

3.1 數據描述

本文采用KDD-CUP99中10%的網絡入侵檢測數據子集,該數據集的測試數據包含了一些未出現在訓練數據中的攻擊類型,使得檢測更具有現實性。整個數據子集中入侵行為細分為39類,又可分為遠程攻擊(R2L)、獲取根權限攻擊(U2R)、拒絕服務攻擊(DOS)、探測攻擊(Probe)四種類型。該數據集包含訓練樣本數494 021條,測試樣本數311 029條。實驗數據類別、數量見表1。

表1 實驗數據的類別與數量

3.2 數據預處理

KDD-CUP99數據集的每條記錄都有41維特征和1個被標注為正常或者異常的標簽特征。本文使用Python對數據進行預處理。具體步驟如下:

(1) 字符型特征數字化后才能輸入到模型,因此將41維特征中的服務類型特征轉化為70維能被計算機識別的二進制特征,協議類型特征轉換為3維二進制特征,狀態特征轉換為11維二進制特征。41維特征的數據集轉換為122維數據集。

(2) 將獨熱編碼后得到的122個數字特征,使用隨機森林進行特征重要性度量,獲取32維特征。

(3) 將篩選出的數值型特征進行歸一化,消除特征間的量綱影響,提升模型的收斂速度。使用式(6)將數據統一映射到[0,1]區間上。

(6)

式中:Mmax為特征數據中的最大值;Mmin為特征數據中最小值;y為要歸一化的特征數據。

3.3 隨機森林特征提取

隨機森林特征提取思想是由貝爾實驗室提出的一種特征度量方法,主要通過袋外數據誤差和基尼指數這兩個基本指標實現特征提取。具體到本文來講,獨熱編碼后的特征向量還包含大量冗余和無用特征,會造成模型性能變差。為了提取出強相關性特征,使用隨機森林進行特征提取處理。具體步驟:(1) 計算符號特征數字化后所得到的122維特征的重要性,并按降序排序;(2) 確定要剔除的比例,由于隨機森林的隨機性,每次大約產生25~35個顯著特征,所以本文每次選取前35個特征;(3) 重復9次度量,選取特征交集,最終獲取32維特征。

數據集經上述過程處理后,隨機森林算法將無代表性的特征剔除,所產生的子數據集在隨機森林群投票機制下,取得了不錯的特征相關性效果。綜上,隨機森林算法降低了特征維數,減少了特征間的冗余性,并且使得特征可以被自動提取。

3.4 實驗環境

為了驗證本文提出的結合RF降維的PSO優化CNN網絡結構的有效性,本文采用Linux系統,使用Python 3.6編寫以TensorFlow為后端的深度學習框架Keras,該框架邏輯清晰,可快速實現卷積神經網絡。

本文所述的粒子群算法和卷積神經網絡算法都需要配置一些參數,其中,粒子群算法相關參數見表2,卷積神經網絡相關參數初始化范圍見表3。

表2 粒子群算法相關參數

表3 卷積神經網絡相關參數初始化范圍

本文使用卷積神經網絡進行訓練,其中卷積層數量為2層,卷積池化類型為Max-pooling,全連接層激活函數類型為Sigmoid,每一批次訓練的批量大小為1 024,迭代次數為10次。

3.5 實驗結果分析

首先在經RF預處理過的KDD-CUP99數據集下驗證根據人工經驗選取的卷積神經網絡參數在不同的組合方式下對CNN準確率的影響,結果如表4所示。其中:C1代表第一層卷積(30(5)代表30個5×5的卷積核);C2代表第二層卷積;Acti代表兩層卷積的激活函數;F-Acti代表全連接層的激活函數;α代表學習率;Acc代表準確率。

表4 人工選擇的CNN結構及其識別率

CNN1與CNN2僅全連接層激活函數F-Acti不同。在Epoch=1的情況下,CNN1的精確率為42.21%,CNN2的精確率為91.54%,準確率相差49.33百分點。CNN3和CNN4卷積層不同,同樣在Epoch=1的情況下,CNN3的精確率為90.91%,CNN4的精確率為92.25%,準確率相差1.34百分點。結合表4中CNN1-CNN4可知,全連接層的激活函數在使用ReLU時效果較差,卷積層中卷積核個數及大小對結果有一定的影響。綜上,人工經驗下選取參數對精確率有一定的影響。

其次為了確保本文方法與已有方法的對比實驗的完整有效性,本文實驗評價指標選擇多次實驗的平均值。并采用準確率、精確率、誤報率三項指標對算法模型進行評價。三項指標定義如下:

本文使用數據預處理后的KDD-CUP99數據集作為輸入數據,分別用于多種優化算法進行對比,仿真實驗結果如表5所示。表5中最后一行是未經過任何優化的CNN,且輸入數據為未經過隨機森林特征篩選的大維度數據集,測試準確率、檢測率較低。RF-CNN使用經過隨機森林降維后的數據集作為CNN的輸入數據。RF-PSO-BP用粒子群算法優化神經網絡,且使用隨機森林降維后的數據作為輸入數據。RF-PSO-SVM是基于隨機森林降維作為輸入數據的粒子群方法優化SVM參數。本文方法是結合RF降維的粒子群算法優化卷積神經網絡初始參數與網絡結構。

表5 實驗結果比較(%)

表5中,RF-CNN與CNN使用相同的網絡結構及初始參數,可以發現使用隨機森林降維的數據集作為輸入數據的CNN較使用傳統數據集的CNN在準確率、檢測率上有極大提升,在誤報率上有較大下降,說明使用隨機森林進行特征度量的重要性。RF-PSO-BP和RF-PSO-SVM與本文所提結合RF降維的PSO-CNN相比較,可以看出傳統機器學習融合群體智能算法存在入侵檢測準確率低的問題。RF-CNN的識別率在此次四個對比實驗中僅次于本文方法,但因其網絡結構參數為人工經驗選取,對其性能影響較大。本文方法使用群體智能算法PSO自動選取CNN最優網絡結構,測試準確率上升至94.07%。相比于其他四者在分類上均有較好的效果;同時檢測率上升至92.95%,誤報率下降至1.26%。由此可知,與傳統卷積神經網絡及PSO融合傳統機器學習相比較本文方法有較好的性能提升。

此外,使用本文方法與目前比較流行集成學習常用方法做性能對比,結果如圖4所示。其中:GBDT代表梯度提升決策樹算法(Gradient Boosting Decision Tree);XGBoost代表極端梯度提升(Extreme Gradient Boosting)方法。由于這里使用的四種集成學習方法用到的都是基于樹的算法,所以不需要進行標準化、歸一化、正則化。

圖4 不同方法對比

4 結 語

針對傳統卷積神經網絡及PSO融合傳統機器學習在入侵檢測中的不足,本文提出結合RF降維的PSO優化CNN網絡結構的入侵檢測方法,將PSO的全局尋優特點與CNN提取特征的局部相關性能力融合起來。通過在KDD-CUP99數據集上的仿真實驗證明:本文算法消除了在人工經驗下選取參數的不確定性,實現了在非經驗指導下選擇最佳CNN結構,提高了入侵檢測的準確率和精確率,并降低了誤報率,為未來入侵檢測系統的研究提供了新的思路和方法。

猜你喜歡
特征檢測
抓住特征巧觀察
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 亚洲女同欧美在线| 亚洲v日韩v欧美在线观看| 青草免费在线观看| 精品国产黑色丝袜高跟鞋| 亚洲精品图区| 午夜视频日本| 国产综合在线观看视频| 无码一区18禁| 青青草原国产| 久久人人97超碰人人澡爱香蕉| 美女免费黄网站| 国产在线观看91精品亚瑟| 女人av社区男人的天堂| 女人18一级毛片免费观看| 久久先锋资源| 四虎国产永久在线观看| 国产欧美网站| a级毛片免费看| 狠狠干欧美| 久久综合九色综合97婷婷| 日本爱爱精品一区二区| 亚洲中文字幕无码爆乳| a级毛片免费网站| 国产精品私拍99pans大尺度| 国产精品亚洲一区二区三区z| jizz在线免费播放| 亚洲丝袜中文字幕| 国产呦视频免费视频在线观看| 久久中文字幕av不卡一区二区| 成人欧美日韩| 特级精品毛片免费观看| 免费观看精品视频999| 五月天在线网站| 思思热精品在线8| 久久国语对白| 自偷自拍三级全三级视频| 欧美成人手机在线视频| 国产无码精品在线播放| 在线看片中文字幕| 精品色综合| 四虎免费视频网站| 国产精品真实对白精彩久久| 国产欧美网站| 亚洲天堂2014| 欧美啪啪网| 亚洲女同欧美在线| 国产噜噜噜| 亚洲精品成人福利在线电影| 久久人午夜亚洲精品无码区| 狠狠久久综合伊人不卡| 亚洲人成人无码www| 亚洲黄色片免费看| 国产欧美在线视频免费| 欧洲欧美人成免费全部视频 | 国产爽妇精品| 亚洲精品777| 玖玖免费视频在线观看| 无码aaa视频| 青草国产在线视频| 成人自拍视频在线观看| 色婷婷在线播放| 国产爽歪歪免费视频在线观看 | 亚洲第一色视频| 国产成人一区| 成人无码一区二区三区视频在线观看| 欧美色伊人| 在线永久免费观看的毛片| 亚洲视频无码| 日本手机在线视频| 国内精自线i品一区202| 熟妇丰满人妻| 成人综合网址| 日本成人不卡视频| 在线高清亚洲精品二区| 欧美一区二区丝袜高跟鞋| 热99re99首页精品亚洲五月天| 国产美女免费网站| 国产成人91精品| 久久美女精品| 久久香蕉国产线看观看精品蕉| 免费无码网站| 毛片基地美国正在播放亚洲 |