999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征提取的工業控制系統入侵檢測研究

2021-12-02 06:33:26曲金帥劉譯文李鴻
關鍵詞:特征檢測模型

倪 旻,曲金帥,范 菁,劉譯文,李鴻,邱 陽

(1.云南民族大學 電氣信息工程學院,云南 昆明 650504;2.云南民族大學 云南省高校信息與通信安全災備重點實驗室, 云南 昆明 650504;3.云南民族大學 云南省高校無線傳感器網絡重點實驗室,云南 昆明 650504;4.云南民族大學 社會學院,云南 昆明 650504)

自第1次工業革命以后,工業控制系統(industrial control system,ICS)對于國家的建設起到至關重要的作用,包括石油、化工、電力、制造業等.隨著信息技術的發展[1],越來越多ICS連接到外網,使得ICS容易受到入侵的威脅.

入侵檢測系統(intrusion detection system,IDS)是通過監控和分析網絡活動來檢測網絡異常最重要的安全機制之一[2].目前,IDS在工業網絡中的應用越來越受到重視.與機器學習等領域相關的入侵檢測技術正成為研究熱點,歸根結底就是模式識別中的分類.許多專家也提出了一些有效的工控入侵檢測方法.陳萬志等[3]利用白名單可以設置連續特征的特征范圍和常見特征,神經網絡則用于檢測特征不完備或多特征異常情況,體現了入侵檢測的有效性.於幫兵等[4]使用長短時記憶網絡(LSTM)避免了梯度消失和記憶能力不足等問題,將SMOTE算法運用于少數類樣本的采樣,數據不平衡的問題迎刃而解,實現了對ICS良好的入侵檢測.石樂義等[5]采用了相關信息熵,使其起到特征選擇的作用,達到去除噪聲,并針對不平衡樣本采用Borderlines-SMOTE進行處理,同時在空間和時間維度上,CNN-BiLSTM模型提取數據特征,保證了良好的檢測效果.Süzen等[6]提出了混合深度信念網絡模型,即將低級特征結合起來,從少量特征中學習關鍵特征,這可以產生更好的分類性能.綜上所述,現在研究者更多傾向于將機器學習算法引入到工控入侵檢測領域,并取得了很好的效果,但是仍存在一些問題:例如在解決不平衡數據集上,所采用的方法沒有考慮到不同少數類樣本的分布情況;又如利用DBN可以提升入侵檢測水平,但DBN隱含層的節點數量不容易確定,需要增加訓練次數與手動調節次數,從而影響整個系統的網絡訓練過程等.

針對以上問題,提出了一種基于特征提取的ADASYN-PSO-DBN的工控入侵檢測方法.

1 工業控制系統入侵檢測模型

1.1 ADASYN

由于原始工控標準數據集中存在嚴重的不平衡性,僅正常事件就占據了總樣本的63%.此外,部分類別的攻擊事件中所占比例極低,這會導致ICS的大量正常事件會掩蓋攻擊事件,攻擊事件沒有得到正確和快速的識別,就會有更大的風險造成控制系統中斷、關鍵基礎設施破壞、經濟損失和負面環境影響.因此采用自適應合成采樣(ADASYN)方法來進行不平衡數據集的學習,ADASYN的基本思想是根據不同的少數類樣本的學習困難程度使用加權分布.ADASYN方法不僅可以減少由于原始數據分布不平衡而帶來的學習偏置,而且還可以自適應地轉移決策邊界集中在那些難以學習的樣本上[7].這里的目標有2個方面:減少偏置和自適應學習.提出兩分類問題的算法在ADASYN中得到了描述.

輸入:具有m個樣本{xi,yi},i=1,…,m的訓練數據集Dtr,其中xi是n維特征空間X中的一個實例,yi∈Y={1,-1}是與xi相關的類標識標簽.將ms和ml分別定義為少數類樣本的數量和多數類樣本的數量.因此ms≤ml并且ms+ml=m.

過程:

1) 計算類不平衡的程度:d=ms/ml.

(1)

其中d∈(0,1].

2) 如果d

a.計算少數類需要生成的合成數據樣本的數量:G=(mi-ms)×β,

(2)

其中β∈[0,1]是一個參數用于指定合成數據生成后所需的平衡水平.β=1表示在泛化過程后生成一個完全平衡的數據集;

b.對于每個樣本xi∈minorityclass,根據n維空間的歐氏距離求K個最近鄰,并計算其比率ri定義為:

ri=Δi/K,i=1,…,ms.

(3)

其中Δi是xi的K個最近鄰中屬于多數類的樣本數,因此ri∈[0,1];

(4)

e.對于每個少數類數據樣本xi來說,根據以下步驟生成gi合成數據樣本.

從1到gi的循環.

(i)從數據xi中的K個近鄰中隨機選擇一個少數數據樣本xzi.

(ii)生成合成數據樣本:

si=xi+(xzi-xi)×λ.

(5)

其中(xzi-xi)是n維空間中的向量之差,并且λ是一個隨機數:λ∈[0,1].

結束循環.

1.2 隨機森林

隨機森林(RF)是一種操作效率高、參數調整方便的集成學習bagging算法[8].決策樹一般具有二叉樹結構,是RF的基本模塊.每個非葉節點根據特定的規則被劃分為2個子節點,除非它是葉節點.類信息存儲在葉節點中,葉節點可用于訓練模型和斷定分類結果.

使用單一決策樹存在過擬合和精度方面的缺陷.RF算法可以使用由多個決策樹組成的分類器解決該問題[9].RF過程包括以下主要步驟:

1) 隨機森林決策樹的構建

a.為每個決策樹構建訓練數據集

從具有N個樣本的訓練數據集中提取n個樣本,構建一個決策樹的訓練數據子集.每棵決策樹在RF中都有相應的訓練數據集,如果RF中有ntree(樹的數量),則需要使用bootstrap抽樣方法建立相同數量的訓練數據子集.

b.將節點拆分成二叉樹結構

從訓練數據的M個變量中隨機選擇m(m

c.重復步驟a和b,直到構建出一個隨機的決策樹森林.

2)分類

建立隨機森林決策樹的過程會產生一系列的分類器.多個分類器可以產生不同的分類結果.對于輸入數據屬于哪個類,采用多數投票原則來做出最終決定.

當RF應用于特征選擇時,在每棵決策樹中計算每個特征的排列重要性得分.在其他特征不變的情況下,RF算法計算每棵決策樹的每個特征的排列重要性.排列重要性有3種值:正、負和零.隨機重排后,重要特征對應的排列重要性應為正值.差的特征分散在不同的樣本中,對應的排列重要性為負值.一個不相關的特征與樣本上的標簽沒有任何相關性,相應的排列重要性總是為零.排列重要度得分越高,表示該特征越重要.

1.3 遞歸特征消除

遞歸特征消除(RFE)是一種尋找最優變量子集的貪婪算法,其主要思想是反復建立一個模型,選擇最佳(或最差)變量.移除特定的變量,然后重復上述過程,直到遍歷所有剩余的變量.在這個過程中,變量是否被消除依據變量的重要性順序.RFE方法需要一個機器學習算法來構建分類器并評估預測器的重要性.本研究采用RF方法作為RFE模型的分類器.

在RFE模型中首先選擇的變量對后面選擇的特征有顯著的影響.由于RFE重采樣過程中的分割差異,應用RFE方法,選擇的變量是非唯一的結果.例如,第1個模型將包含所有輸入變量,第2個模型將只包含有限的輸入變量.針對上述問題,采用k-fold交叉驗證和和模擬方法為工業控制系統入侵檢測標準數據選擇合適的特征變量.在每個交叉驗證的RFE模型中,最優變量子集由最高的交叉驗證精度確定.

1.4 基于PSO的DBN工控入侵檢測模型優化

1.4.1 深度信念網絡

深度信念網絡(DBN)是Hinton等的開創性成果,具有良好的分類性能.然而,DBN的網絡結構一般是通過實踐經驗設定的.自2006年提出以來[11],它得到了廣泛的關注,并成功應用于語音識別和入侵檢測領域.從結構上看,DBN分為多個RBM與一層BP神經網絡,結構如圖1所示.

圖1 深度信念網絡結構

深度信念網絡的訓練步驟可以分為2步:

步驟1 逐層訓練RBM.隱含層向量可以通過映射下一層的每個可見層向量得到,然后將隱含層向量作為下一層的可見層向量輸入.根據可見層和隱含層之間的相關性,不斷更新每一層的權值,然后通過類比訓練多層RBM.在訓練過程中,將第一層的誤差按順序傳輸到RBM的最后一層.

步驟2 在最后一個RBM后加入一個BP神經網絡,以最后一個RBM的輸出向量作為其輸入向量.并將帶標簽的數據附加到該層,從上到下監督整個網絡,調整整個網絡的權值來微調深度信念網絡.

1.4.2 受限玻爾茲曼機

受限玻爾茲曼機(RBM)是DBN的重要組成部分,它廣泛用于數據分類、模式識別.它的第1層是可見層(v),其中包含大量可見單元,另一層是隱含層(h),其中包含大量隱含單元.RBM是一個無向圖模型[12],模型的同一層中的節點之間沒有連接,不同層之間相互連接,RBM結構如圖2所示,W代表可見層和隱含層之間的連接權重,以及所有可見層和隱含層之間都存在連接.而可見層單元不像隱含層那樣相互連接.

圖2 受限玻爾茲曼機結構

RBM是一種雙層隨機神經網絡,它包含一層表示數據的可見節點(υ1,υ2,…,υi,…,υm)和一層學習表示特征的隱藏節點(h1,h2,…,hj,…,hn),每個υi∈{0,1}和hj∈{0,1}.定義可見節點的偏置為(b1,b2,…,bi,…,bm),隱含節點的偏置為(c1,c2,…,cj,…,cn).聯合配置{υ,h}的能量函數E(υ,h)定義如下[13-14]:

(6)

訓練完一個RBM后,可以在第1個RBM的基礎上堆疊另一個RBM[15].第1個RBM中隱含單元的最終學習狀態被用作第2個RBM可見單元的輸入數據.因此,可以將多層RBM疊加,自動提取不同的特征,這些特征逐漸代表數據中更復雜的結構.在實踐中,將RBMs堆疊起來,用貪婪的分層無監督學習算法進行訓練.在訓練階段,每個添加的隱藏層都被訓練為RBM.

1.4.3 反向傳播神經網絡

反向傳播(BP)神經網絡是在預測任務中應用最廣泛的人工神經網絡模型之一.在DBN中,最后一層是BP神經網絡.接受最后一層RBM的輸出特征向量作為這一層的輸入特征向量[16],并監督整個網絡結構是BP神經網絡在DBN中的主要任務.

在DBN中BP算法的微調權值如下.

輸入 訓練樣本xi(i=1,2,…,m).

初始化 從RBM的預訓練中獲取模型參數并初始化θ={wij,ai,bj},迭代數為k.

輸出 微調權重后的模型參數為θ={wij,ai,bj}.

第1步 計算每個訓練樣本xi,實際輸出yi.

第2步 對于每個輸出單元k,計算實際輸出和理想輸出之間的誤差梯度:

δk←yk(1-yk)(xk-yk) .

(7)

(8)

第4步 計算每個網絡模型參數:

θij=θij+Δθij.

(9)

式中:θij=ηyjδj,η為學習率.

第5步 存模型參數,確定是否達到迭代次數,或者轉到第1步.

1.4.4 粒子群優化算法

通過探索鳥類群體覓食行為,衍生出了粒子群優化算法(PSO).粒子是對鳥類的模擬.每個粒子都可以看作是n維搜索空間中的一個搜索個體,每個粒子的當前位置是這個問題的候選解決方案[17].每個粒子都有兩個屬性:速度和位置.速度表示移動的步長,位置表示移動的方向.將每個粒子找到的最優解作為個體最優解,將所有粒子的最優解作為全局最優解.通過多次這樣的迭代,速度和位置不斷更新,當滿足終止條件時,迭代將退出.

PSO的過程可以描述如下:

1) 隨機初始化搜索空間中粒子的速度和位置.

2) 定義適應度函數.每個粒子都有自己的最優解,對應于一個適應度值,而全局最優解則由這些最優解生成.每次迭代比較當前的全局最優值與歷史的全局最優值,比較的結果將決定是否更新全局最優值.

3) 每個粒子的速度和位置的更新表示為:

Vid=ωVid+C1random(0,1)(Pid-Xid)+C2random(0,1)(Pgd-Xid),

(10)

Xid=Xid+Vid.

(11)

其中C1和C2是個體和群體學習因子,Pid是第i個粒子個體最優的第d維,Pgd是全局最優的第d維,ω為慣性權重,其線性衰減策略可表示為:

(12)

其中iter是最大迭代次數,iteri是當前迭代次數,ωmax和ωmin分別是ω的最大值和最小值.

1.4.5 PSO算法優化DBN模型

DBN的運行過程是先通過RBM進行預訓練,經過隱含層后通過重構誤差對網絡參數用BP神經網絡進行微調,從而得到網絡的整體結構,當準確率較高且返回誤差穩定在較小值時,代表著當前DBN結構較好.因為在建立DBN模型時不能完全確認其隱含層的節點數,所以有必要增加訓練次數,并手動調整網絡節點數,以避免在訓練過程中出現網絡性能損失的問題,本文在DBN模型構建后利用PSO算法優化DBN的隱含層層數以及節點數,獲得最優的DBN結構,得到最高的準確率.

PSO算法優化DBN模型的步驟如下:

1) 構建一個DBN入侵檢測模型并初始化網絡參數,即確定網絡中隱含層的層數和每層的節點數;

2) 初始化粒子群各參數,包括學習因子C1和C2、最大迭代次數iter、慣性權重ωmax和ωmin,同時規定粒子速度和位置的范圍.在該范圍內隨機初始化種群中粒子的速度向量和位置向量.將DBN網絡的各層間的連接權重映射到粒子的各維度;

3) 確定適應度函數,使用準確率(Accuracy)作為各個粒子的適應度函數值,求出個體極值Pid和群體極值Pgd;

4) 比較各粒子的適應度值與自身個體極值Pid的大小.若粒子當前的適應度大于個體極值Pid,則將其賦給個體極值Pid,反之保持Pid不變.設定DBN模型的隱含層節點數,對其進行訓練并評估,判斷準確率是否為最大值;

5) 比較群體中所有粒子的Pid與群體極值Pgd,若存在Pid優于群體極值Pgd,則將其賦給群體極值Pgd,反之保持Pgd不變;

6) 根據式(10)、(11)更新各粒子的速度和位置;

7) 確定迭代是否結束.當達到設置的最大迭代次數,或者群體極值的變化量足夠小時,迭代結束.否則,返回步驟3;

8) 如果準確率增加到一定程度則滿足最優解條件,將最終求得的隱含層節點數作為DBN模型的初始訓練參數并近似確定DBN網絡結構,直至達到DBN結束訓練的要求,DBN網絡建模完成.

整個流程如圖3所示.

圖3 PSO優化DBN模型訓練過程

2 實驗與結果

2.1 工控入侵檢測數據集與預處理

文中使用的是托馬斯·莫里斯與他的研究團隊于2014年在密西西比州立大學關鍵基礎設施保護中心(MSU)從實驗室環境中用串行端口數據記錄器捕獲的網絡流量記錄生成的工控標準數據集[18],數據源于天然氣管道ICS網絡層,該數據總量為97019,并進行了數值化處理.數據以X=(x1,x2,…,xn,y)的方式存儲,其中x1,x2,…,xn為每條數據的特征,y為每條數據的類別標簽.本文所用數據集中的每條數據包含26個屬性與1個類別標簽.數據類別和相應標簽值如表1所示.

表1 攻擊形式及仿真分類標簽

2.2 仿真平臺設置和評價指標

為了驗證ADASYN-PSO-DBN在工控入侵檢測中的有效性,隨機抽取了原始數據中的 10 000 條數據,選取 8 000 條用于訓練,2 000 條用于測試,采用5折交叉驗證,其訓練數據與測試數據分布如圖4所示.所采用的實驗平臺:Inter Core i5-5200U CPU 2.20GHz,4G內存,Anaconda3 Spyder.PSO算法初始參數設置為:種群大小為20,最大迭代次數為20,ω=0.5,C1=0.5,C2=0.5.

圖4 不同類型的數據分布

文中為了評估模型的性能,評價指標為以下6種:準確率(accuracy)、檢測率(DR)、精確率(precision)、召回率(recall)、誤報率(FAR)、運行時間.

(13)

(14)

(15)

(16)

(17)

其中TP是被正確歸類為攻擊的攻擊數據,TN是被正確分類為正常的正常數據,FP是被錯誤歸類為攻擊的正常數據,FN是被錯誤歸類為正常的攻擊數據.

2.3 實驗過程與結果分析

實驗的軟件環境是基于TensorFlow的Keras深度學習配置.實驗過程中,用DBN訓練數據集,因此對模型的部分參數進行了設置,如表2所示.

表2 DBN實驗參數

為了驗證工控入侵檢測模型的有效性,本文進行了多組實驗,包括采用ADASYN合成少數類前后的效果對比;采用基于隨機森林(RF)的特征提取;以及通過PSO優化得到的DBN最佳隱含層層數以及節點數,并用該DBN模型進行對比;記錄每次所得結果,將所有評價指標匯總并取均值,實驗共進行10次.

2.3.1 ADASYN合成少數類前后效果對比

由于數據存在不平衡的問題,將經過處理前后的數據集在PSO-DBN模型上進行驗證.實驗結果表明,經過ADASYN處理的數據集有效提高了各類型數據檢測率,雖然NMRI檢測結果有所降低,但是幾乎提升了整體的性能,結果如圖5所示.

圖5 ADASYN處理前后的效果對比

2.3.2 基于隨機森林與遞歸特征消除的特征選擇

本文采用基于隨機森林(RF)與遞歸特征消除(RFE)的方法對數據進行特征選擇,因為所用的數據集自然包含一些不相關且有噪聲的特征,這些特征會降低算法的有效性,導致檢測性能較差,所以先應用RF對數據集中26個特征進行特征重要性排序,排序結果如圖6所示,由此通過特征排序可以清晰發現特征的冗余,進而進行下一步的特征選擇.

圖6 特征重要性排序

根據以上的特征重要性排序,應當選取特征個數為15,以上更為重要的15個特征需要經過RFE方法進行選擇,特征選擇前后的入侵檢測性能對比如表3所示,可以看出檢測的準確率明顯提高,平均運行時間降低.

表3 特征選擇前后的實驗結果

2.3.3 經過預處理后的PSO-DBN工控入侵檢測模型優化

設定好初始化參數后針對DBN隱含層層數是影響入侵檢測效果的重要因素,實驗對1~6個隱含層的DBN網絡結構進行尋優,并進行準確率和檢測率對比,最終得到最佳的隱含層層數以及每層的節點個數,如表4所示.

表4 不同結構對應的準確率和檢測率

實驗結果表明,隨著DBN網絡層數的增加,綜合準確率與檢測率都有所提升,DBN的最佳網絡結構是26-110-63-31-8,綜合準確率達到95.62%,檢測率達到93.68%,但在逐步增加隱含層的情況下,準確率和檢測率開始呈現下降趨勢.在優化了DBN網絡隱含層層數與節點數后,將最終模型的檢測結果與其他基準入侵檢測模型進行比較,這樣更體現了該模型的優勢.各個基準入侵檢測模型的參數設置如表5所示.另外,為了保證實驗的公平性,在同一環境下,對每種常用方法進行多次實驗,對比結果如表6所示.

表5 各基準模型的參數設置

從表6可以看出,本文模型的分類準確率、精度以及召回率最高,達到95.62%、96.27%、93.68%,雖然本文模型高于長短時記憶網絡(LSTM)的FAR,但是整體檢測效果好于后者.綜合各個指標發現,基于ADASYN-PSO-DBN構建的工控入侵檢測模型具有良好的檢測效果.

2.3.4 各攻擊類型數據檢測效果分析

在工控入侵檢測標準數據集中,有著1種正常運行數據和4種攻擊類別,4種攻擊類別細化為7種攻擊形式.各模型識別8種類型的數據,檢測率如圖7所示.

從圖7可以看出,ADASYN-PSO-DBN對每種類型的數據都具有較高的檢測率,在識別MSCI、DoS、RECO上更為凸顯.ADASYN-PSO-DBN與其他模型相比,整體在Normal、CMRI、MPCI、RECO類別的數據檢測率較高,都在90%以上,尤其是在RECO攻擊的分類識別上,各模型的檢測率都接近100%,但是在識別NMRI上,識別檢測率最高的只在50%以下.

3 結語

為了解決不平衡、高維、非線性數據的入侵檢測問題,本文提出了基于特征提取的ADASYN-PSO-DBN的工控入侵檢測模型.通過ADASYN處理技術,對少數類樣本進行過采樣,在一定程度上解決了分類器傾向于多數類樣本的問題.采用隨機森林和遞歸特征消除方法進行數據特征提取和特征降維,達到去除冗余特征,加快檢測效率.經過處理后,建立了PSO-DBN模型,利用PSO算法對DBN隱含層層數以及節點數全局尋優,從而增加DBN模型的入侵檢測效果.仿真結果表明,與多種常用的入侵檢測方法相比,該模型基本上在各攻擊類型的檢測上均具有較高的準確率.雖然該模型具有良好的檢測能力,但是在識別NMRI時的檢測效果需要進一步優化,這是下一步的工作.

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品永久不卡免费视频| 亚洲色大成网站www国产| 久久综合激情网| 97在线观看视频免费| 欧美亚洲一区二区三区导航| 毛片在线看网站| 热伊人99re久久精品最新地| 国产欧美综合在线观看第七页| 人妻精品久久无码区| 免费在线观看av| 亚洲无码高清免费视频亚洲| 日韩a在线观看免费观看| 亚洲精品桃花岛av在线| 嫩草影院在线观看精品视频| 狠狠干欧美| 国产日韩欧美精品区性色| 99热这里只有精品国产99| 国产成人凹凸视频在线| 精品日韩亚洲欧美高清a| 国产清纯在线一区二区WWW| 亚洲人成网址| 免费a级毛片视频| 澳门av无码| 精品国产自在现线看久久| 国产特级毛片aaaaaa| 久久精品视频亚洲| 欧美视频在线第一页| 无码免费的亚洲视频| 欧美亚洲日韩中文| 91网址在线播放| 思思热精品在线8| 精品91在线| 久久久久国产精品熟女影院| 国产精品网址你懂的| 一区二区三区成人| 在线一级毛片| 亚洲一区二区黄色| 日韩小视频网站hq| 毛片在线播放a| 国产午夜精品一区二区三区软件| 91黄视频在线观看| 亚洲成人精品| 国产丝袜丝视频在线观看| 亚洲 欧美 偷自乱 图片| 国产精品内射视频| 好久久免费视频高清| 国产精品亚洲日韩AⅤ在线观看| 精品伊人久久久香线蕉| 欧美三级视频网站| 丁香六月激情综合| 毛片在线播放网址| 日本福利视频网站| 91无码视频在线观看| 久久久成年黄色视频| 国产福利微拍精品一区二区| 国产精品午夜福利麻豆| 无码内射在线| 久久婷婷国产综合尤物精品| 无遮挡国产高潮视频免费观看| 老司机久久精品视频| 天天综合网色| 国产91视频免费观看| 全裸无码专区| 亚洲精品午夜天堂网页| 亚洲AV无码一区二区三区牲色| 国产超薄肉色丝袜网站| 亚洲伦理一区二区| 亚洲不卡无码av中文字幕| 在线日本国产成人免费的| 国产精品亚洲一区二区三区z| 国产丰满大乳无码免费播放 | 国产av色站网站| 55夜色66夜色国产精品视频| 在线五月婷婷| 国产97视频在线| 国产乱人视频免费观看| 久综合日韩| 国产精品黄色片| 日韩欧美成人高清在线观看| 欧美精品在线视频观看 | 91精品情国产情侣高潮对白蜜| 国产第一色|