饒 廣
(內江職業技術學院信息與電子學院,四川 內江 641100)
目前,工業控制網絡應用范圍逐漸擴大,在3D模擬、數控機床工作以及數據傳感等領域呈現多樣化發展趨勢。隨著工控網絡處理數據量的不斷上升,與網絡搭載的多種平臺均離不開云計算和大數據技術。這兩種技術作為數據處理的核心和前提,具備較強的數據轉換、數據模擬以及數據分類等能力。由于云計算異構工業控制網絡中存在多種結構類型數據,并且多源節點之間的工作環境和負荷要求均不相同,導致網絡中容易出現泄漏和故障點。這會造成網絡入侵現象,從而影響網絡整體運行的穩定性和安全性。根據工業控制網絡的環境和運行特點對多源目標進行入侵自動識別,可改善工業網絡運行環境。
結合目前研究現狀,多位研究者給出了相關入侵目標解決策略。文獻[1]提出1種基于主動學習的工業互聯網入侵識別檢測方法。該方法建立主動學習系統,通過系統提取工業網絡相關節點數據并將數據引入學習查詢策略中,從而通過入侵網絡參數查詢完成入侵識別。由于多源工業網絡中存在多種干擾因素,該方法只考慮了單一入侵種類的識別,導致識別方法限制過多、誤差較大。文獻[2]采用1種融合動態貝葉斯網絡(dynamic Bayesian network,DBN)和雙向長短期記憶(bidirectional long short-term memory,BiLSTM)的工業互聯網入侵識別方法。該方法首先采集互聯網數據進行預處理,然后根據非線性特征和信賴數據提取各節點特征,接著建立BiLSTM分類器進行分類處理,最后通過閾值比對的方式完成識別。該方法沒有劃分入侵目標特征,導致逐步比對的整體耗用較高、實際應用效果較差。文獻[3]提出1種基于特征選擇的工業互聯網入侵檢測分類方法。該方法首先預處理數據集,利用皮爾遜相關系數評估特征之間的相關性,以確定最佳閾值;然后利用機器學習和深度學習進行二分類和多分類試驗,并進行全面評估。該方法的有效性在真實的工業互聯網實踐中得以驗證。文獻[4]提出1種無需依賴于協議和特定領域的工業入侵檢測方法。該方法不限于特定的領域或協議,可以在受限的區域執行。但是該方法在面對多種網絡攻擊環境時不能完成精準識別。
異構工業控制網絡多源目標特征不斷變化,且特征具有起伏性,導致入侵識別精準度較低。針對該問題,本文提出1種云計算下的異構工業控制網絡多源目標入侵自動識別方法。該方法通過設定歸一化入侵特征空間,將所有網絡數據轉換到該空間內,并根據最大值和最小值對超出范圍的數據進行歸一化處理。在入侵特征提取方面,該方法選擇時域矩陣偏度特征、峰度特征和包絡起伏度特征作為不同類別的入侵特征。針對工控網絡,該方法計算3種特征數據的大小。基于這些特征表現參數,該方法將入侵數據樣本轉換為聚類中心值,并計算待識別目標與聚類中心之間的歐氏距離。根據歐氏距離的大小,該方法可以自動識別入侵目標。本文方法專門考慮到了不同特征數據之間的表達差異,可根據不同數據特征給出不同的識別閾值,因而環境適應性較強、應用效果較好。
異構網絡和多源目標的特征種類較多,因而受環境影響因素較大。為了改善異構數據對目標識別的混淆影響,需要提前采集網絡節點數據,并進行歸一化處理。數據歸一化處理的過程為:首先將工業控制網絡中的冗余數據全部剔除,然后按照屬性特征將數據映射到特定的高緯空間中,以便后續特征的提取和入侵目標的識別。
在多源目標入侵自動識別過程中,入侵特征目標識別是關鍵和重點環節。為提高識別對比范圍和精準度,本文分析幾種目前常見的目標類型,以便實現高精度的識別對比。
工業控制網絡多源入侵目標類型特征如表1所示。

表1 工業控制網絡多源入侵目標類型特征
根據表1,本文進行特征差異的歸一化處理。歸一化處理的目的是消除多源和異構數據之間的特征差距。本文設定歸一化后的樣本特征空間為[0,1]。
(1)
式中:f(x)為異構工業控制網絡中分布在[0,1]區間內的特征屬性值;xmax、xmin分別為屬性特征x的最大值和最小值。
完成歸一化處理后,本文提取網絡入侵信號特征參數。
在完成異構工業控制網絡數據歸一化處理基礎上對具有標識的節點進行特征提取,是實現入侵識別的重要基礎。本文給出時域偏度、時域峰度、包絡起伏度這3種入侵特征值類型。這3種類型涵蓋了異構工業控制網絡中的大部分入侵種類數據特征。本文將其作為特征提取的關鍵閾值,對不同類型數據進行特征提取。具體操作步驟如下。
①基于時域偏度的特征提取。
由于網絡存在自我保護機制,其中的不同數據的時域表達各不相同,導致時域變化差距較大[5]。本文設定工業控制網絡的時域波形偏度變動范圍,并對該范圍內的網絡節點進行特征提取。工業網絡時域信號偏度值a′為:
(2)
式中:β為時域信號在觀測周期內的振動幅值,db;σ為信號在觀測周期內的振動標準差值,db;E為信號幅度均值,db;(x,y)、(x″,y″)分別為普通信號和時域信號[6],db。
②基于時域峰度的特征提取。
通常情況下,正常信號和干擾信號之間的信號峰值差距較大,陡峭程度和峰值大小之間存在關聯關系[7]。因此,在時域峰度特征提取過程中,需要對信號進行時域分離,從而得到普通信號和入侵信號之間的特征差異。在觀測周期f內,各信號之間的工業網絡時域信號峰度b′為:
(3)
式中:β″為時域峰值信號在觀測周期內的振動幅值,db;σ′為時域峰值信號在觀測周期內的振動標準差值,db;E″為時域峰值信號的幅度均值,db。
③基于包絡起伏度的特征提取。
基于異構工業控制網絡中干擾信號的走勢,本文根據信號的波動程度觀測周圍信號的峰值變化程度。由此可得網絡中全部信號的包絡起伏度特征Y1。
(4)
式中:R為包絡起伏度。
本文按照式(4)提取具備時域偏度、時域峰度以及包絡起伏度特征標記的信號值,并以此作為后續信號特征峰分離的依據[8],從而實現入侵自動識別。
得到上述信號特征值后,本文利用卷積神經網絡進行信號特征分離[9]。用于信號特征分離的卷積神經網絡結構如圖1所示。

圖1 用于信號特征分離的卷積神經網絡結構
根據網絡入侵信號特征參數提取結果,在云計算環境下,由于異構工業控制網絡中的數據量和基數較大,入侵目標識別相對困難且會受一定影響。為保證自動目標識別的精準度和效率,本文以異構網絡和多源目標為切入點,對采集的數據特征進行統計與分類。本文建立入侵自動識別模型,通過特征分類完成自動識別。實現多源目標入侵自動識別方法的偽代碼如下。
Input:Data initialization,
Ouput:The results of SPEA2.
1x=(x1,x2,x3,…,xN)
2f(x)=1
3 disMatrix=CalDistancetoOthers(A);
4 EISE
Delete(second);
END IF
END WHILE
在上述偽代碼的基礎上,本文描述分類方法實施過程。
(5)
式中:δa、δb、δc、δd均為網絡中的原始特征數據;er為特征參數;e1為首位特征;D1、D2均為向量集合;c1、c2為不同位置的隸屬度系數[10];A1~A4為不同的聚類位置數據。
通過式(5)可得數據特征與聚類中心的歐氏距離,由此判定不同數據能否歸類到同一識別區域范圍內。特征之間的關系函數F(n)為:
F(n)=er×(A1+A2+A3+A4)
(6)
通過式(6)可判定出工業網絡中不同特征數據之間的相對關系。通過特征之間的對應關系,可以識別入侵目標,并統一處理相同特征,從而大幅降低識別時間、提高識別效率。
根據上述過程進行整合處理,即可確定入侵目標函數。本文設定識別的最大迭代條件,并根據閾值對比判定網路中是否出現異常或被入侵。識別過程如下。
①設i={ia,ib,ic,id}為工業網絡中采集到的原始數據值;i1~i4為網絡中的異常數據;{A,B,C,D}為聚類中心。其中:i1為迭代處理的最大基數數據;i4為迭代處理的最小基數數據。
②根據工業網絡現場實時數據更新{A,B,C,D}。
③對網絡中的異常數據i1~i4進行迭代比對處理。
④將數據i1~i4與聚類中心進行對比。
⑤按照式(7)完成入侵數據識別。
(7)
式中:Sx為入侵判定閾值。
當Sx 為確保試驗的有效性,本文選取了來自美國某大學的工業網絡數據庫作為試驗數據集。該數據庫具備一定的標準性和公正性。其中包含眾多種類的數據,且數據規模較大,能夠滿足試驗高質量需求。每條數據均以X=(x1,x2,…,xn,yn)的形式進行儲存。其中:xn為測試數據的特征值;yn為該數據在網絡中的標簽屬性值。測試數據集中包含32個特征屬性以及1個決策屬性值。由于數據特征之間具有離散性,需要在識別前進行預處理。試驗所使用的數據集相關參數如下:傳輸數據的速率為54 Mbit/s,實際吞吐量為25 B/s。工作制式采用正交頻分復用(orthogonal frequency division multiplexing,OFDM)模式。射頻波段為5 GHz。這些參數與無線通信系統中的通信協議和頻率相關。傳輸數據的頻率范圍頻寬設置為20 MHz,帶寬設置為5 MHz。試驗數據集中的數據量大小空間流量設置為 8 GB/s,網絡節點為32個。 為有效驗證入侵自動識別方法的有效性,本文使用識別率和召回率這2個指標進行分析。在測試環境中,本文選擇2個測試樣本集(即5 000個數據量和20 000個數據量)進行測試,并與文獻[1]基于主動學習的工業互聯網入侵檢測方法、文獻[2]融合DBN和BiLSTM的工業互聯網入侵檢測方法進行對比。在測試過程中,識別率和召回率的計算式如下。 ①識別率JC為: (8) 式中:TP為被模型檢測為正的正樣本數,個;TN為被模型檢測為負的負樣本數,個;FP為被模型檢測為正的負樣本數,個;FN為被模型檢測為負的正樣本數,個。 ②召回率CH為: (9) 試驗給出了normal、probe、r2l以及dos這4種網絡攻擊類別,其中包含黑客、入侵、篡改、木馬以及其他。normal作為普通攻擊手段,主要通過篡改進行入侵。probe為探測攻擊,通過查找網絡薄弱點進行入侵。r2l為時間流量攻擊,針對時間節點進行入侵。dos為黑客攻擊,通過輸入病毒造成網絡癱瘓。不同方法入侵自動識別率對比結果(5 000個數據量)如表2所示。 表2 不同方法入侵自動識別率對比結果(5 000個數據量) 不同方法入侵識別召回率對比結果(5 000個數據量)如圖2所示。 圖2 不同方法入侵識別召回率對比結果(5 000個數據量) 由表2、圖2可知,在5 000個數據量的測試環境下,3種方法的識別率和召回率差異不大。但通過細節對比可知,在多種攻擊類型下,本文方法的識別率和召回率略高于其他2種方法。其原因是本文方法利用特征之間的關系函數判定出工業網絡中不同特征數據之間的相對關系,并通過該關系進行入侵目標識別。在識別過程中統一處理相同特征的數據,一定程度上有利于提高識別率和召回率。由此可知,本文方法的識別精準度和效率更高。 不同方法入侵自動識別率對比結果(20 000個數據量)如表3所示。 表3 不同方法入侵自動識別率對比結果(20 000個數據量) 不同方法入侵識別召回率對比結果(20 000個數據量)如圖3所示。 圖3 不同方法入侵識別召回率對比結果(20 000個數據量) 由表3、圖3可知,在20 000個數據量下,3種方法的識別結果存在較大差距。其中,識別率和召回率依舊是本文方法最高。在大部分攻擊類型中,本文方法均能保證較好且穩定的識別結果、保證識別精準度和效率不受環境中其他因素影響,從而在短時間內完成精準的入侵自動識別。其原因是本文方法以異構網絡和多源目標為切入點采集網絡數據,對采集的數據進行統計與分類,以建立入侵自動識別模型。通過行為特征完成自動識別,可大幅降低識別時間、提高識別精準度和效率。 工業控制網絡運行安全是實現網絡在更多領域得到廣泛應用的重要基礎。本文根據工業網絡運行特點,提出1種異構工業控制網絡多源目標入侵自動識別方法。該方法結合當下異構網絡環境特點,采用歸一化數據管理,經過處理可大幅提升后續自動識別的效率并降低誤差。識別方法以網絡信號入侵矩陣峰值、偏度以及包絡度為對比指標,通過計算各節點與入侵聚類中心之間的距離來判定識別結果。試驗數據也證明了本文識別方法具備一定的有效性。在5 000個數據量環境和20 000個數據量環境下,本文方法的識別率和召回率更高。4 性能測試
4.1 測試數據集
4.2 識別率和召回率對比結果




5 結論