999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于長短期記憶網絡的工控網絡異常流量檢測①

2020-09-22 07:45:48田偉宏李喜旺司志堅
計算機系統應用 2020年9期
關鍵詞:特征檢測模型

田偉宏,李喜旺,司志堅,3

1(中國科學院大學,北京 100049)

2(中國科學院 沈陽計算技術研究所,沈陽 110168)

3(國網遼寧省電力有限公司,沈陽 110004)

在大力提倡“中國制造2025”,“工業4.0”的大背景下,我國工業得到了快速發展,并且隨著計算機技術在工控系統和工控網絡中的應用,逐漸打破了傳統工控系統和網絡的封閉性,由于大多數工控網絡協議在設計之初都沒有考慮到安全問題,使得工控系統的網絡安全面臨著嚴峻的考驗[1].例如2010年的“震網”病毒攻擊伊朗核設施,黑客滲透至工業內網后,利用工業控制系統的安全漏洞,改變相關設施的運行參數,降低濃縮鈾的成品濃度,最終使得伊朗核工業陷入停滯;2015年的“Blackenergy”病毒造成了烏克蘭的大面積停電;2018年俄羅斯黑客入侵美國電網;2019年委內瑞拉全國大面積停電.從這些工控網絡安全事件可以看出,黑客已經將觸角伸入到工業控制領域尤其是電網,并且癱瘓對方的基礎設施也成為了國與國之間的對抗手段,工控網絡已經成為了理想的攻擊目標.

1 工控網絡現狀

目前工控網絡的安全策略方法主要是邊界防護,包括使用網閘、工業防火墻、邏輯隔離等手段[2],其主要特點是偏防御輕檢測.如平臺硬件和軟件加固、關鍵應用代碼審計等;強調集中監控,依靠站內審計系統等.主要不足之處表現為缺乏縱深防御,一旦突破邊界防護便很容易進行進一步的侵入.

工業控制系統(Industrial Control System,ICS)中,電力行業應用最為廣泛,其中的變電站自動化約占整個ICS 市場的40%.目前智能電網正在逐步取代傳統的電力網絡,而智能變電站又是智能電網建設的重要環節,是結合了比較先進并且具有高可靠性的智能設備組成的智能化變電站,加強了變電站在無人值守、安全生產和遠程監控等方面的綜合管理水平.網絡和信息化技術的發展給電網的智能化提供了保障,然而更多的研究和應用側重于信息化引入新功能的實現,對信息化和網絡化背景下智能電網的安全性缺乏足夠的考慮,尤其是入侵檢測方面的安全[3,4].目前,建立有效的入侵檢測方案是一項巨大的知識工程任務,系統構建者依靠他們的直覺和經驗選擇異常檢測的統計度量標準.專家首先分析和分類工控網絡的攻擊場景和系統漏洞,并手動編寫相應的規則和模式用于檢測入侵.由于開發過程中的手動性和臨時性,這種入侵檢測方案具有有限的可擴展性和適應性,并且方案的更新既昂貴又緩慢.

隨著機器學習的熱度不斷上升,學術界在網絡異常檢測方面也提出過很多方法,大致分為兩種,分別是傳統的機器學習方法和近幾年廣泛使用的深度學習方法.傳統機器學習領域中,具有代表性的方法有基于有監督的例如SVM 的二分類方法[5]和無監督的例如KMeans 的聚類方法[6].有監督的方法例如SVM 在訓練模型時需要每個樣本都有標簽,用于區分樣本是否為攻擊行為,這種方法的局限性在于在工控網絡中很難得到攻擊類型完整的數據集;無監督的檢測方法以Kmeans 聚類算法為例,通過聚類算法來區分正常流量和異常流量.這種方法的局限性表現為模型的穩定性不夠好,依賴訓練數據集中正負樣本的均衡性.深度學習領域中具有代表性的方法有主題模型方法[7]和卷積神經網絡方法[8],主題模型方法將數據包視為文檔的詞匯,將網絡異常行為視為文檔的主題,通過流量數據包的語義關系識別主題進而識別出網絡異常,這種方法的局限性在于工控網絡應用領域廣泛,流量數據包即“詞匯”也在源源不斷的更新中,很難學習到完整的語料庫;卷積神經網絡方法將流量特征值映射為灰度圖,使卷積神經網絡學習大量的流量特征灰度圖,達到識別異常流量的目的,這種方法的優點是識別準確度高,但是由于需要大量的點積運算,所以識別效率并不高.考慮到工控網絡周期性強和流量數據包在時間維度上存在序列關系這兩個特性,所以本文提出基于時序預測的異常檢測模型.在機器學習領域中,周期性的數據天然適合做時序預測,并且當數據存在序列關系時,連接數據的時間動態關系都比每個時間幀的內容更重要.

本文以ICS 中的典型代表電力系統網絡作為研究對象,變電站自動化以及調度自動化使用IEC60870-5-104 遠動通信規約(Telecontrol equipment and systems-Part 5-104,IEC104)控制協議[9,10].通過對東北電力公司某子網的交換機進行端口鏡像,采集一段時間內的流量并進行104 規約的解析,統計檢測流量的特征,包括從物理層到傳輸層的TCP/IP 協議內容和應用層的應用規約控制信息(Applying Protocol Control Information,APCI)內容.數據集采集完成后,本文采用在時序預測領域使用最廣泛且模型效果不錯的長短時記憶網絡(Long-short Term Memory Network,LSTM)進行流量時序預測并檢測異常流量.LSTM 是一種改進之后的循環神經網絡(Recurrent Neural Network,RNN),可以解決RNN 無法處理長距離依賴的問題和訓練模型時梯度消失的問題.考慮到網絡流量的派生屬性中存在時間流量屬性和機器流量屬性,其中機器流量屬性是為了識別某種攻擊,例如探測漏洞行為,需要考慮之前的若干個連接,所以使用LSTM可以更加全面和精準的識別出由多個連續數據包發起攻擊引起的流量異常現象.

2 LSTM 網絡模型設計

工控網絡尤其是電力系統的網絡使用場景單一,在網絡安全運行的情況下,流量數據表現平穩,并且具有周期性,一旦網絡發生異常,流量就會產生較大的波動,具體表現為流量各個維度的數值相較于歷史數據發生突變,不再符合周期性的特點.基于工控網絡流量平穩和周期性強的特點,本文提出使用LSTM 網絡模型對工控網絡的流量數據進行時序預測[11-14],在網絡正常運行的情況下,可以認為模型的預測值為正常值,當某一時刻的實際值偏離預測值較大,即認為網絡出現異常.

2.1 異常流量檢測流程

檢測流程分為兩個階段,第一個階段是解析流量數據包構建有效特征,第二個階段是LSTM 網絡模型的離線訓練過程和在線檢測過程.第一階段在電力SCADA 系統中通過鏡像端口的方式采集通信流量,對采集到的數據包進行深度包解析,針對104 規約數據包,除了要解析常規的源地址、目的地址、源端口、目的端口、標志位和連接時間等基本信息,還要解析長度為6 個字節的APCI,里面包含了控制電路的操作信息.對解析到的字段進行整合并重新構造出模型輸入需要的特征,除了采集流量構造出的特征,構建時序模型還需要加入滯后歷史特征,即模型需要用多長時間的輸入去預測下一時刻的數值.第二階段在模型離線訓練完成后,即可部署線上環境,對電力通信網絡進行異常流量預測并實時報警.

2.2 特征構造

如圖1所示,第一階段包含從流量中提取特征,并構造有效特征兩部分,流量分為兩部分,第一部分是離線采集的流量,主要用于模型訓練,第二部分是源源不斷的在線流量.從流量中解析出同TCP/IP 協議一樣的字段和104 規約中的APCI 字段.解析字段分為3 類,第一類為9 個內部屬性,這些屬性是從網絡數據包的頭部中提取得到,例如連接的持續時間(duration),連接的協議類型(protocol_type),包含http、ftp、smtp 和telnet 等70 種網絡服務類型(service)等;第二類為內容屬性,這些屬性是從網絡數據包的內容區域中提取,例如從應用規約數據單元中提取的信息體、數據單元標識和104 規約報文變長幀中的APCI;第三類為派生屬性,這些屬性的計算考慮了之前的連接,細分為時間流量屬性和機器流量屬性,時間流量屬性考慮過去2 秒內發生的連接,例如到同一目標IP 地址的點擊總和(count),到同一目標端口號的連接總和(srv_count)等字段.對以上38 個字段構建時間統計特征,構建方法分為計數(count)、占比(percent)和均值(average),共構造出12 個有效特征.例如“相同主機”特征,檢查過去2 秒內與當前連接具有相同目標主機的連接,統計連接的數量,再計算與當前連接具有相同服務的連接百分比、不同服務的百分比、SYN (泛洪)的百分比以及REJ(拒絕連接)的百分比.對于諸如報文內部屬性中的網絡服務類型等的非數值型特征,需要對其進行獨熱編碼(one-hot)轉換為數值型特征用于模型的輸入.

圖1 異常流量檢測流程

2.3 模型訓練

圖2中的第二階段為模型訓練部分,分為離線訓練和在線檢測兩部分,離線訓練把構造好的特征輸入到初始化的LSTM 網絡中進行模型訓練,訓練好的預測模型輸入以相同方式構造的特征樣本進行異常流量檢測,如果模型檢測到網絡中的流量異常則發出警報.

3 LSTM 網絡結構和參數更新

3.1 網絡整體結構

LSTM 網絡結構由RNN 加入門控機制改進得到,RNN[15]能夠很好地處理不固定長度并且有序的輸入序列.RNN 前向傳播過程如圖3所示,網絡參數權重的更新不僅僅依賴每一時刻t樣 本輸入xt對參數w的調整,而且依賴t時刻之前計算并保存的隱含狀態ht-1對參數的調整.與傳統的RNN 相比,LSTM[16]本質上還是基于t時刻的輸入xt和t-1時刻的隱狀態ht-1來計算t時刻的輸出yt和t時刻的隱狀態ht.但是由于門控機制的加入,LSTM 網絡更適合處理長依賴問題,更加容易學習到工控網絡周期性的規律,并且容易識別由多個數據包共同作用引起的攻擊類型.

圖2 特征構造流程

圖3 RNN 前向傳播過程

本文提取數據包字段并構造了12 個有效的時間統計特征,網絡模型在t時刻的結構為一個簡單的前饋神經網絡,整體的網絡結構如圖4所示,有N個前饋神經網絡組成,不同時刻的前饋神經網絡通過隱藏層神經元傳遞依賴關系.每層的前饋神經網絡分為3 層,分別是包含12 個神經元節點的輸入層(Input Layer),含有64 個神經元節點的隱藏層(Hidden Layer),含有12 個神經元的輸出層(Output Layer),在訓練過程中,前N個時刻的流量數據包用于預測N+1 時刻的流量統計值,即前N個時刻為樣本特征,第N+1 個時刻為樣本標簽.

圖4 LSTM 神經網絡時間展開圖

3.2 參數更新過程

LSTM 網絡相比RNN 增加了存儲單元用來存儲長期記憶,增加了輸入門用來記憶t時刻的輸入信息,新來一個樣本,并不會完全學習記憶其中的特征,而是自動學習除其中有多少有用信息可以用于N+1 時刻的預測.遺忘門用來選擇性的忘記過去的某些信息,起控制內部信息的作用.輸出門起控制輸出信息的作用,3 個門控單元的加入讓LSTM 網絡在用梯度下降算法更新參數時不易于陷入梯度消失的問題,3 個門的邏輯結構如圖5所示.

圖5 LSTM 網絡門控機制

輸入門輸入15 分鐘以內180 個樣本的時間統計值,15 分鐘為滯后歷史特征數值,在訓練過程中是一個超參數,經過多組訓練實驗得到最優滯后歷史特征,對滯后歷史特征數值的選擇如表1所示,可以發現,當滯后歷史特征為15 分鐘時,模型在驗證集上的損失最低,表面用前15 分鐘的流量去預測下一時刻流量的時間統計特征最準確,本文以5 s 為最小單位,在預測流量時,預測下一時刻(5 s 內)的流量統計特性.網絡內部輸入門的計算過程為

其中,σ為Sigmoid 激活函數.遺忘門、輸出門和輸入門計算方式一樣,細胞狀態Ct用于長期記憶,更新過程為:

隱狀態ht用于短期記憶,更新過程為:

其中,ot為輸出門的輸出,tanh 為雙曲正切激活函數.

本文的隱藏層神經節點有960 個,網絡輸入的是一個三維向量[640,180,12],第一維batch_size 的含義是一次性將640 個樣本序列,輸入到網絡中進行訓練,使用梯度下降的方法完成一次誤差反向傳播和參數更新,第二維time_step 的含義是用前180 個樣本去預測下一時刻的流量值,第三維input_size 是單個樣本的維度.網絡的輸出是一個二維向量[640×180,12],第一維代表輸出(預測)的時刻流量值,第二維代表單個樣本的維度.網絡的輸出為數值型數據,所以損失函數采用均方誤差損失函數[17],定義為

其中,y為樣本標簽,y′為模型預測值,輸出值為1×12 的向量,圖6為網絡輸出層的數據流圖,隱藏輸出為輸出層的輸入,經過reshape 后和輸出層權重進行點積運算,加上偏置后得到115200 個樣本的預測值.

圖6 網絡輸出層數據流圖

4 實驗設計與結果分析

本文訓練模型所用的數據采集自東北電力公司某子網,利用C++庫函數libpcap 對數據包進行捕獲和深度解析,對捕獲到的數據包在時間維度上進行整合,對時間間隔為5 s (慢速攻擊標準)內的流量報文構造統計特征生成一個樣本,數據集的大小為4.26 GB,將數據集按照采集時間分為訓練集和驗證集,訓練集和數據集的比例為70%:30%,由于時間序列的原因,劃分數據集不能隨機打亂,而是按照采集流量的時間線,把前70%的數據包劃分為訓練集,后30%的數據包劃分為驗證集,供模型訓練和驗證其有效性[18].

4.1 模型訓練過程

模型訓練過程中,網絡參數可以由訓練得到,滯后歷史特征和隱藏層神經節點個數兩個超參數通過網格調參的方式選取最優組合,通過多輪訓練的結果,如表1所示,可以發現,最優組合為滯后歷史特征的值為15 分鐘,隱藏層的神經元節點數的值為960 個.模型每更新500 次參數后計算一次訓練誤差和驗證誤差,在迭代到第19 輪時,validation_loss (驗證誤差)達到最小,在最優組合的超參數下,模型在驗證集上的準確率可以達到97%,圖7為模型的validation_loss 下降過程,從圖7中可以看出,從第19 次迭代后,模型的validation_loss 不再下降.

圖7 訓練和驗證損失

4.2 實驗結果對比

表2列舉出了多種主流算法對工控網絡異常流量的識別率、誤報率和識別效率,可以發現,本文算法在識別率和識別效率均優于半監督的K-means 算法、單類支持向量機(One Class Support Vector Machine,OCSVM)和BP 神經網絡,相比卷積神經網絡方法,本文算法誤報率稍高,但是識別效率卻快了幾倍.總體而言,本文算法結合工控網絡周期性強和流量報文具有時序的特點,使用LSTM 模型取得了較好的效果.

表2 各類算法測試結果對比

5 總結

本文以工控網絡中的電力系統網絡為研究對象,使用LSTM 算法識別工控網絡流量異常,結合工控網絡場景相較單一和周期性的特點,采集流量后對解析的數據包字段解析重構時間統計特征,采用時序預測的方式識別流量異常,通過實驗可以發現,能有效識別出異于正常情況的網絡波動,由于提前預測出正常流量的特征值,算法在異常流量的識別效率上優于傳統識別方法,有利于技術人員盡早發現異常做出相應的安全防護措施,提高工控網絡在入侵檢測方面的安全性.本文提出的時序預測模型雖然在識別準確率和識別效率相較其它算法有所提升,但是時序預測模型要求流量數據具有周期性這一特點,并且模型的最終效果非常依賴訓練前期的特征構造,目前特征構造中使用計數、百分比和均值統計指標,后續為了進一步提高模型的識別率,降低模型的誤報率,會在特征構造中加入其它的統計指標.

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 一级毛片在线播放| 国产午夜无码专区喷水| a级毛片免费网站| 久久久久人妻一区精品| 久久精品人人做人人| 日韩在线永久免费播放| 亚洲综合久久成人AV| 91香蕉视频下载网站| 国产Av无码精品色午夜| 2019年国产精品自拍不卡| 国内精品视频| 本亚洲精品网站| 欧美视频在线不卡| 无码啪啪精品天堂浪潮av| 久久一本精品久久久ー99| 无码啪啪精品天堂浪潮av| 亚洲日韩第九十九页| 国产精品午夜福利麻豆| 国产欧美中文字幕| 99ri精品视频在线观看播放| 免费看美女自慰的网站| 国外欧美一区另类中文字幕| 色窝窝免费一区二区三区| 国内精品小视频在线| 成人午夜视频在线| 欧美日韩国产在线人| 欧美日韩成人| 久久久久国色AV免费观看性色| 欧美人在线一区二区三区| 亚洲午夜国产精品无卡| 国产91九色在线播放| 亚洲欧洲自拍拍偷午夜色| 国产成人AV综合久久| 91黄色在线观看| 久久99精品久久久久久不卡| 福利片91| 日韩天堂视频| 国产 在线视频无码| 亚洲视频黄| 国产中文在线亚洲精品官网| 国产玖玖玖精品视频| 欧洲亚洲一区| 日本人妻丰满熟妇区| 亚洲国产欧洲精品路线久久| 亚洲天堂网在线播放| 成人av专区精品无码国产| 亚洲无限乱码一二三四区| 天堂岛国av无码免费无禁网站| 老司机久久99久久精品播放| 免费高清毛片| 国产精品亚洲va在线观看| 成人国产一区二区三区| 亚洲欧美综合精品久久成人网| 久久久久久久蜜桃| 全部免费毛片免费播放| 国产农村妇女精品一二区| 欧美成一级| 激情综合网址| 精品亚洲欧美中文字幕在线看| 久久久久国产一级毛片高清板| 亚洲成人精品在线| 欧美日韩在线国产| 国产视频欧美| 亚洲第七页| 日本亚洲国产一区二区三区| 国产呦精品一区二区三区下载| 亚洲天堂成人| 国产精品女人呻吟在线观看| 国产尤物视频网址导航| 久久不卡精品| 在线色综合| 亚洲无码熟妇人妻AV在线| 精品国产免费第一区二区三区日韩| 亚洲性影院| 亚洲色图在线观看| 久久久久亚洲精品成人网| 亚洲国产成人自拍| 欧洲成人在线观看| 99久久亚洲综合精品TS| 欧美成人在线免费| 97久久精品人人| 无码电影在线观看|