李俊 張格 蘭海燕 朱小東



摘 ? 要:隨著信息化及工業化的不斷融合發展、開放通信協議的引入、智能終端設備的發展,工控系統網絡環境由最初的封閉隔離環境變得與外部的連通性不斷增強,導致工控系統的安全風險變得更加復雜多變。異常檢測技術作為信息安全防護中重要的組成部分,可有效地發現在工控網絡中不符合預期行為模式的異常事件。考慮到時間作為工業流量中的本質特性,文章開展了基于時序分析的異常檢測算法研究,提出了一種基于Top-k的矩陣分布評估算法,實驗結果證實此評估算法可有效地檢測工控網絡環境下的異常事件。
關鍵詞:工業控制系統;異常檢測;時序分析;流量分析
中圖分類號: TP391 ? ? ? ? ?文獻標識碼:A
Abstract: With the continuous integration and development of informatization and industrialization, the introduction of open communication protocols, and the development of intelligent terminal equipment, the industrial control system has changed from closed and isolated environment to a continuous enhancing external connectivity environment. And it causes safety issues in industrial control systems more complex and changeable. As an important part of information security protection, anomaly detection technology can effectively find abnormal events that do not meet expected behavior patterns in industrial control networks. Considering time as an essential characteristic in industrial traffic, research on anomaly detection algorithms based on time series analysis was carried out, and a matrix distribution evaluation algorithm based on Top-k algorithms was proposed. Experimental results confirm that proposed algorithm can effectively detect abnormal event in industrial control network.
Key words: industrial control system; anomaly detection; time-series analysis; traffic analysis.
1 引言
工業控制系統(ICS)是指用于操作、控制、輔助自動化工業生產過程的設備、系統、網絡以及控制器的集合,包括數據監控與采集系統(SCADA)、分布式控制系統(DCS)、可編程邏輯控制器(PLC)、人機交互接口(HMI)等系統。ICS作為工業控制領域的神經中樞,被廣泛應用于自動化生產、能源、交通、航天航空等關鍵行業中,一旦其遭到惡意攻擊,將造成嚴重的安全事故。
隨著自動化控制技術的發展,工控系統的網絡環境由相對封閉變得不斷開放,使得作為工業領域神經中樞的工控系統面臨著更嚴峻的安全形勢。近年來,針對ICS的安全事件層出不窮,給全球的工控安全造成嚴重威脅。Chen[1]等人分析了2010年Stuxnet蠕蟲病毒感染伊朗核電站工業廠房內的PLC的過程。2011年至2012年間,Duqu木馬、Flame病毒先后攻擊了中東能源行業。2015年12月,烏克蘭電力系統遭受黑客攻擊,導致伊萬諾-弗蘭科夫斯克地區大約一半的家庭停電6小時,此次攻擊事件是由黑客通過釣魚郵件等社會工程學方式將可遠程訪問并控制工控系統的黑暗力量(BlackEnergy)惡意軟件植入了烏克蘭電力部門,向電力系統主機釋放了硬盤數據擦除(Killdisk)組件,導致電網SCADA系統崩潰,造成電網故障[2]。由此可見,保障工業控制系統的安全不僅關乎企業的生存發展,同時也影響著社會穩定和國家安全。
在工業環境下,不同組件的通信是基于特定的工業協議進行數據的交換。而工業協議在設計之初未充分考慮安全因素,缺乏認證、加密等防護手段。攻擊者可通過對協議數據包進行篡改的方式,針對工業控制設備進行起停、更改控制邏輯、下載梯形圖等危險操作,造成嚴重的安全事故。
異常檢測技術作為信息安全防護中重要的組成部分,可有效地發現在工控網絡中不符合預期行為模式的異常事件,幫助企業管理人員高效、準確的定位工控網絡中存在的威脅,確保ICS安全穩定的運行。結合工業流量具備高度周期性、異常數據少和安全需求高等特點,本文開展了基于時序分析異常檢測算法的研究,提出了一種基于Top-k的矩陣分布評估算法。實驗結果證實此評估算法可有效地檢測工控網絡環境下的異常事件。本文的組織結構為:第二部分介紹了在工業領域中的異常檢測算法的相關工作;第三部分分析了工業流量具備平穩性的原因,并介紹了所提出的矩陣分布評估算法;第四部分介紹了開展相關實驗驗證;第五部分為結束語。
在評估算法中,生成并集S1并與不同矩陣分布結果的最大前三位進行比較,其原因是防止特定特征的矩陣分布結果存在著較大的誤差而導致異常時間點的遺漏??紤]到ICS安全需求高的特點,本文在矩陣評估算法的第四步選擇相差較大的不同特征矩陣分布最大值發生的時間加入結果集。
4 實驗分析
4.1 數據集介紹
本文實驗采用Lemay[14]提供的數據集。此數據集包括完整的流量包捕獲和包含惡意流量標簽的文件,可用于提取網絡流量特征和通信邏輯特征,并提供有關數據集生成的詳細信息。
在SCADA沙箱中模擬了一個小型的SCADA網絡,實驗中選用Modbus/TCP協議的變體,此變體在每次請求后關閉TCP連接,而不是長時間的維持連接。同時,實驗使用ScadaBR實現不同數量MTU和Modbus_tk的控制器。實例網絡如圖2所示,其中包含2個MTU和3個控制器。
Lemay[14]提供的數據集如表1所示,本文選擇表1中的數據集作為實驗數據集,并分別表示為DS1至DS3。
4.2 實驗結果分析
基于Mantere[15]針對ICS網絡流量的分析,本文選擇的時序分析特征為:“packets_sec”,每秒的數據包數量;“ip_pairs_sec”,每秒的IP對數量;“port_pairs_sec”,每秒的端口對數量。同時,針對數據集DS1至DS5進行數據的預處理,其每秒的流量被聚類為一個數據點。在DS5數據集中,僅針對四個異常子數據集進行預處理的操作。值得注意的是,本文選擇的時間序列子查詢的長度為10,其與五個數據集中的輪詢時間均相同。本文以matrixprofile為基礎庫文件,實驗設備的處理器為3.1 GHz Intel Core i5,內存大小為8G,顯卡型號為Intel Iris Plus Graphics 650。
本文結合ICS網絡的異常數據少、高度安全需求的特點,設計此矩陣分布評估算法。由于不同特征的矩陣分布均產生于同一數據集,因此標志其最可能發生異常的最大值所發生的時間在不同特征的矩陣分布中應相同,設置可信時間范圍D解決檢測時間的延后性問題。在實驗中設置算法的最大值范圍K為10,可信范圍D為3秒。針對DS1至DS5的實驗結果如圖3至圖5所示,并分別對其進行結果分析。
在DS1數據集的評估分析結果中,其描述異常發生的時間分別為第1秒、第4秒、第5秒、第14秒和第24秒。而數據集的標記時間結果區間為第1秒、第3至12秒和第14至18秒。通過對比可發現評估分析結果包含于標記結果的三次攻擊的時間區間內,但兩者間的結果仍然有所差距。例如,無法有效定位第二次攻擊的開始時間、攻擊時間區間的檢測完整性不足、存在著第24秒的誤報,其中第24秒在數據集中并無實際流量包。但值得注意的是,三次攻擊的成功檢測表明了所提出評估算法的有效性,同時也證實了矩陣分布類算法在ICS異常檢測中具備優異的性能。
在DS2數據集的評估分析結果中,其標記異常發生的時間為第10秒和第11秒。而數據集的標記時間結果區間為第10至11秒、第33秒、第72秒和第93至96秒。通過對比可發現評估分析結果完整覆蓋四次攻擊中的第一次異常,未有效地識別之后的三次異常事件。此數據集與DS1數據集的評估分析結果相類似,均可有效地檢測異常攻擊時間點,但存在著部分異常時間結點漏報的可能性。值得注意的是,在DS1與DS2數據集中,異常評估算法均成功檢測首次攻擊所發生的時間區間。
在DS3數據集的分析結果中,評估算法標記的時間為第98秒和第289秒,其中數據集的標記時間結果為第289秒。通過對比可發現評估分析結果可有效地標識攻擊發生的時間,但存在著第98秒的誤報結果。由于DS3數據集中僅只有一個異常攻擊時間點,此異常評估算法仍可認為具備標識首次攻擊發生時間點的能力。同時,此數據集與DS1數據集的評估結果相類似,在評估結果中均存在誤報的情況,而且誤報時間結點在對應數據集中均無實際流量包。
綜合分析,本文提出的評估算法可有效地發現數據集中的第一次攻擊,這在ICS網絡中是至關重要的,但針對多次的攻擊存在著未全部標記的現象。同時,評估結果中可能出現誤報,但誤報的時間點在原始數據集中并無實際流量包。相比較于閾值法,所提出的評估算法可有效地減少假陽性事件,降低了攻擊發生時間的搜索范圍。但其中算法參數的設置仍然需要人為參與。在后續的工作中可進一步優化算法,例如定位攻擊持續的時間、時間尺度對算法的影響等。此實驗結果也證實了矩陣分布在ICS網絡流量異常檢測中的優異性能。
5 結束語
隨著自動化控制技術的發展,ICS面臨著更嚴峻的安全形勢。考慮到時間作為工業流量的本質特性,基于工業流量異常數據少、安全需求高和高度周期性等特點,本文提出的矩陣評估算法可有效地檢測工業流量中的異常事件。但仍有很多問題需要完善和解決,本節列出了下一階段的研究方向。
(1)評估算法的參數優化
評估算法的輸入K和置信度應進行多參數取值的橫向比較,可進一步探索評估算法輸入的最優參數值。
(2)基于混合模型的異常檢測算法研究
基于機器學習的異常檢測算法一直是研究的熱門方向,下一步考慮構建混合模型,通過結合基于機器學習和基于時序分析兩者優勢特性的方式提高檢測率。
參考文獻
[1] Chen T, Abunimeh S. Lessons from Stuxnet[J]. 2011, 44(4):91-93.
[2] Whitehead D E, Owens K, Gammel D, et al. Ukraine cyber-induced power outage: Analysis and practical mitigation strategies[C]//2017 70th Annual Conference for Protective Relay Engineers (CPRE). IEEE, 2017: 1-8.
[3] 陶耀東,李寧,曾廣圣.工業控制系統安全綜述[J].計算機工程與應用, 2016(52):18.
[4] 衛薇,龍玉江,鐘掖.基于概率統計模型的電力IT監控對象特征異常檢測[J].山東農業大學學報(自然科學版), 2019,50(04):612-618.
[5] Fillatre L, Nikiforov I. A statistical method for detecting cyber/physical attacks on SCADA systems[C]//2014 IEEE Conference on Control Applications (CCA). IEEE, 2014: 364-369.
[6] Lin C T, Wu S L, Lee M L. Cyber attack and defense on industry control systems[C]//2017 IEEE Conference on Dependable and Secure Computing. IEEE, 2017: 524-526.
[7] 陳萬志,徐東升,張靜.工業控制網絡入侵檢測的BP神經網絡優化方法[J].遼寧工程技術大學學報(自然科學版), 2019 (1): 14.
[8] Zhou C, Huang S, Xiong N, et al. Design and analysis of multimodel-based anomaly intrusion detection systems in industrial process automation[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2015, 45(10): 1345-1360.
[9] 王展鵬. 基于Modbus TCP協議的工控網絡入侵檢測技術研究[D].北京:北京化工大學,2018.
[10] Markman C, Wool A, Cardenas A A. A new burst-dfa model for scada anomaly detection[C]//Proceedings of the 2017 Workshop on Cyber-Physical Systems Security and PrivaCy. ACM, 2017: 1-12.
[11] Yingxu L, Jiao J, Jing L. Analysis of Industrial Control Systems Traffic Based on Time Series[C]//2015 IEEE Twelfth International Symposium on Autonomous Decentralized Systems. IEEE, 2015: 123-129.
[12] Yeh C C M, Zhu Y, Ulanova L, et al. Matrix profile I: all pairs similarity joins for time series: a unifying view that includes motifs, discords and shapelets[C]//2016 IEEE 16th international conference on data mining (ICDM). IEEE, 2016: 1317-1322.
[13] Anton S D, Ahrens L, Fraunholz D, et al. Time is of the essence: Machine learning-based intrusion detection in industrial time series data[C]//2018 IEEE International Conference on Data Mining Workshops (ICDMW). IEEE, 2018: 1-6.
[14] Lemay A, Fernandez J M. Providing {SCADA} Network Data Sets for Intrusion Detection Research[C]//9th Workshop on Cyber Security Experimentation and Test ({CSET} 16). 2016.
[15] Mantere M, Sailio M, Noponen S. Network traffic features for anomaly detection in specific industrial control system network[J]. Future Internet, 2013, 5(4): 460-473.