馬霄,高彥愷
(天融信科技集團,北京 100193)
隨著自動化和信息化技術的飛速發展,工業控制系統產品越來越多的采用基于信息技術為基礎的通用協議、通用硬件以及軟件,并廣泛應用于電力、鋼鐵、水利、化工、制造等行業。同時為適應當前工業控制網絡中數據互通的需求,提高生產及運營效率,在物理位置相距較遠的場景下,工業控制系統通過各種方式與互聯網或其他公共網絡連接,病毒、木馬等威脅也伴隨著信息技術的發展在工業控制環境中大量擴散。由于工業控制系統的產品特性和網絡連接特點,工業控制系統在信息技術應用的環境下面臨較大威脅,故工業控制系統信息安全受到越來越多的關注。
從整體上看,工業控制網絡與傳統IT網絡在網絡邊緣、體系結構和傳輸內容方面有著主要的不同。
網絡邊緣不同:工業控制系統在地域分布較傳統IT網絡廣泛,其底層節點普遍為智能化程度較低的傳感裝置、數據傳輸裝置而非傳統IT網絡系統底層的通用計算機、小型機等,其在物理安全需求及應用層面存在較大差異。
體系結構不同:工業控制網絡縱向集成度較高,主站節點與終端從站節點之間為主從關系,傳統IT網絡則更趨向于橫向扁平的對等關系,兩者之間在脆弱節點分布上存在較大差異。
傳輸內容不同:工業控制網絡中傳輸內容多為工控專有協議,其數據部分通常為寄存器的具體數值。
工控系統信息安全三要素優先級不同:對于工控系統而言,系統的可用性至關重要,因此需要將可用性放在第一位,即可用性、完整性、保密性。此外優先級的變化不僅僅體現在安全要素的排序上,更關鍵的是在應對工控系統安全問題時思考問題的優先順序。
從細節中來講,工業控制環境中對設備的性能要求、生命周期、可用性、操作性、資源限制等均與傳統IT環境存在較大差異。
性能:在視頻監控流量帶外管理的場景下,工業控制系統網絡中流量遠遠小于傳統IT網絡,但其對于單包數據響應相對要求較高,即要求延遲和抖動都限定在一定水平內,通常現場級通訊超時周期都在1~3秒以內,部分精密控制場景實時性要求更高。
風險管控:對于傳統IT環境,更多關注于數據的機密性和完整性;而對于工業控制網絡,其對于容錯比要求更加嚴格,控制數據不允許存在超時重發機制,且控制過程不可逆,故工業控制系統網絡更多關注于保障生產的可持續性。在信息安全方面,傳統IT網絡威脅多來自于外部空間,包括漏洞攻擊、DDoS攻擊、網頁篡改等構成其主要風險;工控網絡更多關注于網絡內部對生產造成的影響,例如誤操作、終端惡意代碼威脅等。
資源限制:傳統IT網絡具有足夠的資源支持增加的第三方程序,包括應用、安全等層面均可進行支持;工控網絡由于其設備生命周期遠遠大于IT網絡,造成計算資源的受限,多數場景下不允許使用第三方解決方案。
變更管理:該方面主要體現在應用升級及補丁管理方面,IT網絡中的應用普遍具備良好的兼容性,可自動進行軟件更新及補丁更新等,工控網絡中兼容性問題普遍存在,當前國內絕大部分應用均在Win7及以上版本操作系統中存在兼容性問題,部分補丁更新也會造成原有計算資源的不足,故在工控網絡中變更通常在生產維修期進行,且變更前需要進行徹底的測試和部署增量,從而保證盡可能的降低對生產的影響。
通信:IT網絡中通常采用基于TCP/IP標準協議,工控網絡中協議通常在供應商間互相不支持,各自存在較多版本專用通信協議,通訊介質種類相對較多,包括以太網、RS485/422/232總線、DP總線、4~20mA硬接線等。
以上僅列舉部分工業控制網絡與傳統IT網絡中存在的差異,基于以上差異,工業網絡安全的關注點也與IT網絡安全存在較大差異。工業控制網絡中的安全關注點更多在如何保障生產的持續運行,如何確保控制、運維過程中的有效監控從而減少因誤操作引發的生產事故以及如何對控制網絡安全事件進行有效的監管及事前防范。防范和抵御攻擊者通過惡意行為人為制造生產事故、損害或傷亡成為工業控制系統信息安全的重中之重。
由于控制網絡通常不與互聯網直接進行聯通,且與管理網間參照我國《信息安全技術 網絡安全等級保護基本要求》進行單向隔離,故在生產網安全中更多著重于對于生產流程的保障。
傳統的自動化技術與信息化技術均為互相獨立領域,在“全以太網架構”以及“兩化融合”的時代潮流下兩個獨立的領域出現了大量的交集,在這過程中又存在著大量的矛盾。
下文均為國內某行業技術專家研討過程中提出的安全與生產的矛盾。
矛盾1:安全防范與生產過程的沖突。傳統自動化領域中控制系統具備獨立性,其控制器與操作站應用均為同一品牌(例如西門子PLC與WinCC組態軟件)或同一自動化廠商實施,在資源管理維度通常對第三方缺乏信任;其次,安全分析通常會有一定的誤報率,而工業控制系統容錯率較低,故作為控制用戶或工藝用戶對安全防范手段是否會對生產流程造成新的威脅較為擔憂。如何在保證控制系統獨立性的前提下進行信息安全保障成為自動化用戶關注的核心。
矛盾2:終端安全與應用軟件的沖突。在自動化數據通訊網絡搭建中,通常會從控制系統工程師站進行數據讀取操作,過程中需要安裝部分應用插件作為數據通訊的必要組件;且在數據通訊配置過程中,考慮到自動化實施人員對于信息化技術了解程度較低,通常會關閉本機主機防火墻,以保障通訊的建立(例如OPC DCOM配置過程);同時部分軟件工程的變更也需要在工程師站進行必要的數據拷貝,在文件傳輸過程中不可避免應用到移動存儲介質或與第三方設備進行連接,該方式造成控制系統工程師站主機易遭受惡意代碼威脅;而工業應用在設計之初幾乎未考慮安全性的存在,部分軟件調用方式通常會被基于黑名單的殺毒軟件視作惡意代碼加以隔離或刪除,從而造成生產監控過程的異常。站控主機作為控制過程中的主站,在保障生產監控過程正常進行與主機安全處置兩個維度存較大的矛盾,從而影響工業控制系統中主機安全策略的執行。在保證終端環境純凈與保證監控組態的可用性上,如何做到共存成為控制用戶的基本目標。
矛盾3:安全加固與生產過程的沖突。作為傳統工業生產者,保障生產的可持續性成為工作的第一要務,部分工藝生產周期可能長達數月甚至數年,在這過程中爆發的漏洞按照信息安全從業者的維度需要及時進行加固,防止利用漏洞進行攻擊;但依照工業生產者的原則,需要保障生產的可持續運行,進行加固需要停產,且加固后與現有系統及應用的兼容性不可確定,故需要在完成生產流程后進行停產加固,兩者之間的存在時效性的矛盾。在保障生產的前提下如何進行安全加固成為用戶安全建設的目標。
矛盾4:檢測維度與安全監控需求的沖突。作為信息安全從業者,檢測維度通常僅僅圍繞安全事件進行,但該類型檢測不能滿足保障工業生產過程的實際需求,僅僅依靠針對信息安全的檢測不足以保障工業生產的可持續運行,在進行安全檢測的過程中需要針對工業生產中的重點節點進行檢測,例如節點間通訊等,通過對工業生產整體環境檢測來保障工業生產安全。工業信息安全檢測維度與保障工業生產的維度存在差異,如何在兩者之間尋找平衡點則成為工業信息安全價值的體現。
矛盾5:新技術應用與生產工藝的沖突。自動化領域應用以保證可用性為第一前提,其網元節點在設計之初沒有針對IT環境中檢測做相應設計,部分IT信息安全中的檢測技術,在工業控制系統中易造成工業設備的宕機,從而破壞生產過程。例如主動檢測技術在瞬時多并發的同時,訪問控制器造成控制器的故障。如何處理必要的安全檢測與工業現狀的兼容性則成為新技術應用在工業控制系統中的重要問題,在傳統安全手段不能滿足日新月異的安全需求過程中,新技術的應用,成為工業控制系統信息安全的發展趨勢。
天融信根據以上差異和矛盾,總結出基于“用戶行為基線的安全防護”模型,根據用戶生產網中流量、終端等其他節點,以最小化為基本原則,采用以安全防護手段為基礎,態勢分析為核心,應急響應為技術手段的綜合解決方案。
安全防護對象包含網絡中的控制設備、管理設備、感知設備等,防護范圍覆蓋生產網,安全防護中心作為數據探針,將基于各個節點的安全數據、異常數據等上送至態勢感知系統,用作安全環境、基線的分析,并執行分析的結果。同時,將生產網網絡、應用等運行狀態傳遞至應急響應體系進行統一的運維監控。
態勢分析作為生產網安全防護的“大腦”,承擔安全信息分析的作用,通過收集安全防護體系中安全設備及監測數據,利用大數據手段,基于用戶的安全基線進行安全建模,通過模型間的組合進行流式分析,分析網絡中安全威脅及主機、應用脆弱性,后依據分析結果下發策略至安全防護設備、安全審計設備以及應急響應團隊執行安全策略的落地,形成基于用戶行為的縱向安全防護體系。
應急響應體系包含運行監測中心及應急響應團隊以及整體安全管理執行機構。
監測中心主要針對生產各個節點數據進行安全監測,通過對安全數據、生產數據進行分析、比對,判斷當前生產運行狀態。監測數據通過生產系統及安全防護體系中安全設備進行收集;對異常生產場景進行重點監測,同時將監測數據上送至態勢感知體系中大數據分析平臺進行分析,確認異常事件則由應急響應團隊進行事件調查,故障響應等。
應急響應團隊承擔故障應急響應調查及響應工作,對于確認的異常事件,通過基于生產工藝原理維度進行分析判斷,并對異常事件進行及時響應,確保對生產的影響降至最低。異常響應完畢后,將異常整理為流式模型,輸入態勢分析節點,強化安全分析能力。
通常由用戶方技術負責人作為整體責任人,根據國家標準、行業標準及企業內部現狀制定企業信息安全標準及執行方法以及推行。
通過上述三套技術體系進行安全信息的互聯互通,構成針對工業控制系統的動態防護體系,根據網絡中威脅分布及類型實時更新完善安全防護策略,并輔以行業、控制、工藝專家對生產過程進行縱深監控分析,形成安全閉環生態,在不影響生產獨立性的前提下,將安全手段與控制過程進行有機結合,做到工業控制系統安全的技術落地。
“上”和“下”的概念起源于自動化從業者對于網絡表達的習慣,依照ISA/IEC62443標準對網絡分層進行描述。
自上而下的設計源自對生產網及其流量基線的理解,通過對各個網元節點間數據的內容及指令進行分析,從而在最小化原則的基礎上,建立“純凈”的網絡環境,對于白名單外的連接、指令、進程等,則交由態勢分析進行進一步分析,形成事前防范的能力,通過分析結果調整訪問控制及白名單策略。部分無法通過調整策略解決的安全事件則通過應急響應體系完成安全的應急處置,并且在事后將事件流程及解決方案總結輸出安全模型交由態勢平臺,在出現同類型事件后,進行匹配,自動化解決。
自下而上主要體現在安全體系的建設維度,在建設的過程按照控制系統的訪問控制、控制過程監控、操作站安全加固、生產網白名單、態勢分析平臺、主動感知技術、應急響應平臺的順序,即優先保障獨立控制系統的安全,從而保證生產過程的可持續運行,其后再對生產網進行監測,兩者數據作為態勢分析的基礎,從而進行態勢分析平臺的建設;在擁有一定分析能力的基礎上再輔以主動感知手段,在檢修期進行資產管理、資產健康性管理。最后進行整體聯動,并建立應急響應體系,完成安全閉環,打造工業控制系統動態防御體系。
在訪問控制過程中,為保證盡可能小的影響正常生產流程,訪問控制節點部署于完整控制系統外側即ISA/IEC62443標準分級的L2.5層位置,形成對網絡的隔離。訪問控制手段包括:基于五元組的訪問控制、報文的指令碼訪問控制、以及重點寄存器的訪問控制,其作用包括:防止經由其它控制系統的橫向訪問、防止遠端對控制器的寫操作(國內工業控制系統控制過程大部分基于本地控制,較少存在遠程控制的行為)、對重點數據進行工藝隱私保護。
前文提出在安全技術手段中如何保障控制系統的獨立性及杜絕對生產過程的影響,成為工業控制系統信息安全技術落地的前提;L1.5層[1]部署訪問控制技術手段可以有效完成對控制過程的管控,但此方式破壞原有網絡結構,考慮到控制過程容錯率幾乎為0,此方式較大概率影響控制流程。
通過旁路部署行為審計手段,在對工業控制過程管控方面,部分替代訪問控制技術手段功能,在審計粒度層面至報文內容還原,針對部分重點數據寫操作內容以及部分重點數據數值進行實時監控,方便在事后追溯過程中針對誤操作行為形成一手記錄;針對部分通過“合法手段進行非法操作行為”(例如數據在合理區間內短時間周期大幅度變化)依照其變化規律進行判斷,根據實際生產環境中數據變化或通過機器學習手段設定數據基線,對非法數據進行審計報警。
前文提出操作站由于其特殊環境,不適用于基于黑名單的安全管控手段,但操作站作為與第三方應用及服務接口,需要針對其計算環境以及輸入接口進行有效管控。天融信采用白名單技術,針對操作站計算環境依照最小化原則,對非生產應用進程及服務禁用,對于輸入接口根據用戶實際生產需求采取禁用或認證管控手段。
針對生產網流量環境采用流量審計手段,通過對用戶現場調研或通過機器學習技術設定網絡行為基線,網絡行為基線基于各網元節點主從站通訊,同樣依照最小化原則,確保網絡流量只包含生產調度必要的通訊,保證網絡環境的純凈。
態勢分析主要作用于分析和統計兩個維度:
統計即針對網絡的安全事件、未知威脅等信息以時間、資產等維度進行統計;
態勢分析的數據源主要基于上文提及安全防護手段的日志及審計記錄,經過必要的處理后,作為分析模型的數據源。
在數據的基礎上,構建威脅分析模型,即工控目標設備中所存在的脆弱性,威脅源將通過威脅向量而導致威脅事件發生的可能性,以及由此產生的后果和影響。其關系如下圖所示:
其后將構建的安全事件映射到相關后果之上,并與生產目標進行比較,從而完成風險模型的構建,其過程如下圖所示:
在構建模型的最后階段,通過威脅情報庫數據進行風險驗證與量化評分,以確定該場景實際發生風險的可能性及損害程度。結構如下圖所示:
最終用戶并不需要維護一個完全由松散關聯的數據構成的安全模型,通過態勢分析平臺的構建使得工業控制系統用戶擁有針對其控制系統且經過深入的、全面的、可操作的安全模型;使得用戶能夠更有效進行風險認知與管理。統計、分析結果最終以依照用戶習慣的結構進行展示及查詢。
通過態勢分析平臺,形成生產過程與安全現狀相結合的動態防護體系。做到基于安全事件及生產需求的安全策略修訂,使得安全防護能力貼合生產而又不影響生產控制過程。
主動感知技術為態勢分析平臺數據源的補充,主要基于主動發包技術進行數據收集,其主要包括兩部分:
考慮到工業控制系統中設備生命周期較長,其服役過程中普遍存在已知漏洞及安全策略配置漏洞(例如超級用戶的使用);脆弱性主動感知技術針對上述環境進行發現及驗證。
該類型應用主要適用于“一網一庫三平臺”類監管型環境,即針對監管范圍內非法資產進行識別分析,確認網絡中資產分布及類型,以及在面對重大安全隱患過程中對監管資產安全隱患的排查。
由于工業控制設備在設計過程中為考慮高并發訪問等場景,主動感知技術在工業控制環境中存在因主動感知造成的控制設備不能正常工作,且不能熱啟動恢復,故主動感知技術只能應用在兩種場景:
計劃性檢測,即在維護期(大修期)進行主動掃描。
違規資產檢測,即針對違規外聯資產進行識別檢測。
考慮到工業控制系統的獨立性及控制系統廠家間的壁壘,當前尚有較多安全問題需要依靠管理手段進行解決;
例如運維審計手段,在傳統IT網絡中,資產大部分為B/S管理,采用標準或較為通用管理協議進行運維操作,通過運維審計設備即可對運維操作進行管控及還原。而工業控制系統環境中,其運維多基于其客戶端即C/S方式,管理協議均為其自身自有協議,不同于其通訊協議(Modbus/OPC/IEC104等),其管理協議不公開,且不支持第三方進行管理,故無法進行眾多控制設備管理協議的整合,無法有效實現運維過程的管控。
類似方面在工控環境中仍有較多場景,其主要原因源自工業控制領域與IT領域的差異,解決的核心在于技術的開源以及技術的積累,這一過程在工控安全領域仍有較長的路要走,需要控制廠商、安全廠商及用戶的共同努力才能得以實現。