王 奇,馮大蔚,戴逸聰,荊 浦
(1.太湖流域管理局水文局(信息中心),上海 200434;2.上海藍泰信息咨詢有限公司,上海 200434)
數字孿生(digital twin,DT)作為實現物理世界與信息世界深度融合的關鍵技術,其最早的概念由Michael Grieves于2003年提出[1-2]。隨著物聯網、云計算、大數據、人工智能、5G等新一代信息技術在傳統水利行業中的深入應用,數字孿生驅動的智慧水利應用進程也不斷加快。《智慧水利建設頂層設計》《“十四五”智慧水利建設規劃》等重要文件都明確將數字孿生流域建設作為構建智慧水利體系、實現“四預”的核心和關鍵。數字孿生太湖是以物理太湖流域為單元、時空數據為底座、數學模型為核心、水利知識為驅動,對流域全要素和水利治理管理活動全過程的數字化映射、智能化模擬,最終實現與物理流域同步仿真運行、虛實交互、迭代優化[3]。
當前對數字孿生的研究主要聚焦在理論建模、關鍵技術和行業應用等方面[4],忽視了數字孿生應用給智慧水利帶來的安全問題。數字孿生太湖一方面可提升流域治理與管理的科學化、精準化、高效化能力和水平,但一旦遭到攻擊,產生的破壞力比傳統信息化更大,必須高度重視數字孿生太湖網絡安全主動防御體系建設。為此,須引入新的安全防御技術及理論豐富由密碼學、防病毒和網絡邊界防護構成的傳統靜態安全防御體系。本文是基于應用大數據、人工智能、高級威脅檢測等新技術對智慧太湖1.0建成的網絡安全縱深防御體系進行擴充,進一步提升數字孿生太湖網絡安全態勢分析效率及主動防御能力,構建完善的數字孿生太湖網絡安全整體架構。
太湖流域管理局(以下簡稱“太湖局”)以太湖流域太浦河數字孿生工程建設作為先行先試,在現有信息采集、通信網絡、計算存儲等基礎上,運用三維建模技術構建數字化孿生模型;強化感知和傳輸網絡建設,夯實信息基礎設施;根據當前已有的預報調度一體化等業務系統,融合水位、流量、閘門開度及視頻等在線監測信息,提升預報調度等水利專業模型精度,基于太湖流域L1+L2級數據底板搭建數字孿生平臺,實現具有”四預“功能的數字孿生智能應用。
依托太湖局網絡安全能力提升等項目,太湖局形成了有效的網絡安全縱深防御體系,但隨著數字孿生太湖建設的不斷推進,海量數據帶來的安全問題亟須解決,主要包括:①缺乏完善的數字孿生太湖網絡安全理論框架體系支持;②缺乏統一開放的安全平臺支撐數字孿生系統信息安全的快速發展和廣泛應用;③數字孿生系統的防護策略基本以靜態的被動識別和被動防護為主(例如防火墻、入侵檢測)[5],關于動態的主動防護策略和技術應用較少;④網絡安全監測預警的及時性、自動防御的有效性、跟蹤溯源的準確性不足。
基于數字孿生太湖涉及的物理系統、信息系統、數據資源和網絡通信4個方面,遵循“整合資源,信息共享”、“統一架構,業務協同”的設計原則,通過建設網絡安全威脅感知系統,引入大數據、人工智能等新技術,構建數字孿生網絡安全主動防御體系框架[6],形成數字孿生安全態勢感知和監測預警能力,掌控全網安全態勢、預判威脅事件、動態調整防護策略,實現數字孿生安全的泛感知、精度量、可預判和全展示;從而構建數字孿生太湖一體化安全框架和運營體系,實現“安全監控-威脅感知-通報預警-應急處置”的閉環安全管理。實現資源共享、服務協同。總體安全架構如圖1所示。
數據采集主要包括兩方面:①在數字孿生太湖各網絡域間及邊界部署流量探針采集全網流量;②通過原有網絡安全集中管控平臺(SOC)采集全網設備日志信息,包括代碼審計與系統漏掃日志。
數字孿生太湖安全大數據平臺作為整個水利數字孿生安全大數據平臺的邊緣支撐層,主要對數字孿生太湖產生的各類數據進行匯總、清洗、分析、挖掘。平臺采用智能數據檢索引擎(ElasticSearch)和關系型數據庫(PostgreSQL),對海量數據進行存儲、快速檢索及數據分析,其中數據檢索引擎基于RESTFUL WEB接口,支持大數據搜索請求、數據存儲和分布式多用戶能力全文搜索引擎,支持2000億條日志記錄以上的入庫和查詢,響應時間在3S之內。
安全大數據平臺由數據存儲接口層、數據查詢接口層、分布式數據緩存層、大數據存儲層和大數據分析層五個部分組成。數據存儲接口層調用數據緩存層接口,將數據交給分布式數據緩存層緩存;當外部應用系統發起數據查詢請求時由數據查詢接口返回所查詢的數據;數據緩存層對數據存儲接口層接收到的數據起緩存作用,降低數據入庫高峰期時的性能壓力;大數據存儲層負責數據分詞,將分詞結果生成倒排索引,存儲在物理存儲介質之上,便于數據查詢引擎快速查詢;大數據分析層主要包含智能檢索引擎、流式計算引擎等,為平臺提供核心的數據分析服務。

圖1 數字孿生太湖網絡安全總體框架
服務層使用安全大數據平臺的數據,為上層提供統一開放的數字孿生安全服務支撐:①調度服務用于調度任務,主要用于定期數據處理,定時計算等任務;②規則引擎用于原始數據的處理,篩選或匯總告警生成的事件,可支持批量/流式處理;③查詢服務提供通用的查詢接口,可根據不同的條件查詢或匯聚告警/事件數據;④統計服務根據預設的指標計算方法通過查詢和統計匯總形成相應的指標;⑤報表服務可定制報表,并根據定制模板定期生成階段報表;⑥字典服務提供系統中使用的字典管理、查詢等服務;⑦標簽服務為各種數據打上不同的標簽,并能管理標簽分組;⑧配置服務管理系統全局的配置和用戶個性化的配置,也可用于任務實例級別等配置;⑨權限服務用于確定用戶的功能權限和數據范圍;⑩日志服務記錄操作日志及其他需要記錄的日志,并提供簡單的日志查詢能力。
安全應用層通過調用安全服務層,提供安全態勢、資產管理、風險監測預警、場景化分析、預警通報、安全信息共享,并與第三方系統進行對接交互,實現數字孿生安全應用的廣泛發展和快速迭代。
為確保數字孿生太湖網絡安全主動防御體系能夠實時、準確地呈現太湖局整個網絡安全態勢情況,全面監測預警、智能分析處置網內潛在風險,實現數字孿生太湖網絡安全的關口前移、主動防御,須依托人工智能強化學習等網絡安全關鍵技術,具體技術如下。
強化學習系統RLS(reinforcement learning system)是智能系統從環境到行為映射的學習,其通過自身的經歷進行學習,并在行動—評價的過程中不斷改進行動方案以適應環境,并從中獲得知識。強化學習系統的目標是動態地調整參數,以達到強化信號最大。由于數字孿生涉及到的資產、網絡業務、訪問行為十分復雜,只有通過人工智能強化學習技術才有可能達到比較好的網絡安全主動防御效果。
對于數字孿生太湖,主要鎖定在關鍵網絡節點及大湖局各級單位采集上報的資產數據、安全事件日志和文件樣本,自動篩選已知特征的惡意事件關聯數據,用于建立評估網絡,基于未篩選數據建立行動網絡。將太湖局建立的威脅預警系統平臺所存儲的海量歸一化數據作為兩個網絡的輸入數據,從而建立面向全網、各類資產、各級單位的多維度網絡模型。
流量分析與數據還原技術通過調用靈活的協議分析模塊,實現了對IPv4/IPv6雙棧環境下的主流協議高性能分析,其擁有的碎片文件偵測和P2SP重組模塊,還可以實現對迅雷等國內主流P2SP軟件下載的文件進行還原。
流量還原還利用到端口匹配、流量特征檢測、自動鏈接關聯和行為特征分析等多種技術。其中端口匹配技術的優點是檢測效率高,弱點是便于偽造,因此數字孿生太湖安全框架在端口檢測過程中嵌套了特征檢測的判斷和分析;流量特征檢測一般分為有標準協議識別和未公開協議識別兩種,前者規定了特有的消息、命令和狀態遷移機制,通過分析應用層內的這些專有字段和狀態,就可以精確可靠地識別這些協議,后者一般需要通過逆向工程分析協議機制后,通過報文流的特征字段來識別該通信流量;自動鏈接關聯主要用于識別利用動態協商端口方式傳輸數據的協議;行為特征分析主要是針對一些無法輕易還原的數據流量,依托鏈接的統計特征,如連接數、IP連接方式、流量上下行比、發包頻率等指標來判斷應用類型。
基于全球威脅情報源的APT事件發現,運用威脅情報、文件虛擬執行、智能規則引擎、機器學習等技術,可以檢測和發現APT攻擊、勒索軟件、遠控木馬、僵尸網絡、竊密木馬、間諜軟件、網絡蠕蟲、郵件釣魚等高級網絡攻擊,并基于可視化技術,清晰的展示網絡中的威脅。同時也可檢測多種網絡協議中的攻擊行為,提供網頁漏洞利用、Webshell上傳、網絡攻擊等多種維度的告警展示。
數據關聯分析是從有限的數據線索向未知數據進行挖掘探索的過程,一般用于系統的數據分析層,主要是將多源異構數據通過關聯分析模型串聯起來,找到各類數據源之間的關系,并通過可視化技術進行最終呈現。該技術能夠以圖形化界面、流暢交互操作等形式將枯燥的數據分析變得生動,同時,數據統計等可視化輔助功能可幫助分析員理解數據含義,在很大程度上可提高數據分析員的工作效率。
該技術一般用在數據治理融合層和數據分析層,其生成過程為:采集多源情報數據去除不可信數據,將關鍵數據結構化后進行數據關聯,對具有關聯關系的數據利用強化學習的方式進行準確性驗證,并賦予可信度指標,再根據攻擊目的、攻擊類型、傳播渠道、具體危害等信息確定報警優先等級,最后根據分發的要求,按照不同情報類型與用途推送給不同安全產品,從而實現基于威脅情報生成技術的網絡安全主動防御。
在2022年公安部組織的網絡安全攻防演習中,太湖局作為水利行業協同防守單位,依托數字孿生太湖網絡安全框架體系有效實現了可信威脅情報獲取、可視化關聯分析、基于人工智能的異常監測,構建了威脅感知、分析研判、智能處置的主動防御體系。數字孿生太湖安全大數據平臺平均每日感知境內外威脅事件8000起以上,惡意IP數量200條以上,通過對上述攻擊行為、異常流量、僵木蠕毒等情況進行智能分析研判,安全服務人員高效的完成了應急處置,演習期間太湖局未收到一起網絡安全事件通報。
通過引入可視化關聯分析技術,將數字孿生太湖包括網絡流量數據、系統業務安全日志和外部威脅情報等多個信息源整合關聯分析,有效降低了安全誤報;通過引入流量分析與還原技術及時準確的發現了數字孿生太湖域間及網絡邊界異常流量背后的攻擊行為;同時,通過廣泛協同數字孿生安全框架下的下一代防火墻、高級威脅監測、漏洞掃描等應用,使得數字孿生太湖網絡安全態勢分析的效率顯著提升。
人工智能技術快速梳理了海量數字孿生太湖安全元數據及日志,并生成預警信息,第一時間定位到網內的潛在安全風險,為安服人員及時采取加固措施、避免風險進一步擴大提供了支持。甚至有個別安全設備通過與預警信息或威脅情報聯動實現了智能化的安全事件處置,從而實現了由傳統的事中處置向事前預警、智能響應和事后溯源的升級轉變,既全面準確的反映了數字孿生太湖的安全風險,又有效提升了數字孿生太湖的主動防護能力。
數字孿生太湖網絡安全框架在太湖局網絡安全防護中的具體實踐表明:現有框架體系有效提升了安全態勢分析效率與主動防御能力等問題,能夠更好地保障數字孿生太湖網絡安全。但數字孿生太湖的安全不是單純的技術問題,而是一項涉及意識和習慣、管理和流程、系統和架構、技術和產品、組織和人才等各方面的復雜系統工程[7],需要所有參與者在建設生命全周期持續實施安全防護并不斷完善。同時人工智能技術在信息安全上的應用還處于起步和探索階段,下一步重點將結合水利安全大數據平臺加大獲取學習樣本,探索建立數字孿生多場景下的人工智能訓練模型,進一步提升數字孿生太湖的主動安全防護能力,為新發展階段的水利行業高質量發展保駕護航。