欒鵬林
江蘇省通信管理局
工業互聯網數據是指工業生產經營各環節和各流程產生或使用的聯網數據,工業互聯網數據涉及的主體繁多,數據類型豐富,如工業企業的研發設計數據、生產制造數據、運營管理數據,工業互聯網平臺企業的平臺知識機理、數字化模型、工業APP信息,集成商和工控廠商的設備實時數據、設備運維數據、集成測試數據等等。2020年底,工業與信息化部發布《工業互聯網創新發展行動計劃(2021-2023年)》,指出數據是工業互聯網中的關鍵資源,要進一步發揮數據在工業互聯網創新發展中起到的重要作用。
然而,工業互聯網打破傳統工業系統與互聯網天然隔離的邊界,工業企業IT和OT(Operation Technology,操作技術)不斷融合,企業內部工業網絡、管理網絡與互聯網逐步打通,導致傳統互聯網安全風險滲透到制造業關鍵領域,數據安全與工業安全風險交織,特別是隨著近些年云計算、大數據、人工智能、5G、數字孿生、虛擬現實等新技術新應用的不斷發展,逐漸產生了更多的數據安全風險隱患,直接影響工業生產安全、經濟安全乃至國家總體安全。江蘇是工業制造業大省,工業互聯網設備、系統觸網數量龐大,漏洞風險較高且分布廣泛,部分重點行業隱患突出,安全攻擊頻發,關鍵行業和設備系統風險隱患集中,安全攻擊和事件無處不在。根據《2020年江蘇省互聯網網絡安全報告》統計,2020年我省發現暴露在互聯網上的工業互聯網資產達60萬個,發現已知漏洞的資產為3343個,針對已發現工控資產的攻擊行為達到8313萬次,工業互聯網網絡信息安全一時成為關注焦點。
2020年6月,江蘇省發布《關于加強工業互聯網安全工作的實施意見》,多部門協同,加快構建省內工業互聯網安全保障體系,開展數據安全試點建設。2021年9月,《中華人民共和國數據安全法》正式施行,一方面為企業的數據安全提供了法律保障依據,另一方面對政府監管機構提升數據安全保護和數據經濟治理能力提出了更高的要求。工業互聯網數據安全是保障各型工業企業優化生成和服務資源配置的前提,面向重要行業典型工業互聯網平臺運營場景的敏感數據監測和防護系列化技術研究和論證十分必要。
工業互聯網因其承載著大量接入設備、業務系統,以及企業、個人信息和重要數據等,產生的數據商務價值較高、戰略意義重大,日益成為黑客的重點攻擊對象。如何增強工業互聯網安全技術保障手段及數據安全防護技術手段建設,提升安全態勢感知和綜合保障能力,是擺在行業監管部門面前的重要課題。
省通信管理局依托行業監管優勢,圍繞工業互聯網平臺重要數據安全審計、異常流動監測、數據泄漏發現等安全需求,運用多種技術手段,包括主動監測、流量分析、多維數據關聯融合等技術,建設一個具備重要數據境內異常流動監測、風險通報和追蹤核查能力的工業互聯網數據安全監測平臺。本文基于流量場景,從被動分析的角度設計工業互聯網中數據資產的探測、數據流動和泄露的監測方法,為建設綜合工業互聯網安全保障體系做準備。
基于互聯網流量的采集及報文分析是通常采用的網絡安全分析手段,傳統的技術路線需結合對工業數據特征的深入理解,才能更好地發揮其在工業領域數據安全的作用。因此傳統的網絡安全企業深入到工業領域往往出現水土不服的現象。相反,專注于工業企業信息化領域的企業又缺少內生安全基因。基于傳統的流量解析還原技術,強化對工業數據的理解是本方案的基礎支撐。
依托行業監管數據,充分運用互聯網流量解析還原技術,主要分為網絡層和應用層流量分析。網絡層流量分析可對NetFlow、IPFIX、sFlow等流量日志進行分析,也可對防火墻的訪問控制日志進行分析,或者使用全流量的會話數據進行分析。用于分析IP、端口、流量大小、報文長度、報文數量、會話持續時間、會話標志位、流量方向、地理位置等維度。應用層流量分析可對web訪問記錄中的URL、User_Agent、Referrer、POST等特征進行分析,也可對DNS訪問日志中的Qname、Qtype、TTL等特征進行分析。
數據類型識別技術涉及自然語言處理、機器學習、內容搜索等多項領域。數據類型識別技術實現上具備自動編碼格式識別及轉換,如按關鍵字、字典、正則表達式及數據標識符等多種匹配方式;需支持常見數據類型,如姓名、手機號、身份證號、銀行卡號等常用的數據類型的定義;需支持結構化和非結構化數據的提取,其中包含辦公文檔、工程圖紙、應用數據等豐富文件格式。數據類型的識別對于后續提高敏感數據特征的識別準確性具有關鍵作用。
基于流量進行分析有很多顯著優勢,其中之一就是具備完整通信過程分析的可能。比如從頁面返回數據中匹配到“User:XX”,進而提取出XX作為帳號。下一步通過對應用系統的更多行為進行分析,生成應用系統的帳號知識庫,基于知識庫建立帳號與每個接口的關聯方式,描繪應用操作人員畫像。
敏感數據的特征識別是技術核心。識別特征參照工信部2020年2月印發的《工業數據分類分級指南(試行)》相關標準的定義,在技術實現層面又將敏感文件進一步劃分為以下三類。
(1)基礎類。主要包含身份證號、電話號碼、位置信息等,這類數據的判別技術較為簡單,往往通過明確、單一的正則特征即可識別。
(2)復合類。主要包含通信錄、設備配置、運維材料等,這類數據的識別往往采用多種判別方式相結合的方式,如N條正則、M1條正則+M2項關鍵字、H1條正則+H2文件特征等。
(3)模式識別類。主要包含通信記錄、各類日志、網絡拓撲等,這類數據沒有固定特征、沒有指定關鍵字,需通過機器學習的方式,建模構建隱藏的數據結構,實現自動化識別與分類。
敏感數據的識別引擎需要在業務生產內網中進行較長時間的訓練,不斷克服網內終端在操作系統版本、已安裝應用程序、殺毒軟件、域控策略、防火墻策略等諸多方面的復雜性,以及不確定性因素的干擾,精準識別敏感數據的相關泄露事件。
省通信管理局依托行業監管,對城域網流量、移動互聯網流量、IDC流量以及工業互聯網企業專線流量等開展監測分析,搭建統一的大數據平臺,部署數據資產探測發現、數據流動監測、數據泄露發現等監測業務應用,摸清省內工業互聯網資產的底數,掌握工業互聯網數據安全整體態勢,促進構建工業互聯網安全綜合評估體系。系統架構設計示意圖如圖1所示。

圖1 系統架構示意圖
系統整體分為三層架構:數據采集層支撐著系統的數據來源,是前提保障;數據處理層對數據進行加工和預處理,構建數據中臺,為業務提供數據總線等服務;業務應用層由多個業務子模塊組成,對應各種業務場景,為監管決策提供綜合分析支撐。各層具體作用如下:
數據采集層:針對多種類型流量場景,構建若干數據采集子系統,實現工業互聯網相關數據源的匯聚和采集。以被動流量分析為主,采用主被動結合的方式保證數據的全面、準確、有效。
數據處理層:采用統一大數據平臺賦能,提供統一數據存儲、分析能力,同時為大數據平臺供給工業互聯網數據安全資源庫、主體庫、業務庫和知識庫,豐富大數據平臺數據類型,為上層業務應用提供數據服務支撐。
業務應用層:基于統一的開發框架,新建工業互聯網數據資產監測、數據流動監測和數據泄露監測三種場景的應用模塊,三個業務模塊相互關聯、不可分割,分別實現思路如下:
(1)數據資產監測業務模塊通過機器學習自動分類、中文自然語言處理、常規內容檢測技術和誤報漏洞對照分類高級識別檢測技術,對數據及其內容進行有效認知,從而完成對應的識別和審計。在傳統關鍵字、指紋、正則、詞典等技術的基礎上,引入人工智能引擎的內容識別技術,提升識別精準度和性能,并可通過人工,對數據的類別和等級進行校準研判,對數據資產進行打標,使得識別模型準確度不斷提升。
(2)數據流動監測業務模塊實現數據通聯分析、異常流轉分析、跨境流轉分析等功能。具備實時流量統計、流量類型、流量方向、異常流量、共用流量等功能,實現對流量變化的綜合感知、精確管理。具備實時異常數據流感知、跨境不明數據識別、數據非法跨境流動溯源取證、違規數據提取等功能。
(3)數據泄露監測模塊對數據內容進行有效認知,從而完成對應的識別和審計。配合監控、預警、審計等手段來實現對指定數據的泄露防護,同時基于策略和規則自動響應。輔以高級檢測技術,例如指紋文檔比對等,以及多語言和語義的檢測支持,實現精確識別數據泄露,及時告警。
以被動流量分析為主,主動探測為輔,主被動相結合的方式,通過資產指紋、POC檢測等技術,檢索工業互聯網數據中的資產指紋,包括端口、協議、IP等信息。結合相關備案數據、標識解析等數據,識別聯網工控設備、工業APP、工業互聯網平臺、工業互聯網企業等相關信息及活躍度,建立工業互聯網基礎信息庫和資產化畫像庫。
針對網絡流動中的敏感數據進行監控與報文還原。監測內部信息外泄,對網絡流量中的信息進行全量抓取,獲取相關的敏感數據資產信息及時告警,降低數據資產暴露風險;監測高危敏感數據操作,獲取敏感信息的操作行為,盡早發現數據盜取或者間諜行為;監測高危用戶操作,排查風險和權限問題。
內容檢測識別技術可以實現數據智能分級保護,快速定位、準確識別企業核心數據,配合機器學習、大數據分析等高級檢測技術,實現核心數據事中檢測響應的防護理念。作為行業監管部門,數據泄露監測發現應立足于總體國家安全觀,保護企業即個人隱私數據。
本文闡述了工業互聯網數據安全監測手段建設的必要性,設計了基于流量場景下工業互聯網數據安全監測系統的實現方案,以及系統需實現的三個核心功能,即數據資產監測、數據流動監測和數據泄露監測。通過貫徹數據分類和分級防護的理念,指導如何構建工業互聯網數據安全綜合防護體系。基于以上設計思路,對方案可行性進行了初步驗證,抽樣南京、揚州、蘇州等地的部分工業企業,均值流量約105Gbps的互聯網專線流量進行監測分析,期間監測發現工控設備資產約5.3萬個,按類型統計如圖2所示。月均監測發現與工業生產制造、運行維護、平臺運營等相關工業類型數據363萬條,數據流動日志975萬條,這些數據以分析后的日志方式存儲于大數據平臺,包含IP、端口、協議報文以及關聯的資產標簽、敏感特征等數據,為進一步實現數據泄露研判提供可能。
限于篇幅,本文未對工業互聯網網絡安全展開說明,但現實中數據安全與網絡安全往往是伴生關系,結合網絡安全事件的分析結果有助于我們更深刻、更全面地了解數據安全事件產生的原因,建立防范機制,以便更全面指導工業互聯網數據安全監管工作。