范絮妍 吳小倩 馮立勝 王 欣
(全國海關信息中心網絡與信息安全處總工辦 北京 100005)
2020年以來,國家將數字經濟發展放在突出的戰略地位,同步提出數據安全與應用發展并重的要求.2020年4月,國務院印發《關于構建更加完善的要素市場化配置體制機制的意見》明確提出“加快培育數據要素市場”“推動完善適用于大數據環境下的數據分類分級保護制度,加強對政務數據、企業商業秘密和個人數據的保護.”
數據泄露造成的危害日益加劇.據IBM Security發布的《2020年數據泄露成本報告》及業內其他研究報告統計分析,2020年全球數據泄露事件已突破360億,數據泄露事件給政府企業造成的平均成本為386萬美元[1-2].除了經濟損失外,數據作為重要的戰略資源,缺乏監管的跨境流動可能帶來國家安全隱患;個人信息販賣成為大數據產業灰色地帶,對個人人身和生命財產安全帶來嚴重威脅;生物識別信息和醫療數據等高價值敏感數據的泄露可能引發無法想象的災難性后果.
世界各相關組織和國家紛紛開展數據安全和隱私保護立法,我國十四五規劃提出加快數據安全、個人信息保護等方面的數據立法工作.2021年6月10日,全國人大常委會審議通過《中華人民共和國數據安全法》(簡稱《數據安全法》),以落實總體國家安全觀的高度,提出聚焦數據安全領域的風險隱患,建立健全數據安全治理體系,建立數據安全風險評估、報告、信息共享、監測預警機制,建立數據安全應急處置機制,形成全社會共同維護數據安全和促進發展的良好環境.《數據安全法》對政務數據開發利用作出明確指示,要求省級以上人民政務應當將數字經濟發展納入本級國民經濟和社會發展規劃,加強數據開放共享和安全保障措施,建立統一規范、互聯互通、安全可控的機制,利用數據安全運營,提升數據服務對經濟社會穩定發展的效果.
在新形勢和新要求下,電子政務運營單位陸續推進數據安全治理系列工作,規劃設計覆蓋全生存周期、以數據安全態勢感知平臺為核心的數據安全技術防護體系,逐步達到數據資產看得見、說得清、管得住、強審計、能追溯的目標.
隨著“數字政府”建設不斷推進,基于國家政務信息資源整合共享的整體設計思路,政務數據正逐步走向集中管理、共享交換、互聯互通.各中央部委單位、各地政府紛紛成立大數據局或大數據中心,集中匯集行業內全量數據,其中不乏個人信息、商業秘密、保密商務信息等敏感數據,數據價值巨大且風險提升.通過數據加工、建模分析,海量數據的衍生結果信息(如關聯研判信息、宏觀經濟信息、風險布控信息、案件分析信息等)既能支持政府工作人員政務決策分析,還可能對國家宏觀決策起到關鍵參考作用,必然會成為不法分子的目標.因此,基于數據的高價值、高聚集和開放共享等特性,電子政務數據勢必面臨多方面的安全風險和挑戰,需要采取全方位的安全治理和保護措施[3-4].
目前,政務大數據平臺中的業務數據大多尚未完成分類分級梳理和保護,因數據資產底賬的梳理和維護耗時耗力,動態底賬和流向維護機制尚未有效建立.數據資產底賬的建立往往結合專項工作進行一次性梳理,然而隨著新數據資產部署、變更、舊數據資產的廢棄等變化,已建立的底賬又會變得不清晰、不全面;在大型信息系統中,一套業務數據庫(集群或大數據平臺)往往配置多個應用系統的訪問權限,且常常作為接收端或發送端與其他數據庫建立同步關系,數據流向極為復雜,易引入未經合法授權訪問數據庫的風險.因此,需要對數據資產底賬建立分類分級動態梳理與維護機制.
根據GB/T 37988—2019《信息安全技術 數據安全能力成熟度模型》的要求,目前電子政務數據安全成熟度較具備體系化防護能力的3級標準往往存在較大差距,主要體現在尚未實現基于分級的全生存周期數據安全管控.具體包括:科技部門及業務部門人員主要通過個人經驗對敏感數據進行識別;部委交換數據、國際交換數據的采集過程中,缺少數據防泄露監控措施,缺少數據銷毀處理要求和對應的跟蹤手段;缺乏敏感數據存儲和傳輸加密手段;未制訂數據脫敏規范,脫敏的相關場景、規則、方法不明確等.
電子政務網絡環境中面臨的數據安全風險主要來自用戶側、應用側、運維側、客戶端側、對外交換側5重可能的數據泄露風險暴露面,哪層監控不到位,都將給數據安全事件監測和溯源帶來困難.目前,按照《網絡安全法》對網絡運營者有關日志監控的要求,部分電子政務運營者針對重要數據庫、重要應用系統和重要網絡安全域邊界部署數據安全監控手段,覆蓋多類對象平臺.
然而,對于敏感操作行為、異常操作行為監控規則尚缺乏明確定義,目前僅能憑數據資產運維部門的理解,基于訪問頻度、查詢條數、訪問時間等設置閾值的方式配置單一化的監控規則,報警量大、誤報率高,在海量告警日志中定位異常行為仍存在較大困難.面對數十臺監控設備每天產生的數十億條監控日志,在監測工具分散且監控規則單一的條件下,數據安全風險監控與審計工作面臨極大挑戰.
Gartner建議數據安全防護使用持續自適應風險與信任評估(continuous adaptive risk and trust assessment, CARTA)模型,如圖1所示:

圖1 CARTA持續自適應風險與信任評估模型
傳統安全模型假設訪問數據的系統和設備的信任風險是靜態的,所以安全建設主要是建設防護能力.但基于目前威脅的復雜性,CARTA模型假設訪問數據的系統和設備都是可能被攻陷的,所有訪問數據的主體風險與信任都是動態的,需要持續不斷評估.基于這個假設,CARTA模型就需要考慮發現能力、防護能力、檢測能力和響應能力4個方面的能力建設.但是,該模型只是框架性地設計了4種能力及其動態循環作用關系,尚未明確每種能力的構建方式,不足以系統化指引數據安全風險動態監測與處置的實踐.
數據安全能力成熟度模型(data security capability maturity model, DSMM)標準作為組織數據資產管理在數據安全能力成熟度方面的反映,重點考慮數據生存周期安全下的數據安全能力成熟度建設.模型借鑒CMM的通用實踐衡量成熟度等級思想,通過覆蓋數據生存周期各階段過程,旨在明確各階段數據安全能力及成熟度,幫助組織持續提升數據安全能力,獲得組織整體數據安全能力[5-7],DSMM如圖2所示:

圖2 數據安全能力成熟度模型
該模型雖然體系化闡述定義了數據安全成熟度的3個維度,但是它僅是一個靜態化的標準策略集,未能給出組織如何利用模型基于數據安全現狀開展差距評估的過程方法,以及組織如何基于差距評估結果制定適用于本組織實際情況的數據安全策略基線,因而在組織數據安全落地工作中缺乏過程方法論的指導.
根據Gartner發布的2020年數據安全技術成熟度曲線,國內外數據安全相關技術研究中,數據安全治理技術尚處于新技術觸發期,缺乏對數據全生存周期的安全治理體系建設實踐.雖然數據庫安全審計、數據防泄露(data leakage prevention, DLP)、云訪問安全代理(cloud access security broker, CASB)等技術日趨成熟,在數據庫、應用系統、云平臺出入口等單個暴露面起到了一定的操作行為記錄和監控審計作用,但尚未實現各個數據風險暴露面的集中關聯監控和追蹤溯源技術,尚未形成對數據安全的整體態勢感知.
面對電子政務系統數據安全保護工作面臨的諸多風險和挑戰,基于國內外數據安全技術研究分析現狀,筆者參與建設某電子政務系統核心節點數據安全治理體系的工作,探索為數據安全管理相關方設計一套數據安全態勢感知平臺.該平臺能夠動態識別數據資產的分類分級及分布、數量,動態維護數據安全保護策略,動態監控數據安全風險并及時預警處置,初步達到數據資產看得見、說得清、管得住、強審計、能追溯的業務目標[8-13].
數據安全態勢感知平臺整體設計分為數據采集層、數據治理層、分析建模層、應用展示層4層框架結構.其中:
數據采集層.采集匯聚客戶端、網絡、數據庫、應用、云平臺等各風險暴露面的監控設備日志信息,以及數據掃描設備獲取發現的數據分布、數據結構、訪問賬號及權限信息等.
數據治理層.將采集的各類數據安全日志信息進行清洗、泛化并集中存儲,此外,還應具有日志質量監控功能以保證日志采集的全面、準確、及時性.
分析建模層.根據業務安全需求,建立場景化告警規則和基于機器學習的行為分析模型等,根據告警實時性和智能化需求程度不同,模型可分為實時分析、離線分析和智能分析3種.
應用展示層.統一在應用層實現數據安全資產管理、策略管理、監測審計、響應溯源等功能.
系統架構設計如圖3所示:

圖3 數據安全態勢感知平臺架構設計
筆者參與建設的數據安全態勢感知平臺具有如下設計優勢和效果:
1) 采用大數據、機器學習技術進行數據安全海量日志的采集、治理、集中存儲和分析,共計采集數據庫審計、應用安全網關、網絡數據防泄露等5大類、60余臺(套)相關安全設備日志,日均日志處理量逾7億條,建立用戶行為分析模型規則30余條.最終實現日志標準歸一化,存儲在線化、持久化,分析高效化、智能化,大大改善日志分散、存儲時間短、分析規則單一、誤報率高等問題.提升了筆者所在單位數據安全審計工作自動化和常態化水平,減少分析人員工作量2/3,問題準確度逾90%,問題發現周期縮短50%.
2) 實現了基于數據特征動態發現數據存儲分布、流向和使用熱度,使數據所有者和管理者能夠全面動態掌控重要數據分布位置和使用效益,并且實現了數據資產底賬管理和訪問源白名單管理.例如,針對存儲報關單、艙單等行業內全量數據的大數據平臺,梳理出70余條授權訪問源IP、用戶名和工具信息,并基于此訪問基線部署防火墻設備進行最小化授權訪問控制.
3) 采用信息化手段支撐本單位數據安全現狀差距評估,識別差距項14項,以安全能力成熟度3級為目標建立覆蓋全生存周期的數據安全分級防控策略,并維護與10余種數據安全技術防護監控工具的策略支撐關系,實現了策略的統一設計管理以及基于風險監控的動態調整優化.
筆者在從事電子政務系統數據安全態勢感知平臺建設實踐過程中,探索總結出以下4方面創新性工作經驗.
經過對組織內外部調研分析,總結設計出一套適用于電子政務運營者數據安全相關方角色分工架構,以及數據安全態勢感知平臺,能夠為數據安全相關方提供的配套支撐功能(詳見表1),為數據安全治理提供組織機制和配套信息化支撐手段的整體保障.

表1 數據安全角色分工及配套支撐功能
數據安全態勢感知平臺應為數據管理者解決如何將數據所有者給出的數據安全級別或重要數據目錄,轉換為網絡系統中可識別、可追溯的敏感數據或重要數據對象,進而掌握這些數據在網絡中的存儲位置,以及被訪問、獲取、共享和分發的動態流轉情況,從而實現數據的分類分級動態底賬管理[14-16].通過實踐,筆者梳理出一套數據資產底賬分級分類動態管理的流程方法,并明確各環節的設計實現要點:
1) 敏感數據特征定義.
確定數據標識需要分析每一種敏感數據或重要數據在網絡中的電子化特征.就像醫學專家定義每種病菌的特征一樣,只有特征定義得清晰、可識別、沒有二異性,才可以通過特征來唯一定義每一種數據.分類特征是多維度的,例如文件類型、文件大小、文件指紋、關鍵字、正則表達式和編碼規則等等,在網絡中對數據資產進行梳理時應根據特征對數據進行匹配,從而去發現不同特征的敏感數據或重要數據分布位置,以及數據被訪問、共享和分發的動態流轉情況.因此,敏感數據特征定義成為數據分類分級動態管理的第一關鍵技術.
2) 敏感數據掃描發現.
利用數據梳理工具,采用主動掃描手段對指定網段內數據庫、文件服務器等存儲的數據發起掃描,通過特征匹配,識別數據庫和文件服務器中所包含的敏感文件、重要數據的分布目錄,通過分布目錄形成重要數據分布字典.通過探索實踐,敏感數據識別針對結構化和非結構化數據類型,具有不同的解決方案,具體如下:
① 結構化數據.因其結構化的呈現形式及動態的變化,這種標識往往很難通過在數據庫、表上打個標簽來實現,筆者在探索過程中通過明確敏感庫、表、字段的分布位置和名稱,進行集中URL目錄化管理,形成重要數據分布底賬,并通過定期掃描發現,更新重要數據分布的URL目錄.
② 非結構化數據.性能開銷較小的解決方案,依然是通過主機檢查類工具進行文件掃描發現,識別重要數據的分布目錄,而非直接在數據上打標簽,因為標簽計算需要密碼學的加解密和加驗簽等手段,主機性能消耗大,且具有較大的時延,落地體驗較差.
3) 涉數賬號底賬管理.
賬號是訪問數據的鑰匙,是數據的重要關鍵資產,因此必須將賬號底賬管理納入數據資產底賬管理同等重要的范疇.經實踐,采用賬號發現及分析類工具可實現相關賬號底賬動態管理的功能,能夠周期性掃描發現數據資產開設的訪問賬號情況,就指定時間段的2次賬號底賬進行對比分析,及時發現關停未經審批而開設的幽靈賬號以及長期不適用的休眠賬號、離崗離職人員的賬號,從源頭上化解諸多由于賬號管理不完善造成的風險.
4) 敏感數據流轉管控.
知道重要數據在哪后,還要掌握數據流轉情況,因此,需要有針對性地部署監控工具和策略.監控工具同樣需要利用數據管理者定義的數據特征識別這些重要數據被訪問、共享、分發的情況,并進行持續動態監控.進而梳理出數據的訪問源(即誰訪問了哪個重要數據)、數據的流轉去向、形成新的存儲節點及其下游數據節點.為確保重要數據資產訪問均為授權行為,應為每個重要數據資產維護授權訪問的白名單信息,對于新增的訪問源需進行準入確認,對于長期不活躍的訪問源進行下線確認.
數據安全管理者制訂的全生存周期安全策略,需要結合各場景采用相關技術工具支撐其細化落地.策略制訂前,需要明確識別差距和風險,采取應對策略,統籌設計;整體策略發布實施后,數據管理者、運維者、建設者結合具體工作場景,開展細化策略制訂,并引入相關技術支撐工具[17-18].
為實現策略可配、可管,并能基于風險動態變更,在態勢感知平臺上應提供以下措施予以保障:
1) 在平臺上動態管理數據安全策略,基于策略現狀動態開展差距評估,并針對安全監控識別的風險進一步完善策略,實現數據安全策略優化完善的閉環管理;
2) 明確設置每條策略的管理對象、責任部門、實現手段、采取的技術策略及殘余風險,以便策略分工落實和貫徹執行;
3) 盡可能對于各類數據安全工具進行策略集成管理,對于通用安全策略(數據分級分類策略)在平臺側進行集中統一的研制、更新,然后下發至底層探針;
4) 實現各工具設備協調統一,形成合力,從而識別未被保護的盲區和保護存在差距的位置,促進策略進一步健全.
面對數據訪問、傳輸、存儲涉及的多個暴露面風險,應在承載數據資產的網絡環境中,部署多種監控手段(包括數據庫審計設備、終端DLP、網絡DLP、應用安全審計、全流量設備等),構建覆蓋客戶端、數據庫、應用系統、服務器、網絡等多風險暴露面、全方位的風險監控鏈.具體實踐過程中主要采用以下技術:
1) 日志集中采集治理,構建全方位風險監控鏈.
針對監控日志分散、監控規則單一的問題,采取基于大數據和機器學習技術的統一日志采集、治理、智能化分析手段,將上述探針設備解析的監控日志進行集中采集、泛化、治理,形成安全日志統一標準化元數據,作為安全監控告警模型的輸入.構建覆蓋客戶端、數據庫、應用系統、服務器、網絡等多風險暴露面以及全方位的風險監控鏈.
2) 安全監控模型建設,智能化風險預警.
在建立監控規則模型時,依據下列內容:一是行業內數據安全管理制度和策略.違背安全制度策略的行為視為違規.如制度要求賬號專人專用,禁止多人共享,則應據此設置以下監控規則:1天內來源于2個以上跨省網段的IP地址使用同一個賬號登錄系統判定為賬號多人共享.二是數據所有者和數據安全管理者等相關角色共同研究確定的電子政務系統用戶對數據進行異常操作或敏感操作的特征.如對重要數據的查詢/導出數量超過6萬條,以及1天內高頻查詢重要數據,總量達6萬條以上等.
然而,安全監控規則模型的建立有一個難點,即用戶行為異常特征往往無法用簡單的閾值去界定.這是因為出于不同的業務目的而開展的數據訪問行為,形成的行為特征不同,界定異常的標準也不同,而且異常特征往往是多維度特征數據的組合.嘗試引入用戶實體行為分析(user entity behavior analysis, UEBA)技術,關聯全時空上下文,通過深度及關聯的安全分析模型及算法,利用AI分析模型(包括up/down異常、daily周期性異常、weekly周期性異常、新出現實體異常、閾值異常和潛伏型異常、集成學習評分以及強化學習、預測等算法),結合歷史基線和群組對比,可以從時間、頻次、地域、數量等多維度發現各系統存在的安全風險和異常的用戶行為[19-20].經驗證,UEBA 通過聚合異常,大量降低總體告警量和誤報告警量,節省安全審計人員手動關聯分析海量日志的時間,降低驗證、調查、響應的時間,為組織提供內部安全威脅更精準、更及時的定位,以支持開展數據安全常規審計及事件溯源工作.
在從事電子政務數據安全治理工作中,筆者所在團隊基于數據安全風險動態變化的理念,打造一套以數據發現、防護、監測與響應為核心思想,持續化運營的數據安全管理信息化平臺.在平臺建設探索實踐中,筆者總結提出基于角色分工的數據安全管理能力、數據資產底賬分級分類動態管理能力、全生存周期安全策略管理能力和全方位智能化數據安全監控與審計溯源能力4種能力建設落地經驗,以提升組織數據安全管理及內部威脅應對水平,促使電子政務運營者逐步實現數據資產看得見、說得清、管得住、強審計、能追溯管理目標.后續,還需與業界同仁一道進一步深入開展數據安全治理及配套態勢感知平臺建設實踐,為數據資源充分開發利用,數字經濟高速發展,做好安全基石保障工作.