周麗霞 賀 星
(黑龍江大學信息管理學院,黑龍江哈爾濱, 150080)
數字全球化使得數據價值日益凸顯,傳統的“管理”理念不再滿足數字社會需求,逐漸轉化為“治理”。早在2014 年國家檔案局就提出要推進檔案治理體系與治理能力現代化,此后學者對檔案治理展開多維研究,重點涉及檔案治理理論研究、專門檔案治理、檔案治理能力提升、檔案數據治理等方面。[1-5]其中,學者們對檔案數據安全治理的研究比較少,且大多較為宏觀。因此,本文以檔案數據安全治理為切入點,以期探索數字治理賦能檔案數據治理的能力、手段、方式,促進檔案數據協同、共治、共享,進而充分釋放檔案數據作為生產要素的價值。
數字治理將數據作為基礎性、關鍵性的生產要素。在內容上,數字治理是指對圍繞數據要素開展的活動進行治理;在目標上,數字治理利用數據實現全方位的治理;在空間上,數據存在的環境,即網絡空間的發展是數字治理發展的基礎。因此,數字治理的核心要義是對數據的治理。而當下數據安全問題嚴重制約了數據開放利用體系的構建與完善,所以目前數字治理應著重解決數據安全問題。
數字技術融入檔案數據安全治理能滿足檔案數據安全的三個需求:一是縮小檔案數據信息鴻溝。數字治理優化原來縱向逐層管理方式,打破層級信息數據流通、業務流通限制,實現橫向、縱向檔案數據的互通互聯與超大范圍協同共享,給檔案數據資源匱乏的檔案“弱勢群體”帶來更多檔案數據資源與權利。二是建立可信任網絡環境。當前環境下,靜態、隔離式、單點的傳統安全防護手段的漏洞越來越大,加之檔案數據在存取、利用等數據流轉過程中的數據追蹤方法技術不完善,增加了檔案數據風險。數字治理不僅能借助智能合約、加密等手段保護“邊界”內部的檔案數據本身安全,還能通過數據采集、算力提升、反追蹤等技術手段實現對數據風險的管控。三是促進檔案數據安全工作提質增效。數字治理通過數字技術提升了檔案數據安全治理的精準度,有助于簡化工作流程、擴大治理范圍,實現微觀治理和精準治理。
在數字治理整體框架下,檔案數據安全治理聚焦檔案數據安全的脆弱性,對檔案數據在數字背景下面臨的各種安全隱患和風險進行治理(檔案數據安全治理模型總體框架如圖1 所示)。
檔案數據安全治理模型從檔案數據安全的目標出發,旨在解決檔案數據安全實際問題,釋放檔案數據價值。目標層包括總體目標與重點目標兩部分。檔案數據安全治理模型總體目標是在檔案數據分級分類基礎上,通過多元主體協同方式實現檔案數據安全合規利用,釋放檔案數據要素價值。檔案數據通過安全治理為共享、流通提供安全穩定的空間環境與監管措施,以超大范圍的協作共治提高檔案工作效率,保證檔案數據價值實現。檔案數據安全保護重點目標是檔案安全治理的具體、核心任務,主要包括重點檔案數據的安全保護、敏感檔案數據的識別與保護以及對檔案數據整體環境、工作流程、業務流程等的風險防控三方面。
檔案數據生命周期分為采集、存儲、整合、分析與應用、歸檔和銷毀幾個階段(見圖2)。檔案數據在整個生命周期中,其價值、訪問次數、利用頻率、時效等會隨時間而變化。據此,檔案數據熱度按照生命周期可劃分為四個階段:冷、熱、溫、冰。采集與存儲中的檔案數據屬于冷數據,其特點是數量巨大、使用頻次極低、價值未釋放。開始整合、分析利用時,數據進入熱數據階段,檔案多元價值不斷被挖掘、激活、重組。這一階段,檔案價值高、利用率高、訪問頻率最高、安全性較低,是重點保護階段。隨著時間推移,檔案數據時效性、價值密度逐漸降低,相當一部分檔案已完成最大化價值釋放而被再次歸檔保存,檔案數據熱度降低、使用與訪問頻率降低,從熱數據階段進入溫數據階段。當檔案數據價值釋放殆盡成為高齡數據、相當長一段時間內使用與訪問頻率趨于零、已過保管年限時,檔案數據將進入銷毀階段,也就是冰數據階段。冰數據會隨數據積累存儲量越來越高,但安全存儲不再是該階段的重點工作。檔案數據生命周期數據熱度呈現“中間熱兩頭冷”的特點,故每個階段都有不同工作重點。

圖2 檔案數據生命周期示意圖
冷數據期,檔案主要被采集、存儲起來,安全治理的重點在存儲,宜采取靜態封存,利用物理隔離、防火墻等手段保護檔案數據靜態環境安全。熱數據階段,檔案數據從靜態變為活躍狀態,由于網絡環境中安全威脅多,此階段的安全治理難度最大。當檔案數據進入溫數據階段時,檔案安全治理側重點重新回到存儲上,與存儲階段保護方式基本相同。當檔案數據進入冰數據階段,檔案數據將面臨銷毀難題,其安全的側重點是銷毀工作本身。
安全控制層在總體上分為兩部分:檔案數據梳理是檔案數據安全治理工作的前提工作;檔案數據的安全存儲、安全訪問、安全利用與安全審計工作都在檔案數據梳理的基礎上開展。
數據梳理包括兩方面內容:一是將采集來的檔案數據分級分類,二是重點、敏感檔案信息數據發現。“傳統的數據倉庫無法滿足多元化數據結構的存儲和查詢以及非結構化和結構化數據的交叉分析”[6],需要引入新的存儲與管理方式對多元異構檔案數據實行保護。檔案數據安全治理模型將數據湖引入傳統數據倉庫存儲中,建立湖倉并行的一體化存儲模式。身份認證是訪問控制的第一步,而基于憑證的網絡攻擊如憑證填充、釣魚等加大了網絡環境的復雜性,加之檔案業務種類豐富化和用戶角色多樣化,單一密碼形式或基于IP地址、VLAN、MAC設置的身份認證逐漸無法滿足檔案數據安全需求,需要通過多因素身份認證以及對用戶訪問的持續驗證來實現用戶行為分層控制。檔案數據利用要解決兩個安全問題:一是檔案數據的合規性,包括檔案數據本身的合規性驗證與檔案數據的合規利用。二是檔案數據泄露,最基本的手段是實現檔案數據全域脫敏,以此保護檔案數據整體安全。就檔案數據動態變化而言,檔案數據安全監督與審計的主要目的是為檔案數據安全治理整體框架提供支撐與保障,確保檔案數據整體環境安全,“建設動態網絡安全監控感知平臺和預判機制,做到數據流程可追溯”[7]。檔案數據的安全審計從檔案數據生命周期看,需要對數據庫進行審計;從檔案數據資源角度來看,包括對檔案數據的價值審計和有效評估;從整個檔案數據安全監管來看,則需要全域定期稽核。
隱私保護層旨在保護檔案數據中的敏感數據,不僅包括個人信息,而且包括檔案數據內容中的敏感數據。隱私保護應該貫穿檔案數據安全治理的始終,防止個人數據與敏感數據被泄露、濫用。
敏感數據包括非結構化和結構化兩種類型。由于檔案數據數量大、范圍廣,敏感詞匯分散性強,需要在檔案數據梳理的基礎上進行敏感數據的全域發現。非結構化檔案數據敏感信息需被獨立識別。智能敏感數據識別技術能從非結構化文本、圖像中識別敏感數據信息。文檔形式的非結構化檔案數據可以基于相似度算法的敏感數據識別提取敏感信息。提取敏感信息后,根據敏感信息種類和敏感程度,建立敏感詞、敏感檔案文件庫,采取無監督、監督學習算法相結合的方式,“自動、實時和精準地從監控數據中發現數據異常”[8]。對于結構化檔案數據敏感信息的識別處理可以運用機器學習技術,以提高檔案敏感數據發現的精準度和匹配度。對數據庫中檔案數據進行自動化打標簽、分級分類處理,在一級分類上劃分個人信息敏感數據、檔案內容敏感信息、檔案業務數據敏感信息,并根據一級分類細分敏感信息內容。智能引擎通過智能分析控制,出具質量報告與處置報告,從而實現智能全域隱私發現控制。
現代信息技術數據安全的核心元素可以概括為5個A[9],即Authentication(身份認證)、Authorization(授權)、Access Control(訪問控制)、Auditable(可審計)、Asset Protection(資產保護)。檔案數據安全技術體系框架是檔案數據安全治理的基底。單從5A安全元素一個角度考慮檔案數據安全技術架構,會出現技術混同現象,如從授權角度看,有數據層授權、用戶授權、應用授權等,而授權技術應用相當一部分都是交叉使用的,致使難以厘清技術脈絡,使“治理”達不到“治”與“理”的目的。因此有必要增加一個技術目標層,以實現檔案數據安全零信任、自動化、可視化、全面化,選取適當的數字技術,讓檔案數據在零信任的網絡環境下,自動化、可視化地實現檔案數據安全全面治理。據此筆者將檔案數據安全技術體系總結為由5A安全元素層、目標層、技術層三個維度構成的三維模型(見圖3)。
2.5.1 零信任
檔案數據安全首先建立起“零信任網絡”觀念,防止流量攻擊等縱向攻擊造成檔案數據安全事件。軟件邊界自定義將控制面與檔案數據處理面分離開來,客戶端將檔案用戶、訪問行為、檔案應用設備等相關信息賦予身份標識,經由控制平臺驗證,驗證通過的請求將被賦予臨時訪問限權;用戶訪問行為受到實時監督、評估、管控,確保動態安全。增強身份認證包括對人的認證和對設備的認證,為確保檔案數據的安全性,僅賦予訪問者能達成合規訪問目標的最小權限。身份認證不信任檔案機構內外部所有人,無論是運維管理的工作人員還是檔案利用者都需要通過動態口令與身份認證機制相結合進行雙因子認證,其中,認證機制需要采用FMA等強身份認證方式將檔案數據內容因素、所有權因素、用戶身份因素等綜合考慮,更靈活、安全地實現身份認證。
2.5.2 自動化
應用自動化技術可以大幅降低人的干預產生的安全問題,同時將人從簡單、重復的工作中解放出來從事更高級的腦力勞動,繼而達到降低成本提高效率的目的。DLP(Digital Light Processing)數據防泄漏技術根據檔案數據等級、類別,分域對敏感重要檔案數據與普通檔案數據開展數據流轉研究,掌握檔案數據輸出渠道以及檔案數據泄漏情況,準確判斷、控制、及時過濾數據信息,從而提高檔案數據分域防護等級。數據智能聚類是檔案數據群分析、業務分析、可視化的前提。其基于不同智能聚類算法分析檔案數據庫、業務流程等安全治理各個環節中用戶訪問變化情況、數據流轉情況等,快速發現異常因素,避免人工管理的誤差。機器學習是實現自動化的關鍵技術。機器學習利用算法精準預測檔案數據安全風險,通過對數據的統計分析捕捉危險源與用戶異常行為,在不斷學習中提高安全保護能力與檔案數據所處環境的安全級別。
2.5.3 可視化
可視化是數字治理的特色呈現方式。在數據內容可視化方面,熱度圖、圖表聯動、動態顯示報表等能實時監控檔案數據全生命周期以及不同業務檔案數據的變化情況,尤其針對敏感、重要檔案數據,需要通過更加周密、頻繁的可視化界面來監控、追蹤數據,嚴格管理時間序列、日志、標簽等數據。在用戶行為可視化方面,一方面通過用戶畫像精準描述用戶群,為日后制定針對性安全策略做好準備工作;另一方面通過用戶行為序列圖、用戶行為路徑可視化等方式跟蹤定位用戶訪問行為,阻斷惡意攻擊和不合規操作,并對違規用戶進行溯源。在網絡安全環境方面,采用網絡安全態勢感知技術評估網絡安全狀態、預測網絡安全影響檔案數據安全的發展趨勢,并通過可視化的方式呈現出來。
2.5.4 全面化
發現檔案全域敏感數據需要進行全域脫敏,全域脫敏依賴AI人工智能技術與機器學習。AI人工智能技術能通過自動化嗅探識別檔案數據存儲環境、梳理檔案數據內容信息,同時借助機器學習的能力,有效解決全域敏感數據發現過程中的準確度、匹配度等問題。機器學習還具備廣泛的技術適配性,可通過多種技術的復合應用來實現企業應用場景中的異構數據類型及不同數據源的全域敏感數據的發現。
數字治理要求檔案數據安全“可審計”。總的來說,全面審計要建立前、中、后臺交互工作模式,以智能審計軟件(中臺)為主體,利用大數據處理技術實施審計重點輸出,驅動審計業務(前臺)開展審計并在線反饋。在審計專家(后臺)綜合分析后,對審計活動實施統一的計劃、協調、管理、控制與決策,最終形成并輸出審計成果。另外利用智能審計系統的檔案管理功能,對前期所有審計項目發現的系統問題和數據問題,進行歸集、分類、追蹤、分析,為本次審計提供更多的支持證據,得出審計結論。
全面的業務場景分析能最大限度激發各主體的協同價值,發揮不同主體優勢,共建安全合力。一方面,安全治理有利于細化檔案數據利用安全場景,根據不同業務的側重點構建不同的安全策略,使用不同安全技術。另一方面,從檔案數據自身業務流程出發,細化安全責任,在基礎保障、技術支撐、智力支持、平臺穩定等方面發揮協作治理作用,提高檔案數據安全治理的質量和效率。
檔案數據安全治理模型良性運行,依靠各層級之間的相互協調,圍繞檔案數據要素形成政策規范、流程有序、協同共治的檔案數據安全治理模式(見下頁圖4)。

圖4 檔案數據安全治理模型運行機理
數字治理要求檔案數據安全治理從治理戰略出發,為實現長期總體目標指明全局規劃與工作方向。目標層的組織規劃引導安全層與技術層規劃設計。一方面,目標層引導安全內容組織,針對檔案數據安全需求,從技術、內容、場景三方面梳理檔案數據自身的脆弱性以及面臨的風險威脅,確定安全層各模塊的安全保護工作重點以及技術應用。另一方面,目標層在模型運行中起到動態協同作用。數字治理拓寬了各責任主體的治理自主權利,但各主體仍需從目標戰略層面形成自上而下貫穿組織整體架構的意識共識,根據檔案需求動態協調并持續優化。
從數字治理角度,檔案數據安全治理須符合合規性要求,目標無論怎么變化都要符合檔案數據生命周期規律,只是根據不同的影響因素與檔案數據形式等的變化在生命周期基礎上有所調整。對于安全模塊與技術應用來說,二者共同構建起生命周期安全保護體系,其以檔案數據生命周期為引導,并反作用于檔案數據生命周期。檔案數據安全治理要求對檔案數據全生命周期各個環節安全問題與風險進行分析,分區域管理檔案數據安全,對不同環節、不同區域采取不同安全治理策略,并充分發揮主體協作作用與優勢實施安全聯防聯控,保障檔案數據整體安全。
安全層以目標層為導向,以技術為支撐,以檔案數據生命周期發展順序為構建依據,通過安全層運行實現檔案數據安全治理。第一,在數據分級分類原則要求下,對采集篩選后的檔案數據進行綜合梳理,制定分級分類策略,劃分檔案數據類型與等級,識別、確定檔案數據中的重要數據、敏感數據,為檔案數據流轉利用階段的安全治理工作做好準備。再根據檔案數據梳理情況對檔案數據生命周期進行流程管控。第二,通過檔案數據安全層建設執行戰略目標,通過數據安全層日常風險管理與運營為檔案數據提供安全的存儲與流動環境,并通過完善包括風險全域監控、模型能力評估、安全審計等流程的管控機制,提高安全治理可持續的能力。
技術層運行機理在于促進安全治理模型整體功能實現。一是以技術支撐檔案數據安全治理目標與安全模塊功能實現,推動檔案數據資源與技術融合交互,保障檔案數據安全治理模型的順利搭建與運轉,并可以通過技術不斷完善、更新迭代。二是利用數字技術提高模型開放程度。橫向上加強各責任主體與檔案業務之間的關聯性,縱向上增強對流動中的數據的保護,將檔案生命周期的保護重點從源頭轉移到過程,釋放檔案數據要素價值,通過檔案數據利用倒逼治理能力提升。三是利用數字技術強化環境監管。一方面安全審計為檔案數據安全提供風險監管保障;另一方面檔案數據隱私保護滲透檔案數據安全治理每一環節,防止敏感檔案數據、個人隱私信息泄露。