技術賦能下電子檔案數據脫敏應用研究

2022-11-25 12:01:25陳勇姚燕珠

檔案管理 2022年6期

陳勇姚燕珠

摘 ?要：本文對數據脫敏技術及數據脫敏模型進行了介紹與分析，針對電子檔案的敏感數據特征，將K-匿名和L-多樣性模型應用到電子檔案敏感數據保護中，旨在提高對電子檔案的敏感數據的保護能力。

關鍵詞：電子檔案；數據安全；數據脫敏；數據脫敏技術

Abstract： In this paper， the data masking technology and data masking model are introduced and analyzed， and the K-anonymity and L-diversity models are applied to the sensitive data protection of electronic archives to enhance the protection ability of sensitive data of electronic archives.

Keywords： ?Electronic archives; Data security; Data masking; Data masking technology

中辦、國辦印發的《“十四五”全國檔案事業發展規劃》中指出：“在檔案安全體系建設方面，貫徹總體國家安全觀，強化檔案安全保護，提升檔案數字資源安全管理能力，加大檔案資源共享力度，大力推進‘增量電子化’，促進各類電子文件應歸盡歸，電子檔案應收盡收。”[1]如何在數據挖掘、分析、整合、傳遞、共享以及使用的過程中實現對電子檔案中敏感數據的有效脫敏，從而達到數據安全、可信、可控的目的，是電子檔案數據管理者亟待解決的技術性問題。

本文針對電子檔案數據的敏感屬性防護需求，在給定的規則下對電子檔案中所涉及的敏感信息進行去隱私化處理，探討其數據脫敏模式及相關技術的應用。

1 數據脫敏

1.1 數據脫敏的內涵。數據脫敏又可稱為數據去隱私化、數據變形，是指在保留數據初始特征的條件下，按需制定脫敏策略和任務，對敏感數據進行變換、修改的技術機制，可以在很大程度上解決敏感數據在非安全環境下使用的問題[2]。數據脫敏是數據治理的重要內容，是一項保障數據安全的基本技術[3]。

檔案數據安全治理需要嚴密有效、系統完備、科學適用的各種技術工具支撐[4]。目前，已有行業技術人員以保護隱私信息為導向，研究數據脫敏技術及其應用，主要在電力數據[5]、銀行數據[6]、醫療大數據[7]、高校科學數據[8]、軍事大數據[9]等方面。在電子檔案方面，尚未有相關的電子檔案數據脫敏保護方案及應用。

1.2 數據脫敏的原則。首先是技術原則。一是有效性。有效保護敏感數據的安全性是數據脫敏的首要原則。針對不同類型的敏感信息需采用與其需求場景相適應的數據脫敏技術，在保證有效性的同時還需考慮到數據脫敏效果與所花費成本之間的平衡。二是可用性。可用性原則要求在對敏感信息進行脫敏操作的過程中需保障其在具體應用場景的數據可使用性。三是穩定性。原始數據之間存在一定的相關性，在確保各項條件相一致的情況下對原始數據進行多次脫敏處理，須保證每次數據脫敏的結果相同。

其次是管理原則。一是自動識別敏感信息。傳統的脫敏規則配置方法對敏感信息進行脫敏處理效率不高，因而在處理敏感數據之前需建立起敏感信息智能分類庫，再將原始數據導入庫中，實現敏感信息的自動識別，進而提高數據脫敏的效率。二是安全可控。通過脫敏操作后的數據，既保持了原始數據邏輯結構也保留了原始數據的統計特征。因此，在特殊情況下仍有可能導致敏感數據被竊取。為應對敏感信息泄露，需要制定相關的應急預案，采取安全可控的管理方式提高敏感信息的安全系數。三是安全審計。將數據安全審計貫穿于數據脫敏處理的全過程，引入會話式全量數據審計，實時記錄數據脫敏的各類操作行為，形成定期的統計報告，便于后續數據溯源及追蹤，為數據安全事件提供翔實的追責依據。

2 電子檔案數據脫敏的模式

2.1 靜態數據脫敏。靜態數據脫敏一般用于非生產環境，將敏感數據從生產環境抽取并脫敏后用于非生產環境[10]。靜態數據脫敏操作先對目標數據識別定位，將其與預設的脫敏規則相匹配處理，并且確保脫敏結果與生產環境相隔離。其過程為：第一步，登錄內部應用系統；第二步，進入原始數據庫；第三步，靜態數據脫敏引擎處理；第四步，將脫敏后的數據輸出至受保護的鏡像庫中；第五步，外部系統或第三方系統提取數據。

2.2 動態數據脫敏。動態數據脫敏在不脫離生產環境的情境中對待處理的敏感數據進行脫敏操作，適用于大數據場景中處理用戶訪問數據時隱私數據的保護與共享的問題。相較于靜態數據脫敏，動態數據脫敏圍繞脫敏效果的實時性展開操作，脫敏的同時確保數據的即時可用。依據不同的數據特征，靜態數據脫敏內置高效多樣的脫敏算法，其使用具有相同含義的數據來替換先前的敏感數據，例如對姓名進行脫敏處理后，其仍然為有實質意義的姓名；對家庭地址進行脫敏處理后，其仍然為家庭地址；對身份證號碼進行脫敏處理后，其仍然是18位數字且能夠保證地址碼、出生日期碼以及校驗碼的可識別性。

3 電子檔案數據脫敏的技術

3.1 泛化技術。泛化作為目前最常使用的數據匿名化方法中的一種，是將具有敏感屬性的原始數據值替換為一個一般形式值的過程。對于數值屬性AN，給定一個屬性值a，如果區間[b-c]包含了a，那么稱[b-c]是a一個泛化[11]。例如，將電子檔案中“年齡”的原始數值20和24，使用區間[15，25]替換；將屬性為“郵編”的原始數值200386泛化為200***。圖1是某電子檔案中以“部門”為例的泛化樹。其中原始數據為“部門”名稱，一層泛化節點為“區域”名稱，高級泛化根節點為“公司”名稱。原始數據D1={李明，市場部}；支節點一層泛化D1={李明，華南區}；根節點最高層泛化D1={李明，Y公司}。在泛化的遞進過程之中，數據主體的可識別性越來越模糊，一定程度上增強了對電子檔案中敏感信息的保護。

圖2是分類型屬性“疾病”所生成的分化樹，其取值為：腦卒中、帕金森病、支氣管哮喘、肺炎、氣胸、心臟病、肝囊腫、膽管結石。例如“疾病”的取值為“心臟病”，根據圖2分類樹初級泛化后“疾病”的取值為心胸外科疾病；若用戶認為“心臟病”為中級敏感信息，可以用“外科疾病”對外發布數據。

3.2 擾亂技術。擾亂技術是指在原始數據中添加噪聲，使原始數據發生變形或由隨機生成的數值所替代，干擾其直接可讀性，進而達到保護敏感信息安全的目的。電子檔案中包含著大量敏感屬性的信息，為避免這些敏感信息的泄露，通常需要采用一定的方法使其無法在授權之外的環境下被人或機器所獲取，常用的方法如表1所示。

4 電子檔案數據脫敏的模型

4.1 k-匿名模型。定義1（等價類）對于數據表T{ A1，A2，…，An }（n為屬性的個數），一個等價類是指在子集{A1，A2，…，Aj}（j為子集屬性的個數）上取值相同的元組的集合[12]。

定義2（k匿名）給定數據表T{ A1，A2，…，An }，QI是T的準標識符，T[QI]為T在QI上的投影（元組可重復），當且僅當在T[QI]中出現的每組值至少要在T[QI]中出現k次，則T滿足k匿名，記為T’[13]。

隱私和數據保護專業人員通常會以數據表的形式將電子檔案中尚未公開的數據對外發布。數據表中的每一組完整信息記錄著對應的個體特征。電子檔案數據表的屬性可以分為4類[14]：1）標識符屬性（I），指的是能夠直接確定個人屬性的唯一識別碼，主要包括個人姓名、身份證號碼、護照證件號碼等；2）準標識符屬性（QI），是指與個體屬性具有緊密的關聯關系的數據，與其他準標識符相組合可確定目標對象的屬性，該過程也可稱之為“重新標識”，如出生日期、聯系方式、戶籍地等；3）敏感屬性（S），是指電子檔案中所涉及的個人隱私屬性，如收入、病史、信仰等；4）非敏感屬性（N），是指除上述三類屬性之外的其他屬性。

表2為某電子檔案的原始數據。其中，“姓名”為標識符，可以此直接定位個體；“性別”“工號”“年齡”均為準標識符，可通過這4個屬性來確定一個個體；“專業技術崗位等級”為敏感屬性。通常情況下，在對電子檔案中的原始數據表進行 k-匿名模型處理時刪去其標識符，保留非敏感數值。

表3是對表2進行k-匿名模型處理得到的匿名表，此時k=2。表3含有三個等價組，每一個等價組中都對應著2條及以上的數據記錄。將表2中的標識符屬性“姓名”予以剔除，以避免攻擊者能夠直接定位識別個體身份；將準標識符屬性等價組｛性別，工號，年齡｝的取值進行泛化處理，并且保留敏感屬性組“專業技術崗位等級”的原始值。

原始數據表通過k-匿名處理之后，能夠有效降低精準識別某條記錄的概率，進而達到保護數據隱私的目的。k-匿名模型脫敏后的數據表令竊取者通過讀取準標識符之間的關聯性從而定位出目標對象的概率僅為1/k。k-匿名模型能夠保護目標對象的身份安全，但在一定程度上未能抵御屬性泄露的風險[15]。如表3中的個體3和個體4同屬于第2個等價組之中，且個體3和個體4的敏感值都是初級，假定竊取者已知李淑珍的性別、工號和年齡信息，那么竊取者可基于已知信息推測出李淑珍落于匿名表中的第2個等價組內，從而可以確定其專業技術崗位等級為初級。因此，僅僅使用k-匿名模型對電子檔案中的敏感信息進行脫敏操作，并不能夠完全保護隱私數據的安全。

4.2 l-多樣性模型。ｋ－匿名模型脫敏效果的進一步發展。定義3（l-多樣性）給定數據集Ｄ和等價組Ｍ，若Ｄ中的任意Ｍ的不同敏感屬性值的個數至少為l，則稱Ｄ滿足l－多樣性[16]。當某個數據表中的等價組都至少符合l－多樣性模型，則該發布的數據表符合l－多樣性。

表4是某電子檔案中的原始數據表，表5是對其進行l-多樣性模型脫敏處理后得到的數據表。

表5滿足l-多樣性的性質，此時可知k=4，存在3個等價組，即每個等價組中最少含有4條不同的敏感屬性值。經過l-多樣性模型操作得到的表5，l=4，既滿足了數據多樣性的要求，又降低了精準判斷出電子檔案中敏感屬性信息的概率至“1/l”，在一定程度上增強了敏感信息真值的安全性。

經過I-多樣性模型操作得到的表5，相較于k-匿名模型的安全性更強。假設小明欲知目標對象所患疾病且掌握了目標對象個人背景信息，通過目標對象的年齡和學歷確定了目標對象所落在的等價組。此時，小明僅可定位到目標對象的組別，無法直接推斷出目標對象所患的疾病。因此，將l-多樣性模型應用到保護電子檔案敏感數據中，能夠增強敏感數據的安全性，有效降低敏感數據泄露的風險。

5 結語

切實保障電子檔案數據安全，充分釋放檔案數據活力成為熱點議題，這也對電子檔案數據脫敏提出了更高的要求。將數據脫敏技術引入到電子檔案數據安全適用之中，助力構建檔案信息資源新生態，為未來檔案工作“賦能知識社會”的總目標提供了新的思考方向。

*基金項目：國家社會科學基金項目“信息網絡技術驅動檔案移動服務創新路徑研究”（項目批準號20BTQ103）階段性研究成果。

參考文獻：

[1]國家檔案局.中辦國辦印發《“十四五”全國檔案事業發展規劃》[EB/OL}.[2021-06-08].https：//www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.

[2]陳天瑩，陳劍鋒.大數據環境下的智能數據脫敏系統[J].通信技術，2016，49（07）：915-922.

[3]袁紹晚.開放共享環境下城建檔案數據脫敏系統研究與設計[J].檔案與建設，2021（06）：52-54+63.

[4]金波，楊鵬.大數據時代檔案數據安全治理能力成熟度模型構建[J].檔案學通訊，2022（01）：29-36.DOI：10.16113/j.cnki.daxtx.2022.01.004.

[5]冉冉，李峰，王欣柳，楊立春，丁紅發.一種面向隱私保護的電力大數據脫敏方案及應用研究[J].網絡空間安全，2018，9（01）：105-113.

[6]鄭琳.大數據背景下個人數據銀行發展現狀分析及啟示[J].圖書館學研究，2020（05）：2-9.

[7]吳文昊，李占強，席現國，胥婷.數據安全閉環管理在國家健康醫療大數據中心（北方）的實踐[J].中國數字醫學，2021，16（07）：13-17.

[8]劉桂鋒，阮冰穎，包翔.數據生命周期視角下高校科學數據安全內容框架構建[J].情報雜志，2021，40（02）：146-153.

[9]周聰.軍事大數據平臺的安全機制研究[J].數字通信世界，2021（06）：41+45.

[10]苗功勛，蔡力兵，周春龍.基于智能化分析的非結構化數據脫敏技術研究[J].保密科學技術，2021（09）：23-31.

[11]楊挺，薛質，施勇.基于K-匿名的隱私保護關鍵技術研究[J].信息技術，2016（12）：6-9+13.

[12]TONG Yunhai，TAO Youdong，TANG Shiwei，et al.Identity-reserved Anonymity in Privacy Preserving Data Publishing[J].Journal of Software，2010，21（ 4 ）：771-781.

[13]夏贊珠，韓建民，于娟，郭騰芳.用于實現（k，e）-匿名模型的MDAV算法[J].計算機工程，2010，36（15）：159-161.

[14]SWEENWYL.k-anonymity：a model for protecting privacy[j].International Journal of Uncertainty Fuzziness and Knowledge Based Systems，2002，10（05）：557-570.

[15]PRASSER F，BILD R，EICHER J，et al.Lightning：Utility-Driven Anonymization of High-Dimensional Data[J].Transactions on Data Privacy，2016，9（02）：161-185.

[16]劉振鵬，孫靜薇，王爍，王文勝，尹文召，張彬.PDMP：ε_k個性化數據脫敏保護方法[J].計算機應用研究，2020，37（10）：3068-3070+3082.

（作者單位：廣西民族大學管理學院，廣西數字檔案管理研究所來稿日期：2022-08-20）