西安武警工程大學研究生12隊 楊濟華
武警杭州士官學校 郭 程
差分隱私數據保護技術分析
西安武警工程大學研究生12隊 楊濟華
武警杭州士官學校 郭 程
數字化信息資源的廣泛產生、聯接、共享和應用為社會生產、生活提供極大便利的同時,也給個體敏感信息的安全帶來了威脅。本文針對數據發布和分析環境下的隱私安全問題,研究了保護隱私的數據發布與分析算法,使其能夠提供更高準確性和可用性結果的同時,確保個體的敏感信息不被泄露。
數據保護;隱私算法;差分隱私技術
互聯網的發展進步令信息的記錄、處理和傳播變得極為便捷和廣泛。隨著計算機處理能力、數據庫技術的提升,數字化形式的信息呈現爆發式的增漲,層出不窮的各類信息系統也將數據的采集、發布、存儲和分析變得簡單和高效。而信息社會為人類活動提供效率和便利的同時,也無聲無息地記錄了大量關于個人、部門、企業的數據信息。當這些信息被不正當使用時,隱私安全問題便隨之產生,任何人都有可能面臨大數據時代的隱私危機。造成這一現象的原因,一方面是大量的訪問、共享以及分析數據方法手段的涌現,使得數據擁有者難以對數據進行有效的管理。尤其是涉及隱私問題,各類數據被大量的收集和發布,這個過程中廣泛存在著隱私信息濫用的現象。另一方面,除了原始數據本身所具有的隱私信息以外,一些數據中所隱含的規則和模式同樣是需要保護的敏感信息。在數據挖掘技術不斷增強人們對信息駕馭能力的同時,如何防止其過程中隱私泄露也是一個亟待解決的問題。
2.1隱私保護來源與發展
數據的隱私保護這一問題最早是由統計學家Dalenius在20世紀70年代末提出。他認為,保護數據庫個體隱私信息,就是要使任何用戶(調用者)在訪問數據庫時不能任意獲取關于任意個體確切信息。在當時這一定義具有理論上的指導意義,而現在看來它是主觀的和模糊的。
而經過之后若干年的研究與改進,提出了k-anonymity模型來處理在數據的發布當中的隱私泄露以至于被盜用的問題。
k-anonymity模型通常采用泛化和壓縮技術對原始數據進行匿名處理,以得到滿足k-anonymity模型規則的匿名數據。規則的核心是要求每組匿名處理后的數據中至少包含k條記錄,每條記錄都不能和其他至少k-1條記錄區別開來,從而阻止攻擊者根據類身份屬性識別目標個體的對應記錄。
k-anonymity及其擴展模型在隱私保護領域影響深遠且被廣泛研究,在它的基礎上又誕生了一系列隱私保護模型。這些模型的基本思想都是將數據集里與攻擊者背景知識相關的屬性定義為準標識符,通過對記錄的準標識符值進行一系列的泛化、壓縮處理,使所有記錄被劃分成若干個等價類,每個等價類中的記錄具有相同的準標識符值,從而實現將一個記錄隱藏在一組記錄之中,這類模型也被稱為基于分組的隱私保護模型。
2.2隱私保護的缺陷與差分隱私
然而后續研究表明,這些模型存在兩個主要缺陷:
第一,這些模型并不能提供足夠的安全保障,它們總是因新型攻擊的出現而需要不斷完善。
第二個缺陷是這些早期的隱私保護模型無法提供一種有效且嚴格的方法來證明其隱私保護水平。
差分隱私:
差分隱私是在2006年針對統計數據庫的隱私泄露問題提出的一種新的隱私定義。在此定義下,對數據集的計算處理結果對于具體某一條記錄的變化是不敏感的,單個記錄在數據集中或者不在數據集中,對計算結果的影響微小。差分隱私能夠解決傳統隱私保護模型的兩個缺陷,首先,假設攻擊者掌握了攻擊目標之外其余所有記錄信息,可以認為這是攻擊者能夠掌握的最大信息量(最大背景),而差分隱私保護無需考慮攻擊者所擁有的相關信息,因為攻擊者不可能掌握更加豐富的信息量。其次,差分隱私技術在數學基礎之上對隱私保護進行了嚴格的定義,而且提供了良好的量化測評,使各個參數處理的數據集具有了可比性。
2.3差分隱私定義
差分隱私保護模型的提出脫胎于數據庫安全理論中的一個簡單構想:當數據集D中包含某個體A的信息時,在D上進行任意查詢操作f(如排序、統計求和、求均值、取中位數以及其他復雜查詢等),將所得結果記為f(D)。如果將A的信息從數據集D中刪除后,再對D進行同樣的查詢操作,所獲得的結果仍然為f(D),則可以認為,A的信息并沒有因為被包含在數據集D中而產生額外的風險。
差分隱私的形式化定義如下:


則稱算法A提供ε-差分隱私保護,其中Pr[X]表示事件X發生的概率,即隱私泄露的風險,由算法A的隨機性所決定。參數ε稱為隱私保護預算,ε越小,算法A在兩個臨近數據集上輸出同樣結果的概率越相近,隱私保護程度越高。
作為當前新興的隱私保護技術,差分隱私在理論研究和實際應用方面都有著非常廣闊的前景和重要的價值。該模型在提出之初,主要用于保護統計數據庫的隱私安全,使其能在發布數據庫的統計信息時保護其中個體的敏感信息。現有的研究成果已經證明,隨著相應實現機制的不斷完善與發展,差分隱私理論既可以應用于各種常見的統計查詢、數據發布等場景中,也可以在更高級的數據分析領域發揮作用,如機器學習、知識發現等。理論上的可證明性和應用上的通用性使差分隱私理論得到了業內學者們的廣泛認可。
本文圍繞數據發布和分析環境下的隱私安全問題,致力于研究算法在保證個體敏感信息安全的同時,使數據發布與分析結果具有更高的準確性和可用性,以促進隱私上更加安全可靠、應用上更加全面豐富的信息資源共享——開發技術的發展。差分隱私技術作為新興的隱私保護技術,能夠更加完善先前的隱私保護技術所存在的利用其相關信息的盲點進行攻擊這一漏洞,提供了更加可靠的隱私保護技術。
[1]李奕霏.“人肉搜索”引發的隱私權侵權及其法律規制[J].西北大學學報:哲學社會科學版,2010,43(5):67-72.
[2]曾子平.發布數據的隱私保護技術研究[D].重慶:重慶大學,2013.
[3]劉英超.面向分布式的數據挖掘隱私保護方法研究[D].哈爾濱:哈爾濱工程大學,2013.
[4]Aggarwal G,Feder T, Kenthapadi K,et al.Anonymizing Tables[J]. Lecture Notes in Computer Science,2009:246-258.