劉孟旭
摘 要 大數據環境下,隱私面臨前所未有的挑戰,部分傳統隱私保護技術面臨失效,如何合理選擇隱私保護技術是一個具有挑戰性的任務。本文分析了常用的隱私保護技術及其局限性,討論了大數據環境下的隱私保護的新挑戰,為大數據應用實踐中建立合理的隱私管理方案提供參考。
關鍵詞 大數據;隱私泄露;匿名化技術;差分隱私
大數據技術與經濟社會的交匯融合引發了數據迅猛增長,數據已成為國家基礎性戰略資源。大數據在帶來了巨大效益的同時,也給用戶隱私保護方面的帶來了前所未有的挑戰。
1 數據隱私的范圍
隱私的界定應以法律為依據,我國《中華人民共和國刑法》、《中華人民共和國民法總則》、《中華人民共和國網絡安全法》、《消費者權益保護法》、《中華人民共和國電子商務法》等有多部法律、法規、規章涉及個人信息保護,《中華人民共和國個人信息保護法》也已列入十三屆全國人大常委會立法規劃。梳理現行和即將出臺的法律法規以及國家標準規范,數據隱私主要包括身份信息、健康生理、財產狀況、社交行為、行蹤軌跡等反映特定主體活動情況的各種信息[1]。
2 數據隱私泄露現狀
據中消協11月28日發布《100款App個人信息收集與隱私政策測評報告》,10類App普遍存在涉嫌過度收集個人信息的情況,59款App涉嫌過度收集“位置信息”,28 款App涉嫌過度收集“通訊錄信息”,23 款App涉嫌過度收集“身份信息”。全球范圍內,2018年6月,美國Exactis公司泄露約3.4億條記錄,涉及2.3億人隱私信息,泄露原因是數據庫暴露在可公開訪問網絡且未采取任何有效的安全防護措施[2]。
3 數據隱私技術
數據隱私保護的常用技術包括數據加密、匿名化以及數據溯源等技術,數據加密技術主要解決數據存儲、計算以及通信的安全性,匿名化技術主要解決數據加工處理、挖掘分析以及數據發布時防止敏感信息泄露。
3.1 數據加密技術
目前數據加密技術主要包括安全多方計算、密文檢索、同態加密等是常用的密碼技術,主要解決數據存儲、通信和分析應用的安全性。安全多方計算可以解決一組互不信任的參與方之間保護隱私的協同計算問題,并確保除了用戶的輸入以及輸出信息外,不會額外地暴露信息。加密存儲和密文在較高的安全前提下,提供較高的檢索效率。
3.2 匿名化技術
是隱私保護最常用的技術手段,通常采用抑制、泛化等操作隱藏或者模糊數據以及數據源。泛化是指對數據進行更加概括、抽象的描述,而抑制則是指不發布某些數據項,常見的數據隱私保護的模型有k-匿名化(K-Anonymity)、l-多樣化(L-Diversity)、T-closeness模型、差分隱私(ε-differential privacy)等模型的及其改進算法,以滿足不同的應用場景需求。
準標識符是指結合一定的外部信息能夠以較高的概率確定一條用戶記錄,k-匿名化模型要求發布的數據中存在一定數量(至少為k) 的在準標識符上不可區分的記錄,使潛在的攻擊者無法區分隱私信息所屬的個體。k-匿名的缺陷是未對等價類中的敏感屬性進行約束,例如,某等價類中任意一個敏感屬性取值相同,則攻擊者可以推理出該敏感值[3]。
l-多樣化(L-Diversity)模型在k-匿名化的基礎上要求每個等價類至少包含L個不同的敏感屬性值,雖然l-多樣化保證了敏感屬性的多樣性,卻忽視了敏感屬性的全局分布。T-closeness模型在l-多樣化基礎上,考慮了敏感屬性的分布問題,要求所有等價類中敏感屬性值的分布盡量接近該屬性的全局分布。
3.3 差分隱私(ε-differential privacy)
是嚴格的、可證明的隱私保護模型,ε是隱私保護參數(ε越小隱私保護程度越高,輸出擾動越大)來調整數據的實用性和隱私性。實際應用中,實施的難度和成本較高,為了平衡隱私性與可用性,ε參數的選擇是個具有挑戰性的問題。
4 大數據環境下的新挑戰
大數據具有規模大、來源多、動態更新等特點,傳統的隱私保護技術都可能失效或面臨新的挑戰。
首先,數據加密技術面臨的挑戰。許多密碼技術是基于內存計算的,不適應大數據分布式存儲和并行計算環境,面臨可擴展性差、計算代價高,不適應新型計算框架等方面的問題。
其次,匿名化技術面臨的挑戰。匿名化模型和差分隱私保護模型都假設數據集的數據是相互獨立的,大數據的大規模性、高速性、多樣性、相關性以及多個異構數據源的融合可能使原有的隱私保護方案失效。
最后,大數據分析和融合面給隱私保護帶來了新挑戰。新型計算框架、高性能算法、更加復雜的分析模型可以挖掘出大數據中的異常點、頻繁模式、分類模式、數據之間的相關性以及用戶行為模式等信息,從而泄露用戶隱私信息或也為攻擊者更豐富的背景知識[4]。
5 結束語
大數據在當前具有廣闊的發展前景,但同時面臨的隱私挑戰和風險也是空前的。大數據隱私保護不僅僅是技術方面的問題,它還涉及法律法規、監管模式、宗教等諸多方面,需要各界共同努力才能實現。
參考文獻
[1] 中消協.100款App個人信息收集與隱私政策測評報告(2018年)[EB/OL]. http://wemedia.ifeng.com/90478388/wemedia.shtml,2018-11-29.
[2] 張嘯劍,孟小峰.面向數據發布和分析的差分隱私保護[J].計算機學報,2014,37(4):927-949.
[3] Sweeney L.k-anonymity:Amodel for protection privacy. International Journal Uncertainty[J].Fuzzines and Knowledge-based Sys Tems,2002,10(5):557-570.
[4] 張俊,蕭小奎.數據分享中的差分隱私保護[J].中國計算機學會通訊,2014,10(6):44-51.