貴州師范大學物理與電子科學學院 陳 葡貴州財經大學管理科學學院 陳 葵貴州師范大學物理與電子科學學院 游子毅
?
基于K-匿名技術的隱私保護探討
貴州師范大學物理與電子科學學院 陳 葡
貴州財經大學管理科學學院 陳 葵
貴州師范大學物理與電子科學學院 游子毅
【摘要】大數據背景下,數據挖掘技術得到了新的發展。人們享受著科技帶來的便利的同時也要遭受到安全攻擊—隱私信息泄露,本文介紹了隱私信息泄露,分析簡單的匿名技術處理會受到鏈路攻擊,介紹并分析了K-匿名技術來解決鏈路攻擊的問題,最后說明其安全性。
【關鍵詞】鏈路攻擊;K-匿名技術
隨著大數據時代的到來及數據挖掘技術的發展,人們享受著科技帶來的便利,比如:當去醫院看病時,可能不再像以前那樣依賴醫生,可以根據以往的病例分析出病人的病情,從而根據以往病例的用藥,科技是一把雙刃劍,人們在享受科技帶來的便利的同時也遭受著其帶來的安全威脅,比如從醫院的病歷數據中挖掘關聯規則,以進行疾病的預防與控制。本文介紹如何使用K-匿名保護技術保護個人隱私[1]。
數據匿名化是保護隱私信息的一個有效方法,通過改變原始數據中的部分數據,使得新數據不能跟其他信息結合而推理出隱私信息[1]。為了幫助大家理解數據匿名化,下面將對相關概念進行介紹。
表1.1記錄了美國某醫院在某一天新增的病例,這些病例屬于微數據,包含了患者的姓名和所患疾病等隱私的信息。如果將這些微數據直接發布出去,將會導致患者隱私信息的泄露,可能會對患者的生活和工作帶來不好的影響。從表中一眼就知道Mary患有Bronchitis。
使用數據匿名化技術保護隱私數據是目前研究的比較廣泛的方法。把數據中能起到標識隱私信息的屬性隱藏,再將數據發布,將表1.1病例中的身份信息—“姓名”隱藏,直觀上無法知道某個患者患病情況,從一定程度上保護了隱私信息。然而該匿名化容易遭受鏈接攻擊,例如,在馬薩諸塞州,可以從Group insurance Commission(GIC)得到居民的健康信息表,其中包含郵政編碼、性別、生日、健康狀況等一百多個屬性;同時,選民注冊信息登記表容易獲得。將健康信息表與選民注冊信息登記表進行鏈接,攻擊者可以很容易的知道多數在選民信息登記表出現過的選民的身體健康狀況。所以應在數據發布之前對數據進行特殊處理使得隱私信息不被泄露[1]。本文采用K-匿名保護技術來保護隱私信息。

表1.2 K-匿名數據表(K=2)

表1.1 某醫院病例微數據
為了更好的理解K-匿名保護技術,可將待發布的數據元組的屬性分為以下幾類四種。
標識符屬性(identifiers):能夠標識個體的身份屬性。如身份證號,姓名,社會保險號等[2]。
準標識符屬性 QI(quasi-identifiers):與其它數據表鏈接后能標識個體的身份的屬性。如性別,出生年月日,郵政編碼,種族的組合[2]。
敏感屬性(sensitive attributes):數據發布時需要保密的屬性。如薪水,健康狀況[2]。
非敏感屬性(non-sensitive attributes):可以公開的屬性,即是否公開對用戶的隱私無影響的屬性,又
稱普通屬性[2]。
其基本思想是使同一等價類中的各個元組彼此之間無法區分,從而達到隱私保護的目的。其形式化的定義如下:
定義1 K-匿名(K-anonymit),表R(A1,A2,…,An)為原始數據表,RP(A1,A2,…,An) 為匿名化后的數據表,QID是與其對應的準標識符,稱數據表RP滿足K-匿名,如果RT[QID]中的每個序列值在RT[QID]中至少出現k次( k>1)。
例如表1.1是某個醫院的原始數據表,將標識符屬性(姓名)刪除,接著經過K-匿名(K=2)處理后得到表1.2,表中每個元組的準標識符屬性值(Sex、Age、ZipCode)都出現2次,元祖之間在準標識符上無法區分,即使跟其他表鏈接由于準標識符不能唯一標識元組,也不會造成隱私信息的泄露。
K-匿名技術是指在數據發布前對數據進行處理,使得發布后的數據集中每個元組都存在至少K個元組,這些元組在準標識屬性取值相等。通過處理后即使攻擊者與其他容易獲得的數據表進行連接也無法唯一的確定敏感屬性與用戶之間的對應關系,僅能以不超過1/k的概率標識元組所屬的個體,降低了隱私泄漏的風險[2]。
大數據時代背景下,數據容易獲得,數據之間存在著千絲萬縷的聯系,原始數據表容易泄露隱私信息,把數據表中標識屬性去掉后仍然容易遭受鏈路攻擊,為了能切實保證隱私信息的安全,本文從概念、應用介紹了K-匿名保護技術,并說明了其安全性。
參考文獻
[1]何賢芒,隱私保護中K-匿名算法和匿名技術研究[M].上海:復旦大學,2011.
[2]李林.基于K-匿名技術的隱私保護研究[M].杭州:杭州電子科技大學,2013.
陳葡(1985—),女,碩士研究生,現從事無線傳感器與數據挖掘研究。
作者簡介:
基金項目:“基于VANET的最佳路徑選擇研究 ”,2014年貴州省科學技術聯合基金項目(黔科合LH字[2014]7045)。