■ 文/王智慧
王智慧,博士,就職于復旦大學計算機科學技術學院,目前主要研究方向為數據庫、數據挖掘、數據安全與隱私保護等。
隨著隱私保護研究的深入開展,其研究成果將會給數據開放提供有力保障,推動數據資源的共享利用。
隨著大數據時代的到來,數據資源的價值得到越來越多的重視,數據資源的開放共享利用也愈發迫切。例如,醫療數據的開放共享可以減少患者的重復檢查,幫助醫生對患者及時確診、找到合適的治療方案,以及為臨床診斷、藥物研發等方面提供數據支持,推動醫療數據價值的實現。
然而,在現實中,隨著數據資源的戰略性和商業價值越來越顯現,數據資源的開放共享變得越來越困難。造成這種局面的主要原因之一是數據開放共享時的隱私保護問題。以醫療數據為例,其中就往往包含較多的隱私信息,例如患者個人信息、既往病史、就診記錄等。因此,對隱私泄露的顧慮不可避免地制約著醫療數據的開放共享。
從數據開放共享模式下的隱私保護需求來考慮,實現對個體隱私的保護是一個重要環節。通過保護數據所描述的個體對象的隱私,實現對個體隱私的保護。因此,從隱私保護的角度來說,數據開放共享要求必然是有限制的開放共享。
個人隱私通常是指特定個人相關的但不愿為他人所知的敏感信息。例如,直接開放共享如表1所示的病情診斷表(表中信息均為展示方便而虛構),就可能會造成隱私的泄露,因為一般患者并不情愿讓別人知道自己患有諸如艾滋病或肝炎等疾病。
值得注意的是,敏感信息本身并不構成隱私,只有當其與特定個人形成關聯時才構成隱私。因此,隱私保護可以通過降低或消除個體身份與其敏感信息之間的關聯來實現。從這個角度考慮,可以通過隱藏姓名、身份證號等唯一標識個體身份的標識符屬性,來實現對個體的隱私保護。例如,針對表1的患者信息,可以考慮將患者姓名去除后,發布共享如表2所示的信息。

表1 病情診斷表

表2 簡單匿名處理后的病情診斷表
但是,這樣簡單的匿名處理能否實現對個人隱私的保護呢?假設攻擊者在得到如表2所示的匿名化的病情診斷表之后,再通過其他途徑得到患者登記信息(如表3所示)。攻擊者通過組合表2和表3這兩組數據,仍然可能唯一確定某些個體,從而造成隱私泄露。因此,這種通過隱藏標識符屬性的簡單匿名化處理不能達到隱私保護的效果。
如表2和表3的例子所示,通過與外部數據相關聯,原本隱藏的個體仍然可能被唯一確定,進而其隱私信息被重新鑒別出來,這種攻擊行為被稱為鏈接攻擊。鏈接攻擊之所以能夠成功,是由于在數據中存在所謂“準標識符”的某些屬性或屬性組合,例如表2中的屬性組合(年齡,性別,居住地郵編)。這些準標識符雖然不能完全唯一標識個體身份,但在許多情況下能夠起到類似標識符的作用。
為了解決鏈接攻擊所導致的隱私泄露,美國哈佛大學定量社會科學研究所數據隱私實驗室主任拉坦婭·斯威尼(Latanya Sweeney)等人提出k-匿名的隱私保護模型。k-匿名的基本思想是在去除標識符屬性的基礎上,通過對數據做進一步處理,使得每一條數據至少與其他k-1條數據在準標識符屬性上都具有相同的屬性值。通過這樣弱化準標識符的作用,來實現對個體隱私的保護。一般來說,可以通過對數據做概化處理或抑化處理來實現k-匿名。概化處理是指將原本的具體屬性值用概括的不確定值代替。比如,將居住地郵編的具體屬性值“13011”用“130**”代替。抑化處理是指完全消除或隱藏原本的屬性值。比如,將性別“男”用“*”代替。抑化處理也可以看成是概化處理的一種特例。表4給出了對表2進一步做k-匿名(k=3)處理后的數據,其對居住地郵編和年齡屬性進行了概化處理,對性別進行了抑化處理。

表3 患者登記信息表

表4 k-匿名(k=3)處理后的病情診斷表
對于滿足k-匿名模型的數據來說,每一個在數據中出現的準標識符屬性值組合都對應至少k條數據記錄。因此,在理想情況下,鏈接攻擊的效果將至少被弱化為原來的1/k。但是,在實際應用中k-匿名模型仍然存在兩個主要的缺陷,使之不能夠達到理想的隱私保護效果。
首先,k-匿名模型可能會受到所謂的同質攻擊。表5給出了同質攻擊的一個例子。在這個開放共享的數據表中,表中數據雖然已經滿足k=3時的k-匿名要求,但由于最后3條記錄的病情診斷結果都是肝炎,如果已知某位男性患者的年齡為31歲、居住地郵編為13532,仍然可以從表中得到該患者的病情診斷結果是肝炎這一隱私信息。

表5 同質攻擊的情形
其次,k-匿名模型可能會受到所謂的背景知識攻擊。表6給出了背景知識攻擊的一個例子。在這個開放共享的數據表中,表中數據滿足k=3時的k-匿名要求。已知某位女性患者的年齡為29歲,居住地郵編為13130,如果攻擊者了解該患者心臟正常這一背景知識,就可以從表中推斷出該患者的病情診斷結果是艾滋病這一隱私信息。

表6 背景知識攻擊的情形
針對k-匿名的缺陷,由美國杜克大學助理教授阿斯溫·馬沙納瓦哈拉(Ashwin Machanavajjhala)等人提出的l-diversity,以及美國普渡大學計算科學系教授李寧輝等人提出的t-closeness等多種隱私數據保護模型,要求在k-匿名的基礎上,進一步加入對涉及個人隱私的敏感信息分布情況的考慮。但是,由于缺乏對攻擊者所具有的背景知識的有效度量,這些模型對于背景知識攻擊仍然難以從根本上加以防御。

在現實應用中,攻擊者所具有的背景知識通常是難以預知的。針對這一情況,美國哈佛大學工程與應用科學學院教授辛西婭·丹格(Cynthia Dwork)等人提出了差分隱私(differential privacy)。差分隱私通過隱私保護預算參數,來控制算法在相鄰數據集上獲得相同輸出的概率比值,不受攻擊者背景知識的約束。它能夠在非常苛刻的假設前提下(即假設攻擊者除了某未知的個體數據之外,已擁有所有其他個體數據作為背景知識),保證個體數據以一定概率不被攻擊者獲取。同時,差分隱私也具有嚴格的數學基礎,具備可證明的隱私保護能力。因而,差分隱私在隱私風險的量化評估上也具有明顯的優勢。
在差分隱私的實現過程中,一般通過引入適當的噪聲數據來達到保護隱私的目的。拉普拉斯機制(Laplace機制)和指數機制是引入了兩種噪聲數據,實現差分隱私的基本機制。這兩種機制可以適用于不同的應用場景,其中拉普拉斯機制能夠對數值型數據做較好的處理,而指數機制則主要針對非數值型數據。
差分隱私具有兩種組合特性:序列組合性和并行組合性。序列組合性是指當使用多個差分隱私算法依次處理同一數據集時,其組合效果的隱私保護程度取決于其中各組成算法的累加效果。并行組合性是指如果多個差分隱私算法處理的數據集彼此不相交,那么其組合效果的隱私保護程度取決于其中隱私保護程度最差的那個算法。利用差分隱私保護的組合特性,結合具體應用場景,通過多個子算法的組合來設計復雜的差分隱私算法,并在此基礎上進行量化分析,確保算法的有效性。
差分隱私具有嚴格的理論依據和完備的理論體系,因而逐漸成為當前最流行的隱私保護模型之一。但是,它也存在著信息損失過大、原始數據的可用性降低等不足,因此還需要進一步深入研究。
隨著數據科學飛速發展,數據開放共享的需求日益迫切。與此同時,隱私保護的需求也不斷提高。隱私保護相關的研究是數據科學中值得重視的熱點之一。隨著隱私保護研究的深入開展,其研究成果將會給數據開放提供有力保障,推動數據資源的共享利用。