顧宏久
隨著大數(shù)據時代的到來,大數(shù)據中蘊藏的巨大價值得以挖掘,同時也帶來了隱私信息保護方面的難題,即如何在實現(xiàn)大數(shù)據高效共享的同時,保護敏感信息不被泄露。
數(shù)據安全是信息安全的重要一環(huán)。
大數(shù)據發(fā)布隱私保護技術
匿名技術:數(shù)據持有方在公開發(fā)布數(shù)據時,這些數(shù)據通常會包含一定的用戶信息,服務方在數(shù)據發(fā)布之前需要對數(shù)據進行處理使用戶隱私免遭泄露。一般的,用戶更希望攻擊者無法從數(shù)據中識別出自身,更不用說竊取自身的隱私信息。
數(shù)據發(fā)布匿名:在確保所發(fā)布的信息數(shù)據公開可用的前提下,隱藏公開數(shù)據記錄與特定個人之間的對應聯(lián)系,從而保護個人隱私。實踐表明,僅刪除數(shù)據表中有關用戶身份的屬性作為匿名實現(xiàn)方案是無法達到預期效果的。現(xiàn)有的方案是靜態(tài)匿名技術(以信息損失為代價,不利于數(shù)據挖掘與分析)、個性化匿名、帶權重的匿名等。后兩類給予每條數(shù)據記錄以不同程度的匿名保護,減少了非必要的信息損失。
一、 大數(shù)據中的靜態(tài)匿名技術
在靜態(tài)匿名策略中,數(shù)據發(fā)布方需要對數(shù)據中的準標識碼進行處理,使得多條記錄具有相同的準標識碼組合,這些具有相同準標識碼組合的記錄集合被稱為等價組。
k-匿名技術就是每個等價組中的記錄個數(shù)為k個,即針對大數(shù)據的攻擊者在進行鏈接攻擊時,對于任意一條記錄的攻擊同時會關聯(lián)到等價組中的其他k-1條記錄。這種特性使得攻擊者無法確定與特定用戶相關的記錄,從而保護了用戶的隱私。
l-diversity匿名策略是保證每一個等價類的敏感屬性至少有l(wèi)個不同的值,l-diversity使得攻擊者最多以1/l的概率確認某個個體的敏感信息。
t-closeness匿名策略以EMD衡量敏感屬性值之間的距離,并要求等價組內敏感屬性值的分布特性與整個數(shù)據集中敏感屬性值的分布特性之間的差異盡可能大。在l-diversity基礎上,考慮了敏感屬性的分布問題,要求所有等價類中敏感屬性值的分布盡量接近該屬性的全局分布。
這些策略會造成較大的信息損失,有可能使得數(shù)據的使用方做出誤判。
二、大數(shù)據中的動態(tài)匿名技術
針對大數(shù)據的持續(xù)更新特性,有的學者提出了基于動態(tài)數(shù)據集的匿名策略,這些匿名策略不但可以保證每一次發(fā)布的數(shù)據才能滿足某種匿名標準,攻擊都也將無法聯(lián)合歷史數(shù)據進行分析和推理。這些技術包括支持新增的數(shù)據重發(fā)布匿名技術、m-invariance匿名技術、基于角色構成的匿名等支持數(shù)據動態(tài)更新匿名保護的策略。
支持新增的數(shù)據重發(fā)布匿名策略:使得數(shù)據集即使因為新增數(shù)據而發(fā)生改變,但多次發(fā)布后不同版本的公開數(shù)據仍然能滿足l-diversity準則,以保證用戶的隱私。數(shù)據發(fā)布者需要集中管理不同發(fā)布版本中的等價類,若新增的數(shù)據集與先前版本的等價類無交集并能滿足l-diversity準則,則可以作為新版本發(fā)布數(shù)據中的新等價類出現(xiàn),否則需要等待。若一個等價類過大,則要進行劃分。
m-invariance匿名策略:在支持新增操作的同時,支持數(shù)據重發(fā)布對歷史數(shù)據集的刪除。
三、大數(shù)據中的匿名并行化處理
大數(shù)據的巨規(guī)模特性使得匿名技術的效率變得至關重要。大數(shù)據環(huán)境下的數(shù)據匿名技術也是大數(shù)據環(huán)境下的數(shù)據處理技術之一,通用的大數(shù)據處理技術也能應用于數(shù)據匿名發(fā)布這一特定目的。分布式多線程是主流的解決思路,一類實現(xiàn)方案是利用特定的分布式計算框架實施通常的匿名策略,另一類實現(xiàn)方案是將匿名算法并行化,使用多純種技術加速匿名算法的計算效率,從而節(jié)省了大數(shù)據中的匿名并行化處理的計算時間。
使用已有的大數(shù)據處理工具與修改匿名算法實現(xiàn)方式是大數(shù)據環(huán)境下數(shù)據匿名技術的主要趨勢,這些技術能極大地提高數(shù)據匿名處理效率。
通過大數(shù)據審計技術
當用戶將數(shù)據存儲在云服務器中時,就喪失了對數(shù)據的控制權。為了防止數(shù)據在用戶不知情的情況下被修改,可以采用云存儲中的審計技術。云存儲審計指的是數(shù)據擁有者或第三方機構對云中的數(shù)據完整性進行審計。通過對數(shù)據進行審計,確保數(shù)據不會被云服務提供商篡改、丟棄,并且在審計的過程中用戶的隱私不會被泄露。
可證明的數(shù)據持有模型(PDP):該模型可以對服務器上的數(shù)據進行完整性驗證,該模型中挑戰(zhàn)應答協(xié)議傳輸?shù)臄?shù)據量非常少,因此所耗費的網絡帶寬較小。
可恢復證明模型(POR):利用糾錯碼技術和消息認證機制來保證遠程數(shù)據文件的完整性和可恢復性。該模型面臨的挑戰(zhàn)在于需要構建一個高效和安全的系統(tǒng)來應對用戶的請求。
大數(shù)據挖掘隱私保護技術
隱私保護數(shù)據挖掘,即在保護隱私前提下的數(shù)據挖掘,主要的關注點有兩個:一是對原始數(shù)據集進行必要的修改,使得數(shù)據接收者不能侵犯他人隱私;二是保護產生模式,限制對大數(shù)據中敏感知識的挖掘。
1、 關聯(lián)規(guī)則的隱私保護
這種保護有兩類方法:
(1)變換:修改支持敏感規(guī)則的數(shù)據,使得規(guī)則的支持度和置信度小于一定的閾值而實現(xiàn)規(guī)則的隱藏。
(2)隱藏:不修改數(shù)據,對生成敏感規(guī)則的頻繁項集進行隱藏。
2 分類結果的隱私保護
分類方法的結果通常可以發(fā)現(xiàn)數(shù)據集中的隱私敏感信息,因此需要對敏感的分類結果信息進行保護。這類方法的目標是在降低敏感信息分類準確度的同時,不影響其他應用的性能。
3 聚類結果的隱私保護
一個較好的方案是:先對原始數(shù)據進行幾何變換,以對敏感信息進行隱藏,然后是聚類過程,經過幾何變換后的數(shù)據可以直接應用傳統(tǒng)的聚類算法進行聚類。73AA3564-244F-4259-BDF2-5A63E320D57C