999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下差分隱私保護技術及應用

2019-11-03 07:19:04付鈺俞藝涵吳曉平
通信學報 2019年10期
關鍵詞:機制

付鈺,俞藝涵,吳曉平

(海軍工程大學信息安全系,湖北 武漢 430033)

1 引言

互聯網創新已經進入一個前所未有的大數據時代,為利用其中海量有價值的數據信息,不可避免地會對數據進行收集與分析,而過度的數據收集使隱私泄露問題日益凸顯[1]。以近年來興起的互聯網金融點對點(P2P,point to point)借貸[2-3]模式為例,目前國內P2P 理財平臺數量在5 000 家左右,這些平臺在為用戶提供服務時,收集用戶相關隱私信息來分析用戶的還貸能力,其中最基本的身份驗證要求是用戶的身份證信息或者經實名制驗證的手機號碼信息,除此之外,用戶的個人征信報告、信用卡賬單郵箱、網購記錄和通訊錄等個人隱私信息也普遍被P2P 平臺獲權查閱并記錄。一方面,絕大多數P2P 平臺對于用戶隱私數據的隱私保護級別不高,甚至存在為拉攏用戶而進行信息共享的行為;另一方面,在眾多P2P 平臺中,有信息安全隱患的問題平臺約占總數的,這些問題平臺自身并不可信,且會頻繁遭受網絡黑客的攻擊,其用戶個人隱私信息極不安全。

隨著數據挖掘及信息安全技術的不斷發展,針對特定數據的隱私保護問題,國內外學者已經開展了卓有成效的研究工作,主要通過匿名化技術[4]和數據加密技術[5]等來實現隱私保護。近年來,有學者提出隱私計算的概念[6],探討了隱私計算的應用[7-8],這為隱私識別與量化評估提供了條件??紤]到互聯網下的隱私信息具有數據量大、類別多、層次關系復雜等特點,而基于匿名化和數據加密的隱私保護技術又需要緊密依賴背景知識假設,只能保證單一數據集上隱私不被泄露的局限性往往難以滿足互聯網下針對大數據隱私保護的要求。所以,人們開始關注差分隱私(DP,differential privacy)保護技術及其應用,差分隱私是Dwork[9]在2006 年針對統計數據庫的隱私泄露問題所提出的一種隱私的概念。差分隱私保護模型就是一種建立在嚴格的數學基礎之上,通過對隱私泄露風險做定量的形式化證明,并保有數據極大可用性的數據安全模型,該模型假設隱私信息的攻擊者在獲取目標之外所有信息的情況下,也不能判斷出目標信息是否在被攻擊的數據中,即差分隱私保護能夠抵御攻擊方的最大背景知識攻擊。由于差分隱私保護模式可以提供可度量的隱私保護等優勢,故被廣泛應用于網絡空間安全等領域。特別是在大數據環境下,從理論研究的角度看,差分隱私保護表現出極高的兼容性[10]。一方面,大數據環境下的數據集體積大,數據集中存在大量的記錄,這一條件有利于區分隱私,因此可以用較小的噪聲來實現差分隱私保護;另一方面,差分隱私保護在為大數據提供隱私保護時,不需要改變原始數據,一般只在輸出中加入隨機噪聲,不會對原始數據處理的速度造成影響;同時,差分隱私保護獨立于底層數據結構并兼容多種數據類型,能夠兼容所有類型的數據集,適用于大數據中存在結構化、非結構化以及半結構化等多種數據形式的現實情況。但從實際應用來看,差分隱私保護在大數據中的應用也面臨諸多問題。

由此,本文首先對差分隱私保護的基本概念與相關技術進行了系統介紹,隨后全面綜述了大數據環境下差分隱私保護技術在數據發布與分析、云計算與大數據計算、位置與軌跡服務和社交網絡中的應用與存在的問題,最后提出了大數據環境下差分隱私保護的系統性應用所面臨的挑戰并展望其發展方向。

2 差分隱私保護的相關概念

差分隱私保護可以克服傳統隱私保護技術應用時其安全性依賴攻擊者的相關背景知識、保護效果,難以用有效嚴格的數學方法定量化描述等缺陷,從而可在大大降低保護對象數據集隱私泄露風險的同時,盡可能保證數據集數據的可用性,其過程就是通過對真實數據添加隨機擾動,并保證數據在被干擾后仍具有一定的可用性來實現的,即要使保護對象數據失真且同時保持數據集中特定數據或數據屬性(如統計特性等)不變。

2.1 基本概念

為方便理解與討論,首先給出差分隱私保護的概念。

定義 1對于一個有限域Z,數據集,其樣本量為n,屬性的個數為維度d,若F={f1,f2,…} 表示一組操作(如查詢等),而M是對系列操作的某種處理,且使之滿足某種隱私保護的條件,則稱此過程為針對數據集D的隱私保護機制。

定義2設有限域Z上的2 個完全相同或至多相差一條記錄的數據集D和D′,則稱D和D′為鄰接數據集(adjacent dataset),即鄰接數據集D和D′具有相同的屬性結構,且二者的對稱差DΔD' 中記錄的數量為1。

定義3對于任意2 個鄰接數據集D和D′,設隨機算法A的值域為R(A),事件X發生的可能性為Pr[X],若對任意S,S'∈R(A),都滿足則隨機算法A提供ε-差分隱私保護,稱ε為差分隱私保護預算[11]。

由此可以看出,若用戶由查詢函數F對數據集D進行查詢操作時,隨機算法A通過對查詢函數F進行擾動,使之能滿足差分隱私保護的條件[12-13]。

2.2 相關概念

1)差分隱私保護預算

差分隱私保護預算ε是差分隱私保護所能提供的隱私保護級別的度量,ε的值越低,差分隱私保護所提供的隱私保護級別就越高。一般ε取很小的值,以保證差分隱私保護的效果,例如取ε=0.1。被保護數據的可用性也與ε密切相關,一般來說,ε越小,差分隱私保護所提供的隨機擾動越大,被保護數據的可用性則越差。

2)敏感度

差分隱私保護通常對查詢函數的返回值添加隨機擾動來達到隱私保護的目的,隨機擾動的大小與查詢函數的敏感度密切相關。查詢函數的敏感度是指當數據中僅發生一條記錄的改變時查詢結果的最大改變量。通常,差分隱私保護利用查詢函數的全局敏感度(GS,global sensitivity)[8]來度量隨機擾動的大小。全局敏感度定義如下。

定義4設D和D′是鄰接數據集,則稱

為查詢函數F的全局敏感度。這里||?||1表示向量元素絕對值之和。

查詢函數的全局敏感度由函數本身決定,全局敏感度越大,差分隱私保護標準下所需的隨機擾動也越大。對于一些全局敏感度小的查詢函數(如計數函數),用其全局敏感度來度量隨機擾動的大小較為合適;對于平均值函數、中位數函數等全局敏度較大的函數,用其全局敏感度來度量隨機擾動的大小容易造成隨機擾動量過大,造成不必要的數據可用性方面的損失。由此,局部敏感度(LS,local sensitivity)[14]的概念被提出,其定義如下。

定義5設D和D′是鄰接數據集,則稱

為查詢函數F的局部敏感度。

查詢函數的局部敏感度與函數自身以及具體數據共同決定,一般比全局敏感度要小,兩者存在如下關系。

3)擾動機制

差分隱私保護中存在多種擾動機制,其中拉普拉斯機制[15]在對數值型結果的保護中應用最為廣泛。

定義6對于數據集D,查詢函數F及其全局敏感度ΔFGS,如果隨機噪聲Y服從尺度為的拉普拉斯分布,則稱隨機算法A(D)=F(D)+Y可以提供ε-差分隱私保護[11]。

拉普拉斯機制只能對數值型查詢結果進行保護,而在實際應用中,存在許多查詢結果不是數值型的情況。由此,指數機制[16]被提出。

定義7對于數據集D,其輸出為一實體對象r∈Range,q(D,r)為r的可用性函數,其敏感度記作ΔFq。若隨機算法M以正比于的概率從Range 中選擇并輸出r,則M提供ε-差分隱私保護[16]。

4)組合性質

差分隱私保護存在以下兩方面的組合性質[17],它們是將差分隱私保護運用到反復迭代過程中,證明算法滿足差分隱私保護以及合理分配差分隱私預算的基礎。

性質1若存在n個隨機算法序列Ai(1≤i≤n)提供εi差分隱私保護,則對于同一數據集D,{A1,???,An}在D上的序列組合算法也提供ε-差分隱私保護,其中,

性質2若存在隨機算法A提供ε-差分隱私保護,數據集D可分為不相交的子集D1,???,Dm,則隨機算法A在{D1,???,Dm}上的組合運算所構成的算法也提供ε-差分隱私保護。

因為每一種隱私保護方法其保護效果都是基于某種攻擊模型而度量,如K-匿名就是基于攻擊者對對象數據集信息全不知曉的假設,否則K-匿名算法也無法對數據隱私實施保護。從差分隱私的定義及相關特性可以看出,其基于的攻擊模型是最壞的可能攻擊者已知除一條記錄以外的對象數據集所有的敏感屬性,但這條記錄的敏感屬性信息也可得到有效保護。所以,差分隱私在數據發布與分析、云計算與大數據計算、面向位置與軌跡服務、社交網絡等領域有著越來越廣泛的應用。

3 面向數據發布與分析的差分隱私保護

差分隱私保護作為當前數據隱私保護技術應用較為廣泛的一種,其應用最早出現在數據庫領域。如何在大數據時代在保證對數據隱私保護的前提下對海量數據進行發布與分析,已經成為近年來數據庫應用,尤其是數據發布領域的研究熱點。

3.1 基于差分隱私的數據發布

Han 等[18]指出差分隱私保護在保證數據效用時,由于可能存在的非獨立推理(NIR,non-independent reasoning),敏感數據將面臨泄露的風險。由于差分隱私保護的固有機制,必然造成基于差分隱私保護的數據發布存在數據隱私性和數據可用性之間的矛盾。目前的研究大多集中在選擇最優噪聲機制、優化噪聲添加策略和優化數據發布策略等方面,目的是尋求數據發布中的隱私性與可用性之間的平衡。

差分隱私保護中存在多種噪聲機制,眾多學者對于基于差分隱私保護數據發布中的普遍最優機制展開了研究。Hai 等[19]對差分隱私保護下的普遍最優噪聲機制做了定義,并且證明了不可能存在一種普遍最優機制能夠保證諸如直方圖等一般查詢函數達到隱私性和可用性的最優。進一步的研究表明,目前不存在一種噪聲機制能夠在沒有側面信息或額外條件限制的情況下使差分隱私保護下數據發布的隱私性和可用性達到普遍最優。在查詢函數為輸出為整數且有界的各類查詢函數的條件下,Ghosh 等[20]和Gupte 等[21]分別采用貝葉斯和非貝葉斯風險規避模型來對普遍最優噪聲機制展開了研究,他們得出的結論是在貝葉斯或非貝葉斯風險規避模型下,對于各類計數查詢函數,幾何噪聲機制是普遍最優的。Geng 等[22]則在一般風險規避模型下,針對實值查詢函數提出一種階梯噪聲機制,當滿足以下3 個條件時,所提的階梯噪聲機制是隱私性與可用性最優的。1)查詢函數的值域為實值,范圍為(-∞,+∞);2)查詢生成器(QG,query generator)沒有可用的側面信息;3)查詢函數的局部敏感度等于全局敏感度或保證敏感度在所有可能的輸出上保持不變。然而,在實際應用中,大部分查詢函數難以滿足條件1)和條件3),且其所得結論默認了查詢函數的局部敏感度和全局敏感度相等,這是不符合實際的。Chen 等[23]對差分隱私保護中的最佳擾動機制進行了分析與實驗,在對單實數(標量)進行查詢時,提出以側面信息為基礎設計噪聲擾動機制的設想,使差分隱私保護的效用盡可能最大化。如何在未知數據側面信息的情況下,合理設計噪聲擾動機制是下一步的研究方向。

在優化噪聲添加策略方面,Nissim 等[14]指出用局部敏感度進行計算有泄露隱私數據分布特征的風險,因此為局部敏感度定義了平滑上界與平滑敏感度的概念,并證明對于某些非線性查詢函數可以利用查詢函數的平滑敏感度對所添加的噪聲大小進行校準,從而提高數據可用性。Lin 等[24]提出了差分隱私保護中動態噪聲閾值的概念,證明了差分隱私保護方案中的噪聲添加與受保護數據集大小之間的關系為

其中,H(x)為第n個數據所需的噪聲擾動,x為數據,? 為數據的擾動校正值。這樣做保證了所添加的噪聲不會因為過小而不能滿足差分隱私要求,也不會因為過大而影響數據可用性,并減小了計算開銷。但是,該方案所提的差分隱私方法需充分了解所保護數據的特征,其應用具有一定的局限性。Ji等[25]在非交互模式下對多維數據發布中的差分隱私保護方法進行了研究,通過Haar 小波變換對原始多維數據進行處理以構建一般關系表的緊湊概要,并在概要的每一個記錄中添加多對數噪聲之后,得到一個擾動后的概要。隨后在擾動后的概要中對查詢進行評估,輸出一般關系表中受擾動小波系數的緊湊集合,最終將其擴展回受擾動的關系元組直到查詢結束,實現了多維數據發布中的快速查詢處理與可證明的隱私保證。De[26]則尋求以近似的差分隱私要求來完成對數據的保護,主要策略是放寬差分隱私保護的隱私性要求,減少因噪聲添加帶來的誤差,降低算法復雜度。他們證明了純ε-差分隱私與近似(ε,)δ-差分隱私之間的界限,并證明當δ> 0時,存在一種查詢可以添加方差為的噪聲達到差分隱私保護的要求;當δ=0 時,則需要方差為Ω(n)的噪聲。

在優化數據發布策略方面,Zhang 等[27]提出一種差分隱私框架下應答計數范圍查詢的算法DPAV,該算法首先通過頻率矩陣生成平均樹,樹中每個節點的值等于其葉子節點值的平均值,隨后通過權重函數合理分配拉普拉斯噪聲大小并添加到平均樹中不同層級的節點中,最后將平均樹轉化為新的頻率矩陣,以此來應答計數范圍查詢。Li 等[28]提出一種矩陣機制來提供謂詞計數查詢服務,該機制以矩陣的形式表示線性查詢集合,生成一個策略查詢集,以策略查詢集中的最小誤差估計值作為查詢的應答,在保留數據差異性的同時提高查詢的準確性,但其實際應用過程中存在多維度的矩陣計算,計算成本過高。Koufogiannis 等[29]對于身份查詢函數,提出了一種復合差分隱私保護機制,采用馬爾可夫隨機過程的延遲抽樣來作為數據的逐步輸出,可以在保證差分隱私固有屬性的情況下,逐步提高數據釋放的準確性,并推測其方案可以適用于更一般的應用條件。Hay 等[30]對被噪聲擾亂后的數據在一定約束條件下進行轉化,使差異化的輸出保有了一致性,以此提高了數據發布的準確性,但該方法只對一維數據集的查詢起效。

目前對于差分隱私保護下單一時間點靜態數據的發布已有較多的成果,但在大數據環境下,實際數據的發布往往還要求能夠對數據流中動態數據提供差分隱私保護。

Kellaris 等[31]定義了在動態數據流中的兩類隱私保護級別——事件級別和用戶級別。事件級別表示對于保護某一特定時間戳下的某一數據的隱私保護級別;用戶級別則表示對于保護數據流中全數據的隱私保護級別。Kellaris 等提出一種ω-事件ε-差分隱私保護模型,該模型合并了事件級別和用戶級別,來保證在ω個時間戳內對于數據流的保護達到隱私性與可用性平衡的效果。但是其所提的模型并不能適用于所有類型的數據流,且對于隱私預算ε采用簡單平均分配的方法也沒有考慮到不同時間戳內的數據特性差異,造成了ε沒有被充分利用,引起數據可用性降低的不利結果。

Fan 等[32]在有限數據流的情況下提出一種滿足用戶級別的實時聚合統計數據發布框架FAST。該方案基于過濾和自適應抽樣,根據檢測到的數據動態地對長時間序列進行采樣,并預測非采樣點的數據值,然后以此糾正經噪聲擾動后的采樣點的數值,來最小化整體隱私成本并最大程度地提高每個時間戳的數據準確性。Chan 等[33]與Dwork 等[34]針對動態數據中的統計數據發布分別做出了相似的研究。Dwork 等建立完整的二叉樹更新流,在二叉樹的節點中存儲對固定長度的數據流所添加的成比例對的噪聲值,對實時更新數據流識別其所屬的節點并在數據流中添加節點中的噪聲值后給計數器計數。Chan 等在對二叉樹更新時,其節點包含所有子樹中經添加成比例對的隨機噪聲后的更新總和,經識別后對最大子樹進行更新并將其根節點中存儲的數值總和上報給計數器。

Wang 等[35]提出一種RescueDP 的實時動態空間眾包數據發布方案,該方案利用數據變化相似性的特征動態對數據進行區域分組,通過自適應抽樣和自適應預算分配,在每個分組中加入拉普拉斯噪聲擾動,最終使用卡爾曼濾波片提高了實時數據發布的準確性。

Chen 等[36-37]最先將差分隱私保護應用到序列數據中,利用嘈雜的前綴樹結構將具有相同前綴的序列分組到相同的分支中,從而縮小輸出域,隨后還提出利用一組可變長度的n-gram 模型順序提取數據庫的基本信息,來簡化一般時序數據,緩解了因序列數據的固有順序性和高維度所造成的應用差分隱私到序列數據中困難的問題。

Kang 等[38]針對物流領域中時間序列位置信息的隱私泄露問題,提出了一種基于差異隱私的時間序列位置數據發布方法。首先,利用聚類優化算法構造與時間相關的公共感興趣區域,用質心點代表公共利益區的位置,由此建立位置搜索樹,保證了位置數據之間的內在聯系;然后將拉普拉斯噪聲添加到位置搜索樹節點,減少了添加噪聲的次數,以此確保了所發布數據的可用性。

基于差分隱私的數據發布技術對比如表1 所示。

3.2 基于差分隱私的大數據分析

基于機器學習、聚類分析、神經網絡等傳統的數據分析技術直接應用在經過差分隱私保護后的數據上時,往往會出現效率差與準確性低等問題,這就需要提出相應適用于差分隱私數據中的數據分析算法。優化基于差分隱私的數據分析算法,與差分隱私自身理論的發展聯系緊密。目前的研究主要集中在如何解決在當前數據分析技術中通過添加隨機噪聲來滿足差分隱私保護要求的同時,提高算法的準確性并降低計算復雜度的問題上。

在隨機梯度下降算法中加入隨機噪聲是實現機器學習中差分隱私保護的一般方法,由于隨機梯度下降算法需通過反復迭代來達到學習目的,隨機噪聲的添加方式將直接影響算法的效用。Abadi 等[39]通過隨機排列構建不同的批量和批次,將計算分為適當大小的組來進行,并對算法中的隱私預算、學習步長等參數進行了有目的性的優化,提高了算法的效率并使數據保有了較好的可用性。Cai 等[40]則研究了平均估計和線性回歸中統計準確性與隱私之間的權衡問題,主要通過改進最小極大值下界、迭代閾值等參數的設定策略來保證滿足差分隱私的前提下提升統計準確性。Mcsherry 等[41]在Netflix Prize 數據集上對其提出的端對端差分隱私保護系統進行評估,并與文獻[39]采取了類似的高維數據輸入方式,不同的是其非凸目標函數的構造是在確定學習任務的核心后進行的,這樣做能夠充分利用統計數據,并以高斯機制進行差分隱私計算。Xu等[42]則針對生成式對抗網絡(GAN,generative adversarial network)應用于隱私數據時可能因記憶樣本而產生隱私泄露威脅的問題,提出了一種滿足差分隱私的生成式對抗網絡——GANobfuscator,其通過在學習過程中為梯度添加精心設計的噪聲來實現GAN 下的差異隱私,并設計了梯度修剪策略,在保證差分隱私的同時提高了數據訓練的可擴展性和穩定性。

表1 基于差分隱私的數據發布技術對比

Li 等[43]提出了一種支持差分隱私保護的分布式在線學習算法,該算法通過一個時變的雙重隨機矩陣來控制各分布式節點之間的通信,并采用平均權重的策略共享算法迭代中的更新參數,保證每個節點可以充分利用全局數據的通信,大大縮減了通信開銷。同時,由每輪迭代的更新步長來控制隨機噪聲的大小,使隨機噪聲隨著迭代輪次的進行而越來越小,在滿足差分隱私保護要求的同時,進一步增加了數據的可用性。Beimel 等[44]在機器學習中提出了一種寬松要求的差分隱私保護方法,通過保護學習樣本中樣本標簽的隱私來達到隱私保護的目的,經證明該算法的復雜度與不提供差分隱私保護的學習算法復雜度相同。

Kasiviswanathan 等[45]指出了噪聲條件下的機器學習與保證隱私條件下機器學習的區別,對2 種典型的機器學習模型 PAC(probabilistically approximately correct)和SQ(statistical query)進行了研究,提出了與無隱私條件機器學習時復雜度相同的PAC 算法,并討論了交互式與非交互式(自適應與非自適應)的SQ 算法,表明可以在與log|C|成比例的樣本復雜度下對每個概念類別C進行隱私學習。Beimel 等[46]發現對于概念類別C的有隱私機器學習中,不同于無隱私的一般機器學習,輸出結果在C中的學習模型與輸出結果不在C中的學習模型的樣本復雜度有很大的區別。他們證明了每一個輸出在C類的ε-POINTd隱私學習模型的樣本復雜度必須達到Ω(d)=Ω(log|POINTd|),并在文獻[47]提出一種代替隱私學習模型。

可以看出,將差分隱私保護技術應用在數據分析中同樣也面臨著差分隱私在數據發布應用中所面臨的挑戰,當前存在更突出的挑戰介紹如下。

1)無論通過哪種數據分析技術,在對大數據進行分析的過程中,對原始數據和計算結果往往需要反復調取并多次迭代,用現有的差分隱私保護機制來實現對數據分析過程及結果的保護所需要的噪聲量以及計算復雜度仍舊過大,不適合應用在大規模數據集中。如何創新選擇隨機算法進行差分隱私保護并有效降低算法的計算復雜度是未來的研究方向。

2)當前在數據分析中應用差分隱私保護的算法適用性較差,在不同的場景假設下或應用不同的數據分析技術時都需有特定的算法,且針對的目標函數也較為簡單,在大數據環境中的實際應用性不佳。如何設計通用于數據分析中多種目標函數的差分隱私保護算法是接下來的研究方向。

4 云計算與大數據計算中的差分隱私保護

隱私數據在云計算與大數據計算的過程中往往要經歷多個環節,每一個環節的數據泄露都會造成隱私泄露的風險。當前,差分隱私保護技術已被廣泛地運用在云計算與大數據計算中,如部署在蘋果手機上的用戶數據收集模塊[48]?;谠朴嬎闩c大數據計算的自身特征,可以總結出要將差分隱私保護運用到云計算與大數據計算中主要存在以下兩方面的問題:1)計算資源提供方不可信所造成的隱私信息在數據計算過程中難以保證不被泄露的問題;2)海量、高頻數據流所造成的差分隱私保護機制難以實現的問題。

針對問題1)的現有研究較少,通過訪問控制與差分隱私保護相結合是一種可行的研究思路。Roy等[49]在MapReduce 計算架構下,研究了云計算中的信息安全問題。他們認為云計算中隱私保護所面臨的一個巨大問題是用戶和云服務商都不想耗費太多的計算資源來進行隱私保護,而在云計算的過程中,數據的輸入輸出、數據的分布式運算以及數據在用戶和云服務商直接傳輸的過程中,任意一條數據信息的泄露都有可能造成不可挽回的隱私泄露。Roy 等將差分隱私保護與強訪問控制相結合,提出了Airavat 系統。在差分隱私保護部分中,Airavat 系統充分考慮用戶的信息安全知識水平、云服務商是否可信等因素,通過一系列的參數限制與組合策略,在Reduce 環節添加滿足差分隱私條件的隨機噪聲,達到差分隱私保護的要求。Airavat系統主要通過提前聲明Mapper 的輸出范圍,估計Reducer 中的數據敏感度,從而限定一部分超出閾值的數據的輸出,來優化所添加的噪聲量。Airavat系統的優勢在于其不需要額外審計不受信任的代碼,但過多的參數和策略限制也影響了其在應用上的可擴展性。

針對問題2),當前研究主要利用抽樣、分組等方法來緩解數據樣本的海量與高頻特性,以便于差分隱私保護機制的實現。Mir 等[50]在模擬CDR(通話記錄)模型 WHERE 的基礎上,提出一種DP-WHERE 模型,該模型在WHERE 模型的各個計算環節所得的概率分布中添加受控隨機噪聲實現差分隱私保護,并在關鍵步驟中采用文獻[30]中提的后處理技術和文獻[51]中所提的grouping 技術優化噪聲量,產生相應的概率分布,通過系統地抽樣這些分布,合成含有位置和相關時間的模擬數據信息并發布,實現了在海量數據計算中的差分隱私保護。該模型不需要進一步訪問原始CDR,并且用來合成數據的參數有很強的通用性,在保持隱私性的同時,在應用方面極具擴展性。Cormode 等[52]針對可以由樹結構索引的多維數據的差分隱私保護進行了研究,提出了通過差分隱私空間分解來對數據分布進行差分隱私保護下的發布。分割點的選擇以及分布區域的描述策略在其所提方法中作為基本步驟來保證高維數據差分隱私保護中的隱私性,基于約束推理的后處理技術以及樣本均勻采樣技術則作為噪聲優化方法來保證海量、高頻數據流中高維數據差分隱私保護中的可用性。Wang 等[53]也做了類似的研究,不同的是其采用了斐波那契混合數列來估計并分配樹中各層節點的隱私預算量,以較大的隱私預算量來提高數據查詢的準確性。

與此同時,云計算與大數據計算中的差分隱私保護應用還需解決因分布式計算架構自身特點所引起的開銷過大的挑戰。不同于差分隱私保護應用于集中式數據庫,在分布式計算架構下,各個節點的數據相互獨立。嚴格來說,需使各個節點數據都滿足差分隱私保護要求才能保證整個分布式計算架構下的數據處理是差分隱私的,這就要求在各個節點都需進行隨機擾動,那么隨后的數據通信與協同計算都將需要更大的開銷。為此,如何設計分布式計算架構下的差分隱私機制構成下一步研究方向。

5 面向位置與軌跡服務的差分隱私保護

當前,隨著公共交通、網購快遞、網絡訂餐等行業的興起,使以<用戶名,位置,軌跡>為格式的數據集呈爆炸式增長,形成了位置與軌跡大數據。其隱私保護數據發布機制主要有兩類:一是發布軌跡數據集,每一條軌跡作為一個記錄,目的是保護軌跡信息;二是發布一條軌跡信息,軌跡中的每個位置作為一個記錄,目的是保護每個點的位置信息。而將差分隱私保護應用于位置軌跡大數據中,面臨以下3 個方面的挑戰。

一是在滿足差分隱私保護要求的基礎上,數據集的稀疏性將引起隨機化機制產生大量的噪聲。二是敏感度的計算。對于位置與軌跡數據集,隨機化機制與距離測量相關聯。然而,如果人們只是通過傳統的方式測量敏感度,當涉及位置與軌跡之間的最大距離時,敏感度將會非常大。為了達到嚴格的隱私保證,必須增加大量的噪聲,這將大大降低位置與軌跡數據集的效用。三是位置與軌跡數據集的語義保留。當對位置與軌跡數據集進行隨機化時,傳統的差分隱私機制不考慮位置與軌跡數據集的語義,僅基于距離的測量來辨別位置,這樣做難以辨別其屬于哪個具體的區域,如不能判斷某一位置點屬于哪個城區。

Lin 等[54]針對人體傳感器網絡(BSN,body sensor network)中的隱私大數據提出了一種差分隱私保護方案。該方案基于非交互式數據發布框架,通過Haar 小波變換將直方圖轉化為二叉樹,由二叉樹的高度來決定全局敏感度,在一定程度上緩解了因全局敏感度過大造成提供差分隱私保護隨機噪聲過大的問題。

Xiong 等[55]提出一種PriLocation 算法,首先通過聚類來對相鄰位置信息進行分組,并限制隨機域,以此來收縮隨機區域減少所需噪聲;隨后利用位置信息的分層結構,通過對聚類權重擾動隱藏位置信息權重,提出了基于層次結構的敏感度概念的位置數據集,并對隱私位置選擇來隱藏每一個用戶的真實位置。

He 等[56]提出一種基于個人原始GPS 軌跡合成支持差分隱私保護的移動數據系統——DPT。該系統利用參考系統的層次結構,以多個分辨率來離散空間域,并為每個分辨率維護一個前綴樹。不同的參考系統捕獲不同速度的運動。在每個參考系統中,個體僅能從一個點移動到限定個數的相鄰點。因此,盡管有較多數量的前綴樹,但是每個樹具有小得多的分支因子,從而使維持模型的計數數量呈指數減少趨勢,選擇差分隱私的方式設置相關參數,并通過自適應機制以及方向加權來提高效用。其存在的不足與文獻[36-37]的問題相同,他們的結論都是建立在發布的原始軌跡包含許多公共前綴這一無效假設的基礎上的。

Hua 等[57]旨在消除上述假設,提出一種提供差分隱私保護的位置泛化算法,該算法基于軌跡距離并利用指數機制來概率地合并位置,然后以差分隱私化的方式發布泛化后的位置軌跡信息。

Li 等[58]首先使用k-means 聚類來分割原始位置,由此獲得n-1 個新的廣義軌跡,并隨機選擇n-n1個原始軌跡來近似代替原始軌跡數據庫,隨后產生有界的拉普拉斯噪聲,將它們添加到不同軌跡的計數值中,并用發布這些軌跡與其計數值。Chatzikokolakis 等[59]提出了一種基于預測機制的位置軌跡差分保護方法,預測機制通過利用數據的關聯性和歷史數據記錄來對用戶現有位置進行預測,由測試函數對預測進行測試,僅對不滿足測試要求的預測結果進行新的噪聲添加,與獨立噪聲添加機制相比,大大降低了噪聲量。

Asada 等[60]將差分隱私用于位置偏好推薦系統,在利用矩陣分解提高推薦的準確性的同時,有選擇性地在局部實施差分隱私以嚴格保護用戶隱私,并實現了位置偏好推薦與隱私保護的最佳平衡,在保證推薦準確有效的情況下也保證了位置數據的隱私性。

雖然當前研究針對降低因位置軌跡數據稀疏性所引起的噪聲量以及降低數據敏感度這兩方面挑戰有了較好的成果,但是針對第三個挑戰,當前并沒有專門針對位置與軌跡數據集保留語義方面的工作。在具體應用中,雖然差分隱私保護已廣泛應用于各類位置與軌跡服務系統中,目前還是缺乏成熟完備的應用系統,且應用系統在隱私保護的完整性、適用數據的可擴展性等方面仍需進行進一步的研究。以上方面可構成面向位置與軌跡服務的差分隱私保護下一步的研究方向。

6 社交網絡中的差分隱私保護

近年來,社交網絡的迅猛發展在給人們生活帶來極大便利的同時,由于各個網絡社交平臺一般都需要用戶在注冊時提供一定程度的個人身份信息,也給人們網絡生活中的個人隱私保護帶來了巨大挑戰。在對社交網絡進行數據分析時,通常利用圖結構來描述社交網絡活動,其中圖中的節點代表用戶,邊代表用戶之間的關系或社交活動。將差分隱私保護應用到社交網絡中等同于將其應用到圖結構中。

對圖結構進行差分隱私保護一般分為基于節點的差分隱私保護和基于邊的差分隱私保護,基于出度的差分隱私保護和基于分區的差分隱私保護則作為2 種新穎的差分隱私保護概念在近年來被廣泛應用。Task 等[61]認為基于節點的差分隱私保護方法存在在數據中添加的噪聲量過大、代價昂貴的問題,且存在噪聲多余添加的問題;基于邊的差分隱私的隱私性并不嚴密。基于出度的差分隱私與基于分區的差分隱私作為2 個新穎的社交網絡隱私保護機制,能夠在引入極小噪聲的情況下提供強有力的隱私保護?;诔龆鹊牟罘蛛[私通過在隱私數據中增加或刪除任意節點的外部鏈接來保護數據參與者所提供數據的隱私,在此機制下,Task 等[62]提出一種基于自組網樣式的分析算法,對以前標準執行過于敏感的查詢提供近似結果。而基于分區的差分隱私則針對社交網絡中屬性繁多的特點,在差分數據中任意添加或刪除一個子圖來滿足差分隱私要求,為社交網絡多屬性研究提供比基于節點的隱私保護更高的隱私級別,并且能夠進行在基于節點隱私保護機制下難以進行的分析研究。

另一方面,要將差分隱私保護應用到社交網絡的數據挖掘中需研究差分隱私保護下的社交網絡分析技術,即差分隱私保護下的圖分析技術。針對子圖計數查詢問題,Karwa 等[63]在利用文獻[14]所提的查詢函數局部敏感度與平滑上界來計算隨機噪聲量的基礎上,將對查詢結果添加隨機噪聲的方法[64]應用到了K-星計數查詢中,緩解了子圖計數查詢函數一般全局敏感度較大的問題,并提出了K-三角形數的查詢算法;針對聚類系數計算問題,Wang 等[65]提出一種D&C 算法,首先將聚類系數計算函數分解為多個分計算函數,然后通過預先設定的噪聲添加與隱私預算分配策略對每個分計算函數結果添加隨機噪聲,最后通過滿足第2 節中的差分隱私保護性質1 和性質2 的數學運算合成輸出結果,以達到差分隱私保護的要求;針對邊隱私保護問題,Costea 等[66]在不考慮目標節點和邊中信息是否為敏感信息的情況下,利用拉普拉斯機制在邊權重中添加隨機噪聲并生成新的圖,并利用迪杰斯特拉算法計算原圖與生成圖中的最短路徑來評估差分隱私保護效果;針對度分布問題,Hay 等[35,67]通過一致性約束進行圖中度分布的估計,并給出了圖中度分布計算的最小二乘解算法,在滿足差分隱私保護的條件下極大程度地提高了度分布查詢結果的準確性;針對目的節點隱私保護問題,Javidbakh等[68]在路由開銷約束下,研究了目的節點在差分隱私保護下的最優路由開銷方案,采取了使數據傳遞經過多個目的節點的策略,并將目的節點信息差分化的方式來實現網絡路由中的數據保護。雖然,Javidbakh 等通過概率優化意圖將通信開銷降低到最低值,但其所提方案不可避免地仍將造成更多的通信負擔。Li 等[69]研究了圖合成的工作流程,提出了一種基于加權隱私綜合查詢方法,針對不準確的協同系數以最佳種子圖替換一般種子圖,以此作為馬爾可夫鏈中的初始狀態,并且通過交叉三角形的信息一步一步地進行以增加合成圖中的三角形的數量,以此發布滿足差分隱私的社交圖。

在社交網絡大數據環境下,以圖結構來重構社交網絡展開差分隱私保護應用研究,不可避免地將面臨與差分隱私保護在分布式計算應用中類似的通信開銷過大問題;同時,社交網絡中各個節點的數據具有關聯性,這也將不可避免地要求更多的噪聲。下一步研究可在充分考慮社交網絡中數據相關性的情況下,尋求新的差分隱私保護策略來降低因數據反復傳遞引起的通信開銷。

7 結束語

差分隱私保護作為一種嚴格可證明的數學模型,在大數據環境下已經被廣泛地應用于各個領域。隨著近年來相關研究的不斷深入,差分隱私保護的理論及相關概念日益完善,其在數據發布、數據分析、云計算等領域的應用也越來越成熟。

本文首先對差分隱私保護的基本理論進行了介紹,隨后綜述了差分隱私保護在數據發布與分析、云計算與大數據計算、面向位置與軌跡服務和社交網絡中的應用。從本文所做綜述中不難看出,針對差分隱私保護應用的研究主要集中在保證數據滿足差分隱私保護要求的同時,如何提高數據可用性與降低算法復雜度上。針對這一核心問題,相關研究從差分隱私保護原理、噪聲添加機制與位置以及數據處理方式等方面已對差分隱私保護的應用取得了卓有成效的優化,且相關應用成果可以在多個領域的不同場景下交叉應用。但是,在大數據環境下,差分隱私保護想要得到系統性、普遍性的應用,還需從以下幾個方面開展下一步的研究。

1)隱私識別與量化評估技術

數據隱私主動防護體系的基礎是隱私分級與量化評估。大數據環境下,數據來源復雜、數據操作繁多等因素都將造成隱私識別與量化評估的困難[70]。對于差分隱私保護而言,隱私識別能夠區分數據集中的隱私數據與一般數據,明確差分隱私保護的對象,減少因保護范圍的無故擴大造成的開銷;量化評估則可以區分隱私數據的重要程度,明確差分隱私保護的隱私級別,利于解決數據隱私性與可用性的平衡問題,即隱私預算量ε的設置與分配問題。合理的隱私預算分配,將使差分隱私保護的效用最大化。特別是在高速動態數據流的情況下,只有在對隱私預算量ε進行合理設置與分配的情況下,差分隱私保護才能持續高效地對隱私數據提供保護,在這個過程中,隱私識別與量化評估技術則顯得尤為重要。今后隱私識別與量化評估可通過隱私概念公理化表述、隱私及隱私集合測度概念提出、隱私計算體系構建、隱私計算方法探究、隱私保護效果評估及系統化保護應用研究等展開。

2)主動差分隱私保護框架確立

從當前的研究情況來看,差分隱私保護在大數據環境下的應用往往是被動進行的,存在場景依賴缺陷。針對不同隱私保護對象與不同隱私保護需求的差分隱私保護過程中,需重新設計相應算法,沒有形成智能化的主動差分隱私保護框架。

在大數據環境下,建立主動差分隱私保護框架主要需解決兩方面的問題:①由于查詢函數種類多造成的查詢函數敏感度主動計算困難問題;② 由于數據類型復雜引起的噪聲機制自動優化困難問題。針對問題①,可進一步研究查詢函數敏感度邊界設定與差分隱私保護效用之間的博弈關系,尋求以近似敏感度代替精確敏感度的同時使額外噪聲量降到最低;針對問題②,可將噪聲機制的優化過程拆分成可合并的多個方面,研究噪聲機制的選擇性優化方法。

3)多元融合的差分隱私保護體系構建

差分隱私保護通過引入足夠的噪聲量來滿足其嚴格的隱私定義。但在大數據環境下,往往會出現由于添加的噪聲量過大造成大數據不可用的情況。針對這一問題,一些學者試圖通過降低差分隱私保護的隱私級別來提高數據的可用性[26,71-72]。從該角度出發,可研究建立多元融合的差分隱私保護體系,尋求將現有的多種隱私保護技術與差分隱私保護融合到同一體系中,當出現因需滿足數據可用性而造成差分隱私保護隱私性降低的情況時,研究應用其他隱私保護技術彌補隱私性的相關方法。

4)新信息技術框架下差分隱私應用方法

隨著信息技術的不斷發展,大數據環境下的數據隱私特征也在不斷發展和變化,具體表現在數據使用權由封閉轉向開放、數據計算由單極轉向多級、數據所有權由固化轉向流通、數據隱私邊界由粗放轉向精細。當前的隱私保護技術、數據管理策略、運營保障制度在新信息技術框架下存在許多短板。因此,對于差分隱私保護,需研究新信息技術框架下其具體應用方法,當前而言,具體可研究在5G 通信網絡下差分隱私如何在工業互聯網中有效實施、在基于人工智能所衍生的隱私威脅下如何保證差分隱私不失效、依托人工智能成果輔助優化差分隱私保護效用等多個方面。

猜你喜歡
機制
構建“不敢腐、不能腐、不想腐”機制的思考
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
“三項機制”為追趕超越蓄力
當代陜西(2018年9期)2018-08-29 01:21:00
丹鳳“四個強化”從嚴落實“三項機制”
當代陜西(2017年12期)2018-01-19 01:42:33
保留和突破:TPP協定ISDS機制中的平衡
定向培養 還需完善安置機制
中國衛生(2016年9期)2016-11-12 13:28:08
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
氫氣對缺血再灌注損傷保護的可能機制
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 久久精品91麻豆| 国产成人一区在线播放| 日本三级欧美三级| 伊人久久大香线蕉成人综合网| 九九热免费在线视频| 色欲综合久久中文字幕网| 国产亚卅精品无码| 国产日韩欧美成人| 日本高清成本人视频一区| 欧美成人在线免费| 免费a在线观看播放| 午夜限制老子影院888| 亚洲人人视频| 精品国产香蕉伊思人在线| 91精品久久久无码中文字幕vr| 国产95在线 | 欧美无遮挡国产欧美另类| 青草娱乐极品免费视频| 乱人伦中文视频在线观看免费| 99视频免费观看| 精品国产电影久久九九| 色一情一乱一伦一区二区三区小说 | 国产激情在线视频| 熟女成人国产精品视频| 久久成人免费| 成人午夜视频网站| 99在线观看国产| 国产真实乱子伦视频播放| 四虎影视无码永久免费观看| 国产福利一区在线| 国禁国产you女视频网站| 国产精品免费露脸视频| 91在线国内在线播放老师| 91久久精品国产| 国产精品浪潮Av| 日韩福利在线视频| 波多野结衣一区二区三区88| 国产99久久亚洲综合精品西瓜tv| 99热这里只有精品免费| 99热6这里只有精品| 婷婷色在线视频| 国产福利不卡视频| 欧美一区二区三区不卡免费| 亚洲国产综合精品一区| 91网站国产| 亚洲成A人V欧美综合天堂| 国产精品福利尤物youwu| 国产原创演绎剧情有字幕的| 欧美成一级| 无码人妻免费| 色综合久久88| 在线另类稀缺国产呦| 色欲不卡无码一区二区| 四虎成人免费毛片| 九月婷婷亚洲综合在线| 国产在线自揄拍揄视频网站| 中文字幕在线观| 成年A级毛片| 欧美日韩动态图| 亚洲中文在线视频| 欧美国产日本高清不卡| 亚洲欧洲日产国产无码AV| 日韩久草视频| 另类欧美日韩| a级毛片在线免费观看| 成人在线欧美| Jizz国产色系免费| 国产人在线成免费视频| 永久成人无码激情视频免费| 性69交片免费看| 日本伊人色综合网| h网址在线观看| 亚洲中文字幕久久无码精品A| 日本高清成本人视频一区| 国产亚洲精品自在久久不卡| 精品无码日韩国产不卡av| 97青青青国产在线播放| 亚洲成人一区二区| 欧美精品高清| 久久这里只有精品免费| 国产无码网站在线观看| 久久久久中文字幕精品视频|