999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于矩陣機制的差分隱私連續數據發布方法*

2016-05-25 07:58:37蔡劍平吳英杰王曉東
計算機與生活 2016年4期

蔡劍平,吳英杰,王曉東

福州大學數學與計算機科學學院,福州350116

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology

1673-9418/2016/10(04)-0481-14

?

基于矩陣機制的差分隱私連續數據發布方法*

蔡劍平,吳英杰+,王曉東

福州大學數學與計算機科學學院,福州350116

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology

1673-9418/2016/10(04)-0481-14

E-mail: fcst@vip.163.com

http://www.ceaj.org

Tel: +86-10-89056056

* The National Natural Science Foundation of China under Grant No. 61300026 (國家自然科學基金); the Natural Science Foundation of Fujian Province under Grant No. 2014J01230 (福建省自然科學基金).

Received 2015-06,Accepted 2015-08.

CNKI網絡優先出版: 2015-08-27, http://www.cnki.net/kcms/detail/11.5602.TP.20150827.1411.002.html

摘要:現有絕大多數差分隱私算法只考慮數據的一次靜態發布,而實際許多數據分析應用卻涉及連續數據發布。為此,提出了一種基于矩陣機制的差分隱私連續數據發布方法。該方法的核心思想是首先利用樹狀數組構建連續數據發布問題的策略矩陣,然后對策略矩陣進行優化以提高發布數據的精確性。隨后,進一步針

對現有基于矩陣機制的優化算法復雜度極高的問題,提出了時間復雜度為O(lg N)的快速對角陣優化算法(fast diagonal matrix optimization algorithm,FDA),以有效應用于大規模的連續數據發布。通過實驗比較分析了FDA算法與同類算法所發布數據的精確度,結果表明FDA算法是有效可行的。

關鍵詞:差分隱私;矩陣機制;樹狀數組;連續發布

1 引言

隨著數字技術的發展,數據越來越多地充斥于現實生活當中。數據給人們生活帶來的好處不言而喻,人們不僅可以利用數據進行評估、分析和預測,還可以從中尋找有價值的信息,如啤酒與尿布的故事。然而,在享受數據帶來的好處的同時,也應該注意到數據中包含的個人隱私信息可能存在隱私泄露的風險。特別是當攻擊者帶有惡意時,他就有可能利用已掌握的知識分析所發布的數據,并從中挖掘出數據所對應用戶的隱私信息。例如,只需根據4個時空點就能使95%的人泄露其位置信息[1]。因此,如何在發布數據的同時避免數據中包含的隱私被泄露是數據時代亟待解決的問題之一。針對這一問題,各種隱私保護模型被提出。其中,以提供嚴格數據保護為特點的差分隱私模型[2-4]得到了廣泛的認可。該模型被提出后,人們基于該模型開展了很多研究工作,內容涉及直方圖發布[5-8]、空間劃分發布[9-10]、智能數據分析[11-12]等。相比于基于k-匿名[13]和劃分[14]的隱私保護方法該模型有效克服了需要事先對攻擊做出假設的不足。差分隱私數據發布研究的關鍵問題在于如何在保證差分隱私的前提下,同時提高所發布數據的可用性。

現有關于差分隱私的數據發布方法大多關注靜態發布問題,而現實應用中更多情況下需要發布方法具有連續數據發布的能力。然而,經研究表明,這些方法無法應用于連續數據發布問題。為此,本文對差分隱私下的連續數據發布問題展開研究。例如,某醫療數據庫中記錄了每個月的入院病人的信息,其中病人感染HIV的情況為敏感信息。表1展示了其中3個月的數據示例。同時,出于某研究目的,醫院將按月統計并公布入院的HIV病人數。公布的數據形如表2所示,醫院將當前入院并且感染HIV的病人累計并于當月發布最新數據。與數據靜態發布不同,在醫院發布完每個月的統計信息后,該數據并非不再改變,而是在下個月將得到更新。更重要的是,在發布每一次數據的過程中,以后需要發布的數據是無法被預知的。該問題的核心是在滿足差分隱私的條件下,尋找更精確且更高效率的連續數據發布方法。

Table 1 Medical records表1 醫學記錄表

Table 2 Statistics on HIV+ patients表2 HIV+病人數統計表

以上連續發布問題的一種樸素解決方案[15]是直接在前一個月發布的HIV病人加上本月新增的HIV病人數,然后再添加噪聲使其滿足差分隱私。該方案導致每一次發布數據的噪聲的均方誤差線性累加,最終發布的數據失去可用性。文獻[15]針對該問題提出了一種基于二叉樹的發布方法。然而,此方法僅僅引入二叉樹模擬發布,并未對精確性提出有效優化。為此,本文以提高發布數據的精確性為主要目標,將矩陣機制引入差分隱私連續數據發布問題中,以期設計出高效的基于矩陣機制的差分隱私連續數據發布方法,有效滿足大規模連續數據發布的要求。

2 相關工作

在差分隱私的數據發布中,為提高數據發布的精度,Hay[7]和Xiao等人[8]分別提出的基于一致性調節的區間樹方法和小波變換方法實現了較高精度的數據發布。然而,上述兩種方法只適用于差分隱私下的數據靜態發布,無法應用于差分隱私下的連續數據發布。Chan等人[15]提出了兩種利用二叉樹結構進行連續數據發布的方法。第一種方法構建一棵葉節點數量為2m的完全二叉樹,然后利用模擬二叉樹統計發布的過程進行連續數據發布。第二種方法是第一種方法的改進版本,它試圖通過調整二叉樹各層節點的隱私預算分配來達到無限發布的效果。研究表明,雖然第一種方法相比于樸素方法,數據發布的精確性有顯著的提升,然而該方法僅僅引入二叉樹結構來模擬發布過程,并未做進一步改進,因此數據發布的精確性仍有較大的提升空間;第二種方法的隱私預算分配并不合理,導致發布數據的誤差遠大于第一種方法。

為了解決差分隱私下的線性查詢問題,Li等人[16]提出了基于矩陣機制的批量查詢方法。其基本思想是通過尋找策略矩陣對線性查詢進行優化,進而提高發布數據的精確性。然而,該文獻提出的矩陣機制僅能滿足小規模數據集和查詢負載的要求。此外,它還很容易產生次優化的查詢策略,使得結果往往并不理想。為此,Yuan等人[17]利用負載矩陣低秩的性質進行優化,提出了低秩矩陣機制,在一定程度上改善了原有矩陣機制的不足,提升了數據發布效率與精確性。然而,該文獻提出的優化查詢使用半正定規劃算法,同樣只能適用小規模數據集和查詢負載的要求。本文研究的連續數據發布問題本質上也是線性查詢問題,因此擬利用矩陣機制,結合連續數據發布問題本身具有的一些特性,設計出精度更高且效率更高的算法,使之具有大規模連續數據發布的能力。

3 基礎知識與問題

3.1差分隱私

Dwork等人[2]首次提出差分隱私保護模型。該模型保證了在數據發布過程中,無論攻擊者具有何種背景知識,都無法泄露隱私數據。其形式化定義如下:

定義1(ε-差分隱私[2])設A表示在查詢Q的基礎上通過某種方式添加隨機噪聲的隨機算法。將其分別作用于兄弟數據集D和D′時的概率密度滿足以下條件,則算法A滿足ε-差分隱私。其中O表示可能的輸出集合。

定義2(敏感度)對數據集D和D′進行統計得:Q(D)=(x1,x2,…,xn)T, Q(D′)=(x1′,x2′,…,xn′)T。那么查詢集合Q的敏感度ΔQ滿足以下定義:

本文主要使用1-范數,即p=1。

文獻[18]提出了拉普拉斯機制。該機制通過添加拉普拉斯噪音來實現差分隱私保護。為了表示方便,本文用表示滿足分布Laplace(0,1)的n維列向量。

3.2矩陣機制

矩陣機制是一種針對差分隱私下線性查詢問題的優化方法。它通過將查詢集Q轉換成負載矩陣W,然后尋找最優策略矩陣M實現差分隱私下線性查詢的優化。其中查詢集Q是一組線性查詢的集合,滿足Q={q1,q2,…,qn}。每條線性查詢表示如下:

其中,X=(x1,x2,…,xm)T為數據向量;wi為該查詢于分量xi的權重。負載矩陣W由每組線性查詢的權重組成,并滿足:

原始的矩陣機制[16]通過直接尋找策略矩陣M的方式求解問題,這種做法的效率和優化效果都不夠理想。而低秩矩陣機制[17]則是采用分解負載矩陣的方法來尋找優化策略。該機制下,將W分解成兩個矩陣B、M。其中M表示低秩矩陣下的策略矩陣,且滿足W=BM。通過對中間結果MX添加噪聲的方式減少誤差。其形式化表示如下:

文獻[17]指出,式(3)的敏感度ΔM與策略矩陣的列范式相等,即ΔM=M1。而低秩矩陣的均方誤差由下式求得:

研究表明,差分隱私下的數據連續發布問題能夠被轉換成基于矩陣機制的優化問題。只需將每一次發布視為一個查詢,然后將所有發布過程視為查詢負載,并轉換成相應的矩陣,利用矩陣機制進行求解。

3.3問題提出

考慮一個隨著時間增長,記錄會不斷產生并被添加其中的記錄流,該記錄流是數據發布的來源。記錄流的每條記錄都有需要保護的屬性σ,滿足σ∈{0,1}。并假設記錄集AAi表示第i-1次和第i次發布之間記錄流中被添加的記錄的集合。由AAi可求出第i次發布的數據增量ai=|{σ|σ∈AAiand σ=1}|。

定義3(連續數據發布)對于記錄流,數據發布者隨著記錄流的記錄增長按照某種規則多次發布當前記錄流中滿足σ=1的記錄數的行為即為連續數據發布。假設第i次發布的累計數據為si,那么si滿足:

差分隱私下的連續數據發布行為即通過某種隱私算法A(*)發布添加了噪聲的累計數據,從而使數據連續發布的結果滿足ε-差分隱私。同時,在此基礎上,本文還要求所提出的算法能夠精確而且高效地發布數據。

為了避免數據連續發布的敏感度過高而影響數據發布精度,本文主要考慮了給定次數下的滿足ε-差分隱私的次數受限的數據連續發布算法。

定義4(次數受限的數據連續發布算法)如果隱私算法A(*)至多接受并發布N次滿足ε-差分隱私的統計數據,則稱該算法為次數受限的數據連續發布算法。

上述問題能夠轉換成線性查詢問題,而矩陣機制能夠對線性查詢問題進行優化。為了提出更精確的數據連續發布算法,本文將這一問題與矩陣機制相結合,并在此基礎上尋找快速發布算法。而且,矩陣機制是成熟的且經過嚴格檢驗的滿足ε-差分隱私[17]的隱私保護機制,因此基于矩陣機制的線性查詢算法只要符合式(3)的形式就保證了該算法滿足ε-差分隱私。

利用矩陣機制優化前,需要將式(5)轉換成負載矩陣W如下:

可以看出,數據連續發布下的負載矩陣W為下三角矩陣,且滿足Wij=1,i

根據矩陣機制的特征及一般研究過程[16-17]。本文將通過以下步驟對該問題展開研究:

(1)尋找初始的策略矩陣M,將W分解為矩陣B 和M,使矩陣機制能夠較為精確地發布數據;

(2)對策略矩陣M進行研究,尋找優化策略以優化數據發布的精確性;

(3)綜合分析矩陣B、M以及優化策略的性質,在保證數據發布的精確性得到優化的前提下,提出高效的優化算法。

4 數據連續發布算法

4.1利用樹狀數組構造策略矩陣

由于數據隨著發布過程動態產生,未來數據無法得知,只能根據當前以及過往的數據進行優化。這一特征反映到矩陣機制時,就要求矩陣機制所應用的策略矩陣為下三角矩陣。通過各種數據結構的對比研究,本文發現樹狀數組[19]更加適合于構造基于矩陣機制的數據連續發布方法的策略矩陣。它能夠自然并且快速求解數列的前k項和,符合連續數據發布的基本特征。同時,初步研究表明,將它與差分隱私結合而提出的隱私保護模型能夠達到與基于二叉樹的連續數據發布方法[15]相當的精確性。同時,深入研究表明,結合樹狀數組的差分隱私模型在實現的巧妙性以及進一步優化的潛力方面,與后者相比均略勝一籌。

其中,函數lowbit(x)表示將正整數x寫成二進制形式后,將該二進制數的值為1的最低位的數置為1,其余位均置為0。例如,當x=10時,其對應的二進制數為(1010)2,從低往高有20位為0,21位為1。那么,lowbit(x)的輸出值就將該位置為1,其他位均置為0,即(0010)2=2。再將其轉成十進制就得到lowbit(10)=2。

該函數可以表示如下:

算法1 lowbit(x)

輸入:正整數x

輸出:x對應的lowbit值

1. p←0,y←1;

2. while xmod2=0

針對該問題,樹狀數組提供如下解決方法。該方法計算了中間統計量ci,而ci由以下公式求得:

4. wend

5. return y

結合算法1以及式(7),本文按照樹狀數組求解中間統計量的方式構造策略矩陣M。

算法2求解策略矩陣M

輸入:發布次數N

輸出:策略矩陣M

1. M←ON×N; //初始化為零矩陣

2. for p=1 to N do

3. pt←p ;

4. while pt

5.Mpt,p←1; //更新矩陣元素

6.pt←pt+lowbit(pt) ;

7. wend

8. end for

9. return M

下面,需要進一步討論矩陣B的求解。由W=BM以及MN的可逆性可得,B=WNMN-1,因此只需根據樹狀數組的性質就能夠快速地求解B。而樹狀數組的求和操作按照以下公式進行求解:

算法3求解矩陣B

輸入:發布次數N

輸出:矩陣B

1. B←ON×N; //初始化為零矩陣

2. for p=1 to N do

3. pt←p ;

4. while pt>0

5.Bpt,p←1; //更新矩陣元素

6.pt←pt-lowbit(pt) ;

7. wend

8. end for

9. return B

上述算法結合低秩矩陣的表達式,即可得到基于樹狀數組的數據連續發布的表達式:

接下來,本文將分析該策略矩陣所產生的均方誤差的情況。關于MN和B有如下兩個相關定理。

定理2構造矩陣B的第p行的迭代次數為將p表示為二進制(p)2時,(p)2中包含的1的個數。

證明根據算法3的步驟6有操作pt=ptlowbit(pt),該操作的結果是將(pt)2中值為1的最低位置為0。而由步驟3有pt由p進行初始化。說明(p)2中包含多少個1,迭代就進行了多少次。□

由式(4)推出該策略矩陣所產生的均方誤差為:

同時,結合定理2可知,B的每一行至多有O(lg N)個元素為1,其余皆為0。因此,B中元素為1的個數為O(Nlg N)。即trace(BTB)的數值復雜度也為O(Nlg N)。又由定理1可知,MN的列范數?lb N ? +1,其復雜度為O(lg N)。因而,根據式(4)可以求得總體的均方誤差為O(Nlg3N)。而對于每條查詢的均方誤差則為O(lg3N)。

綜上所述,由樹狀數組構造的策略矩陣滿足低敏感性以及均方誤差復雜度低的特點,初步具備了在差分隱私下較為精確地進行連續數據發布的能力。然而,僅僅利用樹狀數組構造的策略矩陣并不能達到本文的精確性要求。接下來,本文將在此基礎上尋找更精確的數據發布算法。

一般而言,可以通過發布數據的一致性調節[7]和策略矩陣的權重系數調節等方法提高數據發布的精確性。然而,研究表明該問題已經滿足線性一致性,具體分析如下。

定義5(線性一致性)對于負載矩陣W,記未加噪的查詢結果為Y=WQ(D),通過低秩矩陣機制獲得的查詢結果為Y′=A(W,D)。A(W,D)滿足線性一致性當且僅當對于任意可以用Y線性表示的統計量z,對任意可以表示成z=vY的行向量v都有vY′為定值。同時,線性一致性滿足定理3。

定理3當式(3)中的矩陣M為行滿秩矩陣時,低秩矩陣機制滿足線性一致性。

證明當矩陣L為行滿秩矩陣時,求得其右逆矩陣M+=MT(MMT)-1,滿足M×M+=I。

由于W=BM,則B=WM+。

任取統計查詢z,有多個vi滿足z=viWX(其中vi之間互不相等)。

將其代入式(3)中,可得統計后的結果,令zi′表示由vi求得的查詢結果:

經過化簡可以看出,zi′是與vi無關的噪聲統計量。因此,可以得出zi′的值是相等的。□

MN為可逆矩陣,結合定理3,可得出推論:由樹狀數組構造基于矩陣機制的數據連續發布方法滿足線性一致性。因此無法從線性一致性的角度提高數據發布的一致性。4.2節將對策略矩陣的權重系數調節問題進行研究。

4.2利用對角矩陣提高精確性

上文分析了差分隱私下的連續數據發布的性質,并通過樹狀數組構造出矩陣機制的策略矩陣。而根據3.3節所描述的步驟,本文將在此基礎上進行優化。進一步研究矩陣MN,可發現該矩陣未飽和。以M3為例,表示如下:

式(10)即為添加系數對角陣后的隱私保護機制。當ΣN=IN時,該公式與式(9)等價。對應的均方誤差公式如下所示:

其中,B(:,i)表示矩陣B的第i列。

由分析可知,式(12)是一個線性約束下的凸優化問題。針對該問題,可直接采用SQP(sequential guadratic programming)方法[20]求得最優解。然而SQP方法是一種時間復雜度很高的算法,無法滿足大規模數據的要求。實驗表明,對于一般計算機,該方法最多只能滿足N小于1 000的求解規模。因此,需要進一步研究更快速的方法求得式(12)的最優解。

4.3快速求解最小誤差

由于SQP方法求解復雜度很高,對于大規模數據,對角陣ΣN求解是無法完成的。因此,有必要對ΣN的求解進一步優化,并提出高效的解決方案。利用MN和B之間的特殊性質,本文提出了一種高效的求解最小誤差的算法——快速對角陣優化算法(fast diagonal matrix optimization algorithm, FDA)。當N=2m-1時,該算法可以在O(lg N)的時間復雜度下求解ΣN的任意系數值λi。該算法與未使用Σ前的方法有相當的求解效率,因此它保證了在不影響算法復雜度的前提下提高隱私數據發布的精確性。該算法是基于以下定理提出的。

證明對于矩陣B2m-1進一步分析可發現它滿足以下特性:令a<2m-1,b=2m-1+a。將其寫成二進制形式可以描述為a=(xm-2xm-3…x0)2和b=(1xm-2xm-3…x0)2。根據算法2,不難發現B2m-1(a,t)= 1(t>0)當且僅當B2m-1(b,2m-1+t)=1。同時,由于b的2m-1位為1,因此B2m-1(b,2m-1)=1

通過以上分析,可將B2m-1寫成如下形式:

通過式(14)得:

下面將分析M2m-1與M2m-1-1之間的關系。

根據算法4,有M2m-1(t,a)=1(1≤t≤2m-1-1)當且僅當M2m-1(2m-1+t,b)=1。滿足?1≤t≤2m-1-1,M2m-1(2m-1,t)=1。

因此,將M2m-1與M2m-1-1寫成如下遞推關系:

令RN表示ΣN求對角線元素組成的列向量,RN=(λ1λ2…λN)T。當N=2m-1時,可將R2m-1拆分成3個部分,即:

對于式(12),亦可將其拆分為以下3個子部分:

令f(i )(*)分別表示這3個子部分,從而將上述表達式轉換為3個子部分的和:

由式(17)可將限制條件分解成以下3個子條件:

通過以上3個子限制條件,可知子條件①受限于子條件②中λ2m-1的取值。因此,先假設λ2m-1

式(12)取最優時,子部分①滿足:

由于滿足:

通過以上分析,可將第①部分的子問題描述如下:

綜上所述,式(13)成立。□

證明首先對h(α)進行求導得:

因此,從以上結論可以得出以下關于均方誤差errm的遞推公式:

由該結果進一步推導出優化后均方誤差,如下:

而根據αi(1≤i≤m)即可求得Σm中所有λk的值。具體計算步驟如算法4所示。

算法4求解最優對角陣系數λk=coef(k,m)

輸入:系數的標號k,數據規模m

輸出:λk的值

1.λk←1; //初始化λk

2. kt←k,t←m;div←2m-1; // div表示子問題的分割中點

3. while div≠kt

4. if kt

5. if div

7. wend

8.λk←λk×() 1-αt;

9. return λk

通過算法4的步驟6可知,每次迭代過程都會將div除以2。因此,算法4的時間復雜度為O(lg N)。

基于上述理論,本文提出了完整的快速對角陣優化算法,如算法5所示。該算法利用?lowbit(t )代替ct對算法進行了優化,達到空間重復利用的效果,進一步提高效率。

算法5快速對角陣優化算法

輸入:連續發布的上限T∈2m-1,數據增量ai,1≤i≤T;隱私預算ε

1. for t=1 to T do //循環每次發布過程

2.p←lb(lowbit(t)) ;

8. while k>0

9.q←lb(lowbit(k)) ;

10.λk←coef(k,m)

13.k←k-lowbit(k) ;

14. wend

15. end for

4.4優化效果分析

4. For i=1 to p-1 do ?i=0 ;

5.λt←coef(t,m) ; //由算法4計算系數

針對本文提出的FDA算法,將通過分析對優化前后的均方誤差進行對比,從而對優化效果進行評估。

考慮數據量N=2m-1的情況。根據遞推公式(20),定量求出優化后均方誤差erropt;同時,結合定理2與矩陣B的性質,可推導出優化前的均方誤差errorg遞推式:

根據式(20)及(21),本文分別求出在不同規模下兩者的均方誤差。同時求出了它們均方誤差之比r=errorg/errFDA來表示優化策略的優化效果。結果如圖1所示。

通過兩者的對比可以發現,無論多大規模的數據量,優化后方法的均方誤差總是低于優化前的方法。說明了優化后的數據精確性取得了較大的改善。而從圖1(b)可以發現,它們之間的均方誤差之比呈單調遞增曲線。說明了隨N取值越大FDA算法的效果越好。

Fig.1 Comparison before and after improvement圖1 改進前后的比較

5 實驗

為了測試FDA算法的效果,本文主要在差分隱私下對數據發布的精確度進行分析。首先,將前言中提到了一種數據連續發布的樸素方法[15]與FDA算法進行比較,以此來論證本文方法是有效的。其次,將FDA算法與基于二叉樹的次數受限的連續數據發布方法(BM)[15]進行對比,以說明本文方法能夠提高數據連續發布問題的精確性。由于靜態數據發布問題是數據連續發布問題的一種特例,FDA算法也能應用于靜態數據發布。為了說明FDA算法在靜態數據發布領域也是有效的,本文將其應用于靜態數據發布,與現有比較成熟的基于一致性優化區間樹方法(Boost)和小波變換方法(Privelet)進行對比。

很顯然,本文涉及的隱私保護模型發布數據的精確性與實際數據具有相對獨立性。為了能進行更大規模的實驗測試,本文主要采用虛擬數據進行實驗,同時結合各個方法已有的理論分析,以保證實驗的準確性。本次實驗的環境為奔騰雙核CPUT4200 2.00 GHz的計算機。實驗所使用的語言為C++和Matlab。由于實驗過程中ε的取值不會對實驗結果產生重大影響,實驗中都統一將ε設置為1。即滿足1-差分隱私。另外,為了確保實驗結果符合實際的誤差期望,均進行了500次重復實驗,然后取平均值作為最終的實驗結果。

5.1FDA算法與樸素方法

本實驗對比了FDA算法和樸素方法的效果。該實驗模擬數據規模為4 095的數據集對兩者進行對比。實驗結果如圖2及圖3所示。圖2分別用藍線和紅線展示了FDA算法和樸素方法每次發布數據的均方誤差結果。圖3則分別展示了它們之間的均方誤差之比r=errsimple/errFDA以體現兩者之間的效果差距。該比值越高說明FDA算法與樸素方法比較的效果越好。

Fig.2 Effect of simple method and FDA圖2 樸素方法與FDA算法的效果

由圖2可發現樸素方法所產生的均方誤差以直線方式增長;而FDA算法產生的均方誤差隨著更新次數的增長呈上下波動的現象,均方誤差并不隨著更新次數的增長而增長。其結果經過一段時間的數據發布,樸素方法由于均方誤差增長過快而失去可用性,而FDA算法仍維持在一個可控范圍內。圖3表明了當更新次數增多時,樸素方法在發布初期誤差更低,而在數據發布達到一定次數后,FDA算法的誤差則遠低于樸素方法。進一步觀察實驗結果可知,它們之間效果好壞的分割點大約在400次數據發布前后。

Fig.3 Proportion of error between simple method and FDA圖3 樸素方法與FDA算法的均方誤差比

5.2FDA算法與二叉樹方法

本實驗對二叉樹方法與FDA算法的效果進行了對比,并采用與上一個實驗相同的數據集進行實驗,效果如圖4~圖6所示。圖4是利用二叉樹方法進行數據連續發布時的均方誤差;圖5是FDA算法所產生的均方誤差;圖6則取兩者之間的均方誤差之比r=errBM/errFDA以比較它們之間的效果。

由圖6可以看出在絕大多數情況下,FDA算法所發布的數據比BM方法更加精確。這說明了相比于BM方法,FDA算法在精確性上取得了較大的提高。由圖可知,FDA算法相比于BM方法精確性的提高集中在2至4倍之間,最高可達6倍。而分別比較圖6和圖5可知,通過FDA算法發布的數據產生的均方誤差更加集中,而BM方法發布的數據波動幅度較大。這從側面說明了FDA算法發布的數據更加穩定。

Fig.4 Effect of BM method圖4 BM方法的效果

Fig.5 Effect of FDA圖5 FDA算法的效果

Fig.6 Proportion of error between BM method and FDA圖6 BM方法與FDA算法的均方誤差比

5.3與靜態數據發布方法對比

本實驗對FDA算法與兩種靜態發布方法(Boost,Privelet)進行對比。實驗采用的虛擬數據為離線數據,數據集規模為N=2m,m=1,2,…,25;而FDA算法則減少一個數據點進行實驗以符合算法本身的要求。本文主要描述了差分隱私下的數據連續發布問題,因此在對比時采用的查詢為前N項和。為保證實驗結果盡可能反映真實情況,本文結合文獻[7-8,21]的相關理論分析進行驗證。實驗結果如圖7和圖8。圖7用一般坐標系以及指數坐標系表示三者的均方誤差。而在圖8中,分別就區間樹方法以及小波變換方法所產生的均方誤差與FDA算法的均方誤差做比較,求出不同規模數據下,它們與FDA算法的均方誤差之比。

由圖7可以看出,小波變換方法和區間樹方法所產生的均方誤差相當,且都低于FDA算法。然而,從圖8可以看出,FDA算法在靜態數據發布領域與這兩者之間的精確性差距是有限的,并且穩定在一定的數值范圍內。從圖中可以看出,FDA算法的精確性大約為其他兩種方法的0.625倍。這說明了FDA算法在靜態數據發布領域也能有效地發布數據,但是在發布的精確性方面并不如專門發布靜態數據的方法。

Fig.7 Comparison of three methods圖7 3種方法實驗結果對比

Fig.8 Proportion of error of static release methods and FDA圖8 FDA與靜態發布方法的均方誤差比

6 總結

本文描述了FDA算法,它可以快速并精確地處理差分隱私下的數據連續發布問題。通過理論分析和實驗比較,FDA算法極大地改善了現有的連續數據發布方法的精確性,并且具有發布大規模數據的能力。然而,在靜態數據發布領域,FDA算法目前還未能超越已有的成熟方法。說明FDA算法在一定程度上還有進一步提高的空間。

同時,FDA算法是針對一般連續數據發布問題提出的改進方法,因此該算法可以進一步應用于數據連續發布算法的拓展性問題上,從而進一步提高這些方法的效果,比如基于滑動窗口的流數據保護問題[22]、衰減累加的隱私保護問題[23]、無限數據流問題[24]等。而這也說明了本文提出的FDA算法具有較強的應用價值。

References:

[1] De Montjoye Y A, Hidalgo C A, Verleysen M, et al. Unique in the crowd: the privacy bounds of human mobility[R]. 2013.

[2] Dwork C, Mcsherry F, Nissim K, et al. Calibrating noise to sensitivity in private data analysis[C]//LNCS 3876: Proceedings of the 3rd Theory of Cryptography Conference, New York, USA, Mar 4-7, 2006. Berlin, Heidelberg: Springer, 2006: 265-284.

[3] Dwork C. Differential privacy: a survey of results[C]// LNCS 4978: Proceedings of the 5th International Conference on Theory and Applications of Models of Computation, Xi’an, China, Apr 25-29, 2008. Berlin, Heidelberg: Springer, 2008: 1-19.

[4] Dwork C, Lei Jing. Differential privacy and robust statistics[C]//Proceedings of the 41st Annual ACM Symposium on Theory of Computing, Bethesda, USA, May 31-Jun 2, 2009. New York, USA: ACM, 2009: 371-380.

[5] Acs G, Castelluccia C, Chen Rui. Differentially private histogram publishing through lossy compression[C]//Proceedings of the 2012 IEEE 12th International Conference on Data Mining, Brussels, Dec 10-13, 2012. Piscataway, USA: IEEE, 2012: 1-10.

[6] Xu Jia, Zhang Zhenjie, Xiao Xiaokui, et al. Differentially private histogram publication[J]. The VLDB Journal, 2013, 22(6): 797-822.

[7] Hay M, Rastogi V, Miklau G, et al. Boosting the accuracy of differentially private histograms through consistency[J]. Proceedings of the VLDB Endowment, 2010, 3(1/2): 1021-1032.

[8] Xiao Xiaokui, Wang Guozhang, Gehrke J. Differential Privacy via Wavelet Transforms[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(8): 1200-1214.

[9] Cormode G, Procopiuc C, Srivastava D, et al. Differentially private spatial decompositions[C]//Proceedings of the 2012 IEEE 28th International Conference on Data Engineering, Washington, USA, Apr 1- 5, 2012. Piscataway, USA: IEEE, 2012: 20-31.

[10] Qardaji W, Yang Weining, Li Ninghui. Differentially private grids for geospatial data[C]//Proceedings of the 2013 IEEE 29th International Conference on Data Engineering, Brisbane, Australia, Apr 8- 12, 2013. Piscataway, USA: IEEE, 2013: 757-768.

[11] Smith A. Privacy-preserving statistical estimation with optimal convergence rates[C]//Proceedings of the 43rd Annual ACM Symposium on Theory of Computing, San Jose, USA, Jun 6-8, 2011. New York, USA:ACM, 2011: 813-822.

[12] Zhang Jun, Zhang Zhenjie, Xiao Xiaokui, et al. Functional mechanism: regression analysis under differential privacy[J]. Proceedings of the VLDB Endowment, 2012, 5(11): 1364-1375.

[13] Sweeney L. k-anonymity: a model for protecting privacy [J]. International Journal on Uncertainty, Fuzziness and Knowledge Based Systems, 2002, 10(5): 557-570.

[14] Machanavajjhala A, Kifer D, Gehrke J, et al. l-diversity: privacy beyond k- anonymity[J]. ACM Transactions on Knowledge Discovery from Data, 2007, 1(1): 3.

[15] Chan T H H, Shi E, Song D. Private and continual release of statistics[J]. ACM Transactions on Information and System Security, 2011, 14(3): 26.

[16] Li Chao, Hay M, Rastogi V, et al. Optimizing linear counting queries under differential privacy[C]//Proceedings of the 29th ACM SIGMOD- SIGACT- SIGART Symposium on Principles of Database Systems, Indianapolis, USA, Jun 6-11, 2010. New York, USA: ACM, 2010: 123-134.

[17] Yuan Ganzhao, Zhang Zhenjie, Winslett M, et al. Lowrank mechanism: optimizing batch queries under differential privacy[J]. Proceedings of the VLDB Endowment, 2012, 5(11): 1352-1363.

[18] Dwork C, McSherry F, Nissim K, et al. Calibrating noise to sensitivity in private data analysis[C]//LNCS 3876: Proceedings of the 3rd Theory of Cryptography Conference, New York, USA, Mar 4-7, 2006. Berlin, Heidelberg: Springer, 2006: 265-284.

[19] Fenwick P M. A new data structure for cumulative frequency tables[J]. Software: Practice and Experience, 1994, 24(3): 327-336.

[20] Boyd S, Vandenberghe L. Convex optimization[M]. Cambridge, UK: Cambridge University Press, 2004.

[21] Qardaji W, Yang Weining, Li Ninghui. Understanding hierarchical methods for differentially private histograms[J]. Proceedings of the VLDB Endowment, 2013, 6(14): 1954-1965.

[22] Cao Jianneng, Xiao Qian, Ghinita G, et al. Efficient and accurate strategies for differentially-private sliding window queries[C]//Proceedings of the 16th International Conference on Extending Database Technology, Genoa, Italy, Mar 18-22, 2013. New York, USA:ACM, 2013: 191-202.

[23] Bolot J, Fawaz N, Muthukrishnan S, et al. Private decayed predicate sums on streams[C]//Proceedings of the 16th International Conference on Database Theory, Genoa, Italy, Mar 18-22, 2013. New York, USA: ACM, 2013: 284-295.

[24] Kellaris G, Papadopoulos S, Xiao X, et al. Differentially private event sequences over infinite streams[J]. Proceedings of the VLDB Endowment, 2014, 7(12): 1155-1166.

CAI Jianping was born in 1990. He is an M.S. candidate at College of Mathematics and Computer Science, Fuzhou University. His research interest is differential privacy.

蔡劍平(1990—),男,福建漳州人,福州大學數學與計算機科學學院碩士研究生,主要研究領域為差分隱私。

WU Yingjie was born in 1979. He received the Ph.D. degree in computer application technology from Southeast University in 2012. Now he is an associate professor at Fuzhou University. His research interests include data mining, data security and privacy protection, etc.

吳英杰(1979—),男,福建泉州人,2012年于東南大學計算機應用技術專業獲得博士學位,現為福州大學副教授,主要研究領域為數據挖掘,數據安全,隱私保護等。

WANG Xiaodong was born in 1957. He received the M.S. degree from Fuzhou University in 1985. Now he is a professor at Fuzhou University. His research interests include data structures, design and analysis of algorithms, etc.

王曉東(1957—),男,1985年于福州大學獲得碩士學位,現為福州大學教授,主要研究領域為數據結構、算法設計與分析等。

Method Based on Matrix Mechanism for Differential Privacy Continual Data Release?

CAI Jianping, WU Yingjie+, WANG Xiaodong
College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350116, China

+ Corresponding author: E-mail: yjwu@fzu.edu.cn

CAI Jianping, WU Yingjie, WANG Xiaodong. Method based on matrix mechanism for differential privacy continual data release. Journal of Frontiers of Computer Science and Technology, 2016, 10(4): 481-494.

Abstract:The vast majority of the literature on differential privacy algorithms focuses on one time static release of datasets, while many applications of data analysis involve the continual data release. This paper proposes a method based on matrix mechanism for differential privacy continual data release. The key idea of the proposed method is to firstly construct the strategy matrix of the continual data release problem using the binary indexed tree, and then optimize the strategy matrix to boost the accuracy of the published data. After that, aiming at the high time complexity of existing optimization algorithm based on matrix mechanism, this paper puts forward a fast diagonal matrix optimization algorithm (FDA) with O(lg N) time complexity, which can be applied to the situation of large-scale continuous data publishing effectively. This paper compares and analyzes FDA and the traditional algorithms on the accuracy of the released data by experiments. The experimental results show that FDAis effective and feasible.

Key words:differential privacy; matrix mechanism; binary indexed tree; continual data release

文獻標志碼:A

中圖分類號:TP309.2

doi:10.3778/j.issn.1673-9418.1507074

主站蜘蛛池模板: 国产精品欧美亚洲韩国日本不卡| 尤物视频一区| 国产亚洲一区二区三区在线| 九九九精品成人免费视频7| 97se综合| 天天色综网| 无码福利日韩神码福利片| 午夜小视频在线| 亚洲国产黄色| 无码内射在线| 亚洲日韩久久综合中文字幕| 久久婷婷色综合老司机| 特级欧美视频aaaaaa| 亚洲成人一区二区| 男女精品视频| 国产又粗又爽视频| 国产精品观看视频免费完整版| 乱人伦中文视频在线观看免费| 久久超级碰| 国产最新无码专区在线| 国产日本欧美在线观看| 欧美在线三级| 亚洲一区二区无码视频| 一级毛片在线播放| 伊人91在线| 久久精品人人做人人爽| 思思99热精品在线| 欧美日韩成人在线观看| 国产精品冒白浆免费视频| 人人澡人人爽欧美一区| 欧洲精品视频在线观看| 国产麻豆91网在线看| 国内精品一区二区在线观看| 国产特级毛片aaaaaa| 女人18毛片水真多国产| 欧美在线一二区| 国产中文在线亚洲精品官网| 亚洲第一视频网站| 精品国产欧美精品v| 内射人妻无套中出无码| 欧美日韩激情在线| 亚洲无线一二三四区男男| 伊人久综合| 欧美成人aⅴ| 久久婷婷色综合老司机| 久草热视频在线| 精品国产成人av免费| 国产福利在线免费观看| 97在线国产视频| 亚洲精品国产综合99久久夜夜嗨| 不卡视频国产| 999国内精品视频免费| 国产极品美女在线| 中文国产成人精品久久| 国产波多野结衣中文在线播放| 国产靠逼视频| 99在线视频免费观看| 国产精品9| 日日拍夜夜操| 91精品视频网站| 久久亚洲天堂| 国产成人精品男人的天堂| 日韩成人高清无码| 午夜视频免费试看| 国产乱子伦手机在线| 欧美啪啪网| 制服丝袜亚洲| 日韩无码视频网站| 天天干伊人| 在线亚洲小视频| 极品av一区二区| 日本精品中文字幕在线不卡| 国产福利小视频高清在线观看| 日本a级免费| 亚洲人成成无码网WWW| a级毛片免费播放| 色婷婷国产精品视频| 国产人成网线在线播放va| 青青久久91| 日韩欧美成人高清在线观看| 欧美日韩免费观看| 精品少妇人妻无码久久|