李萬(wàn)杰,張 興,曹光輝,李 帥,張青云
(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001)E-mail:Li_wanjie1014@163.com
隨著大數(shù)據(jù)共享時(shí)代的到來(lái),數(shù)據(jù)的融合能夠更好地促進(jìn)決策分析.例如,人口普查記錄的融合能夠更全面滿足生活情況的調(diào)研,病人醫(yī)療數(shù)據(jù)的融合有利于醫(yī)院分析疾病成因等信息.然而在數(shù)據(jù)共享帶來(lái)極大方便的同時(shí),共享的數(shù)據(jù)存在著隱私泄露的問(wèn)題.不同的用戶對(duì)于數(shù)據(jù)的使用需求不同,當(dāng)用戶的信任等級(jí)不同、訪問(wèn)權(quán)限不同時(shí),需要發(fā)布隱私保護(hù)程度不同的數(shù)據(jù),這就需要對(duì)數(shù)據(jù)進(jìn)行分級(jí)發(fā)布.因此,在數(shù)據(jù)融合的過(guò)程中不泄露數(shù)據(jù)隱私的前提下,針對(duì)用戶的不同信任等級(jí)、不同訪問(wèn)權(quán)限或?qū)?shù)據(jù)使用的不同需求,對(duì)數(shù)據(jù)進(jìn)行融合分級(jí)發(fā)布,以便達(dá)到實(shí)現(xiàn)不同等級(jí)隱私保護(hù)的目的.
國(guó)內(nèi)外學(xué)者在數(shù)據(jù)融合安全發(fā)布方面展開(kāi)了廣泛地研究[1-7].K-Anonymity[1]及其改進(jìn)算法是重要的隱私保護(hù)方法.K-Anonymity要求發(fā)布的數(shù)據(jù)記錄中至少存在k-1條記錄,使得攻擊無(wú)法識(shí)別區(qū)分,從而保護(hù)用戶的隱私信息.K-Anonymity在數(shù)據(jù)融合方面的研究也一直備受關(guān)注.Jiang等人[4]提出了一種安全分布式框架實(shí)現(xiàn)了滿足K-匿名的數(shù)據(jù)融合,但當(dāng)數(shù)據(jù)量龐大時(shí),該方法花費(fèi)的時(shí)間過(guò)長(zhǎng),而且不能實(shí)現(xiàn)三表及以上的數(shù)據(jù)融合.Fung等人[5]提出了一種滿足K-匿名的安全融合數(shù)據(jù)的方法,解決了三表及以上的數(shù)據(jù)融合問(wèn)題,但是在每次進(jìn)行特殊化處理時(shí)要計(jì)算兩方安全最大值,使得整個(gè)算法花費(fèi)較大的時(shí)間.文獻(xiàn)[6]提出了一種基于K-Anonymity結(jié)合自頂向下分類(lèi)樹(shù)算法的數(shù)據(jù)融合算法,減少融合過(guò)程所花費(fèi)的時(shí)間,提高融合數(shù)據(jù)的準(zhǔn)確性.但是,這種模型很難抵制背景知識(shí)攻擊等變體攻擊.文獻(xiàn)[7]提出了CDTT算法,該算法在差分隱私保護(hù)下,構(gòu)建動(dòng)態(tài)分類(lèi)樹(shù),有效地解決了上述問(wèn)題,但其算法并沒(méi)有考慮到用戶分級(jí)的情況,使得發(fā)布的數(shù)據(jù)利用率不高.
針對(duì)上述文獻(xiàn)中的不足,提出一種基于差分隱私保護(hù)的數(shù)據(jù)分級(jí)融合發(fā)布方法,解決了當(dāng)前數(shù)據(jù)融合發(fā)布機(jī)制無(wú)法抵御背景知識(shí)攻擊的缺點(diǎn),并提供個(gè)性化服務(wù)的分級(jí)發(fā)布,同時(shí)減少數(shù)據(jù)融合花費(fèi)時(shí)間并保證了融合發(fā)布后的數(shù)據(jù)具有較好的質(zhì)量和價(jià)值.
本節(jié)主要闡述一些基本定義及相關(guān)概念,包括差分隱私、實(shí)現(xiàn)機(jī)制、分類(lèi)樹(shù)、數(shù)據(jù)融合等.
Dwork[8]等人在2006年提出了差分隱私保護(hù)模型,其具有嚴(yán)格的隱私定義且可以抵御任意背景知識(shí)的攻擊.近些年來(lái),被眾多研究者應(yīng)用在隱私保護(hù)的場(chǎng)景中.差分隱私保護(hù)技術(shù)通過(guò)向原始數(shù)據(jù)集的轉(zhuǎn)換或其統(tǒng)計(jì)結(jié)果添加噪聲來(lái)達(dá)到隱私保護(hù)的目的.該方法確保了在任一數(shù)據(jù)集中更改一條記錄的操作而不影響查詢的輸出結(jié)果.此外,該模型可以抵御攻擊者掌握了除某一記錄外的所有信息的背景知識(shí)攻擊.差分隱私的定義[7]描述如下:
定義1.差分隱私
給定兩個(gè)數(shù)據(jù)集D和D′,二者完全相同或者至多相差一條記錄,給定隨機(jī)算法A,Range(A)表示A的值域,S為Range(A)的子集.如果A滿足式(1),則算法A滿足ε-差分隱私.
Pr[A(D)∈S]≤eε×Pr[A(D′)∈S]
(1)
其中,概率Pr[·]表示算法的概率,由算法A決定;ε為隱私預(yù)算,表示算法A的隱私保護(hù)程度,ε的值越小,A的隱私保護(hù)程度越高.
實(shí)現(xiàn)差分隱私保護(hù)常介入兩種噪聲機(jī)制,分別是拉普拉斯機(jī)制和指數(shù)機(jī)制[9].本文主要采用Laplace噪音機(jī)制.
Laplace機(jī)制[10]通過(guò)將服從Laplace分布的噪聲介入準(zhǔn)確的查詢統(tǒng)計(jì)結(jié)果來(lái)達(dá)到ε-差分隱私保護(hù)的目的.設(shè)Laplace分布Lap(b)位置參數(shù)為0的概率密度函數(shù)為p(x),其表示形式為
(2)
定義2.Laplace機(jī)制


圖1 Laplace概率密度函數(shù)Fig.1 Laplace probability density function
圖1為L(zhǎng)aplace概率密度函數(shù)[12],從不同參數(shù)的Laplace分布可得,當(dāng)ε的值越小,介入的噪聲越大.
分類(lèi)樹(shù)[13]采用泛化技術(shù)作為形成分類(lèi)樹(shù)的核心技術(shù),將給定數(shù)據(jù)集中的項(xiàng)作為葉子結(jié)點(diǎn),泛化葉子結(jié)點(diǎn)作為分類(lèi)樹(shù)的節(jié)點(diǎn),樹(shù)的根節(jié)點(diǎn)是所有葉子結(jié)點(diǎn)的集合,其具體表現(xiàn)形式為child(v)→v.圖2給出了數(shù)據(jù)集T={T1,T2,T3,T4}的分類(lèi)樹(shù).

圖2 簡(jiǎn)單數(shù)據(jù)集分類(lèi)樹(shù)Fig.2 Simple dataset classification tree
圖中T{1,2,3,4}是分類(lèi)樹(shù)的根結(jié)點(diǎn),例如T{1}和T{2}是葉子結(jié)點(diǎn),泛化為T(mén){1,2}作為分類(lèi)樹(shù)的節(jié)點(diǎn).在數(shù)據(jù)融合時(shí),數(shù)據(jù)擁有者提供數(shù)據(jù)表的屬性分類(lèi)樹(shù).
數(shù)據(jù)融合是指將兩個(gè)數(shù)據(jù)集通過(guò)記錄中的相同ID合并或?qū)⒉淮嬖诘腎D記錄加入集合,融合形成新的具有更多屬性、更為全面的數(shù)據(jù)集.數(shù)據(jù)的融合有利于數(shù)據(jù)分析者做更好地決策分析.例如,表1為3個(gè)用戶A、B、C在超市S1購(gòu)買(mǎi)啤酒I1、可樂(lè)I2、牛奶I3產(chǎn)生的購(gòu)物數(shù)據(jù),表2為4個(gè)用戶A、B、C、D在超市S2購(gòu)買(mǎi)啤酒I1、可樂(lè)I2、牛奶I3、咖啡I4產(chǎn)生的購(gòu)物數(shù)據(jù),將表1和表2的數(shù)據(jù)融合生成新的融合數(shù)據(jù)表(如表3所示),為統(tǒng)計(jì)并挖掘分析用戶的購(gòu)買(mǎi)行為做好準(zhǔn)備.

表1 超市S1購(gòu)物數(shù)據(jù)Table 1 Supermarket S1 shopping data

表2 超市S2購(gòu)物數(shù)據(jù)Table 2 Supermarket S2 shopping data

表3 融合后購(gòu)物數(shù)據(jù)Table 3 Shopping data after fusion
對(duì)多個(gè)數(shù)據(jù)擁有者的數(shù)據(jù)表進(jìn)行融合,每張數(shù)據(jù)表代表完整數(shù)據(jù)集的一部分屬性.由于數(shù)據(jù)使用者的權(quán)限等級(jí)、付費(fèi)情況或?qū)τ诎l(fā)布數(shù)據(jù)的使用需求不同,需要對(duì)用戶進(jìn)行分級(jí)處理,利用用戶的等級(jí)劃分,對(duì)數(shù)據(jù)屬性的重要度進(jìn)行劃分,按照重要程度設(shè)置不同的隱私預(yù)算,在融合數(shù)據(jù)集中加入與其對(duì)應(yīng)的Laplace噪聲.同時(shí)保證融合發(fā)布后的數(shù)據(jù)滿足:
1)數(shù)據(jù)具有較好的利用率,可以有效地提供決策分析等操作;
2)數(shù)據(jù)能夠較好地保護(hù)數(shù)據(jù)隱私且不會(huì)導(dǎo)致隱私預(yù)算耗盡等問(wèn)題.
數(shù)據(jù)分級(jí)融合發(fā)布主要由多個(gè)數(shù)據(jù)源、可信代理及查詢用戶組成.
1)多個(gè)數(shù)據(jù)源擁有者通過(guò)分類(lèi)融合算法融合數(shù)據(jù);
2)對(duì)融合后的數(shù)據(jù)進(jìn)行個(gè)性化的差分隱私處理,在進(jìn)行差分隱私處理的過(guò)程中,根據(jù)用戶的權(quán)限等級(jí)或付費(fèi)情況,設(shè)置合理的隱私預(yù)算參數(shù);
3)在用戶進(jìn)行查詢時(shí),為保護(hù)查詢用戶的身份不被泄露,使用假名機(jī)制來(lái)實(shí)現(xiàn)對(duì)用戶的隱私保護(hù).該數(shù)據(jù)分級(jí)融合發(fā)布機(jī)制的框架如圖3所示.

圖3 滿足差分隱私保護(hù)的數(shù)據(jù)融合發(fā)布框架Fig.3 Data fusion publishing framework satisfying differential privacy protection
在系統(tǒng)初始化階段,首先,查詢用戶需要通過(guò)可信代理服務(wù)器利用假名機(jī)制獲得與其身份對(duì)應(yīng)的假名標(biāo)識(shí)符(Alias(ID),ID為用戶身份).其次,依據(jù)用戶訪問(wèn)權(quán)限、付費(fèi)情況或?qū)τ跀?shù)據(jù)使用的不同需求,進(jìn)行等級(jí)劃分,訪問(wèn)權(quán)限高或付費(fèi)多的資源需要分配高等級(jí),反之則分配低等級(jí)(相應(yīng)等級(jí)記為L(zhǎng)).可信代理將用戶等級(jí)存儲(chǔ)至查詢服務(wù)器.數(shù)據(jù)融合發(fā)布系統(tǒng)根據(jù)用戶身份對(duì)應(yīng)等級(jí),設(shè)置不同的隱私預(yù)算ε,發(fā)布具有相應(yīng)隱私保護(hù)程度的數(shù)據(jù)集.身份假名與相應(yīng)隱私預(yù)算等級(jí)劃分如表4所示.

表4 身份假名-隱私預(yù)算等級(jí)劃分表Table 4 Identity pseudonym-privacy budget breakdown table
在數(shù)據(jù)融合發(fā)布機(jī)制中,通過(guò)介入不同數(shù)值拉普拉斯噪聲實(shí)現(xiàn)敏感數(shù)據(jù)的隱私保護(hù),本算法根據(jù)設(shè)定的用戶不同等級(jí)以及與用戶等級(jí)相應(yīng)的的隱私預(yù)算ε,實(shí)現(xiàn)不同隱私保護(hù)程度與查詢用戶級(jí)別的對(duì)應(yīng)關(guān)系,最終輸出介入不同數(shù)值拉普拉斯噪聲的差分隱私融合算法融合后的數(shù)據(jù),實(shí)現(xiàn)對(duì)融合的數(shù)據(jù)分級(jí)化發(fā)布.
對(duì)于數(shù)據(jù)融合而言,首先初始化一個(gè)數(shù)據(jù)集D0,選出D0出現(xiàn)一次的記錄,根據(jù)此記錄中任意兩項(xiàng)出現(xiàn)的次數(shù),選擇兩項(xiàng)作為第一個(gè)分支,然后選出的次數(shù)出現(xiàn)最少的兩項(xiàng),選擇在其所在行中的最大的值作為第二個(gè)分支,依次迭代地選取其它項(xiàng)集與這兩個(gè)分支組合,直至所有的項(xiàng)集被選出,為D0構(gòu)造分類(lèi)樹(shù)C-Tree(0).設(shè)置更新增量H以及與查詢用戶級(jí)別對(duì)應(yīng)的隱私預(yù)算εi,其中根據(jù)查詢用戶授權(quán)或付費(fèi)情況等方式來(lái)劃分用戶級(jí)別,按照支付金額或授權(quán)大小,為用戶分配高級(jí)別或低級(jí)別,并且相應(yīng)獲得的查詢結(jié)果的準(zhǔn)確性也遵循從高到低的原則.當(dāng)新的數(shù)據(jù)集Di與D0融合時(shí),先將Di中記錄添加到C-Tree(i-1)的根節(jié)點(diǎn),對(duì)Di中的記錄作下列步驟:(1)如果某記錄不為空且被分配到C-Tree(i-1)的非葉子節(jié)點(diǎn)中,就按照C-Tree(i-1)的分類(lèi)方法分配該記錄;(2)如果某記錄被分配到C-Tree(i-1)的葉子結(jié)點(diǎn),則分割該節(jié)點(diǎn)并重新分配該節(jié)點(diǎn)的差分隱私預(yù)算;(3)如果某記錄為空,則對(duì)下一條記錄做上述步驟,直至所有記錄分配完生成新的分類(lèi)樹(shù)C-Tree(i),根據(jù)分配好的隱私預(yù)算向C-Tree(i)的葉子節(jié)點(diǎn)添加Laplace噪音,最后依次迭代對(duì)于不同的隱私預(yù)算參數(shù)ε進(jìn)行以上步驟即可,最終產(chǎn)生具有不同隱私保護(hù)級(jí)別的融合后的隱私數(shù)據(jù).
采用上述思想設(shè)計(jì)的算法過(guò)程如下.
算法1.
輸入:初始數(shù)據(jù)集D0,D1,D2,…,DH,用戶ID(m),更新增量H

1.用戶ID(m)→Alias(ID(m))→Lm→εm

3.構(gòu)造D0的矩陣A
4. 找到A中出現(xiàn)任意兩項(xiàng)出現(xiàn)次數(shù)最多對(duì)應(yīng)的項(xiàng)集Mmax[i,j]
5.Q1=Mmax[i,j]
6. 在i,j所在行找出次數(shù)最小的項(xiàng)集Mmin[t,s]
7. 在t,s所在行找到最大的項(xiàng)集Mmax[a,b]
8.Q2=Mmax[a,b]
9.迭代上述步驟對(duì)于Q1,Q2
//**構(gòu)造D0的分類(lèi)樹(shù)C-Tree(0)
10.對(duì)D1,D2,…,DH做下列步驟
11.V=D0,D1,D2,…,DH
12.G=Di中的所有記錄
13.g→cut=C-Tree(0)的根結(jié)點(diǎn)

15. 將G添加到C-Tree(i-1)的根結(jié)點(diǎn)
16. 對(duì)G中的記錄gi做下列步驟
17. IFgi不為空且不是葉子結(jié)點(diǎn)
按照C-Tree(i-1)的分類(lèi)方法分配此節(jié)點(diǎn)


20.V=gi∪V
21. IFgi不為空或gi分配到葉子結(jié)點(diǎn)
22. 分割該節(jié)點(diǎn),執(zhí)行18至20步
23. ELSE IFgi為空
24. 則返回16步
25.返回C-Tree(i)
//**分配Di中的所有記錄
26.發(fā)布融合后的C-Tree(i)中葉子結(jié)點(diǎn)的信息

1)數(shù)據(jù)的分級(jí)融合滿足差分隱私
通過(guò)Laplace機(jī)制添加噪聲實(shí)現(xiàn)了數(shù)據(jù)敏感屬性隱私保護(hù),使用假名機(jī)制有效地保護(hù)了用戶的身份隱私,將用戶訪問(wèn)權(quán)限、付費(fèi)情況或?qū)τ跀?shù)據(jù)使用的不同需求,進(jìn)行等級(jí)劃分,并與隱私預(yù)算εm關(guān)聯(lián)實(shí)現(xiàn)數(shù)據(jù)分級(jí)融合,根據(jù)差分隱私的串行性質(zhì),分級(jí)融合機(jī)制滿足εm-差分隱私.實(shí)現(xiàn)融合數(shù)據(jù)個(gè)性化的隱私保護(hù)程度,分級(jí)融合數(shù)據(jù)發(fā)布機(jī)制使得查詢輸出結(jié)果可控.
2)分級(jí)融合發(fā)布機(jī)制滿足差分隱私

正確性:
1)對(duì)于數(shù)據(jù)信息需求而言,基于差分隱私的數(shù)據(jù)融合方法融合后的數(shù)據(jù)具有可靠的利用率,可以實(shí)現(xiàn)決策分析等操作工作;
2)對(duì)于數(shù)據(jù)隱私而言,使用差分隱私保護(hù)方法能夠彌補(bǔ)K-匿名不能抵制背景知識(shí)攻擊的缺點(diǎn),而且不會(huì)導(dǎo)致隱私預(yù)算耗盡等問(wèn)題.
復(fù)雜性:算法主要花費(fèi)表現(xiàn)在以下兩個(gè)方面:
1)構(gòu)造分類(lèi)樹(shù).選出數(shù)據(jù)集出現(xiàn)一次的記錄,根據(jù)此記錄中任意兩項(xiàng)出現(xiàn)的次數(shù),選擇兩項(xiàng)作為第一個(gè)分支,然后選出的次數(shù)出現(xiàn)最少的兩項(xiàng),選擇在其所在行中的最大的值作為第二個(gè)分支,依次迭代地選取其它項(xiàng)集與這兩個(gè)分支組合,直至所有的項(xiàng)集被選出,在此過(guò)程中,需要根據(jù)任意兩項(xiàng)出現(xiàn)的次數(shù)生成關(guān)系矩陣,遍歷整個(gè)數(shù)據(jù)集.
2)數(shù)據(jù)融合隱私預(yù)算分配.當(dāng)新的數(shù)據(jù)集Di進(jìn)行融合時(shí),Di中的記錄被插入到C-Tree(i-1)的根結(jié)點(diǎn)中,迭代地分配到不同的分支中,并且重新分配隱私預(yù)算.在此過(guò)程中需要根據(jù)分類(lèi)樹(shù)將融合的數(shù)據(jù)記錄劃分為單個(gè)子分割.
其中,構(gòu)造初始分類(lèi)樹(shù)的時(shí)間復(fù)雜度為O(|L|·|I|),|L|表示初始數(shù)據(jù)集的長(zhǎng)度,數(shù)據(jù)融合的時(shí)間復(fù)雜度為O(N·|D|·|I|),N表示融合數(shù)據(jù)集個(gè)數(shù),|D|表示融合數(shù)據(jù)集長(zhǎng)度.
本文設(shè)計(jì)的算法由Java語(yǔ)言和MyEclipse集成開(kāi)發(fā)軟件開(kāi)發(fā)實(shí)現(xiàn).實(shí)驗(yàn)硬件環(huán)境為Inter(R)Core I3 4510CPU 3.5GHz處理器,內(nèi)存16G;操作系統(tǒng)為Windows 7.在實(shí)驗(yàn)數(shù)據(jù)方面,采用從Http://ipums.org下載的Income數(shù)據(jù)集,該數(shù)據(jù)集包含Age、Education、Gender、Birthplace、Work-class、Occupation、Income、Race、Marital status等8個(gè)屬性,其中Income為敏感屬性,該數(shù)據(jù)集的8個(gè)屬性全部為數(shù)值型數(shù)據(jù).
圖4反映了隱私預(yù)算參數(shù)ε與采用拉普拉斯機(jī)制實(shí)現(xiàn)隱私保護(hù)的查詢結(jié)果錯(cuò)誤率的對(duì)應(yīng)關(guān)系.

圖4 隱私參數(shù)與查詢結(jié)果錯(cuò)誤率的對(duì)應(yīng)關(guān)系Fig.4 Relationship between privacy parameters and the error rate of query results
對(duì)于用戶等級(jí)的劃分標(biāo)準(zhǔn),可依據(jù)發(fā)布數(shù)據(jù)錯(cuò)誤率來(lái)衡量.若數(shù)據(jù)使用者期望得到查詢結(jié)果錯(cuò)誤率小于 1%的數(shù)據(jù),則取ε=0.1;若期望查詢結(jié)果錯(cuò)誤率在10%~20%之間的數(shù)據(jù),則取ε=0.005.由此可見(jiàn),可以把ε取自集合(0.001,0.1),按照ε的取值大小來(lái)對(duì)應(yīng)劃分用戶等級(jí).
實(shí)驗(yàn)主要測(cè)試針對(duì)不同的差分隱私預(yù)算參數(shù)ε,不同數(shù)量的屬性,不用數(shù)量的數(shù)據(jù)表,完成數(shù)據(jù)融合所花費(fèi)的時(shí)間和得到融合發(fā)布記錄的分類(lèi)精度.

98765430100200300400融合的數(shù)據(jù)量Ts/CDTTQ3_HDFPMQ3_CDTTQ5_HDFPMQ5_圖5 兩方數(shù)據(jù)融合花費(fèi)時(shí)間Fig.5 Datafusiontakestime98765430100200300400500融合的數(shù)據(jù)量Ts/HDFPMQ3_HDFPMQ5_圖6 三方數(shù)據(jù)融合花費(fèi)時(shí)間Fig.6 Tripartitedatafusiontakestime
為了與CDTT算法[7]的性能進(jìn)行比較,實(shí)驗(yàn)中取ε=0.005,數(shù)據(jù)集記錄數(shù)為10k~400k,比較二者花費(fèi)時(shí)間.圖5為Income數(shù)據(jù)集分為兩方數(shù)據(jù),比較HDFPM算法與CDTT算法進(jìn)行數(shù)據(jù)融合時(shí)花費(fèi)的時(shí)間,Qi表示融合記錄的屬性數(shù)量.從圖5中可以看出,在相同的隱私預(yù)算參數(shù)ε和相同的Qi下,HDFPM算法進(jìn)行數(shù)據(jù)融合所花費(fèi)時(shí)間比CDTT算法花費(fèi)更少.
圖6為HDFPM算法在屬性不同情況下,三方數(shù)據(jù)融合所花費(fèi)的時(shí)間.從圖6中可以看出,融合同一大小的數(shù)據(jù)記錄數(shù),屬性增加時(shí),花費(fèi)時(shí)間會(huì)增加;隨著數(shù)據(jù)記錄數(shù)的增加,二者花費(fèi)時(shí)間基本相同.
實(shí)驗(yàn)中分別取ε=0.05、ε=0.5、ε=1.0滿足來(lái)分級(jí)條件,Qi=5,以此進(jìn)行實(shí)驗(yàn),對(duì)比提出算法HDFPM與CDTT算法、DiffGen-Max算法融合后數(shù)據(jù)分類(lèi)的精確度.圖7為不同ε下三種算法的分類(lèi)精度圖.
從圖7中可以看出,當(dāng)ε值較小時(shí),即用戶等級(jí)較低,三種算法分類(lèi)精度基本一致,但隨著隱私預(yù)算參數(shù)的增加,即用戶等級(jí)的增大,HDFPM算法算法相比于CDTT算法、DiffGen-Max算法分類(lèi)精度相對(duì)更高,數(shù)據(jù)質(zhì)量相對(duì)更好.

圖7 不同ε時(shí)分類(lèi)精度Fig.7 Classification accuracy at different ε
本文提出的基于差分隱私的數(shù)據(jù)分級(jí)融合發(fā)布機(jī)制,在數(shù)據(jù)融合發(fā)布過(guò)程中,保持了融合后數(shù)據(jù)的可用性,同時(shí)保護(hù)了數(shù)據(jù)中的敏感信息.本文方法與基于K-匿名系列方法相比,在融合的過(guò)程中,主要有三處改進(jìn):第一點(diǎn)是將數(shù)據(jù)融合與差分隱私保護(hù)結(jié)合,把差分隱私技術(shù)引用到數(shù)據(jù)融合中,使得融合發(fā)布后的數(shù)據(jù)更具安全性;第二點(diǎn)采用分級(jí)方法,使得融合后的數(shù)據(jù)對(duì)于隱私保護(hù)程度更具針對(duì)性;第三點(diǎn)提出的基于分類(lèi)樹(shù)的隱私預(yù)算方法能夠更合理地分配隱私預(yù)算,避免隱私預(yù)算的過(guò)早耗盡.實(shí)驗(yàn)表明,本文算法既能在一定程度上減少花費(fèi)時(shí)間實(shí)現(xiàn)數(shù)據(jù)的分級(jí)融合,又能保持?jǐn)?shù)據(jù)的可用性且能夠有效的保護(hù)敏感數(shù)據(jù)的隱私性.未來(lái)將繼續(xù)研究差分隱私保護(hù)在數(shù)據(jù)融合發(fā)布中的應(yīng)用.