滿足本地差分隱私的分類變換擾動機(jī)制

2022-02-11 14:11:04朱素霞孫廣路

計算機(jī)研究與發(fā)展 2022年2期

朱素霞王蕾孫廣路

(哈爾濱理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院哈爾濱 150080) (哈爾濱理工大學(xué)信息安全與智能技術(shù)研究中心哈爾濱 150080)

隨著云計算和大數(shù)據(jù)技術(shù)的發(fā)展，用戶端產(chǎn)生的海量數(shù)據(jù)被服務(wù)器收集起來進(jìn)行各種數(shù)據(jù)分析任務(wù).雖然對這些數(shù)據(jù)進(jìn)行分析可以為人們帶來可觀的效益，但是卻造成了用戶隱私暴露的問題.差分隱私由于其強(qiáng)大的隱私保障已經(jīng)成為了一種標(biāo)準(zhǔn)的隱私保護(hù)模型.隨著差分隱私的廣泛使用，服務(wù)器變得越來越重要.然而，在真實世界中保證所有服務(wù)器都是可信的是不實際的，而不可信的服務(wù)器可能會因為某些原因泄露用戶的隱私.為了解決這一問題，本地差分隱私作為一種新的隱私保護(hù)技術(shù)被提出用來保護(hù)用戶的隱私，其最典型的擾動機(jī)制是隨機(jī)響應(yīng)機(jī)制.在本地差分隱私中，服務(wù)器假設(shè)是不可信的，每個用戶端對本地數(shù)據(jù)進(jìn)行擾動使其滿足本地差分隱私，然后再將擾動后的數(shù)據(jù)發(fā)送給服務(wù)器.服務(wù)器對收集的噪聲數(shù)據(jù)進(jìn)行計算，得到所需的統(tǒng)計信息.本地差分隱私方法可以在獲得較為準(zhǔn)確的統(tǒng)計信息的同時有效地對用戶的數(shù)據(jù)進(jìn)行保護(hù)，從而避免了用戶隱私泄露的問題.

本地差分隱私由于其強(qiáng)大的隱私保證，已經(jīng)被運用到很多實際的工作任務(wù)中.例如谷歌的Chrome瀏覽器使用的RAPPOR(randomized aggregatable privacy-preserving ordinal response)方法以及微軟的遙測數(shù)據(jù)采集.這些方法使得在保護(hù)用戶隱私的同時，可以利用用戶的數(shù)據(jù)進(jìn)行分析得到有效的統(tǒng)計結(jié)果.人們針對不同的數(shù)據(jù)類型提出了適用于不同計算任務(wù)的本地差分隱私框架，目前主要研究的統(tǒng)計任務(wù)有均值估計和頻率估計.例如，谷歌Chrome使用的RAPPOR方法是針對分類型數(shù)據(jù)的頻率估計，Nguyên等人提出了針對離散型數(shù)據(jù)的均值估計的擾動方法Harmony. Ye等人針對鍵值數(shù)據(jù)類型提出了PrivKVM方法，可以在滿足本地差分隱私的同時估計鍵的頻率以及鍵對應(yīng)的所有值的均值.針對連續(xù)型數(shù)值數(shù)據(jù)的均值估計，Duchi等人的方法對數(shù)據(jù)進(jìn)行擾動之后一共有2種可能得到的擾動值.由于這2種擾動值的絕對值都大于1，即不管隱私預(yù)算如何變化，其方差始終大于1.所以當(dāng)隱私預(yù)算比較大時，該方法得到的均值估計的準(zhǔn)確性相比于拉普拉斯方法要更差.隨后，Wang等人針對Duchi方法的缺點，提出了分段機(jī)制(piecewise mechanism, PM).該機(jī)制不同的是，其擾動輸出為一段連續(xù)值，且這段連續(xù)值的中間部分有更高的概率輸出.雖然分段機(jī)制改善了Duchi方法中存在的問題，但是當(dāng)隱私預(yù)算較小時，該方法并沒有很好地提高均值估計的準(zhǔn)確性，其最壞情況下噪聲方差仍與Duchi方法接近.

除此之外，機(jī)器學(xué)習(xí)作為當(dāng)前比較熱門的學(xué)習(xí)領(lǐng)域，其中也涉及了大量用戶的隱私保護(hù)問題.為了更好地保護(hù)用戶的隱私，可以將其與本地差分隱私的相關(guān)擾動機(jī)制結(jié)合使用.目前，機(jī)器學(xué)習(xí)中較常使用的隱私保護(hù)方式是在模型訓(xùn)練時對用戶梯度進(jìn)行擾動，服務(wù)器收集擾動后的梯度進(jìn)行更新.例如，Nguyên等人將Harmony運用到了隨機(jī)梯度下降中，對每次迭代的梯度進(jìn)行擾動，并且證明了本地差分隱私下的小批量梯度下降要優(yōu)于隨機(jī)梯度下降.Wang等人則利用多維數(shù)據(jù)擾動的方式，將分段機(jī)制用于迭代中的梯度擾動.這些方法雖然在機(jī)器學(xué)習(xí)訓(xùn)練過程中保護(hù)了用戶的隱私，但由于機(jī)制本身的缺點，其訓(xùn)練結(jié)果的準(zhǔn)確性仍然具有提升空間.

為了改善已有擾動方法引入的準(zhǔn)確性問題，論文針對連續(xù)型數(shù)值數(shù)據(jù)，提出了一種滿足本地差分隱私的分類變換擾動機(jī)制(differential classified transformation, DCT).跟已有的方法直接對所屬數(shù)據(jù)類型使用對應(yīng)的擾動方法進(jìn)行擾動不同，本文提出的方法首先對數(shù)據(jù)類型進(jìn)行了轉(zhuǎn)換，將數(shù)值型數(shù)據(jù)轉(zhuǎn)換為了1維二元分類數(shù)據(jù)，再對分類數(shù)據(jù)進(jìn)行擾動.在真實數(shù)據(jù)以及合成數(shù)據(jù)中使用該方法進(jìn)行均值估計，與已有的方法進(jìn)行對比，可以得到一個更為準(zhǔn)確的估計結(jié)果.在機(jī)器學(xué)習(xí)的隱私保護(hù)中，考慮到本地差分隱私中隱私預(yù)算的分配問題，為了在訓(xùn)練中得到更為準(zhǔn)確的結(jié)果，論文將提出的分類變換機(jī)制用于構(gòu)建滿足本地差分隱私的小批量梯度下降，并在該框架下進(jìn)行線性回歸的學(xué)習(xí)任務(wù).

總的來說，本文主要貢獻(xiàn)如下：

1) 提出了一種數(shù)據(jù)變換擾動方法，并且得到了較好的結(jié)果，這給本地差分隱私的擾動提供了一個新方向，可以通過變換數(shù)據(jù)，使其在提高數(shù)據(jù)的可用性的同時又保障了用戶的隱私；

2) 提出的分類變換機(jī)制具有良好的性能，在滿足本地差分隱私保證的同時，在均值估計方面可以得到更為準(zhǔn)確的結(jié)果；

3) 將提出的方法用于構(gòu)建小批量梯度下降算法，并用該算法完成線性回歸的學(xué)習(xí)任務(wù)，使得參與用戶的數(shù)據(jù)受到良好保護(hù)的同時，可以得到一個較為準(zhǔn)確的模型結(jié)果；

4) 在真實的數(shù)據(jù)集以及合成的數(shù)據(jù)集上進(jìn)行實驗，以對提出的機(jī)制進(jìn)行評估.實驗結(jié)果表明，不管是在均值估計還是在經(jīng)驗風(fēng)險最小化任務(wù)中，使用分類變換擾動機(jī)制得到的結(jié)果誤差要小于已有的方法.

1 相關(guān)定義

1.1 本地差分隱私

在本地差分隱私中，服務(wù)器收集各個用戶的數(shù)據(jù)，并利用數(shù)據(jù)計算得到所需的統(tǒng)計信息.用戶在將數(shù)據(jù)發(fā)送給服務(wù)器前，先對本地的數(shù)據(jù)進(jìn)行擾動，再將擾動后的數(shù)據(jù)發(fā)送給服務(wù)器.服務(wù)器無法根據(jù)收集的噪聲數(shù)據(jù)來獲得用戶的隱私信息.隱私預(yù)算的大小代表了用戶隱私保護(hù)程度的強(qiáng)弱，其控制了隱私和效用之間的平衡，一個更小的隱私預(yù)算代表了更強(qiáng)的隱私保護(hù)程度.本地差分隱私的定義如下：

定義1.

-本地差分隱私

隨機(jī)函數(shù)

滿足

-本地差分隱私當(dāng)且僅當(dāng)域

中的任意2個輸入

′以及對于

中的任意可能的輸出

，有：

(

)≤e×

(

′)=

(1)

其中

(·)代表概率

本地差分隱私作為差分隱私的分支，提供了比差分隱私還要強(qiáng)大的隱私保障

根據(jù)上面的隱私定義，服務(wù)器無論具備怎樣的背景知識，都無法以高概率從接收到的用戶的擾動元組

來判斷用戶的真實值是

還是

′

本地差分隱私中最經(jīng)典的方法是隨機(jī)響應(yīng)機(jī)制，該方法主要用來收集用戶的敏感數(shù)據(jù)以獲得準(zhǔn)確的統(tǒng)計信息，下面舉例來介紹這個機(jī)制

假設(shè)服務(wù)器想知道有多少個用戶是抽煙的，它會向每個用戶發(fā)送問題“你抽煙嗎？”用戶接受到問題后采用拋硬幣的方法來決定它的答案

假如硬幣的正面朝上，那么用戶將真實答案告訴服務(wù)器，否則的話它將告訴服務(wù)器一個相反的答案

使用該方法，服務(wù)器可以根據(jù)所有用戶的回答得到一個無偏估計

假設(shè)每個用戶拋硬幣正面朝上的概率為

，即用戶正確回答服務(wù)器的概率為

，則其提供錯誤答案的概率為1-

為了使該方法滿足

-本地差分隱私，概率

應(yīng)滿足式(2)：

(2)

1.2 問題定義

論文主要研究的問題是連續(xù)型數(shù)值的均值估計，為了后續(xù)研究方便，這里簡單假設(shè)每個用戶

都有1個數(shù)值型數(shù)據(jù)

，本文所有使用到的符號如表1所示:

Table 1 Symbol Definition表1 符號定義

在本地差分隱私中，不同用戶可以根據(jù)需求使用不同的隱私預(yù)算

來保護(hù)自己的隱私

在本文中，為了便于分析，假設(shè)了一個統(tǒng)一的隱私預(yù)算參數(shù)值

，目標(biāo)是在滿足

-本地差分隱私的條件下完成下列2種類型的分析任務(wù)：

2) 經(jīng)驗風(fēng)險最小化

論文中主要將線性回歸及小批量梯度下降結(jié)合使用，并計算模型訓(xùn)練結(jié)果的均方誤差來評估方法性能

2 數(shù)值數(shù)據(jù)的均值估計

均值估計是目前本地差分隱私中主要進(jìn)行研究的統(tǒng)計任務(wù)之一，它在統(tǒng)計分析中具有重要作用.本節(jié)主要討論在滿足

-本地差分隱私的條件下收集用戶的數(shù)據(jù)進(jìn)行數(shù)值屬性均值估計的問題，對2種已有的方法進(jìn)行介紹.

1) Duchi方法

Duchi等人提出了在本地差分隱私下用來擾動1維數(shù)值型數(shù)據(jù)的方法，如算法1所示:

算法1.

Duchi等人的1維數(shù)值數(shù)據(jù)擾動方法.輸入：

∈[-1,1]、隱私預(yù)算

;

② if

④ else

⑥ endif

2) PM

Wang等人提出的分段機(jī)制PM是另一種在本地差分隱私下進(jìn)行均值估計的擾動方法.與Duchi方法不同，PM分段抽取輸入數(shù)值的擾動值.算法2描述了PM方法:

算法2.

PM數(shù)值擾動方法.輸入：

∈[-1,1]、隱私預(yù)算

;

① 從[0,1]中均勻隨機(jī)抽取

；

④ else

⑥ endif

(3)

其中

Wang等人證明了分段方法得到的擾動輸出值為輸入的無偏估計，并且將該方法用于均值估計能夠得到比其他現(xiàn)有方法更為準(zhǔn)確的結(jié)果.分段機(jī)制雖然改善了Duchi方法的缺點，當(dāng)隱私預(yù)算較大時可以得到更為準(zhǔn)確的結(jié)果.但是當(dāng)隱私預(yù)算較小時，其最壞情況下的方差與Duchi方法的相近，準(zhǔn)確性沒有得到很好的提高.

雖然這2種方法對已有的方法進(jìn)行了改善，一定程度上提高了連續(xù)數(shù)值型數(shù)據(jù)均值估計的準(zhǔn)確性，但是仍然存在缺點，準(zhǔn)確性仍具有較大的改善空間.如Duchi方法由于輸出的擾動值的絕對值都大于1，所以在隱私預(yù)算較大時性能較差；而分段機(jī)制雖然對Duchi方法進(jìn)行了改良，但是由于提出的分段機(jī)制在隱私預(yù)算較小時的最壞情況下方差與Duchi方法的接近，所以準(zhǔn)確性在隱私預(yù)算較小時沒有得到提升.

3 分類變換擾動機(jī)制

為進(jìn)一步提高均值估計的準(zhǔn)確性，本文提出了滿足本地差分隱私的分類變換擾動機(jī)制，即DCT.與Duchi和PM直接根據(jù)無偏估計得到較為準(zhǔn)確的結(jié)果不同，論文提出使用數(shù)據(jù)變換的方法使得在滿足本地差分隱私的條件下可以得到更為準(zhǔn)確的估計值.該機(jī)制不對原數(shù)據(jù)進(jìn)行擾動，而是將數(shù)據(jù)先進(jìn)行分類變換，對其轉(zhuǎn)換后得到的1維二元分類數(shù)據(jù)進(jìn)行擾動.對于分類變換擾動機(jī)制，其輸入值

∈[-1,1]，擾動值的輸出范圍為[-

]，其中

=1+

該機(jī)制主要分成3個階段，分別是分類變換、分類擾動以及分類逆變換

3.1 分類變換

變換前需要對用戶數(shù)據(jù)進(jìn)行預(yù)處理，這里假設(shè)用戶擁有的數(shù)據(jù)為浮點數(shù)

為了減少實驗時的計算開銷，方便后續(xù)的數(shù)據(jù)分析，將用戶數(shù)據(jù)

標(biāo)準(zhǔn)化到[-1,1]

一般情況下，假設(shè)該屬性的值域為[

]，式(4)給出了用戶計算方式：

(4)

(5)

其中

′-

′+

由于該數(shù)值位于擾動范圍中心，所以在對數(shù)值型數(shù)據(jù)進(jìn)行二值化時采用隨機(jī)抽取的方式取值，即該數(shù)值對應(yīng)的分類數(shù)值可能為1也可能為0

3.2 分類擾動

用戶

的數(shù)據(jù)

已經(jīng)轉(zhuǎn)換為了1維二元分類數(shù)據(jù)，可以在本地直接使用隨機(jī)擾動機(jī)制來對數(shù)據(jù)進(jìn)行擾動

這里采用Xia等人提出的對單個位進(jìn)行擾動的方法，式(6)給出了具體的擾動規(guī)則：

(6)

(7)

證明

根據(jù)式(6)，可以推得

(8)

(9)

(10)

(11)

(12)

證畢

3.3 分類逆變換

對二元分類數(shù)據(jù)進(jìn)行擾動之后，對其擾動輸出值進(jìn)行分類逆變換操作，輸出數(shù)值型數(shù)據(jù)

轉(zhuǎn)換規(guī)則為

(13)

如果擾動后分類數(shù)據(jù)為1，則將其轉(zhuǎn)換回數(shù)值數(shù)據(jù)時從中間的2段距離中隨機(jī)均勻抽取1個值作為其轉(zhuǎn)換后的值，如果分類數(shù)據(jù)為0則從兩端的2段數(shù)據(jù)中進(jìn)行均勻抽取

算法3.

分類變換擾動機(jī)制

輸入：

∈[-1,1]、隱私預(yù)算

;

① 從[0,1]隨機(jī)均勻抽取

；② if

④ else

⑥ endif

⑦ 從[0,1]中隨機(jī)均勻抽取

;

⑩ else

引理1.

算法3滿足

-本地差分隱私

(14)

證畢

4 本地差分隱私下的小批量梯度下降

本節(jié)主要研究構(gòu)建滿足

-本地差分隱私下的經(jīng)驗風(fēng)險最小化的機(jī)器學(xué)習(xí)模型，使用梯度下降法實現(xiàn)

參照Nguyên等人的對比實驗結(jié)果，使用小批量梯度下降可以得到比隨機(jī)梯度下降法更為準(zhǔn)確的結(jié)果，所以論文使用小批量梯度下降法實現(xiàn)經(jīng)驗風(fēng)險最小化

構(gòu)建了滿足本地差分隱私的小批量梯度下降法之后，使用其完成線性回歸任務(wù)來驗證該框架性能

(15)

其中

為正則化因子

在本文中，主要考慮線性回歸的損失函數(shù)，損失函數(shù)如式(16)所示：

(16)

在機(jī)器學(xué)習(xí)中，獲得的最普遍的計算方式是使用隨機(jī)梯度下降法

使用該方法時，首先初始化一組向量，然后進(jìn)行迭代更新，得到新的向量,,…,使用式(17)實現(xiàn)迭代更新：+1=-

×?(;,),

(17)

與非隱私狀態(tài)下不同的是，在本地差分隱私的條件下，?不會被用戶端直接發(fā)送給聚合器，而是以隱私的方式進(jìn)行收集

基于這個原因，已有的工作提出聚合器可以在每次迭代中收集用戶加噪之后的?

因為每次迭代中的梯度都是數(shù)值型數(shù)據(jù)，所以可以使用針對數(shù)值型數(shù)據(jù)的本地差分隱私擾動方法來對梯度進(jìn)行擾動，本文使用算法3對梯度進(jìn)行擾動

考慮到本地差分隱私中的隱私分配問題，如果使用隨機(jī)梯度下降進(jìn)行計算的話會導(dǎo)致加入的噪聲過多，從而導(dǎo)致結(jié)果偏差較大，準(zhǔn)確性較低

所以，這里使用的是小批量梯度下降法

也就是說，在每一次迭代中，隨機(jī)選取一組用戶

，

中每一個用戶都提交擾動后的梯度給服務(wù)器，服務(wù)器再將梯度更新為這組用戶提交的梯度的均值，式(18)給出了梯度更新的公式：

(18)

5 實驗

為了更好地評估論文中提出的方法的性能，論文使用了多種真實數(shù)據(jù)以及合成數(shù)據(jù)對該方法進(jìn)行實驗.

對于真實數(shù)據(jù)，使用了：1)從Integrated Public Use Microdata Series抽取的2個公共數(shù)據(jù)集，BR和MX，它們分別是巴西和墨西哥的人口普查記錄.BR包含了16種屬性，其中6種為數(shù)值型屬性，10種為分類型屬性.MX則包含19種屬性，分別為5種數(shù)值型屬性以及14種分類型屬性.2)人類活動識別數(shù)據(jù)集WISDM,這是來自35名參與者在安卓手機(jī)上的加速度計數(shù)數(shù)據(jù)，將其中的時間戳一列數(shù)據(jù)刪除，剩下包含3種數(shù)值型數(shù)據(jù)以及2種分類型屬性在內(nèi)的5種屬性.3)抽取了ADULT數(shù)據(jù)集中屬性Age一列.將這4種真實數(shù)據(jù)集的數(shù)值型屬性域都規(guī)范到[-1,1].

除了真實數(shù)據(jù)集之外，論文還使用了合成數(shù)據(jù)集，分別是：1)服從高斯分布的GAUSS數(shù)據(jù)集，其中設(shè)置數(shù)據(jù)均值為0，標(biāo)準(zhǔn)差為0.25. 2)服從指數(shù)分布的EXP數(shù)據(jù)集，將標(biāo)準(zhǔn)差設(shè)置為0.5. 3)服從均勻分布的UNIFORM數(shù)據(jù)集.在均值估計實驗中，為了消除誤差影響，每種方法重復(fù)運行了100次取其平均值.

5.1 參數(shù)α的影響

(19)

其中,

代表運行的次數(shù)，

代表真實的均值，

*代表均值的估計值

Fig. 1 The influence of different α on the mean estimation圖1 不同α值對均值估計的影響

5.2 不同數(shù)據(jù)集的AE值對比

為評估分類變換擾動機(jī)制的性能，論文計算不同機(jī)制擾動后均值估計的絕對誤差進(jìn)行對比.每個用戶對本地數(shù)據(jù)進(jìn)行擾動，服務(wù)器收集用戶擾動后的數(shù)據(jù)之后計算數(shù)值屬性的均值.除了使用論文中提出的機(jī)制，還使用了已有的較新的擾動方法來進(jìn)行比較，包括Wang等人提出的方法PM(如算法2所示)和Duchi等人的方法(如算法1所示)，這也是目前連續(xù)數(shù)值型數(shù)據(jù)擾動比較有代表性的方法.為了使結(jié)果更加的真實可靠，論文在1個真實數(shù)據(jù)ADULT和3個合成數(shù)據(jù)上進(jìn)行了實驗.

由圖2中不同類型數(shù)據(jù)集中的實驗結(jié)果可看出，絕對誤差隨著隱私預(yù)算的增大而減少.由于Duchi方法的最壞情況下誤差方差在隱私預(yù)算較小時與PM接近，所以當(dāng)隱私預(yù)算小于1時，Duchi和PM方法的結(jié)果較為接近.而論文中提出的分類變換擾動機(jī)制的絕對誤差則要比這2種方法的誤差小的多，不管隱私預(yù)算如何變換，該機(jī)制的絕對誤差比其他2種方法要小幾乎1個數(shù)量級.也就是說，論文中提出的方法在均值估計中的準(zhǔn)確性得到了明顯的改善.

Fig. 2 The mean estimate of different datasets圖2 不同數(shù)據(jù)集的均值估計

5.3 數(shù)據(jù)量的影響

在統(tǒng)計任務(wù)分析中，數(shù)據(jù)量的大小通常會影響最終結(jié)果的準(zhǔn)確性，這里將論文中提出的機(jī)制與現(xiàn)有機(jī)制的性能受數(shù)據(jù)集大小影響進(jìn)行對比.為更好地對比數(shù)據(jù)量變化對算法性能影響，使用不同大小的高斯數(shù)據(jù)集進(jìn)行均值估計，最后比較其絕對誤差的值.從圖3的實驗結(jié)果可以看出，絕對誤差隨著數(shù)據(jù)集的增大呈下降趨勢，也就是說數(shù)據(jù)量越大結(jié)果往往越準(zhǔn)確.PM方法的絕對誤差和Duchi方法的比較接近，而分類變換擾動機(jī)制的誤差始終要比PM方法以及Duchi方法的要更小.在不同的數(shù)據(jù)集大小中，分類變換擾動機(jī)制均體現(xiàn)出更好的性能，這主要是因為該機(jī)制使用了數(shù)據(jù)變換的方法，使得擾動滿足本地差分隱私的同時數(shù)據(jù)能獲得更高的準(zhǔn)確性.

Fig. 3 The impact of dataset size圖3 數(shù)據(jù)集大小的影響

5.4 經(jīng)驗風(fēng)險最小化

在經(jīng)驗風(fēng)險最小化實驗中，采用小批量梯度下降算法完成線性回歸的學(xué)習(xí)任務(wù)，將用戶無放回的進(jìn)行分組，同時為降低迭代過程中的噪聲，將訓(xùn)練輪數(shù)設(shè)置為訓(xùn)練集長度除以每組人數(shù)的向下取整的值，使得用戶最多參與1次訓(xùn)練.對于數(shù)據(jù)集BR和MX，將“totalincome”數(shù)值屬性作為因變量，其他所有屬性作為自變量.對于WISDM數(shù)據(jù)集，將最后1個數(shù)值屬性作為因變量，其他所有屬性作為自變量.對于數(shù)據(jù)集中的分類屬性，其處理方式與文獻(xiàn)[8]中的方法一樣.將每個具有

種值的分類型屬性

轉(zhuǎn)換成

-1元屬性，每一個屬性的值域為{0,1}，使得：1)

中的值如為第

個值(

)則第

元屬性會被設(shè)置為1，其余的

-2個屬性會被設(shè)置為0

中的值如為第

個值則其轉(zhuǎn)換的屬性所有的值都為0

轉(zhuǎn)換之后，BR的維度為90，MX的維度為94，WISDM的維度為43.論文中使用的是小批量梯度下降算法，每一次迭代中抽取1組用戶，該組中的用戶對梯度進(jìn)行擾動.用戶將擾動后的梯度發(fā)送給服務(wù)器，服務(wù)器根據(jù)接收到的用戶的梯度進(jìn)行梯度更新后返回給用戶.該實驗包含了3種方法：DCT，PM，Duchi.對于所有的方法，都將正則化因子設(shè)置為

=10.對于每一個數(shù)據(jù)集，使用5折交叉驗證5次來評估每種方法的性能.使用均方誤差(mean square error,

MSE

)比較使用不同擾動機(jī)制構(gòu)建的小批量梯度下降算法的優(yōu)劣.

Fig. 4 Linear regression using different perturbation mechanisms圖4 使用不同擾動機(jī)制的線性回歸

圖4描述了在不同的隱私預(yù)算下，每一種機(jī)制在不同數(shù)據(jù)下的線性回歸模型的均方誤差.可從實驗結(jié)果看出，PM方法和Duchi方法構(gòu)建的滿足本地差分隱私的小批量梯度下降模型的訓(xùn)練效果更為接近，論文中提出的分類變換擾動機(jī)制計算出的均方誤差要小于這2種機(jī)制，獲得的模型準(zhǔn)確度更高，性能要更優(yōu).總的來說，所有實驗結(jié)果表明，不管是在均值估計中還是在經(jīng)驗風(fēng)險最小化的任務(wù)中，分類擾動機(jī)制的性能都要優(yōu)于現(xiàn)有的本地差分隱私的解決方法，其在簡單和復(fù)雜的數(shù)據(jù)分析任務(wù)中均能獲得較高的準(zhǔn)確性.

6 結(jié) 論

為了防止用戶隱私泄露，論文提出了滿足本地差分隱私的分類變換擾動機(jī)制.該機(jī)制將數(shù)值型數(shù)據(jù)的擾動與分類型數(shù)據(jù)的擾動進(jìn)行結(jié)合，提高了均值估計的準(zhǔn)確性.同時，將該機(jī)制用于梯度下降中的每次迭代的梯度擾動，保護(hù)了訓(xùn)練過程中用戶隱私的同時得到了一個較為準(zhǔn)確的模型.而且，本文也從本地差分隱私定義的角度，理論證明了提出的方法滿足ε-本地差分隱私.最后通過多組真實數(shù)據(jù)集以及合成數(shù)據(jù)集驗證了分類變換擾動機(jī)制的性能，證明了其在相同條件下要優(yōu)于現(xiàn)有的同類方法.下一步工作將研究如何在更為復(fù)雜的數(shù)據(jù)分析中實現(xiàn)隱私保護(hù)并提高準(zhǔn)確性.

作者貢獻(xiàn)聲明

：朱素霞對研究思路提供指導(dǎo)意見，協(xié)助設(shè)計論文框架，并對論文初稿、修改稿等提供審閱意見；王蕾提出研究思路,設(shè)計研究方案,進(jìn)行實驗和數(shù)據(jù)分析,并撰寫論文;孫廣路對研究思路提供指導(dǎo)意見，并對論文初稿、修改稿等提供審閱意見.

滿足本地差分隱私的分類變換擾動機(jī)制

1 相關(guān)定義

1.1 本地差分隱私

1.2 問題定義

2 數(shù)值數(shù)據(jù)的均值估計

3 分類變換擾動機(jī)制

3.1 分類變換

3.2 分類擾動

3.3 分類逆變換

4 本地差分隱私下的小批量梯度下降

5 實 驗

5.1 參數(shù)α的影響

5.2 不同數(shù)據(jù)集的AE值對比

5.3 數(shù)據(jù)量的影響

5.4 經(jīng)驗風(fēng)險最小化

6 結(jié) 論

5 實驗