盧 岑,沈蘇彬
(1.南京郵電大學 物聯網學院,江蘇 南京 210003;2.南京郵電大學 計算機學院,江蘇 南京 210023)
隨著可穿戴技術的發展,可穿戴裝置成為了人體衛生和保健的數據源,能不斷監測和傳遞用戶的生命體征數據,例如血壓、心率、體脂等數據,同時還能測量運動過程中的卡路里消耗、步伐、心率和速度等。醫療機構和健康機構通過收集并分析這些數據來為用戶提供更好的服務。但是,就設備安全性和公眾的隱私接受度而言,可穿戴裝置還不成熟。2016年,歐盟通過了《一般數據法案》(general data protection regulation,GDPR),該法規規定了個人數據保護跨越國界,明確了用戶的知情權以及個人數據隱私的保護。然而,可穿戴裝置中的嵌入式傳感器通??稍谖凑鞯糜脩敉獾那闆r下采集和獲取個人以及周圍環境的數據,這種情況會侵犯用戶的隱私并違反相關法規。
針對隱私量化和隱私保護的需求,研究者提出了差分隱私技術,根據第三方數據匯聚服務器是否可信,差分隱私可分為中心化差分隱私和本地差分隱私。中心化差分隱私假設第三方是可信的,每個用戶將自己的真實數據發送給數據匯聚服務器,然后數據匯聚服務器通過滿足差分隱私的擾動算法對數據進行處理。然而,并不是所有的第三方都是可信的。針對第三方不可信的情況,本地差分隱私通過在用戶端對真實數據進行擾動,然后將擾動后的數據匯聚到數據服務器中保護用戶的數據隱私安全。
但是本地差分隱私為所有個人提供了相同級別的隱私保護,每個用戶對于其數據可接受的隱私級別的期望卻不相同,這可能導致某些用戶的隱私保護不足,而其他用戶則受到過度保護。因此,在用戶本地對數據進行數據擾動時,應該允許用戶個性化地設置自己的隱私偏好,實現個性化的隱私保護。目前的個性化本地差分隱私存在兩個問題,第一,大部分個性化差分隱私都是針對一維數值型數據的,而可穿戴裝置收集的數據存在多個數值型屬性,是多維的。第二,現有的個性化差分隱私都是通過隨機響應機制或者添加噪聲(主要是拉普拉斯噪聲)實現的,將其應用于可穿戴裝置中會產生隱私保護程度低和數據可用性低等問題。
在現有本地差分隱私保護方法的基礎上,該文提出了一種可穿戴裝置個性化本地差分隱私保護方案,允許用戶設置自己的隱私偏好,實現對可穿戴裝置多維數值型數據的個性化本地差分隱私。同時采用結合機制,結合隨機響應機制和分段機制,解決隨機響應機制最壞情況下噪聲方差大的問題,提高可穿戴裝置對用戶多維數值型數據的隱私保護,并且提高數值型數據的數據可用性,通過理論驗證和實驗仿真證明可穿戴裝置個性化本地差分隱私保護方案的有效性。
隨著可穿戴技術的發展,可穿戴裝置中的數據隱私問題受到越來越多的關注。對可穿戴裝置數據的攻擊可分為被動攻擊或主動攻擊兩種,被動攻擊的基本目標是訪問網絡中共享的一定數量的私有數據或從公共數據集中推斷出任何關鍵信息。為了克服隱私量化和背景攻擊等隱私問題,2006年引入了一種重要的隱私方法,稱為差分隱私。差分隱私通過添加所需的噪聲量并在隱私和準確性之間保持健康的平衡來保護統計數據或實時數據。而對于不可信的第三方數據收集者,許多學者提出了本地差分隱私(LDP),本地差分隱私防止了數據管理者對確切的私人數據的收集。
LDP可以通過傳統的隨機響應技術實現,Erlingsson等提出了RAPPOR框架,該框架基于發布二進制屬性的隨機響應機制,他們將這種機制與Bloom過濾器結合使用,Bloom過濾器直觀地增加了另一級的保護,并增加了對手推斷私人數據的難度。后續論文將RAPPOR擴展到更復雜的統計數據,例如聯合分布和關聯測試以及包含大量潛在值的分類屬性。但是RAPPOR通信開銷大,不適合用在可穿戴裝置中。Wang等研究了相同的問題,并提出了不同的方法,他們將k
個可能的值轉換為具有k
個元素的噪聲向量,并將后者發送給數據收集者。Bassily和Smith提出了一個漸進最優解,用于在LDP下建立大分類域上的頻率分布直方圖。但是,上述所有方法都集中在單個分類屬性上,與文中多維數值型數據研究工作不同。Ren等研究了發布多維屬性的問題,并采用了k-size向量的思想(類似于文獻[12]),但是這種方法在數據收集者和用戶之間需要相當高的通信成本,因為它涉及多個k
大小矢量的傳輸。Kairouz等提出了極值機制,這是離散輸入數據的LDP機制,即每個輸入域X
包含有限數量的可能值,這些機制的輸出分布具有關鍵屬性。因為LDP能很好地保護用戶數據的隱私,故在室內定位數據的收集、移動感知的推理控制以及眾包數據的發布等應用中都有考慮??纱┐餮b置本地差分隱私應用方面,馬方方等提出了可穿戴裝置多維數值型數據個性化隱私保護方案(personalized local privacy scheme,PLPS),使用安全域對敏感數據進行規范化,最后使用伯努利分布對分組的多維數據進行擾動,并使用屬性安全域恢復干擾結果。馬方方等提出的方法比Harmony算法具有更低的最大相對誤差,但是當ε
值大于2時,噪聲方差會趨于1,不會隨著ε
的增大而減小。涂子璇針對可穿戴裝置的數值型流數據均值發布,為防止用戶的隱私信息泄露提出一種基于自適應采樣的可穿戴裝置差分隱私均值發布方法。在個性化差分隱私方面,Mousumi Akter提出了一種新穎的方法,即數字聚合的私有估計(private estimation of numeric aggregates,PENA),在確保個性化的本地差分隱私的同時計算數字數據的聚合,但是該方法只適用于一維數值型數據。Datong Wu根據LDP和用戶的個性化要求提供了新穎的隱私定義,并展示了機制的最佳效用和隱私保證,但是提出的機制只適用于空間數據,也就是說只針對于位置的隱私保護。
可穿戴裝置的數據收集模型如圖1所示。可穿戴裝置首先通過傳感器收集用戶的各種數據,然后通過藍牙與移動設備相連,將數據傳輸到移動設備中,最后第三方數據匯聚服務器收集各個移動設備的數據。

圖1 可穿戴裝置數據收集模型
本地差分隱私是基于中心化差分隱私提出的數據收集框架,不同于中心化差分隱私對于可信第三方的假設,其針對的是不可信的第三方數據收集者(也就是圖1中的數據匯聚服務器),本地差分隱私定義如下:
定義1:本地差分隱私。給定n
個用戶,每個用戶對應一條記錄,給定一個隱私算法M
及其定義域Dom(M
)和值域Rom(M
)。若算法在任意兩條記錄t
和t
(t
?Rom(M
))上得到相同輸出結果t
(t
?Rom(M
))并滿足下列不等式,則M
滿足ε
-本地差分隱私。Pr[M
(t
)=t
]≤e
×Pr[M
(t
')=t
]同時,個性化本地差分隱私定義如下:
定義2:個性化本地差分隱私。給定n
個用戶,用戶u
的隱私設置偏好為ε
,對于任意兩個輸入t
和t
和任意的輸出結果滿足下列不等式,則M滿足個性化本地差分隱私。Pr[M
(t
)=t
]≤MAX(e
)×Pr[M
(t
')=t
]



圖2 PLPS在最壞情況下的噪聲方差
設計方案的隱私保護目標:對可穿戴設備多維數值型數據進行個性化的隱私保護,在保護用戶隱私的前提下,減小最壞情況下的噪聲方差,同時保證數據均值估計的可用性。
針對PLPS中存在的最壞情況下噪聲方差大的問題,采用結合機制解決,結合機制結合隨機響應機制和分段機制,具體描述如下:
結合機制
輸入:原始元組t
∈[-1,1]和隱私預算ε

ε
<0.
6 then(2) 選擇隨機響應機制對數據進行擾動
(3)else
(4) 從[0,1]中隨機取樣得到x
(5) ifx
<e
-2then(6) 選擇隨機響應機制對數據進行擾動
(7) else
(8) 選擇分段機制對數據進行擾動

ε
<0.
6時,選擇隨機響應機制對數據進行擾動,否則從[0,1]中隨機取樣x
,當x
分段機制
輸入:原始元組t
∈[-1,1]和隱私預算ε

x


(4)else


結合機制在最壞情況下的噪聲方差為:


ε
怎么變化,采用結合機制擾動數據后在最壞情況下的噪聲方差比PLPS小,也就是說,隱私保護程度比PLPS更好。
圖3 采用結合機制擾動數據和PLPS最壞情況下的噪聲方差


可穿戴裝置個性化差分隱私保護方案

z
,1≤j
≤d
(1)fori
=0 ton
do(2) forj
=0 tod
do
(4) end

(6)end

3.3.1 隱私性分析
用戶設置自己的隱私預算為ε
,根據個性化本地差分隱私的定義,需要證明
(1)隨機響應機制隱私性分析。



e
≤MAX(e),所以隨機響應機制滿足個性化差分隱私。(2)分段機制隱私性分析。
分段機制的概率密度函數為:



由此可以得出:



所以根據個性化差分隱私的定義,分段機制同樣滿足個性化本地差分隱私。
由以上分析可以看出,無論是隨機響應機制還是分段機制都滿足個性化本地差分隱私,而文中的方案結合了隨機響應機制和分段機制,根據差分隱私并行組合特性,文中的方案也滿足個性化本地差分隱私。
3.3.2 可用性分析

通過上面的分析可以看到,文中的方案既滿足個性化本地差分隱私,而且最大絕對誤差小于PLPS,在數據可用性方面優于PLPS方案。

ε
對MAE的影響。為了研究隱私預算對可用性的影響,隨機生成虛擬數據集,ε
取值為[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],考慮數據屬性個數d
=10/
20和用戶數n
=100/
10 000的情況,不同隱私預算對MAE的影響,如圖4所示??傮w上看,MAE隨著隱私預算的增大而減小。這是因為,隱私預算本質上代表著用戶對隱私的保護程度,隱私預算越大,代表用戶想要對隱私保護的程度就越小,因此第三方收集者得到的用戶數據就越準確,自然地,第三方收集者對原始數據的估計也就越準確,因此最大絕對誤差也就會相應的更小。也就是說,如果ε
→∞,那么MAE→0。另一方面,從圖4中可以明顯看出,對于不同的隱私預算,文中的方案效果均優于PLPS。當第三方收集者拿到擾動后的數據時,對于原始數據的均值估計,使用文中的方案更加準確。
圖4 隱私預算對MAE的影響
(2)屬性個數d
對于MAE的影響。為了研究屬性個數對可用性的影響,隨機生成虛擬數據集,d
取值為[5,10,15,20,25,30],考慮數據隱私預算ε
=5/
0.
5和用戶數n
=100/
10 000的情況,不同屬性個數對MAE的影響,如圖5所示。
圖5 屬性個數對MAE的影響
MAE與屬性個數呈正相關,即屬性個數的增多會導致MAE增大,這本質上體現了數據維度的增加對于第三方數據收集者對原始數據整體估計值誤差的積累過程。橫向來看,文中的方案效果依然大幅度優于PLPS。
(3)用戶數n
對MAE的影響。為了研究用戶數對可用性的影響,隨機生成虛擬數據集,n
取值為[5 000,10 000,15 000,20 000,25 000,30 000,35 000,40 000,45 000,50 000,55 000,60 000],考慮數據隱私預算ε
=5/
0.
5和屬性個數d
=20/
200的情況,不同用戶數對MAE的影響,如圖6所示。
圖6 用戶數對MAE的影響
圖6展示了MAE隨用戶數量的變化規律??v向來看,隨著用戶數量的增加MAE逐漸減小,因為MAE與用戶數n
的1/2次方呈反比例關系,本質上是由于用戶對隱私預算的分攤。從另外一個角度也可以理解為,隨著用戶數量的增加,第三方數據收集者能夠獲取的數據樣本也就越多。因為無論是PLPS還是文中的方案,第三方數據收集者均可以對原始數據進行宏觀統計量的無偏估計,因此數據量越多,宏觀量的估計也就越精確。橫向上看,文中的方案效果依然比PLPS好。為了防止可穿戴裝置用戶隱私泄露,文中通過采用結合機制對數值型數據進行擾動,結合隨機響應機制和分段機制減少最壞情況下的噪聲方差,通過隨機采樣提高多維數據的數據可用性,并且針對不同用戶的隱私需求提出了可穿戴裝置個性化本地差分隱私保護方案。理論證明,文中方案滿足了個性化本地差分隱私保護需求。仿真實驗結果表明,采用文中方案對可穿戴裝置多維數值型數據進行隱私保護,不僅能減小最壞情況下的噪聲方差,而且擁有更高的數據可用性。但是文中方案的個性化是針對每個用戶的所有屬性相同保護程度,針對不同屬性的個性化還需要進一步的研究。