龔晨

摘要:隱私保護是現代信息安全領域一項重要的技術。針對傳統局部差分隱私以拉普拉斯來實現輸出擾動,但其對攻擊者來說,保護效果會存在一定不足。本文采用隨機響應方式對原始數據集進行擾動,從原始數據入手,較好提升隱私保護力度。并對隱私保護的重要參數ε的選取,提出一種新的數據模型,用來計算和確定ε的值。通過實驗表明,本文算法的保護性能優于傳統隱私保護方法。
關鍵詞: 隱私保護;隨機響應;數據模型
中圖分類號: TP391? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)21-0040-02
開放科學(資源服務)標識碼(OSID):
Abstract: Privacy protection is an important technology in the field of modern information security. For traditional local differential privacy, Laplace is used to achieve output disturbance, but for the attacker, the protection effect will be insufficient. This paper uses the random response method to perturb the original data set, starting from the original data, and better improving the privacy protection. A new data model is proposed for the selection of the important parameter ε of privacy protection, which is used to calculate and determine the value of ε. Experiments show that the protection performance of the proposed algorithm is better than the traditional privacy protection method.
Key words: privacy protection; random response; data model
在20世紀90年代,隱私保護技術起源于Massachusetts選民登記表中的健康信息。差分隱私適應傳統隱私保護技術的不足發展起來[1]。傳統隱私要假定場景,需要干擾者的各方面背景知識,而差分隱私不需關心干擾者的任何背景知識,且能保證隱私信息的任何一條記錄都不會泄露。局部差分隱私作為差分隱私必不可少的一部分,控制參數ε合理情況下,可以有效保護敏感數據隱私[2]。
差分隱私研究工作已經成為研究的熱點。其中Albarghouthi等人[3]提出一種按鈕形式的自動化技術,驗證復雜隨機化算法對敏感數據保護能力。同時提出基于約束的隱私問題表達式,解決了模耦合約束問題,提高了隱私力度,但未考慮參數ε的具體問題,局部差分隱私的優越性也未利用。Zhang等人[4]提出基于續航式的差分隱私方案,解決數據共存導致敏感數據信息泄露的問題,提高隱私保護能力,然而就參數ε而言未考慮,局部隱私的好處也沒有展現出來。為解決上述問題,本文提出新型局部差分隱私方案,控制參數ε的具體取值,增強隱私保護力度。
1 本文隱私保護工作
1.1隨機響應機制
通過表1說明隨機響應是如何實現差分隱私保護的。假設有五個某公司職員元祖數據,每個職員有姓名(Name)、年齡(Age)、工資(Salary)以及職務(Career)四個屬性,現攻擊者除了不知道Tom的工資外,已經了解其他所有數據。為獲取Tom的工資數據,Attacker通過發送語句F:select Salary from table1 where Name=Tom。
如若對攻擊者發出的查詢語句不加任何干擾,則該查詢語句會返回Tom職員的真實工資數據,導致數據泄露。隨機響應擾動的原理是:當攻擊者在使用查詢語句查詢之前,利用隨機擾動法對Name屬性的五個職員名字進行小概率的交換位置。
1.2? 參數ε選取模型
式(1)中,F(T1)和F(T2)分別為真實查詢結果、隨機響應擾動后查詢結果,T1和T2分別為隨機擾動前后的原始數據集。定位查詢語句F的敏感度ΔF為:
原始的ε參數計算公式為:
為減少ε所依賴的參數,并使其不再與數據集本身相關,從而降低其值所受干擾程度,本文提出一種新的計算ε的模型公式,在明確了隨機響應干擾率pr、查詢語句敏感度ΔF以及攻擊者攻擊成功率λ后,即可得出ε的值,計算如下:
2 實驗結果與分析
本文實驗數據集采用Adult數據集,使用本文提出的新型局部差分隱私保護方法與傳統的方法相比較,得出其在成人數據集上對于屬性的保護率以及攻擊成功率。實驗結果如表2所示。
由上表2數據分析可知,本文采用隨機響應干擾機制結合一種新的ε參數計算公式,對成人數據集的屬性保護率比傳統的局部差分隱私方法要高,攻擊者通過查詢語句獲得正確的數據可能性較低。因而對于攻擊者來說,攻擊成功率下降了,對于數據庫來說,本文提出新的局部差分隱私保護算法擁有更高效的保護性能。
3 結論
傳統的局部差分隱私使用拉普拉斯對攻擊者查詢結果進行擾動,但對于先驗知識較高的攻擊者而言,容易估算出真實數據,并為降低原始的ε參數與數據集耦合性,本文提出一種新的局部差分隱私方法。利用隨機響應機制直接對原始數據集進行干擾,并給出一種新的ε參數計算模型。通過實驗證明,其對于數據的保護能力優于原始的局部差分隱私。
參考文獻:
[1] 陳麗麗. 大數據安全與隱私保護[J]. 現代工業經濟和信息化, 2017,7(04):92-93.
[2] 高志強, 王宇濤. 差分隱私技術研究進展[J]. 通信學報, 2017,38(S1):151-155.
[3] Albarghouthi A, Hsu J. Synthesizing Coupling Proofs of Differential Privacy[J]. Proceedings of the ACM on Programming Languages, 2017,2(POPL):1-30.
[4] Zhang Z, Zhan Q, Zhu L, et al. Cost-friendly Differential Privacy for Smart Meters: Exploiting the Dual Roles of the Noise[J]. IEEE Transactions on Smart Grid, 2017,(99):1.
【通聯編輯:唐一東】