多數(shù)據(jù)源下機器學習的隱私保護研究

2020-07-18 15:28:39張銘凱范宇豪夏仕冰

網絡空間安全 2020年4期

張銘凱范宇豪夏仕冰

摘 ? 要：在多數(shù)據(jù)源的情況下，隱私保護機器學習是一個具有重要現(xiàn)實意義的研究課題，直接影響著人工智能在現(xiàn)實社會中的發(fā)展和推廣。目前，已有許多致力于解決機器學習算法中隱私問題的方案，文章闡述并分析了四種常見的隱私保護技術，它們包括同態(tài)加密、秘密共享、亂碼電路和差分隱私。介紹了近年來一種流行的聯(lián)合學習解決方案框架—聯(lián)邦學習，并對其存在的不足進行了討論?；趯ΜF(xiàn)有技術和方案的分析，文章提出了一種適用于多數(shù)據(jù)源場景的隱私保護方案，方案具有良好的安全性、健壯性和可校驗性三個特點。

關鍵詞：隱私保護;多數(shù)據(jù)源;機器學習;同態(tài)加密;聯(lián)邦學習

中圖分類號： TP391 ? ? ? ? ?文獻標識碼：A

Abstract： In the case of multiple data sources， privacy protection machine learning is a research topic of great practical significance， which directly affects the development and promotion of artificial intelligence in real society. At present， there are many solutions dedicated to solving privacy problems in machine learning algorithms. The article expounds and analyzes four common privacy protection technologies， including homomorphic encryption， secret sharing， garbled circuits， and differential privacy. Introduced a popular joint learning solution framework in recent years-federal learning， and discussed its shortcomings. Based on the analysis of existing technologies and schemes， the article proposes a privacy protection scheme suitable for multiple data source scenarios. The scheme has three characteristics of good security， robustness and verifiability.

Key words： privacy protection; multiple data sources; machine learning; homomorphic encryption; the federal study

1 引言

近年來，機器學習算法得到越來越多的關注和發(fā)展，其出色的數(shù)據(jù)挖掘技術在疾病檢測、經濟預測、網絡優(yōu)化等廣泛領域中得到應用并迅速獲得了普及。

在實際訓練中，機器學習算法需要盡可能多的樣本數(shù)據(jù)，但是單數(shù)據(jù)源所能提供的數(shù)據(jù)量有限，算法所需的數(shù)據(jù)大多來自多個數(shù)據(jù)源，例如不同的人、公司、組織或國家等。由于每個參與者對所得到的學習模型都做出了貢獻，在未經其他參與者授權之前，通常該模型應只在參與者之間共享，而不允許任何單個參與者擁有模型的全部所有權。這種限制可以有效防止任何未經授權的個人或團體利用或出售有價值的模型。

基于上述原因，如何保護每個參與者的隱私問題有著極其重要的現(xiàn)實意義。數(shù)據(jù)提供者不希望將其私人數(shù)據(jù)透露給其他人，并且經過多數(shù)據(jù)源的數(shù)據(jù)訓練過的模型也不應發(fā)布給任何單個參與者，因此我們需要使用基于多數(shù)據(jù)源的隱私保護方法。

2 隱私技術的發(fā)展概況

現(xiàn)有的解決機器學習算法中隱私問題的方案，主要基于四種類型的隱私保護技術：（1）同態(tài)加密;（2）秘密共享;（3）亂碼電路;（4）差分隱私。本節(jié)主要討論它們的應用和不足。

2.1 同態(tài)加密

同態(tài)加密技術是將數(shù)據(jù)轉換成密文，并實現(xiàn)直接對密文進行與明文相同的加法和乘法等基本計算處理。它已經在安全計算的實踐中得到了廣泛的應用[1]。同態(tài)加密雖然強大，但其低效的計算效率限制了其發(fā)展，特別是支持乘法的全同態(tài)加密。

通過使用全同態(tài)加密，文獻[2]的作者構建了一種不需要高效計算效率的基于云的安全神經網絡預測服務。另外，Yuan等人[3]基于一個擁有可信加密服務提供者的模型，為Back-Propagation Neural （BPN）神經網絡的學習訓練過程提供了一種有效的隱私保護解決方案。同樣的，文獻[4]的作者提出了在云計算中保護隱私的外包分類框架，當加密服務提供者沒有泄密時，就可以有效保護隱私。顯然，加密服務提供者的存在降低了這些解決方案的安全性。

為了避免全同態(tài)加密造成的低效，文獻[5，6]的作者只使用加同態(tài)加密來完成安全加法，而安全乘法則依賴于普通的兩方秘密共享方案。然而其仍然存在漏洞，如果任何兩個參與者勾結，被保護的隱私數(shù)據(jù)將被泄露。

總之，基于同態(tài)加密的解決方案通常需要一個可信的加密服務提供者，或者需要依賴于其他隱私技術。同時受到同態(tài)加密發(fā)展的限制，它通常仍然需要許多計算資源，導致其計算效率并不很令人滿意。

2.2 秘密共享

秘密共享技術允許用戶將一個秘密 s 分為 n 份子秘密，然后把它們分給n個用戶。這樣使得當k≤n時，任意k份子秘密都可以用來重構秘密s，若少于k份子秘密則不能泄露出任何關于秘密s的信息。根據(jù)是否具有閾值特性，我們將秘密共享技術主要分為兩類：當k=n時是普通秘密共享;當k

基于普通秘密共享技術，Bogdanov等人 [7]提出了一種名為Share mind的高效 3PC 模型用于隱私保護計算，并顯著提高了3PC模型的計算速度[8]。 2017年，Mohassel等人[9]使用兩個非勾結服務器（2PC模型），提出了新的、高效的機器學習隱私保護協(xié)議。該協(xié)議主要應用于線性回歸、邏輯回歸和使用隨機梯度下降法訓練的神經網絡。

顯然，這些安全措施不足以抵御強大的對手。雖然[10～12]的作者通過能夠抵抗一個參與者泄密的閾值秘密共享方案，將閾值特征引入到 3PC 模型中，但是在實際情況中，該方案并不能很容易地擴展到多 PC 模型，且閾值的特性也不能很好地繼承。因此，通用性是此類基于閾值秘密共享的現(xiàn)有解決方案的挑戰(zhàn)。

2.3 亂碼電路

亂碼電路最初是由Yao[13]引入，這種技術在解決基于數(shù)字電路的安全多方計算、對稱加密和不經意傳輸問題方面非常成功。但由于亂碼電路通常效率不夠，一些稍微復雜的函數(shù)在轉換成數(shù)字電路時仍然包含大量的邏輯門，這將導致大量的解密操作，使計算效率低下。

由于低效率和擴展困難，亂碼電路的使用率并不高。文獻[14]的作者將解密過程嵌入到亂碼電路中，以實現(xiàn)密文的安全計算。此外，Mohassel等人[15]通過使用亂碼電路來解決安全比較問題。亂碼電路方案的擴展性弱，并且容易產生很高的計算復雜度。因此，亂碼電路不是實現(xiàn)機器學習隱私保護算法的主要方案。

2.4 差分隱私

差分隱私是通過在原始數(shù)據(jù)集上進行額外的處理來實現(xiàn)機器學習隱私保護[16～18]。它通過降低數(shù)據(jù)在一次單獨使用中的價值來保護數(shù)據(jù)的隱私。雖然這種方法可以有效保護隱私數(shù)據(jù)，但由此帶來的數(shù)據(jù)使用價值的降低會造成基于小數(shù)據(jù)集的機器學習訓練準確度的下降。因此差分隱私只適用于有大量數(shù)據(jù)集合的訓練過程。

3 聯(lián)邦學習框架

最近，McMahan等人[19]提出了一種用于在多個數(shù)據(jù)源的情況下保護機器學習的數(shù)據(jù)隱私的新的解決方案框架，稱為聯(lián)邦學習。之后，Yang等人[20]對聯(lián)邦學習進行了完整詳細的闡述。基于數(shù)據(jù)分布的類型，聯(lián)邦學習具有兩種不同的結構。

水平聯(lián)邦學習的典型結構允許服務器聚合每個數(shù)據(jù)提供者在本地計算的梯度，之后所有數(shù)據(jù)提供者使用服務器返回的聚合結果更新系統(tǒng)模型。顯然，任何數(shù)據(jù)提供者都有可能泄露整個模型。

垂直聯(lián)邦學習的結構則假定有一個合作者是誠實的，并且不與其他任何數(shù)據(jù)提供者勾結。然而，這種基于假設的方法的安全性同樣存在限制。

4 線性回歸算法的隱私保護研究

Mohassel等人[21]提出了一種基于三方服務器的隱私保護方案。方案具有良好的健壯性，它能夠容忍參與計算的一個服務器下線或拒絕服務，方案的不足之處在于無法驗證參與者給出數(shù)據(jù)的正確性。本文基于秘密共享技術構建了一種新的基于三方的安全計算方案并應用于構造隱私保護的線性回歸算法。新方案同樣具有良好的健壯性并且能夠在計算過程中驗證計算結果的正確性。

4.1 安全計算方案

新的安全計算方案主要分為三個部分：秘密分發(fā)協(xié)議、安全計算協(xié)議、結果校驗協(xié)議。

4.1.1秘密分發(fā)協(xié)議

安全乘法協(xié)議借助Mohassel等人[9]提出的安全兩方乘法協(xié)議實現(xiàn)。任意兩個服務器均進行安全兩方乘法計算，最終秘密m·s同樣分為三組秘密分量分別存儲在三個服務器。具體算法不在本文累述。

4.1.3 結果校驗協(xié)議

結果校驗協(xié)議主要負責對計算過程中的計算結果進行校驗，防止秘密分量間的錯誤計算或單個服務器的惡意數(shù)據(jù)。假設需要校驗的結果數(shù)據(jù)為秘密，校驗過程如下：

1）服務器A計算。服務器B任選一個隨機數(shù)R計算，將K發(fā)送給服務器C;

2）服務器C利用K計算，將L發(fā)送給服務器A;

3）服務器A計算，將M發(fā)送給服務器B;

4）服務器B根據(jù)M與R判斷計算結果是否正常。當M與R相等時，計算結果正常。當M與R不相等時，計算結果異常。

4.2 隱私保護的線性回歸算法

線性回歸算法在日常生活中應用廣泛，它通常應用于連續(xù)型數(shù)據(jù)的數(shù)值預測，例如房價預測、疾病診斷等領域。本文基于前述的安全計算方案構造了隱私保護的線性回歸算法，算法具有安全性和健壯性的特點，同時能夠對中間結果進行結果校驗，驗證計算過程的正確性。線性回歸算法分為訓練階段和預測階段，本文針對這兩個階段分別構造了隱私保護協(xié)議。

4.2.1訓練階段

1）服務器A、B、C分別初始化線性回歸模型參數(shù)W為0。利用秘密分發(fā)協(xié)議將秘密0生成三組秘密分量并發(fā)送給每個服務器。

2）數(shù)據(jù)擁有者利用秘密分發(fā)協(xié)議將自己的隱私數(shù)據(jù)生成三組秘密分量并發(fā)送給每個服務器。

3）服務器A、B、C利用安全計算協(xié)議更新，其中代表學習速率。

4）重復執(zhí)行步驟2）和步驟3），當兩次更新前后模型參數(shù)W的變化量小于一定值后停止更新。參數(shù)W即為訓練處出的線形回歸模型。

4.2.2 預測階段

1）需求預測服務的用戶利用秘密分發(fā)協(xié)議將自己的隱私數(shù)據(jù)X生成三組秘密分量并發(fā)送給每個服務器。

2）服務器A、B、C利用安全計算協(xié)議計算。最終預測結果將分散存儲在三個服務器中，任選兩個服務器將秘密分量發(fā)送給用戶進行預測結果的重構。

比較前述的多種隱私保護技術，秘密共享技術天然地適合多數(shù)據(jù)源下的機器學習隱私保護。本節(jié)利用秘密共享技術和三個服務器構建了新的具有安全性、健壯性和可校驗性的安全計算協(xié)議，并以此為基礎構建了隱私保護的線性回歸算法。新方案相較于現(xiàn)有方案實現(xiàn)了對中間結果的校驗，能夠防止計算過程中的異常錯誤?；谏鲜鰞热菘傻?，在多數(shù)據(jù)源場景下，秘密共享技術擁有很大的潛力和較好的發(fā)展前景。

5 結束語

基于多數(shù)據(jù)源的機器學習彌補了單數(shù)據(jù)源下訓練數(shù)據(jù)的數(shù)量缺乏和多樣性不足的缺陷，具有廣泛的應用前景和現(xiàn)實意義。而多數(shù)據(jù)源下機器學習的隱私保護技術直接影響著這種機器學習方案在現(xiàn)實社會中的發(fā)展和推廣，具有十分重要的意義。

參考文獻

[1] M. Naehrig， K. Lauter， and V. Vaikuntanathan. Can homomorphic en cryption be practical？ In Proceedings of the 3rd ACM Workshop on Cloud Computing Security Workshop， CCSW '11， pages 113–124， New York， NY， USA， 2011. ACM.

[2] P. Xie， M. Bilenko， T. Finley， R. Gilad-Bachrach， K. E. Lauter， and M. Naehrig. Crypto-nets： Neural networks over encrypted data. CoRR， abs/1412.6181， 2014.

[3] J. Yuan and S. Yu. Privacy preserving back-propagation neural network learning made practical with cloud computing. IEEE Transactions on Parallel and Distributed Systems， 25（1）： 212–221， Jan 2014.

[4] P. Li， J. Li， Z. Huang， C.-Z. Gao， W.-B. Chen， and K. Chen. Privacy-preserving outsourced classi?cation in cloud computing. Cluster Computing， 21（1）： 277-286， Mar 2018.

[5] J. Vaidya， M. Kantarc?o?glu， and C. Clifton. Privacy-preserving na¨?ve bayes classi?cation. The VLDB Journal， 17（4）： 879–898， Jul 2008.

[6] S. Samet and A. Miri. Privacy-preserving back-propagation and extreme learning machine algorithms. Data Knowl. Eng.， 79-80： 40-61， Sept. 2012.

[7] D. Bogdanov， S. Laur， and J. Willemson. Sharemind： A framework for fast privacy-preserving computations. In S. Jajodia and J. Lopez， editors， Computer Security - ESORICS 2008， pages 192-206， Berlin， Heidelberg， 2008. Springer Berlin Heidelberg.

[8] D. Bogdanov， M. Niitsoo， T. Toft， and J. Willemson. High-performance secure multi-party computation for data mining applications. International Journal of Information Security， 11（6）：403-418， Nov 2012.

[9] P. Mohassel and Y. Zhang. Secureml： A system for scalable privacy-preserving machine learning. In 2017 IEEE Symposium on Security and Privacy （SP）， volume 00， pages 19-38， May 2017.

[10] T. Araki， J. Furukawa， Y. Lindell， A. Nof， and K. Ohara. High-throughput semi-honest secure three-party computation with an honest majority. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security， CCS '16， pages 805-817， New York， NY， USA， 2016. ACM.

[11] J. Furukawa， Y. Lindell， A. Nof， and O. Weinstein. High-throughput secure three-party computation for malicious adversaries and an honest majority. In J.-S. Coron and J. B. Nielsen， editors， Advances in Cryptology -EUROCRYPT 2017， pages 225-255， Cham， 2017. Springer International Publishing.

[12] P. Mohassel and P. Rindal. Aby3： A mixed protocol framework for machine learning. In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security， CCS '18， pages 35-52， New York， NY， USA， 2018. ACM.

[13] A. C. Yao. Protocols for secure computations. In 23rd Annual Symposium on Foundations of Computer Science （sfcs 1982）， pages 160-164， Nov 1982.

[14] V. Nikolaenko， U. Weinsberg， S. Ioannidis， M. Joye， D. Boneh， and N. Taft. Privacy-preserving ridge regression on hundreds of millions of records. In 2013 IEEE Symposium on Security and Privacy， pages 334-348， May 2013.

[15] P. Mohassel and Y. Zhang. Secureml： A system for scalable privacy-preserving machine learning. In 2017 IEEE Symposium on Security and Privacy （SP）， volume 00， pages 19-38， May 2017.

[16] K. Chaudhuri and C. Monteleoni. Privacy-preserving logistic regression. In D. Koller， D. Schuurmans， Y. Bengio， and L. Bottou， editors， Advances in Neural Information Processing Systems 21， pages 289-296. Curran Associates， Inc. 2009.

[17] M. Abadi， A. Chu， I. Goodfellow， H. B. McMahan， I. Mironov， K. Talwar， and L. Zhang. Deep learning with di?erential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security， CCS '16， pages 308-318， New York， NY， USA， 2016. ACM.

[18] S. Song， K. Chaudhuri， and A. D. Sarwate. Stochastic gradient descent with di?erentially private updates. In 2013 IEEE Global Conference on Signal and Information Processing， pages 245-248， Dec 2013.

[19] McMahan H B， Moore E， Ramage D， et al. Communication-efficient learning of deep networks from decentralized data， ICAI， 2017.

[20] Q. Yang， Y. Liu， T. Chen， and Y. Tong. Federated machine learning： Concept and applications. ACM Trans. Intell. Syst. Technol， 10（2）：12：1-12：19， Jan. 2019.

[21] P. Mohassel and P. Rindal. Aby3： A mixed protocol framework for machine learning. In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security， CCS '18， pages 35{52， New York， NY， USA， 2018. ACM.