基于安全兩方計算的隱私保護線性回歸算法

2021-11-26 07:21:52魏立斐李夢思陳聰聰陳玉嬌

計算機工程與應用 2021年22期

關鍵詞：模型

魏立斐，李夢思，張蕾，陳聰聰，陳玉嬌，王勤

上海海洋大學信息學院，上海201306

線性回歸（Linear Regression）作為一種廣泛使用的基礎型機器學習算法，是通過對多個影響因素和結果進行擬合，從而以線性模型來建模一個或多個自變量與因變量之間相關關系的一種方法。為了提高和優化回歸模型性能，通常需要訓練大量的原始數據，但本地計算資源及存儲資源有限，使得一些企業或機構無法滿足獨自訓練模型的需求。而云計算[1]的迅速發展，使得這一問題得到很好地解決，目前有許多云計算服務商業平臺（如亞馬遜和谷歌等）允許客戶端上傳數據到云服務器進行各種機器學習任務。但因為云計算的不可信性[2]，它可以查看并記錄用戶的數據信息，甚至可能遭受到敵手的攻擊而泄露用戶數據，所以研究能夠保護隱私的線性回歸方案尤為重要。目前已經有許多學者提出了具有隱私保護的線性回歸方案。基于差分隱私的方法[3-5]是通過對回歸模型添加適當噪聲的方式來實現隱私保護，但引入噪聲的同時會導致模型性能有所下降。基于同態加密（Homomorphic Encryption，HE）的方案[6-8]則通常需要客戶端使用同態加密算法對訓練數據加密之后，由云服務器利用同態性質在密文上進行訓練，但使用同態加密算法對大量的數據實現加密對于客戶端來說計算開銷太大，并且由于同態加密計算本身的限制，無法實現任意次的加法和乘法，在現實環境中并不實用。

安全多方計算（Secure Multi-party Computation，SMC）起源于1982年Yao[9]提出的百萬富翁問題，核心思想是在不泄露任何參與方的私有輸入情況下正確地計算目標函數。作為安全計算領域里的核心內容之一，SMC 是構造多方計算協議的基礎，可用于解決現實世界中的實際問題，但它需要借助現代密碼學中的其他技術來實現[10-12]，比如基于秘密共享（Secret Sharing）、混淆電路（Garbled Circuits，GC）、同態加密等技術的安全多方計算線性回歸方案[13-15]。2011 年，Hall 等人[16]基于同態加密首次提出了一種可以達到安全性定義的安全兩方計算線性回歸協議，但該方案過于依賴計算開銷巨大的同態加密，無法應用到數據條目龐大的數據集中。Martine 等人[17]基于文獻[16]在數據集分布于多個參與方的情境下，提出了一種能夠保護數據隱私的線性回歸方案，各計算方可以在不共享自己私有數據集的情況下協同訓練線性回歸模型。Dankar[18]通過引入一個半可信第三方，在理論上提出了一種支持多個數據提供者參與的隱私保護線性回歸方案。Adrià等人[19]提出一種用于任意分布于多個參與方的訓練集的隱私保護線性回歸方案，該方案結合了Yao的混淆電路和全同態加密方案。之后，Mohassel 等人[20]提出的SecureML 方案基于混淆電路和不經意傳輸（Oblivious Transfer，OT）[21]協議，設計了支持安全兩方計算的隨機梯度下降算法，實現了線性回歸、邏輯回歸以及神經網絡的模型訓練任務。該方案由數據擁有者將私有數據通過秘密共享的方式分發給兩個服務器，由兩個服務器用安全多方計算的方式訓練模型，實現了加法和乘法的分布式計算。在SecureML的基礎上，唐春明等人[22]借助基于OT協議生成的乘法三元組[23]，提出了具有隱私性的回歸模型訓練算法，同時實現了對訓練數據及模型參數的隱私保護。Akavia 等人[24]提出一種能夠從多個數據所有者提供的數據集中學習線性回歸模型的數據隱私保護方案，該方案使用兩個非共謀服務器和線性同態加密（Linearly Homomorphic Encryption）來學習正則化線性回歸模型。Dong等人[25]提出了一個可以適應半誠實和惡意環境下的分布式機器學習框架，每個參與者將自己的梯度分成共享份額，并分配給多個參數服務器，由參數服務器聚合梯度后發還給參與者，參與者在本地更新參數。

受安全多方計算核心思想的啟發，本文擬采用安全兩方計算技術來解決線性回歸方案中的隱私保護問題。在此之前，Mohassel[20]和唐春明[22]提出的基于安全兩方計算的隱私保護方案，由兩個非共謀云服務器協作完成線性回歸任務，但他們均使用通信復雜度較高的OT 協議，因此在規模比較大的數據集上使用會有一定的局限性。另外，文獻[20]中的線性回歸協議雖然解決了數據隱私保護問題，但需要兩個云服務器直接重構模型參數，因此該方案無法保證模型參數的隱私性。不同于文獻[20]和文獻[22]，本文避免使用通信復雜度較高的OT 協議，而是通過使用加法同態加密和加法掩碼相結合的方法實現秘密共享值的乘法計算，避免兩方服務器私有信息的泄露。相比之下，本文方案在保證數據和模型參數隱私不被泄露的同時，所需要的通信開銷更低。本文主要貢獻包括以下兩方面：

（1）使用安全兩方計算的方式執行小批量梯度下降算法更新模型參數，通過將加法同態加密與加法掩碼相結合的方法，實現了秘密共享值之間的乘法計算。

（2）提出并實現了隱私保護的預測方案，確保云服務器在預測過程中無法獲得預測數據的具體信息，同時在預測結束后無法獲得真正的預測結果，實現了隱私保護線性回歸預測。

1 預備知識

1.1 線性回歸

給定一個包含n條數據的訓練集(X,y)，其中X∈Rn×d表示具有d個特征的樣本集特征矩陣，y∈Rn表示n條數據樣本對應的標簽向量，線性回歸任務的目標是從訓練集(X,y) 學習模型M的一組回歸系數θ∈Rd，使得目標值y≈Xθ。

為了衡量模型的好壞，需要對訓練出的模型進行性能評價，一個常用的評價標準是平方誤差和，即目標值和預測結果之間差距的平方和，因此可以定量化損失函數：

線性回歸的任務就是尋求使得L最小化時的θ值。

梯度下降是一個用來求目標函數最小值的優化算法，本文使用小批量梯度下降算法（Mini-Batch Gradient Descent，MBGD）來求出損失函數L(θ)的最小值。它在更新每一參數時都使用一部分樣本進行更新，相比較隨機梯度下降算法（Stochastic Gradient Descent，SGD）和批量梯度下降算法（Batch Gradient Descent，BGD），該算法可以縮減模型收斂所需要的迭代次數，同時使收斂的結果更接近梯度下降的效果。對于小批量數據集(XB,yB)的梯度下降算法的參數更新方式為：

其中，XB和yB分別表示小批量樣本集的特征值和目標值，e表示當前迭代次數，α表示學習率，| |B表示小批量樣本數量。

1.2 加法同態加密

同態加密最早是由Rivest 等人[26]提出，這種加密方法允許直接在密文上進行某些特殊類型的計算而獲得密文結果，并且將密文結果解密后，其值與在明文上執行的函數結果一致。本文使用支持加法同態加密的Paillier 加密系統[27]，它是由Paillier 于1999 年基于復合剩余類困難問題建立的概率公鑰加密系統。該加密系統工作原理如下：

（l）密鑰生成KeyGen(·)→(pk,sk)：隨機生成兩個大素數p、q滿足gcd(pq,(p－1)(q－1))=1，計算N=pq,λ=lcm(p－1,q－1)，隨機選擇整數，則公鑰pk=(g,N)，私鑰sk=λ。

（2）加密過程Enc(pk,m)→c：選擇一個隨機數r∈，則明文m對應的密文c=gmrNmodN2。

（3）解密過程Dec(sk,c)→m：對于密文c解密后的明文m=(L(cλmodN2)/L(gλmodN2))modN，其中L(u)=(u－1)/N。

對于明文m有：

本文Paillier同態加密利用python-paillier庫（https：//python-paillier.readthedocs.io/）實現，該加密庫支持浮點數的計算，因此對于實數k和明文m有(Enc(m))k=Enc(km)。

1.3 秘密共享

秘密共享就是指共享的秘密在多個計算方之間進行合理分配，以達到由所有參與方共同掌管秘密的目的。Sharmir在1979年最早提出t-out-of-n秘密共享方案[28]，允許將秘密s進行分割并在n個參與者中共享，使得至少任意t個參與者合作才能夠還原秘密，而任何少于t個參與者均不可以得到秘密的任何信息。具體地，該方案由兩種算法組成：共享算法Share(·)和重構算法Recon(·)，算法描述如下：

（1）Share(s,t,n)→(s1,s2,…,sn)：給定秘密s、閾值t以及共享份額數n,可以產生一組秘密共享值{s1,s2,…,sn}。

（2）Recon(Θ,t)→s：給定秘密共享值的子集Θ，其中Θ∈{s1,s2,…,sn}且 |Θ|≥t，則可以重構出原始秘密s。

本文方案涉及兩方計算任務，由兩個云服務器進行交互式協作計算，因此本文采用2-out-of-2 秘密共享方案。即對于秘密a，通過共享算法Share(a,2,2)→(a0,a1)得到其對應的兩個共享值ai(i=0,1)；反之，由秘密共享值ai(i=0,1)恢復出原始秘密a的過程就叫作Recon({a0,a1},2)→a。其中a=a0＋a1。

2 系統模型

本文采用誠實且好奇的非共謀雙云服務器模型，即云服務器誠實地執行預置的計算任務，同時出于好奇會查看并記錄數據信息，但不會向另一方透露任何自己的輸入、中間計算參數以及輸出信息。如圖1 所示，本文系統模型包含一個數據提供者（Data Provider）、一個用戶（User）和兩個云服務器（Cloud Server，CS）。數據擁有者發布線性回歸模型的訓練任務并提供必要的訓練數據，在與云服務器CSi(i=0,1)建立基于TSL/SSL協議的安全信道并進行模型訓練任務協商之后，利用秘密共享原理將訓練數據分發給它們，由兩個云服務器協作完成訓練任務；在預測階段，具有預測請求的用戶在與服務器建立安全信道之后，將待預測數據通過秘密共享的方式分發給它們，兩個云服務器進行協作預測，并將各自的預測值返還給用戶，由用戶重構出最終的預測結果。

圖1 系統模型Fig.1 System model

3 本文方案

本章主要描述基于安全兩方計算的隱私保護線性回歸方案，包括秘密共享值的乘法計算以及基于兩方計算的線性回歸安全訓練和預測階段。其中秘密共享值的乘法計算（Multiplication of Secret Shared Values，MoSSV）協議作為訓練及預測階段的基礎協議，主要用于雙云服務器的安全兩方計算。如圖2所示，訓練階段和預測階段分別由三個主要模塊構成。在訓練階段，鑒于數據需要脫離數據提供者本地，但又不能向云服務器泄露任何數據信息，因此首先通過Share(·)算法將數據以秘密共享的方式進行劃分；收到秘密共享數據之后，兩個云服務器共同協商并預置相同的訓練參數，即學習率、小批量樣本數目、最大迭代次數及損失閾值；最后由兩個云服務器執行安全的小批量梯度下降算法進行模型參數更新，直至模型收斂。在預測階段，同樣出于保護預測數據的隱私，首先將預測數據通過秘密共享Share(·)算法分發給雙云服務器；之后由雙云服務器執行CalPred(·)模塊，得到預測結果的秘密共享值；最后由用戶執行Recon(·)算法重構最終的預測結果。

圖2 隱私保護線性回歸方案框架圖Fig.2 Framework of privacy protection linear regression

3.1 秘密共享值的乘法計算協議

假設兩個計算方分別持有給定矩陣和向量的秘密共享值，那么如何在保證計算方各自的秘密共享值不被泄露的情況下，安全地完成秘密共享值之間的乘法運算呢?Du等人[29]在僅有兩個計算方參與的情形下，基于OT協議提出了一系列解決分布式線性代數問題的方案。由于OT 協議通信復雜度較高，陳莉等人[30]基于同態加密的性質設計了用于求解分布式線性方程組問題的安全兩方計算協議。基于文獻[30]，本文利用加法同態加密和加法掩碼實現了適用于線性回歸任務中秘密共享值的乘法計算協議（MoSSV），其核心思想是在僅有兩個計算方參與的情況下，利用加法同態加密保護其中一個計算方的私有信息，利用加法掩碼掩蓋另一計算方的私有信息，最終計算雙方獲得矩陣-向量乘積的秘密共享值。下面給出了協議執行過程的詳細描述，協議執行過程如圖3所示。

圖3 秘密共享值的乘法計算協議流程圖Fig.3 Flowchart of multiplication calculation protocol for secret shared values

3.1.1 問題描述

秘密共享值的乘法計算問題可以描述為：對于給定的矩陣M和向量v（其中M的第二維度與v的第一維度一致），Mi和vi(i=0,1)是它們的秘密共享份額且分別為計算方Pi(i=0,1)所擁有，其中M=M0＋M1，v=v0＋v1，即計算方P0擁有私有矩陣M0和私有向量v0，另一計算方P1擁有私有矩陣M1和私有向量v1。執行該協議之后，Pi(i=0,1)可以獲得乘積Mv的秘密共享份額pi=Multi(M0,M1,v0,v1)。

3.1.2 秘密共享值的乘法計算協議

輸入：P0的私有矩陣M0和私有向量v0，P1的私有矩陣M1和私有向量v1。

輸出：Pi(i=0,1)可得到pi=Multi(M0,M1,v0,v1)。

協議過程描述：

步驟1Pi各自生成同態加密密鑰對(pki,ski)，其中pki和ski分別表示Pi的公鑰和私鑰，并將公鑰pki發給對方。

步驟2Pi使用自己的公鑰pki加密私有向量vi并將Encpki(vi)發給對方。

步驟3P1－i收到對方公鑰pki和加密向量Encpki(vi)后，隨機生成向量r1－i，并使用對方的公鑰pki加密得到Encpki(r1－i)。

步驟4P1－i計算Encpki(M1－ivi－r1－i)并將結果發給對方。

步驟5Pi收到Encpki(M1－ivi－r1－i)后，使用自己的私鑰ski解密得到M1－ivi－r1－i。

步驟6Pi計算得到pi=Mivi ＋(M1－ivi－r1－i)＋ri,協議結束。

3.1.3 正確性

對于任意兩個秘密a、b，要求在避免使用可信第三方且不泄露a、b值的情況下求c=a ＋b。通過隨機數r，可以進行以下構造：a′=a－r，b′=b ＋r。因為隨機數可以相抵消，所以有c=a′＋b′=(a－r)＋(b ＋r)=a ＋b。

根據以上原理，對于MoSSV協議，有：

因此該協議是正確的。

3.1.4 安全性

在MoSSV協議執行之前，計算方Pi(i=0,1)之間通過協商建立基于TSL/SSL協議的安全通道，以確保他們之間發送的任何敏感數據的安全性及完整性。該協議利用加法同態加密和加法掩碼的性質保護計算雙方的私有信息，其安全性主要體現在協議計算過程步驟2～步驟4 中。在步驟2 中計算方Pi利用加法同態加密技術，使用己方公鑰加密私有向量并發送給對方，因為對方不知道密文對應的私鑰，所以無法解密，從而起到保護私有向量隱私性的作用；在步驟4 中，對方不能直接將加密的矩陣向量乘積發送回來，而是在步驟3利用加法掩碼的原理使用隨機向量將乘積進行盲化，從而起到保護對方私有矩陣信息的作用。

綜上，在協議執行過程中，Pi(i=0,1)可以獲得的信息如表1所示。

表1 在MoSSV協議步驟中參與方所獲得的信息Table 1 Information obtained by each participant in MoSSV protocol

3.2 訓練階段

（1）Share((X,y),2,2)→((X0,y0),(X1,y1))

數據提供者將私有訓練數據(X,y)，利用2-out-of-2秘密共享的原理隨機拆分為與原始數據維度大小相同的兩部分子數據(X0,y0)和(X1,y1)，并通過基于TSL/SSL協議建立的安全信道分發給云服務器CS0和CS1。

（2）InitPara(CS0,CS1)→(θ0,θ1,α,|B|,E)

由于在線性回歸模型訓練之前，參與訓練模型的計算方需要共同預置一些必要的參數，以高效準確地完成回歸任務。因此CSi(i=0,1)首先共同協商學習率α、小批量樣本數目 |B|、最大迭代次數E，并分別初始化模型參數θi∈Rd（全0/1向量或者任意隨機數）。

（3）ParaUpdate(·)→(θ0,θ1)

為了優化模型收斂速度，云服務器CSi(i=0,1)之間使用安全的小批量梯度下降（MBGD）算法，根據式（2）更新模型參數。具體子步驟如下所示：

之后，CSi根據當前更新的模型參數θi，利用MoSSV協議計算損失函數值Li并發給對方，兩個云服務器根據Recon(·)重構出整個訓練集的損失值，并判斷模型是否收斂，若收斂，訓練結束，當前CSi(i=0,1)所擁有的參數θi為線性回歸模型參數的秘密共享值；否則，以上子步驟會循環執行。當模型或者訓練達到最大迭代次數E時，強行停止訓練。

3.3 預測階段

（1）Share(XU,2,2)→

已知云服務器CS0和CS1分別擁有模型參數的秘密共享值θ0和θ1，具有預測任務的用戶User可以利用云服務器強大的計算力進行線性預測。首先將預測數據集XU進行拆分預處理，得到兩個子數據集和并分別發送給云服務器CS0和CS1。

CSi(i=0,1)利用MoSSV 協議得出預測結果的秘密共享值

CSi(i=0,1)分別將秘密共享結果發送給用戶，由用戶根據秘密共享值重構出真實的預測結果

4 性能評估

4.1 安全分析

本文方案實現了數據及模型參數的隱私保護，如表2 所示。本文的線性回歸任務涉及兩個計算方安全地執行小批量梯度下降算法，即由兩個云服務器進行交互式協作計算，但因為云服務器是誠實且好奇的，對訓練數據的安全存在一定的威脅，所以方案首先利用加法秘密共享將訓練用的數據以適當形式拆分后分發給不同計算方。本方案中兩個云服務器CS0和CS1非共謀，因此有效地避免了云服務器恢復原始數據信息的問題，實現了對訓練數據的隱私保護。

表2 基于兩方計算的線性回歸方案對比Table 2 Comparison of linear regression schemes based on two-party computation

在參數更新過程中，涉及到兩方秘密共享值需要同時使用的計算操作，比如需要在保護各自秘密共享數據以及模型參數的情況下進行安全計算。本文利用安全的MoSSV 協議，使用同態加密對各自模型參數θi進行加密處理，根據加法掩碼的原理使用隨機向量掩蓋秘密共享數據的信息，防止對方使用私鑰解密獲得私有數據信息，根據表1 可知，云服務器無法獲取到任何關于對方的隱私信息。判斷模型收斂時，云服務器無法根據損失函數值Li恢復出對方的預測結果以及真實標簽yi。預測階段僅涉及到秘密共享數據和模型參數，其安全性分析同理。

值得注意的是，在訓練階段結束之后，若數據提供者有模型使用需求，則可以直接向云服務器請求發還模型參數的秘密共享值，并在本地使用Recon(·)重構出模型參數。因為數據提供者本身是具有模型訓練任務的，所以該操作并不會涉及到模型參數私有信息的泄露問題。

4.2 性能分析

與本文最接近的方案是文獻[20]和文獻[22]，均屬于基于安全多方計算的隱私保護方案，但它們均使用通信復雜度較高的OT協議，方案通信成本過高，因此本文避免采用OT 協議，而是使用加法同態加密和加法掩碼技術，對比如表2所示。傳統使用同態加密的隱私保護方案的一般做法是使用同態加密技術將原始訓練數據加密處理后以密文的形式進行訓練，最后將模型同態解密。這種方法雖然可以實現數據及模型的隱私保護，但是在密文數據上的訓練會使得通信和計算開銷呈指數級增長，因此為了平衡計算通信開銷與隱私保護之間的矛盾，本文不論是在隱私保護線性回歸算法的訓練階段還是預測階段，均首先引入加法秘密共享技術，使用Share(·)算法將原始數據轉換為非敏感型數據，并將拆分后的秘密共享數據直接以明文的形式分發給云服務器CS0和CS1，即通過明文傳輸的方法保護原始數據，而不是直接將數據進行加密處理，有效避免了用戶與服務器之間的密文傳輸，從而既保護了原始數據的隱私，又極大降低了數據提供者（或用戶）與服務器之間的通信開銷。之后在模型訓練ParaUpdate(·)和預測結果計算CalPred(·)模塊中，借助同態加密可以對密文直接進行處理的特性，結合加法掩碼技術，利用加法秘密共享值之間的加法和乘法計算特性，將模型參數更新公式進行分解，使用MoSSV協議保護計算雙方的私有信息。相較于傳統的同態加密方案，這種方法不需要在雙云服務器之間進行多維度密文數據的傳送，只需要在每一輪迭代過程發送單一維度的密文向量即可，從而不僅保護了數據和模型參數的隱私，而且大幅度降低了雙云服務器之間的通信開銷。

由于在不同的數據集上模型收斂的速度不同，本文僅針對一輪迭代訓練過程中的時間及通信開銷進行方案性能分析。在小批量梯度下降算法中，小批量樣本數目 |B|以及學習率α的選擇是很重要的，|B|太大或者太小都會導致訓練時間過長。經過大量的實驗驗證，最終本文將小批量樣本數目 |B|、最大迭代次數E及學習率α分別設置為10、100和0.1，并設置模型收斂條件（即損失閾值）為10－5。在本文的方案中，通信開銷主要來自于ParaUpdate(·)階段中的MoSSV 協議。ct表示一條密文大小，pt表示一條明文大小。那么在計算時，CSi(i=0,1)需要分別將向量θi和盲化的乘積向量的密文形式發給對方，因此通信開銷為對于的發送，通信開銷為 |B|×pt。當判斷模型是否收斂時，需要計算訓練集上的損失函數，計算的過程需要的通信成本，另外CSi(i=0,1) 將損失函數值Li發送給對方需要n×pt。綜合以上，一輪迭代訓練過程的總通信開銷為文獻[20]和文獻[22]的通信成本主要出現在小批量梯度下降算法的執行以及OT協議中。其中文獻[20]執行SGD_Linear 協議時，CSi(i=0,1)在每輪迭代過程中發送盲化之后的權重及誤差向量所需要的通信成本為而使用OT協議計算乘法三元組時通信量為則每輪迭代過程所需要的總通信成本為pt。在文獻[22]的線性回歸算法迭代訓練過程中，CSi(i=0,1)計算預測值和梯度變化量時的通信成本均為而雙云服務器使用OT 協議計算乘法三元組需要通信成本為 |B|dl×pt，故每次迭代總通信成本為，其中表示比a大的最小整數，l表示數據長度。

4.3 實驗結果

為了證明本文方案的有效性，對基于安全兩方計算的數據隱私保護線性回歸算法進行了實驗驗證。實驗平臺配置為Intel?CoreTMi5-4200M、2.50 GHz、8 GB 內存的計算機，使用Python 語言進行編程，通過兩個類分別模擬數據提供者和云服務器的行為。實驗數據選用Python的Scikit-learn庫提供的Boston數據集和Diabetes數據集。其中Boston 數據集涉及美國人口普查局收集的美國馬薩諸塞州波士頓住房價格的有關信息，包含506條樣本數據，每條數據包含有13個輸入變量和1個輸出變量。Diabetes 數據集包含404 條醫療記錄，每條記錄有10 個輸入變量和1 個輸出變量。本文隨機選取數據集的80%用于訓練模型，剩余的20%用于測試模型性能，并對其進行歸一化處理。

圖4 展示了預測數據集真實標簽值與明文域及密文域的預測值的對比曲線圖。其中明文狀態實驗結果是指由客戶端本地獨自訓練模型的情形，曲線圖證明密文下的預測結果幾乎與明文下的預測結果一致。同時，本文以均方誤差（Mean-Square Error，MSE）、均方根誤差（Root-Mean-Square Error，RMSE）、平均絕對誤差（Mean Absolute Error，MAE）和R平方（R-Squared）作為線性回歸模型的評估指標。與明文下的結果相比，本文方案幾乎實現了相同的預測性能，這表明本文基于兩方計算的保護數據隱私線性回歸方案是可行的。如表3 所示，Boston數據集完成一輪訓練平均需要157.912 s，Diabetes數據集完成一輪訓練需要128.340 s。雖然密文域的訓練速度與明文相比慢，但是訓練一次得到的模型可以用于多次預測，因此針對注重隱私性的醫療、基因、財務等數據而言，密文域的訓練是可以接受的。

表3 明文和密文下的實驗結果對比Table 3 Comparison of implementation results between plaintext and ciphertext

圖4 明文域及密文域預測結果與真實標簽值的對比圖Fig.4 Comparison of real and predicted label values in plaintext and ciphertext

5 結束語

本文提出了一種基于安全兩方計算的數據隱私保護線性回歸方案。為了在兩方計算過程中不泄露數據、模型參數及中間參數的信息，本文利用加法同態加密和加法掩碼保護兩個云服務器的秘密共享值，實現了秘密共享值的乘法計算協議MoSSV。實驗結果表明，本文方案在保證模型準確度的情況下，實現了數據及模型參數的隱私保護。本文提出的方案保證了訓練和預測過程的高效性，并達到了較高的準確度。對于下一步的工作，計劃針對邏輯回歸、嶺回歸等回歸算法的數據隱私保護問題展開研究，并在隱私回歸問題的時間及通信成本方面進一步優化。