湯凌韜,王迪,劉盛云
(1.數學工程與先進計算國家重點實驗室,江蘇 無錫 214125;2.上海交通大學網絡空間安全學院,上海 200240)
聯邦學習[1-2]以深度神經網絡為載體,通過本地訓練和中央聚合的模式,使各節點在數據不出本地的情況下共同訓練一個全局模型,有效打破了不同團體和組織間的信息壁壘。然而,聯邦學習實用化面臨的一個關鍵問題是:節點間的數據往往是非獨立同分布(non-IID,non-independent and identically distributed)的。由于面向的采樣對象不同或采樣設備存在規格差異,各節點的本地數據往往不服從同一分布,表現出較大的差異性。non-IID 數據會影響全局模型的預測準確率,甚至導致模型不收斂,從而使聯邦學習任務不能取得預期的效果。例如,2 個節點希望共同建立一個判斷就診人員是否患病的二分類模型,節點A 只擁有患者樣本,節點B只擁有健康人員樣本,則A 訓練得到的模型傾向于將所有樣本判定為“患病”,而B 則相反,此時2 個本地模型都不具備基本的可用性,直接對模型進行聚合容易偏離全局最優的優化方向,因此全局模型不會有較高的準確率。
一些文獻就non-IID 數據對模型精度的影響進行了分析。文獻[3]證明了數據分布的差異會導致各節點訓練得到的本地模型逐漸收斂到局部最優,而偏離了全局最優的方向,嚴重影響聚合后的全局模型精度,學者將這種現象稱為“本地模型偏移”或“節點偏移”。文獻[4]則認為節點在模型訓練的過程中發生了“知識遺忘”,雖然所有參與節點會在本地訓練一定輪次后進行參數聚合,但數據分布的固有差異仍會導致節點在下一輪本地訓練中不斷鞏固自身樣本的知識,而逐漸忘記源于其他節點的樣本知識。文獻[5]將實際場景下的non-IID 數據分為標簽分布偏斜、特征分布偏斜以及樣本數目偏斜三類,并通過實驗驗證標簽分布偏斜對模型精度造成的影響最大。
針對non-IID 數據,提高模型精度的工作主要存在以下困難:1) 聯邦學習對隱私保護有較高的要求,節點間無法簡單地通過共享原始數據來平衡數據分布;2) 聯邦學習涉及多方節點的計算和通信,任何額外的工作量都可能導致任務時長成倍增加;3) 方案應該具備普適性,不能只適用于某種特定的non-IID 數據分布情形。
為此,本文提出了一種面向聯邦學習的數據增強方案,可以在保護用戶數據隱私的前提下,解決non-IID 數據引起的模型精度下降問題,同時不影響聯邦學習主任務的效率。本文的主要貢獻如下。
1) 提出了一種聯邦學習數據增強(DA-FL,data augmentation in federated learning)框架,通過生成虛擬樣本及標簽并在節點間共享,平衡節點間的數據分布差異,從而減輕訓練過程中各節點的模型偏移現象。
2) 提出一種隱私樣本生成(PSG,private sample generation)算法,基于生成式對抗網絡(GAN,generative adversarial network)生成虛擬樣本,并利用差分隱私機制保護GAN 的訓練過程,防止敵手利用虛擬樣本進行逆向攻擊。
3) 提出一種隱私標簽選取(PLS,private label selection)算法,利用差分隱私機制防止虛擬樣本的對應標簽泄露用戶隱私。
4) 基于MNIST、SVHN、Cifar10 等數據集,在多種non-IID 數據劃分方式下驗證了方案的有效性。實驗證明,所提方案能有效提高模型準確率,加速模型收斂,并取得了比基準方法更好的效果。
為解決聯邦學習中non-IID 數據引起的模型精度下降問題,相關工作主要分為3 個方向。
1) 為本地訓練的損失函數添加正則項,從而控制和減輕本地模型偏移現象[6-8]。
2) 改進中央服務器的聚合算法,使聚合后的模型更新方向更貼近全局最優[9-11]。
3) 通過節點間共享數據來實現數據的補充和增強,緩解數據的non-IID 程度[12-14]。
事實上,除上述3 個方向外,個性化聯邦學習[15-17]根據每個節點自身的數據特點和任務目標,學習個性化的模型,也有助于緩解數據非獨立同分布帶來的問題,然而本文主要關注建立統一、可用的模型,因此對該方向不作展開。
添加正則項和改進聚合算法兩類方法具備模塊化、效率高的優勢,對原有聯邦學習算法只需進行少量改動,且不會明顯增加系統開銷。然而其缺點為:1) 效果有限,無法帶來明顯的模型精度提升;2) 普適性不強,只適用于某些特定non-IID 數據分布情形,而當節點間數據分布情況發生改變時,方法效果減弱甚至降低模型精度[5]。
數據共享方法從本質上緩解了節點間數據非獨立同分布的狀況,并且擴充了節點的本地數據集,因此對模型精度提升更明顯。然而該方法往往面臨新的問題,一是增加了隱私泄露的風險,二是增大了計算和通信開銷。例如,文獻[4]中提出各客戶端在本地隨機選取部分數據進行共享,但未考慮數據隱私問題,貢獻的數據是明文。文獻[18]提出了COVID-GAN,整合多種來源的數據訓練一個生成式對抗網絡,來估計現實世界的人口流動,以便幫助相關部門制定決策,該方法雖然避免了明文傳輸,但一些研究表明敵手仍能通過訪問生成器實現逆向攻擊[19-20]。文獻[14]提出一種基于樣本平均的數據增強方法,將多個樣本進行平均,客戶端之間通過共享這些平均樣本來輔助校正本地訓練,該方法通過平均計算來隱藏個體樣本信息,但未能給出嚴格的隱私性證明。文獻[13]提出了一種零次數據增強方法,客戶端可根據上一輪的全局模型參數生成虛擬數據,無須接觸其他客戶端的真實數據。然而該方法只支持有限的模型架構,并且為了生成虛擬數據,客戶端每輪訓練需要求解額外的優化問題,影響了主任務的效率。
針對這些問題,本文提出一種隱私保護的聯邦學習數據增強方案,與上述工作不同,所提方案中數據增強階段不依賴于主任務的執行流程和中間結果,因此可在主任務前任意時間進行,而不影響主任務的效率,增強了方案的實用性。另外,所提方案利用差分隱私技術保護用戶樣本的隱私,防止敵手進行逆向攻擊,提高了方案的隱私性。
生成式對抗網絡是由Goodfellow 等[21]于2014 年提出的一種機器學習架構,包含生成器G 和判別器D 這2 個模型。訓練過程可看作2 個模型的零和博弈,生成器輸入低維隨機噪聲,輸出虛擬樣本,其優化目標是盡可能讓判別器將虛擬樣本誤判為真實樣本;而判別器輸入真實樣本和虛擬樣本,輸出每條樣本是真實樣本的概率,其優化目標是盡可能正確區分兩類樣本。該過程可看作如下優化問題

學者后續對GAN 進行了許多優化和改進,例如,CGAN(conditional generative adversarial network)[22]允許生成器生成指定類別的數據,DCGAN(deep convolutional generative adversarial network)[23]改變生成器和判別器的模型架構,將全連接層替換為卷積層和卷積轉置層,使生成器能更好地生成復雜圖像。WGAN(Wasserstein generative adversarial network)[24]用 Wasserstein 距離代替Jensen-Shannon 散度,來解決真實樣本和虛擬樣本分布不重疊時生成器的梯度消失問題,從而將優化問題(1)轉化為

其中,fw是判別器嘗試擬合的函數,且滿足K-Lipschitz 連續。
差分隱私是由Dwork 等[25]提出的隱私保護框架,最早用于保護數據庫被查詢時的樣本隱私。差分隱私的概念可被擴展至任意算法。
若隨機算法M 對任意只相差一個元素的相鄰集合D和D′,以及M 所有可能輸出組成的集合S,滿足

其中,概率取自對M 的隨機擲幣,稱M 滿足(ε,δ)-差分隱私。
滿足差分隱私的算法簡稱為DP 算法,其輸出對任意數據都不敏感,因此杜絕了敵手通過輸出分布的差異推斷一條數據的敏感信息。差分隱私一般通過對算法輸出添加噪聲來實現,以高斯機制為例,假設f是對數據集D的一個查詢函數,查詢返回結果為f(D),此時對結果添加噪聲 N (0,σ2),當滿足時,算 法 M(D) =f(D) +N (0,σ2)滿 足(ε,δ)-DP[26],其中,ε∈ (0,1),。可見噪聲方差由隱私預算(ε,δ)和查詢函數敏感度Δf共同決定。
文獻[27]基于差分隱私技術提出了一種典型的隱私保護機器學習框架——差分隱私隨機梯度下降(DP-SGD),在模型訓練過程中,對一批樣本中每個樣本得到的梯度進行剪裁,平均梯度后再添加噪聲,最后更新模型。該方法提供了模型單步更新的隱私保證,而模型訓練需要經過多輪迭代,為統計全局的隱私保護程度,文獻[27]進一步提出了隱私計量方法Moments Accountant,用于計量訓練全流程的隱私損失,根據該損失可以計算滿足差分隱私定義的參數(ε,δ)。
基于DP-SGD 框架,學者們對滿足差分隱私的生成式對抗網絡(DP-GAN)進行了探索[28-29],由于只有判別器接觸真實數據,故在訓練中對判別器的梯度添加噪聲,使其滿足差分隱私,由后處理定理[26]可知,在不接觸原數據的情況下,對差分隱私算法的輸出做任意計算都不會增加隱私損失,因此生成器及其生成數據也滿足差分隱私。
本文的核心思路是通過數據增強的方式,平衡不同節點間數據分布的差異,從而提高最終模型的表現。每個客戶端基于本地數據訓練一個滿足差分隱私的生成式對抗網絡,然后用生成器輸出一定數目的虛擬樣本,并上傳至中央服務器,形成一個共享數據集。服務器將共享數據集下發至各客戶端,客戶端合并本地數據集與共享數據集從而完成數據增強,至此預處理階段結束。方案的整體架構如圖1 所示,以客戶端1 為例描繪了本地GAN 訓練和生成虛擬樣本的過程,實際上所有客戶端都同樣執行上述流程。

圖1 方案整體架構
本文的數據增強方案在預處理階段進行,而聯邦學習的模型訓練過程則稱為主任務階段,當主任務開始時,各客戶端基于增強后的數據集進行模型訓練,與正常聯邦學習的流程相同,此處不再贅述。
在方案高效性方面,虛擬樣本的生成和客戶端本地的數據增強不依賴于聯邦學習主任務的執行邏輯和中間輸出,除了因客戶端本身數據集規模擴大而增加的訓練開銷,不在主任務階段引入額外的計算和通信開銷,提高了方案的實用性。
在方案可用性方面,注意到GAN 生成的樣本是不帶類別標簽的,可直接適用于主任務為半監督學習的情況。而當主任務是監督學習時,本文利用CGAN技術,先選取一批虛擬標簽,再生成對應標簽的虛擬樣本,后續將主要介紹主任務為監督學習的情況。
在方案的隱私性方面,本文關注個體樣本的隱私,分別在虛擬標簽選取過程和虛擬樣本生成過程引入差分隱私,從而保證敵手無法根據客戶端的虛擬樣本及標簽推斷出特定真實樣本的信息。
表1 給出了系統參數及含義。

表1 系統參數及含義
本文提出的聯邦學習數據增強框架DA-FL 如算法1 所示。
算法1聯邦學習數據增強框架DA-FL

首先,每個客戶端Ci計算所需生成的虛擬樣本數目mi,由本地數據集Di的規模乘以一個共享比例γ得到,即mi=|D i|γ,設置參數γ是便于仿真時評估虛擬樣本數目對聯邦學習的提升效果,實際應用中各客戶端的共享比例可以不同。
然后,記Ui為Di中所有樣本的對應標簽集合,例如,客戶端Ci本地共5 個樣本,其中一個樣本屬于類別1,其余4 個屬于類別2,則Ui= {1,2,2,2,2},易知Ui是一個無序的多重集,且|Ui|=|Di|。客戶端Ci從Ui中隨機選取mi個標簽,稱為虛擬標簽。3.4 節將改進上述虛擬標簽選取方法,使其滿足差分隱私。
接著,Ci執行PSG 算法,生成與虛擬標簽對應的虛擬樣本特征,之后將虛擬樣本和標簽一并上傳至中央服務器,中央服務器整合后下發至所有客戶端。
最后,客戶端收到源于其他節點的虛擬數據,將其加入本地數據集從而完成數據增強。
算法1 中PSG 算法的描述見3.3 節。注意到,上述框架是模塊化的,只涉及預處理階段的數據增強,而不對后續的聯邦學習流程做出改動。因此,現有的聯邦學習主任務流程的優化算法理論上都可與本文方案相結合,從而進一步提高non-IID 數據場景中的模型準確率。在第4 節仿真實驗中,為客觀地對比不同方法的效果,采用基礎的FedAvg算法作為本文方案的主任務算法。
雖然GAN 生成的樣本與真實訓練樣本不同,但有研究表明通過模型或虛擬樣本,仍能發起對訓練樣本的成員推斷攻擊[19-20]。因此,本文采用差分隱私保護真實樣本的隱私性。
本文基于DP-SGD 框架,在GAN 訓練過程中對判別器的每個梯度進行剪裁以控制其敏感度,然后將同一批次的梯度進行平均并添加噪聲,同時利用Moments Accountant 統計每輪訓練產生的隱私損失。為了使生成器能生成指定類別的樣本,對判別器和生成器的模型結構進行修改,用嵌入層對樣本標簽進行表示,并將其作為判別器和生成器的額外輸入。另外,GAN 模型中常使用批歸一化技術,而該方法需獲取一批樣本的整體統計數據,破壞了差分隱私性質[30-31],因此將其替換為實例歸一化,并禁止追蹤滑動均值與方差,模型架構詳見4.1 節。
隱私樣本生成算法如算法2 所示。步驟1)~步驟21)是生成式對抗網絡的訓練主循環,其中,步驟5)~步驟12)為判別器的訓練和更新過程,步驟13)~步驟18)為生成器的訓練和更新過程;步驟19)~步驟21)利用Moments Accountant 統計當前的累計隱私損失,并計算已消耗的隱私預算,一旦超出預先設定的隱私預算,則停止訓練并撤銷當前輪次的訓練結果;步驟22)~步驟26)利用訓練得到的生成器進行樣本生成。
算法2PSG 算法
輸入生成虛擬樣本數目m,虛擬標簽,本地數據集D,預定訓練輪數T,學習率η,批樣本數B,隱私預算 (ε0,δ0),訓練梯度剪裁上界c,噪聲乘子σ,隱私損失計算函數A
輸出虛擬樣本特征


算法1中客戶端除了向服務器提交虛擬樣本的特征外,還要提交虛擬標簽,所以需要保證選取的虛擬標簽也滿足差分隱私。
設計標簽選取方法需要兼顧隱私性和可用性。一種簡單的方法是客戶端為每個類別生成相同數目的虛擬樣本,且虛擬樣本數目為事先約定,則該標簽選取過程與本地數據集無關,也不會泄露任何信息。這種方法適用于IID 數據場景,然而non-IID數據場景中客戶端可能只擁有某幾類的樣本數據,對于缺失的類別,生成器無法生成有效的虛擬樣本,影響了樣本的可用性。
考慮到上述類別缺失問題,以及共享數據集中樣本的多樣性和全面性,一個合理的方式是使共享數據集的分布逼近全局數據的分布,從而使模型在共享數據集上的優化方向趨近全局優化方向。此時,客戶端選取的虛擬標簽應該與本地真實標簽的分布相同,即不同類別間的虛擬標簽數目占比應與本地真實標簽保持一致。設全局數據分為L個類別,客戶端每個類別的真實樣本數目分別為n1,…,nL,每類選取虛擬標簽的數目分別為,則應有
但是,該標簽采樣方法是確定性的,無法抵抗敵手的逆向差分攻擊,故在此基礎上,引入指數機制(EM,exponential mechanism)對每種類別采樣的標簽數目進行擾動,具體步驟如下。
1) 對類別k,定義效用函數為

2) 對類別k,令取值為r的概率為

依據上述思路,給出虛擬標簽選取算法如下。
算法3PLS 算法
輸入虛擬樣本共享比例γ,全局樣本類別總數L,客戶端樣本總數n,其中每個類別樣本數n1,…,nL
輸出虛擬標簽


利用算法3 代替算法1 的步驟3),即可保證虛擬標簽滿足差分隱私。
定理2算法3 滿足(ε,0)-差分隱私。
證明如附錄2 所示。
至此,根據定理1 和定理2,可以得到算法1的隱私性質。
定理3算法1 滿足(ε,δ)-差分隱私。
證明算法1中每個客戶端需按順序執行算法3和算法2,根據差分隱私的組合性質,假設算法2滿足 (ε0,δ0)-差分隱私,算法3 滿足(ε1,0)-差分隱私,則算法1滿足(ε,δ)-差分隱私,其中,ε=ε0+ε1,δ=δ0。證畢。
1) 實驗環境
本文的實驗環境為Amazon EC2 p3.2xlarge,硬件配置為8vCPU、61 GB 內存、Tesla V100 GPU。本文方案基于Pytorch 和Opacus[31]庫實現,參與對比的基準方法部分采用了 NIID-Bench[5]和FedLab[32]中的實現代碼。
2) 數據集與數據劃分
實驗數據集為MNIST[33]、FashionMNIST[34]、Cifar10[35]、SVHN[36]。文獻[5]詳細研究了不同的non-IID 數據劃分方式對模型精度的影響,本文從中選擇了3種對模型精度影響最大的數據劃分方式進行實驗,分別如下:1-Label,每個客戶端只有一種類別的樣本;2-Label,每個客戶端只有2 種不同類別的樣本;Dir(0.05),客戶端的樣本服從Dirichlet 分布[10]Dir(β),其中,參數β越小表示非獨立同分布程度越高,此處將β設置為一個較小的值,即β=0.05。
本文設置了10 個客戶端的聯邦學習場景,針對上面3 種數據劃分方式,隨機生成一組樣本分布并固定,以便公平地比較不同方法的效果。圖2 展示了non-IID 數據劃分情況,每個子圖展示了各客戶端的樣本分布,不同類別樣本用不同深淺的灰色標識。

圖2 Non-IID 數據劃分情況
3) 模型架構
本文使用的GAN 和CNN 分類模型的結構如圖3所示。其中,判別器和生成器的主體分別為4 個卷積層(conv)和4 個卷積轉置層(upconv),均采用實例歸一化。跨步(stride)、填充(padding)等參數設置如圖3 所示。判別器和生成器中間層的激活函數分別為LReLU 和ReLU。判別器接收32 像素×32 像素圖像和標簽作為輸入,輸出一個判別評分;生成器接收維度為10 的高斯噪聲和標簽作為輸入,32 像素×32 像素圖像作為輸出。本文所用數據集圖像規格為28 像素×28 像素,故對輸入判別器和生成器輸出的圖像進行resize 處理。聯邦學習主任務的分類模型主要包含2 個卷積層和2 個全連接層FC,每層卷積后設置最大池化層Max Pooling 和ReLU 激活函數。

圖3 GAN 和CNN 分類模型的結構
4) 相關參數
表2 給出了實驗參數設置。其中,每輪參與訓練的客戶端比例設置為1,即所有客戶端都參與訓練。對于數據集SVHN 和Cifar10,隱私預算ε分別設置為100 和200。

表2 實驗參數設置
本節驗證方案的有效性。基于圖2 所示的數據劃分方式,測試了聯邦學習經過50 輪通信后的全局模型準確率。同時,在相同的參數設置下,將本文方案與FedAvg[1]、FedProx[6]、SCAFFOLD[7]、FedNova[9]、FedMix[14]進行了對比。其中,對于本文方案,測試了虛擬樣本共享比例為0.01 和0.05 這 2 種情況;對于FedProx,超參數μ測試了{0.001,0.01,0.1,1}4 種取值;對于FedMix,超參數λ測試了{0.05,0.1,0.2}3 種取值,分別報告最好的一組結果。另外,對每個數據集測試了集中訓練(centralized training)的模型精度,該結果用來估計給定模型架構、訓練算法和超參數后,所能達到的模型精度上界。
由表3 可知,本文方案在3 種數據劃分方式下,都取得了相對較高的模型準確率,特別是1-Label的極端non-IID 場景下,本文方案在各數據集上都取得了比基準方法更高的模型準確率。由2-Label和Dir(0.05)的實驗結果可見,樣本數目的不均衡對模型精度的影響相對較小,而客戶端本地數據的類別多樣性對模型精度的影響較大。在本文方案中,每個客戶端的增強數據集包含了所有類別的樣本,因此能取得較好的模型表現。

表3 不同方法的模型測試準確率對比
圖4 給出了不同方法訓練中的模型準確率變化情況,其中,本文方案設置γ=0.05。從圖4 可知,本文方案在non-IID 數據場景中可以使模型快速收斂,在1-Label 下,基準方法訓練過程中的模型準確率振蕩幅度較大甚至不收斂,而本文方案中模型在前5 輪通信即可收斂至極值點附近。相比于上述情形,在2-Label 下,基準方法與本文方案的最終模型準確率差距縮小,但基準方法的收斂速度較慢,所需通信輪次較多。聯邦學習主任務階段往往涉及多個節點參與,節約此階段的訓練輪次具有重要的實際意義。

圖4 不同方法訓練中的模型準確率變化情況
本節研究差分隱私的隱私預算對方案效果的影響。基于MNIST 數據集在1-Label 下進行實驗,令γ= 0.01,δ= 10-5,分別 測試ε= 1,5,20,50,∞這5 種情況下,主任務模型經過50 輪通信后的準確率,其中ε=∞表示不對GAN 訓練添加噪聲。
由表4 可知,當不添加噪聲時,GAN 生成的樣本能幫助主任務模型達到最高的準確率;當隱私預算為5~50 時,模型準確率相對接近;當隱私預算為1 時,模型準確率明顯降低。上述情況體現了DP-GAN 可用性和隱私性之間的矛盾,隱私保護程度越強,生成的樣本質量越低。

表4 不同隱私預算時的模型準確率
圖5 展示了不同隱私預算時的虛擬樣本,此處選取只有樣本類別“8”的客戶端,對不同的隱私預算ε= 1,5,20,50,∞分別訓練一個生成器,然后固定一組輸入噪聲,觀察每個生成器輸出的虛擬樣本。由圖5 可知,隨著隱私預算的減少,虛擬樣本質量略有降低,當ε=1時發生了模式崩塌,對于不同的輸入噪聲,生成器只輸出相同的圖像,說明對梯度添加的噪聲過大,影響了判別器的正常更新,從而無法正確指導生成器優化。

圖5 不同隱私預算時的虛擬樣本
本節研究客戶端貢獻的虛擬樣本共享數目對方案效果的影響。基于MNIST 數據集進行實驗,樣本共享比例分別設置為γ= 0.1,0.05,0.01,0.005,觀察訓練過程中模型準確率的變化情況。
由圖6 可知,在1-Label 中,節點間數據分布差異較大,增大虛擬樣本的共享數目有助于平衡全局數據的分布,從而增強訓練穩定性,提高最終模型的精度。在2-Label 中,節點間數據分布差異變小,γ值對最終模型準確率的影響也變小,4 種取值都能獲得相近的模型表現,但增大γ仍有助于提高模型收斂速度。由表3 可知,Cifar10 數據集訓練過程中γ=0.05 時的模型準確率反而低于γ=0.01,這是因為GAN 訓練過程中的噪聲導致生成樣本質量較低,造成了數據分布與樣本質量間的矛盾,加入更多的虛擬樣本更好地平衡了數據分布,但降低了總體樣本質量。

圖6 不同樣本共享比例的模型準確率變化曲線
本節測試方案的執行效率,主要驗證以下兩點。1) 主任務效率:方案的主任務階段耗時是否與基準方法相近;2) 總體效率:考慮預處理階段耗時,方案的總體耗時是否仍處于可接受范圍。
基于表2 的默認參數設置,在6 個場景下對不同方案進行效率對比,結果如圖7 所示,其中Ours-Main和Ours-Pre 分別代表本文方案的主任務階段和預處理階段。因為聯邦學習是同步系統,每個通信輪的耗時取決于執行最慢的節點,而在 2-Label 和Dir(0.05)中存在明顯的樣本數目偏斜,所以主任務階段耗時比1-Label 更長。
本文方案主任務階段采用的是FedAvg 算法,主要區別是由于數據增強,客戶端的本地數據集規模增大,故由圖7 可知,本文方案主任務階段的耗時與FedAvg 等基準方法相近。其次,本文方案數據增強階段的耗時約為主任務階段的 10.2%~16.7%,2 個階段的總體耗時相比于基準方法處于可接受范圍。

圖7 不同方案效率對比
本文提出一種面向非獨立同分布數據的聯邦學習數據增強方案,所有客戶端在本地訓練一個生成式對抗網絡,然后生成一定數目的虛擬樣本,客戶端間通過共享虛擬樣本來增強本地數據。在生成式對抗網絡訓練過程中,對判別器添加合適的噪聲,使虛擬樣本滿足差分隱私,從而保證原始數據的隱私。同時,設計了滿足差分隱私的標簽選取算法,避免在數據共享過程中虛擬標簽泄露隱私。與已有工作相比,所提方案在多種數據劃分下都取得了更高的模型精度和更快的模型收斂速度。在未來的工作中,將進一步研究DP-GAN 可用性與隱私性之間的矛盾,在合理的隱私預算下,生成更復雜的、高可用的虛擬樣本,提高方案在面向復雜數據集時的有效性。
附錄1 定理1 的證明
基于Moments Accountant 技術[27]證明定理1。首先,定義調用一次算法M 所產生的隱私損失為隨機變量Z為

其中,D,D′是相鄰數據集,o屬于M 的輸出域。可以通過計算Z矩母函數的值來估計隱私損失的范圍,定義

引理1[27]對任意ε> 0,算法M 滿足(ε,δ)-差分隱私,其中,。
記算法2 為M,則由引理1 可知,為保證算法M 滿足差分隱私,只需約束αM(λ)的上界,并且,由αM(λ)可以進一步計算得到隱私預算(ε,δ)。M 共包含T輪訓練,記第t輪訓練為子算法 Mt,Mt又包含2 個子算法:判別器D 的訓練過程,生成器G 的訓練過程。
下面證明對每個t,的隱私損失存在上界。算法2中步驟7)和步驟8)可合并寫為

式(9)表示由真實樣本和虛擬樣本共同計算得到的判別器梯度,將該計算過程抽象為

設batch size 為B,則式(9)需執行B次,然后對每個梯度進行剪裁并添加噪聲,最后計算平均梯度。為方便分析,令剪裁上界c=1,于是可表示為


至此,證明了給定參數ε,δ,q,T時,通過選取合適的噪聲乘子σ可使整個訓練過程滿足(ε,δ)-差分隱私。實際執行過程中,算法2 的噪聲乘子是預先確定的,通過隱私計量函數A 計算當前已消耗的隱私預算(εt,δt),當其超過既定隱私預算 (ε0,δ0)時,則停止訓練。
證畢。
附錄2 定理2 的證明

由此可知輸出一個類別的標簽數目滿足(ε,0)-差分隱私,由差分隱私組合性質可知,輸出所有L個類別的標簽數目滿足(Lε,0)-差分隱私。因為生成的虛擬標簽是相互獨立的,不存在先后次序關系,所以L個類別的標簽數目唯一決定了所有的虛擬標簽,至此證明了算法3 滿足(ε′,0)-差分隱私。
證畢。