自適應(yīng)裁剪的差分隱私聯(lián)邦學(xué)習(xí)框架

2023-09-07 09:02:48王方偉謝美云李青茹王長廣

西安電子科技大學(xué)學(xué)報(bào) 2023年4期

關(guān)鍵詞：模型

王方偉,謝美云,李青茹,王長廣

(河北師范大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院河北省網(wǎng)絡(luò)與信息安全重點(diǎn)實(shí)驗(yàn)室,河北石家莊 050024)

1 引言

信息化時代,各種智能設(shè)備及應(yīng)用每天都會產(chǎn)生海量數(shù)據(jù)。機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí),為充分挖掘數(shù)據(jù)價值提供了一件有力武器,已在計(jì)算機(jī)視覺、語音識別、自然語言處理等領(lǐng)域取得巨大成功。然而,頻發(fā)的隱私泄露事件引發(fā)了民眾對于數(shù)據(jù)隱私和安全的擔(dān)憂,越來越多的組織和公司不愿共享自己的數(shù)據(jù),出現(xiàn)“數(shù)據(jù)孤島”問題。聯(lián)邦學(xué)習(xí)是一種分布式機(jī)器學(xué)習(xí)模式,參與模型訓(xùn)練的各方不會交換彼此數(shù)據(jù)。各參與方在本地完成數(shù)據(jù)存儲和模型訓(xùn)練,只需將相關(guān)訓(xùn)練參數(shù)上傳至中央服務(wù)器,由中央服務(wù)器統(tǒng)一維護(hù)全局參數(shù)的更新[1]。聯(lián)邦學(xué)習(xí)在不共享數(shù)據(jù)的前提下由多方協(xié)作共同訓(xùn)練一個深度學(xué)習(xí)模型,降低了隱私泄露風(fēng)險,極大釋放了數(shù)據(jù)價值,可有效緩解“數(shù)據(jù)孤島”問題。

盡管聯(lián)邦學(xué)習(xí)對保護(hù)數(shù)據(jù)隱私有一定作用,但客戶端頻繁上傳和下載參數(shù),仍然存在隱私泄露的風(fēng)險[2]。如何設(shè)計(jì)滿足隱私要求的聯(lián)邦學(xué)習(xí)方案仍是一個挑戰(zhàn)。研究者嘗試將安全多方計(jì)算、同態(tài)加密和差分隱私等數(shù)據(jù)安全技術(shù)結(jié)合聯(lián)邦學(xué)習(xí),提出一些聯(lián)邦學(xué)習(xí)隱私保護(hù)框架[3-7]。KANAGAVELU等[4]提出高效通信的多方計(jì)算支持的聯(lián)邦學(xué)習(xí)(Communication-Efficient multi-party computation enabled Federated learning,CE-Fed)算法,實(shí)現(xiàn)了高精度、高通信效率的聯(lián)邦學(xué)習(xí)。MA等[5]提出基于多密鑰同態(tài)加密技術(shù)的聯(lián)邦學(xué)習(xí),旨在實(shí)現(xiàn)隱私保護(hù)的聯(lián)邦學(xué)習(xí),并降低計(jì)算成本。PARK等[6]利用同態(tài)加密技術(shù)直接對模型參數(shù)進(jìn)行加密,中央服務(wù)器直接對密文進(jìn)行計(jì)算而無需解密。張澤輝等[7]提出一種支持?jǐn)?shù)據(jù)隱私保護(hù)的聯(lián)邦深度神經(jīng)網(wǎng)絡(luò)模型(Privacy-preserving Federated Deep Neural Network,PFDNN),通過對其權(quán)重參數(shù)實(shí)施同態(tài)加密來保障數(shù)據(jù)的隱私安全。然而,安全多方計(jì)算大多基于復(fù)雜的通信協(xié)議,同態(tài)加密涉及大量加密操作,盡管可實(shí)現(xiàn)數(shù)據(jù)的“可算而不可見”,但也為系統(tǒng)帶來了巨大的計(jì)算開銷和通信開銷。與安全多方計(jì)算和同態(tài)加密不同,差分隱私因其實(shí)現(xiàn)的簡單性和強(qiáng)大的隱私性而受到關(guān)注,已應(yīng)用到多個領(lǐng)域以提升系統(tǒng)的隱私性[8]。

差分隱私應(yīng)用于聯(lián)邦學(xué)習(xí)有兩種方式,即本地化差分隱私(Local Differential Private,LDP)和中心化差分隱私(Centralized Differential Private,CDP)[9]。本地化差分隱私首先使得數(shù)據(jù)擁有者完全掌握對數(shù)據(jù)的控制權(quán),在本地對數(shù)據(jù)進(jìn)行干擾,然后向服務(wù)器發(fā)送擾動后的版本,從而防止了數(shù)據(jù)的隱私泄露。TRUEX等[10]提出了本地差分隱私的聯(lián)邦學(xué)習(xí)(Local Differential Private Federated learning,LDP-Fed)算法,首先根據(jù)本地需求定制隱私預(yù)算,然后在本地對模型參數(shù)進(jìn)行基于本地化差分隱私的擾動。SUN等[11]考慮深度學(xué)習(xí)模型的不同層的權(quán)重范圍差異,提出了一個權(quán)重參數(shù)自適應(yīng)范圍設(shè)置方法及數(shù)據(jù)擾動方法,提升了模型性能。 ZHAO等[12]設(shè)計(jì)了一種適應(yīng)于本地化差分穩(wěn)私的聯(lián)邦隨機(jī)梯度下降(Federated Stochasitc Gradient Desent,FedSGD)算法,既可實(shí)現(xiàn)對梯度的擾動,提升模型精度,又能減少通信成本。CHAMIKAPA等[13]提出了LDPFL(Local Differential Privacy for Federated Learning)算法,通過隨機(jī)化本地模型的輸入來實(shí)現(xiàn)本地化差分穩(wěn)私,訓(xùn)練的模型在保持高精度的情況下,隱私泄露更少。ZHAO等[14]提出了一種增強(qiáng)聯(lián)邦學(xué)習(xí)框架,通過客戶端自采樣和自適應(yīng)數(shù)據(jù)擾動機(jī)制實(shí)現(xiàn)本地化差分穩(wěn)私。相比于中心化差分穩(wěn)私,本地化差分穩(wěn)私能提供更高的隱私水平,但會引入更多噪聲,從而影響模型精度。另外,本地化差分穩(wěn)私不利于處理高維、稀疏數(shù)據(jù)。

中心化差分隱私主要針對客戶—服務(wù)器架構(gòu),對服務(wù)器獲取和廣播的參數(shù)提供隱私保護(hù)。為了解決隱私性與模型效用之間的權(quán)衡問題,LIU等[15]提出了自適應(yīng)隱私保護(hù)的聯(lián)邦學(xué)習(xí)(Adaptive Privacy-preserving Federated Learning,APFL)算法,首先使用相關(guān)性傳播算法計(jì)算每個數(shù)據(jù)屬性類對輸出的貢獻(xiàn)度,然后向數(shù)據(jù)屬性中注入自適應(yīng)噪聲。WU等[16]在客戶端執(zhí)行本地梯度下降的過程中引入自適應(yīng)學(xué)習(xí)率調(diào)整算法,提升了計(jì)算效率,并利用差分隱私有效抵御了各種背景攻擊。朱建明等[17]根據(jù)各參與方的模型質(zhì)量評估結(jié)果,為中間參數(shù)添加不同程度的噪聲,從而保證本地?cái)?shù)據(jù)的隱私安全。HU等[18]開發(fā)了一種稀疏模型擾動的聯(lián)邦學(xué)習(xí)(Federated learning with Sparsified Model Perturbation,Fed-SMP)方案,通過模型稀疏化技術(shù)實(shí)現(xiàn)了隱私保護(hù)水平和通信效率的提高。LIU等[19]設(shè)計(jì)了一種自適應(yīng)梯度裁剪的差分隱私聯(lián)邦學(xué)習(xí)算法,根據(jù)用戶的梯度信息來動態(tài)調(diào)整每個通信輪次中的梯度裁剪閾值,減少了因裁剪閾值設(shè)置不合理對模型精度的影響。SHEN等[20]提出了性能增強(qiáng)的差分私聯(lián)邦學(xué)習(xí)(Performance-Enhanced Differential Privacy-based Federated Learning,PEDPFL)算法,使用正則化提升模型的魯棒性。LIAN 等[21]提出了基于層的聯(lián)邦學(xué)習(xí)(Layer-Based Federated Learning,Layer-Based FL)算法,通過比較本地模型與全局模型的相關(guān)性,在本地選擇部分模型參數(shù)進(jìn)行擾動后上傳給服務(wù)器,以此來減少通信中的負(fù)載。BAEK等[22]針對聯(lián)邦學(xué)習(xí)中的用戶掉線問題,提出了一種對用戶掉線且具有魯棒性的差分穩(wěn)私機(jī)制,減少了因用戶意外掉線而造成的隱私預(yù)算過度消耗。

中心化差分隱私在應(yīng)用中仍面臨隱私性與模型精度之間的權(quán)衡;另外,在實(shí)現(xiàn)中心化差分隱私時,要求服務(wù)器是可信的,噪聲由服務(wù)器添加,一旦服務(wù)器忽略了噪聲的添加,就會導(dǎo)致隱私泄露風(fēng)險。針對以上問題,文中提出了自適應(yīng)裁剪的差分隱私聯(lián)邦學(xué)習(xí)框架,首先將噪聲添加操作由服務(wù)器轉(zhuǎn)移至本地,各客戶端完成本地更新后,向更新的模型參數(shù)中添加自適應(yīng)噪聲,然后將加噪后的模型參數(shù)上傳至服務(wù)器,執(zhí)行全局模型參數(shù)更新,保障了參數(shù)傳輸期間的數(shù)據(jù)隱私安全。

2 預(yù)備知識

2.1 聯(lián)邦學(xué)習(xí)

(1)

其中,Fi(ω)表示客戶端i計(jì)算得到的損失函數(shù)。

2.2 差分隱私

差分隱私的核心思想是通過向統(tǒng)計(jì)結(jié)果中添加噪聲,使數(shù)據(jù)集中某一條記錄的改變不會顯著影響算法的結(jié)果,從而保護(hù)數(shù)據(jù)的隱私。其定義如下:

定義1((ε,δ)差分隱私[24]) 令M:D→R為隨機(jī)算法,d∈D,d′∈D為最多相差一條記錄的相鄰數(shù)據(jù)集,若算法M在d和d′上任意輸出結(jié)果O∈R都滿足式(2),則稱算法M實(shí)現(xiàn)(ε,δ)差分隱私。

Pr[M(d)=O]≤eε×Pr[M(d′)=O]+δ,

(2)

其中,參數(shù)ε表示隱私保護(hù)預(yù)算,反映了算法的隱私保護(hù)程度,且ε越小,隱私保護(hù)程度越高。δ是松弛項(xiàng),表示違背純ε差分隱私的概率。

定義2(全局靈敏度[24]) 對于任意查詢函數(shù)f：D→Rd,其敏感度為

(3)

其中,d和d′為最多相差1條記錄的相鄰數(shù)據(jù)集。敏感度可衡量改變數(shù)據(jù)集中任意一條記錄對于f的輸出造成的最大影響,它決定了為實(shí)現(xiàn)差分隱私,需要向f的輸出結(jié)果中添加的噪聲量。

實(shí)現(xiàn)差分隱私的一種典型機(jī)制為高斯機(jī)制,通過向輸出結(jié)果中添加服從高斯分布的噪聲Y～N(0,(Δf)2σ2)來實(shí)現(xiàn),σ為噪聲乘子,且σ≥(2ln(1.25/δ)1/2/ε。

差分隱私作為一種魯棒模型,具有如下性質(zhì):

性質(zhì)1(后處理免疫性[24]) 對于同一數(shù)據(jù)集D,若算法M滿足(ε,δ)差分隱私,則對于任意隨機(jī)算法A(不一定滿足差分隱私),新的算法M′=A(M(D))仍滿足(ε,δ)差分隱私。

性質(zhì)2(序列組合性[25]) 假設(shè)算法M1(D),M2(D),…,Mk(D)均滿足(ε,δ)差分隱私,則對于同一數(shù)據(jù)集D,由這些算法構(gòu)成的組合算法Φ(M1,M2,…,Mk)滿足(ε,δ)差分隱私保護(hù)。

3 自適應(yīng)差分隱私聯(lián)邦學(xué)習(xí)框架

聯(lián)邦學(xué)習(xí)作為一種分布式機(jī)器學(xué)習(xí)模式,各參與者與服務(wù)器之間的頻繁通信使得聯(lián)邦學(xué)習(xí)面臨著巨大的計(jì)算和通信開銷。相比傳統(tǒng)的密碼學(xué)技術(shù),差分隱私具有成本低、算法簡單、且能夠提供強(qiáng)大隱私保障的特點(diǎn),將差分隱私應(yīng)用于聯(lián)邦學(xué)習(xí)時并不會增加過多的計(jì)算和通信開銷,但在實(shí)現(xiàn)時引入的噪聲不可避免地會對模型性能產(chǎn)生影響。如何在隱私性與模型性能之間取得良好的權(quán)衡,成為差分隱私更好地部署于聯(lián)邦學(xué)習(xí)中的關(guān)鍵。文中從差分隱私部署的關(guān)鍵步驟(梯度裁剪)出發(fā),提出一個自適應(yīng)差分隱私聯(lián)邦學(xué)習(xí)框架(Adaptive Differential Privacy Federated Learning,ADP_FL),采用高斯機(jī)制實(shí)現(xiàn)差分隱私保護(hù)。在該框架中,客戶端與服務(wù)器的通信過程如圖1所示。

圖1 自適應(yīng)差分隱私聯(lián)邦學(xué)習(xí)框架示意圖

3.1 自適應(yīng)裁剪閾值

在差分隱私設(shè)置中,梯度裁剪至關(guān)重要,可有效防止因個別梯度過大對模型更新產(chǎn)生的影響。梯度裁剪閾值作為一個超參數(shù),需要用戶仔細(xì)選擇。若梯度裁剪閾值設(shè)置過大,則會引入過多不必要的噪聲,從而影響模型性能;若梯度裁剪閾值設(shè)置過小,則會損失過多的梯度信息。梯度裁剪主要有兩種形式:①基于數(shù)值的裁剪,即梯度向量的各個值大于預(yù)設(shè)的閾值則被裁剪;②基于范數(shù)的裁剪,即梯度范數(shù)大于預(yù)設(shè)閾值則被裁剪。相比基于數(shù)值的裁剪,基于范數(shù)的裁剪實(shí)現(xiàn)了對梯度向量的縮放,能更多地保留梯度中的信息。目前廣泛使用的是基于范數(shù)的裁剪,這也是文中研究的內(nèi)容。針對梯度裁剪閾值的設(shè)置問題,提出了一種自適應(yīng)裁剪閾值選取(Adaptive Dlipping threshold selection,Ada_Clip)算法,具體為:計(jì)算每個迭代中梯度的L2范數(shù),選取歷史梯度L2范數(shù)的p百分位數(shù),作為當(dāng)前迭代的裁剪閾值,即

Ct=[G0,G1,…,Gt]p,t≥0 ,

(4)

在自適應(yīng)裁剪閾值選取算法中,較高的p值將導(dǎo)致較少的裁剪被應(yīng)用到梯度上。若p=100,則在模型訓(xùn)練期間梯度不會被裁剪;若p=0,則在每次迭代中梯度都會被裁剪到訓(xùn)練過程中梯度的最小值。自適應(yīng)裁剪閾值選取算法根據(jù)歷史梯度的變化趨勢,來預(yù)測當(dāng)前迭代中梯度的變化,以便給出一個合理的限制,用戶只需要確定裁剪的百分比即可。百分?jǐn)?shù)的引入也能夠更好地隱藏原始梯度信息。

每個訓(xùn)練批次中的每個數(shù)據(jù)的梯度都將被裁剪,取該批次中所有梯度裁剪后的值再求平均,作為該次迭代中的梯度,即

(5)

算法1自適應(yīng)差分隱私聯(lián)邦學(xué)習(xí)框架。

輸出:模型參數(shù)ωT

① fort=0,1,…,T-1 do

② for 每一客戶端k∈Stdo

④ fore=1,2,…,Edo

3.2 框架詳細(xì)設(shè)計(jì)

為防止聯(lián)邦學(xué)習(xí)中客戶端數(shù)據(jù)隱私的泄露,結(jié)合自適應(yīng)裁剪閾值選取策略,提出了一種自適應(yīng)差分隱私聯(lián)邦學(xué)習(xí)框架(ADP-FL),如算法1所示。該框架包含4個主要步驟。

步驟1 本地訓(xùn)練。為減少與服務(wù)器的通信次數(shù),參與模型訓(xùn)練的各客戶端在可本地執(zhí)行多次梯度下降,并對每次迭代中計(jì)算的梯度進(jìn)行裁剪,梯度裁剪閾值由自適應(yīng)裁剪閾值選取算法來確定。各客戶端可以自主選取梯度裁剪的百分比,文中各客戶端的裁剪百分比是相同的。梯度裁剪操作旨在限制梯度的范圍,方便后續(xù)添加噪聲。

步驟2 參數(shù)上傳。為防止客戶端數(shù)據(jù)隱私泄露,各客戶端將自己在本地訓(xùn)練得到的模型參數(shù)上傳至服務(wù)器之前,需要向本地更新的模型參數(shù)中添加自適應(yīng)的高斯噪聲,即

(6)

步驟3 參數(shù)聚合。每一輪選擇K個客戶端,而非所有客戶端參與模型聚合,通信中聚合的全局模型參數(shù)為

(7)

步驟4 參數(shù)廣播。服務(wù)器不重復(fù)地隨機(jī)選擇一個客戶端子集,將更新后的模型參數(shù)廣播至各客戶端。服務(wù)器無需訪問本地?cái)?shù)據(jù)信息。每個客戶端下載服務(wù)器提供的全局模型,來更新自己的模型。另外,每一個客戶端與服務(wù)器進(jìn)行通信,都需要消耗一定的通信成本。在參數(shù)廣播時,服務(wù)器選擇部分客戶端,而非全部客戶端進(jìn)行參數(shù)廣播,在一定程度上可減少通信成本。

(8)

(9)

根據(jù)引理1,每個參與模型聚合的客戶端需要添加在上傳參數(shù)中的噪聲標(biāo)準(zhǔn)差為2ηtECtσt/B。

3.3 隱私性分析

定理1記總通信輪次為T,對于任意客戶端i的本地?cái)?shù)據(jù)集Di,算法1滿足(Tε,Tδ)差分隱私。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)采用兩種公開數(shù)據(jù)集。

(1) Fashion-MNIST:包含70 000張10類服飾的灰度圖片,每張圖片大小為28×28像素,訓(xùn)練集包含60 000張圖片,測試集包含10 000張圖片。

(2) CIFAR10:包含10種類型的彩色圖片,標(biāo)簽為飛機(jī)、汽車、鳥、貓、鹿、狗、青蛙、馬、船、卡車,每張圖片大小為32×32像素,訓(xùn)練集包含50 000張圖片,測試集包含10 000張圖片。

對于Fashion-MNIST數(shù)據(jù)集,網(wǎng)絡(luò)結(jié)構(gòu)由1個包含256個神經(jīng)元的全連接層組成。對于CIFAR10數(shù)據(jù)集,采用兩種網(wǎng)絡(luò)結(jié)構(gòu),模型1是包含兩個卷積層和兩個全連接層的網(wǎng)絡(luò),兩個卷積層使用的卷積核大小都是5×5,輸出通道數(shù)分別為64和128,全連接層包含的神經(jīng)元分別為384個和192個;模型2采用VGG16網(wǎng)絡(luò)。3個網(wǎng)絡(luò)均采用SoftMax函數(shù)實(shí)現(xiàn)網(wǎng)絡(luò)輸出,并使用交叉熵計(jì)算損失函數(shù)。文中實(shí)驗(yàn)中的客戶端數(shù)量均設(shè)置為50個,實(shí)驗(yàn)使用PyTorch框架在 NVIDIA GeForce RTX 2080 Ti服務(wù)器上運(yùn)行,結(jié)果均取5次測試的平均值,結(jié)果的方差標(biāo)注在表1和表2中。

表1 在數(shù)據(jù)集Fashion-MNIST和CIFAR10上的結(jié)果(模型精度) %

表2 在數(shù)據(jù)集CIFAR10上使用VGG16在不同隱私預(yù)算下的結(jié)果(模型精度) %

4.2 性能評估

4.2.1 算法有效性評估

為驗(yàn)證所提算法的有效性,設(shè)計(jì)實(shí)驗(yàn)將自適應(yīng)差分隱私聯(lián)邦學(xué)習(xí)算法與客戶端級的差分隱私聯(lián)邦學(xué)習(xí)(Client-level Differential Privacy Federated Learning,CDP_FL)算法[15]、使用固定噪聲的差分隱私聯(lián)邦學(xué)習(xí)(Differential Privacy Federated Learning,DP-FL)算法[16]和未經(jīng)差分隱私保護(hù)的聯(lián)邦學(xué)習(xí)(Non-Differential Privacy federated learning,No_DP)算法[1]進(jìn)行比較,結(jié)果如表1所示,模型精度一律采用百分?jǐn)?shù)表示。實(shí)驗(yàn)結(jié)果表明,所提出的自適應(yīng)差分隱私聯(lián)邦學(xué)習(xí)框架能夠在保證數(shù)據(jù)隱私的前提下,提升模型精度。另外,在不同隱私水平下的實(shí)驗(yàn)結(jié)果表明,隱私預(yù)算越高,所提方法對于模型精度的提升越明顯。文中還進(jìn)一步嘗試使用更復(fù)雜的網(wǎng)絡(luò)來驗(yàn)證提出方法的有效性,結(jié)果如表2所示。在隱私預(yù)算ε=6.0時,模型精度與非隱私情況相比,相差2.06%;相同隱私預(yù)算下,更復(fù)雜的網(wǎng)絡(luò)對于模型提升是有益的。值得注意的是,本實(shí)驗(yàn)中的隱私預(yù)算均指模型在訓(xùn)練期間消耗的總體隱私預(yù)算。

圖2展示了Fashion-MNIST在隱私預(yù)算ε=0.5時模型精度隨通信輪次的變化,圖3展示了CIFAR10使用模型1在隱私預(yù)算ε=4.0時模型精度隨通信輪次的變化。從兩個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,未經(jīng)差分隱私保護(hù)的聯(lián)邦學(xué)習(xí)算法在不同的學(xué)習(xí)任務(wù)上始終保持最高的模型精度,且訓(xùn)練過程也更加穩(wěn)定,這說明噪聲的引入會導(dǎo)致模型收斂過程中的波動,也會對模型精度產(chǎn)生一定程度的影響。另外,改變添加噪聲的規(guī)模對于模型精度和收斂性能的提升都是有益的。相比中心化差分隱私保護(hù)算法,文中提出的自適應(yīng)差分隱私聯(lián)邦學(xué)習(xí)算法從自適應(yīng)裁剪閾值選取維度來間接影響添加的噪聲規(guī)模,在提升模型精度的同時,也使訓(xùn)練更加穩(wěn)定。

圖2 在Fashion-MNIST上不同算法的訓(xùn)練精度隨通信輪次的變化

圖3 在CIFAR10上(模型1)不同算法的訓(xùn)練精度隨通信輪次的變化

此外,將ADP_FL與Layer-Based FL[24]做了比較,在兩個數(shù)據(jù)集上均進(jìn)行50輪通信,實(shí)驗(yàn)結(jié)果如表3所示。在該實(shí)驗(yàn)中,用客戶端與服務(wù)器之間的通信輪次來衡量通信成本。兩種方法在相同通信成本下,實(shí)現(xiàn)了相似的模型精度,說明ADP_FL能夠提供更強(qiáng)的隱私保障。

表3 算法有效性比較(模型精度) %

4.2.2 本地迭代次數(shù)的影響

對于Fashion-MNIST和CIFAR10這兩個數(shù)據(jù)集,選取本地迭代次數(shù)都為E={2,3,5,7},隱私預(yù)算分別為ε=0.5和ε=4.0。圖4～6給出了在無隱私(No_DP)和使用所提方法(ADP_FL)的情況下,本地迭代次數(shù)對模型精度的影響。對于無隱私的情況,本地運(yùn)行更多迭代能夠使全局模型收斂更快,有益于模型精度的提升;但對于添加噪聲的情況,更多迭代將導(dǎo)致模型精度的降低。原因是本地迭代次數(shù)與敏感度有關(guān),更多的本地迭代次數(shù)將導(dǎo)致敏感度成倍的增加,進(jìn)而增大添加的噪聲規(guī)模,從而導(dǎo)致模型精度逐漸降低。另外,由圖4～6也可以看出,對于給定的隱私水平,存在一個較優(yōu)的本地迭代次數(shù),能夠在保證隱私的同時,維持模型較高的精度。

圖4 在Fashion-MNIST上本地迭代次數(shù)對模型精度的影響

圖5 在CIFAR10上(模型1)本地迭代次數(shù)對模型精度的影響

圖6 在CIFAR10上(模型2)本地迭代次數(shù)對模型精度的影響

4.2.3 裁剪百分比大小的影響

對于Fashion-MNIST和CIFAR10這兩個數(shù)據(jù)集,選取本地迭代次數(shù)都為E=5,隱私預(yù)算分別為ε=0.5和ε=4.0。由圖7～9可以看出,裁剪百分比與模型精度成反比,即裁剪百分比越大,模型精度反而越低。這主要是因?yàn)椴眉糸撝蹬c敏感度有關(guān),盡管較大的裁剪閾值能夠更多地保留梯度當(dāng)中的信息,但同時也會引入過多的噪聲,導(dǎo)致模型精度降低。

圖7 在Fashion-MNIST上裁剪百分比對模型精度的影響

圖8 在CIFAR10上(模型1)裁剪百分比對模型精度的影響

圖9 在CIFAR10上(模型2)裁剪百分比對模型精度的影響

5 結(jié)束語

筆者重點(diǎn)關(guān)注差分隱私在聯(lián)邦學(xué)習(xí)中的部署,設(shè)計(jì)了一種基于自適應(yīng)差分隱私的聯(lián)邦學(xué)習(xí)框架。在本地模型訓(xùn)練期間,客戶端可在本地執(zhí)行多次迭代,通過自適應(yīng)裁剪閾值選取策略在每個迭代中對梯度裁剪閾值進(jìn)行校準(zhǔn),僅在參數(shù)上傳時在本地完成自適應(yīng)噪聲的添加。通過在Fashion-MNIST和CIFAR10兩個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法在為數(shù)據(jù)的隱私和安全提供強(qiáng)大隱私保證的同時,提升了模型性能,也使模型的訓(xùn)練過程更加穩(wěn)定。另外,從理論上分析了本地執(zhí)行梯度下降的次數(shù)和本地訓(xùn)練批次大小對模型性能的影響,并通過實(shí)驗(yàn)加以驗(yàn)證。

文中的隱私預(yù)算采用平均分配的策略,這樣會造成不必要的隱私預(yù)算浪費(fèi),下一步將結(jié)合更加精準(zhǔn)的隱私損失度量方法,對迭代過程中消耗的隱私預(yù)算實(shí)現(xiàn)更加精準(zhǔn)的追蹤。另外,由于數(shù)據(jù)采樣方法的差異,聯(lián)邦學(xué)習(xí)中參與訓(xùn)練的各客戶端數(shù)據(jù)存在異構(gòu)性問題。下一步將研究各客戶端數(shù)據(jù)異構(gòu)的場景下,差分隱私如何更好地部署在聯(lián)邦學(xué)習(xí)中。