999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向深度神經網絡訓練的數據差分隱私保護隨機梯度下降算法

2020-04-19 07:25:02賀春林
計算機應用與軟件 2020年4期

李 英 賀春林

1(內江職業技術學院信息技術系 四川 內江 641000)2(西華師范大學計算機學院 四川 南充 637002)

0 引 言

深度神經網絡算法在諸如圖像分類[1]、語言表達[2]和視覺跟蹤[3]等工程應用中取得了十分廣泛的應用,但其依賴于采用大量訓練數據集對神經網絡進行訓練[4],而在使用這些訓練數據集時首先需要保證不侵犯數據的隱私權限[5]。然而,對于深度神經網絡而言,受到隱私保護的數據集作為訓練集可能對算法最終運行結果的正確性產生影響[6-7]。因此,如何在運用深度神經網絡算法的同時有效保護訓練樣本數據的隱私不受侵犯顯得至關重要。

學者們針對神經網絡的訓練數據隱私問題進行了相關研究。例如,文獻[8]針對含有加密后的數據分析計算問題,提出了基于同態加密技術的機器學習算法,在保證不解密的情況下直接對密文進行計算,并與解密后明文計算結果相同。然而,同態加密技術存在運算效率低的缺點。文獻[9]提出了基于Flash排序算法與k-匿名保護算法相結合的分類機器學習算法,實現隱私數據保護的同時保持數據集的最優效用,但k-匿名算法本質上仍存在隱私信息泄露的可能性。

近年來,差分隱私技術被廣泛應用于數據私密性保護中,其基本原理為對原始數據通過轉換、添加噪聲等方法來達到隱私保護的效果,從而確保數據集在執行插入或刪除操作時對最終的計算結果不會產生影響。基于此,本文提出一種結合差分隱私的隨機梯度下降算法,實現數據隱私保護與神經網絡算法的有機結合,主要貢獻包括:

(1) 針對傳統隨機梯度下降算法不考慮對數據隱私性的破壞影響,提出了基于差分隱私保護的隨機梯度下降算法,引入附加高斯噪聲對數據隱私性進行保護的同時,保證對深度神經網絡的訓練效果。

(2) 為衡量所提差分隱私隨機梯度下降算法對數據隱私的破壞程度,提出隱私損失累積函數的概念對每次迭代過程中的數據隱私破壞程度進行度量。此外,還討論了算法中關鍵參數對神經網絡訓練效果的影響。算例實驗表明,所提算法能夠有效實現數據隱私保護與算法執行效率間的折中平衡,具有較好的應用前景。

1 相關概念

1.1 基于附加高斯噪聲的差分隱私保護機制

差分隱私算法[11]的數學基礎為相鄰數據集概念,具體的數學定義如下:

定義1對于一個隨機映射機制M:D→R,其中D為域,而R為范圍滿足(ε,δ)為差分隱私的,若其滿足對于任意兩個響鈴輸入d,d′∈D和任意輸出子集S?R有如下不等式成立:

Pr[M(d)∈S]≤eεPr[M(d′)∈S]+δ

(1)

式中:ε為差分隱私預算參數,其表征了隱私保護程度,ε越小表示隱私保護程度越高;而δ則表征了差分隱私被破壞的概率值。由定義1可知,差分隱私技術限制了任意對數據集的操作對算法運行結果的影響。具體操作為:令f表示某一算法,f(d)和f(d′)分別表示兩個相鄰數據的執行結果。差分隱私即通過調整參數ε來保證對數據集中對同一條數據進行刪除或添加操作后輸出同一結果的概率控制在eε之內,且差分隱私被破壞的概率小于δ。從上述分析可知,(ε,δ)同樣反映了隱私保護的開銷程度。此外,文獻[12]提出,實現差分隱私的關鍵在于向數據添加隨機噪聲,最常見的是添加高斯隨機噪聲:

(2)

然而,添加噪聲的程度與算法對數據的敏感度以及需要控制的隱私保護程度有關。換言之,若加入的噪聲程度過大,則算法運行結果的可信度會下降;反之,若加入的噪聲程度太小,則無法對數據提供可靠的安全保障。為衡量算法對添加噪聲的敏感程度,引入如下定義:

定義2對任意算法f:D→R,算法的全局敏感度GS(f)定義為:

(3)

1.2 深度學習

如圖1所示,深度神經網絡基于模塊化思想,通過在多個層次上部署多個神經元并通過逐層訓練的手段調整神經元間的連接權值,從而實現原始特征數據進行多次非線性變換,對于任何有限給定輸入/輸出數據的擬合,最終獲取到穩定的特征用于后續的問題分析。

圖1 深度神經網絡結構圖

深度神經網絡算法中,為評估所提神經網絡輸出預測值與真實值之間的差異程度,用損失函數L表示,文中采用均方差損失函數,表示為:

(4)

2 基于差分隱私保護的SGD算法

提出一種基于差分隱私保護的隨機梯度下降算法。為約束算法迭代過程中對數據隱私性的侵犯,提出隱私損失累積函數的概念對隱私侵犯程度進行度量。

2.1 算法步驟

現有研究中,差分隱私和隨機梯度下降算法之間參數的配合選取與交互影響機制尚不明確。例如,在訓練數據中加入的噪聲過于保守,則在實際算法運行時的準確率將受到影響。因此,通過定義一個數據隱私損失累積函數來量化度量隨機梯度下降迭代過程中對數據隱私的侵犯程度。

算法1展示了所提差分隱私SGD算法的基本步驟,其目標函數通過不斷訓練和調整權重系數θ來最小化損失函數L。其基本思想為:在每次迭代過程中,首先計算隨機生成的批量樣本的梯度▽θL(θ,xi),并基于計算生成的梯度值的L2范數進行梯度剪切。隨后,考慮到樣本數據的隱私保護,基于附加高斯噪聲方法以梯度與隨機噪聲之和的均值對剪切后的梯度進行更新,得到下一步迭代的權重系數θ。最后除最終權重系數之外,還需要輸出由于差分隱私保護機制帶來的隱私損失。

算法1差分隱私SGD算法

初始化:隨機生成權重系數θ0

Fort∈[T]do

輸出:θT和使用隱私損失累積函數計算得到的隱私開銷(ε,δ)

相關術語解釋如下:

神經網絡各層參數:神經網絡各層參數(即權重系數θ)都作為損失函數L的其中一部分參數。算法1同樣表明,對于每一層而言均可以對剪切閾值和噪聲程度進行單獨設置,且可能隨著訓練迭代步驟t的增長而變化。

2.2 基于隱私損失累積函數的差分隱私侵犯計算

對于所提差分隱私SGD算法,除了確保算法運行的準確率以外,另一個重要的問題就是評估算法訓練時的數據隱私損失成本。為此,提出隱私損失累積函數的概念來進行每次迭代過程訪問訓練數據的隱私損失以及隨著訓練進展時的累積隱私損失。

進一步地,對于兩個相鄰的數據集d,d′∈D和映射機制M,引入一個輔助輸入變量aux和輸出o∈R,定義映射機制M在輸出o處的隱私損失為:

(5)

對于所提差分隱私SGD算法而言,神經網絡各層權重系數的參數值與每次迭代過程中的差分隱私機制有著緊密的關聯,從而對于給定的映射機制M,在第λ次迭代過程的隱私損失定義為:

(6)

進一步地,映射機制M的損失邊界值定義為:

(7)

其滿足如下特性:

(8)

2) 差分隱私邊界:?ε>0,映射機制M是(ε,δ)差分隱私的,當且僅當:

(9)

上述2條性質確定了深度神經網絡算法每次迭代的隱私損失以及所能夠達到侵犯數據隱私容忍度的最大迭代次數。特別地,在附加高斯噪聲的情況下,不妨令μ0、μ1分別為N(0,σ2)和N(0,σ2)的概率密度函數,而μ為兩個高斯密度函數的混合概率密度函數,即μ=(1-q)μ0+qμ1。依據式(5)-式(7)可推導得α(λ)=log max(E1,E2),其中:

(10)

(11)

隱私損失邊界為:

α(λ)≤q2λ(λ+1)/(1-q)σ2+O(q3/σ3)

(12)

3 實 驗

3.1 實驗步驟

本文算法采用基于數據流編程(dataflow programming,DP)的TensorFlow符號數學系統[15]進行編程。為了保護數據隱私,需在進行梯度下降更新每一層權重系數參數值之前對數據進行清洗。此外,還需根據數據清洗的處理方式計算每次迭代過程中的隱私損失。故算例執行過程中主要包含兩大部分:1) 數據清洗,梯度計算前對數據進行清洗以保護隱私;2) 隱私損失累積,在訓練過程中計算每次的隱私損失。

算法2和算法3為基于TensorFlow框架下使用Python語言編程的所提差分隱私SGD算法的核心代碼片段。其中:算法2為使用所提差分隱私SGD算法對損失函數不斷優化,命名為DPSGD_Optimizer;而算法3則為隱私損失累積成本函數進行隱私損失迭代計算,命名為DPtrain。

算法2SGD算法核心代碼

class DPSGD_Optimizer():

def_init_(self,accountant,sanitizer):

self_accountant=accoutant

self_sanitizer=sanitizer

def Minimize(self,loss,params,

batch_size,noise_options):

#計算梯度之前的累計隱私損失

priv_accum_op=

self._accountant.AccumulatePrivacySpending(

batch_size,noise_options)

with tf.control_dependencies(priv_accum_op):

#計算每個樣本的梯度

px_grads=per_example_gradients(loss,params)

#數據清洗

sanitized_grads=self._sanitizer.Sanitize(

px_grads,noise_options)

#執行梯度下降操作

return apply_gradients(params,sanitized_grads)

算法3 隱私損失累積函數代碼

def DPTrain(loss,params,batch_size,noise_options):

accountant=PrivacyAccountant()

sanitizer=Sanitizer()

dp_opt=DPSGD_Optimizer(accountant,sanitizer)

sgd_op=dp_opt.Minimize(

loss,params,batch_size,noise_options)

eps,delta=(0,0)

#在預定義的隱私損失限值內輸出訓練結果

while within_limit(eps,delta):

sgd_op.run()

eps,delta=accountant.GetSpentPrivacy()

多數情形下,神經網絡模型可通過基于主成分分析(principal component analysis,PCA)將輸入投影在主方向上或通過卷積層反饋的方式來提高訓練效率與訓練效果。同樣地,算例中也使用差分隱私+PCA的方案在公共數據上進行神經網絡卷積層的預訓練。

3.1.1數據清洗操作

為實現對樣本數據的隱私保護,數據清洗操作需要執行兩項操作:1) 通過裁剪每個樣本的梯度范數來限制樣本中每個數據對最終生成梯度的影響;2) 在更新神經網絡各層權重系數參數值之前,將隨機噪聲添加至批處理的梯度中。

3.1.2隱私損失累積函數的主成分分析操作

進行隱私損失累積操作的主要目的在于跟蹤計算每次訓練迭代過程中的隱私損失成本。如第2節所述,可以根據所加噪聲的分布參數進而確定每次疊加過程的隱私損失α(λ)。

此外,由于主成分分析(PCA)是捕獲輸入數據主要特征的有效方法。對于用于訓練神經網絡的隨機樣本,將其視為向量并進行L2范數歸一化處理,形成對稱矩陣(記為A),其中每個向量是矩陣A中的一行,并基于所提附加高斯噪聲的方法添加到協方差矩陣ATA,并計算噪聲協方差矩陣的主方向。最終將每個輸入的訓練樣本投影到主方向上作為神經網絡最終的輸入數據。

3.2 典型數據集驗證與結果分析

為驗證所提基于差分隱私的SGD算法的可行性與優異性,采用兩個流行的圖像數據集MNIST[17]和CIFAR-10數據集[18]對算法進行驗證。此外,采用文獻[19]所提無差分隱私的常規SGD算法作為對比算法。

3.2.1MNIST手寫數字識別

MNIST數據集為手寫數字識別數據集。首先將樣本分為包含60 000幅圖片的訓練樣本和包含10 000幅圖片的測試樣本。每幅樣本均為28×28的灰度圖像。神經網絡采用前饋架構并具有ReLU激活函數以及10類的Softmax分類器。

(1) 差分隱私基準實驗。選擇PCA投影層維度為60維,包含1層具有1 000個ReLU激活單元的隱含層,并將Lot樣本規模設置為600,設梯度剪切閾值為4。復雜的高斯噪聲強度分為三類:小強度噪聲(σ=2,σp=4),中等強度噪聲(σ=4,σp=7)和大強度噪聲(σ=8,σp=16)。其中:σ為訓練神經網絡時選擇的附加噪聲標準差;σp為PCA投影時的噪聲標準差。初始學習率設置為0.1,并在10個Epoch內線性地遞減至0.052并在今后的訓練過程中內保持不變(1個Epoch等于使用訓練集內樣本全部訓練一次)。

采用固定變量法進行驗證。首先令δ=10-5并保持不變,圖2為不同噪聲級別下神經網絡算法對手寫數字識別準確率隨著訓練次數以及差分隱私預算參數ε的變化情形。可以看出,訓練完成后的神經網絡在(0.5,10-5)-差分隱私、(2,10-5)-差分隱私和(8,10-5)-差分隱私水平下的準確率分別超過了90%、95%和97%,且訓練集和測試集的識別準確率結果相差不大。反之,采用非差分隱私的SGD算法進行訓練時,訓練集和測試集的準確率差距則存在過度擬合的現象,即隨著Epoch數量的增加,二者差距逐漸增大。此外,非差分隱私的SGD算法最終的測試準確度較所提算法雖然在大強度噪聲情況下較為接近,但在中等強度噪聲和低強度噪聲時則比本文算法分別低6.2%和9.7%,這進一步說明本文算法具有更好的辨識性能。

(a) 大強度噪聲

(b) 中等強度噪聲

(c) 低強度噪聲圖2 MNIST數據集辨識準確度隨噪聲變化的趨勢

(2) 相關參數對算法性能的影響。進一步研究所提差分隱私SGD算法中相關參數對算法性能的影響。算法參數包括PCA維度數量、隱含層激活單元的數量以及相關訓練參數(如Lot樣本規模、學習速率、梯度范數剪切閾值和噪聲強度等)。與差分隱私基準實驗類似,同樣通過固定變量方法研究上述參數對算法性能的影響,即在其余參數不變的情形下單獨研究某一參數對算法性能的動態影響。實驗過程的基準參數同樣采用3.1.2節中所述參數值。

PCA維度數量:圖3(a)為辨識準確度隨著PCA維度數量的變化趨勢。無PCA和隨機映射方法下準確率始終保持不變,而所提方法的辨識準確度隨著映射維度的變化而發生波動,但總體上的辨識準確率優于前述兩種方法。

隱含層激活單元的數量:圖3(b)為辨識準確度隨著隱含層激活單元數量的變化趨勢。可知,對于常規的非差分隱私SGD算法而言,只要選擇合理的手段來避免過度擬合,則準確率隨著激活單元數量的增多而逐漸提升。但對于所提差分隱私SGD算法,激活單元數量的增多并不能必然保證準確率的提升,這是因為增多的激活單元增加了對梯度靈敏度的影響,從而導致在梯度更新時需要添加額外的隨機噪聲。此外還可得到另一結論是,對于所提差分隱私SGD算法,并不需要通過一味地使用非常大的神經網絡也能得到令人滿意的算法性能。

學習率:圖3(d)為學習率對辨識準確度的影響。可見,當學習率維持在[0.01,0.07]且終值為0.05時,準確率保持穩定。若學習率過大,則準確度會顯著下降。

梯度范數剪切閾值:圖3(e)為梯度范式剪切閾值對辨識準確率的影響。當剪切閾值在[2,5]時辨識準確率基本保持穩定,而閾值超過5后,辨識準確率出現了明顯的下降。這是由于梯度范數剪切閾值的選取需要綜合考慮如下兩個因素:1) 若閾值取值過小,則最終以平均值代替真實梯度時可能造成誤差過大;2) 若閾值取值過大,則由算法1可知,將會導致最終根性的梯度中注入過多的噪聲。

噪聲強度:圖3(f)為附加高斯噪聲強度對最終辨識準確率的影響。當σ取[3,4]時辨識準確率達到最優,而超過這一范圍的σ,其辨識準確率出現了急劇的下降,這表明噪聲強度的選取對最終準確率有著至關重要的影響。

(a) 映射維度變化

(b) 隱藏單元變化

(c) Lot數量變化

(d) 學習率變化

(e) 梯度剪切范數變化

(f) 噪聲強度變化圖3 MNIST數據集辨識準確度隨參數變化趨勢

綜上,對于MNIST數據集驗證實驗,可得到如下結論:

1) PCA提高了模型精度和訓練性能。但PCA維度的選擇對最終的辨識準確度沒有明顯的影響。

2) 隱含層激活單元數量對最終的辨識精度沒有明顯的影響,對于一個復雜求解問題而言,應用本文方法可以通過運行較小的神經網絡來達到令人滿意的效果。

3) 學習率、Lot樣本規模和噪聲強度對深度神經網絡求解性能有著很大的影響。本文中僅通過人工經驗選取的方法來確定,后續可進一步通過研究自適應參數選擇方法來確定這類關鍵參數。

3.2.2CIFAR-10圖像分類

為進一步說明所提差分隱私SGD算法的通用性,使用CIFAR-10圖像數據集進行驗證。其中,數據集由10類包含人類、交通工具和動物組成,選擇50 000個樣本用作訓練而10 000個樣本用作測試。

算法采用TensorFlow中卷積神經網絡的示例網絡架構。算例使用兩級神經網絡,附加高斯噪聲參數σ=6,梯度范數剪切閾值選擇為3,Lot樣本規模選擇為2 000和4 000。圖4為分類準確度和隱私成本隨著訓練過程變化的趨勢。其中,(a)-(c)對應ε=2,4,6,而Lot樣本規模則分別為2 000、4 000和4 000。與2.2節類似,訓練樣本和測試樣本的準確率較為接近,分別約為67%、70%和73%。可見,本文方法對圖片分類較高的準確率,適用性強。

(a) 大強度噪聲

(b) 中等強度噪聲

(c) 低強度噪聲圖4 CIFAR-10數據集辨識準確度隨噪聲變化的影響

4 結 語

為保證深度神經網絡訓練過程中對訓練樣本數據的隱私信息的保護,本文提出一種基于差分隱私隨機梯度下降算法的深度學習網絡算法。MNIST手寫數字識別算例和CIFAR-10圖像分類實驗表明,本文算法的辨識準確度分別達到了90%和70%的同時,有效保護了數據的隱私性。結果表明,本文算法的適用范圍廣,并在辨識準確度以及數據隱私性方面取得了較好的折中平衡。未來將進一步研究對差分隱私-SGD算法參數的自適應選取策略以及辨識準確度,進一步提升策略。

主站蜘蛛池模板: 狂欢视频在线观看不卡| 老司机精品99在线播放| 精品福利国产| 精品一区二区三区四区五区| 国产97区一区二区三区无码| 青青操视频在线| 婷婷亚洲最大| 国产精品手机在线播放| 欧美精品在线视频观看| 精品午夜国产福利观看| 72种姿势欧美久久久久大黄蕉| 99精品免费在线| 国产精品亚洲天堂| 亚洲美女AV免费一区| 亚洲中文字幕av无码区| 亚洲自偷自拍另类小说| 99久久免费精品特色大片| 天堂va亚洲va欧美va国产| 日韩中文无码av超清| 亚洲人成人伊人成综合网无码| 99一级毛片| 无码AV高清毛片中国一级毛片| 亚洲午夜福利精品无码| 最新国语自产精品视频在| 在线免费不卡视频| 国产理论精品| 亚洲一区二区三区在线视频| 久青草网站| 一本大道无码日韩精品影视| 婷婷综合在线观看丁香| 欧美日韩综合网| jizz在线免费播放| 色天天综合久久久久综合片| 国产内射在线观看| 亚洲精品老司机| 国产原创自拍不卡第一页| 欧美成人国产| 国产a在视频线精品视频下载| 综合色在线| 中文字幕佐山爱一区二区免费| 日韩精品一区二区三区中文无码| www.狠狠| 欧美一级在线| 日韩国产一区二区三区无码| 就去色综合| 精品無碼一區在線觀看 | 亚洲免费人成影院| 青青久视频| 欧美另类第一页| 国产精品播放| 性欧美精品xxxx| 欧美三级日韩三级| 欧美一区二区福利视频| 亚洲国产成人在线| 色天堂无毒不卡| 国产99精品久久| 99尹人香蕉国产免费天天拍| 毛片在线播放a| 91精品国产自产在线老师啪l| 国产一二三区在线| 91精选国产大片| 国产SUV精品一区二区| 最近最新中文字幕在线第一页 | 欧美亚洲第一页| 四虎永久在线精品国产免费| 亚洲精品国产精品乱码不卞| 成人另类稀缺在线观看| 国产大片黄在线观看| 国产成人永久免费视频| 国产日韩AV高潮在线| 国产欧美日韩精品第二区| 干中文字幕| 国产精品视频白浆免费视频| 麻豆精选在线| 国产麻豆精品手机在线观看| 99精品在线看| 国产精品永久不卡免费视频| 五月天天天色| 亚洲伊人电影| 欧美综合区自拍亚洲综合绿色| 成年人免费国产视频| 免费又黄又爽又猛大片午夜|