卷積神經網絡中基于差分隱私的動量梯度下降算法

2024-01-09 03:59:56張宇蔡英崔劍陽張猛范艷芳

計算機應用 2023年12期

關鍵詞：模型

張宇，蔡英，崔劍陽，張猛，范艷芳

張宇，蔡英*，崔劍陽，張猛，范艷芳

（北京信息科技大學計算機學院，北京 100101）（?通信作者電子郵箱ycai@bistu.edu.cn）

針對卷積神經網絡（CNN）模型的訓練過程中，模型參數記憶數據部分特征導致的隱私泄露問題，提出一種CNN中基于差分隱私的動量梯度下降算法（DPGDM）。首先，在模型優化的反向傳播過程中對梯度添加滿足差分隱私的高斯噪聲，并用加噪后的梯度值參與模型參數的更新過程，從而實現對模型整體的差分隱私保護；其次，為了減少引入差分隱私噪聲對模型收斂速度的影響，設計學習率衰減策略，改進動量梯度下降算法；最后，為了降低噪聲對模型準確率的影響，在模型優化過程中動態地調整噪聲尺度的值，從而改變在每一輪迭代中需要對梯度加入的噪聲量。實驗結果表明，與DP-SGD （Differentially Private Stochastic Gradient Descent）相比，所提算法可以在隱私預算為0.3和0.5時，模型準確率分別提高約5和4個百分點。可見，所提算法提高了模型的可用性，并實現了對模型的隱私保護。

卷積神經網絡；差分隱私；動量梯度下降算法；深度學習；隱私保護

0 引言

卷積神經網絡（Convolutional Neural Network， CNN）［1］憑借自動提取特征、局部權值共享和準確率較高的優點受到了廣泛關注和研究，成功應用在圖像分類［2］、特征提取［3］和圖像檢索［4］等多個領域，為挖掘一些復雜數據的信息提供了解決方法。大量的數據被收集為數據集訓練CNN模型，然而這些數據中可能包含用戶的一些敏感信息，例如在腫瘤識別的醫學圖像中含有患者的隱私信息，若這些隱私信息在訓練模型的過程中被模型學習記憶，編碼為模型的參數，會導致隱私存在泄露的風險。目前已有研究表明，攻擊者可以通過竊取模型參數的手段，根據參數還原部分原始數據的特征，進一步推斷訓練數據集中的一些敏感信息［5］。

針對上述存在的隱私泄露問題，已有的解決方法可以分為數據加密、數據匿名和數據擾動這3種：數據加密主要通過同態加密［6］、安全多方計算［7］等加密算法保護原始數據，但是加密算法涉及大量運算，針對復雜問題的開銷較大，實際中難以部署；數據匿名常用的方法是-匿名算法［8］以及一些拓展模型，需要假設攻擊者的背景知識，這也使得數據匿名無法抵御不斷變化的攻擊方式，需要隨著攻擊方式的改變而更新；數據擾動主要應用差分隱私［9］實現對數據的保護，與數據加密和數據匿名相比，差分隱私擁有嚴格的數學證明過程，可以量化隱私保護水平，從而通過比較選取最優的解決方法，此外差分隱私開銷較小，同時假設攻擊者擁有盡可能多的背景知識，可以抵御背景知識攻擊［10-12］。因此，本文采用差分隱私技術提供CNN模型訓練過程中的隱私保護。

然而，將差分隱私技術應用于CNN模型時，由于在模型訓練過程中引入了噪聲，較大影響了模型的可用性，因此平衡隱私保護和模型可用性一直是該領域的一個重點研究問題。為了在使用優化算法優化模型的過程中實現差分隱私保護，同時降低噪聲對模型收斂和模型準確率的影響，提高模型的可用性，本文提出了一種CNN中基于差分隱私的動量梯度下降算法（Gradient Descent with Momentum algorithm based on Differential Privacy in CNN， DPGDM）。

本文的主要工作內容有：

1）設計學習率衰減策略結合動量梯度下降算法優化模型。利用指數加權平均計算參數更新所需的梯度值，保留更多的梯度信息，降低噪聲對模型收斂的影響，使模型能夠在減少震蕩的同時沿著正確的方向快速收斂。

2）在模型優化過程中，動態調整噪聲尺度的值控制對梯度加入噪聲量的大小，解決模型最終震蕩無法收斂和準確率較低的問題，為模型提供隱私保護的同時提高模型的可用性。

3）在真實數據集上進行了大量對比實驗，從準確率、隱私損失和參數設置等多方面進行了分析，充分驗證了本文算法能夠提高模型的可用性。

1 相關工作

深度學習領域中的隱私保護概念由Shokri等［13］首次引入，Shokri等［13］設計了一個系統使得多個參與者能夠針對相同的目標共同訓練神經網絡模型，且無須共享自己使用的全部訓練數據集，從而保護本地訓練數據集中的隱私信息。Abadi等［14］改進了Shokri等［13］的方案，首次將差分隱私應用于深度學習模型的訓練過程中并提出了DP-SGD（Differentially Private Stochastic Gradient Descent）算法。此后許多學者基于DP-SGD算法，研究如何應用差分隱私技術為深度學習模型提供隱私保護。

Yuan等［15］針對協作深度學習中共享本地CNN模型的參數導致的隱私泄露問題，提出對需要共享的參數上添加高斯噪聲的方法提供隱私保護；但是對所有共享參數添加的都是相同大小的高斯噪聲，對模型的準確率會產生較大的影響。Arachchige等［16］利用本地差分隱私技術，在CNN的結構中引入一個隨機層，通過隨機響應機制實現數據輸入階段的差分隱私保護。Gong等［17］根據模型輸出和不同特征之間的相關性對梯度加入不同大小的拉普拉斯噪聲；雖然對梯度加入拉普拉斯噪聲能夠滿足-差分隱私，可以提供更高的隱私保護水平，但是-差分隱私的定義要求非常嚴格，實際中難以滿足。在深度學習模型中，為了保持模型的可用性和高性能更常采用松弛差分隱私定義。Yu等［18］分析了訓練過程中每批次樣本數據的選取方式對DP-SGD算法中隱私損失的影響，將集中式差分隱私（Concentrated Differential Privacy， CDP）引入對DP-SGD算法的隱私損失度量中，更好地計算模型累積隱私損失。Ziller等［19］為了以高效的內存和并行的方式實現DP-SGD算法，設計了一個差分隱私深度學習框架，同時使得DP-SGD算法可以兼容多種神經網絡。Papernot等［20］針對DP-SGD算法在優化模型過程中可能存在梯度爆炸導致丟失過多梯度信息的問題，從激活函數的角度分析并提出了一種新的激活函數，保證在應用DP-SGD算法提供隱私保護的同時模型具有較高的準確率。

綜上，目前大部分應用于CNN模型中的差分隱私保護算法仍然基于DP-SGD算法，平衡模型的可用性和隱私保護水平依舊是一個關鍵性問題。模型的收斂和準確率與選擇的模型優化算法以及對模型加入的噪聲量有關，而目前與差分隱私技術結合的優化算法常選擇隨機梯度下降算法，但隨機梯度下降算法本身存在較大的局限性，在模型收斂過程中仍然存在著較大的震蕩，并且加入噪聲后會更影響梯度的下降方向。針對該問題，李敏等［21］和余方超等［22］提出將Adam（Adaptive moment estimation）優化算法與差分隱私理論相結合，利用Adam優化算法自適應的優點加快模型收斂，促使模型獲得一個較高的準確率。但是Adam算法中的二階動量并不是單調變化的，在模型訓練后期可能會導致學習率的震蕩，致使最終無法收斂，并且有研究發現Adam優化算法雖然可以加快模型收斂但是最終的收斂效果較差。

針對以上將差分隱私應用于CNN模型存在的不足，本文提出基于差分隱私的動量梯度下降算法。通過在優化模型的過程中改變噪聲尺度的值，對梯度加入不同大小的高斯噪聲，用加噪后的梯度進行參數更新為模型整體提供隱私保護，同時保證模型擁有一個較高的準確率。此外，動量梯度下降算法相較于隨機梯度下降算法，引入了“慣性”的概念，可以抑制隨機梯度下降算法的震蕩，結合學習率衰減策略可以降低噪聲對模型收斂的影響，也解決了直接用Adam自適應學習率優化算法出現后期難以調整前期過擬合效果的問題。

2 預備知識

2.1　差分隱私

差分隱私有詳細完整的數學證明過程，可以通過數學表達式對隱私保護水平進行量化表示，主要實現機制是對原始數據加入滿足特定分布的噪聲，且此后修改任何一條數據都不會對整體數據的統計結果產生較大的影響，從而實現對數據的隱私保護，相關定義如下。

局部敏感度的定義和全局敏感度的定義是相似的，全局敏感度是局部敏感度的最大值，同時會影響加入噪聲的大小。

定義3 高斯機制［18］。對任意一個函數加入滿足（，）-差分隱私的高斯噪聲，如式（3）所示：

2.2　CNN

CNN的結構可以按照傳統的分層結構分為3層：輸入層、隱藏層和輸出層［23］。

輸入層在應用CNN時一般會對輸入數據進行歸一化，以提升模型的學習效率使它擁有更好的表現。

隱藏層 CNN的隱藏層是核心部分，分為卷積層、池化層和全連接層這3部分：卷積層通過許多個卷積核對輸入的數據進行特征提取，自動提取特征降低了其他神經網絡需要人工提取特征的工作量，同時還具有權值共享的特點；池化層可以通過選取池化函數對卷積層輸出的特征圖進行進一步的特征選擇，保留更加重要的信息，能夠再次降低計算量；全連接層通過選用的激活函數對提取后的特征進行非線性組合，以獲得最后的輸出結果［24-25］。

輸出層與傳統的神經網絡的輸出層相同，輸出CNN模型的最終結果。

2.3　動量梯度下降算法

3 優化策略與算法

CNN模型對參數的變化非常敏感，如果在訓練好的模型參數上加入差分隱私噪聲會使得整個模型失去可用性；因此，需要在訓練的過程中對模型采用差分隱私機制。本文結合優化算法和差分隱私，通過在模型訓練過程中對梯度加入滿足差分隱私的高斯噪聲，用加噪后的梯度參與后續參數更新，間接實現對整個模型訓練過程的擾動。此外，為了降低噪聲對模型收斂和模型準確率的影響，提高模型的可用性，本文采用動量梯度下降算法優化模型，加強梯度之間的關聯，保留更多的梯度信息；同時設計學習率衰減策略和噪聲尺度動態調整策略，保證模型能夠減少震蕩并沿著正確方向快速收斂。

3.1　學習率衰減策略

動量梯度下降算法在整個模型參數優化過程中采用固定大小的學習率，學習率表示參數更新時移動的步長，過大或過小都會導致模型無法正常收斂或者收斂緩慢，因此本文考慮在應用動量梯度下降算法的同時不斷調整學習率的大小。

其中表示當前訓練處于的輪次數。

3.2　噪聲尺度動態調整策略

差分隱私最初的定義要求過于嚴格，本文采用差分隱私的松弛定義（，）-差分隱私，為了滿足該差分隱私定義通常選擇高斯噪聲機制。目前對參數梯度加入的噪聲量通常在整個訓練階段都保持不變，但是加入固定大小的噪聲對模型的訓練會產生較大的影響，因為在模型訓練后期，較大的噪聲會導致損失函數存在較多震蕩狀態而無法盡快收斂，最終獲得的模型預測準確率也偏低。

根據定義3可知，噪聲尺度實際決定每一次對梯度平均值加入噪聲的大小。因此，本文考慮隨著模型訓練輪次數的增加，逐漸減小噪聲尺度，則可以在后期加入較小的噪聲；但是為了提供隱私保護不能無限減小，因此需要設置一個最小值對噪聲尺度進行限制，具體實現過程如算法1所示。

算法1 動態調整噪聲尺度算法。

輸入噪聲尺度初始值0，最小值min，CNN模型的訓練輪次數的值；

輸出當前訓練階段的σ。

4） else

6） returnσ

3.3　差分隱私動量梯度下降算法描述

CNN模型的訓練主要是在反向傳播過程中，通過優化算法不斷更新模型參數，從而使模型收斂。目前模型的訓練主要采用基于梯度下降的優化算法最小化給定的損失函數，如果在梯度上加入噪聲，相當于間接對參數的更新過程進行了擾動，可以為模型整體提供隱私保護。

基于以上兩個優化策略和動量梯度下降算法，本文提出了DPGDM，具體實現如算法2所示。首先通過噪聲尺度動態調整策略計算該輪訓練需要加入的噪聲量，在訓練前后期對梯度加入不同大小的噪聲，解決因加入固定大小噪聲導致模型在快收斂時一直震蕩而無法收斂的問題；其次采用動量梯度下降算法優化模型參數，同時結合學習率衰減策略，應用指數加權平均估計每一次的梯度值，保留了更多的梯度信息，提高模型的準確率和收斂速度。

算法2主要分為五部分。

第一部分首先初始化參數，其次在每開始一輪新的訓練時，動態更新學習率和噪聲尺度的大小，在一輪訓練中的每次迭代中，學習率和噪聲尺度的大小都不會改變，如算法2中1）～ 4）所示。

第二部分需要從訓練數據集中隨機獲得批量樣本數據，根據給定的損失函數計算每一個樣本數據，求解對應的梯度值，如算法2中的5）～6）所示。

第三部分對求出的每一個樣本數據的梯度值進行裁剪，如果梯度值的二范數超出設定的閾值，梯度值的大小將被更新為閾值；如果在閾值范圍內，梯度值保留原有結果，如算法2中7）所示。

第四部分是根據當前噪聲尺度的值，對裁剪后的梯度加入滿足差分隱私定義的高斯噪聲，加入噪聲后的梯度平均值參與之后的參數更新過程，從而為模型整體提供隱私保護，如算法2中8）所示。

第五部分是依據動量梯度下降算法的執行過程，利用噪聲梯度平均值計算當前梯度值對應的動量值，根據當前動量更新參數，如算法2中9）～11）所示。

算法2 DPGDM算法。

2） for epoch in range （1，）：

//表示epoch當前的值，為模型訓練的輪次總數

5）隨機獲取批處理數據D，其中包含樣本數為

3.4　隱私性分析

DPGDM算法中針對每一次迭代過程中的梯度值都加入了滿足（，）-差分隱私定義的高斯噪聲，由于差分隱私具有后處理免疫［9］的性質，后續根據加噪后的梯度值計算動量也不會影響滿足差分隱私。

將差分隱私應用于CNN，由于對梯度值加入噪聲使得在模型訓練過程中的每一次迭代都會產生一部分隱私損失，因此需要在訓練過程中一直追蹤DPGDM算法產生的隱私損失的累積結果。其中，隱私損失并不是一個具體的數值，而是一個隨機變量，具體的含義如定義4所示。

Abadi等［14］提出的矩會計方法可以計算模型整體的累計隱私損失，矩會計方法的思想就是將總的隱私損失看成每一次迭代產生的隱私損失的加和分布，該方法的計算最終可以和Rényi差分隱私［26-28］進行直接聯系，并且Rényi差分隱私在計算隱私損失時具有更強的優越性，因此本文將結合它計算在訓練過程中DPGDM算法產生的累積隱私損失，利用Rényi差分隱私確定矩會計方法中的階的值。

根據矩會計方法，假設采用DPGDM算法優化CNN模型的訓練機制表示為，時刻在相鄰數據庫1和2上模型的隱私損失可以表示如下：

假設模型訓練輪次為，由于每一輪的訓練都是獨立的，根據差分隱私的組合定理［9］可知模型整體的隱私損失變量可以表示為每一時刻隱私損失變量的求和，如式（9）所示：

4 實驗與結果分析

4.1　數據集和實驗設置

本文實驗過程中用到的數據集為MNIST［14］、Fashion-MNIST［29］和CIFAR-10［14］這3個公開的真實數據集。MNIST數據集由美國國家標準與技術研究所收集，包含了250個不同的人對數字0～9的手寫體灰度圖像，其中圖像大小為28×28，分為6萬張訓練數據，1萬張測試數據。Fashion-MNIST數據集由德國一家時尚公司提供的包含10個類別的灰色衣服圖像組成，共有7萬張圖片，分為6萬張訓練數據，1萬張測試數據。CIFAR-10是一個彩色圖像數據集，分為10個類別的物體，其中圖像大小為32×32，包含了5萬張訓練數據，1萬張測試數據。

實驗采用的CNN結構根據數據集的不同有所變動。針對MNIST數據集和Fashion-MNIST數據集，網絡的輸入為28×28的原始灰度圖像，之后經過第1個卷積層，該層使用16個8×8的卷積核，再連接一個池化層，采用的池化函數為求最大值的函數，卷積核大小為2×2；然后連接第2個卷積層，該層使用32個4×4的卷積核，每1個卷積層之后都連接1個池化層，便于對卷積層提取的特征進行再次選擇，因此第2個卷積層之后也連接了1個卷積核為2×2的最大池化層。接著有2個全連接層，網絡中使用的激活函數為ReLU（Rectified Linear Unit）函數，最后通過softmax函數輸出分類結果。針對CIFAR-10數據集，CNN的結構共有3個卷積層，每一個卷積層都使用5×5的卷積核，卷積層之后連接最大池化層，池化層采用2×2的卷積核。之后的網絡結構分為扁平層和2個全連接層這3個部分，網絡中采用的激活函數仍為ReLU函數，分類結果應用softmax函數輸出。

實驗中在3個數據集上所采用的參數設置如表1所示。

表1　實驗參數

4.2　實驗結果分析

在實驗中將DPGDM在多個數據集上進行了多組實驗，并與其他多種算法進行對比，通過觀察模型的預測準確率和隱私保護水平評估算法的優劣，此外還設置不同大小的參數，觀察參數取值對模型產生的影響。

4.2.1MNIST數據集

在MNIST數據集上將DPGDM與DP-SGD算法［14］、DP-Adam算法［21］和DPADAM（ADAptive Moment estimation with Differential Privacy）算法［22］進行對比，為了查看各算法在提供差分隱私保護時對模型準確率造成的損失情況，同時與在沒有隱私保護下訓練模型（NO-PRIVACY）的準確率進行了對比，如圖1所示。

圖1　不同算法在MNIST數據集上的準確率對比

由圖1可知，DPGDM算法訓練模型的效果優于其他對比算法，經過100輪訓練后可以達到97.64%的準確率，比其他差分隱私保護算法的準確率高2～4個百分點。在沒有隱私保護情況下訓練模型的準確率可以達到99.11%，相較于有隱私保護的DPGDM算法、DP-SGD算法、DP-Adam算法［21］和DPADAM算法［22］準確率分別降低了1.47%、4.57%、4.11%和3.51%。實驗結果表明，DPGDM可以在提供差分隱私保護的前提下保證模型仍然擁有一個較高的準確率。

圖2給出了DPGDM、DP-SGD算法和DP-Adam算法在不同隱私預算值下，對MNIST數據集進行訓練后的模型準確率。由圖2可知，在不同的隱私預算值下，DPGDM的模型準確率始終處于一個較高水平。隱私預算的值越小說明可以提供的隱私保護水平越高。從圖2中可以看到，當隱私預算較小時，例如取值為0.3，采用DPGDM的準確率高于采用DP-SGD算法約5個百分點，準確率能夠達到89.32%；當取值為0.5時，采用DPGDM的準確率可以達到92.92%，相較于DP-SGD算法提高了約4個百分點。說明DPGDM在為模型整體提供更高隱私保護水平的前提下，能夠保證模型仍然擁有較好的性能。

圖3給出了DPGDM、DP-SGD算法和DPADAM算法在設置不同噪聲尺度初始值時，針對MNIST數據集訓練50輪次后的模型準確率。噪聲尺度直接影響了在每一輪訓練過程中對梯度加入高斯噪聲的大小。從圖3中可以看到，隨著噪聲尺度的增加，對模型引入的噪聲量變多，所有算法的模型準確率整體呈下降趨勢，但是采用DPGDM算法的模型準確率下降緩慢，且依舊可以維持一個較高的準確率。這是因為DPGDM算法隨著模型的訓練會衰減加入模型的噪聲量，而其他兩種算法在優化模型的過程中始終對梯度加入固定大小的噪聲。

圖3　不同噪聲尺度下不同算法的模型準確率對比

圖2　不同隱私預算下不同算法在MNIST數據集上的準確率對比

學習率的取值對模型最終訓練的效果會產生較大的影響，過大過小都會使得模型收斂較慢，不能在較少的訓練輪次數中達到一個較高的準確率。圖4給出了當設置不同大小的學習率初始值時，DPGDM算法在MNIST數據集上訓練50輪次后的模型準確率，可以看到當學習率初始值為0.04時，模型的訓練效果較好，因此在MNIST數據集上的實驗過程中，學習率的初始值設置為0.04。

圖4　不同學習率下的模型準確率對比

4.2.2Fashion-MNIST數據集

在Fashion-MNIST數據集上將DPGDM與DP-SGD算法和基于PSO的差分隱私算法（Differential Privacy algorithm based on PSO， DP-PSO）［29］進行對比，如表2所示。

由表2可知，DPGDM算法在準確率上優于對比算法，與未使用隱私保護的模型訓練結果相比，損失的準確率也最低。實驗結果進一步說明了本文提出的DPGDM算法可以更好地提升模型可用性。

表2不同算法在Fashion-MNIST數據集上的準確率對比單位：%

Tab.2　Accuracy comparison of different algorithms on Fashion-MNIST dataset unit：%

為了更好地驗證本文算法的適用性，在不同的隱私預算下，給出了幾種算法在Fashion-MNIST數據集上訓練模型的準確率結果，如圖5所示。

由圖5可知，與其他算法相比，DPGDM在隱私預算取值為4、6、8、10時，都能夠較好地收斂，并獲得較高的模型準確率。在隱私預算設置為10時，DPGDM算法最終的收斂效果遠領先于其他兩種算法，比DP-SGD算法和DP-PSO算法的準確率分別高出了7個和2個百分點，并且隨著隱私預算的降低，DPGDM的準確率受到的影響較小。

圖5　不同隱私預算下不同算法在 Fashion-MNIST數據集上的模型準確率對比

4.2.3CIFAR-10數據集

為了進一步地驗證DPGDM的普適性，在更為復雜的CIFAR-10數據集上將DPGDM算法與DP-SGD算法和文獻［20］所提的改進激活函數提升模型性能的方法進行了對比，如表3所示。由表3可知，DPGDM算法損失的準確率與其他算法相比最低，說明DPGDM算法可以在提供差分隱私保護的前提下提高模型的可用性。

表3　不同算法在CIFAR-10數據集上的準確率對比單位：%

在實驗過程中發現，當一些超參數的初始值設置不合理時，DP-SGD算法的性能會受到較大的影響，而DPGDM算法受到的影響較小，依舊能夠穩定收斂，如圖6、7所示。

圖6給出了當參數初始值設置不合理情況下，DPGDM算法和DP-SGD算法在CIFAR-10數據集上優化模型的準確率結果，圖7給出了訓練過程中損失函數的變化情況。DP-SGD算法在該參數設置下，由于初始設定的不合理的學習率和噪聲尺度值在訓練過程中一直保持不變，損失函數在訓練中后期出現波動，模型最終無法正常收斂；而DPGDM算法在訓練期間會不斷調整學習率和噪聲尺度的值，損失函數雖然出現小幅波動但整體呈下降趨勢，最終在300輪訓練后達到了69.90%的準確率。

圖6　CIFAR-10數據集上的模型準確率對比

圖7　CIFAR-10數據集上的損失函數變化情況

5 結語

本文提出了一種CNN中基于差分隱私的動量梯度下降算法（DPGDM）。用指數加權平均方法計算梯度，從而保留梯度更多的信息；同時在模型訓練過程中動態調整學習率的大小，改變噪聲尺度的值，使得在訓練的前后期對梯度加入不同水平的高斯噪聲，保證模型能夠減少震蕩的同時沿著正確的方向快速收斂，降低噪聲對模型準確率的影響。實驗結果表明DPGDM可以更好地平衡差分隱私保護和模型可用性之間的關系。由于梯度裁剪閾值的選擇會影響梯度的裁剪過程和差分隱私中的靈敏度大小，未來會繼續研究對梯度進行分類，對不同類別的梯度分組進行裁剪和加入噪聲。

[1] ALZUBAIDI L， ZHANG J， HUMAIDI A J， et al. Review of deep learning： concepts， CNN architectures， challenges， applications， future directions［J］. Journal of Big Data， 2021， 8： Article No. 53.

[2] SUN Y， XUE B， ZHANG M， et al. Automatically designing CNN architectures using the genetic algorithm for image classification［J］. IEEE Transactions on Cybernetics， 2020， 50（9）： 3840-3854.

[3] 季長清，高志勇，秦靜，等.基于卷積神經網絡的圖像分類算法綜述［J］.計算機應用，2022，42（4）：1044-1049.（JI C Q， GAO Z Y， QIN J， et al. Review of image classification algorithms based on convolutional neural network［J］. Journal of Computer Applications， 2022，42（4）：1044-1049.）

[4] HUSAIN S S， BOBER M. REMAP： multi-layer entropy-guided pooling of dense CNN features for image retrieval［J］. IEEE Transactions on Image Processing， 2019， 28（10）： 5201-5213.

[5] FREDRIKSON M， JHA S， RISTENPART T. Model inversion attacks that exploit confidence information and basic countermeasures［C］// Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York： ACM， 2015： 1322-1333.

[6] HERNANDEZ MARCANO N J， MOLLER M， HANSEN S， et al. On fully homomorphic encryption for privacy-preserving deep learning ［C］// Proceedings of the 2019 IEEE Globecom Workshops. Piscataway： IEEE， 2019： 1-6.

[7] TRAN A-T， LUONG T-D， KARNJANA J， et al. An efficient approach for privacy preserving decentralized deep learning models based on secure multi-party computation［J］. Neurocomputing， 2021， 422： 245-262.

[8] MEDEN B， EMER?I? ?， ?TRUC V， et al.-Same-Net：-anonymity with generative deep neural networks for face deidentification ［J］. Entropy， 2018， 20（1）： 60.

[9] DWORK C. Differential privacy［C］// Proceedings of the 33rd International Colloquium on Automata， Languages and Programming. Berlin： Springer， 2006： 1-12.

[10] CAI Y， ZHANG Y， QU J， et al. Differential privacy preserving dynamic data release scheme based on Jensen-Shannon divergence［J］. China Communications， 2022，19（6）：11-21.

[11] 屈晶晶，蔡英，范艷芳，等. 基于-prototype聚類的差分隱私混合數據發布算法［J］. 計算機科學與探索， 2021， 15（1）：109-118.（QU J J， CAI Y， FAN Y F， et al. Differentially private mixed data release algorithm based on-prototype clustering［J］. Journal of Frontiers of Computer Science and Technology， 2021，15（1）：109-118.）

[12] ZHANG Y， CAI Y， ZHANG M， et al. A survey on privacy-preserving deep learning with differential privacy ［C］// Proceedings of the 2021 International Conference on Big Data and Security. Singapore： Springer， 2022： 18-30.

[13] SHOKRI R， SHMATIKOV V. Privacy-preserving deep learning ［C］// Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York： ACM， 2015： 1310-1321.

[14] ABADI M，CHU A， GOODFELLOW I， et al. Deep learning with differential privacy［C］// Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. New York： ACM， 2016： 308-318.

[15] YUAN D， ZHU X， WEI M， et al. Collaborative deep learning for medical image analysis with differential privacy ［C］// Proceedings of the 2019 IEEE Global Communications Conference. Piscataway： IEEE， 2019： 1-6.

[16] ARACHCHIGE P C M， BERTOK P， KHALIL I， et al. Local differential privacy for deep learning ［J］. IEEE Internet of Things Journal， 2019， 7（7）： 5827-5842.

[17] GONG M， PAN K， XIE Y， et al. Preserving differential privacy in deep neural networks with relevance-based adaptive noise imposition［J］. Neural Networks， 2020， 125： 131-141.

[18] YU L， LIU L， PU C， et al. Differentially private model publishing for deep learning ［C］// Proceedings of the 2019 IEEE Symposium on Security and Privacy. Piscataway： IEEE， 2019： 332-349.

[19] ZILLER A， USYNIN D， BRAREN R， et al. Medical imaging deep learning with differential privacy［J］. Scientific Reports， 2021， 11： Article No. 13524.

[20] PAPERNOT N， THAKURTA A， SONG S， et al. Tempered sigmoid activations for deep learning with differential privacy［J］. Proceedings of the AAAI Conference on Artificial Intelligence， 2021， 35（10）： 9312-9321.

[21] 李敏，李紅嬌，陳杰.差分隱私保護下的Adam優化算法研究［J］.計算機應用與軟件，2020，37（6）：253-258，296.（LI M， LI H J， CHEN J. Adam optimization algorithm based on differential privacy protection［J］. Computer Applications and Software， 2020，37（6）：253-258，296.）

[22] 余方超，方賢進，張又文，等.增強深度學習中的差分隱私防御機制［J］.南京大學學報（自然科學），2021，57（1）：10-20.（YU F C， FANG X J， ZHANG Y W， et al. Enhanced differential privacy defense mechanism in deep learning［J］. Journal of Nanjing University （Natural Science）， 2021，57（1）：10-20.）

[23] YAMASHITA R， NISHIO M， DO R K G， et al. Convolutional neural networks： an overview and application in radiology［J］. Insights into Imaging， 2018， 9（4）： 611-629.

[24] KATTENBORN T， LEITLOFF J， SCHIEFER F， et al. Review on Convolutional Neural Networks （CNN） in vegetation remote sensing［J］. ISPRS Journal of Photogrammetry and Remote Sensing， 2021， 173： 24-49.

[25] KIRANYAZ S， AVCI O， ABDELJABER O， et al. 1D convolutional neural networks and applications： a survey［J］. Mechanical Systems and Signal Processing， 2021， 151： 107398.

[26] MIRONOV I. Rényi differential privacy［C］// Proceedings of the 2017 IEEE 30th Computer Security Foundations Symposium. Piscataway： IEEE， 2017： 263-275.

[27] 譚作文，張連福.機器學習隱私保護研究綜述［J］.軟件學報，2020，31（7）：2127-2156.（TAN Z W， ZHANG L F. Survey on privacy preserving techniques for machine learning ［J］. Journal of Software， 2020，31（7）：2127-2156.）

[28] YOUSEFPOUR A， SHILOV I， SABLAYROLLES A， et al. Opacus： user-friendly differential privacy library in PyTorch ［EB/OL］. ［2022-08-22］.https：//arxiv.org/pdf/2109.12298.pdf.

[29] 張攀峰，吳丹華，董明剛. 基于粒子群優化的差分隱私深度學習模型［J］. 計算機工程， 2023，49（9）： 144-157.（ZHANG P F， WU D H， DONG M G. Differential privacy deep learning model based on particle swarm optimization ［J］. Computer Engineering， 2023，49（9）： 144-157.）

Gradient descent with momentum algorithm based on differential privacy in convolutional neural network

ZHANG Yu， CAI Ying*， CUI Jianyang， ZHANG Meng， FAN Yanfang

（，，100101，）

To address the privacy leakage problem caused by the model parameters memorizing some features of the data during the training process of the Convolutional Neural Network （CNN） models， a Gradient Descent with Momentum algorithm based on Differential Privacy in CNN （DPGDM） was proposed. Firstly， the Gaussian noise meeting differential privacy was added to the gradient in the backpropagation process of model optimization， and the noise-added gradient value was used to participate in the model parameter update process， so as to achieve differential privacy protection for the overall model. Secondly， to reduce the impact of the introduction of differential privacy noise on convergence speed of the model，a learning rate decay strategy was designed and then the gradient descent with momentum algorithm was improved. Finally， to reduce the influence of noise on the accuracy of the model， the value of the noise scale was adjusted dynamically during model optimization， thereby changing the amount of noise that needs to be added to the gradient in each round of iteration. Experimental results show that compared with DP-SGD （Differentially Private Stochastic Gradient Descent） algorithm， the proposed algorithm can improve the accuracy of the model by about 5 and 4 percentage points at privacy budget of 0.3 and 0.5， respectively， proving that by using the proposed algorithm， the model usability is improved and privacy protection of the model is achieved.

Convolutional Neural Network (CNN); differential privacy; gradient descent with momentum algorithm; deep learning; privacy protection

This work is partially supported by Natural Science Foundation of Beijing-Haidian Original Innovation Joint Fund （L192023）.

ZHANG Yu， born in 1997， M. S. candidate. Her research interests include deep learning， differential privacy.

CAI Ying， born in 1966， Ph. D， professor. Her research interests include internet of vehicles， edge computing， privacy protection， computer security.

CUI Jianyang， born in 1996， M. S. candidate. His research interests include vehicular ad hoc network， privacy protection.

ZHANG Meng，born in 1996， M. S. candidate. His research interests include image retrieval， privacy protection.

FAN Yanfang， born in 1979， Ph. D， associate professor. Her research interests include information security， internet of vehicles， edge computing.

TP309

1001-9081（2023）12-3647-07

10.11772/j.issn.1001-9081.2022121881

2022?12?26；

2023?03?19；

2023?03?24。

北京市自然科學基金-海淀原始創新聯合基金資助項目（L192023）。

張宇（1997—），女，河北石家莊人，碩士研究生，主要研究方向：深度學習、差分隱私；蔡英（1966—），女，四川綿陽人，教授，博士，CCF會員，主要研究方向：車聯網、邊緣計算、隱私保護、計算機安全；崔劍陽（1996—），男（滿族），河北承德人，碩士研究生，主要研究方向：車載自組織網絡、隱私保護；張猛（1996—），男，河北定州人，碩士研究生，主要研究方向：圖像檢索、隱私保護；范艷芳（1979—），女，山西運城人，副教授，博士，主要研究方向：信息安全、車聯網、邊緣計算。

卷積神經網絡中基于差分隱私的動量梯度下降算法

0 引言

1 相關工作

2 預備知識

2.1 差分隱私

2.2 CNN

2.3 動量梯度下降算法

3 優化策略與算法

3.1 學習率衰減策略

3.2 噪聲尺度動態調整策略

3.3 差分隱私動量梯度下降算法描述

3.4 隱私性分析

4 實驗與結果分析

4.1 數據集和實驗設置

4.2 實驗結果分析

5 結語

2.1　差分隱私

2.2　CNN

2.3　動量梯度下降算法

3.1　學習率衰減策略

3.2　噪聲尺度動態調整策略

3.3　差分隱私動量梯度下降算法描述

3.4　隱私性分析

4.1　數據集和實驗設置

4.2　實驗結果分析