張新君 程雨晴
摘 要:
神經網絡模型容易受到對抗樣本攻擊。針對當前防御方法側重改進模型結構或模型僅使用對抗訓練方法導致防御類型單一且損害模型分類能力、效率低下的問題,提出結合對抗訓練和特征混合訓練孿生神經網絡模型(SS-ResNet18)的方法。該方法通過線性插值混合訓練集樣本數據,使用殘差注意力模塊搭建孿生網絡模型,將PGD對抗樣本和正常樣本輸入不同分支網絡進行訓練。在特征空間互換相鄰樣本部分輸入特征以增強網絡抗干擾能力,結合對抗損失和分類損失作為網絡整體損失函數并對其進行標簽平滑。在CIFAR-10和SVHN數據集上進行實驗,該方法在白盒攻擊下表現出優異的防御性能,黑盒攻擊下模型對PGD、JSMA等對抗樣本的防御成功率均在80%以上;同時,SS-ResNet18模型時間花銷僅為子空間對抗訓練方法的二分之一。實驗結果表明,SS-ResNet18模型能防御多種對抗樣本攻擊,與現有防御方法相比,其魯棒性強且訓練耗時較短。
關鍵詞:孿生神經網絡;圖像分類;對抗樣本;對抗訓練;注意力機制;特征混合
中圖分類號:TP391?? 文獻標志碼:A??? 文章編號:1001-3695(2024)03-039-0905-06doi: 10.19734/j.issn.1001-3695.2023.07.0318
Combining adversarial training and feature mixing for siamese network defense models
Zhang Xinjun, Cheng Yuqing
(School of Electronic & Information Engineering, Liaoning Technical University, Huludao Liaoning 125105, China)
Abstract:
Neural network models are vulnerable to adversarial sample attacks. Aiming at the problem that current defense methods focus on improving the model structure or the model only uses the adversarial training method which leads to a single type of defense and impairs the models classification ability and inefficiency, this paper proposed the method of combining the adversarial training and the feature mixture to train the siamese neural network model (SS-ResNet18). The method mixed the training set sample data by linear interpolation, built a siamese network model using the residual attention module, and inputted PGD antagonistic samples and normal samples into different branches of the network for training. It interchanged the input features in the feature space between neighboring sample parts to enhance the networks immunity to interference, combining the adversarial loss and the classification loss as the overall loss function of the network and smoothing it with labels. Experimented on CIFAR-10 and SVHN datasets, the method shows excellent defense performance under white-box attack, and the success rate of the models defense against anta-gonistic samples, such as PGD, JSMA, etc., under black-box attack is more than 80%. At the same time, the SS-ResNet18 model time spent is only one-half of the one-half of the subspace antagonistic training method. The experimental results show that the SS-ResNet18 model can defend against a variety of adversarial sample attacks, and is robust and less time-consuming to train compared to existing defense methods. Key words:siamese neural network; image classification; adversarial examples; adversarial train; attention mechanism; feature blending
0 引言
深度神經網絡在自動駕駛汽車[1]、自然語言處理[2]和圖像識別[3]等方面獲得大量關注并展現出巨大潛力,隨著深度神經網絡在重要領域的應用越來越深入,深度學習模型的安全問題逐漸受到重視。2014年,Szegedy等人[4]提出對抗樣本的概念,對抗樣本是指在原始樣本添加微小的擾動,導致神經網絡模型預測出錯。雖然人眼無法察覺所添加的較小擾動,但這給深度學習的實際應用帶來很大危害。例如,對交通標志圖片添加對抗擾動[5],會使自動駕駛汽車將停車標志識別為限速,導致安全事故。因此,對抗樣本防御方法的研究具有現實意義。
利用神經網絡這一漏洞,許多對抗攻擊算法被提出。Szegedy等人提出的擬牛頓攻擊算法通過在輸入的約束空間中找到一個不可察覺的最小輸入擾動,成功攻擊了當時最先進的圖片分類模型AlexNet和QuocNet。Goodfellow等人[6]提出了快速梯度符號方法(fast gradient sign method,FGSM),利用神經網絡的梯度求解擾動,優點是易于實現但攻擊能力較弱。Kurakin等人[7]對FGSM攻擊算法進行改進,提出基礎迭代攻擊算法(basic iterative method,BIM),它是FGSM多次迭代的攻擊版本,利用損失函數的梯度多次更新對抗樣本達到更強攻擊效果。Madry等人[8]提出投影梯度下降攻擊(project gradient descent,PGD),該攻擊算法被用來作為測試模型防御性能好壞的基準攻擊算法。
對抗攻擊算法的發展威脅著神經網絡模型的安全,因此提升分類神經網絡模型防御對抗攻擊的能力尤為重要。大部分防御方法已被文獻[9]證明防御能力有限,同時證明了對抗訓練是目前最為有效的防御方法之一。優化防御模型結構的防御方法如防御蒸餾[10]、對抗樣本檢測[11]和基于生成對抗網絡的防御[12] 方法在面對某一類攻擊樣本時能達到很好的防御效果,一旦模型結構被攻擊者已知,就失去了防御能力。對抗訓練方法需要好的訓練策略和更強的對抗樣本,通常會使訓練時間比標準訓練增加一個或多個數量級,且容易發生災難性過擬合故障[13]。其他防御方法通過處理輸入數據[14~16]進行防御,模型整體防御性能提升不大。
本文提出一種融合殘差注意力機制和孿生神經網絡結構的對抗訓練方法(SS-ResNet18 AT),通過無參注意力[17]機制中的能量函數增加重要神經元的權重占比,幫助網絡學習圖像底層特征,增強網絡穩健性。首先,目標網絡模型使用PGD算法生成對抗樣本,再通過混合[18]和硬修補[19]策略混合樣本特征,訓練防御模型得到最優參數。實驗結果證明,本文模型在防御對抗樣本成功率方面較其他方法表現更好。
1 相關工作
1.1 威脅模型
對抗樣本具有隱蔽性同時兼具攻擊性的特點,決定了對抗樣本生成方法必須添加一定的限制,不是使用任意圖像替換給出的輸入圖像進行攻擊就屬于對抗攻擊,這違背了對抗樣本的定義。為此,將針對攻擊目標網絡生成對應對抗樣本的模型定義為威脅模型。通過威脅模型生成對抗樣本在現實世界進行應用會帶來極大的安全隱患,例如,在非停車路段模擬停車標識使用自動駕駛汽車識別網絡進行實驗,自動駕駛汽車無法規避該問題。
威脅模型的設計對于防御對抗樣本的研究極其重要,了解攻擊原理才能更好地進行防御,針對對抗樣本攻擊的目標可以分為有目標攻擊和無目標攻擊。有目標攻擊是將輸入樣本分類為給定的錯誤類,給定f(·)為分類器,輸入樣本x和預分類目標t, f(x)≠t,通過威脅模型尋找對抗樣本x′,使得f(x′)=t且‖x-x′‖p≤δ(p=0,2,∞),δ為添加的對抗擾動,p表示對擾動添加的約束類型。無目標攻擊是指將樣本分類為任意一個非正確類,若f(x)=y,尋找一個對抗樣本使f(x′)≠y。
根據攻擊方式,將對抗攻擊類型進行分類,可分為白盒攻擊、灰盒攻擊和黑盒攻擊。白盒攻擊是已知模型所有參數信息,所以攻擊成功率更高,常見的白盒攻擊算法有PGD、FGSM和Deep Fool[20]等。黑盒攻擊是攻擊者無法獲得目標網絡的信息,僅能獲得目標網絡的輸出,攻擊者利用對抗樣本的遷移性進行攻擊。灰盒攻擊則介于兩者之間。
1.2 孿生神經網絡與殘差神經網絡
孿生神經網絡[21]由結構相同、權值共享的兩個子網絡組成。兩個子網絡各自接收一個輸入,將其映射至高維特征空間,并輸出對應的表征,輸出作為孿生網絡損失函數的輸入。孿生網絡子網絡可以是卷積神經網絡或循環神經網絡,其權重由能量函數或分類損失優化。孿生網絡一般用來評價兩個輸入的相似度或進行小樣本學習,也有學者使用孿生網絡進行圖像分類等。
殘差神經網絡于2015年提出,在大數據集的分類任務上表現優秀,解決了隨著網絡深度不斷增加,出現梯度爆炸或梯度消失的問題。殘差網絡主要是由一系列殘差模塊組成,每個殘差模塊內部都加入了跳躍連接。以ResNet18為例,共有四個殘差單元,每個殘差單元包含兩個殘差塊,殘差模塊內部主要使用的卷積大小為1×1和3×3。針對殘差網絡的改進,主要分為加深網絡深度和增加網絡寬度兩方面,隨之而來的問題是網絡復雜度上升,使用小樣本訓練網絡時容易過擬合。圖1顯示了孿生網絡基礎結構和經典殘差塊結構。
1.3 對抗訓練
對抗訓練防御方法占據主流的理論是Madry等人從博弈的角度出發,在經驗風險最小化的原理基礎上,提出了對抗魯棒性的優化觀點。其中,將模型的優化問題定義為求解鞍點的優化問題,即最大—最小問題,為后續對抗訓練防御方法的研究提供了理論基礎。其求解公式如式(1)所示。
minθ ρ(θ),where ρ(θ)=E(x,y)~D[maxδ∈S L(θ,x+δ,y)](1)
其中:L(θ,x+δ,y)為損失函數;x為原始樣本;y為原始樣本的標簽;δ為擾動信息;S為擾動信息的集合;D為數據(x,y)滿足的分布;θ為深度神經網絡的參數。此公式求解可理解為在內部找到對抗樣本使損失最大,然后優化模型參數使其外部經驗風險最小。
目前許多對抗訓練方法不斷改進,Goodfelllow等人使用目標網絡生成FGSM對抗樣本加入訓練集去訓練神經網絡模型,證明了對抗訓練能提高深度學習分類模型對對抗樣本的魯棒性,提高了模型對對抗樣本的分類精度。但很快,BIM攻擊通過采取多個更小的FGSM步驟改進了FGSM,最終使基于FGSM對抗樣本訓練的網絡模型被擊破。這種迭代的對抗攻擊通過添加多次隨機重啟而得到進一步加強,并且使用該算法生成的對抗樣本也被納入對抗訓練過程。
從Madry等人僅使用PGD算法生成的對抗樣本訓練網絡模型到Zhang等人[22]提出TRADES方法,使用原始樣本共同訓練模型可以增加模型的準確率。自由對抗訓練(Free AT)[23]方法在PGD對抗訓練的基礎上改進了梯度更新步驟,縮短了訓練時間,但防御性能方面沒有較大提升。快速對抗訓練方法(Fast AT)[24]是在FGSM對抗訓練方法基礎上引入隨機化,比自由對抗訓練用時更短,但模型防御對抗樣本攻擊的成功率沒有提升。還有利用各種技術增強對抗訓練防御能力,如邏輯配對[25]、循環學習率[26]等。
2 本文方法
現有的對抗樣本圖像防御方法往往只側重于提高對抗樣本的魯棒性,或者側重于構建額外的模型檢測對抗樣本,而無法兼顧兩者。為此,提出了結合對抗訓練和特征混合訓練孿生神經網絡模型(SS-ResNet18),本文網絡基礎架構為加入注意力層的ResNet18,ResNet的殘差結構能有效緩解梯度消失問題,且ResNet18相較于ResNet50和DenseNet,網絡參數量更少,網絡訓練更易收斂,在達到較好防御性能的同時有效降低了網絡計算復雜度。
訓練網絡時采用的MixUp方法不是從數據集中隨機選取兩個數據樣本,而是從同一訓練批次中抽取訓練樣本進行線性插值。然后,將對抗樣本與原始樣本分別輸入孿生網絡的子網絡中,注意力層幫助網絡更好地學習樣本間的關聯,硬修補融合相鄰樣本特征,減少對抗擾動對模型的干擾,從而提高網絡穩定性和防御對抗樣本的能力。圖2為本文方法防御總體框架。
2.1 輸入樣本處理
混合(MixUp)是一種數據增廣策略,以線性插值的方式來構建新的訓練樣本和標簽。MixUp對標簽空間進行了軟化,通過模型輸入與標簽構建具有凸性質的運算,構造新的訓練樣本與對應的標簽。與其他插值方法相比,線性插值能將任意層的特征以及對應的標簽進行混合,提高模型的泛化能力和魯棒性。
MixUp的過程是從訓練數據中隨機抽取兩個特征目標向量(xi,yi)及(xj,yj),(,)為插值后的樣本和對應標簽,參數λ∈Beta(α,α)控制插值的強度,設置參數λ∈[0,1],α∈[0,∞],線性插值公式如式(2)所示。
=λxi+(1-λ)xj
=λyi+(1-λ)yj (2)
以CIFAR-10數據集為例,隨機抽取500個數據樣本進行可視化,直觀顯示MixUp操作前后的數據分布變化,右上角為數據標簽信息。從圖3中可觀察到進行MixUp操作后,對比正常樣本和對抗樣本的數據分布,混合樣本后能減輕噪聲圖像對網絡訓練過程的影響,增強模型的泛化能力。
硬修補(Hard PatchUp)方法最初提出目的是為了提高卷積神經網絡模型對流形入侵問題的魯棒性,即緩解對抗樣本改變原始樣本的數據分布,使原始樣本特征偏離流形分布的問題。使用該方法在SS-ResNet18特征層進行多維度訓練,對輸入樣本特征圖進行處理,即選擇卷積層k,創建二進制掩碼M,將兩個相鄰樣本中對應M大小的特征塊進行互換。
該方法主要由三個超參數進行控制:patchup_prob為給定的小批量執行Hard PatchUp的概率,實驗設置為1.0;塊大?。╞lock_size)和γ用于控制掩碼生成,本文將block_size設置為7,γ設置為0.9。使用參數γ生成一個要屏蔽的塊的中心點γadj,掩碼中心γadj的計算為
γadj=γ×(feat_size2)(block_size2)×(feat_size-block_size+1)2(3)
對掩碼中心進行伯努利采樣,將掩碼中的每個點擴展到塊大小的方塊區域,通過最大池化操作后取反,然后得到最終的掩碼塊。掩碼塊計算為
m←1-(max_pool2d(Bernoulli(γadj),kernel_size,stride,padding))(4)
假定輸入的特征大小為(N,C,H,W),那么掩碼中心的大小應該為(N,C,H-block_size-1,W-block_size-1),而掩碼塊的大小為(N,C,H,W),先對掩碼中心進行填充,然后用一個卷積核大小的塊進行最大池化來得到掩碼塊,最后將特征乘以掩碼塊即可。兩個樣本xi和xj在層k處的硬修補操作如式(5)所示。
hard(gk(xi),gk(xj))=M⊙gk(xi)+(1-M)⊙gk(xj)(5)
其中:⊙為點積運算;gk為輸入圖像在第k個卷積層隱藏表示的映射。應用PatchUp操作之后,分類網絡模型從層k向前傳遞到模型中的最后一層,Hard PatchUp的特征塊互換過程如圖4所示。圖4中x1=g(i)k(a)和x2=g(i)k(b)分別為兩張圖像卷積輸出特征圖,i為特征圖索引,a、b為隨機選擇的兩個樣本關聯的隱藏表示。在特征空間進行硬修補操作,使網絡學習樣本更深的特征而不易陷入過擬合。
2.2 對抗訓練防御方法
本文對抗訓練方法的實現分為以下四步:a)計算原始樣本批次的損失;b)使用投影梯度下降(PGD)攻擊算法生成一批對抗樣本;c)使用原始標簽對這些對抗樣本進行訓練,得到對抗樣本的插值損失函數;d)從原始樣本批次和對抗批次中獲得損失的平均值,并使用該損失更新網絡參數。PGD算法生成對抗樣本如公式
xt+1=∏x+S(xt+ε sign(xJ(θ,x,y)))(6)
其中:xt為第k次迭代后的圖像;y為真實標簽;θ為目標模型參數;J(θ,x,y)為用來衡量分類誤差的損失函數;ε為移動的步長;∏x+S為將擾動值限制在球面范圍內。
生成對抗樣本之后,與原始樣本一起作為輸入數據集輸入分類模型,分類模型對輸入樣本進行計算得到輸出,再同正確標簽進行計算得到損失,損失反向傳播來更新網絡參數,重復進行直到損失達到預期效果或達到設置的訓練批次。對抗訓練的過程如圖5所示。
2.3 子網絡結構設計
實驗以經典的殘差網絡模型ResNet18為基模型設計防御框架。考慮到訓練深層網絡過程中參與計算的參數量越大,模型結構越復雜的特點,為了提高網絡對重要特征的提取能力,在ResNet18基礎殘差塊中加入注意力模塊SimAM,相比通道(1D)和空間(2D)注意力,其關注重點在于神經元重要性。該注意力可以有效生成真實三維權重。使用優化后的能量函數來發現每個神經元的重要性,式(7)用來計算能量函數。
et(wt,bt,y,xi)=
1M-1∑M-1i-1(-1-(wtxi+bt))2+(1-(wtt+bt))2+λw2t(7)
其中:wt和bt分別為權重和偏置變換;t和xi為輸入特征的單個通道中目標神經元和其他神經元;M=H×W為該通道上的神經元數量。合理地假設單個通道中的所有像素遵循相同的分布。根據這一假設,可以計算所有神經元的平均值和方差,并重新用于該通道上的所有神經元,顯著降低計算成本,避免重復計算。因此,最小能量可通過式(8)計算。
e*t=4(2+λ)(t-)+22+2λ(8)
其中:=1M∑Mi=1xi;2=1M∑Mi=1(xi-)2。式(8)表明,神經元t的能量e*t越低,與周圍神經元越不同,對視覺處理越重要。因此,每個神經元的重要性可以通過1/e*t得出。相比通道(1D)和空間(2D)注意力,該注意力機制在改善本文網絡的表征能力上更具靈活性和有效性。圖6顯示本文網絡殘差注意力模塊結構。
2.4 損失函數
使用插值損失函數作為訓練網絡的損失函數。該損失函數由兩部分組成,一部分為正常樣本的插值損失函數Lnor。
Lnor=1n2∑ni, j=1Eλ~Dλl(fθ(i,j(λ)),i,j(λ))(9)
其中:i,j(λ)=λxi+(1-λ)xj,i,j(λ)=λyi+(1-λ)yj且λ∈[0,1];Dλ為Beta分布,Beta分布中超參數α,β>0;n為樣本數;θ為網絡參數;fθ(x)為神經網絡輸出;l為函數交叉熵損失。另一部分為對抗插值損失函數Ladv。
Ladv=1n2∑ni, j=1Eλ~Dλl(fθ(i,j(λ)),i,j(λ))(10)
其中:i=xi+δ,i,j(λ)=λi+(1-λ)j,對擾動δ使用L2范數約束;‖δ‖2≤C,C為大于零的常數,C越大,對抗樣本攻擊成功率越高,但對抗樣本的隱蔽性會變弱,反之亦然。整體損失公式如式(11)所示。
Loss=Lnor+Ladv2(11)
3 實驗
本章在CIFAR-10和SVHN數據集進行實驗,驗證本文方法訓練的模型防御能力,主要使用FGSM、PGD、AA三種攻擊算法進行無目標攻擊測試,選用L∞范數作為攻擊的距離度量,對抗擾動大小設置為8/255。對PGD攻擊而言,迭代次數越多,攻擊越強,步長均設置為2/255,使用PGD-7表示迭代七次生成對抗樣本,PGD-20表示迭代二十次生成對抗樣本。這三種攻擊算法在模型不采取防御策略時均能使模型分類性能大幅下降,以此作為測試防御模型防御性能好壞的基準攻擊。
3.1 實驗設置
選用CIFAR-10和SVHN數據集作為本文實驗所用數據集進行訓練和測試。CIFAR-10數據集是用于識別普適物體的小型彩色數據集,每張圖像大小為32×32,包含10個類別,有50 000張訓練圖像和10 000張測試圖像。SVHN(street view house number)數據集來源于谷歌街景門牌號碼,來自一個明顯更難、未解決的現實世界問題(識別自然場景圖像中的數字和數字)。數據集中每張圖像大小都為32×32,每張圖片中包含一組0~9的阿拉伯數字。訓練集中包含73 257個數字,測試集中包含26 032個數字,另有531 131個附加數字。
a)硬件環境 本實驗在Windows 10系統下進行,GeForce RTX 3060 6 GB的GPU輔助運行,機帶RAM為16 GB。
b)軟件環境 本實驗采用Python 3.6編程語言,利用PyTorch深度學習框架,實驗環境版本為CUDA 10.2,PyTorch 1.10,TorchVision 0.11.1。
主要使用FGSM、PGD(step=7和step=20)、AutoAttack三種對抗攻擊算法制作對抗樣本來測試模型的防御能力,測試所用對抗攻擊算法來自Pytorch中的torchattacks庫。在不防御的前提下,分類模型對各樣本的分類結果如表1所示。
3.2 評價指標和對抗樣本
實驗采用兩種評價指標評估防御方法,即評估訓練模型所用時間和評估模型防御白盒攻擊性能。在非目標攻擊防御實驗中,使用測試集的分類準確率對模型防御性能進行評估。分類準確率acc計算如式(12)所示。
acc=TP+TNTP+FP+TN+FN(12)
其中:TP表示把正類預測為正類;TN表示把負類預測為負類;FP表示把負類預測為正類;FN表示把正類預測為負類。本文用該指標來評估模型對輸入圖像的分類精度。
PyTorch自帶的torchattacks庫中對抗攻擊算法生成的對抗樣本圖像如圖7所示,其中原始樣本來自SVHN數據集,對抗攻擊算法對其添加的對抗擾動大小均設置為8/255。
3.3 實驗結果
3.3.1 對比實驗
為了更直觀地觀察本文防御模型性能,圖8、9顯示在FGSM、PGD及自動攻擊(AutoAttack,AA)[27]下模型整體防御性能的提升,深灰色柱狀區域表示模型不采取防御措施下對抗樣本的防御成功率,淺灰色柱狀區域則表示采取防御之后的防御成功率(參見電子版),可明顯觀察到本文模型防御對抗樣本的能力大幅提升。
為更好地評估防御性能,使用白盒攻擊和黑盒攻擊兩種方式進行測試,白盒測試模型的防御性能,黑盒測試模型的泛化性能。在兩個數據集上訓練本文模型,然后與其他防御方法進行對比。SVHN數據集上進行對比的方法包括基線方法、PGD AT、MixUp和插值對抗訓練方法。對比結果如表2所示。
CIFAR-10數據集上對比方法有PGD AT、快速對抗訓練(Fast AT)、自由對抗訓練(Free AT)、插值對抗訓練(Interpolation AT)[28]以及子空間對抗訓練(Sub-AT)[29],對比實驗結果如表3所示。
實驗結果表明,基于SS-ResNet18進行對抗訓練的防御策略不僅能保持較高的原始樣本分類準確率,模型對對抗樣本的分類能力也有了大幅提升。以PGD-7攻擊為例,其分類準確率提升20%以上,防御其他攻擊的能力也有了明顯提高。
除了表2、3的白盒攻擊測試結果對比外,本文還進行了對抗樣本黑盒攻擊測試,使用VGG16網絡生成對抗樣本圖像攻擊SS-ResNet18防御模型。在兩個數據集上的黑盒測試結果如表4所示。
根據混淆矩陣分析SS-ResNet18模型對數據集中每類圖像的分類能力,黑盒攻擊實驗測試結果的混淆矩陣如圖10所示。
混淆矩陣中對角線數據指的是SS-ResNet18模型將每類樣本分類正確的數量,對角線外為分類錯誤的樣本數量。圖中橫軸表示分類正確樣本標簽,縱軸表示分類錯誤樣本標簽,模型分類對抗樣本的準確率用魯棒準確率表示。分析黑盒攻擊下的測試結果可得,在未知目標模型結構情況下,對抗樣本很難通過泛化性成功攻擊SS-ResNet18模型。該模型具有良好的泛化性能。
3.3.2 消融實驗
在CIFAR-10和SVHN數據集上對實驗結果進行消融研究,驗證模型結構的合理性。消融設置如下:模型1為ResNet18不采用任何防御策略進行標準訓練的模型、模型2為ResNet18進行PGD對抗訓練防御方法訓練得到的模型、模型3為ResNet18進行插值對抗訓練防御方法訓練得到的模型、模型4采用加入注意力機制的ResNet18進行插值對抗訓練得到的模型、模型5為使用對抗訓練和特征混合方法訓練得到的SS-ResNet18模型。
實驗測試所用模型均訓練200輪次,基本參數相同。測試數據為原始測試數據集和使用殘差網絡生成的步長為2/255、迭代七次且進行l∞范數約束的PGD算法生成的對抗樣本,評價指標為分類精度和魯棒精度,分別表示分類正常樣本和PGD-7對抗樣本的分類準確率。實驗結果如表5所示,均取最佳測試結果。
3.3.3 訓練時間花銷和穩定性對比
對抗訓練需要生成對抗樣本投入模型訓練,因此較標準訓練耗時更長,不易應用到大型網絡。使用早期停止策略,當損失在20個周期不下降就停止網絡訓練,并使用ResNet18作為基模型進行訓練。訓練時間對比結果如表6所示。
由表6數據可知,雖然訓練模型時間相比快速訓練方法仍有差距,但對比PGD對抗訓練方法有著較大提升,且SS-ResNet18對抗訓練所需訓練時長低于最新提出的子空間對抗訓練方法。從表6可知,SS-ResNet18對抗訓練方法有效縮短了對抗訓練時間,在時間成本上的花銷低于大部分對抗訓練防御方法。為了驗證模型的穩定性,采取CIFAR-10數據集訓練好的防御模型,在步長為2/255,迭代七次的PGD攻擊擾動不斷增大的情況下進行實驗測試。與標準訓練、TRADES方法進行對比,穩定性測試為白盒攻擊測試結果,實驗結果如圖11所示。
眾所周知,大擾動下分類模型更不易分類原始樣本和對抗樣本,擾動越大分類準確率越低,模型防御對抗樣本的能力就越弱。圖11可觀察到SS-ResNet18對抗訓練方法訓練的模型在擾動不斷增大的情況下下降趨勢更為緩慢。綜上可得,SS-ResNet18模型不僅具有高魯棒性,也具有高穩定性。
4 結束語
本文通過添加注意力模塊對殘差網絡結構進行改進,計算能量函數來增加重要神經元的權重。孿生網絡結構很好地緩解了對抗訓練過程中對抗樣本對干凈樣本分類結果的干擾,加速網絡訓練過程,訓練模型過程中融合樣本間的特征以提高網絡泛化性。在兩個開源數據集上,使用多種攻擊方式與不同防御方法訓練的卷積神經網絡分類模型進行對比,根據白盒攻擊測試結果可得,本文模型魯棒性最好,對比最新的子空間訓練方法,模型訓練時間更少。黑盒測試結果和穩定性對比實驗進一步驗證了該模型有著良好的泛化能力和防御性能。通過消融實驗,保持參數一致的情況下證明SS-ResNet18模型所添加的策略是可行有效的。綜合可得,SS-ResNet18模型提高了分類模型防御多種對抗樣本攻擊的能力。同時,模型降低了采用對抗訓練方法對正常樣本分類準確率的負面影響,且模型訓練時間較短。
參考文獻:
[1]Spielberg N A,Brown M,Gerdes J C. Neural network model predictive motion control applied to automated driving with unknown friction [J]. IEEE Trans on Control Systems Technology,2021,30(5): 1934-1945.
[2]桂韜,奚志恒,鄭銳,等. 基于深度學習的自然語言處理魯棒性研究綜述 [J]. 計算機學報,2024,47(1): 90-112. (Gui Tao,Xi Zhiheng,Zhen Rui,et al. A review of deep learning-based natural language processing robustness research [J]. Chinese Journal of Computers,2024,47(1): 90-112.)
[3]Li Yinglong. Research and application of deep learning in image recog-nition [C]// Proc of the 2nd IEEE International Conference on Power,Electronics and Computer Applications. Piscataway,NJ: IEEE Press,2022: 994-999.
[4]Szegedy C,Zaremba W,Sutskever I,et al. Intriguing properties of neural networks [EB/OL]. (2014-02-19). https://arxiv.org/abs/1312.6199.
[5]Eykholt K,Evtimov I,Fernandes E,et al. Robust physical-world attacks on deep learning visual classification [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 1625-1634.
[6]Goodfellow I J,Shlens J,Szegedy C. Explaining and harnessing adversarial examples [EB/OL]. (2015-03-20). https://arxiv.org/abs/1412.6572.
[7]Kurakin A,Goodfellow I J,Bengio S. Adversarial examples in the physical world [M]// Artificial Intelligence Safety and Security. Boca Raton,FL: Chapman and Hall/CRC,2018: 99-112.
[8]Madry A,Makelov A,Schmidt L,et al. Towards deep learning models resistant to adversarial attacks [EB/OL]. (2019-09-04). https://arxiv.org/abs/1706.06083.
[9]Athalye A,Carlini N,Wagner D. Obfuscated gradients give a false sense of security: circumventing defenses to adversarial examples [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR,2018: 274-283.
[10]Papernot N,McDaniel P,Wu Xi,et al. Distillation as a defense to adversarial perturbations against deep neural networks [C]// Proc of IEEE Symposium on Security and Privacy. Piscataway,NJ: IEEE Press,2016: 582-597.
[11]魏忠誠,馮浩,張新秋,等. 基于注意力機制的物理對抗樣本檢測方法研究 [J]. 計算機應用研究,2022,39(1): 254-258. (Wei Zhongcheng,Feng Hao,Zhang Xinqiu,et al. Research on physical adversarial sample detection methods based on attention mechanisms [J]. Application Research of Computers,2022,39(1): 254-258.)
[12]Esmaeilpour M,Cardinal P,Koerich A L. Cyclic defense GAN against speech adversarial attacks [J]. IEEE Signal Processing Letters,2021,28: 1769-1773.
[13]Kim H,Lee W,Lee J. Understanding catastrophic overfitting in single-step adversarial training [C]// Proc of the AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2021: 8119-8127.
[14]Jia Xiaojun,Wei Xingxing,Cao Xiaochun,et al. ComDefend: an efficient image compression model to defend adversarial examples [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recog-nition. Piscataway,NJ: IEEE Press,2019: 6077-6085.
[15]Wu Dongxian,Wang Yisen. Adversarial neuron pruning purifies backdoored deep models [J]. Advances in Neural Information Processing Systems,2021,34: 16913-16925.
[16]王佳,張揚眉,蘇武強,等. 基于壓縮感知的神經網絡實時綜合防御策略 [J]. 計算機學報,2023,46(1): 1-16. (Wang Jia,Zhang Yangmei,Su Wuqiang,et al. Compression-aware neural network-based real-time integrated defense strategy [J]. Chinese Journal of Computers,2023,46(1): 1-16.)
[17]Yang Lingxiao,Zhang Ruyuan,Li Lida,et al. SimAM: a simple,parameter-free attention module for convolutional neural networks [C]// Proc of International Conference on Machine Learning. [S.l.]: PMLR,2021: 11863-11874.
[18]Zhang Linjun,Deng Zhun. How does mixup help with robustness and generalization? [C]// Proc of the 9th International Conference on Learning Representations. 2021.
[19]Faramarzi M,Amini M,Badrinaaraayanan A, et al. PatchUp: a feature-space block-level regularization technique for convolutional neural networks [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2022: 589-597.
[20]Moosavi-Dezfooli S M,Fawzi A,Frossard P. DeepFool: a simple and accurate method to fool deep neural networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 2574-2582.
[21]Koch G,Zemel R,Salakhutdinov R. Siamese neural networks for one-shot image recognition [C]// Proc of ICML Deep Learning Workshop. 2015.
[22]Zhang Hongyang,Yu Yaodong,Jiao Jiantao,et al. Theoretically principled trade-off between robustness and accuracy [C]// Proc of International Conference on Machine Learning. [S.l.]: PMLR,2019: 7472-7482.
[23]Shafahi A,Najibi M,Ghiasi M A,et al. Adversarial training for free! [EB/OL]. (2019-11-20). https://arxiv.org/abs/1904.12843.
[24]Wong E,Rice L,Kolter J Z. Fast is better than free: revisiting adversarial training [EB/OL]. (2020-01-12). https://arxiv.org/abs/2001.03994.
[25]Li Xingjian,Goodman D,Liu Ji,et al. Improving adversarial robustness via attention and adversarial logit pairing [J]. Frontiers in Artificial Intelligence,2022,4: 752831.
[26]Smith L N. Cyclical learning rates for training neural networks [C]// Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2017: 464-472.
[27]Croce F,Hein M. Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks [C]// Proc of International Conference on Machine Learning.[S.l.]:PMLR,2020:2206-2216.
[28]Lamb A,Verma V,Kannala J,et al. Interpolated adversarial training: achieving robust neural networks without sacrificing too much accuracy [C]// Proc of the 12th ACM Workshop on Artificial Intelligence and Security. New York:ACM Press,2019: 95-103.
[29]Li Tao,Wu Yingwen,Chen Sizhe,et al. Subspace adversarial training [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 13399-13408.