999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于對抗補丁的可泛化的Grad-CAM 攻擊方法

2021-04-09 02:27:34司念文張文林屈丹常禾雨李盛祥牛銅
通信學報 2021年3期
關鍵詞:可視化分類區域

司念文,張文林,屈丹,常禾雨,李盛祥,牛銅

(1.信息工程大學信息系統工程學院,河南 鄭州 450001;2.信息工程大學密碼工程學院,河南 鄭州 450001)

1 引言

近年來,以卷積神經網絡(CNN,convolutional neural network)為代表的深度學習技術在圖像識別[1-3]和語言文本處理[4-5]等領域的研究應用取得了重大進展。與傳統機器學習算法相比,深度學習模型的優勢在于其優異的自動特征提取能力,這極大緩解了傳統方法下人工特征設計的困難,使目標任務可以學習到更加全面的、含有豐富語義信息的組合式特征。然而,盡管深度學習模型的識別效果非常好,但其一直受到可解釋性問題的困擾。其中,CNN 作為深度學習技術的代表,其工作機制及決策邏輯至今尚不能完全被人們理解,阻礙了其在一些對安全性要求高的領域的深入拓展。對CNN 的理解與解釋在理論和實際應用上都具有一定的研究價值,研究人員為此提出了一系列的可解釋性方法,用于解釋CNN的內部表征和決策,這些方法在一定程度上緩解了CNN 可解釋性較差的問題,增進了人們對CNN 特征和決策的理解,提升了人們對CNN 模型的信任度。

在基于CNN 的圖像分類領域,基于顯著圖的解釋方法是一種典型的CNN 解釋方法,這種方法會生成一個與輸入圖像相對應的顯著圖,該圖將與特定決策相關的輸入特征高亮,用以表示對該決策結果的可視化解釋。典型的基于顯著圖的解釋方法如圖1 所示(左側圖像表示Bull_masstiff 的定位結果,右側圖像表示Tiger_cat 的定位結果),主要包括2 種。一種是基于模型梯度(導數)的顯著圖(圖1(d)~圖1(g)),例如反向傳播(BP,back propagation)[6]、導向反向傳播(Guided BP,guided back propagation)[7]、平滑梯度(smooth gradient)[8]及積分梯度(integrated gradient)[9]。梯度構成的顯著圖噪聲較多,且由于不具備類別區分性,導致它們無法針對性地分別解釋不同類別目標相關的特征,因此可視化效果并不理想。另一種是基于類激活映射(CAM,class activation mapping)得到的類激活圖(圖1(b)和圖1(c)),最早由Zhou 等[10]提出。類激活圖的主要優點體現在類別區分性上,可在圖像級標簽監督下,定位輸入圖像中目標的具體位置。由于具有較好的類別區分特性,因此CAM 及其多種改進版本(如Grad-CAM[11]、Grad-CAM++[12]及Score-CAM[13])在弱監督目標定位[10-11]、視覺問答[11]等眾多場景中均有應用。

圖1 梯度圖與類激活圖的比較

Grad-CAM 作為類激活圖方法中較穩定的一種,過程最簡單且應用較廣泛。然而,最近的研究表明,這些基于顯著圖的解釋方法(如Grad-CAM、BP及Guided BP等)存在被攻擊的危險[14-16]。文獻[14]首次驗證了BP 和integrated gradient 方法的脆弱性,通過最大化對抗圖像的顯著圖與原圖的顯著圖之間的差異,可以優化出一種專門用于攻擊解釋方法的對抗樣本。文獻[15]進一步研究了在特定損失函數的約束下,可使BP、Guided BP 及integrated gradient 等方法的解釋結果中出現事先指定的無關特征。文獻[16]則通過對抗性的微調模型參數,在不修改輸入圖像的情況下,使用參數微調后的模型引導Grad-CAM 的解釋結果總是偏向特定區域,實現無效的、甚至被引導至有意圖偏向的解釋。總體來看,文獻[14-15]提出的攻擊方法主要通過生成視覺變化不可感知的對抗樣本來針對性地攻擊解釋結果。這種對抗樣本雖然具有較好的偽裝特性,但在現實中難以應用。文獻[16]雖然不需要添加擾動來形成對抗樣本,但其采用的微調參數方法需要重新訓練模型,導致攻擊的代價也較大。

對抗補丁是一種用于攻擊模型的圖像代替方法,可以不受擾動范數的限制,具有攻擊過程簡單、現實應用性強的優點,通常被用于現實場景的對抗攻擊[17]。基于對抗補丁合成對抗圖像來攻擊模型的解釋,在現實場景中更加方便。為此,本文提出一種基于對抗補丁的Grad-CAM 攻擊方法,將對抗補丁方法用于攻擊針對模型的解釋,而非攻擊模型本身的預測。具體地,通過將對抗補丁添加在圖像上,保證分類結果不變,但Grad-CAM 解釋結果始終偏向目標區域,以此實現對解釋結果的攻擊。實驗結果表明,與現有的方法相比,本文方法使用一種新的思路實現對CNN 解釋的有效攻擊,且過程更加簡單。總體來講,本文的貢獻分為以下3 個方面。

1) 提出了一種基于對抗補丁的Grad-CAM 攻擊方法。該方法能夠對目標圖像的Grad-CAM 解釋結果針對性地生成對抗補丁并合成對抗圖像,用于攻擊Grad-CAM 解釋方法,使之無法準確定位目標圖像的顯著性特征,從而產生錯誤的解釋。

2) 在多種攻擊場景下進一步擴展了該方法的應用。基于該方法的思路,將其擴展到通用的對抗補丁,以及視覺變化不可感知的對抗樣本,提升了該方法的泛化性和多場景可用性。

3) 從攻擊結果的視覺效果及目標區域的能量占比的角度,定性和定量評估了所提方法的攻擊效果。以 4 種典型的 CNN 分類網絡為例,在ILSVRC2012 數據集[18]上進行了大量實驗,結果表明,所提方法可以有效地實現對Grad-CAM 的攻擊。

2 相關工作

2.1 CNN 可解釋性方法

近年來,對于CNN 的可解釋性引起了研究者的關注,提出了一系列可視化方法用于解釋CNN的預測結果。最簡單的可視化方法是基于梯度的方法[6-9],但梯度圖中通常含有大量的噪聲問題,不具備類別區分特性。CAM 方法[10-13]是另一類CNN 解釋方法,因其具有較好的類別區分特性而被用于定位與CNN 特定決策結果相關的圖像區域。同時,由于僅使用圖像級的標簽即可實現一定效果的目標定位,因此類激活圖方法也被用于弱監督目標定位任務[10-11]。此外,類激活圖方法還被用來為圖像分類[19]、語義分割[20]等任務提供弱先驗信息,從而提升其性能。

Grad-CAM 方法的廣泛應用導致其解釋結果的穩定性至關重要,一旦Grad-CAM 被攻擊而產生錯誤的定位結果,基于Grad-CAM 的后續任務將接連產生錯誤。文獻[14]對基于梯度的解釋方法和基于樣本的解釋方法進行了攻擊,結果表明,這些可視化方法均存在一定程度的脆弱性。與文獻[14]類似,文獻[15]也對基于梯度的可視化方法進行了攻擊。但由于ReLU 網絡的二階梯度通常為0,因此文獻[14-15]的攻擊方法需要先將目標網絡的ReLU 函數統一轉換成Softplus 函數,這嚴重限制了其實用性。受文獻[14]的啟發,文獻[16]從模型的角度出發,將對顯著圖的攻擊目標作為損失函數添加到模型訓練中,通過一個微調步驟來微調模型參數,進行對抗性的模型調整,再使用調整后的模型對輸入圖像產生錯誤的Grad-CAM 解釋結果。然而,這種方法在數據集上需要重新訓練模型,對于ImageNet 這樣的大型數據集來說,時間和計算資源消耗非常大,攻擊成本高。

2.2 對抗補丁

對抗補丁是一種用于攻擊神經網絡圖像分類系統的補丁圖像。通過在目標圖像上添加對抗性補丁,可以使用目標圖像被神經網絡分類模型誤分類,實現對圖像分類系統的攻擊[17]。對抗補丁的優點是不受擾動范數的限制,可在較小的區域內實現較大的擾動。由于對抗補丁具有顯著性特征,是造成圖像被誤分類的重點區域,因此普通的對抗補丁很容易被Grad-CAM 等解釋方法檢測到。為此,文獻[21]針對性地提出了一種穩健的對抗補丁方法,該方法在攻擊圖像分類結果的同時,可以抵抗Grad-CAM 對補丁位置的檢測。文獻[21]使用對抗補丁的目的與文獻[17]相同,均是用于攻擊模型的分類結果,但其在損失函數中引入Grad-CAM 約束,僅是為了提升對抗補丁的穩健性,防止補丁位置被Grad-CAM 輕易檢測到,但對抗補丁的主要目的仍然是用于攻擊模型的分類結果。

與文獻[17]和文獻[21]不同,本文將對抗補丁用作專門攻擊CNN 模型的解釋方法,而不是攻擊圖像的分類結果。如2.1 節所述,現有針對Grad-CAM 的攻擊方法具有攻擊成本高、攻擊過程復雜等缺點。為了避免調整網絡結構和重新訓練目標網絡,本文使用基于對抗補丁的方法實現對Grad-CAM 的攻擊。

3 本文方法介紹

3.1 Grad-CAM 原理介紹

Grad-CAM 方法由Selvaraju 等[11]于2017 年提出,是類激活圖系列方法中最常用的一種。與同類型方法(如CAM[10]、Grad-CAM++[12]及SS-CAM[13])相比,其實現過程最簡單,對多種網絡通用,可視化效果也相對較好。Grad-CAM 的原理如圖2 所示。給定輸入圖像x和待攻擊的目標網絡f,經過f得到輸入圖像的logits 分數為

圖2 Grad-CAM 的原理

其中,θ表示f的權重參數,Sc表示第c個類別的logits 分數。該過程屬于標準的CNN 分類過程,僅能給出分類結果,無法解釋CNN 基于x的哪些輸入特征得到了該分類結果。Grad-CAM 方法正是為了解釋目標網絡的分類結果而被提出的。由于目標網絡f從輸入圖像x提取的最高層特征圖(A1,A2,…,AK)在卷積層和全連接層之間達到平衡,具有較好的類別區分性,因此可以使用該層特征圖來定位感興趣的目標。

使用Grad-CAM 方法生成類激活圖的過程可形式化描述為

其中,Ak表示最高層特征圖的第k個通道,表示該通道的權重,其計算式為

其中,Ak,i,j表示第k個通道位于(i,j)的元素,Z表示歸一化因子。由于通道權重是從類別c的導數得來的,因此通道權重含有類別相關信息,這也是Grad-CAM 能夠針對不同決策結果進行解釋的主要原因。

3.2 Grad-CAM 攻擊方法

3.2.1 目標函數與優化

一般情形下,對抗補丁被用于誤導圖像分類結果,使添加對抗補丁的圖像總是被分類器誤分類。而在可解釋深度學習領域,解釋結果與分類結果同樣重要,攻擊者不僅會對模型分類結果進行攻擊,還可能攻擊模型的解釋結果。基于此,本節提出了一種基于對抗補丁的針對Grad-CAM 解釋方法的攻擊方法。給定輸入圖像x和目標網絡f,設表示二值化的掩碼,其中補丁區域為1,其余區域為0,z表示擾動圖像,對抗圖像可由輸入圖像x、二值化掩碼m及擾動圖像z合成,合成過程為

其中,⊙表示哈達瑪積,z⊙m相當于對抗補丁。本文使用對抗補丁的目的不是誤導圖像分類結果,而是攻擊解釋方法的解釋結果。具體來說,本文中補丁的作用是保持分類結果不變,同時引導Grad-CAM 攻擊結果始終偏向補丁區域,從而實現對Grad-CAM 解釋的攻擊。這個過程實際上包含2 個優化目標,介紹如下。

①保持分類不變,對應的目標函數形式化描述為

其中,c表示原始分類類別。式(5)使用交叉熵損失約束對抗圖像的分類結果保持不變。

② 引導Grad-CAM 偏向補丁區域,對應的目標函數形式化描述為

式(6)相當于取出補丁區域的Grad-CAM 顯著圖像素并求和,然后最大化該值。

綜合以上2 個優化目標,最終的目標函數Loss可定義為

其中,λ表示2 個優化目標之間的調和參數。該目標函數優化的對象是擾動圖像z,其更新方式采用梯度符號更新,即

其中,lr 表示更新時的學習率;sign 表示符號函數,值域為{+1,-1}。

3.2.2 攻擊算法流程

算法1 給出了基于對抗補丁的Grad-CAM 攻擊算法的流程。總體來講,在給定輸入圖像x和二值化掩碼m的情況下,可以得到添加對抗補丁的擾動圖像x′,該對抗圖像使用Grad-CAM 解釋方法始終無法準確定位到顯著性目標。同時,通過二值化掩碼m可以控制補丁添加的位置,從而控制對Grad-CAM 的引導偏向。具體來講,該算法包括以下5 個步驟。步驟1)初始化擾動z;步驟2)生成對抗圖像x′;步驟3)計算對抗圖像的得分fc(x′;θ),以及其對應的顯著圖;步驟4)計算損失函數Loss;步驟5)使用梯度符號更新擾動z。通過不斷迭代來更新擾動z及降低損失值。其中,num_iters 表示迭代次數。

值得注意的是,本文雖然僅在Grad-CAM 方法上使用該算法進行實驗,但對于類激活映射這一類方法,包括CAM、Grad-CAM++等,該算法也同樣適用。

算法1基于對抗補丁的Grad-CAM 攻擊算法

輸入輸入圖像x,二值化掩碼m

輸出對抗圖像x′

Begin

3.3 可泛化的通用對抗補丁

第3.2 節所述的對抗補丁僅能針對性地對單張圖片進行Grad-CAM 攻擊,每張圖片都有其對應的對抗補丁。因此,這種對抗補丁具有圖像針對性,對于未知的新圖像,攻擊效果并不一定好。

為了進一步提升本文的對抗補丁方法的泛化性,將其應用于同一類別的其他圖像,本節通過進一步改進,使用批次訓練方法來生成通用對抗補丁,使通用對抗補丁可以面向未知的新樣本,即在同一類別的樣本下,對未見過的新樣本進行Grad-CAM 攻擊。

在算法1 的框架下,僅需修改步驟4)中的目標函數,即可生成可泛化的通用對抗補丁。具體地,通用對抗補丁的生成可使用如下目標函數

其中,N表示批次大小,每張對抗圖像均由對應的輸入圖像xn、二值化掩碼m及通用的擾動圖像z合成。該目標函數的更新對象仍為擾動圖像z,這里每張輸入圖像xn共用同一個擾動圖像z。

將得到的擾動圖像z作為每個類別圖像的通用擾動,即可添加在該類別未知的目標圖像上,實現對目標圖像的Grad-CAM 攻擊。值得注意的是,在實驗中嘗試將對抗補丁擴展到不同類別的圖像,使用不同類別圖像進行訓練,但測試效果并不好,其中原因值得進一步深入分析。

3.4 擴展到對抗樣本

盡管本文主要基于對抗補丁來攻擊Grad-CAM的解釋結果,但僅需要較小修改,即可將本文方法用于生成對抗樣本。本節進一步對上述方法進行拓展,將對抗補丁攻擊方法拓展為對抗樣本攻擊方法。用于攻擊Grad-CAM 的對抗樣本是指通過在整個原圖區域添加細微擾動,可以使目標圖像的分類結果保持不變,但Grad-CAM 的定位結果卻發生改變,引向特定目標區域。

為了實現上述目標,將二值化掩碼m的1 值擴展到整個圖像區域,即m的元素值全為1,按照如下方法得到新的對抗圖像,即

式(10)中添加了對擾動圖像z的L2 范數約束,目的是使添加在圖像上的擾動在視覺上盡量不易被察覺,以不改變原圖的內容。此時,按照式(7)中的目標函數形式,添加擾動損失后,得到的目標函數為

其中,m′表示用于引導攻擊位置的二值化掩碼,其中為1 的區域表示將引導Grad-CAM 顯著圖偏向該區域。式(7)中的二值掩碼m在表示補丁區域位置的同時,也將Grad-CAM 顯著圖引導偏向該區域。這里的m′與之不同,m′的1 值區域由于不受補丁位置的限制,可以移向任意位置。第4 節的實驗中將展示3 種不同的m′ 所引導的不同Grad-CAM 攻擊結果,其中,λ1和λ2為后兩項的調和系數。對擾動圖像z的更新仍采用式(8)中的梯度符號更新方法。

注意,使用本節方法生成的對抗樣本與Szegedy 等[22]和Goodfellow 等[23]的對抗樣本的作用并不相同。Szegedy 等[22]和Goodfellow 等[23]的對抗樣本用于攻擊模型的預測結果,而本文的對抗樣本的攻擊目標并不是模型的預測結果,而是專門用攻擊模型的解釋結果,即Grad-CAM 的定位結果。

4 實驗

4.1 實驗設置

1) 數據集與目標模型。本文使用ILSVRC2012數據集[18]作為實驗數據集,為了便于對比實驗結果,每部分實驗將分別使用該數據集中的不同部分。目標網絡采用4 種常見的CNN 圖像分類網絡:

VGGNet-16[1]、VGGNet-19-BN[1]、ResNet-50[2]、DenseNet-161[3],來自Torchvision 包[24]中自帶的預訓練網絡模型,在上述數據集上完成了預訓練。

2) 攻擊效果評價指標。攻擊效果的評價主要從定性和定量這2 個方面進行評價:視覺效果和能量占比(ER,energy ratio)。視覺效果表示從視覺上直接觀察Grad-CAM 方法的解釋結果,即可視化結果的直觀視覺感受。此外,使用ER 值作為評價指標,量化Grad-CAM 的可視化結果。ER 值表示顯著圖中某個區域的能量占整個顯著圖能量的比例,計算式為

其中,T表示目標區域的像素構成的集合。顯然,ER 值越大,表示Grad-CAM 對該區域的關注度越高。具體地,實驗中需要計算2 個目標區域的ER值:補丁區域的ER 值(ERp)和邊框區域的ER 值(ERb),計算式分別為

由于Grad-CAM 本身用于對圖中顯著性目標進行定位,因此對于未受到任何攻擊的Grad-CAM 顯著圖,ERb較高。而本文提出的基于對抗補丁的Grad-CAM 方法的目的就是將Grad-CAM 的定位區域引向補丁區域,因此對于本文方法,ERp越高,表明攻擊效果越好。

4.2 攻擊結果與分析

本節實驗中,參照文獻[25]的對抗樣本研究,使用從ILSVRC2012 驗證集中1 000 個類別中選擇的1 000 張圖片,每個類別含有一張圖片。VGGNet-19-BN 模型上的top1 準確率和ER 值如表1 所示。其中,top1 準確率表示對圖像的top1分類準確率。對于文獻[16]的對抗性微調方法,使用其提供的源代碼進行了結果復現。驗證集使用上述1 000 張圖像,計算針對該1 000 張圖像的top1 準確率及ER 值。實驗結果分別進行以下對比。

表1 VGGNet-19-BN 模型上的top1 準確率和ER 值

1) 原圖:在VGGNet-19-BN 上的top1 準確率,原圖的Grad-CAM 顯著圖的ERp和ERb。

2) 對抗性微調方法[16]:使用微調后的VGGNet-19-BN 模型對這1 000 張原圖的top1 準確率,微調后模型的Grad-CAM 顯著圖的ERp和ERb。

3) 對抗補丁方法(本文方法):使用對抗補丁產生的對抗圖像在VGGNet-19-BN 上的top1 準確率,對抗圖像的Grad-CAM 顯著圖的ERp和ERb。

對于 top1 準確率,如表 1 所示,在VGGNet-19-BN 模型上本文方法的準確率僅下降0.2%,即只有2 張圖片的類別未保持原來的類別。而對抗性微調方法由于對模型參數進行了重新訓練,導致其分類準確率下降較多。

對于ER 值,如表1 所示,本文方法和對抗性微調方法均可使ERp上升且ERb下降。對于本文方法,ERp上升62.34%,ERb下降29.24%,這表明本文方法對Grad-CAM 定位結果的引導是有效的,使補丁區域受到了Grad-CAM 的更多關注,而使目標本身(邊框區域)的關注度下降許多。本文方法產生的對抗圖像的ERp僅占整個顯著圖的約2/3(67.19%),但其與原圖ERb(67.76%)相比非常接近(對于ILSVRC2012 數據集,一般的邊框尺寸會比本文的補丁尺寸大),表明尺寸較小的補丁區域吸引了較多的能量關注,基本上整張圖的主要關注點都移到了補丁區域。值得一提的是,ERb之所以仍較高,是因為許多邊框區域會與補丁區域重疊,導致補丁區域的能量也被計入邊框區域。此時,對抗圖像的ERp與ERb之和超過1,因為這2 個區域之間有重疊部分。

圖3 VGGNet-19-BN 模型上的Grad-CAM 攻擊結果比較

圖3 為部分示例圖像及其對抗圖像的可視化結果,具體含義如下。

①第1 組(圖3(a))表示初始的輸入圖像x,形式為(類別,分類概率)。

② 第2 組(圖3(b)~圖3(d))表示對基于梯度的可視化方法的攻擊結果,使用了文獻[15]提供的攻擊方法。其中,HBP(x) 表示輸入圖像x的BP 可視化結果,形式為(ERp,ERb)值;表示對BP 可視化方法進行攻擊,誘導其顯著性區域偏向左上角優化出的對抗圖像,形式為(類別,分類概率);HBP()表示對抗圖像的BP 可視化結果,形式為(ERp,ERb)值。

③第3 組(圖3(e)~圖3(h))表示對Grad-CAM可視化方法的攻擊結果,包括對抗性微調方法和本文方法的結果。其中,(x)表示輸入圖像x的 Grad-CAM 結果,形式為(ERp,ERb)值;(x;w′)表示使用對抗性微調方法重訓練模型(w′作為微調后模型的標記)后,得到的Grad-CAM 結果,形式為(ERp,ERb)值;表示本文方法生成的對抗圖像,形式為(類別,分類概率) ;表示對抗圖像的Grad-CAM 結果,形式為(ERp,ERb)值。

從對BP 可視化方法的攻擊結果(圖3 第2 組)來看,攻擊結果中隱藏了目標主體的位置,顯著圖偏向左上角區域,可視化結果具有梯度圖的散點效果。由于基于梯度的可視化方法與Grad-CAM 方法的可視化效果有較大區別,因此這里僅將其作為參考,相互之間并不具有很好的對比性。另一方面,從對Grad-CAM 的攻擊結果(圖3 第3 組)可以看出,本文方法與對抗性微調方法均可實現有效攻擊。與對抗性微調方法相比,本文方法的攻擊效果較好,能夠較明顯地引導目標的定位偏向左上角補丁區域。同時,本文方法不需要重新訓練模型,攻擊過程更加簡單。

4.3 不同模型上的攻擊結果比較

為了測試該攻擊方法在其他模型上的有效性,本節使用另外3 種常見的CNN 圖像分類模型,分別為VGGNet-16、ResNet-50 及DenseNet-161,并與4.2 節VGGNet-19-BN 進行了效果對比。使用與4.2 節相同的數據集和評價指標,實驗測得結果如表2 所示。從表2 中的結果來看,本文方法對不同網絡均可實現有效攻擊。在4 種不同模型上的ERp值均有提升,且ERb值均降低。與其他3 種網絡相比,ResNet-50 網絡的攻擊結果相對較差,對抗圖像的可視化結果中ERb仍然相對較高,推測可能是ResNet-50 的Grad-CAM 可視化結果本身定位更加全面,因此對抗圖像的可視化結果會包含主體圖像更多區域。

表2 在4 種不同模型上的top1 準確率與ER 值比較

圖4 為2 張示例圖像的可視化結果。圖4(a)~圖4(d)為輸入圖像“junco”及其相應結果。圖4(a)為輸入圖像。圖4(b)為輸入圖像的Grad-CAM,形式為(ERp,ERb)值。圖4(c)是由輸入圖像生成的對抗圖像。圖4(d)為對抗圖像的Grad-CAM,形式為(ERp,ERb)值。圖4(e)~圖4(f)為另一張輸入圖像“espresso”及其相應結果。由圖4 可以看出,本文方法對這4 種網絡的Grad-CAM 解釋均有較好的攻擊效果。雖然ResNet-50 的攻擊結果相對較差,但仍可以很好地引導Grad-CAM 定位偏向補丁區域。

4.4 通用對抗補丁實驗

雖然單張圖片的對抗補丁對于自身非常有效,但對于同類別的一些其他圖像的攻擊效果不夠好,導致Grad-CAM 仍能檢測到目標區域。如圖5 所示,圖5(a)表示原圖及其Grad-CAM。圖5(b)表示原圖的對抗圖像及其Grad-CAM,該對抗圖像由原圖生成的對抗補丁并添加在原圖上形成。圖5(c)表示針對原圖生成的對抗補丁添加在另一張圖像x1上,形成對抗圖像。由于對抗補丁的生成過程中,并未使用圖像x1的信息,因此并不能較好地對圖像x1的Grad-CAM 解釋結果進行攻擊。同理,圖5(d)中對抗圖像x2也出現了該問題。可以看出,針對原圖生成的對抗補丁,對原圖自身的攻擊效果非常好,但其泛化效果卻不夠好,對抗圖像和的Grad-CAM 圖仍然可以檢測到含有目標的區域。

圖4 在4 種不同模型上的Grad-CAM 攻擊結果比較

圖5 單張圖像的對抗補丁的泛化性能測試示例

為了提升本文對抗補丁的泛化性能,使其能夠對未見過的圖像進行攻擊,本節按照第3.3 節的方法對對抗補丁方法進行進一步優化。從ILSVRC2012數據集中選擇10 個類別的圖像,具體類別如表3所示。其中,訓練集的每個類別含有1 300 張圖片,共13 000 張圖片;測試集的每個類別含有50 張圖片,共500 張圖片;設置批次大小為64。按照上述方法,得到優化前后的每張圖片的ER 值。圖6是對其中的“indigo_bunting”和“hartebeest”的各50 張測試集圖片的ER 值繪制的箱線圖。從圖6 中可以看出,可泛化的對抗補丁對應的平均ERp上升,ERb下降,表明可泛化的對抗補丁攻擊效果更好。表3 定量測試了這10 個類別圖像的泛化前后的對抗補丁的攻擊效果。結果顯示,與單張圖片的對抗補丁方法相比,使用批次訓練方法得到的每一類圖像的對抗補丁的攻擊效果更好,泛化性能更強。

4.5 對抗樣本實驗

本節實驗將驗證第3.4 節中的對抗樣本方法。使用與第4.2 節相同的數據集,對1 000 張圖片生成對抗樣本。通用調整 ′m的1 值區域,可實現面向不同區域的攻擊。實驗中,分別測試了3 種不同的攻擊方法的效果。

1) 左上角攻擊:將對抗樣本的Grad-CAM 解釋結果引導偏向圖像的左上角區域,與前文的補丁區域位置相同。

2) 右下角攻擊:將Grad-CAM 解釋結果引導偏向右下角。

表3 使用批次訓練得到的可泛化的通用對抗補丁的攻擊效果比較

圖6 單張圖像的對抗補丁與可泛化的通用對抗補丁的結果對比

3) 四周攻擊:將Grad-CAM 解釋結果引導偏向圖像的四周。

在上述3 種攻擊方法下分別生成相應的對抗樣本,計算對抗樣本的Grad-CAM 顯著圖中的ERp和ERb值。表4 為在VGGNet-16 和VGGNet-19-BN 網絡上得到的定量結果。相對于原圖,對抗樣本的ERp提升且ERb值下降。同時,對抗樣本的分類準確率仍保持不變,可見這種對抗樣本更能從整體上擾動圖像,而不受補丁區域的限制,從而不改變其分類結果,與對抗補丁方法相比具有更大優勢。

5 討論

5.1 Grad-CAM 攻擊方法的定性分析

本節將從梯度更新的角度,定性分析攻擊Grad-CAM 類激活圖方法的原理及與攻擊基于梯度的可視化方法之間的不同之處。

觀察式(7)的損失函數形式。其中,第1 項表示分類模型的交叉熵損失,第2 項表示對Grad-CAM類激活圖的值損失。對于交叉熵損失,作用在輸入變量′上的更新量為。對于Grad-CAM 顯著圖的損失,作用在輸入變量上的更新量為

表4 VGGNet-16 和VGGNet-19-BN 模型上的top1 準確率和ER 值

圖7 在VGGNet-19-BN 模型上使用3 種不同的攻擊方法生成的對抗樣本及其Grad-CAM 結果

由于max 函數的作用是過濾激活圖中的負值,并不影響導數的計算過程,因此可忽略max函數的影響,將其進一步展開為單個變量的導數,即

對于式(17)中每個括號中的第 1 項,(k=0,1,…,K)為輸出分值Sc的一階導數,結合式(3),可將項化簡為

對于含有ReLU 激活函數的CNN,ReLU 函數的二階導數幾乎處處為0。因此,項總為0,則總為0。因此,式(17)的每個括號中的第1 項總為0。

對于式(17)的每個括號中的第2 項,進一步化簡為

由式(19)可知,該項與輸入變量tx′的一階導數相關。綜合式(18)和式(19)的分析結果可知,對于單個像素的更新量,其實際結果仍然是輸入變量的一階導數,由于不含二階導數,因此對普通的ReLU 網絡來說可以進行更新。

同樣地,利用上述分析過程對基于梯度的CNN可視化方法進行分析。對于基于梯度的CNN 可視化方法,例如BP、Guided BP、Integrated gradient、Smooth gradient 等方法,由于(x′)本身即為輸入圖像x′的一階導數,因此對BP 顯著圖進行攻擊時,單個輸入變量的即為輸入變量的二階導數,這對于使用ReLU 激活函數的CNN 來說無法進行參數更新。因此,若要求攻擊基于梯度的可視化方法,需要將目標網絡的ReLU 函數替換為Softplus 等二階導數不為0 的激活函數,這也是文獻[14-15]的研究工作。

因此,對基于梯度的可視化方法的攻擊方法,例如BP、Guided BP、Integrated gradient、Smooth gradient 等方法,對于ReLU 網絡并不適用,而Grad-CAM 攻擊方法對于ReLU 網絡卻適用,這也是為何本文方法不需要修改目標網絡的ReLU 層,而文獻[14-15]則需要將目標網絡的ReLU 函數替換為Softplus 函數才可行的原因。

5.2 本文方法與現有方法的不同之處

針對CNN 可解釋性方法的攻擊,現有工作多數對基于梯度的可視化方法進行攻擊,此時需要修改目標模型自身結構[14-15]。而對于Grad-CAM 可解釋性方法的攻擊,現有工作中,僅有文獻[16]進行了研究,其結果表明Grad-CAM 解釋方法的確是脆弱的,其結果可以被欺騙而產生錯誤解釋。但文獻[16]使用對抗性的模型微調,需要在整個數據集上重新訓練模型參數,導致訓練的代價較大,在現實攻擊場景中不太可行。而本文方法使用對抗補丁進行攻擊,不需要修改模型結構,能夠針對未知圖像直接添加補丁并進行攻擊,具有一定的泛化性,攻擊過程更加簡單。

針對對抗補丁攻擊方法,文獻[17]最早提出將對抗補丁方法用于攻擊模型的分類結果,而并未關注CNN 的可解釋性方法,導致這種對抗補丁容易被可解釋性方法(如Grad-CAM)檢測到。為此,文獻[21]在對抗補丁的形成過程中,引入了針對Grad-CAM 類激活圖的約束,提升了對抗補丁的穩健性,使其不會被輕易檢測到。本文的研究思路主要借鑒于文獻[21],但文獻[21]使用對抗補丁的主要目的是欺騙分類器的分類結果,而本文將對抗補丁用于攻擊針對分類結果的解釋,這是本文研究與文獻[21]之間的不同之處。

此外,綜合第3.2~3.4 節可知,本文提出的基于對抗補丁的Grad-CAM 攻擊方法適用于以下3 種攻擊場景。1) 特定的單張圖像的Grad-CAM 的攻擊,該情形下使用標準的Grad-CAM 攻擊方法即可實現,如第3.2 節所述;2) 未知圖像的Grad-CAM的攻擊,該情形下使用可泛化的Grad-CAM 攻擊方法,如第3.3 節所述;3) 對抗樣本攻擊方法,該情形下可使用第3.4 節所述的對抗樣本生成方法。綜上,本文方法可以實現多場景的適用性,與現有方法相比,應用場景更加廣泛。

6 結束語

本文提出了一種基于對抗補丁的Grad-CAM 攻擊方法,該方法通過將對抗補丁添加在圖像中,可實現對Grad-CAM 解釋結果的有效攻擊。與現有的攻擊方法相比,本文方法更加簡單,且具有較好的泛化性能,并可以拓展為對抗樣本的攻擊場景,具有多場景的可用性。由于Grad-CAM 的脆弱性對于注重可解釋性和安全性的領域(如醫療圖像診斷、自動駕駛等)具有較大的危害,因此,本文的研究進一步指明了這種危險性,為開展與防御攻擊相關的研究提供了啟發。

由于本文方法仍然要求目標網絡為白盒模型,使用目標網絡的梯度信息更新擾動補丁,這在實際中不一定能夠得到滿足。因此,下一步工作將尋找一種基于黑盒優化的對抗補丁方法,使之更加符合現實攻擊場景。此外,也將從可解釋性防御的角度出發,考慮更加穩健的可解釋性方法,用于提供可信賴的解釋結果。

猜你喜歡
可視化分類區域
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
分類算一算
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
關于四色猜想
分區域
主站蜘蛛池模板: www.国产福利| 亚洲精品动漫| 亚洲精品久综合蜜| 亚洲欧洲日产国产无码AV| 一级全黄毛片| 欧美日韩亚洲综合在线观看| 蜜桃视频一区二区三区| 最新国产精品鲁鲁免费视频| 久久国产亚洲欧美日韩精品| 国产在线八区| 国产福利微拍精品一区二区| 欧美影院久久| 人人妻人人澡人人爽欧美一区| 天堂亚洲网| 成人在线视频一区| 欧美中文字幕第一页线路一| 无码aⅴ精品一区二区三区| 伊在人亞洲香蕉精品區| 黄色网页在线播放| 中文字幕va| 久久精品aⅴ无码中文字幕| 99在线视频免费观看| 中文字幕久久亚洲一区| 波多野结衣一区二区三区四区| 国产精品第一区在线观看| 国产对白刺激真实精品91| 六月婷婷综合| 国产福利拍拍拍| 国产成人精品男人的天堂| 欧美色伊人| 国产在线一区视频| 国产三级成人| 亚洲第一区欧美国产综合 | 夜夜操天天摸| 亚洲最猛黑人xxxx黑人猛交 | 国产成人免费观看在线视频| 国产精品永久不卡免费视频| 国产精品一线天| 97国内精品久久久久不卡| 免费 国产 无码久久久| 在线毛片免费| 亚洲成人手机在线| jizz国产视频| 国产午夜一级毛片| 青青草原偷拍视频| 美女潮喷出白浆在线观看视频| 国产视频一二三区| 精品久久久久无码| 国产亚洲视频中文字幕视频| 日韩午夜片| 伊人无码视屏| 亚欧美国产综合| 国产无码网站在线观看| 久久亚洲日本不卡一区二区| 高清久久精品亚洲日韩Av| 欧美国产成人在线| 久久国产精品无码hdav| 亚洲欧美人成人让影院| 国产特一级毛片| 久久一级电影| 亚洲福利片无码最新在线播放| 无码专区在线观看| 国产毛片网站| 一级毛片在线播放| 男人天堂伊人网| 国产亚洲精品97在线观看| 国产永久在线视频| 国产网站黄| 欧美在线伊人| 波多野结衣久久精品| 天天色天天综合网| 亚洲第一页在线观看| 日韩欧美中文字幕在线韩免费| 国产精品久久久久鬼色| 亚洲人妖在线| 亚洲精品无码专区在线观看| 婷婷综合亚洲| 亚洲成人网在线播放| 成人国产三级在线播放| a在线观看免费| 一级毛片免费不卡在线视频| 免费大黄网站在线观看|