



摘 要: 隨著深度學習的普及與發展,對抗樣本的存在嚴重威脅著深度學習模型的安全。針對物理世界中對抗樣本的攻擊問題,提出了一種基于注意力機制的物理對抗樣本檢測方法。該方法將注意力機制與特征壓縮相結合,對局部可視對抗樣本主要區域進行針對性檢測,排除非主要區域的影響,減少計算工作量;通過有效組合多種特征壓縮方法對樣本中的主要區域進行處理,破壞對抗噪聲塊的結構,使其失去攻擊性。在MNIST 和 CIFAR-10 數據集上對不同的對抗攻擊進行防御測試,并與其他對抗防御方法進行對比實驗。結果表明,該方法的防御準確率可達到95%以上,與其他局部對抗樣本防御方法相比通用性高,穩定性更強,可有效防御局部可視對抗樣本的攻擊。
關鍵詞: 深度學習; 局部可視對抗樣本; 對抗樣本檢測; 注意力機制; 穩定性
中圖分類號: TP391"" 文獻標志碼: A
文章編號: 1001-3695(2022)01-045-0254-05
doi:10.19734/j.issn.1001-3695.2021.06.0255
Research on physical adversarial sample detection method based on attention mechanism
Wei Zhongcheng1a,2, Feng Hao1a,2, Zhang Xinqiu1a,2, Lian Bin1b,2
(1.a.School of Information amp; Electrical Engineering, b.School of Water Conservancy amp; Hydroelectric Power, Hebei University of Engineering, Handan Hebei 056038, China; 2.Hebei Key Laboratory of Security amp; Protection Information Sensing amp; Processing, Handan Hebei 056038, China)
Abstract: With the popularity and development of deep learning,the existence of adversarial samples is a serious threat to the security of the deep learning model.For the attack problem of adversarial samples in the physical world,this paper proposed a physical adversarial sample detection method based on attention mechanism.The method combined attention mechanism and feature compression to detect pertinently of local visual adversarial samples,excluded effects of non-major regions,and reduced calculation effort.It effectively combined multiple feature compression methods to deal with the main areas of the sample,which destroyed the structure of the antagonistic block and made them unaggressive.Perform defense tests on different adversarial attacked on the MNIST and CIFAR-10 data sets and compared with other countermeasures.The experimental results show that the defense accuracy of the method can reach more than 95%.This method is higher versatility and stronger stability than other local adversarial sample defense methods,and can effectively defense the attack of local visual adversarial samples.
Key words: deep learning; local visual adversarial samples; adversarial sample detection; attention mechanism; stability
0 引言
隨著人工智能的不斷發展,深度學習在眾多領域的應用中取得了巨大成功,尤其是在計算機視覺領域,基于神經網絡的圖像識別、目標檢測、目標分割等技術日益成熟并逐步部署到實際應用系統中。然而,深度學習模型容易受到微小輸入擾動的干擾[1],導致模型以高置信度給出錯誤的輸出,從而引發了人們對人工智能安全性的討論。
由特定設計使模型發生錯誤的樣本被稱為對抗樣本。目前的對抗樣本可分為兩類,一類在整張圖像中添加視覺上不可感知的細微擾動[2],另一類是在圖像的某一局部區域添加明顯擾動[3]。相較于前一類對抗樣本,后一類不追求視覺上的隱蔽性,且易在現實世界中實現攻擊效果,更容易造成物理世界的損失。因此本文主要針對物理世界的局部可視對抗樣本展開研究,以提高深度學習模型的安全性。
當前用于防御對抗樣本攻擊的方法可以分為修改訓練過程、修改網絡和添加附加網絡三方面[4]。修改訓練過程的防御主要有對抗訓練、數據壓縮和輸入轉換等。修改網絡的防御方法有防御蒸餾和正則化。附加網絡防御方法有防御通用擾動、生成式對抗網絡防御和對抗檢測等。其中附加網絡防御中的對抗檢測不需要對網絡本身進行改變,只需判斷輸入樣本是否為對抗樣本即可,無須將對抗樣本識別為正確標簽,并且還可與其他防御方法結合使用,在實際生活中更加方便有效。
綜合上述內容,本文針對如何防御物理世界的局部可視對抗樣本攻擊問題進行了研究,提出一種基于注意力機制的物理對抗樣本檢測方法(attention mechanism detection,AMD),將注意力機制與特征壓縮相結合,有效地減少了圖像中的非主要區域的干擾。其采用類激活映射(class activation mapping,CAM)[5]精準定位得到圖像中對分類起主要作用的區域,對圖像不同區域有針對性地進行處理;將多種特征壓縮算法有效組合,對噪聲塊的整體結構進行破壞,使其失去攻擊性。通過實驗驗證了所提方法的可行性與可靠性,與當前流行的局部可視對抗樣本防御方法相比具有更好的穩定性與防御能力。
1 相關工作
1.1 局部可視對抗攻擊
自2013年Szegedy等人[1]提出對抗樣本這一概念后,對抗攻擊的方法越來越多地被提出。一般的對抗攻擊算法都是在原始圖像上加上微弱的噪聲擾動使分類器網絡出錯。而物理對抗攻擊是研究如何在真實世界構建對抗樣本,從而使現實世界中正在運行的深度學習模型受到攻擊。
Nguyen等人[6]提出,面對一些人類無法識別的樣本,深度學習模型也可以將其以高置信度進行分類,這意味著深度學習模型具有極大的脆弱性。2016年,Tabacof等人[7]提出,對抗樣本的應用在圖像方面占據了極大的空間。至此,深度網絡和對抗樣本成為研究熱潮。其中一種對抗樣本為通過將一小塊局部、肉眼可察覺的對抗擾動放置在輸入圖像上,使分類網絡發生誤判。這種擾動具備位置無關性和圖像通用性,可疊加在不同的干凈樣本任意位置上,形成局部可視對抗樣本以攻擊分類網絡。2016年,Sharif等人[8]設計出了帶有對抗樣本性質的眼鏡框,從而達到攻擊人臉識別系統的能力。2017年,Brown等人[3]與Karmon等人[9]提出的一種添加局部像素擾動的方法可以達到靈活添加和局部擾動的效果。2018年,Eykholt等人[10]實現通過在道路交通標志上添加黑白貼片,來使自動駕駛的車輛對路標識別錯誤。2019年,Thys等人[11]生成一個可打印出的局部可視對抗樣本,使得混入對抗因素后實現欺騙檢測網絡。2020年Jia等人[12]利用對抗樣本的特性生成水印,為圖像加入水印,從而實現系統的錯誤識別。局部可視對抗樣本與人眼不可見的全局對抗樣本相比,其攻擊原理更能揭示深度學習模型的安全性問題,對物理世界的危害性更大。
1.2 類激活映射
利用CAM算法得到卷積特征包含定位以及更豐富的語義信息,使得卷積特征與圖像描述具有更好的對應關系。卷積層輸出的特征映射和原圖存在一定的空間對應關系,將最后一層卷積輸出的特征映射進行處理,繪制到原圖上,可得到熱力圖。其中越偏紅色的區域對于最終預測結果的貢獻越大,藍色區域貢獻小。經CAM得到的熱力圖可以幫助人們理解神經網絡是否在查看圖像的適當部位,進一步處理可對圖像中的分類主要區域進行定位。
Zhou等人[5]提出的CAM機制以及Selvaraju等人[13]提出的基于梯度加權的類激活映射(gradient-weighted class activation mapping,Grad-CAM)機制,都表明了圖像在進行分類時其網絡中會包含目標位置信息。CAM中采用全局平均池化層(global average pooling,GAP)[14]替代了分類模型的全連接層,從而將最后一層的卷積輸出轉換為了一維的分類向量。由權重矩陣表示每個特征圖對分類目標的影響,最后通過權重矩陣與相應的分類特征圖進行線性加權,將其上采樣后輸入到原圖像中,得到目標在圖像中的位置信息。
1.3 局部可視對抗樣本防御
針對局部可視對抗樣本的防御方法在近幾年有了進一步的發展,Hayes[15]提出了一種基于圖像修復的對抗攻擊防御方法,并在對抗補丁[3]與LaVAN[9](localized and visible adversarial noise,LaVAN)兩種局部可視的對抗攻擊下進行了防御測試,在不同的修復方法對比下都得到了不錯的防御效果。但是這種防御方法對攻擊者的限制要求很大,防御手段嚴重依賴圖像的密集顯著區域,只要給予攻擊者一定的自由度就會導致繞過該防御。Naseer等人[16]采用局部梯度平滑(local gradients smoothing,LGS)的思想來防御局部對抗攻擊,同樣在兩種對抗樣本中進行了防御測試。通過估計梯度域中的噪聲位置,在圖像送入深度神經網絡之前正則化估計噪聲區域的梯度;通過抑制高頻區域而不影響對分類很重要的低頻圖像區域。Xu等人[17]提出了一種針對各種物理對抗攻擊的全面且輕量級的CNN防御(LanCe)方法,通過檢測出圖像中對結果影響最大的區域,將該區域和訓練數據集中屬于預測標簽的圖像區域進行相似度對比。若是對抗樣本則將檢測出來的區域去除之后采用圖像復原的方法得到干凈樣本。但該方法需與自身的訓練集進行比較,且采用的修復手段較差,對最后的準確性有所影響。McCoyd等人[18]提出了基于部分遮擋每個候選補丁位置周圍的圖像,以便一些遮擋完全隱藏補丁(minority reports defense,MPD)的方法。防御思想是遮擋部分圖像,再對遮擋后的圖像進行分類,遮擋的部分要比最大的對抗噪聲塊大,循環遮蔽圖像中的每一個部位,以期能夠將存在對抗噪聲塊的部位遮擋住再進行分類。該方法需要對每一個被遮蔽的圖像進行分類,計算難度大,資源浪費大。
3.2 實驗結果與分析
1)生成局部可視對抗樣本數據集 對抗樣本的攻擊成功率并不是100%,在不同的數據集下效果也不同。由于其中有些生成的對抗樣本的對抗性并不高,所以需要經過目標模型篩選,得到其中對抗性能強的樣本。
首先用兩種對抗攻擊分別攻擊不同的數據集,得到含有局部可視對抗樣本的數據集,再由模型對數據集進行檢測,篩選出其中對抗攻擊性能強的樣本作為輸入集。表2為不同攻擊方法攻擊不同數據集的對抗攻擊成功率,LaVAN的攻擊成功率在miniImageNet數據集上優于CIFAR-10數據集,對抗補丁方法在CIFAR-10上更有優勢。兩種攻擊方法在miniImageNet數據集上的差距不大,在CIFAR-10數據集上卻有很大的差距。
2)本文方法的檢測結果分析 本文采取的特征壓縮方法有色位壓縮、圖像壓縮、空間濾波和聯合檢測。 由表3可知,本文的檢測方法中聯合檢測效果最好,檢測成功率都在95%以上。其中空間濾波的方法優于色位壓縮與圖像壓縮,因對抗噪聲塊本身是非自然結構且自身也是噪聲組成的,所以濾波的效果要高于另外兩種方法。聯合檢測效果高于其他單個特征壓縮的效果,經分析發現不同的對抗樣本對不同的特征壓縮技術敏感性不同,因此聯合檢測效果更好。
兩種攻擊檢測的效果中,對抗補丁的檢測結果要優于LaVAN。經分析發現,LaVAN的對抗噪聲塊生成方式并不像對抗補丁方法一樣專注于對抗噪聲塊的本身。對抗補丁方法認為局部可視性的噪聲塊使網絡模型作為主要目標,注重于補丁自身的結構,而對周圍區域的紋理有所忽略。LaVAN方法認為網絡模型通常不會將局部可視噪聲塊作為對抗樣本的主要目標,更加重視對抗樣本的攻擊性與整體圖像之間的關聯。因此CAM的定位效果在對抗補丁生成的數據集上略微優于LaVAN生成的數據集,所以在對抗補丁下的防御成功率要高于LaVAN。
3)不同防御方法DSR對比 由表4可知,在CIFAR-10數據集中本文檢測方法的防御效果整體排在第二位,僅次于Hayes防御方法。在兩種對抗攻擊下的防御效果變化不大,整體幅度變化為0.4%,穩定性相對其他方法強。Hayes方法對不同攻擊方法的防御率波動最高為0.9%,其防御對象限制要求大,對稀疏的圖像樣本不敏感,本文采用的CAM實現定位功能,可適用于多種對抗樣本。LGS方法的防御能力排在中間,其防御率的波動為0.8%。該方法通過估計梯度來定位圖像中的噪聲塊,與本文方法相比其定位準確性略低。LanCe方法的防御情況最差,防御率的波動情況相對穩定,但防御時嚴重依賴于本地的樣本庫,需提前提取出樣本的特征值作為對比庫。本文方法無須與樣本庫進行比對,可直接對輸入的樣本進行檢測。MPD方法在不同的攻擊下雖然波動較小,但是耗時卻最長,因為該方法需要用掩碼遍歷整個圖像,導致計算量增大,尤其當樣本越大,耗時越長。本文有針對性地處理圖像中的噪聲塊,無須遍歷全圖,較之計算時間大大減少。在miniImageNet數據集對比中本文方法的防御能力最高,可防御95.8%的對抗補丁攻擊與95.2%的LaVAN攻擊,而且在兩種攻擊下的穩定性也高于其他方法,防御成功率相差0.6%。
通過防御方法在不同數據集與不同攻擊方法下的防御成功率分析,本文方法與LGS在兩種不同的數據集下,其防御率的變化情況不大,除此之外的其他方法受數據集的影響較大。本文提出的方法穩定性強于其他防御方法,在不同的數據集或不同的攻擊中其防御率變化不大,即有較強的通用性。本文方法在CIFAR-10數據集下不如Hayes方法,但是相差不大,而在miniImageNet數據集,本文方法優于LGS方法。與其他防御方法相比,本文方法的防御成功率能保持在95%以上,對局部可視對抗樣本的攻擊能達到有效的防御效果。
4 結束語
本文針對局部可視對抗樣本提出了一種基于注意力機制的物理對抗樣本檢測方法,提高深度學習系統的魯棒性。本文將注意力機制與特征壓縮相結合,有針對性地處理對抗樣本中的噪聲塊,可有效排除樣本中其他區域的干擾。通過有效組合不同的特征壓縮算法,提高了對噪聲塊的處理能力,使其失去攻擊性。在不同的數據集下與其他對抗防御方法進行實驗對比,本文方法穩定性更強,準確率高,可有效地防御局部可視對抗樣本的攻擊。但該檢測方法會造成數據集中的樣本量減少,不適用于小樣本數據集中,因此如何將對抗樣本轉換為有效的干凈樣本,以確保數據集的數據量與完整性是下一步的研究重點。
參考文獻:
[1]Szegedy C,Zaremba W,Sutskever I,et al.Intriguing properties of neural networks[EB/OL].(2013-12-21).https://arxiv.org/abs/1312.6199v1.
[2]Akhtar N,Mian A.Threat of adversarial attacks on deep learning in computer vision:a survey[J].IEEE Access,2018,6:14410-14430.
[3]Brown T B,Mané D,Roy A,et al.Adversarial patch[EB/OL].(2017-12-27).https://arxiv.org/abs/1712.09665.
[4]張嘉楠,趙鎮東,宣晶,等.深度學習對抗樣本的防御方法綜述[J].網絡空間安全,2019,10(8):93-101. (Zhang Jianan,Zhao Zhendong,Xuan Jing,et al.Summary of defense methods for deep learning against samples[J].Cyberspace Security,2019,10(8):93-101.)
[5]Zhou B,Khosla A, Lapedriza A,et al.Learning deep features for discriminative localization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2016:2921-2929.
[6]Nguyen A,Yosinski J,Clune J.Deep neural networks are easily fooled:high confidence predictions for unrecognizable images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:427-436.
[7]Tabacof P,Valle E.Exploring the space of adversarial images[C]//Proc of International Joint Conference on Neural Networks.Pisca-taway,NJ:IEEE Press,2016:426-433.
[8]Sharif M,Bhagavatula S,Bauer L,et al.Accessorize to a crime:real and stealthy attacks on state-of-the-art face recognition[C]//Proc of ACM SIGSAC Conference on Computer and Communications Security.New York:ACM Press,2016:1528-1540.
[9]Karmon D,Zoran D,Goldberg Y.LaVAN:localized and visible adversarial noise[EB/OL].( 2018-01-08).https://arxiv.org/abs/1801.02608v1.
[10]Eykholt K,Evtimov I,Fernandes E,et al.Robust physical-world attacks on deep learning visual classification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1625-1634.
[11]Thys S,Van Ranst W,Goedemé T.Fooling automated surveillance cameras:adversarial patches to attack person detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2019:49-55.
[12]Jia Xiaojun,Wei Xingxing,Cao Xiaochun,et al.Adv-watermark:a novel watermark perturbation for adversarial examples[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:1579-1587.
[13]Selvaraju R R,Cogswell M,Das A,et al.Grad-CAM:visual explanations from deep networks via gradient-based localization[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:618-626.
[14]Lin Min,Chen Qiang,Yan,Shuicheng.Network in network[EB/OL].(2013-12-16).https://arxiv.org/abs/1312.4400.
[15]Hayes J.On visible adversarial perturbations amp; digital watermarking[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Washington DC:IEEE Computer Society,2018:1597-1604.
[16]Naseer M,Khan S,Porikli F.Local gradients smoothing:defense against localized adversarial attacks[C]//Proc of IEEE Winter Confe-rence on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2019:1300-1307.
[17]Xu Zirui,Yu Fuxun,Chen Xiang.LanCe:a comprehensive and lightweight CNN defense methodology against physical adversarial attacks on embedded multimedia applications[C]//Proc of the 25th Asia and South Pacific Design Automation Conference.Piscataway,NJ:IEEE Press,2020:470-475.
[18]McCoyd M,Park W,Chen S,et al.Minority reports defense:defending against adversarial patches[C]//Proc of International Conference on Applied Cryptography and Network Security.Cham:Springer,2020:564-582.
[19]Xu Weilin,Evans D,Qi Yanjun.Feature squeezing:detecting adversarial examples in deep neural networks[EB/OL].(2017-04-04).https://arxiv.org/abs/1704.01155.
[20]Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2818-2826.