張濟慈,范純龍,李彩龍,鄭學東
基于幾何關系的跨模型通用擾動生成方法
張濟慈,范純龍*,李彩龍,鄭學東
(沈陽航空航天大學 計算機學院,沈陽 110136)( ? 通信作者電子郵箱FanCHL@sau.edu.cn)
對抗攻擊通過在神經網絡模型的輸入樣本上添加經設計的擾動,使模型高置信度地輸出錯誤結果。對抗攻擊研究主要針對單一模型應用場景,對多模型的攻擊主要通過跨模型遷移攻擊來實現,而關于跨模型通用攻擊方法的研究很少。通過分析多模型攻擊擾動的幾何關系,明確了不同模型間對抗方向的正交性和對抗方向與決策邊界間的正交性,并據此設計了跨模型通用攻擊算法和相應的優化策略。在CIFAR10、SVHN數據集和六種常見神經網絡模型上,對所提算法進行了多角度的跨模型對抗攻擊驗證。實驗結果表明,給定實驗場景下的算法攻擊成功率為1.0,二范數模長不大于0.9,相較于跨模型遷移攻擊,所提算法在六種模型上的平均攻擊成功率最多提高57%,并且具有更好的通用性。
深度學習;對抗樣本生成;對抗攻擊;跨模型攻擊;分類器
對抗攻擊的提出,更加凸顯了神經網絡在實際生活和生產中的安全問題,因此,研究對抗攻擊算法,不僅能夠理解神經網絡的內部機制和脆弱性,還能進一步探索如何提升神經網絡的安全性和魯棒性,對神經網絡可解釋性的發展也有著重要的意義。
在經典的圖像分類領域中,對抗攻擊可以根據攻擊的場景分為白盒和黑盒算法,二者的區別在于攻擊者是否可以獲得所攻擊模型的詳細信息,如網絡結構、參數等。現有的一些攻擊方法是針對單樣本-單模型設計的,如在典型的白盒應用場景中,快速梯度下降法(Fast Gradient Sign Method, FGSM)[1]認為神經網絡因為具有線性性質而容易受對抗擾動的影響,采用了一種基于梯度符號進行單步攻擊的方法;PGD(Projected Gradient Descent)[2]采用了一種min-max最優化框架,利用多步迭代的方式尋找對抗樣本,解決了FGSM可能在極小范圍內變化劇烈的復雜非線性模型上,解無法收斂的問題;DeepFool[3]同時考慮了梯度信息和神經網絡分類器的函數景觀,將對抗擾動的求解從多元仿射分類器推廣到多元可微分類器中,這種迭代的貪心策略在實踐中取得了不錯的效果;CW[4]同時兼顧高攻擊成功率和低對抗擾動兩個方面,是攻破模型蒸餾防御的有效方法。在黑盒場景中,One pixel[5]針對單模型進行攻擊,采用差分進化算法求得最優解,該方法僅改變一個像素點就能使神經網絡分類器決策失誤;受CW啟發,ZOO(Zeroth Order Optimization)[6]采用了一種基于零階優化的算法,以無導數的方式對梯度進行估計,并對一批坐標進行隨機梯度下降,提高了計算效率;NATTACK[7]通過求出對抗樣本的空間分布,可以針對一個樣本生成無數個對抗樣本。
以上單樣本-單模型的方法在單模型上表現較好,但沒有考慮到樣本級別的通用性,即擾動對樣本集中大部分樣本是通用的。因此研究者們又針對多樣本-單模型的場景提出大量的樣本通用攻擊方法,如UAP(Universal Adversarial Perturbation)[8]以及UAP的改進算法[9-10],UAP表明了分類器高維決策邊界之間的幾何相關性,并利用每個樣本決策邊界的相關性和冗余性得到整個樣本集的通用擾動。還有一些數據無關的工作被提出,如FFF(Fast Feature Fool)[11]采用一種數據無關的方法生成目標數據不可知的擾動,證明了對網絡中單個層的特征激活進行改變就可以改變分類的結果;AAA(Ask, Acquire, and Attack)[12]通過引入生成對抗網絡計算通用擾動。
以上研究在樣本級別上考慮充分,但都只考慮了單模型。目前針對多模型的研究主要集中在對抗樣本的遷移性上,它衡量了一個模型生成的對抗樣本在另一個模型上的表現。文獻[13]中利用局部平滑梯度代替傳統梯度,提出了一個方差減小攻擊來提高對抗樣本的遷移性;文獻[14]中通過結合生成對抗網絡進行對抗攻擊;文獻[15]中通過調整輸入的多樣性提高遷移成功率;文獻[16]中通過結合優化方法和數據增強來提高對抗樣本的遷移性,具體是利用Nesterov算法跳出局部最優解,同時加入縮放不變性;文獻[17]中對基于動量的攻擊進行改進,不僅考慮了圖像時域的梯度,還考慮了圖像空間域的梯度,獲得了較好的遷移成功率;文獻[18]的研究考慮了前一次迭代的梯度方差,通過方差調整當前梯度,從而穩定更新方向,提高對抗樣本的遷移性。也有部分研究深入探索了對抗樣本具有遷移性的內在機制,如文獻[19]中通過大量實驗對神經網絡模型的決策邊界和幾何特性進行分析,發現不同模型之間梯度方向是近似正交的;文獻[20]的研究從類感知的可轉移性進行分析,認為對抗樣本使不同模型出現相同錯誤和不同錯誤的原因是對非魯棒性特征的使用方式不同。
這些針對對抗樣本遷移性的研究取得了大量的優秀成果,但實質上還是沒有針對多模型進行攻擊,這就意味著這些方法僅針對單樣本-單模型或者多樣本-單模型。盡管這些研究在單模型上有著優異的效果,但當場景轉換為多模型時,這些方法的攻擊效率并不能得到保證。在圖像分類領域中,跨模型攻擊的研究還較少,其中文獻[21]中提出了一種集成機制,能保證非目標攻擊的成功率,但它攻擊成功的評價標準并不是擾動同時在多個模型上生效,因此并不是完全意義上的跨模型通用攻擊;文獻[22]中設計一種自適應模型權重的方法在集成模型中進行部分像素攻擊,對擾動模長和模型的組合權重進行自適應選擇,但是實驗的分析和評價指標略有欠缺。從目前的研究現狀來看,跨模型通用攻擊還有很多細節值得探索。
綜上所述,本文將研究重點放在單樣本-多模型的對抗樣本生成方法上。根據兩個幾何特性,提出了一種基于幾何關系的維度累加跨模型通用白盒攻擊算法,并提出對抗樣本的二范數模長優化方法,實驗結果表明,本文算法可以有效地解決跨模型通用攻擊問題,并在攻擊成功率和效率方面均取得了良好的效果。本文的主要工作如下:
1)分析了不同模型間對抗性方向的關系和對抗性方向與決策邊界間的關系,得到兩個幾何特性結論,證明了跨模型通用攻擊的可解性;
2)提出基于幾何關系的維度累加跨模型通用攻擊方法,利用樣本點到決策邊界的最短距離確定單模型擾動向量,從多角度驗證方法在多模型上的有效性;
3)提出基于二分搜索策略的擾動二范數模長優化方法,可以有效地降低擾動的二范數模長大小,并保證擾動仍是跨模型通用的。


根據式(3),跨模型通用攻擊成功的評價指標是所施加的擾動必須在多模型上同時生效,顯然,這個問題在多個深度神經網絡中是高度復雜的,需要更深入地研究對抗樣本的本質以及神經網絡模型的性質。
文獻[16]的研究發現,不同模型之間梯度方向是近似正交的,此外,文獻[23-24]的研究從兩種角度詮釋了對抗樣本存在的原因,其中文獻[23]構建了一種更容易被人類理解的方法,從特征的魯棒性與非魯棒性出發,提出了對抗擾動是一種特征的本質;文獻[24]則從幾何流形的角度分析對抗樣本的特性,文中提到的流形數據與非流形數據與魯棒和非魯棒特征是理解問題的兩種不同角度,這兩篇文章都對對抗樣本的內在特性進行了深入解讀。
受上述研究的啟發,本文設計了一種基于幾何關系的維度累加白盒方法解決跨模型通用攻擊問題。該方法集成了不同模型的敏感擾動,使最終的擾動包含多個模型的擾動特性。
1)對抗擾動與模型邊界的關系。如圖1(a)所示,對于一個二元線性分類器,沿著梯度的方向可以以最快速度找到對抗性擾動,最小的擾動可以用式(4)表示,直觀的理解就是樣本點到決策平面的距離。

在非線性的情況下,根據神經網絡決策邊界近似線性性質,同樣可以通過樣本點到決策平面的距離得到對抗性擾動的方向和大小。這與文獻[24]中對樣本點和決策邊界的分析一致,該文中通過凹槽流形解釋對抗樣本的內在性質及其存在的原因,作者認為訓練好的神經網絡通過在圖像流形中引入凹槽形成了神經網絡的決策邊界,而樣本的對抗性方向近似垂直于圖像流形。通過該理論解釋和圖1(b)中直觀的幾何關系,可以推斷出在一個逼近復雜非線性關系的神經網絡模型中,一個樣本點的梯度方向即對抗性方向,垂直于該點的決策邊界。

圖1 二元線性分類器和二元非線性分類器下的對抗擾動求解


不同訓練方式下的同種模型(NiN模型)的對抗性方向夾角值如圖3所示,可以看出,模型之間的對抗性方向的夾角范圍在76°~90°,在這種情況下,本文方法依然可以找到跨模型擾動的可行解,因為將擾動疊加之后,仍然可以保證最終的擾動中包含其他模型的擾動特性。

圖3 不同訓練方式下同種模型(NiN)的對抗性方向夾角值
根據1.2節的描述,可以推出兩個有關幾何特性的結論:
結論1 在單個模型中,一個樣本點的對抗性方向與決策邊界近似正交。
結論2 在多個模型中,模型間的對抗性方向即梯度方向近似正交。


圖4 跨兩個二元線性分類器的對抗擾動求解



圖5 跨三個二元線性分類器的對抗擾動求解


前面分析了線性分類器中跨模型通用對抗樣本的可解性,根據神經網絡局部決策邊界近似線性這一依據,將多維線性分類器中擾動生成的思想進一步向深度神經網絡的非線性場景中推廣,可以得出一個跨模型通用攻擊的可行策略。


圖6 跨兩個二元非線性分類器的對抗擾動求解


算法1 候選擾動算法。
8) end if
9) end for
算法1中的new_deepfool算法的輸入為待攻擊樣本、攻擊模型和已攻擊過的標簽列表,它與原DeepFool算法的區別是不會再次攻擊之前攻擊過的標簽,這就保證了它不會在原始攻擊點和當前攻擊點之間停留,而是繼續向前尋找下一個可能存在的對抗樣本。該算法的攻擊原理與DeepFool相同,都是通過迭代地找到將輸入圖像推向分類模型的決策邊界的最小擾動量來工作,該擾動是在最接近決策邊界的方向上添加的,然后重復該過程直到圖像被錯誤分類。

算法2 跨模型對抗樣本生成算法。
13) end for
14) end for
15) end for
前面具體描述了跨模型的通用攻擊方法,為了提高生成的對抗樣本的圖像質量,設計了二分模長縮減算法對擾動的二范數模長進行優化。


圖7 跨模型擾動與跨模型決策邊界關系
本文選用CIFAR10[26]和SVHN[27]數據集,以及NiN[28]、VGG11[29]、ResNet18[30]、DenseNet121[31]、GoogleNet[32]、MobileNet[33]六種典型神經網絡分類器,每個分類器通過設置不同的網絡參數初始化方式和學習率得到24種神經網絡分類器,具體可以分為四種訓練方式:方式1(Kaiming初始化+學習率1);方式2(Kaiming初始化+學習率2);方式3(Xavier初始化+學習率1);方式4(Xavier初始化+學習率2)。從測試集中隨機選取了1 000張圖片進行對抗攻擊實驗,對本文算法的有效性及性能進行了驗證。所有實驗均在一臺搭載NVIDIA GeForce RTX 2080Ti GPU 的 Linux 工作站上完成,算法采用Python3.8開發環境及PyTorch1.6框架編程實現。
為驗證本文攻擊算法的效果和性能,設置了如下幾個指標,分別為攻擊成功率、二范數平均模長、圖像質量評估。


3)圖像質量評估指標。


b)峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)是一種評價圖像的客觀標準,它的值越大,說明失真越少。

為了驗證設計算法的攻擊質量,從CIFAR10、SVHN測試集中隨機抽取1 000個樣本進行性能測試,實驗分別從兩個方面進行測試:第一個方面是采用不同訓練方式下的同種模型(模型共4個,具體見表1,每一行為一個模型組)的算法性能;第二個方面是同種訓練方式的不同模型(模型共6個,具體見表1,每一列為一個模型組)的算法性能,對比算法選擇旨在提高對抗樣本遷移性的SINIFGSM[16]、VMIFGSM[18]和VNIFGSM[18],這些算法在跨模型遷移攻擊中表現良好。

表1 模型訓練方式
具體結果見表2、3,從第一個方面(表2)可以看出無論是CIFAR10還是SVHN數據集,算法的攻擊成功率都是1.0,且生成的對抗樣本圖像質量良好;從第二個方面(表3)看,無論是在CIFAR10還是SVHN數據集中,算法的跨模型攻擊成功率也同樣為1.0,生成的對抗樣本圖像質量良好;無論從哪個方面來看,生成的對抗樣本圖像質量良好,二范數模長均不大于0.9;SVHN的擾動二范數模長和平均樣本迭代次數均略大于CIFAR10數據集,其中采用Kaiming初始化方法訓練的模型攻擊效果更好。以上的實驗結果說明,本文算法在有限個不同模型和相同模型之間的跨模型對抗樣本生成問題中都有著良好的效果。
對于表2、3中CIFAR10數據集上的表現效果略優于SVHN數據集的結果,可以解釋如下:在模型訓練中,實驗中用到的模型在SVHN數據集上的收斂速度和測試正確率都高于CIFAR10數據集,這意味著SVHN數據集上的預測值更具有魯棒性,不易被攻擊,因此,它的跨模型通用擾動的二范數模長和平均樣本迭代次數會高于CIFAR10。圖8是算法生成的跨模型對抗樣本的二模長范數分布情況,可以看出在CIFAR10上生成的擾動模長更集中于數值較小的區間,相對于CIFAR10,SVHN數據集下的擾動模長分布跨度較大。

表2 算法2在不同種訓練方式下的同種模型間跨模型攻擊性能

表3 算法2在同種訓練方式下的不同模型間跨模型攻擊性能

圖8 對抗樣本模長分布情況
在算法2的基礎上加入二分模長縮減策略的攻擊質量如表4、5所示,可以看出,加入二分模長搜索策略后攻擊成功率仍然與原始性能相當。從跨不同訓練方式的相同模型攻擊的角度看,在CIFAR10、SVHN數據集中,平均二范數模長下降了10%左右;從跨不同模型攻擊的角度看,在CIFAR10數據集中平均二范數模長下降了10%,在SVHN數據集中,平均二范數模長下降了9%;同時,在這兩個數據集上,生成的跨模型通用對抗樣本的圖片質量較之前也有提升,由此可見該策略對于模長的縮減是有效的。
表6顯示的是三種對比算法在CIFAR10數據集和六種常見模型(方式1模型組)上的攻擊成功率,通過將三種算法在源模型產生的對抗樣本遷移到目標模型來獲得跨模型遷移成功率,從表中數據可以看出本文算法在攻擊成功率上比SINIFGSM、VMIFGSM、VNIFGSM這三種算法都更好,在六種模型上的平均攻擊成功率最多提高57%。圖9展示了部分對抗樣本,從生成的對抗樣本質量來看,本文算法相較于對比算法有著更低的人眼敏感度。

表4 模長優化在不同種訓練方式下的同種模型間的跨模型攻擊性能

表5 模長優化在同種訓練方式下的不同模型間的跨模型攻擊性能

圖9 對抗樣本示例
如圖10,實驗中發現一個有趣的現象,在CIFAR10數據集上,將每個模型上的分擾動和跨模型擾動分別在模型上的攻擊結果進行比較,發現單模型擾動與跨模型擾動的攻擊預測標簽值在分布上是基本一致的。這說明單模型擾動與跨模型擾動在同一模型上的預測表現基本一致,這一現象可能是由于跨模型擾動是由多個正交的單模型擾動組合而來,這個組合的跨模型擾動保留了多個模型產生擾動的特征,使它可以在多個模型中生效。而在SVHN數據集上,這種現象變得不那么明顯,我們推測是SVHN數據集簡單、模型的決策邊界更魯棒所導致的。本實驗結果表現出來的預測一致性,也可以用非魯棒性特征[21]解釋,即跨模型擾動保留了不同模型最敏感的非魯棒性特征。
除此之外,還分析了本文算法下的跨模型攻擊之間的類別敏感度,圖11展示了跨不同模型攻擊場景下,模型原始預測類別和算法攻擊后的預測類別之間的分布關系。可以看出,在CIFAR10數據集中,原始預測類別到攻擊后預測類別的轉換有著明顯的傾向性,攻擊后預測類別為3的樣本最多;而在SVHN數據集中,這種傾向性表現為攻擊后預測類別為2的樣本最多。

表6 對比算法在CIFAR10數據集和六種常見模型上的攻擊成功率
注:*表示源模型與目標模型相同。

圖10 實驗數據集上不同訓練方式下的單模型攻擊與跨不同模型攻擊預測結果對比
本文面向跨模型的通用對抗攻擊場景,根據模型之間和模型內部的正交性,在DeepFool算法的基礎上,提出了一種基于幾何關系的跨模型通用攻擊方法,并有針對性地提出了一種二分模長優化方法,在保證有效愚弄多個模型的同時,降低了人眼對擾動的可察覺性。
使用CIFAR10、SVHN數據集和NiN、VGG11、ResNet18、DenseNet121、GoogleNet、MobileNet六種典型卷積神經網絡模型進行性能驗證,實驗結果表明本文算法在攻擊成功率和二范數模長上都具有很好的效果。但需要指出的是,本文算法在跨模型個數的方面仍有限制,未來工作的一個重要方向是圍繞更加通用的跨模型攻擊框架展開設計。

圖11 實驗數據集上跨不同模型的對抗樣本類別敏感度
[1] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. (2015-03-20) [2022-12-16].https://arxiv.org/pdf/1412.6572.pdf.
[2] M?DRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[EB/OL]. (2019-09-04) [2022-12-16].https://arxiv.org/pdf/1706.06083.pdf.
[3] MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2574-2582.
[4] CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]// Proceedings of the 2017 IEEE Symposium on Security and Privacy. Piscataway: IEEE, 2017: 39-57.
[5] SU J, VARGAS D V, SAKURAI K. One pixel attack for fooling deep neural networks[J]. IEEE Transactions on Evolutionary Computation, 2019, 23(5): 828-841.
[6] CHEN P Y, ZHANG H, SHARMA Y, et al. ZOO: zeroth order optimization based black-box attacks to deep neural networks without training substitute models[C]// Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security. New York: ACM, 2017: 15-26.
[7] LI Y, LI L, WANG L, et al. NATTACK: learning the distributions of adversarial examples for an improved black-box attack on deep neural networks[C]// Proceedings of the 36th International Conference on Machine Learning. New York: JMLR.org, 2019: 3866-3876.
[8] MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Universal adversarial perturbations[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 86-94.
[9] ZHANG C, BENZ P, IMTIAZ T, et al. CD-UAP: class discriminative universal adversarial perturbation[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 6754-6761.
[10] MOPURI K R, GANESHAN A, BABU R V. Generalizable data-free objective for crafting universal adversarial perturbations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(10): 2452-2465.
[11] MOPURI K R, GARG U, BABU R V. Fast feature fool: a data independent approach to universal adversarial perturbations[C]// Proceedings of the 2017 British Machine Vision Conference. Durham: BMVA Press, 2017: No.30.
[12] MOPURI K R, UPPALA P K, BABU R V. Ask, acquire, and attack: data-free UAP generation using class impressions[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11213. Cham: Springer, 2018: 20-35.
[13] WU L, ZHU Z, TAI C, et al. Understanding and enhancing the transferability of adversarial examples[EB/OL]. (2018-02-27) [2022-12-16].https://arxiv.org/pdf/1802.09707.pdf.
[14] LI Y, ZHANG Y, ZHANG R, et al. Generative transferable adversarial attack[C]// Proceedings of the 3rd International Conference on Video and Image Processing. New York: ACM, 2019: 84-89.
[15] XIE C, ZHANG Z, ZHOU Y, et al. Improving transferability of adversarial examples with input diversity[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 2725-2734.
[16] LIN J, SONG C, HE K, et al. Nesterov accelerated gradient and scale invariance for adversarial attacks[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1908.06281.pdf.
[17] WANG G, YAN H, WEI X. Improving adversarial transferability with spatial momentum[EB/OL]. [2022-12-16].https://arxiv.org/pdf/2203.13479.pdf.
[18] WANG X, HE K. Enhancing the transferability of adversarial attacks through variance tuning[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021:1924-1933.
[19] LIU Y, CHEN X, LIU C, et al. Delving into transferable adversarial examples and black-box attacks[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1611.02770.pdf.
[20] WASEDA F, NISHIKAWA S, LE T N, et al. Closer look at the transferability of adversarial examples: how they fool different models differently[C]// Proceedings of the 2023 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2023: 1360-1368.
[21] HE Z, WANG W, XUAN X, et al. A new ensemble method for concessively targeted multi-model attack[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1912.10833.pdf.
[22] WU F, GAZO R, HAVIAROVA E, et al. Efficient project gradient descent for ensemble adversarial attack[EB/OL].[2022-12-16].https://arxiv.org/pdf/1906.03333.pdf.
[23] ILYAS A, SANTURKAR S, TSIPRAS D, et al. Adversarial examples are not bugs, they are features[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 125-136.
[24] SHAMIR A, MELAMED O, BenSHMUEL O. The dimpled manifold model of adversarial examples in machine learning[EB/OL]. [2022-12-16].https://arxiv.org/pdf/2106.10151.pdf.
[25] KNUTH D E. The Art of Computer Programming: Volume 3, Sorting and Searching[M]. Reading, MA: Addison Wesley, 1973.
[26] KRIZHEVSKY A. Learning multiple layers of features from tiny images[R/OL]. [2022-12-16].https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf.
[27] NETZER Y, WANG T, COATES A, et al. Reading digits in natural images with unsupervised feature learning[EB/OL]. [2022-12-16].http://ufldl.stanford.edu/housenumbers/nips2011_housenumbers.pdf.
[28] LIN M, CHEN Q, YAN S. Network in network[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1312.4400.pdf.
[29] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1409.1556.pdf.
[30] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[31] HUANG G, LIU Z, MAATEN L van der, et al. Densely connected convolutional networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2261-2269.
[32] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1-9.
[33] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1704.04861.pdf.
Cross-model universal perturbation generation method based on geometric relationship
ZHANG Jici, FAN Chunlong*, LI Cailong, ZHENG Xuedong
(,,110136,)
Adversarial attacks add designed perturbations to the input samples of neural network models to make them output wrong results with high confidence. The research on adversarial attacks mainly aim at the application scenarios of a single model, and the attacks on multiple models are mainly realized through cross-model transfer attacks, but there are few studies on universal cross-model attack methods. By analyzing the geometric relationship of multi-model attack perturbations, the orthogonality of the adversarial directions of different models and the orthogonality of the adversarial direction and the decision boundary of a single model were clarified, and the universal cross-model attack algorithm and corresponding optimization strategy were designed accordingly. On CIFAR10, SVHN datasets and six common neural network models, the proposed algorithm was verified by multi-angle cross-model adversarial attacks. Experimental results show that the attack success rate of the algorithm in a given experimental scenario is 1.0, and the L2-norm is not greater than 0.9. Compared with the cross-model transfer attack, the proposed algorithm has the average attack success rate on the six models increased by up to 57% and has better universality.
deep learning; adversarial sample generation; adversarial attack; cross-model attack; classifier
1001-9081(2023)11-3428-08
10.11772/j.issn.1001-9081.2022111677
2022?11?11;
2023?04?06;
國家自然科學基金資助項目(61972266)。
張濟慈(1998—),女,遼寧海城人,碩士研究生,CCF會員,主要研究方向:深度學習、對抗攻擊; 范純龍(1973—),男,遼寧沈陽人,教授,博士,CCF會員,主要研究方向:神經網絡可解釋性、復雜網絡分析、智能系統驗證; 李彩龍(1997—),男,江西上饒人,碩士研究生,主要研究方向:深度學習、對抗攻擊; 鄭學東(1977—),男,黑龍江五常人,教授,博士,主要研究方向:DNA計算、人工智能。
TP391
A
2023?04?11。
This work is partially supported by National Natural Science Foundation of China (61972266).
ZHANG Jici, born in 1998, M. S. candidate. Her research interests include deep learning, adversarial attack.
FAN Chunlong, born in 1973, Ph. D., professor. His research interests include neural network interpretability, complex network analysis, intelligent system validation.
LI Cailong, born in 1997, M. S. candidate. His research interests include deep learning, adversarial attack.
ZHENG Xuedong, born in 1977, Ph. D., professor. His research interests include DNA computing, artificial intelligence.