高乾順,范純龍,李炎達,滕一平
基于差分進化的神經網絡通用擾動生成方法
高乾順,范純龍*,李炎達,滕一平
(沈陽航空航天大學 計算機學院,沈陽 110136)( ? 通信作者電子郵箱FanCHL@sau.edu.cn)
針對超球面通用攻擊(HGAA)算法中通用擾動搜索始終限定在空間球面上,不具有球內空間搜索能力的問題,提出一種基于超球面的差分進化算法。該算法將搜索空間擴大到球面內部,并通過差分進化(DE)算法搜索最優球面,從而生成愚弄率更高、模長更低的通用擾動。此外,分析了種群數量等關鍵參數對該算法的影響,并且測試了該算法生成的通用擾動在不同神經網絡模型上的性能。在CIFAR10和SVHN圖像分類數據集上進行驗證,該算法與HGAA算法相比愚弄率最多提高了11.8個百分點。實驗結果表明,該算法擴展了HGAA算法的通用擾動搜索空間,降低了通用擾動的模長,提高了通用擾動的愚弄率。
對抗攻擊;通用擾動;神經網絡;超球面攻擊;差分進化算法
深度神經網絡[1-2]在諸多領域已經廣泛應用,但隨著深度學習技術研究和應用的深入,一些安全問題也逐漸凸顯,對大量智能技術應用場景造成重大安全威脅。研究表明,深度神經網絡對于一些人眼不可見的微小擾動很敏感,這種擾動通常被稱為對抗擾動,生成并在神經網絡輸入上施加對抗擾動的行為被稱作對抗攻擊[3]。神經網絡對抗攻擊打開了神經網絡安全性研究的大門,并得到來自工業界和學術界眾多專家和學者的重視。目前,面向神經網絡的對抗樣本攻防、數據投毒攻防、模型投毒攻防、數據隱私防護、模型隱私防護等諸多安全性研究都快速發展,研究場景也從圖像分類擴展到圖像識別、目標檢測、語音偽裝、強化學習、智能安防、自動駕駛等領域。這些研究工作對提高神經網絡安全性、理解神經網絡的內在機制起到了重要作用,同時也助推了神經網絡的魯棒性、可解釋等方面的研究開展,對發現神經網絡缺陷或者評測神經網絡等均有重要意義。
如果一個對抗擾動能使樣本集內盡可能多的樣本輸出結果錯誤,則該對抗擾動稱為通用擾動。本文對現有通用擾動求解算法進行了總結,并針對超球面通用攻擊(Hyperspherical General Adversarial Attacks, HGAA)算法中通用擾動搜索只能在空間球面上進行,對球面內擾動不具有搜索能力這一問題,提出基于超球面的差分進化算法,通過差分進化(Differential Evolution, DE)算法搜索球內凹陷的優化點,從而將搜索空間擴大到球面內部,并進一步提高通用擾動的愚弄率。本文在兩個數據集(CIFAR10和SVHN)和三個神經網絡模型(NiN、VGG11和ResNet18)上評估了所提出的算法。實驗結果表明,該算法擴展了HGAA算法的通用擾動搜索空間,降低了通用擾動的模長,提高了通用擾動的愚弄率。此外,對算法的配置參數進行實驗分析,給出了參數設置的參考值,同時對算法生成的通用擾動在不同神經網絡模型間的攻擊遷移能力進行實驗驗證。
神經網絡模型容易受到添加了對抗擾動的對抗樣本的攻擊[4-6],導致模型作出錯誤的預測。基于深度卷積神經網絡(Convolutional Neural Network, CNN)的分類器[7-11]也顯示出被人類幾乎察覺不到的敵對干擾欺騙的現象。這種神經網絡的對抗樣本可以通過多種方法得到,如利用模型的線性[7]、有限訓練數據[8]等。更重要的是,對抗樣本可以從一個模型轉移到另一個模型(廣義),即使第二個模型具有不同的體系結構,并在不同的訓練數據集上進行訓練[7,11-13]。
從對抗攻擊在計算機視覺領域被發現開始,研究者們針對對抗攻擊問題進行了大量研究。研究者提出的對抗攻擊算法根據攻擊場景可劃分為:僅訪問模型輸出結果標簽或置信度的黑盒攻擊[14-20],攻擊時可以對模型內部信息進行訪問的白盒攻擊[4,21-24];也可以根據攻擊者的攻擊目的分為有目標攻擊[25]和無目標攻擊[22,26-27];還可以根據攻擊樣本的數量劃分為單樣本攻擊和通用樣本攻擊,其中,單樣本攻擊[17,23-24]針對每個樣本生成不同的擾動,通用樣本攻擊[25-31]針對整個樣本集產生一個通用擾動。

文獻[15]中利用殘差網絡生成與圖像無關的通用擾動,可以實現有目標攻擊;文獻[26]的方法在沒有任何樣本數據的情況下,通過計算CNN各層輸出張量的平均激活值生成通用擾動,并且擾動可以在多個網絡體系結構上傳遞;文獻[27]的方法在不了解數據分布的情況下,通過破壞圖像的特征空間生成通用擾動;文獻[28]中不使用樣本數據,而是通過“類印象”的遷移策略來模擬真實樣本數據制作通用擾動;文獻[29]中通過攻擊分層關聯傳播(Layer-wise Relevance Propagation, LRP)生成的熱力圖產生通用擾動;文獻[30]的方法可以在無法訪問目標模型和樣本數據的情況下,通過微調預訓練模型得到目標模型,在預訓練模型上生成通用擾動進而使目標模型失效。由于攻擊者獲得樣本數據是不合理的,因此無法分析每張樣本數據的決策邊界,導致生成的通用擾動對神經網絡模型的愚弄效果往往并不理想。
超球面通用攻擊(HGAA)算法[33]限定了擾動搜索時的擾動模長,使擾動搜索在特定模長的球面上進行,實現擾動搜索的降維,從而提高通用擾動生成的愚弄率和可控性。但該算法對擾動模長的限定條件較嚴格,導致搜索空間始終在球面上,無法搜索到球內凹陷的更好的擾動點,即對于球面內擾動不具有搜索能力。針對此問題,本文提出利用DE算法[34]擴展HGAA算法的擾動搜索空間,搜索擾動模長更小的通用擾動。
本文針對圖像分類神經網絡的通用擾動生成場景,優化HGAA算法,提出基于超球面的差分進化算法。主要工作如下:
1)提出基于超球面的差分進化算法,通過DE算法搜索球內凹陷優化點,進一步降低通用擾動模長,提高通用擾動性能。
2)分析種群數量等參數對DE算法的影響及其與擾動性能的關系,合理設置參數大小,提高通用擾動的愚弄率。
3)將優化算法在不同神經網絡模型上進行測試,驗證了算法生成的通用擾動具有較好的性能,并對多種模型同時生效。




DE算法是一種通過模擬自然進化過程搜索最優解的方法。與遺傳算法不同,DE算法在變異操作方面使用差分策略,即利用種群中個體間的差分向量對個體進行擾動,實現個體變異。DE算法獨特的變異方式可以有效利用群體分布特性,提高算法的搜索能力,從而避免遺傳算法中變異方式不足的問題。差分進化通過反復迭代,使那些適應環境的個體被保存下來。一般包含四個步驟:初始化、變異、交叉和選擇。具體算法流程如下:

在變異操作中需要防止越界,即對每個個體判斷是否在指定的范圍內,如果不滿足邊界條件,可用初始化種群的隨機方法重新生成。
由于HGAA算法對通用擾動模長的限定條件過于嚴格,導致搜索空間始終在球面上,無法搜索到球內凹陷的更好的通用擾動點,即對于球面內擾動不具有搜索能力。針對此問題,本文提出基于超球面的差分進化算法,擴展HGAA算法的擾動搜索空間,搜索擾動模長更小的通用擾動,問題描述如式(3)、(4)所示:










經過一定數量的迭代,就能夠找到最優的通用擾動及其對應的模長和愚弄率,根據前文基于超球面的差分進化算法思想描述,明確了基于超球面的差分進化算法的過程,下面算法1給出了該算法的具體描述:
算法1 基于超球面的差分進化算法。
b) FOR=1 toDO
FOR=1 toDO
END
ELSE
END
END
選用CIFAR10、SVHN作為實驗數據集,采用NiN、VGG11、ResNet18神經網絡模型進行對抗攻擊實驗,對本文算法性能和關鍵參數影響進行實驗分析,實驗全部在一臺搭載有NVIDIA GeForce RTX 2080Ti GPU顯卡的工作站完成,采用Python 3.8編程開發環境和Pytorch1.8.0框架。





表1 對比算法在不同數據集、不同模長、不同網絡模型下的和



表2 各算法在不同數據集與網絡模型下的查詢次數與FR對比


圖1 不同網絡模型生成的通用擾動
在CIFAR10數據集上,選擇ResNet18網絡模型,將本文算法生成的通用擾動加入到原始樣本中,生成的對抗樣本如圖2所示,圖像下方為原始樣本的預測標簽和對抗樣本的預測標簽。

圖2 CIFAR10數據集的原始樣本和加入擾動后的對抗樣本及其預測標簽
在同一網絡模型下不同算法生成的通用擾動是不同的,圖3是本文算法與對比算法在CIFAR10數據集上的攻擊示例。

圖3 CIFAR10數據集上不同算法生成的對抗樣本


表3 本文算法通用擾動的跨模型攻擊得到的
通用擾動可以很好地推廣到其他網絡體系結構。這種普遍性可以用這樣一個事實來解釋:如果深度神經網絡獨立于它的架構細節,確實學會了檢測低層次的模式,如邊緣,那么添加一個邊緣類噪聲很有可能破壞預測。
本文算法涉及多個手工配置參數,這些參數的取值會對算法的攻擊效果產生一定的影響,因此,對算法涉及的配置參數進行了實驗分析,實驗中隨機選擇CIFAR10測試集中1 000個樣本作為待攻擊數據集,選擇ResNet18作為對抗攻擊的目標模型,以驗證關鍵參數取值對算法性能的影響。

表4 參數M對算法的影響

表5 參數lb對算法的影響

表6 參數T對算法的影響
3.5.4訓練樣本數量對算法的影響


圖4 訓練樣本數對的影響
針對HGAA算法中通用擾動搜索只能在球面上進行,對球面內擾動不具有搜索能力這一問題,提出基于超球面的差分進化算法,通過DE算法搜索球內凹陷的優化點,從而進一步降低通用擾動模長,提高通用擾動的攻擊性能。實驗結果表明,該算法擴展了HGAA算法的通用擾動搜索空間,降低了通用擾動的模長,提高了通用擾動的愚弄率。另外,對算法的配置參數進行實驗分析,給出了參數設置的參考值,同時對算法生成的通用擾動在不同神經網絡模型間的攻擊遷移能力進行實驗驗證。DE算法在效率和精度上優于遺傳算法,并且與粒子群算法相比不容易陷入局部最優,對于其他啟發式算法,也許可以搜索到相同性能的通用擾動,甚至效果要優于DE算法,但目前還沒有進行相關的研究分析,因此這也是今后需要開展的一項工作。通用擾動是對抗攻擊研究的重要方面,目前的研究還主要集中在分類等典型神經網絡應用場景,對不同應用場景的研究依然不足,另外,對抗攻擊在物理世界中的應用效果還有待深入研究。
[1] LeCUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[2] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[3] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[EB/OL]. [2022-09-10].https://arxiv.org/pdf/1312.6199.pdf.
[4] BIGGIO B, CORONA I, MAIORCA D, et al. Evasion attacks against machine learning at test time[C]// Proceedings of the 2013 Joint European Conference on Machine Learning and Knowledge Discovery in Databases, LNCS 8190. Berlin: Springer, 2013: 387-402.
[5] BIGGIO B, FUMERA G, ROLI F. Pattern recognition systems under attack: design issues and research challenges[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2014, 28(7): No.1460002.
[6] HUANG L, JOSEPH A D, NELSON B, et al. Adversarial machine learning[C]// Proceedings of the 4th ACM Workshop on Security and Artificial Intelligence. New York: ACM, 2011: 43-58.
[7] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. [2022-09-10].https://arxiv.org/pdf/1412.6572.pdf.
[8] BENGIO Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-127.
[9] KURAKIN A, GOODFELLOW I J, BENGIO S. Adversarial machine learning at scale[EB/OL]. [2022-09-10].https://arxiv.org/pdf/1611.01236.pdf.
[10] MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2574-2582.
[11] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[EB/OL]. [2022-09-10].https://arxiv.org/pdf/1312.6199.pdf.
[12] DONG Y, LIAO F, PANG T, et al. Boosting adversarial attacks with momentum[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 9185-9193.
[13] HUANG Q, KATSMAN I, GU Z, et al. Enhancing adversarial example transferability with an intermediate level attack[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 4732-4741.
[14] PAPERNOT N, McDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[C]// Proceedings of the 2017 ACM Asia Conference on Computer and Communications Security. New York: ACM, 2017: 506-519.
[15] SARKAR S, BANSAL A, MAHBUB U, et al. UPSET and ANGRI: breaking high performance image classifiers[EB/OL]. [2022-09-10]. https://arxiv.org/pdf/1707.01159.pdf.
[16] CISSE M, ADI Y, NEVEROVA N, et al. Houdini: fooling deep structured prediction models[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6980-6990.
[17] CHEN P Y, ZHANG H, SHARMA Y, et al. ZOO: zeroth order optimization based black-box attacks to deep neural networks without training substitute models[C]// Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security. New York: ACM, 2017: 15-26.
[18] SU J, VARGAS D V, SAKURAI K. One pixel attack for fooling deep neural networks[J]. IEEE Transactions on Evolutionary Computation, 2019, 23(5): 828-841.
[19] ILYAS A, ENGSTROM L, ATHALYE A, et al. Black-box adversarial attacks with limited queries and information[C]// Proceedings of the 35th International Conference on Machine Learning. New York: JMLR.org, 2018: 2137-2146.
[20] LI P, YI J, ZHANG L. Query-efficient black-box attack by active learning[C]// Proceedings of the 2018 IEEE International Conference on Data Mining. Piscataway: IEEE, 2018: 1200-1205.
[21] DONG Y, LIAO F, PANG T, et al. Discovering adversarial examples with momentum[EB/OL]. [2022-09-10].https://arxiv.org/pdf/1710.06081v1.pdf.
[22] MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Universal adversarial perturbations[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 86-94.
[23] CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]// Proceedings of the 2017 IEEE Symposium on Security and Privacy. Piscataway: IEEE, 2017: 39-57.
[24] SHI Y, HAN Y, ZHANG Q, et al. Adaptive iterative attack towards explainable adversarial robustness[J]. Pattern Recognition, 2020, 105: No.107309.
[25] ZHANG C, BENZ P, IMTIAZ T, et al. CD-UAP: class discriminative universal adversarial perturbation[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 6754-6761.
[26] MOPURI K R, GARG U, BABU R V. Fast feature fool: a data independent approach to universal adversarial perturbations[C]// Proceedings of the 2017 British Machine Vision Conference. Durham: BMVA Press, 2017: No.30.
[27] MOPURI K R, GANESHAN A, BABU R V. Generalizable data-free objective for crafting universal adversarial perturbations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(10): 2452-2465.
[28] MOPURI K R, UPPALA P K, BABU R V. Ask, acquire, and attack: data-free UAP generation using class impressions[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11213. Cham: Springer, 2018: 20-35.
[29] WANG Z, HUANG X, YANG J, et al. Universal adversarial perturbation generated by attacking layer-wise relevance propagation[C]// Proceedings of the IEEE 10th International Conference on Intelligent Systems. Piscataway: IEEE, 2020: 431-436.
[30] HUAN Z, WANG Y, ZHANG X, et al. Data-free adversarial perturbations for practical black-box attack[C]// Proceedings of the 2020 Pacific-Asia Conference on Knowledge Discovery and Data Mining, LNCS 12085. Cham: Springer, 2020: 127-138.
[31] OSELEDETS I, KHRULKOV V. Art of singular vectors and universal adversarial perturbations[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8562-8570.
[32] WU J, ZHOU M, LIU S, et al. Decision-based universal adversarial attack[EB/OL]. [2022-09-10].https://arxiv.org/pdf/2009.07024.pdf.
[33] 范純龍,李彥達,夏秀峰,等.基于隨機梯度上升和球面投影的通用對抗攻擊方法[J].東北大學學報(自然科學版),2022,43(2): 168-175. (FAN C L, LI Y D, XIA X F, et al. A general adversarial attack method based on random gradient ascent and spherical projection[J]. Journal of Northeast University (Natural Science), 2022, 43(2): 168-175.)
[34] STORN R, PRICE K. Differential evolution — a simple and efficient heuristic for global optimization over continuous spaces[J]. Journal of Global Optimization, 1997, 11(4):341-359.
Universal perturbation generation method of neural network based on differential evolution
GAO Qianshun, FAN Chunlong*, LI Yanda, TENG Yiping
(,,110136,)
Aiming at the problem that the universal perturbation search in HGAA (Hyperspherical General Adversarial Attacks) algorithm is always limited to the spatial spherical surface, and it does not have the ability to search the space inside the sphere, a differential evolution algorithm based on hypersphere was proposed. In the algorithm, the search space was expanded to the interior of the sphere, and Differential Evolution (DE) algorithm was used to search the optimal sphere, so as to generate universal perturbations with higher fooling rate and lower modulus length on this sphere. Besides, the influence of key parameters such as the number of populations on the algorithm was analyzed, and the performance of the universal perturbations generated by the algorithm on different neural network models was tested. The algorithm was verified on CIFAR10 and SVHN image classification datasets, and the fooling rate of the algorithm was increased by up to 11.8 percentage points compared with that of HGAA algorithm. Experimental results show that this algorithm extends the universal perturbation search space of the HGAA algorithm, reduces the modulus length of universal perturbation, and improves the fooling rate of universal perturbations.
adversarial attack; universal perturbation; neural network; hypersphere attack; Differential Evolution (DE)algorithm
1001-9081(2023)11-3436-07
10.11772/j.issn.1001-9081.2022111733
2022?11?22;
2023?03?17;
國家自然科學基金資助項目(61902260); 遼寧省教育廳科學研究項目(JYT2020026)。
高乾順(1997—),男,山東臨沂人,碩士研究生,主要研究方向:深度學習、對抗攻擊; 范純龍(1973—),男,遼寧沈陽人,教授,博士,CCF會員,主要研究方向:神經網絡可解釋性、復雜網絡分析、智能系統驗證; 李炎達(1999—),男,遼寧沈陽人,碩士研究生,主要研究方向:深度學習、對抗攻擊; 滕一平(1989—),男,遼寧沈陽人,副教授,博士,CCF會員,主要研究方向:隱私保護、深度學習。
TP391
A
2023?03?31。
This work is partially supported by National Natural Science Foundation of China (61902260), Scientific Research Project of Educational Department of Liaoning Province (JYT2020026).
GAO Qianshun, born in 1997, M. S. candidate. His research interests include deep learning, adversarial attack.
FAN Chunlong, born in 1973, Ph. D., professor. His research interests include neural network interpretability, complex network analysis, intelligent system verification.
LI Yanda, born in 1999, M. S. candidate. His research interests include deep learning, adversarial attack.
TENG Yiping, born in 1989, Ph. D., associate professor. His research interests include privacy protection, deep learning.