基于邊界值不變量的對抗樣本檢測方法

2020-04-15 03:47:50嚴飛張銘倫張立強

網絡與信息安全學報 2020年1期

嚴飛，張銘倫，張立強

基于邊界值不變量的對抗樣本檢測方法

嚴飛，張銘倫，張立強

（武漢大學國家網絡安全學院空天信息安全與可信計算教育部重點實驗室，湖北武漢 430072）

目前，深度學習成為計算機領域研究與應用最廣泛的技術之一，在圖像識別、語音、自動駕駛、文本翻譯等方面都取得良好的應用成果。但人們逐漸發現深度神經網絡容易受到微小擾動圖片的影響，導致分類出現錯誤，這類攻擊手段被稱為對抗樣本。對抗樣本的出現可能會給安全敏感的應用領域帶來災難性的后果。現有的防御手段大多需要對抗樣本本身作為訓練集，這種對抗樣本相關的防御手段是無法應對未知對抗樣本攻擊的。借鑒傳統軟件安全中的邊界檢查思想，提出了一種基于邊界值不變量的對抗樣本檢測防御方法，該方法通過擬合分布來尋找深度神經網絡中的不變量，且訓練集的選取與對抗樣本無關。實驗結果表明，在LeNet、vgg19模型和Mnist、Cifar10數據集上，與其他對抗檢測方法相比，提出的方法可有效檢測目前的常見對抗樣本攻擊，并且具有低誤報率。

深度神經網絡；邊界檢查；不變量；對抗樣本檢測

1 引言

深度神經網絡（DNN）在許多應用中取得了非常明顯的成功，如人臉識別[1]、自動駕駛汽車[2]、惡意軟件分類[3]和專用網絡連接歸屬[4]。但隨著時間的推移，研究人員發現了DNN容易受到對抗樣本的影響[5]，即攻擊者可以干擾良性輸入，加入擾動，使DNN出現分類錯誤的情況。目前對抗樣本的攻擊方法主要分為兩種：基于梯度的方法和基于內容的方法。在基于梯度的方法中，攻擊者將生成對抗樣本視為優化問題，并進行梯度搜索以找到對抗樣本[6-10]。在基于內容的方法中，攻擊者更追求現實世界中的可用性，通常為輸入數據加入補丁，這些補丁與現實世界相符，如圖像上的水印和由攝像機鏡頭上的污垢造成的黑點等[11]。

目前對這類問題的解決思路主要包括兩個方向：提升DNN系統自身穩健性和檢測對抗樣本。在提升DNN穩健性方面，比較典型的工作包括對抗訓練[7]和梯度遮掩[12]。對抗訓練主要是將對抗樣本加入DNN的訓練過程中，以此來增強DNN模型本身，這種技術對于已知攻擊十分有效，對于未知攻擊效果有限。梯度遮掩則是通過對于梯度進行遮掩，使攻擊者難以利用梯度進行對抗樣本生成。然而，攻擊者已經開發了針對此類防御更高級的攻擊手段。文獻[13-16]不試圖加強模型本身，而是在操作過程中檢測對抗樣本。例如，Ma等[15]提出使用基于局部內在維度的異常檢測度量來檢測對抗樣本；Xu[16]等使用精心構造的濾波器來檢查原始圖像與轉換后圖像的預測的不一致性；MagNet[17]和HGD[18]則通過訓練編碼器和解碼器來去除對抗樣本的附加噪聲。

調查發現目前多數針對對抗樣本的防御，往往考慮的是正常圖片與對抗樣本之間基于圖片像素之間的差異，通過這些差異進行對抗樣本的檢測防御。同時，大多數方法都需要對抗樣本作為訓練數據，由于新式對抗樣本攻擊方法層出不窮，因此并不能有效防御未知對抗樣本攻擊手段。本文借鑒軟件安全中的邊界檢查概念，僅僅通過訓練數據進行檢測器的訓練，提出了基于邊界值不變量的對抗樣本檢測方法（簡稱BVI），該方法通過擬合分布來尋找深度神經網絡中的不變量，具備對抗樣本攻擊手法無關的檢測能力。實驗表明，該方法與同類工作相比，不僅可以檢測未知新型對抗樣本攻擊，還具有誤報率低的優勢。

2 對抗樣本簡介及相關工作

本節將對深度神經網絡以及常見的對抗樣本攻擊和防御手段進行介紹。

2.1 神經網絡

本文集中于-class分類模型。對于-class分類模型，模型輸出是一個維的vector，每一維表示輸入被分類為該類別的概率。定義一個神經網絡，如式(1)所示。

2.2 對抗樣本分類介紹

DNN受到對抗樣本的影響。對抗樣本是在被正常分類的輸入上加入一些擾動，使分類器對其分類錯誤。目前的工作主要有兩種不同類別的生成對抗樣本的方法：基于梯度的方法與基于內容的方法。

（1）基于梯度的方法

因此，生成對抗樣本可以被看作優化問題，targeted攻擊如式(4)所示，untargeted攻擊如式(5)所示。

（2）基于內容的攻擊

2.3 常見對抗樣本攻擊手段

本節將討論針對DNN模型的4種現有的代表性攻擊，包括基于梯度的攻擊和基于內容的攻擊。雖然一般情況下機器學習模型存在對抗性攻擊[23]，但本文主要關注DNN模型上的對抗性樣本。

（1）快速梯度符號方法(FGSM，fast gradient sign method)

（2）DeepFool

Moosavi等[24]設計了DeepFool攻擊，首先假設模型是完全線性的。在這個假設下，有一個多面體可以分離各個類。生成對抗樣本成為一個更簡單的問題，因為類的邊界是線性平面，整個區域（對于這個類）是一個多面體。DeepFool攻擊通過使用2距離搜索特定區域內具有最小擾動的對抗樣本，采用幾何中的方法來指導搜索對抗樣本的過程。對于模型不完全線性的情況，通過利用迭代線性化過程導出近似多面體，并在找到真正的對抗樣本時終止該過程。該攻擊的變化是在原始對象附近。DeepFool是untargeted攻擊。

（3）基于雅可比的顯著性圖攻擊（JSMA，Jacobian-based saliency map attack）方法

（4）Carlini and Wagner attacks(C&W)

2.4 現有的對抗樣本防御與檢測手段

目前，主流防御手段主要分為模型本身防御與外置的檢測手段。

對于現有的防御手段，防御技術通過強化DNN模型以防止對抗樣本攻擊[27-29]。Papernot等[30]全面研究了現有的防御機制，并將其分為兩大類：對抗性訓練和梯度掩蔽。

Goodfellow等[7]介紹了對抗性訓練的思想。對抗訓練擴展了訓練數據集，包括帶有正確標簽的對抗樣本。但是，對抗訓練需要事先了解所有可能的攻擊，因此無法處理新的攻擊方法。

梯度遮掩[12]的基本思想是通過訓練具有微小（如接近0）梯度的模型來增強訓練過程，使模型對輸入中的微小變化不敏感。然而，實驗表明梯度遮掩可能導致正常輸入樣本的準確性降低。Papernot等[31]引入防御性蒸餾來強化DNN模型。它通過平滑現有DNN的預測結果來訓練模型。通過將softmax函數平滑，來隱藏來自攻擊者的梯度信息。然而，此類模型可以通過高級攻擊[9-10,32]來打破。Athalye等[33]研究表明，通過梯度近似可以避免混淆梯度。Papernot等[30]得出結論，由于對抗樣本的可傳遞性，在訓練中控制梯度信息對防御對抗性攻擊的影響有限，傳遞性意味著從某模型生成的對抗樣本可用于攻擊不同的模型。

對于現有檢測方面，對抗樣本檢測用于確定特定輸入樣本是否是對抗樣本。許多之前的研究[14,34-37]已經建立了檢測系統。現有的檢測手段可分為兩大類：基于度量的方法與基于預測不一致的方法。

（1）基于度量的方法

有關研究人員已經提出對輸入（和激活值）進行統計測量以檢測對抗樣本。FEINMAN等[13]提出使用核密度估計（KD）和貝葉斯不確定性（BU）來識別對抗子空間，以分離正常輸入和對抗樣本。Carlini等[38]表明這種方法可以被繞過，但也認為這種方法是有希望的方向。受到來自異常檢測社區的想法的啟發，Ma等[15]最近提出使用被稱為局部內在維度（LID）的測量。對于給定的樣本輸入，該方法估計LID值，該LID值通過計算樣本的距離分布和各個層鄰居的數量來評估樣本周圍區域的空間填充能力。該文獻表明，對抗樣本往往具有較大的LID值。他們的研究結果表明，LID在對抗樣本檢測中優于BU和KD，目前代表了這類型探測器的最精確水平。這些技術的關鍵挑戰是如何定義高質量的統計指標，使該指標可以清楚地分辨正常樣本和對抗樣本之間的差異。Lu等[39]研究表明LID對攻擊部署的置信參數很敏感，并且容易受到對抗樣本傳遞性的影響。

（2）基于預測不一致的方法

許多其他工作[6,40-41]都基于預測不一致的方法，即對抗樣本具有擾動，利用其他檢測手段與原輸出進行比較，一致為正常樣本，不一致則為對抗樣本。TAO等[41]提出通過測量原始神經網絡和用人類可感知屬性增強的神經網絡之間的不一致來檢測對抗性的例子，然而，這種方法需要人類定義的檢測屬性。最先進的檢測技術Feature Squeezing[16]可以實現對各種攻擊非常高的檢測率，文獻指出，DNN具有不必要的大輸入特征空間，這允許對手產生對抗樣本。因此，他們提出使用擠壓技術（即減小圖像的顏色深度和平滑圖像），以產生一些壓縮圖像。特征擠壓限制了對手可用的自由度，然后DNN模型獲取所有壓縮圖像和原始種子圖像，并單獨進行預測。通過測量原始種子輸入的預測矢量和每個壓縮圖像之間的距離來檢測對抗性樣本。如果其中一個距離超過閾值，則種子輸入被視為惡意。然而，根據文獻[16]，該技術在FGSM、BIM和一些基于內容的攻擊方法在CIFAR和ImageNet上表現不佳。這是因為其性能高度依賴于設計的擠壓器的質量。

3 對抗樣本檢測器分析與實現

3.1 威脅模型

假設對手知道原始分類器的所有內容（包括訓練的權重），以便攻擊者可以構建強攻擊，如CW攻擊。同時檢測器不知道用于生成對抗樣本的方法。根據攻擊者對于檢測器的了解程度，可以分成多種場景。最弱的攻擊場景是對手對探測器一無所知，在這種情況下，攻擊者僅了解原始分類器。最強大的攻擊場景是對手完全了解使用的探測器。

由于探測器本身也是一個分類器，這使它容易受到對抗性樣本的影響[42]。不過，此限制并非特定于本文的技術，因為其他現有檢測技術也遇到相同的問題。在如此強大的威脅模型下，與其他技術相比，本文的技術具有更好的彈性。如第3.2節所述，本文采用的檢測器基于多個子特征。在檢測器的訓練期間，在激活的神經元上分別擬合分布以產生多個分布函數，這能夠靈活地生成多個檢測器。在運行時，可以使用不同的檢測器（或它們的組合）來檢測對抗樣本，這大大提高了產生對抗樣本的難度。但是，完全防止對抗樣本對于所有的DNN是幾乎不可能的。本文的目標是建立一個通用而實用的解決方案來大幅提高攻擊者的攻擊門檻。

3.2 基于邊界值檢查的不變量

邊界檢查在程序設計中是指在使用某一個變量前，檢查該變量是否處在一個特定范圍之內。最常見的是數組的下標檢查，防止下標超出數組范圍而覆蓋其他數據。若邊界檢查未能有效發現錯誤，最常見的結果是程序出現異常并終止運行，但也可能出現其他現象。將邊界檢查應用到神經網絡中，每一個神經元經過訓練集的訓練后，都可以得到一組該神經元關于訓練集的輸出集合，如式(7)所示。

同時，由于DNN擁有多層結構與大量神經元，因此通過計算每個神經元的邊界值開銷過大。基于對抗樣本是對于原圖片擾動的假設，在神經網絡開始的層擾動帶來的影響更大。后續的層擾動經過傳遞逐漸減弱，每一層點的分布開始和正常樣本趨于一致。

3.3 檢測器的實現

對抗樣本本質是在正常圖片中加入擾動，該擾動造成傳遞過程中輸出值的改變，從而最終影響分類結果。在神經網絡中，低層往往提取的是最基本的特征。對抗樣本為了造成分類錯誤，對于低層擾動更大，更可能造成其分布與正常樣本不同，因此可以通過擬合前面幾層的數據分布作為訓練監測模型的特征。

對于輸入，需要了解是否符合中的所有分布。由于是對單個輸入，并且目標中的分布不一定是正態分布，所以采用K-S（Kolmogorov- Smirnov）檢驗。K-S檢驗是以兩位蘇聯數學家Kolmogorov和Smirnov的名字命名的，它是一個擬合優度檢驗，研究樣本觀察值的分布和設定的理論分布是否吻合，通過對兩個分布差異的分析確定是否有理由認為樣本的觀察結果來自所假定的理論分布總體。因此，對于輸入，計算關于所有分布的K-S檢驗，得到的pvalue值為輸入關于分布f的置信度，也就是關于神經元的邊界檢查置信度。該置信度值為后面訓練檢測器所使用的特征。

本文檢測器的一大特點是僅使用良性樣本，也就是只使用訓練樣本作為檢測器的訓練集，這使該檢測器不同于那些基于對抗訓練的防御方法以及需要對抗樣本作為訓練集的檢測器。因此，本文的檢測器是與對抗樣本攻擊無關的，不需要考慮具體的對抗樣本攻擊手段，這樣對于未知的對抗樣本也具有很好的防御效果。

本文將不含對抗樣本的訓練任務建模為一個單分類任務。在單分類任務中，大部分訓練樣本是正例，在測試時包含所有種類輸入（如不同環境下的對抗樣本攻擊）。單分類任務在文獻[37,43]中經過詳細討論。盡管單分類不如正負分類精確，但在本文的場景中非常適合，因為使用了多組不變量聯合作為決策依據，因此可以有效緩和單分類的不精確問題。

本文使用One-class SVM[37]算法作為分類器。One-class SVM的基本思想是在不同類別之間假設一個決策邊界，通過訓練集來學習決策邊界的參數。對于OSVM來說，最常用到的是RBF核，在本文的條件中，大部分輸入是不合法的（如大多數隨機圖片是不真實的），合法輸入都聚集在一個小空間中，因此使用RBF可以得到很好的效果。使用之前得到的輸入關于中分布的K-S檢驗置信度作為特征進行OSVM的訓練，核為RBF核，由此得到本文的檢測器。其正例輸出為1，則為正常樣本；輸出?1，則為對抗樣本。

4 實驗測試與分析

4.1 實驗設置

1) 數據集。本文采用兩個流行的圖像數據集MNIST[44]，CIFAR-10[45]。MNIST是用于手寫數字識別的灰度數據圖像。CIFAR-10是用于對象識別的彩色圖像數據集。本文選擇這兩個數據集是因為它們是此任務中使用最廣泛的數據集，并且目前大部分攻擊都是針對它們執行的。其中MNIST數據集具有60 000張訓練圖片，10 000張測試圖片。CIFAR-10具有50 000張彩色訓練圖片，10 000張測試圖片。MNIST和CIFAR-10均為多分類問題。

2) 對抗樣本攻擊手段。本文評估了第2節描述的4種攻擊的檢測。對于FGSM、JSMA攻擊，使用Foolbox庫[46]來生成對抗樣本，而對于其他攻擊，參考了文獻[24-25]。對于這4種攻擊，FGSM采用untargeted攻擊方式，因為相比targeted方式，untargeted修改的幅度更小，更難被檢測出來。對于CW和JSMA攻擊，采用兩種攻擊配置：下一類別攻擊（記作Next），即使圖片錯誤分類成它的下一個類別（如將2分類成3）最小類別攻擊（記作LL），將圖片錯誤分類成其差異最大的類別（如將1分類成8）。

3) 模型。本文在兩種流行的模型上評估提出的技術。對于MNIST數據集，使用LeNet家族中的LeNet-5模型[45]；對于CIFAR-10數據集，采用VGG19模型[47]。

4) 比較。同樣和頂尖的檢測器進行對比。基于度量的防御方法選取LID[15]；降噪的防御方法選取MagNet[17]；基于預測不一致的防御方法，選取Feature Squeezing[16]。

4.2 實驗結果

本文方法對于對抗樣本檢測的結果如表1所示。從結果可以看出，除了JSMA攻擊，其余都基本全部檢測出來。由于JSMA是0攻擊，修改的像素點較少，因此邊界檢查即分布擬合的違反較小，所以準確率相較于其他方法較低。

本文方法與其他檢測器的檢測結果的比較如表2所示。每一行代表一個檢測器方法，每一列代表一種攻擊手段。從表2可以看出，本文的檢測手段基本達到了目前最高水準的準確率。同時，具有目前最低的誤報率，這是基于測試集分布與訓練集基本一樣得到的，這意味著本文的檢測器模型最大程度上避免將良性樣本分類成對抗樣本，因此本文的分類器分類結果最為可信。

表1 本文方法對于對抗體檢測的結果

表2 本文方法與其他檢測器的檢測結果的比較

5 結束語

本文基于傳統軟件安全領域的邊界檢查，通過擬合輸出的分布，構建了一種不依賴于攻擊方式的對抗樣本防御手段。本文的防御手段只使用了訓練集和圖像本身的信息，而不需要任何特定對抗樣本攻擊知識。實驗結果表明，采用邊界不變量的檢測手段達到了目前最好的檢測效果級別，同時擁有極低的誤報率，可以更有效地進行對抗樣本檢測。

[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2012: 1097-1105.

[2] BOJARSKI M, Del TESTA D, DWORAKOWSKI D, et al. End to end learning for self-driving cars[J]. arXiv preprint arXiv:1604.07316, 2016.

[3] DAHL G E, STOKES J W, DENG L, et al. Large-scale malware classification using random projections and neural networks[C]// 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. 2013: 3422-3426.

[4] MIRSKY Y, DOITSHMAN T, ELOVICI Y, et al. Kitsune: an ensemble of autoencoders for online network intrusion detection[J]. arXiv preprint arXiv:1802.09089, 2018.

[5] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.

[6] DHILLON G S, AZIZZADENESHELI K, LIPTON Z C, et al. Stochastic activation pruning for robust adversarial defense[J]. arXiv preprint arXiv:1803.01442, 2018.

[7] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[J]. arXiv: preprint arXiv: 1412. 6572, 2014.

[8] KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial examples in the physical world[J]. arXiv preprint arXiv:1607.02533, 2016.

[9] CARLINI N, WAGNER D. Defensive distillation is not robust to adversarial examples[J]. arXiv preprint arXiv:1607.04311, 2016.

[10] PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//2016 IEEE European Symposium on Security and Privacy (EuroS&P). 2016: 372-387.

[11] LIU Y, MA S, AAFER Y, et al. Trojaning attack on neural networks[C]// Network and Distributed System Security Symposium. 2018.

[12] GU S, RIGAZIO L. Towards deep neural network architectures robust to adversarial examples[J]. arXiv preprint arXiv:1412.5068, 2014.

[13] FEINMAN R, CURTIN R R, SHINTRE S, et al. Detecting adversarial samples from artifacts[J]. arXiv preprint arXiv:1703.00410, 2017.

[14] GROSSE K, MANOHARAN P, PAPERNOT N, et al. On the (statistical) detection of adversarial examples[J]. arXiv preprint arXiv:1702.06280, 2017.

[15] MA X, LI B, WANG Y, et al. Characterizing adversarial subspaces using local intrinsic dimensionality[J]. arXiv preprint arXiv: 1801.02613, 2018.

[16] XU W, EVANS D, QI Y. Feature squeezing: detecting adversarial examples in deep neural networks[J]. arXiv preprint arXiv: 1704.01155, 2017.

[17] MENG D, CHEN H. Magnet: a two-pronged defense against adversarial examples[C]//The 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 135-147.

[18] LIAO F, LIANG M, DONG Y, et al. Defense against adversarial attacks using high-level representation guided denoiser[C]//The IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1778-1787.

[19] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[20] BROWN T B, MANé D, ROY A, et al. Adversarial patch[J]. arXiv preprint arXiv:1712.09665, 2017.

[21] EYKHOLT K, EVTIMOV I, FERNANDES E, et al. Robust physical-world attacks on deep learning models[J]. arXiv preprint arXiv:1707.08945, 2017.

[22] PEI K, CAO Y, YANG J, et al. Deepxplore: automated whitebox testing of deep learning systems[C]//The 26th Symposium on Operating Systems Principles. 2017: 1-18.

[23] BIGGIO B, ROLI F. Wild patterns: ten years after the rise of adversarial machine learning[J]. Pattern Recognition, 2018, 84: 317-331.

[24] MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2574-2582.

[25] CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]//2017 IEEE Symposium on Security and Privacy (SP). 2017: 39-57.

[26] KINGMA D P, BA J. Adam: a method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.

[27] ROUHANI B D, SAMRAGH M, JAVAHERIPIM, et al. Deepfense: online accelerated defense against adversarial deep learning[C]//IEEE/ACM International Conference on Computer-Aided Design (ICCAD). 2018: 1-8.

[28] SONG Y, KIM T, NOWOZIN S, et al. Pixeldefend: leveraging generative models to understand and defend against adversarial examples[J]. arXiv preprint arXiv:1710.10766, 2017.

[29] XIE C, WANG J, ZHANG Z, et al. Mitigating adversarial effects through randomization[J]. arXiv preprint arXiv:1711.01991, 2017.

[30] PAPERNOT N, MCDANIEL P, SINHA A, et al. Towards the science of security and privacy in machine learning[J]. arXiv preprint arXiv:1611.03814, 2016.

[31] PAPERNOT N, MCDANIEL P, WU X, et al. Distillation as a defense to adversarial perturbations against deep neural networks[C]//2016 IEEE Symposium on Security and Privacy (SP). 2016: 582-597.

[32] PAPERNOT N, MCDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[C]//ACM on Asia Conference on Computer and Communications Security. 2017: 506-519.

[33] ATHALYE A, CARLINI N, WAGNER D. Obfuscated gradients give a false sense of security: circumventing defenses to adversarial examples[J]. arXiv preprint arXiv:1802.00420, 2018.

[34] BHAGOJI A N, CULLINA D, MITTAL P. Dimensionality reduction as a defense against evasion attacks on machine learning classifiers[J]. arXiv preprint arXiv:1704.02654, 2017.

[35] GONG Z, WANG W, KU W S. Adversarial and clean data are not twins[J]. arXiv preprint arXiv:1704.04960, 2017.

[36] HENDRYCKS D, GIMPEL K. Early methods for detecting adversarial images[J]. arXiv preprint arXiv:1608.00530, 2016.

[37] TAX D M J, DUIN R P W. Support vector domain description[J]. Pattern Recognition Letters, 1999, 20(11-13): 1191-1199.

[38] CARLINI N, WAGNER D. Adversarial examples are not easily detected: bypassing ten detection methods[C]//The 10th ACM Workshop on Artificial Intelligence and Security. 2017: 3-14.

[39] LU P H, CHEN P Y, YU C M. On the limitation of local intrinsic dimensionality for characterizing the subspaces of adversarial examples[J]. arXiv preprint arXiv:1803.09638, 2018.

[40] GUO C, RANA M, CISSE M, et al. Countering adversarial images using input transformations[J]. arXiv preprint arXiv:1711.00117, 2017.

[41] TAO G, MA S, LIU Y, et al. Attacks meet interpretability: attribute-steered detection of adversarial samples[C]//Advances in Neural Information Processing Systems. 2018: 7717-7728.

[42] GILMER J, METZ L, FAGHRI F, et al. Adversarial spheres[J]. arXiv preprint arXiv:1801.02774, 2018.

[43] PERERA P, PATEL V M. Learning deep features for one-class classification[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5450-5463.

[44] TAX D M J, DUIN R P W. Data domain description using support vectors[C]//ESANN. 1999, 99: 251-256.

[45] KRIZHEVSKY A, HINTON G. Learning multiple layers of features from tiny images[R]. Technical Report, University of Toronto, 2009.

[46] RAUBER J, BRENDEL W, BETHGE M. Foolbox: a Python toolbox to benchmark the robustness of machine learning models[J]. arXiv preprint arXiv:1707.04131, 2017.

[47] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

Adversarial examples detection method based on boundary values invariants

YAN Fei, ZHANG Minglun, ZHANG Liqiang

Key Laboratory of Aerospace Information Security and Trusted Computing, Ministry of Education, School of Cyber Science and Engineering, Wuhan University, Wuhan 430072, China

Nowadays, deep learning has become one of the most widely studied and applied technologies in the computer field. Deep neural networks(DNNs) have achieved greatly noticeable success in many applications such as image recognition, speech, self-driving and text translation. However, deepneural networks are vulnerable to adversarial examples that are generated by perturbing correctly classified inputs to cause DNN modes to misbehave. A boundary check method based on traditional programs by fitting the distribution to find the invariants in the deep neural network was proposed and it use the invariants to detect adversarial examples. The selection of training sets was irrelevant to adversarial examples. The experiment results show that proposed method can effectively detect the current adversarial example attacks on LeNet, vgg19 model,Mnist, Cifar10 dataset, and has a low false positive rate.

deep neuron network, boundary checking, invariant, adversarial examples detecting

s: The National Basic Research Program of China (973 Program) (2014CB340601),The National Natural Science Foundation of China (No.61272452 )

TP309.2

10.11959/j.issn.2096?109x.2020012

嚴飛（1980? ），男，湖北武漢人，武漢大學副教授、碩士生導師，主要研究方向為系統安全、可信計算、系統安全驗證與形式化分析和移動目標防御。

張銘倫（1995? ），男，江蘇連云港人，武漢大學碩士生，主要研究方向為人工智能系統本身的安全防護問題。

張立強（1979? ），男，黑龍江哈爾濱人，武漢大學講師，主要研究方向為系統安全、可信計算和安全測評。

論文引用格式：嚴飛, 張銘倫, 張立強. 基于邊界值不變量的對抗樣本檢測方法[J]. 網絡與信息安全學報, 2020, 6(1): 38-45.

YAN F, ZHANG M L, ZHANG L Q. Adversarial examples detection method based on boundary values invariants [J]. Chinese Journal of Network and Information Security, 2020, 6(1): 38-45.

2019?09?11；

2020?02?02

張立強，zhanglq@whu.edu.cn

國家重點基礎研究發展計劃（“973”計劃）基金資助項目(No.2014CB340601 )；國家自然科學基金資助項目（No.61272452）