基于顯著區域優化的對抗樣本攻擊方法

2023-09-18 04:36:02李哲銘王晉東侯建中張世華張恒巍

計算機工程 2023年9期

李哲銘，王晉東，侯建中，李偉，張世華，張恒巍

（1.信息工程大學密碼工程學院，鄭州 450001；2.中國人民解放軍陸軍參謀部，北京 100000）

0 概述

在圖像分類任務中，基于卷積神經網絡的圖像分類模型已經達到甚至超過人眼的能力水平［1］。但目前研究表明，當在原始圖像上添加特定擾動后，卷積神經網絡會以高概率分類出錯［2-3］。更重要的是，這些擾動對人眼和機器來說都是不易察覺的［4］。對抗樣本的存在給深度神經網絡安全帶來了巨大的挑戰，嚴重阻礙了模型的實際部署和應用［5-6］。與此同時，對抗樣本作為一種技術檢測手段，也為測試和提升圖像分類模型的安全性和魯棒性提供了良好的工具［7］。

對抗樣本的攻擊性能主要體現在兩個方面：一是能夠欺騙模型，可以使性能良好的圖像分類模型分類出錯；二是能夠欺騙人眼，即人眼無法有效區分對抗樣本和原始圖像。根據攻擊者對模型的了解程度，可以將對抗樣本攻擊分為白盒攻擊和黑盒攻擊。白盒攻擊需要攻擊者掌握模型的結構和參數，但由于實際模型部署中通常設有防護機制，攻擊者往往難以獲得模型的內部信息。因此，黑盒攻擊得到研究者的更多關注。文獻［8］提出了FGSM（Fast Gradient Sign Method）方法，該方法可以利用對抗樣本的遷移性進行黑盒攻擊。文獻［9］將動量項引入到對抗樣本的生成過程中，提出MI-FGSM（Momentum Iterative Fast Gradient Sign Method）方法，穩定了反向傳播過程損失函數的更新方向，進一步提高了對抗樣本的黑盒攻擊成功率。但由于以上方法是以全局擾動的方式在原始圖像上添加對抗噪聲，生成的對抗樣本與原圖存在較大的視覺差異，使得對抗樣本因過多的對抗紋理特征而易被人眼察覺。

為有效降低對抗擾動的可察覺性，提高對抗樣本的視覺質量，提升其攻擊性能，本文將對抗擾動限制在一個特定的局部區域內，并采用優化算法迭代更新損失函數，從而降低對抗擾動的可察覺性，并將攻擊成功率保持在較高水平，即主要通過深度神經網絡的顯著目標檢測技術生成可視化顯著圖，利用該圖生成二值化掩模，將該掩模與對抗擾動相結合從而確定顯著攻擊區域，實現對抗擾動的局部重點區域添加。此外，為進一步提高黑盒攻擊成功率，本文通過引入Nadam 算法，優化損失函數更新方向并動態調整學習率，提高損失函數收斂速度，有效避免函數更新過程中的過擬合現象，以生成攻擊性能更好的對抗樣本。

1 相關工作

隨著對抗樣本研究的逐步深入，單純提升對抗樣本的攻擊成功率已經不能滿足對抗攻擊測試的要求，還需要考慮由于對抗擾動過大帶來的對抗攻擊隱蔽性降低的問題。因此，本文研究圍繞對抗攻擊的隱蔽性，提升其攻擊性能，在保持對抗樣本的黑盒攻擊成功率較高的同時，縮小對抗擾動添加區域，降低對抗樣本被發現的可能。

1.1 對抗樣本攻擊方法

由于本文研究是在FGSM 類方法基礎上提出來的，因此首先介紹該類的相關方法。文獻［8］提出的FGSM 方法是該類方法的原始版本，該方法沿損失函數的梯度方向單次添加對抗擾動，單步生成的方式使得白盒攻擊成功率較低；針對攻擊過程中欠擬合問題，文獻［10］對FGSM 進行了改進，提出了I-FGSM（Iterative Fast Gradient Sign Method）方法，該方法采用多步迭代的方式添加對抗擾動，使得對抗樣本的白盒攻擊成功率得到提高，但黑盒攻擊成功率有所下降；文獻［9］通過引入動量項穩定了損失函數的前進方法，提高了對抗樣本的遷移攻擊能力；文獻［11］提出了DIM（Diverse Input Method）方法，在每輪次迭代循環前，首先對圖像進行隨機尺度變換和隨機填充，提高了輸入多樣性，有效緩解了過擬合；文獻［12］利用圖像平移不變性提出了TIM（Translation-Invariant Method）方法，使用卷積的方法實現了圖像的批量輸入及變換，從而提升了攻擊成功率；文獻［13］利用圖像保損變換，通過尺度不變性實現了模型的拓增，使得生成對抗樣本的黑盒攻擊能力更強。以上方法均在整張圖像上采用全局擾動的方法添加對抗噪聲，因此存在對抗樣本與原圖像視覺差別較大的問題。

1.2 顯著區域生成方法

顯著區域構建的方法一般可分為模型解釋的方法和顯著目標檢測的方法［14］。模型解釋的方法可以將分類結果通過反向傳播算法逐層傳遞到輸入層，從而確定圖像顯著特征。文獻［15］通過非線性分類器的逐像素分解，提出了一種理解分類決策問題的通用解決方案；文獻［16］通過SmoothGrad 方法銳化了基于梯度的敏感度圖，并討論了敏感度圖的可視化參數設置方案；文獻［17］提出的CAM（Class Activation Mapping）方法將卷積神經網絡的全連接層替代為全局平均池化層，從而保留了圖像特征的位置信息，但該方法需要修改網絡，并重新訓練。在顯著目標檢測的方法中，文獻［18］通過子集優化的方法選擇顯著性對象標注框，該方法在多對象圖像中效果較好，但存在邊界模糊的問題；為提升邊界精度，文獻［19］對編碼器和解碼器設置雙向反饋機制，并使模型從顯著性預測中提取到更多的邊界信息；文獻［20］利用弱監督信息建立分類網絡和描述網絡，并利用轉移損失函數協同訓練優化模型。基于目標檢測的顯著圖生成方法只需要輸入原始圖像，而不再需要攻擊模型的梯度信息，更符合黑盒攻擊的情況設定，因此，該方法選用了顯著目標檢測的方法生成顯著圖。

2 基于顯著區域優化的攻擊方法

本節首先介紹本文的研究思路，由于同一圖像不同部位的語義信息含量不同，因此可對重點區域添加對抗噪聲，非重點區域少添加或不添加對抗噪聲。然后描述將顯著圖與對抗樣本生成過程相結合的方法，實現對抗擾動的局部添加。在迭代生成對抗樣本的過程中，通過引入性能更好的優化算法提高對抗樣本生成過程中損失函數的收斂速度，從而提升對抗樣本的遷移攻擊能力。

2.1 問題分析與研究思路

在以往的對抗樣本生成方法［9，11］中，通常是對原始圖像上每個像素點都進行修改，最終使圖像分類決策過程中的損失函數值變大，導致分類出錯。這些方法將圖像上所有的點看成了等同價值的像素，但在實際上，這種全局擾動的添加方式將一些非必要對抗噪聲添加到原始圖像上，使得對抗紋理特征更明顯，違背了攻擊不可察覺的要求，從而降低了對抗樣本的攻擊性能。同時，將相同大小的對抗擾動添加到不同的位置，其視覺效果也不一樣，如果添加到色彩豐富與細節較多的圖像語義區域，對抗擾動則不是很明顯，而添加到圖像的背景區域，如圖1 所示，如在藍天、草地等部位，對抗擾動會比較引人注目，更易被察覺檢測，從而造成了攻擊失效。因此，本文方法通過在圖像顯著區域添加對抗噪聲，降低了擾動的可察覺性，從而提高了對抗樣本的攻擊隱蔽性。

圖1 對抗樣本生成示例Fig.1 Example of adversarial sample generation

此外，由于顯著區域的引入會縮小對抗擾動的添加范圍，在一定程度上對抗攻擊隱蔽性的提高會以黑盒攻擊成功率的降低為代價，因此本文分析了對抗樣本的攻擊特點，引入性能更好的Nadam 優化算法，通過梯度累積及自適應學習率的方法，優化損失函數的收斂過程，使得最終生成的對抗樣本具有更好的隱蔽性和攻擊性。

2.2 顯著區域優化攻擊方法

根據圖像中語義信息量的不同，可以將圖像分為主體部分和背景部分。主體部分對圖像分類結果有更大的影響，當對該部分進行遮擋時，圖像分類模型的精度會有明顯的下降。因此，本文考慮在語義主體的顯著區域內添加對抗擾動。

顯著目標檢測技術可以識別出圖像中視覺最明顯的物體或區域，并且該區域幾乎與圖像中的分類標簽對應的信息相同。因此，可以運用該技術提取出圖像中的主體部分，對該區域添加對抗擾動。在本文研究中，使用了DCFA（Deformable Convolution and Feature Attention）網絡模型［21］生成圖像的顯著圖。該模型在圖像的低層細節和高層語義信息中提取不均勻的上下文特征，并在空間域和通道域中分配特征的自適應權重，使得生成顯著圖的邊界更清晰準確。該方法將原始圖像轉化成了像素值在0～255 之間的灰度圖，該灰度圖稱為顯著圖S。在該顯著圖中，其語義特征明顯的主體部分更接近白色，而主體之外的背景部分更接近黑色，圖像的顯著特征區域即為白色的區域。

通過顯著圖可以將原圖像中的顯著區域圈定，將原圖像分割成了添加對抗擾動區域和不添加對抗擾動區域，進一步將顯著圖S轉換為二值化的顯著掩模M，可表示如下：

其中：si,j是顯著圖S的第（i，j）位置像素值；?為對應的像素閾值；mi,j是二值化后顯著掩模M對應的第（i，j）位置的值。該步驟只是對顯著圖的像素值進行二值化，便于與對抗擾動結合，從而進行添加擾動的取舍，圖像大小不發生改變。此時，生成的顯著掩模圖是一個由0 和1 組成的多維數組，對應顯著圖特征區域是1，非特征區域為0。

將顯著掩模與文獻［9］中的動量法結合可以迭代生成對抗樣本，其迭代過程可表示為如式（2）～式（5）所示。

其中：g0=0、μ=1、為參數及圖像初始化的過程⊙M是將最后一輪迭代生成的對抗樣本與原始圖像作差，從而得到對抗噪聲，再與顯著掩模做Hadamard 乘積，從而將顯著區域內的對抗擾動保留下來，而非顯著區域內的對抗擾動置為零。該方法通過顯著掩模將對抗擾動添加過程限制在顯著區域內，減弱了背景區域的對抗擾動紋理特征，使得攻擊具有更好的隱蔽性。

同時，在實驗中發現，當只對顯著區域添加對抗擾動時，雖有效地提高了對抗攻擊的隱蔽性，但也在一定程度上降低了對抗樣本的黑盒攻擊成功率。因此，本文從優化的角度對該攻擊方法進行了完善提升，以保證在提高攻擊隱蔽性的基礎上，攻擊成功率仍在較高水平。

對抗樣本的生成過程是一個有限制條件的優化過程。該過程基于反向傳播算法中損失函數的梯度計算，逐步增大圖像分類過程中的損失函數值，從而使得分類出錯。而在上文提到的動量法中，將損失函數的更新過程以動量累積的形式加以集成，穩定了損失函數的更新方向，從而能夠使得對抗樣本的生成過程具有更好的收斂特性。利用動量法生成對抗樣本雖然攻擊性較強，但由于噪聲固化、學習率固定等原因，黑盒攻擊成功率并不是很高。因此，本文研究將性能更強的優化器引入到對抗樣本的局部優化攻擊過程中，在圖像的顯著區域內對生成過程進行優化。

尋找性能更好的優化器主要有兩個思路：一方面是對學習路徑的優化；另一方面是對學習率的優化。因此，本文方法通過引入Nesterov 算法和RMSprop 算法，組合形成Nadam 算法，如圖2 所示，加快損失函數更新的收斂速度，更快地到達損失函數極大值點，提高對抗樣本的遷移性。

圖2 優化算法關系Fig.2 Optimization algorithm relationship

以上的過程可以看作是對動量法的改進，式（6）、式（7）首先引入了Nesterov 算法，實現了在現有對抗樣本生成過程中的梯度跳躍，幫助損失函數前進過程中預估梯度變化，并將這種變化計入梯度累積過程，有助于算法更快地跳出局部極值點。

之后，通過RMSprop 算法引入第二動量，實現學習率的動態調整，如式（8）～式（11）所示。

其中：mi+1為第一動量，實現對梯度的累積；β1為其對應的衰減因子；vi+1為第二動量，實現對梯度平方的累積，β2為衰減因子。第一動量的主要作用是穩定損失函數更新過程中的前進方向，而第二動量主要是用以動態調整損失函數前進過程中的學習率，使函數避免陷入局部極值點。

由以上方法可以看出，Nadam 優化算法集成了第一動量和第二動量的優點，可實現梯度歷史數據和預估數據的累積，實現損失函數更新路徑和學習的優化，可有效提高對抗樣本的生成效率。

該優化算法可以自然地與顯著區域擾動生成方法相結合，形成基于掩模Nadam 迭代快速梯度法（Mask-based Nadam Iterative Fast Gradient Method，MA-NA-FGM），其過程如圖3 所示。在該過程中，首先將原始圖像輸入到DCFA 模型中，得到顯著圖并二值化后得到顯著掩模；然后將原始圖像輸入到圖像分類模型中，并利用Nadam 優化算法與卷積神經網絡反向傳輸過程中的梯度信息，迭代生成對抗樣本，將得到的全局擾動對抗樣本與原圖像作差，得到全局的對抗噪聲；最后再將全局噪聲與顯著掩模進行Hadamard 乘積，便可得到顯著區域內的對抗噪聲，將該噪聲與原圖像相結合，得到最終的顯著區域對抗樣本。

圖3 基于掩模Nadam 迭代快速梯度法示意圖Fig.3 Schematic diagram of mask-based Nadam iterative fast gradient method

2.3 對抗樣本攻擊算法

基于以上分析，本文設計了單模型條件下的對抗樣本攻擊算法，如算法1 所示。在該算法中，第1 步確定了對抗樣本攻擊過程的初始條件，第4 步和第5 步是對損失函數學習路徑的優化，可以有效地將梯度的歷史數據和預估數據考慮進去，從而避免損失函數優化過程中的局部震蕩。第6 步引入了第二動量，根據梯度的大小動態調整學習率的大小，從而實現了損失函數更新過程中的動態步長調整，避免了在最后極值點附近反復震蕩。在第11、12 步中，實現了對抗擾動的顯著區域添加，從而形成了攻擊性更強的對抗樣本。

算法1單個分類模型攻擊算法

輸入原始圖像x，相應的正確標簽ytrue，原始圖像對應的顯著掩模M，一個卷積神經網絡f與相應的交叉熵損失函數L(x，ytrue；θ)，總迭代輪數T，當前迭代步數t，輸入圖像的維度D，對抗擾動的尺寸ε，衰減因子β1與β2

3 實驗結果與分析

本節首先介紹實驗環境設置、所用的數據集及評價指標等內容，然后通過在數據集上進行大量實驗，驗證了顯著區域對分類結果的影響，并從攻擊成功率和攻擊隱蔽性兩方面來衡量攻擊性能，通過與基準方法相比體現本文方法的優勢。

3.1 實驗設置

實驗環境：本文使用Python 3.8.5 和Tensorflow 1.14.0 深度學習框架進行編程及實驗測試，服務器內核為Intel Core i9-10900K，內存為64 GB，主頻為3.7 GHz。為實現對抗樣本的快速生成，在實驗中使用NVIDIA GeForce RTX 2080 Ti GPU 加速完成計算過程。

數據集及網絡模型：為驗證本文所提對抗樣本生成方法的有效性，從ImageNet dataset［22］的驗證集中隨機挑選1 000 張圖像，每張圖像屬于不同的類別。這些圖像在所涉及到的圖像分類模型上經過測試均能被正確分類，從而使得添加對抗擾動后被誤分類的圖像均為對抗樣本。在攻擊測試過程中，使用了4 個正常訓練模型［23-25］和3 個對抗訓練模型［26］。

評價指標：

1）攻擊成功率（Attack Success Rate，ASR）指標。該指標表征的是對抗樣本欺騙圖像分類模型使之分類出錯的能力，也即分類錯誤率。在實驗過程中，用生成的對抗樣本在不同的圖像分類模型上進行測試，分類出錯的圖像即為對抗樣本，其在總圖像個數中所占的比例，也即攻擊成功率。攻擊成功率計算公式如式（12）所示：

2）圖像特征差異性指標。通過引入圖像方差，將圖像的行間像素信息作為圖像的特征值。圖像的像素方差計算如式（13）所示：

通過計算原始圖像和對抗樣本的各像素點位置的方差值，運用特征值相似指標來評估原始圖像與對抗樣本之間的距離。通常，在計算方差特征值時需要對原始圖像進行縮放，m為縮放后的圖像尺度，Xˉ為圖像每行像素值的平均值。在衡量原始圖像的方差特征值與對抗樣本的方差特征值的差異時，將其差值進行相似性度量，設置置信度來衡量發生改變的像素點的數量，具體用方差特征相似度（Variance Feature Similarity，VFS）來量化表述，從而方便度量在不同對抗樣本生成方法下對抗噪聲添加效果的差異性和擾動不可察覺性的強弱。該指標為未改變像素點占所有像素數量的比例，因此為尋找對抗擾動更隱蔽的生成方法，該指標越大越好。

3）圖像結構相似性指標。用結構相似性指標（Structural Similarity Index Measure，SSIM）［27］來衡量原圖像與對抗樣本之間的差異性，該指標相對于峰值信噪比（PSNR）等傳統指標，更能符合人眼的判斷標準。該指標主要比較亮度、對比度和結構三方面的內容，定義如式（14）～式（17）所示。

其中：l(x,xadv)比較的是原始圖像與對抗樣本之間的亮度信息；c(x,xadv)和s(x,xadv)分別對應的是對比度信息和結構信息；μx和μxadv為原始圖像和對抗樣本像素信息對應的平均值；σx和σxadv為像素標準差；σxxadv為原始圖像與對抗樣本之間的協方差；C1、C2、C3是用以保持l(x,xadv)、c(x,xadv)和s(x,xadv)穩定性的常數。該指標通常歸一化為［-1，1］范圍內，數值越大，說明兩張圖像結構相似度越高，本文的目標是使該指標越大越好。

3.2 顯著區域對分類結果的影響

在本文的對抗攻擊過程中，添加對抗擾動主要是在顯著區域內開展。因此，首先驗證圖像的顯著區域對分類結果的影響作用。在實驗中設計了基于顯著掩模及反向顯著掩模兩組樣本來對比分析，與原圖像作Hadamard 乘積可得到只保留顯著區域圖像Adv-SR，及去掉顯著區域的圖像Adv-non-SR。利用DCFA 模型生成顯著圖，之后生成顯著性掩模，將對應的像素閾值?設定為15，即大于15 像素值的部位掩模值取為1，在Adv-SR 中作保留處理，在Adv-non-SR 中作去除處理。對比示意圖如圖4所示。

圖4 原始圖像、Adv-SR 及Adv-non-SR 對比示意圖Fig.4 Schematic diagram of the comparison of original image，Adv-SR and Adv-non-SR

在6 個圖像分類模型上進行分類測試，其結果如圖5 所示。

圖5 原始圖像、Adv-SR 及Adv-non-SR 分類正確率對比Fig.5 Comparison of classification accuracy of original image，Adv-SR and Adv-non-SR

從圖5 可以看出，Adv-SR 和Adv-non-SR 相對于原始圖像的分類正確率均有所下降，Adv-SR 的正確率平均下降了4.8 個百分點，而Adv-non-SR 平均下降了73.3 個百分點。因此，顯著區域在圖像分類過程中發揮著更大的作用，當對該區域進行攻擊時，產生的對抗樣本更能有效地使模型分類出錯。

3.3 模型攻擊對比實驗

能夠成功實現攻擊是對抗樣本的基礎，本文首先進行圖像分類模型的攻擊成功率測試。在正常訓練模型上生成對抗樣本，隨后在7 個圖像分類模型（包括4 個正常訓練模型和3 個對抗訓練模型）上進行攻擊測試，以白盒和黑盒情況下的攻擊成功率為指標衡量對抗樣本的攻擊表現。實驗中選用MIFGSM 為基準方法，驗證本文所提出的MA-MIFGSM（Mask-based Momentum Iterative Fast Gradient Sign Method）、MA-NA-FGSM（Mask-based Nadam iterative Fast Gradient Sign Method）方法的有效性，所涉及到的超參數為：最大擾動值為ε=16 像素，迭代輪數T=10，動量衰減因子μ=1，Nadam 衰減因子β1=0.9，β2=0.999，穩定系數δ=10-14。實驗結果如表1所示。從表1 數據可以看出，未經過優化過程的顯著區域對抗樣本生成方法相對于全局擾動的對抗樣本生成方法，白盒攻擊和黑盒攻擊成功率均有所下降，如在Inc-v3 模型上生成的對抗樣本作白盒攻擊時，MA-MI-FGSM 比MI-FGSM 成功率下降0.3個百分點，而在Inc-v3ens3模型上進行黑盒攻擊時，攻擊成功率下降了1.7 個百分點，這說明背景區域在一定程度上也影響圖像分類的結果，并且重點區域添加的對抗擾動強度也不夠。當引入Nadam 優化算法后，對應的攻擊算法黑盒攻擊成功率得到較大幅度的提升，在Inc-v4 上生成的對抗樣本當在其他6 個圖像分類模型上進行遷移攻擊時，其平均的黑盒攻擊成功率提高了7.55 個百分點，體現了本文攻擊算法的優勢。

表1 MA-NA-FGSM 等方法單模型攻擊成功率 Table 1 Single-model attack success rate of methods such as MA-NA-FGSM %

本文設計實驗將MA-DIM（Mask-based Diverse Input Method）、MA-NA-DIM（Mask-based Nadam Diverse Input Method）和DIM 進行對比，如表2 所示。其中，在尺度變化時變換范圍為［299，330）像素，其余超參數如前文所述。與基準方法相比，顯著區域優化的生成方法顯然更具有攻擊性，實現了攻擊成功率和攻擊隱蔽性的性能提升，如在IncRes-v2上生成的對抗樣本，MA-NA-DIM 方法相對于MAMI-DIM 方法提高了7.2 個百分點，比DIM 方法的平均黑盒攻擊成功率得到進一步提升。需要注意的是，對抗噪聲僅僅添加到了圖像的顯著區域內，此時噪聲可察覺性已實現了較大幅度的降低。

表2 MA-NA-DIM 等方法單模型攻擊成功率 Table 2 Success rate of single-model attack by methods such as MA-NA-DIM %

在表1 和表2 中，分別進行白盒測試和黑盒攻擊測試，4 個模型為對抗樣本的生成模型，即分別利用Inc-v3、Inc-v4、IncRes-v2 和Res-101 生成對抗樣本，利用在這些已知模型上生成的對抗樣本在4 個已知模型和3 個未知模型（Inc-v3ens3、Inc-v3ens4和IncRes-v2ens）上進行攻擊測試，在已知模型上進行的是白盒測試，而在未知防御模型上進行的是黑盒測試。表1 中各方法主要是在MI-FGSM 的基礎上進行改進對比，其中，MA-MI-FGSM 是在MI-FGSM 的基礎上進行了顯著性掩模處理，MA-NA-FGSM 是在MI-FGSM 的基礎上進行了Nadam 算法優化及顯著性掩模處理。類似地，在表2 各方法中，主要是對DIM 方法對比分析，MA-DIM是在DIM 的基礎上進行了顯著性掩模處理，MA-NA-DIM 是在DIM 的基礎上進行了Nadam 算法優化及顯著性掩模處理。

3.4 圖像質量對比實驗

圖像質量對比實驗主要有以下3 種：

1）特征差異性指標對比實驗。首先對不同方法生成的對抗樣本圖像特征進行對比分析，運用MIFGSM 方法與本文所提出的MA-MI-FGSM 方法分別在1 000 張圖像上生成對抗樣本。然后為了方便計算，將對抗樣本圖像與原始圖像縮放至64×64 像素值大小，并將圖像分割成64 維的張量形式，以行向量為單位計算其對應的平均值，并求取相應的方差值。將該方差值作為圖像的特征值，計算其相似度指標，如圖6 和圖7 所示。其中，星標、三角標和圓標分別對應原圖像素方差、對抗樣本像素方差和像素方差的差值，其中圓標線越長，表示原始圖像和對抗樣本的差值就越大，特征的區別度也就越大，表明在生成對抗樣本過程中對原始圖像的改動（即添加的對抗擾動）也就越大。因此，本文的目的在于縮小原始圖像與對抗樣本之間像素方差的差值。由于該差值為反向指標，為更直觀地度量其差值，本文引入了特征相似度的概念，即改變的像素點個數在像素值總數所占的比例，而是否發生改變用方差置信度來表示，例如設置置信度為0.95 時，表示變化量在原圖方差值的5%浮動范圍。在置信度設置為0.95 時，得到對抗樣本與原始圖像的特征相似度如圖6（b）、圖6（c）和圖7（b）、圖7（c）所示，特征相似度越高，說明對抗樣本與原始圖像越接近，其對抗擾動的不可察覺性越好。相對于全局擾動的對抗樣本生成方法，利用本文方法生成的對抗樣本與原始圖像相比特征相似度更高，這主要是由于在全圖像添加對抗擾動的過程中，在圖像的背景部分引入了更多的對抗噪聲，從而使得對抗樣本圖像與原始圖像之間的特征差異性更大。而本文所提出的方法通過在圖像的主體語義區域添加對抗擾動，在盡可能小的范圍內對原始圖像進行改動，從而使得對抗樣本與原始圖像之間的特征相似度更大。

圖6 “降落傘”對抗樣本特征相似度對比示意圖Fig.6 Schematic diagram of the "parachute" adversarial examples feature similarity comparison

圖7 “熊貓”對抗樣本特征相似度對比示意圖Fig.7 Schematic diagram of the "panda" adversarial examples feature similarity comparison

對整個實驗數據集進行各方法之間的對比分析，實驗結果如表3 所示。通過表3 數據可以看出，MI-FGSM 和DIM 的特征相似性指標相差不大，平均值分別為0.534 和0.546，而其對應的顯著區域優化方法MA-NA-FGSM 和MA-NA-DIM 的平均特征相似性指標分別為0.697 和0.693，數據指標分別實現了30.5%和26.9%的性能提升。

表3 特征相似性指標對比 Table 3 Comparison of feature similarity indicators

2）結構相似性指標對比實驗。為進一步對比原始圖像與對抗樣本之間在亮度、對比度和結構相似性之間的關系，本文對不同方法生成的對抗樣本分別與原始圖像進行了結構相似性對比。實驗利用ImageNet 數據集中的1 000 張圖像，在4 個圖像分類模型上分別進行了攻擊實驗，不同方法的結構相似性指標如表4 所示。通過表4 可以看出，相對于基準方法MI-FGSM 和DIM，本文所提出的對抗樣本生成方法MA-MI-FGSM、MA-NA-FGSM 和MA-DIM、MA-NA-DIM 其結構相似性指標均實現了較大的提高，如在Inc-v3 上利用MI-FGSM 生成對抗樣本，其平均SSIM 值為0.574，而利用本文所提出攻擊方法MA-MI-FGSM 生成對抗樣本的平均SSIM 值為0.785，其提高幅度為32.0%，這說明了本文所提方法可以有效地提高對抗樣本與原始圖像之間的相似性。同時，當引入Nadam 優化器時，對抗樣本與原始圖像的結構相似性指標的提高幅度不大，這也驗證了優化器的主要作用為提高對抗樣本的黑盒攻擊成功率。在提高結構相似性的過程中，主要是顯著區域添加對抗擾動的方法在發揮作用。

表4 MA-NA-DIM 等方法結構相似性指標對比 Table 4 Comparison of structural similarity indexes of methods such as MA-NA-DIM

此外，為驗證本文方法在集成模型上的攻擊表現，還通過邏輯值集成的方法進行了集成模型的攻擊實驗，實驗結果如表5 所示。實驗在4 個普通訓練模型上生成對抗樣本，并在3 個對抗訓練模型上進行攻擊測試，用SSIM 指標衡量對抗攻擊的隱蔽性，用ASR 指標衡量對抗樣本的攻擊性。可以看出，MA-NA-SI-TI-DIM 相對于基準的SI-NI-TI-DIM 方法實現了攻擊隱蔽性和攻擊成功率的雙重提升，其中，顯著性指標SSIM 提高了27.2%，黑盒攻擊成功率也保持在了92.7%的水平，進一步證明了本文方法的優勢。

表5 MA-NA-SI-TI-DIM 等方法攻擊性能對比 Table 5 Comparison of attack performance of methods such as MA-NA-SI-TI-DIM

3）人工評估測試實驗。為更清晰直觀地展現對抗樣本像素級的擾動細節，并有效評估本文方法在實際應用中的有效性，在ImageNet 數據集上生成對抗樣本并進行人眼評估測試。與顯著區域優化的生成方法類似，MI-FGSM 方法同屬于利用反向傳播過程中的梯度信息生成對抗樣本的方法，因此，利用這兩種方法生成對抗樣本，并在調查人群中比較圖像對抗擾動的不可感知性。該實驗隨機選取了10 組圖像，每組評測圖像由原始圖像、MIFGSM 生成的對抗樣本及MA-MI-FGSM 生成的對抗樣本組成，在每次的評測中，原始圖像是固定的，而用于評測的圖像是隨機的，其中評測圖像既包含原始圖像又包含利用不同方法生成的對抗樣本。圖8 展示了原始圖像及對抗樣本圖像的示例，其中，圖8（a）為原始圖像，圖8（b）為利用MI-FGSM生成的對抗樣本，圖8（c）為利用MA-MI-FGSM 生成的對抗樣本。

圖8 不同方法生成的對抗樣本與原始圖像對比圖Fig.8 Comparison diagram between the antagonistic sample generated by different methods and the original image

對抗擾動的不可察覺是人的眼睛對物理刺激所產生的感知反饋，由于人眼系統因人而異，并且對圖像的判斷也受其已有知識的影響。因此，為更為有效地評估對抗擾動的不可察覺性，該研究對不同人群進行了分類的調查研究。設置了甲、乙兩個調查組，甲組為普及過對抗樣本的人群，乙組為未普及過對抗樣本的人群，每個調查組為50 人。在實驗時，將10 組圖像進行隨機顯示，讓參與評測人員對原始圖像和相應的隨機圖像的相似度進行打分，并要求參與者在3 s 內給出從0 分到10 分的具體分數，分數越高，表示相似度越高，而10 分意味著對抗樣本與原始圖像完全相同。

圖9 所示為對圖像對抗樣本具備一定了解的人群打分結果，通過對比各條折線可知，讓評測人員對隨機顯示的圖像與原始圖像的相似度進行打分，當隨機顯示的為原始圖像時，平均得分最高，而當顯示對象為對抗樣本時，運用MA-MI-FGSM 生成的對抗樣本得分更高，說明其與原始圖像更為相似，原因主要是該方法將對抗擾動限制在了圖像的主體顯著區域內，而該顯著區域內因固有的更為復雜的紋理特征，使得對抗噪聲會被評測人員所忽視。而MIFGSM 方法生成的對抗樣本會因背景區域過多的紋理特征而被人眼察覺。

圖9 甲組人眼評測結果示意圖Fig.9 Schematic diagram of group A eye assessment results

圖10 所示為未接觸過圖像對抗樣本人群的調查結果。從圖10 可以看出，運用MA-MI-FGSM 生成的對抗樣本比運用MI-FGSM 生成的對抗樣本具有更高的得分，前者的平均得分為8.88 分，后者為8.16 分。同時也注意到，在第9 組的實驗中存在兩種方法生成的對抗樣本得分相同的情況，這主要是圖像的主體區域顏色單一，而背景區域反而復雜導致，如深色背景的白色卡車，此時只在主體區域添加對抗擾動，會影響人們對圖像質量的判斷。但從評測的整體結果來看，基于顯著區域優化的方法在絕大多數情況下具有更強的隱蔽性。

圖10 乙組人眼評測結果示意圖Fig.10 Schematic diagram of group B eye assessment results

綜合圖9 和圖10 的測評結果，基于顯著區域優化方法生成的對抗樣本達到了與原圖像更高的相似度，從實際應用的角度證明了本文方法的有效性。同時也可以看出，對圖像對抗樣本知識有一定了解的人群往往對普通方法生成的對抗樣本具有更高的辨識能力，這也說明了對抗樣本知識普及的重要意義。

4 結束語

本文通過分析現有對抗樣本攻擊方法存在的對抗噪聲明顯、全局添加擾動易被察覺的問題，將顯著目標檢測的方法引入到對抗樣本生成過程中，通過在原始圖像上劃分出顯著區域，實現對抗擾動的局部添加。實驗結果表明，通過與Nadam 優化算法的結合，保持并提高了對抗樣本的攻擊成功率，實現了對抗樣本黑盒攻擊成功率和擾動不可察覺性的雙重提升。下一步可將顯著區域進一步細化，實現顯著區域的分級劃分和對抗噪聲的更精準添加，從而進一步提升對抗樣本的攻擊性能，為深度神經網絡模型的實際部署和應用提供更好的攻擊檢測與安全測試手段。