999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖像對抗樣本的安全性研究概述

2021-04-06 00:39:32徐金才孫哲南
信息安全研究 2021年4期
關鍵詞:方法模型

徐金才 任 民 李 琦 孫哲南

1(中國科學院大學人工智能學院 北京 100049)

2(中國科學院自動化研究所智能感知與計算研究中心 北京 100190)

(13527449440@163.com)

人工智能(artificial intelligence, AI)在普惠金融、健康醫療、智慧城市等諸多領域取得了廣泛的應用,在方便人們的生活和促進社會進步的同時,對涉及安全和隱私的應用場景如人臉識別構成了潛在的威脅.對抗樣本是AI安全研究的一個熱點,新的攻擊算法層出不窮,而且攻擊場景也從實驗室中的簡單圖像分類[1-3]迅速擴展到商業場景中的智能客服、智能駕駛[4]等領域.華為莫斯科研究中心的工作人員在自己的額部貼上精心設計的貼紙,成功地規避了人臉識別系統的檢測,暴露了當前深度學習模型的脆弱性.針對深度學習模型漏洞進行的對抗防御在軍事領域如無人機導航、安檢犯罪追蹤、反恐偵察等也有著廣泛的應用場景.

本文介紹了對抗樣本的概念和對抗樣本存在的原因,分類歸納了對抗攻擊和對抗防御的方法,并且對部分攻擊和防御方法進行了實驗對比.

相比較目前其他的對抗樣本綜述文章[5-7],本文的主要貢獻有3個方面:

1) 針對對抗樣本存在的原因,對現有的研究工作進行了系統地梳理和介紹,并在此基礎之上對現有的理論進行總結;

2) 本文系統地梳理、介紹了現有的對抗攻擊以及對抗防御方法,包括具有里程碑意義的經典研究工作以及該領域的最新進展;

3) 為了更加深入地介紹現有的對抗攻擊與對抗防御方法,在公平的測試協議下,本文對目前主流的對抗攻擊以及對抗防御方法進行了定量對比實驗,并進行了攻擊方法的黑盒遷移對比實驗.

1 對抗樣本的相關概念

1.1 深度學習之卷積神經網絡

卷積神經網絡(convolutional neural networks, CNN)是一種模仿人腦網絡信息傳遞機制的人工神經網絡.得益于計算機計算性能的廣泛提高,卷積神經網絡使得網絡具有輸入到輸出的非線性映射能力.CNN分類器相當于是映射輸入數據到預測結果的高度非線性函數.基于預測類和相應真實類的差別,損失函數是θ的函數表示為lossθ.在訓練過程中采用梯度下降算法[8],用于迭代最小化損失值.最后反向傳播算法被用于更新整個CNN的參數,如圖1所示.在多個領域,卷積神經網絡的應用取得了顯著的成就.如圍棋領域,AlphaGo已經能夠超越人類的建模能力,戰勝人類頂級棋手取得不敗的記錄.

圖1 深度卷積神經網絡

1.2 對抗樣本的定義

Szegedy等研究者[9]發現,對于人類視覺系統并不敏感的微小擾動,卻能讓神經網絡過于敏感而產生錯誤的識別,于是提出了對抗樣本的概念.在圖像分類任務中,通過對原始圖片添加敵對者精心構造的微小擾動,在人類視覺系統難以分辨的情況下卻讓分類模型產生了誤判.上述對抗攻擊可以表述為

(1)

其中,x為原始樣本;x′為生成的對抗樣本;f為被攻擊的神經網絡;ε為預先設置的擾動上限.對抗樣本與原始樣本二者之間的不同之處由D(x′,x)加以顯示,而且對抗樣本的攻擊成功率和生成質量則又是通過其上限ε所決定的[10].

如圖2所示,圖2(a)的圖片為原始的樣本,類別為鸚鵡,對x添加類似中間部分的擾動后生成了圖2(c)的圖片x′.在人眼中右邊的圖片雖然仍然能夠被人眼識別為鸚鵡,但是對于神經網絡模型,卻以高達99.12%的置信度使其錯誤地分類為書架,圖2(c)的鸚鵡圖片便是我們所說的對抗樣本.

圖2 對抗樣本的示例

在原理上介紹對抗樣本,以二分類問題為例.通過大量的樣本訓練,機器學習模型學習到了一個分割超平面,對訓練樣本進行分類,其中A類用藍色圓表示,而B類則用綠色三角加以表示.通過某種算法計算出了人類視覺系統難以感知的變化量并疊加到原始樣本上,生成新的樣本(對抗樣本),該對抗樣本跨越分割超平面(如紅色箭頭所示),導致機器學習模型產生誤判,如圖3所示:

1.3 對抗樣本存在的原因

關于對抗樣本存在的原因學術界一直都處于探索的階段,雖然大家給出了很多的解釋,但是神經網絡的可解釋性是研究的一大難題,也一直沒得到嚴格的數學證明.目前關于對抗樣本存在以下主流的幾種解釋.

解釋1. 圖4[11]描述的是從數據集的完備性來考慮對抗樣本存在的原因.原始訓練的真實樣本可以分成2類:分類A和分類B,直線是模型訓練出來的分界線,曲線表示實際的分界線.而我們所說的對抗樣本就是位于圖4中標出的對抗區域(adversarrial regions)[12].從圖4可以看出,對抗樣本的存在是因為訓練的數據集本身不夠完備,存在一些我們沒有標注到的數據.而這些沒有標注到的數據使得模型訓練出來的分界面不夠魯棒.一旦遇到這些剛好沒有擬合到的數據就容易識別出錯.模型訓練出來的分類器沒有劃分好的數據就是對抗樣本.

圖4 對抗樣本存在的原因

解釋2. 圖5[13]描述的是從數據分布的角度來考慮對抗樣本存在的原因.從流形學習領域的許多現有工作中[14-15],研究者發現數據處于高維空間的低維流形區域,其數據維度遠小于整個樣本空間,樣本總是在流形上.如圖5所示,我們用曲線表示正常樣本的流形,用點和叉代表正常樣本和對抗樣本.對正常樣本作一些微小的修改,很容易讓樣本偏離原有的數據流形分布,從而讓模型判別出錯.

圖5 MagNet的對抗樣本檢測

總體來說,對抗性樣本存在的原因可能是數據處于高維空間的低維流形區域,并非充滿整個樣本空間.對抗擾動使得原始樣本偏離數據流形分布,從而很容易產生對抗樣本.

解釋3. Szegedy等人通過研究發現,對抗樣本存在的根源在于模型的高度非線性.與之相反,Goodfellow等人[16]則針對性地提出了高維線性假設,并指出對抗樣本的產生是由模型局部空間的線性性質導致的.初始擾動在深度神經網絡模型前向傳遞的過程中不斷累積,累計值足夠大作用到激活函數上,對分類結果產生較大影響.為了避免網絡訓練的過程中出現梯度消失的現象,導致網絡無法有效的收斂.目前的深度神經網絡采用Relu[17]這種線性激活函數,這樣更容易受到對抗樣本的攻擊.此外Goodfellow在此假設下設計了快速梯度攻擊方法,用來驗證自己的假設,認為深度神經網絡對樣本分類時具有線性分類器的效果.

解釋4. Geirhos等人[18]指出神經網絡對輸入的圖像更傾向于紋理等信息的語義理解,而不是全局輪廓的理解.然而人類視覺系統普遍傾向于對整體圖像的輪廓結構進行識別.基于這種現象,Kurffzhou等人[19]指出對抗樣本會打亂圖像的局部紋理,進而能夠破壞神經網絡的高層語義理解,從而使得深度學習模型判別出錯.

解釋5. 我們認為對抗樣本存在于像素空間的某些特殊位置.在這些位置上,機器學習模型與人類視覺系統的判斷不一致,導致這種不一致的根本原因在于現有的以深度學習模型為代表的機器學習模型提取特征、識別圖像時,其背后的機理與人類識別視覺系統不一致.體現在特征空間中,當神經網絡提取到魯棒特征和非魯棒特征時,如果對非魯棒特征(對應像素空間的特殊位置)作了一定的擾動,人類視覺并沒有考慮到這種擾動而沒有發現顯著變化,但是機器學習模型會因為非魯棒特征的擾動帶來的干擾,使得模型分類產生巨大的誤差.文獻[20]驗證了對抗樣本是神經網絡學習到的非穩健特征的觀點.

到目前為止,深度學習模型容易受到對抗攻擊的原因仍然是一個開放的議題,究其本質目前還缺乏統一的理論共識,這同時也制約著對安全要求很高的深度學習模型的應用.

2 對抗樣本的生成

在攻擊者對于目標模型的訪問權限不同的前提下,將攻擊行為分為白盒攻擊(white box attack)和黑盒攻擊(black box attack)兩類.白盒攻擊所代表的是攻擊者能夠對目標模型實施完全訪問的權限,它們可以了解模型的架構、參數和權重.黑盒攻擊指的是攻擊者很少或根本沒有關于目標模型的知識,他們無法對模型內部進行探尋.

按攻擊目的可分為目標攻擊和非目標攻擊.目標攻擊所代表的是生成的對抗樣本希望被模型錯分至某個特定的目標類別.另一方面,非目標攻擊指的是對抗樣本只要能讓模型分類到除了原類別之外的任何類別即可.

此外,目前對抗樣本已經從數字空間拓展到物理空間.現實環境中由于光照的強弱、天氣、遮擋、拍攝距離和角度等多重因素,較小的擾動在相機2次成像下變得微乎其乎,對抗樣本在物理空間中很難攻擊成功.即使將對抗樣本帶到現實空間中,過大的干擾形成的圖片失真扭曲也會容易被人察覺出來.在物理領域對抗樣本的生成相比數字圖像領域難度較大,易于被發現,在此背景下,Duan等人[21]通過研究并提出風格遷移和對抗攻擊相結合的框架——AdvCam,能夠個性化改造與偽裝對抗樣本的風格,并有效地降低了被人類視覺系統發現的風險.

2.1 白盒攻擊

2.1.1 快速梯度攻擊

Goodfellow等人[22]首先提出了快速梯度攻擊(fast gradient sign method, FGSM).與梯度下降相反,該方法通過將擾動的方向沿著梯度提升的方向使損失函數增大.同時假設損失函數是線性的或者至少是局部線性的.如果不是(局部)線性的,那梯度提升的方向就不一定是最優方向.FGSM公式如下:

(2)

1) 基本迭代的攻擊方法

Kurakin等人[23]提出了FGSM的改進版(basic iterative method, BIM).該方法在模型損失函數的梯度方向上將單步迭代分解成多步迭代.每次迭代后重新計算梯度的方向.BIM的公式如下:

(3)

其中clip(·)表示截斷函數,將其限制在一定的范圍內,使得最大的擾動值不超過某個閾值.BIM比FGSM能構造出更加精確的擾動,但是增加了計算開銷.

2) 動量迭代的快速梯度攻擊

Dong等人[24]提出了基于動量迭代[25]的快速梯度方法(momentum iterative fast gradient sign method, MI-FGSM).引入的動量能使添加噪聲方向的調整更加平滑,也有助于逃離局部極大值,增強對抗樣本的遷移性.產生的擾動計算公式如下:

(4)

實驗證明通過動量項的引入,MI-FGSM相比于FGSM,BIM提高了遷移攻擊成功率.

但是MI-FGSM并沒有克服因為引入動量項帶來的噪聲固化效應[26],導致黑盒遷移攻擊的成功率不高.

3) 多樣性的梯度攻擊

Xie等人[27]在BIM,M-FGSM基礎上提出多樣性攻擊方法(DI-FGSM).MI-FGSM攻擊由于迭代問題會陷入局部最優的陷阱.為了緩解這個問題,將T(·)圖像變換應用于概率為p的輸入,這樣每次迭代可以緩解過擬合的現象.DI-FGSM方法為

(5)

2.1.2 DeepFool攻擊

DeepFool[28]是一種基于梯度的白盒攻擊方法.該方法假設深度學習模型存在不同樣本類別的分割超平面,通過迭代生成最小范式的對抗擾動,移動方向與分類邊界的夾角為不完全意義的正交,從而保證最快跨越決策邊界,使得模型的決策出現錯誤.以二分類為例,最小擾動實際上就是樣本點至分割超平面之間的垂直距離,換言之,也就意味著只要最小擾動的幅度再強一些,進而得以有效地實現對決策邊界的跨越.假設分類器的分類函數f(x)=wT·x+b,改變分類器決策的最小擾動為樣本點x0到分割超平面F={x:wT·x+b=0}的正交投影,則有如下公式:

(6)

圖6 二分類的最小擾動距離

2.1.3 C&W攻擊

C&W算法首先由Carlini和Wagner[29]提出的.C&W攻擊一般被認為是攻擊能力最強的一種白盒攻擊方法.假設原始數據為x,分類結果為c(x),對抗樣本為x′,x′和x非常接近,但是分類結果c(x′)卻和c(x)不同.C&W同時支持l0,l2和l,3種攻擊方式算法基本相同,目前使用最廣泛的l2為定向攻擊.

C&W是一種基于優化的對抗樣本生成算法,該方法的一大亮點在于損失函數(目標函數)的定義.假設在原始數據x上疊加擾動,生成對抗樣本為x+δ,對抗樣本和原始數據之間的距離定義為D(x,x+δ),那么整個優化函數可以定義為

minD(x,x+ρ)+c·f(x+ρ),
s.t.x+ρ∈[0,1]n.

(7)

C&W算法的另外一個特色就是對數據截斷的處理.針對灰度圖像而言,一般1個像素點的取值范圍是在區間[0,255]之中,但是在進行對抗攻擊時經常會出現溢出現象,如-0.1或255.1,通過引入新的變量w,因為tanh(w)∈[-1,1],所以可以保證對抗樣本不溢出.并且tanh(w)不會出現截尾梯度下降的梯度消失問題.那么對抗樣本可以表示為

(8)

對于l2定向的攻擊,假設攻擊目標標簽為t,被攻擊模型的Logits輸出為Z,那么目標函數定義為

f(x)=max(max{Z(x)i:i≠t}-Z(x)t,-k),

(9)

整個優化的目標如下,其中w為新定義變量:

(10)

2.1.4 基于雅可比矩陣的顯著圖攻擊

雅可比矩陣的顯著圖攻擊(Jacobian-based saliency map attack, JSMA)是Papernot等人[30]提出的.JSMA是典型的l0范數的攻擊,盡可能少地修改樣本的像素.JSMA的特點是引入了顯著圖(saliency map)的概念,用以表示輸入特征對預測結果的影響程度.該算法1次修改原始樣本的幾個像素值,觀察輸入對輸出的影響.用原始圖像的值初始化對抗樣本,基于前向函數進一步針對梯度開展計算,以此來實現對顯著圖的獲取.在完成顯著圖的計算之后,算法將能夠對改變最有效的像素進行選取并對網絡加以欺騙,進而對對抗樣本迭代更新,直到滿足最大迭代次數或者對抗樣本預測值等于攻擊目標的標簽為止.JSMA和FGSM,DeepFool的區別是,JSMA中的梯度不依賴于損失函數,直接通過前向計算獲得的Logits輸出結果與輸入之間計算產生.

2.1.5 通用型擾動攻擊

Moosavi-Dezfooli等人[31]首次證明了存在一種非定向的通用型擾動攻擊.通過為輸入圖片施加一個擾動,使得分類器以較大概率分類錯誤.這個“擾動”有2個特點:1)通用,即擾動與輸入圖片無關,僅與模型本身相關;2)非常小,具有小的范數,從而不改變圖片本身的結構.

(11)

通過式(11),對數據集X中的所有圖像添加通用型擾動δ,使數據集X中大部分圖像能夠誤導分類模型.

2.1.6 后向傳遞可微近似方法

Athalye等人[32]提出后項傳遞可微近似(backward pass differentiable approximation, BPDA).針對防御者采用破碎梯度策略導致梯度不可微時,該方法利用近似估計梯度方法,成功繞開此類防御技術.在防御者策略選取為隨機化梯度策略的情況下,攻擊者將會通過對如旋轉、平移、加噪等各種方式的利用,進而改變隨機變換期望(expectation over transformation, EOT)[33].

2.2 黑盒攻擊

黑盒攻擊把模型當成一個黑盒來處理,對模型內部結構細節不了解的前提下對模型發起的攻擊.目前常見的黑盒攻擊算法主要分為2類:一類是基于查詢的方法,對一定的算法構造輸入,然后根據模型的反饋不斷迭代修改輸入,比較典型的就是單像素攻擊算法和本地搜索攻擊算法;另一類是基于遷移學習的方法,使用白盒攻擊類似的開源模型,再用生成的對抗樣本進行同類任務的黑盒攻擊.

2.2.1 基于置信度的攻擊

零階優化(zeroth order optimization, ZOO)[34]的思路是先實現對目標模型梯度的估計,進而通過梯度產生對抗樣本.所有類的概率向量通過對模型多次探尋獲得,然后通過差分數值近似估計梯度,最后利用梯度信息進行攻擊.該方法需要多次的查詢去估計梯度,增加了計算開銷.Ru等人[35]利用貝葉斯優化提高查詢效率成功地找到對抗擾動.Meunier等人[36]利用進化算法實現無導數優化.Du等人[37]采用元學習來近似估計梯度.該方法在不影響攻擊成功率和失真的情況下,大大減少所需的查詢次數.

2.2.2 單像素攻擊算法

單像素攻擊(single pixel attack)[38]是一種基于差分進化的極端對抗攻擊算法.它僅通過修改原始數據上的1個像素值,讓模型產生錯誤分類.由于不需要網絡的內部結構和梯度等信息,單像素攻擊是一種典型的黑盒攻擊.在實際使用中,該方法對于比較簡單的數據集有很好的攻擊效果,比如MNIST,CIFAR10.這類數據集圖片普遍比較小,針對1個像素點的修改可以對分類結果產生較大影響.但是當圖像較大時,1個像素點的改變很難影響到分類結果.隨著圖像文件的增大,搜索空間也迅速增大,單像素攻擊的效率也會快速下降.

2.2.3 本地搜索攻擊算法

有的單像素攻擊在實現上允許同時修改1個以上的像素點,例如同時修改20個像素點,但是攻擊效果并不明顯.因為單像素攻擊沒有很好地利用模型的反饋信息去優化擾動,很大程度上依賴隨機選擇像素和迭代調整像素點的值.本地搜索攻擊算法(local search attack)改進了單像素攻擊算法,該方法的主要改進點是根據模型的反饋信息去選擇擾動的點,并隨機選擇對分類結果影響大的點周圍的其他點,進一步選擇.

2.2.4 期望變換攻擊

Athalye等人[39]提出了在物理環境下生成對抗樣本的方法.變換期望攻擊(EOT)引入變換分布T,對于任意變換函數t,分類器的輸入由原始對抗樣本x′變為t(x′).實踐應用中變換函數t可以表示如旋轉、平移、加噪等各種變換.EOT被參數化即確定了分布T.EOT框架可以優化分布T下的樣本得到對抗樣本.公式如下:

(12)

其中:x′為對抗樣本;x為原始圖像;LAB為圖像顏色對立空間[40];T為圖像變換分布.

2.2.5 基于決策邊界攻擊

Brendel等人[41]提出了僅需輸出類型的決策邊界攻擊,根據邊界的局部幾何動態地調整正交和朝向,原始輸入2個方向的步長,在不斷迭代靠近原始樣本的基礎上生成對抗樣本,這種攻擊可以有效地應用到現實場景中,部署成本較低.

2.2.6 AdvGAN攻擊

Xiao等人[42]提出以生成對抗網絡為基礎的對抗樣本生成方法.對抗生成網絡(ADV-GAN)主要以生成器G為基礎實現擾動的生成,并且通過網絡訓練產生新的對抗樣本,送入判別器D,判別是否為對抗樣本.如果是對抗樣本則可用來攻擊目標神經網絡.ADV-GAN產生的對抗樣本因為借助生成對抗網絡,和原始樣本幾乎沒有任何像素層的差異,攻擊能力強,但是因為對抗設置模式比較局限,不會被廣泛應用.

2.2.7 空間變換攻擊

區別于傳統的對抗攻擊方法修改像素值,Xiao等人[43]設計了一種空間變換攻擊的方式.這種方式在對局部圖像特征進行平移、旋轉、扭曲的過程中進一步實現空間變換的圖像干擾.這樣的擾動很小,但是能欺騙分類器.

2.2.8 基于遷移學習的方法

對抗樣本遷移性指的是,對一個模型攻擊產生的對抗樣本可以有效地攻擊同一任務的其他模型.Papernot等人[44]先通過白盒攻擊的方式對與目標模型具備相同任務的替代模型進行攻擊,然后再通過對抗樣本的遷移性,達成對目標模型進行攻擊的效果.另一方面,Dong等人[24]則是通過研究提出了一種建立在動量基礎上的迭代算法MI-FGSM.

通過這一方式,在迭代過程中引入動量項,進一步提升對抗樣本遷移性.Curls&Whey[45]在迭代過程中將梯度上升和梯度下降相結合,提高對抗樣本的遷移性和多樣性.Xie等人[46]則是基于BIM算法的迭代過程中,對輸入進行隨機變換來達到數據增強的目的,從而提升對抗樣本的遷移性.Liu等人[47]提出組合多個不同網絡結構的集成模型作為黑盒替代模型的方案.在遷移性方面,相較于單一模型,集成模型產生的對抗樣本有更好的遷移攻擊成功率[48].

2.3 物理空間的對抗攻擊

為了更好地了解深度神經網絡的脆弱性,研究者對部署在實際世界對抗攻擊的可能方式進行了廣泛的研究:Sharif等人[49]設計了對抗性眼框欺騙人臉識別模型;Eykholt等人[50]通過在交通指示牌貼貼紙欺騙停車信號的識別;Brown等人[51]構造了普遍適用的對抗性補丁,導致任何目標錯誤分類;Duan等人[21]提出了采用風格遷移融入對抗樣本生成的方法.在自然場景下,該方法可以偽裝對抗樣本的風格,另一方面克服了過大擾動提高攻擊成功率與視覺隱匿性降低不可協調的矛盾.

3 對抗樣本的防御

對抗防御存在3個主要方向:數據預處理、提高模型的魯棒性、惡意檢測.

1) 數據預處理是在圖像輸入網絡之前對圖像進行平移、旋轉、縮放、裁剪等一系列數據增強的方法來消除圖像中的部分擾動.數據預處理的好處是計算開銷小,不需要修改網絡的結構.

2) 提高模型的魯棒性可以通過修改模型結構、梯度正則化、特征去噪等方式增強模型的魯棒性,但是需要重新訓練網絡,計算開銷大.

3) 惡意檢測方法通過檢測輸入圖像是否為對抗樣本,在送入識別模型之前選擇接受或者拒絕.惡意檢測方法相比于預處理的區別是,不能恢復對抗樣本為干凈樣本.

3.1 數據預處理

3.1.1 圖像變換

對抗樣本通過JPEG壓縮方法[52-53]能夠破壞擾動,在一定程度上降低擾動帶來的影響,從而可以抵御對抗攻擊,但隨著擾動的增加,抵御對抗樣本的效果變差.Liu等人[54]通過重新設計標準的JPEG壓縮算法來抵御對抗樣本,該方法又被叫作特征蒸餾.Jia等人[55]提出了利用圖像壓縮網絡進一步實現對對抗擾動的消除,通過對對抗樣本的預先壓縮實現對擾動的消除,再通過重構的方法恢復干凈的樣本.Raff等人[56]提出了集合多種單一防御方法的綜合防御機制來抵抗對抗樣本,在圖像輸入網絡之前通過諸如JPEG壓縮、小波去噪、非局部均值濾波、位深度縮減等變換,去除樣本的對抗擾動.Guo等人[57]使用圖像縫合及總方差最小化技術來防御對抗攻擊.圖像縫合通過K近鄰選擇外部大小相似的圖像區域來近似生成局部的圖像區域.總方差最小化技術重構出隨機擦除的部分圖像像素,消除可能存在的對抗擾動.Prakash等人[58]提出像素偏轉的方法,該方法通過隨機化來選擇少量像素,替換為領域內隨機選取的像素.因為替換后的像素值會產生噪聲,使用小波去噪[59]將其消除,讓圖像顯得更加真實自然逼真, Sun等人[60]通過構造一個低維擬自然圖像空間,將對抗樣本投影到自然圖像空間中.

3.1.2 去噪網絡

Osadchy等人[61]利用傳統濾波的思想消除對抗擾動,認為對抗擾動是一種噪聲,可以用濾波器濾除.以像素為目標的去噪器(pixel guided denoiser, PGD),由于擾動在特征層逐層放大而導致網絡的錯誤輸出,Liao等人[62]在此基礎上進一步提出了高階表征為目標的去噪器(high guided denoiser, HGD).該方法利用U-Net[63]去除圖像中的擾動,不同于傳統的去噪自編碼器重構原始圖像,而是在特征層的損失函數學習.網絡在避免重構整張圖結構時只需學習如何去除擾動.

3.1.3 超分辨率

Mustafa等人[64]提出一種基于超分辨率[65]的防御方法.該方法能夠將流形邊緣的對抗樣本重新映射到自然圖像流形上.研究表明,超分辨率網絡能夠消除噪聲干擾的主要原因是在輸入圖像中加入了高頻信息.該方法不需要進行任何模型訓練的基礎上增強了圖像的質量,并且保持模型在干凈樣本上的識別率.

3.2 提高模型的魯棒性

3.2.1 對抗訓練

Goodfellow等人[16]最早提出對抗訓練的概念.其主要思想是:將生成的對抗樣本加入訓練集中,與干凈樣本一同訓練來提高模型針對特定對抗樣本的魯棒性,隨著訓練次數的迭代,提高了模型對特定對抗樣本的識別率.Yang等人[66]認為,目前對抗防御方法在模型魯棒性和準確率之間的折中性選擇,可以通過數據集的可劃分性來解決.作者發現真實圖像數據集一般是可劃分的,利用數據集的可劃分性,神經網絡模型在一定程度上可以同時滿足強魯棒性和高準確率.Kurakin等人[67]通過新的訓練策略將模型擴大到更大的訓練集,并且通過批標準化[68]來提高對抗訓練的效率.Madry等人[69]通過投影梯度下降法進行對抗訓練,相比于FGSM單步攻擊增加了多步迭代,但是此類方法涉及所有訓練樣本的迭代攻擊,很難擴展到像ImageNet這樣的大型數據集.對抗訓練因為標簽泄露[23]的原因,生成對抗樣本時需要多次計算輸入圖像的梯度,訓練成本非常高.訓練好的模型對于其他對抗攻擊方式的防御能力很差.通過實驗能夠發現,對抗訓練防御方法難以有效地對低頻擾動的對抗樣本加以抵御[70].

3.2.2 高斯數據增強

雖然對抗訓練落地非常方便,但是問題也顯而易見,就是難以窮盡所有的對抗樣本,那么是否有種方法可以盡量多地窮盡對抗樣本呢,高斯數據增強(Gaussian data augmentation)算法認為,絕大多數的對抗樣本相當于在原始圖像上疊加了噪聲,理想情況下可以用高斯噪聲模擬這種噪聲.在模型的訓練環節中,在原始數據的基礎上,疊加高斯噪聲訓練神經網絡實現正則化,從而提高防御模型的魯棒性.但是向原始樣本中添加的噪聲是從同一高斯分布中采樣得到的,并沒有考慮到網絡對圖像中不同像素的敏感度是不同的.以圖像分類為例,圖像中不同像素點改變對最后分類結果的權重是不同的.劉野等人[71]提出的梯度指導噪聲添加的對抗訓練算法解決了上述問題.該算法根據圖像中不同區域的敏感性(梯度值)添加自適應的噪聲,提高了模型對于對抗樣本的防御能力,同時提高了模型的分類精度.

3.2.3 梯度防御

Gu等人[72]提出了深度壓縮網絡(deep compression network, DCN),在訓練模型的過程中,對壓縮自編碼器的平滑度懲罰項進行正則化約束,在此基礎之上進一步推動模型的輸出向更為平滑的方向發展.神經網絡的輸出對輸入的梯度幅度過大是造成其過于敏感的原因.Ross等人[73]提出梯度正則化的方法來提升網絡的對抗魯棒性.在深度神經網絡的訓練過程中,懲罰輸出相對輸入的變化幅度,使得輸出對于輸入的敏感性降低,從而達到隱藏梯度的效果,但這帶來了更大的計算量.

混淆梯度策略讓基于梯度生成對抗樣本的方法失效.混淆梯度包含3種類型,分別是隨機梯度、破碎梯度、爆炸與消失梯度.破碎梯度添加了一個不可微的預處理g(·),然后在g(X)上訓練深度神經網絡模型.訓練后的分類器f(g(·))在x上不可微,使攻擊者無法找到用于攻擊的梯度,進而使得對抗攻擊失敗.隨機梯度方法的主要思想是訓練一組分類器,在對輸入樣本x分類時,隨機選取一個分類器來預測其類別.由于攻擊者無法知道網絡模型選擇的是哪個分類器,因此攻擊成功率很低.爆炸梯度和消失梯度通常由包含多次神經網絡評估迭代的防御引起,將一個計算的輸出作為下一個計算的輸入.這種類型的計算被視為極深的神經網絡,來自每一層偏導數的累積乘積將使得偏導數極大或者極小,攻擊者很難估計用于生成對抗樣本的梯度信息[74].

3.2.4 防御蒸餾

防御蒸餾(defensive distillation)[75]是基于對模型作平滑輸出的思想來實現的.Hinton等人[76]提出的蒸餾(distillation)是指通過知識遷移的方法,將復雜模型的知識遷移到小模型上,在壓縮神經網絡的同時保持預測的準確性.Papernot等人[75]提出的防御蒸餾的思想是,首先根據原始訓練樣本x和標簽y,以及大于1的溫度T訓練一個教師模型,進而得出概率分布F(x).將原始訓練集中的標簽替換成概率分布F(x),作為新的數據集用完成對學生模型的訓練,在對學生模型的訓練中保持相同的網絡結構、蒸餾溫度T,并最終得出新的概率分布Fd(x).預測時采用T=1來進行分類,該方法保持了分類精度的同時可以有效防御對抗樣本的攻擊.通過訓練的軟標簽,模型的分類邊界更加平滑,增強了對輸入擾動的不敏感性,提升了模型對對抗樣本的魯棒性.然而已有實驗表明防御蒸餾已被C&W攻擊攻破.

3.3 惡意檢測

3.3.1 生成對抗網絡(GAN)

Lee等人[77]提出了一種檢測對抗樣本,并能增強模型魯棒性的防御方法.通過生成對抗網絡中的生成器和判別器相互博弈,在生成網絡生成對抗樣本的同時,判別網絡用來進行分類.通過2個網絡相互博弈,構造的分類網絡魯棒性得到提高.Samangouei等人[78]提出一種新的防御策略Defense-GAN.Defense-GAN使用生成模型將可能存在的對抗樣本投影到干凈數據流形上[79],然后再對其分類.生成模型可以看作是將對抗樣本轉換成干凈樣本的凈化器.

3.3.2 對抗樣本檢測

對抗樣本檢測只需針對性地就輸入樣本是否符合對抗樣本的各項屬性進行辨別.Xu等人[80]提出了通過特征擠壓的方式,不斷去壓縮攻擊者的搜索空間容量.特征擠壓方法在DNN分類器中添加了2個外部模型,分別對應2個實現:1)實現像素級別的顏色深度向下調整,即使用較少的值對顏色編碼;2)對圖像使用平滑濾波器,達到像素值的空間平滑這一效果.原始輸入樣本和通過外部模型壓縮后的樣本經過分類器,輸出2個結果.如果距離相差不大,則輸入樣本被定義為干凈樣本;一旦距離超出閾值之外,則輸入樣本被定義為對抗樣本.

Meng等人[13]提出了一種并行檢測對抗樣本防御框架——MagNet. MagNet使用2種方法處理神經網絡中存在風險的未知樣本.該框架中首先使用檢測器來檢測所有樣本中擾動量大的對抗樣本后直接刪除,然后針對擾動量小的對抗樣本,通過接近真實樣本數據流形上的對應樣本來近似代替.通過這2種并行的防御機制可以提高神經網絡的分類準確度.通過使用Autoencoder作為檢測器,MagNet在不需要任何對抗樣本或者生成對抗樣本信息的條件下達到檢測對抗樣本的目的,該檢測方法具有更強的泛化能力.

3.4 其他對抗防御方法

王曉鵬等人[81]提出了一種新的防御對抗攻擊的方法:FGSM-Defense算法.該算法根據分類器對原對抗樣本的初次預測排名,按照置信度大小取出指定數量的類別,并且通過暴力搜索的方法將選出的類別指定為目標類進行再次攻擊,從而尋找到原對抗樣本的真實類別.該防御方法相比于其他防御方法而言,不需要改變原網絡結構并且不需要對抗訓練,減少了計算開銷,應用部署成本較低.

4 實 驗

4.1 攻擊方法的實驗

我們分別進行以下3組實驗:1)基于MNIST數據集,介紹了典型的白盒攻擊攻擊成功率的對比;2)基于CIFAR-10數據集,針對不同攻擊方法所生成的對抗樣本的黑盒遷移性對比;3)基于ImageNet數據集,比較了不同攻擊方法產生的對抗擾動強度.

4.1.1 白盒攻擊攻擊成功率的對比

第1組實驗基于數據集MNIST,模型是3層卷積的CNN,每層的參數設置為(1,16,5),(16,32,5),(32,64,5),采用線性激活函數Relu,最大采樣(2,2).我們分別對PGD,MutiAttack(10*PGD),BIM,FGSM這4種攻擊方法, eps代表著失真擾動,分別設置4/255,8/255,0.1,0.3.對DeepFool,CW攻擊2種方法, step代表著迭代步數,分別設置10,50,100,1 000,在不添加擾動時,識別模型對于干凈樣本的識別率為99.25%.實驗結果如表1和表2所示:

表1 基于梯度迭代攻擊方式的對抗樣本識別準確率 %

表2 其他攻擊方法下的對抗樣本的識別準確率 %

上述幾種攻擊方法,隨著eps和step的不斷的增大,對抗樣本被識別為干凈樣本的準確率越來越低,代表著攻擊成功率不斷提高.通過對比相同的eps值,mutiAttack的攻擊成功率要高于PGD.實驗也證明,BIM多步迭代攻擊要比單步攻擊FGSM的效果好.在DeepFool攻擊方法中,對抗樣本被識別為干凈樣本的準確率只有1.19%,這說明攻擊成功率顯著,但是隨著step的增加,攻擊成功率提升有限.CW攻擊作為最強白盒攻擊算法之一,其攻擊效果較好.

4.1.2 對抗攻擊的黑盒遷移性

基于CIFAR10數據集,分別通過PGD,BIM,FGSM,DeepFool,CW這5種攻擊方式攻擊白盒模型,利用生成的對抗樣本攻擊相同任務的黑盒模型,白盒模型是2層的卷積,每層參數設置為(3,32,5),(32,64,5),采用線性激活函數Relu,最大采樣(2,2).黑盒模型內部結構和參數未知,實驗結果如表3所示:

表3 各種攻擊方法黑盒遷移性能力對比 %

識別模型對于干凈樣本的識別率是98.72%對于其他各種攻擊方法來說,生成的對抗樣本被識別模型識別為正確類的概率均遠遠低于98.72%,說明遷移攻擊成功.可以利用基于白盒模型產生的對抗樣本,去攻擊具有相同任務的黑盒模型,通常具有較高的成功率,對抗樣本被正確識別的概率相比于原始干凈樣本識別率的降低,證明了對抗樣本遷移攻擊性.

4.1.3 不同攻擊對抗擾動的強度對比

在ImageNet數據集,比較了不同攻擊方法產生的對抗擾動強度.下面將分別介紹FGSM,BIM,PGD,DeepFool,CW,TPGD的攻擊方法,選擇其中的3組圖片進行展示,如圖7所示.

由圖7可知,各種攻擊方法產生的對抗樣本對于人類視覺感知系統幾乎沒有差異,但卻可以讓機器模型出錯.對于同一樣本的攻擊,PGD的攻擊強度明顯高于BIM和FGSM. CW作為最強的一階攻擊算法,3組圖片的變形程度略高于其他算法.

圖7 對抗擾動強度對比

4.2 防御方法的實驗

為了對比不同防御方法的模型防御能力,我們分別進行了2組實驗:1)基于MNIST,CIFAR10數據集,通過PGD攻擊產生對抗樣本進行對抗訓練的防御方法;2)基于MNIST,CIFAR10,ImageNet數據集,通過訓練DAE(denoising autoencoder)消除對抗樣本擾動的防御方法.

4.2.1 對抗訓練的魯棒性

實驗基于MNIST,ImageNet數據集,采用和實驗1同樣的網絡模型和網絡參數,對抗訓練產生對抗樣本的方式是PGD,其中識別模型在MNIST數據集上,對干凈樣本的識別率是99.12%,在CIFAR-10上對于干凈樣本的識別率為98.86%,實驗結果如表4所示.

由實驗對比可知,通過PGD攻擊產生的對抗樣本加入訓練集用于對抗訓練的模型,對于PGD攻擊方法產生了較好的魯棒性,因此證明對抗訓練是一種有效的抵御對抗樣本的方法. PGD和BIM都是迭代的FGSM,兩者的區別是PGD增加迭代輪數,并且隨機化處理,理論上PGD的攻擊效果要比BIM好.實驗也證明,通過PGD對抗訓練產生的魯棒模型,對于BIM和FGSM同類低強度攻擊方法也有很好的防御效果.上述實驗的另一個現象是,對于DeepFool和CW等其他攻擊方法,對抗訓練模型的泛化能力不好.證明了對抗訓練方法只能對參與對抗訓練的特定對抗攻擊方法有效,對其他攻擊方法不具有模型魯棒性.對比實驗1,對抗訓練的模型對測試集干凈樣本的識別率為99.12%,低于原始識別率99.25%,說明對抗訓練的方法在提升模型的魯棒性的同時,降低了干凈樣本的識別精度.

表4 對抗訓練的魯棒性 %

4.2.2 DAE去噪防御

圖8所示為DAE效果圖,其中第1行是原始圖像加了隨機高斯噪聲,第2行是原始圖像加了椒鹽噪聲,第3行為高斯噪聲圖像和椒鹽噪聲圖像通過DAE網絡去除了噪聲的圖像,實驗說明DAE網絡有對圖像去除噪聲的效果.

圖8 DAE網絡圖像去噪

圖9 擾動去噪前和去噪后對比

我們用PGD,BIM,FGSM,DeepFool,CW等攻擊方法產生的對抗樣本,通過上述的DAE去噪網絡,消除對抗擾動.如圖9以及表5所示. 左列是通過PGD攻擊產生的對抗樣本,右列為對抗樣本經過DAE模型去除擾動恢復的樣本.識別模型在MNIST數據集上,對干凈樣本的識別率是99.25%,在CIFAR10上,對干凈樣本的識別率是99.09%,在ImageNet上,對于干凈樣本的識別率是98.86%.

表5 DAE網絡對各種攻擊方式的去噪能力對比 %

表5分別在MNIST,CIFAR10,ImageNet數據集進行實驗對比,識別模型對于對抗樣本有較低的識別率,但是通過DAE網絡去除對抗樣本中的擾動后,識別模型對去噪后的樣本有較高的識別率,說明DAE網絡模型能夠有效地對對抗樣本進行抵御,在此基礎上進一步實現模型魯棒性的提升.對于DAE網絡來說,對抗樣本的擾動在特征層被視為一種噪聲,DAE網絡有去除噪聲的能力.另外上述3種數據集中,去除噪聲后的樣本識別率均低于識別模型對干凈樣本的識別率,證明DAE網絡是一種有損恢復,模型在壓縮擾動噪聲的同時也造成了原始樣本有效信息的損失,從而造成了恢復的樣本模型識別率的降低.

5 結 論

對抗樣本會嚴重威脅深度學習模型的安全性,因此對抗樣本也成為當下工業界的研究熱點,阿里巴巴研發了對抗知識問答驗證碼——AI安全驗證碼[82].攻擊方法和防御方法不斷演進,互為矛盾,共同推動這個領域的發展.本文介紹了:1)對抗樣本的概念及對抗樣本產生的原因;2)如何產生對抗樣本;3)以數據和模型2個層面為切入點如何開展對抗防御;4)為了更加深入地介紹現有的對抗攻擊與對抗防御方法,在公平的測試協議下,對目前主流的對抗攻擊以及對抗防御方法進行了定量對比實驗,并進行了攻擊方法的黑盒遷移對比實驗.關于對抗樣本防御方向,我們認為未來可以關注圖像整體結構,而不是紋理特征獲得更強的魯棒性,加入結構化的規則來融合整體的結構信息.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 欧美日本不卡| 亚洲高清资源| 91麻豆精品视频| 日本在线视频免费| 性视频久久| 9966国产精品视频| 成人免费一区二区三区| 国产色伊人| 国产一区成人| 亚洲精品波多野结衣| 人妻91无码色偷偷色噜噜噜| 国产精品永久不卡免费视频| 国产激情在线视频| 在线网站18禁| 精品视频第一页| 日本中文字幕久久网站| 91精品专区国产盗摄| 日韩不卡免费视频| 国产亚洲精品97在线观看| 九九九久久国产精品| 国产香蕉国产精品偷在线观看| 亚洲资源在线视频| 中文字幕久久精品波多野结| 人妻一本久道久久综合久久鬼色| 国产午夜人做人免费视频| 成人福利在线视频| 国产人成乱码视频免费观看| 国产亚卅精品无码| 日韩色图区| 美女毛片在线| 亚洲第一区在线| 国产精品尹人在线观看| 国产白浆视频| 亚洲第一福利视频导航| 制服丝袜一区| 国产真实二区一区在线亚洲 | 91在线播放免费不卡无毒| 国产精品深爱在线| 亚洲AⅤ波多系列中文字幕| 四虎免费视频网站| 日韩毛片免费| 亚洲人成在线精品| 成人综合网址| 一级毛片在线直接观看| 欧美成人综合在线| 久久国产高清视频| 最新国产网站| 日韩中文欧美| 亚洲欧美成人在线视频| 一级毛片免费不卡在线| 91亚瑟视频| 国产欧美在线视频免费| 成年女人a毛片免费视频| 日韩成人高清无码| 欧美日韩成人在线观看| 亚洲色婷婷一区二区| 日韩久草视频| 小说 亚洲 无码 精品| 亚洲侵犯无码网址在线观看| 日本精品中文字幕在线不卡| 成人毛片免费观看| 3p叠罗汉国产精品久久| 亚洲日韩高清在线亚洲专区| 亚洲国产综合自在线另类| 蜜桃视频一区二区三区| 欧美日韩激情在线| 91久久青青草原精品国产| 99爱视频精品免视看| 黄色一及毛片| 中日无码在线观看| 久久国语对白| 国产成人亚洲毛片| 色婷婷在线影院| 91精品国产自产在线观看| 欧美国产另类| 国产一区在线视频观看| 国产白浆视频| V一区无码内射国产| 亚洲国产天堂久久综合| 熟妇人妻无乱码中文字幕真矢织江| 亚洲欧美人成电影在线观看| 19国产精品麻豆免费观看|