基于快速邊界攻擊的黑盒對(duì)抗樣本生成方法①

2021-01-21 06:49:56郭書杰

計(jì)算機(jī)系統(tǒng)應(yīng)用 2020年12期

郭書杰

(大連東軟信息學(xué)院智能與電子工程學(xué)院,大連 116023)

基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)已經(jīng)被成功地應(yīng)用于計(jì)算機(jī)視覺[1,2]、語音識(shí)別[3]和自然語言處理[4?9]等多個(gè)領(lǐng)域.特別是在機(jī)器視覺中的圖像識(shí)別方面,深度學(xué)習(xí)技術(shù)取得了非常大的成就.盡管如此,深度學(xué)習(xí)技術(shù)自身也存在著比較嚴(yán)重的安全問題.Szegedy 等[10]發(fā)現(xiàn)在使用深度學(xué)習(xí)技術(shù)進(jìn)行圖像識(shí)別時(shí),只要改動(dòng)圖片上的一個(gè)像素,就能讓神經(jīng)網(wǎng)絡(luò)識(shí)別錯(cuò)誤,甚至還可以誘導(dǎo)它返回特定的結(jié)果.在自動(dòng)駕駛、人臉識(shí)別、語音識(shí)別、CT 影像分類等典型的深度學(xué)習(xí)應(yīng)用中,錯(cuò)誤的識(shí)別結(jié)果將會(huì)帶來非常嚴(yán)重的后果.因此很多研究者開始關(guān)注深度學(xué)習(xí)模型的抗干擾能力的問題.

為了檢驗(yàn)深度學(xué)習(xí)模型的抗干擾性和魯棒性,研究人員提出了對(duì)抗樣本的概念.所謂對(duì)抗樣本就是在一個(gè)已經(jīng)正確分類的樣本中,添加細(xì)微干擾形成的新樣本,該樣本可以使訓(xùn)練好的模型以較高的置信度給出錯(cuò)誤的分類結(jié)果[11].國(guó)內(nèi)外研究者提出了多種對(duì)抗樣本生成方法[12-19].按照不同的規(guī)則,可以將這些方法劃分成不同種類.按照其生成方式和原理的不同,可以分為部分像素添加擾動(dòng)和全像素添加擾動(dòng)兩類.按照生成過程是否需要知道模型內(nèi)部結(jié)構(gòu)與參數(shù),可以分為白盒方法和黑盒方法.需要知道模型內(nèi)部機(jī)構(gòu)與參數(shù)的生成方法叫白盒方法,反之叫黑盒方法.根據(jù)對(duì)抗規(guī)則的不同又可以分為有目標(biāo)對(duì)抗和無目標(biāo)對(duì)抗.有目標(biāo)對(duì)抗是指對(duì)抗樣本需要使模型給出某種指定的錯(cuò)誤類別；無目標(biāo)對(duì)抗則只要求模型給出錯(cuò)誤分類結(jié)果即可.Su 等提出了一種黑盒對(duì)抗樣生成方法ONEPIXEL[20],該方法將對(duì)抗樣本的生成過程轉(zhuǎn)換為一個(gè)條件優(yōu)化問題,然后使用差分進(jìn)化算了來求解該問題,并最終得到對(duì)抗樣本.該方法可以對(duì)梯度難以計(jì)算和不可微的網(wǎng)絡(luò)進(jìn)行攻擊,具有良好的靈活性.然而,由于只改變了原始圖像的一個(gè)像素,該方法的攻擊成功率相對(duì)較低,特別是有目標(biāo)攻擊的成功率.Dong 等在借鑒I-FGSM 和ILCM 方法的基礎(chǔ)上,提出了MIFGSM 黑盒攻擊方法[21].該方法通過將動(dòng)量迭代來替換梯度迭迭代,使得在迭代過程具有更加穩(wěn)定的更新方向,從而降低陷入局部最優(yōu)的概率.雖然該方法對(duì)添加的噪聲方向進(jìn)行了平滑,但是隨著迭代次數(shù)增加,邊界效應(yīng)依然存在.為了解決這一問題,Shi 等提出了Curls & Whey 方法[19].Curls & Whey 方法通過使迭代軌跡的多樣化和壓縮噪聲的幅度來提高生成的對(duì)抗樣本的質(zhì)量.由于MI-FGSM 和Curls & Whey 均為基于遷移的攻擊,所以他們均不能保證個(gè)體級(jí)別的攻擊成功.Brendel 等提出了一種基于決策的有目標(biāo)黑盒對(duì)抗樣本生成方法[15],該方法能夠保證攻擊的成功率,但需要較多的模型訪問次數(shù),因此效率相對(duì)較低.有目標(biāo)的黑盒攻擊的難點(diǎn)在于,如何在保證攻擊成功率的前提下提高對(duì)抗樣本的生成效率.為了解決這一難點(diǎn),本文提出一種應(yīng)用于圖像分類領(lǐng)域的全像素添加擾動(dòng)的黑盒對(duì)抗方法,該方法主要針對(duì)有目標(biāo)對(duì)抗,同時(shí)也適用于無目標(biāo)對(duì)抗樣本的生成.

1 基于快速邊界攻擊的黑盒對(duì)抗樣本生成方法

1.1 面向圖像分類的有目標(biāo)黑盒攻擊

深度神經(jīng)網(wǎng)絡(luò)可以完成各種不同的分類任務(wù),本文討論的是圖像分類任務(wù)中的深度神經(jīng)網(wǎng)絡(luò)模型對(duì)抗樣本的生成方法.在用于圖像分類的神經(jīng)神經(jīng)網(wǎng)絡(luò)中,圖片的每個(gè)通道通常用矩陣Ann表示.其中n表示圖像的行數(shù)和列數(shù),每個(gè)元素取0-255 之間的整數(shù).對(duì)于一個(gè)深度學(xué)習(xí)模型M,要對(duì)一張正確分類為N的圖片X生成一個(gè)干擾目標(biāo)為L(zhǎng)的黑盒攻擊樣本,就是在X上添加較少的噪聲干擾得到樣本X’,使得M對(duì)X’的分類結(jié)果為L(zhǎng).也就是：

式(1)中,ρ是需要加入的干擾噪聲.

1.2 相關(guān)定義

為了便于問題描述,給出以下定義.

定義1.決策空間：在一個(gè)圖像分類神經(jīng)網(wǎng)絡(luò)中,所有被分類為A的圖像組成的集合,就叫做A的決策空間SA,也就是A的決策空間：

定義2.決策邊界：在一個(gè)圖像分類神經(jīng)網(wǎng)絡(luò)中,分類A的決策邊界是指A的決策空間的最外層,也就是那些即便做極其微小的改動(dòng)都會(huì)改變其分類結(jié)果的圖像的集合.A的決策邊界：

定義3.圖像間的距離：本文中使用歐氏距離來定義兩張圖片間的距離.令圖片P1的矩陣為X,圖片P2的矩陣為Y,則P1和P2之間的距離為：

基于上述定義,對(duì)于一張分類為M的圖片Pm,要生成一個(gè)分類為N的對(duì)抗樣本,也就是要在N的決策空間中找到一個(gè)點(diǎn)Pn,使得Pm和Pn的距離盡可能小.即：Pn=min{D(Pm,Pn)|Pn∈BN}

根據(jù)決策邊界的定義不難看出,最理想的對(duì)抗樣本一定在N的決策邊界BN上,如圖1所示.

1.3 快速邊界攻擊法

邊界攻擊就是沿著某一分類N的臨近決策邊界BN尋找距離被攻擊目標(biāo)最近的點(diǎn)的過程.如圖2所示.

圖1 對(duì)抗樣本示例

圖2 邊界攻擊過程

為了能夠快速找到最優(yōu)攻擊樣本Pn,設(shè)計(jì)了一種快速邊界攻擊法.快速邊界攻擊首先通過單側(cè)折半法快速找到干擾樣本和被攻擊樣本的近似邊界所在,然后再以可自動(dòng)調(diào)節(jié)的步長(zhǎng)沿著決策邊界BN探索,直至找到滿足停止條件的對(duì)抗樣本.具體的步驟如下.

第1 步.初始化攻擊樣本.從決策空間SN中隨機(jī)選出一張圖片Pn0作為初始攻擊樣本Padver.

第2 步.找到Pm與Padver之間的近似邊界點(diǎn).使用單側(cè)折半查找法在Pm與Padver之間的連線上找到距離決策邊界BN相對(duì)較近的點(diǎn)Pboundary,并將該點(diǎn)賦值給Padver.單側(cè)折半查找法的具體步驟如下.

① 首先根據(jù)圖像間的距離公式,確定被攻擊目標(biāo)Pm與攻擊樣本Padver之間的中點(diǎn)Pmid=(Pm+Padver)/2.

② 使用神經(jīng)網(wǎng)絡(luò)對(duì)Pmid進(jìn)行分類預(yù)測(cè),得到分類結(jié)果Cmid；若Cmid=N,則將Pmid賦值給Padver；若Cmid≠N,則在后(右)半個(gè)區(qū)域Pmid和Padver之間繼續(xù)進(jìn)行折半查找,直至找到分類結(jié)果為N的Pmid,將Pmid賦值給Padver.單側(cè)折半法的具體過程如圖3所示.

第3 步.沿著N的近似邊界隨機(jī)探索更優(yōu)樣本.以自適應(yīng)步長(zhǎng)δ在Padver附近隨機(jī)尋找n個(gè)對(duì)抗樣本,將這些樣本中距離Pm最近的分類結(jié)果為N的點(diǎn)賦值給Padver并轉(zhuǎn)到第2 步繼續(xù)運(yùn)行,直至找到滿足停止條件的對(duì)抗樣本.δ的大小決定了算法在Padver附近的搜索半徑,當(dāng)δ比較小時(shí),算法只能在Padver較近的區(qū)域搜索,由于搜索到的點(diǎn)大多與目標(biāo)點(diǎn)Pn較遠(yuǎn),所以搜索效率不高；當(dāng)δ比較大時(shí),算法的搜索范圍可能會(huì)超過決策邊界BN,從而使得無法找到滿足條件的樣本,導(dǎo)致搜索停滯.為了在提高算法的搜索效率,步長(zhǎng)δ的初始值取0.1,隨著算法的進(jìn)行,自動(dòng)調(diào)節(jié)δ的值,其調(diào)節(jié)策略如下.使用神經(jīng)網(wǎng)絡(luò)對(duì)以δ為步長(zhǎng)在Padver附近隨機(jī)尋找n個(gè)對(duì)抗樣本進(jìn)行預(yù)測(cè),計(jì)算預(yù)測(cè)結(jié)果中分類N的平均值MSN.該平均值越大,說明n個(gè)對(duì)抗樣本中屬于決策空間SN的樣本越多,距離決策邊界BN越遠(yuǎn).為了提高優(yōu)化效率,需要讓?duì)脑龃?相反,該平均值越小,說明步長(zhǎng)δ設(shè)置得過大,使得n個(gè)對(duì)抗樣本中較多的樣本已經(jīng)越過了策邊界BN,需要減小δ的值.為了確定自適應(yīng)調(diào)節(jié)參數(shù),對(duì)調(diào)節(jié)時(shí)機(jī)(即MSN的值取多少時(shí)進(jìn)行調(diào)節(jié))、調(diào)節(jié)量(即δ值的縮放系數(shù))進(jìn)行了對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)以達(dá)到0.9 的樣本優(yōu)化率(見定義5)所需的模型訪問次數(shù)為標(biāo)準(zhǔn)來評(píng)價(jià)算法的搜索效率,從而確定參數(shù)的優(yōu)劣.實(shí)驗(yàn)結(jié)果顯示,當(dāng)MSN的值介于0.3-0.7 時(shí),算法能夠保持相對(duì)穩(wěn)定的搜索效率.依據(jù)實(shí)驗(yàn)結(jié)果,采用如下調(diào)節(jié)方案：當(dāng)MSN的值大于0.7時(shí)δ擴(kuò)大為原來的1.1 倍；當(dāng)MSN的值大于0.8 時(shí)δ擴(kuò)大為原來的1.3 倍；當(dāng)MSN的值大于0.9 時(shí)δ擴(kuò)大為原來的1.7 倍.當(dāng)MSN的值小于0.3 時(shí)δ縮小為原來的0.9 倍；當(dāng)MSN的值小于0.2 時(shí)δ縮小為原來的0.7 倍；當(dāng)MSN的值小于0.1 時(shí)δ縮小為原來的0.5 倍.快速邊界攻擊法的算法如算法1.

圖3 單側(cè)折半法的查找過程示例

算法1.快速邊界攻擊樣本生成算法輸入：被攻擊原始圖片Pm,錯(cuò)誤分類N,待攻擊的分類模型CNN-M.輸出：攻擊樣本Pn.1)初始化相關(guān)參數(shù)；2)從N 的決策空間中隨機(jī)選出一張圖片作為初始攻擊樣本Padver；3)while (true)4)使用單側(cè)折半查找法查找Pm 和Padver 之間的臨近邊界點(diǎn),并將其賦值給Padver；5)以δ 為步長(zhǎng)在Padver 附近隨機(jī)生成n 個(gè)樣本PRn={P1,P2,…,Pn}；6)使用分類模型CNN-M 對(duì)PRn 中的每個(gè)樣本Pi 進(jìn)行分類預(yù)測(cè)；

7)將這n 個(gè)樣本PRn 中分類預(yù)測(cè)結(jié)果為N 且距離Pm 最近的點(diǎn)賦值給Padver對(duì)這n 個(gè)；8)根據(jù)樣本的分類預(yù)測(cè)結(jié)果調(diào)節(jié)步長(zhǎng)δ 的值；9) if (滿足終止條件)10) break；

一張圖片的決策空間是立體的多維球面,為了能夠高效地在其決策邊界附近找到一個(gè)近似最優(yōu)解,快速邊界攻擊法的搜索過程分為線上的搜索和面上的搜索兩步.線上的搜索由單側(cè)折半法來完成,用于快速找到在Pn0到Pm的連線上距離決策邊界較近的點(diǎn)Padver；面上的搜索通過以自適應(yīng)步長(zhǎng)δ在Padver附近的隨機(jī)搜索來完成.通過快速的線上搜索來提高算法的速度,使用面上的搜索來提高搜索的廣度,這兩個(gè)步驟的結(jié)合,既保證了算法具有良好的搜索效率,又保證了算法搜索結(jié)果的質(zhì)量.由于該方法采用的是從錯(cuò)誤分類N的決策空間逐漸向正確分類M的決策空間靠近的搜索方法,而且在搜索過程中始終保證每一輪搜索的最優(yōu)結(jié)果均在N的決策空間中,所以可以保證最終生成的對(duì)抗樣本具有可靠的攻擊成功率.

使用該方法生成一張圖片的有目標(biāo)對(duì)抗樣本的過程如圖4所示.假設(shè)要生成一張分類結(jié)果為“Siamese_cat”的圖片A的對(duì)抗樣本,使得深度學(xué)習(xí)模型將其誤分為“Labrador_retriever”.在開始時(shí),從分類為“Labrador_retriever”的樣本中隨機(jī)選擇一張圖片B,然后使用快速邊界攻擊法在B的近似決策邊界上尋找距離A最近的圖片作為A的對(duì)抗樣本B'.不難看出,隨著尋優(yōu)過程的推進(jìn)B'與A的距離逐漸減少,攻擊樣本與原始圖像A的差別也越來越小.

圖4 快速邊界攻擊法的具體示例

1.4 無目標(biāo)對(duì)抗樣本生成方案

快速邊界攻擊法主要適用于有目標(biāo)對(duì)抗,但它也能夠?qū)崿F(xiàn)無目標(biāo)攻擊,只需改變初始化攻擊樣本的生成方法即可.在有目標(biāo)對(duì)抗樣本生成時(shí),初始攻擊樣本是從目標(biāo)類決策空間中隨機(jī)選出一張圖片.為了提高算法的效率,在使用該方法生成某一分類為N的圖片A的無目標(biāo)對(duì)抗樣本生成時(shí),首先從其他非N分類的決策空間中隨機(jī)選出m個(gè)樣本,然后分別計(jì)算這m個(gè)樣本與圖片A的距離,從中選出距離最小的樣本作為初始攻擊樣本.也就是說,在進(jìn)行無目標(biāo)對(duì)抗樣本生成時(shí),選擇m個(gè)隨機(jī)樣本中與A的相似度最高的圖片作為初始攻擊樣本,以便提高對(duì)抗樣本的生成效率.

2 實(shí)驗(yàn)及結(jié)論

2.1 可行性實(shí)驗(yàn)

為了檢驗(yàn)方法的可行性,在Windows 10 平臺(tái)上使用編程實(shí)現(xiàn)了快速邊界攻擊法,并進(jìn)行了5 組圖片的樣本生成實(shí)驗(yàn).實(shí)驗(yàn)中對(duì)抗的網(wǎng)絡(luò)模型為ResNet50,使用的測(cè)試數(shù)據(jù)如圖5所示.其中上面的圖像為初始對(duì)抗樣本,下邊的圖像為被攻擊目標(biāo)樣本,從左至右分別稱為a 組、b 組、c 組、d 組和e 組.

在評(píng)價(jià)算法的效率時(shí),需要選擇合適的參數(shù)作為對(duì)比對(duì)象,為了便于描述該參數(shù),給出以下定義.

定義4.模型訪問次數(shù)：在算法運(yùn)行過程中,調(diào)用深度學(xué)習(xí)模型進(jìn)行分類預(yù)測(cè)的總次數(shù).

定義5.樣本優(yōu)化率：令給定的初始對(duì)抗樣本為A,被攻擊目標(biāo)樣本為B,某代優(yōu)化得到的臨時(shí)對(duì)抗樣本為A＇則樣本優(yōu)化率Ro的定義如下：

圖5 對(duì)比實(shí)驗(yàn)用的圖片

基于上述定義,給定優(yōu)化率時(shí)的模型訪問次數(shù)可以表示算法的對(duì)抗樣本生成效率的大小,對(duì)于相同的樣本優(yōu)化率來說,模型訪問次數(shù)越少,算法的效率就越高.五組實(shí)驗(yàn)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果如圖6所示.由實(shí)驗(yàn)結(jié)果不難看出,對(duì)于5 組圖片,算法均能在約4400 次模型訪問后,達(dá)到0.8 的模型優(yōu)化率；在12000 左右次模型訪問后,達(dá)到0.9 的模型優(yōu)化率.算法在初期(樣本優(yōu)化率<0.6 時(shí))生成效率相差不大；但在中后期會(huì)有不同的表現(xiàn),e 組最快,a 組最慢.

2.2 效率實(shí)驗(yàn)

為了檢驗(yàn)方法的生成效率,與Wieland Brendel 的Boundary 方法[15]做了對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)的對(duì)抗的網(wǎng)絡(luò)模型、測(cè)試數(shù)據(jù)、算法效率評(píng)價(jià)方法與2.1 節(jié)中可行性實(shí)驗(yàn)的相同.實(shí)驗(yàn)結(jié)果如圖7所示.對(duì)于5 組圖片,快速邊界攻擊法的效率較Boundary 方法均有不同程度的提高,能夠用相對(duì)較少的模型訪問次數(shù)來達(dá)到相同的本優(yōu)化率.

圖6 可行性實(shí)驗(yàn)結(jié)果

圖7 效率實(shí)驗(yàn)結(jié)果

2.3 結(jié)論

快速邊界攻擊法較為簡(jiǎn)單,易于實(shí)現(xiàn),具有較好的通用性；能夠生成無目標(biāo)對(duì)抗樣本和有目標(biāo)對(duì)抗樣本,而且屬于比較有應(yīng)用價(jià)值的黑盒對(duì)抗樣例生成方法；與Boundary 方法相比,快速邊界攻擊法具有相對(duì)較好的生成效率.但由于每個(gè)分類的決策空間相對(duì)較大,為了找到近似最小擾動(dòng),該方法的訪問次數(shù)還是比較大,所以生成過程比較耗時(shí),因此不適用于對(duì)實(shí)時(shí)性有要求的對(duì)抗樣本的生成.