程旭,王瑩瑩,張年杰,付章杰,陳北京,趙國英
(1.南京信息工程大學計算機學院、軟件學院、網絡空間安全學院,江蘇 南京 210044;2.南京信息工程大學數字取證教育部工程研究中心,江蘇 南京 210044;3.奧盧大學機器視覺與信號分析研究中心,奧盧 FI-90014)
視覺目標跟蹤是計算機視覺的關鍵任務之一,在公共安全領域扮演著十分重要的角色,如視頻監控、自動駕駛、無人機追蹤、圖像目標分割、目標行為識別等。近年來,得益于深度學習(DL,deep learning)技術的蓬勃發展,目標跟蹤算法取得了重大突破,特別是孿生網絡這一類目標跟蹤算法在精度和速度上均取得了優異表現,并在OTB 視頻跟蹤數據集上達到了91%的精確度,速度也達到了實時。然而,從安全的角度考慮,深度學習跟蹤器存在嚴重的安全隱患,極易受到對抗樣本的干擾。
對抗攻擊是通過對原始圖像添加人眼不可見的微小擾動,以欺騙深度網絡模型,導致分類預測錯誤。近年來,對抗攻擊已經由圖像分類延伸到目標跟蹤、語義分割等領域,成功地破壞了深度學習任務的有效性。此外,深度學習算法無法有效地處理對抗樣本。偽造的樣本會使深度學習模型輸出意想不到的結果。因此,研究基于深度學習的目標跟蹤對抗攻擊方法對確保算法的安全性和穩健性是至關重要的,可為設計更加穩健的算法提供思路。
基于以上動機,本文以孿生網絡跟蹤器SiamRPN++為主要攻擊對象,研究了視覺目標跟蹤的對抗攻擊方法,主要貢獻包括以下3 個方面。
1) 針對現有對抗擾動技術難以有效地干擾跟蹤器使運動軌跡發生快速偏移的問題,提出了一種基于空間感知的多級損失目標跟蹤對抗攻擊方法,利用生成器生成對抗樣本來實現對目標跟蹤器的干擾,降低了跟蹤精度,具有較好的攻擊效果。
2) 提出了一種高效的空間感知快速漂移攻擊框架,在此框架下設計了欺騙損失、漂移損失和雙重注意力機制的特征損失和感知損失來聯合訓練生成器,生成人眼難以察覺的對抗擾動,用于欺騙目標跟蹤器。
3) 將所提方法在OTB100、VOT2018 和LaSOT這3 個主流的目標跟蹤數據集上進行驗證,實驗結果表明,所提方法可使跟蹤器的判別能力失靈,預測邊框逐漸收縮,導致目標軌跡發生偏移,比原始跟蹤器在OTB 數據集上實現了70%的精確度下降。
目標跟蹤技術是高層視覺任務分析與處理的基礎,已在視頻監控、視覺導航、行為識別、自動駕駛等領域得到了廣泛應用。視覺目標跟蹤任務是在給定某視頻序列初始幀的目標大小與位置的情況下,預測該目標在后續幀的大小與位置。然而,即使基于深度學習的目標跟蹤技術已經能夠成功地處理復雜問題,但最近研究表明它們對輸入中的輕微擾動很敏感,會導致跟蹤性能下降。對抗攻擊對深度學習在實踐中取得成功構成了一系列威脅。本節將分別從目標跟蹤、對抗攻擊2 個方面介紹相關的研究工作。
1) 目標跟蹤
近年來,以相關濾波(CF,correlation filter)和深度學習為代表的判別式方法取得了令人滿意的效果,已成為目標跟蹤的主流方法。
相關濾波源于信號處理領域,基于相關濾波目標跟蹤的基本思想就是尋找一個濾波模板,讓下一幀圖像與濾波模板進行卷積操作,響應最大的區域則是預測目標。基于此,國內外學者先后提出了大量方法,如MOSSE(minimum output sum of squared error filter)[1]、KCF(kernelized correlation filter)[2]等。此外,在KCF 的基礎上又發展了一系列跟蹤方法用于處理各種復雜場景下的挑戰,如處理尺度變化的DSST(discriminative scale space tracker)[3]、基于分塊的相關濾波RPT(reliable patch tracker)[4]等。但是上述方法會受到邊界效應的影響。為了克服這一問題,Danelljan 等[5]提出一種高效的SRDCF(spatially regularized discriminative correlation filter)方法,利用空間正則化懲罰相關濾波系數,取得了和同時期基于深度學習跟蹤方法相當的效果。進一步地,Danelljan 等[6]利用卷積神經網絡(CNN,convolutional neural network)提取目標特征,并結合相關濾波提出了連續卷積算子的目標跟蹤(C-COT,continuous convolution operator for visual tracking)方法。
由于深度特征對目標擁有強大的表征能力,深度學習在計算機視覺各領域展現出巨大的潛力。Wang 等[7]首次將深度學習引入目標跟蹤領域,其將在分類數據集上訓練的卷積神經網絡遷移到目標跟蹤任務中,與傳統方法相比,性能得到了提升。Hong 等[8]提出的 CNN-SVM 算法首先利用在ImageNet 上訓練的卷積神經網絡提取目標特征,再利用SVM 跟蹤目標。Wang 等[9]提出基于全卷積模型的目標跟蹤方法,利用目標的2 個卷積層特征構造可以選擇特征圖的網絡,跟蹤性能比CNN-SVM有了小幅提升。其他代表性方法還有HCF[10]、VITAL[11]等。然而,目標跟蹤任務與圖像分類任務有本質區別,圖像分類任務關注類間差異,忽視了類內區別;目標跟蹤任務則關注區分特定目標與背景,抑制同類目標。因此,在分類數據集上預訓練的網絡可能不完全適用于目標跟蹤任務。
針對這一問題,文獻[12]提出一種專門在跟蹤視頻序列上訓練的多域卷積神經網絡模型MDNet,獲得了VOT2015 競賽冠軍。然而,該方法不能滿足實時要求。針對這一問題,基于孿生網絡的目標跟蹤算法在跟蹤精度和速度上取得了很好的平衡,在大量數據集上取得了優異的性能,代表性方法包括 SiamFC[13]、SiamRPN[14]、SiamRPN++[15]、DaSiamRPN[16]、Siam R-CNN[17]等。
2) 對抗攻擊
研究表明,CNN 極易受到攻擊。即使最先進的分類器也很容易被添加到原始圖像中的噪聲所蒙蔽。因此,深度學習下的對抗攻擊研究具有重要意義。
根據威脅模型,可將現有攻擊分為白盒攻擊和黑盒攻擊,它們之間的差異在于攻擊者了解的信息不同。白盒攻擊假定攻擊者具有關于目標模型的完整知識,可通過任何方式直接在目標模型上生成對抗樣本。黑盒攻擊只能依賴查詢訪問的返回結果來生成對抗樣本。在上述3 種攻擊模型的框架中,研究者提出了許多用于對抗樣本生成的攻擊算法。這些方法大致可分為基于梯度迭代的攻擊、基于生成式對抗網絡(GAN,generative adversarial network)的攻擊和基于優化的攻擊三類。
基于梯度迭代的攻擊方式的代表性方法包括FGSM[18]、Deepfool[19]、DAG[20]、PGD[21]、BIM[22],它們通過優化對抗目標函數以愚弄深度神經網絡。Wang 等[19]利用迭代計算生成最小規范對抗擾動,將位于分類邊界內的圖像逐步推到邊界外,直到出現錯誤分類。然而,FGSM 和PGD 生成的對抗樣本比較模糊,跟蹤時不但容易被發現,而且攻擊效果較差。司念文等[23]提出一種基于對抗補丁的Grad-CAM 攻擊方法,設計了分類結果不變而解釋結果偏向對抗補丁的目標函數,使Grad-CAM 方法無法定位圖像中的顯著區域。Su 等[24]提出一種基于差分進化的單像素對抗擾動生成方法,通過修改圖像中的一個像素,使數據集中多種類別的圖像至少有一類目標被攻擊。該方法僅修改單個像素無法適應視頻的多幀任務。Zhong 等[25]首次研究了遷移對抗攻擊在人臉識別中的特性,提出了一種基于丟棄的方法DFANet 來提高現有攻擊方法的遷移性,生成的人臉圖像對有效地欺騙了人臉識別系統。Chen等[26]提出對目標模板的單次攻擊方法,通過優化批置信度損失和特征損失來尋找模板的對抗樣本。該方法產生的對抗樣本易被人眼察覺,無法攻擊正常運行的跟蹤器。Jia 等[27]利用構造的偽分類標簽和偽回歸標簽來尋找真實損失和偽損失差異的梯度方向,進而產生對抗樣本。然而,該方法攻擊過程耗時,難以滿足實時性要求。
基于生成式對抗網絡的攻擊方式使用大量數據來訓練生成器以產生擾動噪聲,代表性方法有AdvGAN[28]、UEA[29]、AdvGAN++[30]。Deb 等[31]提出一種高質量的對抗人臉生成法,運用GAN 來改變人臉的潛在區域使對原圖擾動最小,在不改變視覺質量的情況下,大幅降低了人臉識別的成功率。Baluja 等[32]提出一種全新的對抗樣本生成方法,針對目標網絡或一系列需要攻擊的網絡,通過自監督學習方式訓練對抗轉化網絡(ATN,adversarial transformation network)來生成對抗樣本,提高了對抗樣本生成速度且豐富了樣本的多樣性。以上基于GAN 的方法需同時優化生成器與判別器以產生對抗樣本。Yan 等[33]提出一種冷卻收縮對抗損失以冷卻目標區域及收縮預測邊框,該方法雖能快速產生人眼無法察覺的對抗樣本,但是攻擊能力欠佳且對黑盒跟蹤器的遷移性有限。Sharif 等[34]提出一種對抗生成網絡(AGN,adversarial generative network),訓練生成器網絡產生滿足期望目標的對抗樣本,在數字空間和現實世界中均成功迷惑了人臉識別系統。
基于優化的攻擊方式主要是CW 攻擊(carlini and wagner attack)[35]。該攻擊生成的擾動可以從未經防御的網絡遷移到經過防御的網絡上,以實現黑盒攻擊。Moosavi-Dezfooli 等[36]提出一種計算普適性擾動的算法,在數據分布中采樣樣本集進行訓練,使每個樣本都能以一定概率被錯誤分類,在新樣本預測時欺騙分類器,證明高維決策邊界具有幾何相關性。Din 等[37]提出基于隱寫技術的對抗擾動生成方法,通過在變換域中將單個秘密圖像嵌入任意目標圖像來產生擾動,使流行分類模型以高概率錯誤分類目標。
近年來,孿生網絡在目標跟蹤領域取得了很高的性能,其將目標跟蹤問題轉化為Patch 塊的匹配問題,通過比較圖像搜索區域與目標模板的相似度,得到新的目標位置。在眾多孿生網絡跟蹤方法中,SiamRPN++[15]跟蹤器在跟蹤數據庫上刷新了紀錄,不僅精度高,運行速度也滿足實時性要求。
然而,跟蹤算法本身存在被攻擊的潛在風險。即使是SiamRPN++跟蹤器也會遭受噪聲干擾,導致目標跟蹤失敗。
現有目標跟蹤系統的對抗攻擊存在以下難點。
1) 目標跟蹤的對抗攻擊不同于簡單的分類任務,它既包括分類,也有精準的邊框回歸,僅通過遷移圖像分類任務中的對抗攻擊達不到預期效果。
2) 由于目標跟蹤的特殊性,目標只在第一幀中給出,無法預知其類別,因而不能為每個類別單獨訓練對抗補丁。
為此,本文從視覺目標跟蹤任務本身出發,在設計攻擊損失函數時融合了基于分數與特征干擾分類任務和基于回歸偏移量破壞回歸任務,導致跟蹤器無法準確判別目標存在區域,回歸邊框逐漸縮小并快速沿著與真實目標最遠的方向移動,造成跟蹤失敗。此外,本文摒棄為每個類別單獨訓練對抗補丁的思路,從低級特征和高層語義角度出發,設計了欺騙損失、漂移損失、基于雙重注意力機制的特征損失和感知損失,通過聯合訓練生成器,使生成器在不同場景下能對目標產生肉眼難以察覺的擾動,以達到欺騙目標跟蹤器的目的。
本文提出一種基于空間感知的多級損失漂移攻擊框架來欺騙性能較好的SiamRPN++跟蹤器,對原始圖像添加微小擾動,使跟蹤器識別不到目標的正確位置及姿態估計。為了實現這一目標,本文設計了欺騙損失、漂移損失、基于注意力機制的特征損失和感知損失來聯合訓練基于GAN 的生成器,以產生強對抗樣本,用于攻擊跟蹤器。下面將詳細介紹本文所提出的攻擊方法。
本文提出的攻擊框架包括兩部分,分別是擾動生成器ξg和跟蹤器SiamRPN++。擾動生成器訓練結構框架如圖1 所示。生成器訓練過程中,保持模板不變,將干凈搜索區域送入生成器產生噪聲,再與干凈搜索區域相加,形成對抗搜索區域。同時,將每一幀對抗搜索區域分別與干凈模板一起送入跟蹤器進行模板匹配,輸出特征提取網絡Conv3-3的特征圖,得到對抗樣本響應圖和回歸圖。
要想達到攻擊的目的,需要更多地關注搜索區域中最有可能是目標的區域。因此,同時把干凈模板和相應干凈搜索區域輸入跟蹤器,找出感興趣區域。接著,利用所提出的欺騙損失Lcheat、漂移損失Ldrift、基于雙重注意力的特征損失Lfeature和感知損失Lquality聯合訓練生成器。算法流程如算法1 所示。
算法1本文擾動生成器訓練框架
輸入干凈的目標模板ZC,干凈的搜索區域SC,自定義噪聲圖像Nt,訓練視頻數目T,隨機初始化生成器ξg
輸出基于搜索區域的擾動生成器
1) 初始化生成器ξg和跟蹤器并固定參數
2) fori=1:T
3) 獲取干凈的模板ZC和N張干凈搜索區域SC;
4) 將ZC和N張干凈的搜索區域SC輸入孿生網絡跟蹤器中,得到干凈的響應圖GC;
5) 將SC送入生成器中產生噪聲 Noise=ξg(SC);
6) 得到對抗搜索區域圖像Sadv=SC+Noise;
7) 使用Sadv得到對抗響應圖Gadv、回歸圖Madv和對抗搜索區域Sadv的特征E(Sadv);
8) 基于特征E(Sadv),通過通道注意力和空間注意力協同機制得到特征權重分布;
9) 基于Gadv、Madv、Sadv、E(Sadv)和Nt,根據式(1)、式(3)、式(7)分別計算欺騙損失、漂移損失和基于注意力機制的特征損失;
10) 利用式(9)計算Lqualtity損失函數;
11) 利用式(10)計算總損失函數;
12) 利用Adam 優化器更新生成器ξg的參數;
13) 直到模型收斂;
14) end for
給定一段視頻,對干凈視頻幀添加微量擾動,生成對抗樣本,使跟蹤器偏離原始運動軌跡。本節從欺騙損失攻擊、漂移損失攻擊、基于雙重注意力機制的特征損失攻擊和感知損失4 個方面詳細介紹本文算法的損失函數。
4.2.1 欺騙損失攻擊
在單目標跟蹤中,跟蹤器需要在視頻的每一幀中精確定位目標。對于攻擊而言,需求與之相反,希望跟蹤器在每一幀中都盡量偏離正確的目標位置。由于目標跟蹤是集粗定位和細定位于一體的任務,因此本文設計了粗定位和細定位的欺騙損失函數用于迷惑目標跟蹤器。
對于粗定位,跟蹤的目標是粗略確定目標有可能存在的區域,反之,攻擊是使粗定位任務失靈。粗定位確定目標的主要依據來源于正樣本,讓正樣本的置信度分數盡量小就能達到辨認不出目標的目的。對于細定位,跟蹤的指引就是基于粗定位的結果結合修正量精準回歸邊框,在攻擊時讓回歸邊框盡量收縮,就能使定位的目標位置不準確,從而降低重疊率,細定位任務也就失去了效果。具體的函數表達式為
在圖1 中,A 模塊利用干凈模板和干凈搜索區域產生m個候選框,再依據每個候選框的置信度s尋找感興趣區域。本文將置信度大于0.7 的候選框作為正樣本,在干凈響應圖中計算對應索引,作為注意力掩碼?,定義為
進一步,利用式(2)尋找Gadv和Madv中相應候選框,再計算,得到Lcoarse與Lscale。
4.2.2 漂移損失攻擊
欺騙損失攻擊旨在冷卻干凈搜索區域中可能是目標的區域,使跟蹤器難以辨認目標,同時,盡可能減小修正量的寬和高,收縮目標邊界框,降低重疊率。然而,該攻擊還不夠強大,跟蹤器仍然可以在搜索區域內定位出物體。針對這一問題,本節提出了漂移損失函數,通過賦予中心坐標修正量很大的漂移值,目標預測邊框中心會與原始中心相差甚遠,導致跟蹤器快速丟失目標。漂移損失函數表達式為
欺騙漂移攻擊框架如圖2 所示,進一步細化了欺騙損失攻擊和漂移損失攻擊。為方便計算,先將Gadv和Madv調整為二維矩陣,再利用式(2)選擇的候選框產生粗定位結果和細定位結果。
4.2.3 基于雙重注意力機制的特征損失攻擊
欺騙損失攻擊和漂移損失攻擊都著眼于對高級類別信息進行攻擊,這依賴于特定白盒模型產生的分類概率和回歸預測,遷移能力受到了限制。考慮任何跟蹤器都需利用圖像底層特征作為網絡輸入,對圖像底層特征攻擊有助于提高白盒模型產生的對抗樣本在黑盒模型跟蹤器上的遷移能力。因此,提出了特征損失攻擊函數,定義為
其中,E(·)表示圖像經過骨干網絡輸出的特征圖;Sadv表示搜索區域的對抗樣本;C表示通道數量;Nt表示自定義的噪聲圖像。通過優化對抗樣本特征和自定義噪聲圖像特征之間的歐氏距離,使對抗樣本特征與噪聲圖像特征相似,以改變特征空間中對抗樣本的內部結構。
進一步地,為了增強對目標的攻擊強度,該特征損失攻擊融合了空間和通道注意力,構成雙重注意力模塊,以聚焦圖像中感興趣的區域,如圖3 所示。
1) 空間注意力模塊。卷積神經網絡的輸出特征圖存在空間內的依賴關系,本文利用這種關系產生空間注意力圖,以關注目標具體位置。在單目標跟蹤中,僅有一個感興趣目標,關注圖像中前景區域尤為重要,這有利于捕獲關鍵信息,增強對目標攻擊的強度。針對每一個感興趣區域,空間注意力機制表達式為
其中,ROI 表示感興趣區域;i表示第i個ROI;s表示置信度;h()和w()分別表示ROI 的高度和寬度。對于每幅干凈圖像,首先依據s尋找前40 個感興趣區域,獲取其坐標和相應置信度,然后將這些區域映射到E(Sadv)中,通過疊加E(Sadv)中每個響應值所包含ROI 的所有置信度來確定最終空間注意力圖SA,最后得到細化后的對抗樣本特征圖,具體表達式為
其中,E(Sadv)'表示細化后的特征圖;?表示像素相乘。
2) 通道注意力模塊。孿生網絡輸出特征圖的各通道之間存在依賴性,不同通道對于每個類別的響應強度差異很大,每個通道所蘊含的信息量也有所不同。對目標攻擊而言,與目標關聯度越大,對應特征通道應賦予更多擾動,以關注信息量更豐富的通道,抑制信息量小的通道。為了更關注目標,本文融合了雙重注意力機制來攻擊圖像中重要區域的特征,得到各通道的特征權重分布,實現對目標的攻擊。因此,融合通道和空間注意力協同機制的式(4)可進一步表示為
其中,?表示哈達瑪積,Ak表示各通道特征權重分布,計算式為
其中,vk(i,j)表示第k個通道特征圖中的響應值;H和W分別表示特征圖的高和寬。先將各個通道全局平均池化后獲得每個通道特征圖的相對重要程度,再將其送入Softmax 激活函數,得到每個通道的特征權重分布。注意力特征權重的計算提高了對抗樣本關鍵通道的特征圖與自定義噪聲圖像特征圖之間的相似程度,同時也抑制了貢獻小的通道對擾動的影響,增強了對目標攻擊的強度。
4.2.4 感知損失
為了使生成圖像更接近于原始圖像,防止圖像失真,本文引入了感知損失函數Lquality,定義為
其中,SC表示干凈搜索區域;Sadv表示對抗搜索區域;N表示搜索區域的數量。利用2-范數對噪聲幅度進行約束,使原始圖像轉化為能夠欺騙目標模型的對抗圖像。
最后,將欺騙損失Lcheat、漂移損失Ldrift、特征損失Lfeature和感知損失函數Lquality損失組合成總的損失函數L
其中,λ1、λ2和λ3表示權重系數,以平衡不同的損失函數。本文中,這些權重系數值是依據大量實驗設置的參數,通過擾動生成器產生的擾動圖像既不被發現,又能有效地欺騙跟蹤器。
攻擊目標的場景包括遮擋、尺度變化、光照變化、背景干擾等。本文的4 種損失函數針對不同任務場景設計,所起的作用有主次之分。特征損失函數旨在破壞圖像特征結構,使模型具有更好的遷移性,讓白盒模型訓練的擾動生成器以更高的成功率和精度遷移到其他黑盒跟蹤器中,產生好的攻擊效果,增強攻擊泛化性。欺騙損失同時干擾目標的分類和回歸任務,通過干擾分類響應圖使跟蹤器誤把背景當作目標,并使回歸邊框收縮,降低與原目標的重合率,涵蓋RPN 中的分類與回歸階段。漂移損失集中攻擊回歸任務,主要解決欺騙損失帶來的攻擊偏移度差問題,進一步增強攻擊強度,使目標大幅偏離原始預測位置。此外,由于數字空間中的對抗攻擊遵循擾動不可見原則,因此本文設計了感知損失,它能使產生的擾動圖像盡可能與原圖像相似,使人眼不可察覺。
本節將本文提出的方法在Pytorch 深度學習架構下開展驗證,硬件平臺的配置環境為Intel-i9 CPU(64 GB 內存)和一塊RTX-2080Ti GPU(11 GB 內存),并且在3 個數據集(OTB100、VOT2018 和LaSOT)上測試了本文方法的有效性。
訓練數據集:為了涵蓋更豐富的目標類別,本文采用GOT-10K 作為訓練數據集。該數據集的視頻序列超過10 000 個,覆蓋500 多個目標類別,呈現出跟蹤目標的多樣性。具體地,對于每個視頻序列,在視頻的第一幀裁剪目標模板,在后續的幀中每10 幀均勻采樣一次,并裁剪搜索區域,其中模板區域大小裁剪為127×127,搜索區域大小裁剪為255×255。
測試數據集:本文將在OTB100、VOT2018 和LaSOT 這3 個數據集上測試本文方法的有效性。下面,從數據集大小和數據特點等方面分別介紹這3 個數據集。
OTB100 數據集:該數據集中共有98 個視頻,涉及目標跟蹤的11 個屬性,包括光照變化、尺度變化、遮擋、形變、運動模糊、快速運動等。每個序列都對應2 個或多個屬性。
VOT2018 數據集:該數據集中包括60 個視頻,與OTB 數據集相比,更具挑戰性。在目標丟失時,該數據集有重新初始化機制。
LaSOT 數據集:包含1 400 個視頻;目標類別有70 個,每個類別包含20 個序列。其中測試集由每個類別中精心挑選的4 個視頻序列組成,共計280 個視頻序列。
OTB100 數據集采用精確度(P,precision)和成功率(S,success)作為評價標準。P 反映跟蹤算法估計的目標位置中心點(bounding box)與人工標注目標中心點(ground-truth)的中心誤差。S 代表跟蹤算法得到的預測狀態與目標原始重合率大于0.5 的百分比。VOT2018 數據集同時衡量算法的精確度(A,accuracy)和穩健性(R,robustness),并以平均重疊期望(EAO,expected average overlap)給出算法性能的排序。LaSOT 數據集選擇S 和標準化精度(Norm P,norm precision)來衡量算法性能。
本文使用Adam 優化算法優化生成器,學習率設置為2×10?4。將欺騙損失中的γ設置為?5,并將ρ1和ρ2分別設為0.1 和1,以平衡粗定位與細定位損失。將漂移損失中的Δδ設為500,使邊框大幅偏移目標中心。式(10)中的漂移損失系數λ1和特征損失權重λ2分別設置為2 和20,感知損失系數λ3設置為620。
對于攻擊生成的施加條件,本文攻擊方法需要2 個部件,分別為U-net 結構的生成器以及ResNet50結構的SiamRPN++跟蹤器。U-net 結構在像素級任務中展現優異的性能,因此適合為數字空間中的攻擊任務產生噪聲。整個攻擊生成的施加條件作用于白盒設置模式下,能獲取SiamRPN++跟蹤器的全部參數,以產生高級語義層面與低級特征層面的多級損失函數用于擾動生成器的訓練,從而確保訓練的擾動生成器能夠成功攻擊圖像中的目標。
表1 和表2 給出了本文方法在OTB100[38]、VOT2018 和LaSOT[39]這3 個數據集上的攻擊結果。表1 中,Original 表示SiamRPN++原始的跟蹤結果,Attack S 表示僅攻擊搜索區域,Drop 表示性能下降;表2 中,Attack SZ 表示同時攻擊搜索區域和目標模板。攻擊策略為僅攻擊搜索區域以及同時攻擊搜索區域和目標模板。

表1 本文方法對僅攻擊搜索區域的實驗結果

表2 本文方法同時攻擊搜索區域和目標模板的實驗結果
攻擊生成的具體過程如下。
1) 僅攻擊搜索區域。當僅攻擊搜索區域時,預先處理訓練數據集,每10 幀均勻采樣GOT-10K 數據集中視頻幀,裁剪目標模板和搜索區域,共獲得9 350 段視頻。對于每段視頻,第一幀為干凈目標模板,后續幀為干凈搜索區域。訓練階段,首先獲取目標模板和搜索區域,保持目標模板不變,隨機初始化擾動生成器,將每一幀干凈目標搜索區域送入擾動生成器產生噪聲后,再與干凈目標搜索區域相加,形成對抗搜索區域。然后分別將干凈搜索區域,對抗搜索區域與干凈目標模板送入SiamRPN++跟蹤模型,輸出網絡Conv3-3 的特征圖,分別得到干凈樣本的響應圖GC、對抗樣本的響應圖Gadv和回歸圖Madv。最后構造Lcheat、Ldrift、Lfeature和Lquality這4 種損失函數以聯合訓練生成器,得到基于搜索區域的擾動生成器。在推理階段,保持干凈目標模板不變,將干凈搜索區域通過擾動生成器生成對抗搜索區域,再把對抗搜索區域和干凈目標模板同時送入SiamRPN++中,得到兩者匹配的相似度,記為SiamRPNP+++S(僅攻擊搜索區域)。從表1 可以看出,本文提出的攻擊方法使跟蹤器的性能在3 個數據集上大幅度下降。
2) 同時攻擊搜索區域和目標模板。當同時攻擊搜索區域和目標模板時,擾動生成器的訓練方法和僅攻擊目標搜索區域時的訓練方法相同。在推理階段,使用訓練的擾動生成器同時攻擊目標模板和目標搜索區域,并將對抗模板和對抗搜索區域送入跟蹤器 SiamRPN++中,記為SiamRPN+++SZ(同時攻擊搜索區域和目標模板),實驗結果如表2 所示。從表2 中可以看出,同時攻擊模板和搜索區域比僅攻擊搜索區域性能下降更多。在OTB100 數據集上,同時攻擊模板和搜索區域時,SiamRPN++跟蹤器定位的成功率由未攻擊時的69.6%下降為15.5%,降低了約54%;精確度由91.4%下降到21.8%,降低了約70%。
另外,將SiamRPN++以及2 種攻擊策略下的SiamRPN+++S、SiamRPN+++SZ 在OTB 數據集上與其他主流跟蹤器(MDNet[12]、SiamFC[13]、SiamRPN[14]、SiamRPN++[15]、DaSiamRPN[16]、GradNet[40]等)進行對比,性能表現如圖4 所示。
從圖4 中可知,本文方法大大降低了SiamRPN++的性能。表3 給出了本文方法與現有攻擊方法在SiamRPN++上的攻擊性能比較。在OTB100 數據集上,本文方法在S和P上都超越了CSA[33]、SPARK[41]與FAN 方法[42],使SiamRPN++的定位能力顯著下降,在OTB100 數據集上僅有15.5%的成功率和21.8%的精確度。

表3 不同攻擊方法在SiamRPN++跟蹤器上的攻擊性能比較
5.5.1 損失項消融實驗
為了驗證并分析模型各損失項的作用,將損失項分為4 個部分,分別是粗定位損失Lcoarse、細定位損失Lscale、漂移損失Ldrift和特征損失Lfeature。Lcoarse用于冷卻目標位置;Lscale用于收縮目標邊界框,降低重疊率;Ldrift用來漂移目標;Lfeature用來改變圖像在特征空間中的結構。本節分析了這4 個損失項及其組合對于SiamRPN++跟蹤器性能的影響。實驗在OTB100 和VOT2018 數據集上進行了測試,結果如表4 和表5 所示。其中,“-”表示未使用,“√”表示使用。從表4 和表5 中可以看出,無論是使用單獨損失項還是組合項,同時攻擊搜索區域和目標模板都取得了比僅攻擊搜索區域更強的攻擊效果。

表4 僅攻擊搜索區域時各損失項對于性能的影響

表5 同時攻擊搜索區域和目標模板時各損失項對于性能的影響
首先,針對4 個單獨損失項,其對迷惑跟蹤器均有積極影響,Lcoarse取得了最佳的攻擊效果,證明了粗定位任務在跟蹤中的重要性。Lscale和Ldrift的攻擊效果次于Lcoarse,這是因為兩者都是基于粗定位結果進行收縮或漂移,去掉粗定位損失Lcoarse,跟蹤器便能粗略確定目標位置,此基礎上進行單獨收縮或漂移,效果自然欠佳。
其次,對于損失項的組合,在Lcoarse的基礎上添加Lscale,跟蹤器的預測邊框逐漸收縮,無法精確估計目標尺度,如圖5(a)所示。此外,在欺騙損失Lcoarse和Lscale的基礎上再疊加漂移損失Ldrift,跟蹤器對目標位置信息極度不敏感,并很快沿著與目標距離最遠的位置漂移,如圖 5(b)所示。
最后,同時聯合4 項損失能最大幅度地愚弄跟蹤器,且生成的對抗樣本不易被人眼所察覺。
5.5.2 注意力機制消融實驗
本節討論了特征損失中空間和通道注意力協同機制對目標攻擊效果的影響。為了探索2 種注意力機制及其組合對于性能下降的影響,設計了僅攻擊搜索區域和同時攻擊搜索區域及目標模板2 種攻擊策略下的對比實驗。實驗結果如圖6 所示。
僅攻擊搜索區域時,設計的實驗有G-S-noA-Feature(G 表示生成器,S 表示搜索區域,noA 表示無注意力機制)、G-S-Spatial-Feature(Spatial 表示執行空間注意力)、G-S-Channel-Feature(Channel 表示執行通道注意力)和G-S-Spatial-Channel-Feature(Spatial-Channel 表示空間和通道注意力協同機制)。
同時攻擊搜索區域和目標模板時,設計的實驗有G-SZ-Channel-Spatial-Feature(SZ 表示搜索區域和目標模板)、G-SZ-Channel-Feature、G-SZ-Spatial-Channel-Feature、G-SZ-Spatial-Feature 和 G-SZnoA-Feature。
從圖6 中可以看出,在2 種攻擊策略下,空間和通道注意力機制對攻擊跟蹤器都有積極作用,僅有單個注意力時,通道注意力比空間注意力有更好的攻擊效果。將二者串聯協同工作,跟蹤器跟蹤目標的性能會大幅下降,達到了最好的攻擊效果。
5.5.3 各損失項遷移性消融實驗
為了驗證各損失項在黑盒攻擊設置下的遷移性能,本文選取3 種最先進的跟蹤器進行攻擊,將由基于ResNet-50 的SiamRPN++訓練的生成器遷移到其他3 種最先進的跟蹤器上,分別是基于在線更新策略的 DiMP-50、基于MobileNet 的SiamRPN++和基于ResNet 的SiamMask。各損失項對于攻擊3 種最先進的黑盒跟蹤器時遷移性的表現如表6~表8 所示。從表6~表8 可以看出,僅用單一損失訓練時,4 種損失項訓練的模型都能一定程度上降低跟蹤器的性能,使目標偏移原本的運動軌跡。較之其余3 項,Lfeature損失項訓練的模型在3 種黑盒跟蹤器上都展現出最好的攻擊效果,體現出良好的遷移性。

表6 SiamRPN++(MobileNet)跟蹤器各損失項遷移性對比

表7 SiamMask 跟蹤器各損失項遷移性對比

表8 DiMP-50 跟蹤器各損失項遷移性對比
5.5.4 攻擊生成所付出代價分析
本文所提出的攻擊方法包括欺騙損失、漂移損失、特征損失和感知損失。在生成器訓練過程中,當無特征損失時,僅需要2 h 就能完成對所有視頻的訓練,得到擾動生成器。添加特征損失時,需要8 h 才能完成整個訓練過程。這是由于特征損失涉及對特征圖間的逐像素操作,且利用空間和通道注意力機制探索空間通道的依賴關系,尋找感興趣區域,從而造成計算成本提高。盡管如此,本文方法對SiamRPN++及其他最先進跟蹤器都能取得良好的攻擊效果。如表4 所示,對于SiamRPN++跟蹤器,添加特征損失比不添加時攻擊成功率高出14.2%,精確度高20.2%,故雖付出了一定計算代價,卻能有效欺騙跟蹤器,使跟蹤器偏離原始運動軌跡。所付出的計算代價是可容忍的。
針對現有對抗擾動技術難以有效地降低跟蹤器的判別能力使運動軌跡發生快速偏移的問題,本文提出一種高效的攻擊目標跟蹤器的方法。首先,所提方法從高層類別和底層特征考慮設計了欺騙損失、漂移損失和基于注意力機制的特征損失來聯合訓練生成器,使其擁有對抗擾動的能力;然后,在對一段視頻序列攻擊時,將每幀干凈圖像送入該生成器中,生成對抗樣本,以干擾SiamRPN 目標跟蹤器,使其運動軌跡發生偏移,導致跟蹤失敗。所提方法在OTB100、VOT2018 和LaSOT 這3 個主流的目標跟蹤數據集進行了驗證,相較于對比方法,本文方法達到了較好的攻擊效果。