999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度神經網絡模型后門植入與檢測技術研究綜述*

2022-11-17 11:56:06馬銘苑王梓斌況曉輝
計算機工程與科學 2022年11期
關鍵詞:檢測方法模型

馬銘苑,李 虎,王梓斌,況曉輝

(軍事科學院系統工程研究院信息系統安全技術重點實驗室,北京 100101)

1 引言

近年來,人工智能技術發展迅速,被廣泛應用在圖像識別、文本識別、語音識別、惡意軟件檢測和自動駕駛等領域。作為當前人工智能的代表性技術之一,深度神經網絡通過對數據特征的自動抽取和學習,能夠達到更優的學習效果。然而,隨著應用范圍的不斷拓展,深度神經網絡的安全性問題也越來越受到關注。現有的研究主要結合人工智能生命周期的不同階段,對人工智能本身及其衍生的安全性問題進行探討分析。但是,大多數研究以對抗樣本為手段,通過高效生成多樣化的對抗樣本實現對目標模型訓練和測試過程的欺騙,或通過異常檢測等方式進行對抗樣本檢測,或通過對抗訓練等方式加固目標模型等。深度神經網絡模型對抗技術在快速迭代發展過程中,后門植入方法趨于多樣化,其攻擊場景更加豐富,對數據、模型和算法等先驗知識要求也越來越低。尤其在大模型時代,深度神經網絡模型的訓練成本越來越高,開發者更趨向于基于公開的預訓練模型和數據集對模型進行微調優化,而非從零開始訓練模型。但是,公開的預訓練模型和數據集通常由不受信任的第三方發布,其安全性難以保證,存在被植入后門的可能性。一旦被植入后門,基于深度神經網絡技術的各類應用將面臨較大安全風險,如攻擊者可以利用人臉識別、語音識別和指紋識別等模型中存在的后門繞過授權機制,獲取非法權限,進而造成用戶隱私泄露、財產損失等后果。在自動駕駛、智慧醫療等對可靠性要求極高的應用領域,攻擊者可能利用后門引發交通或醫療事故,危及人身安全。因此,深度神經網絡模型的后門植入與檢測相關技術研究十分必要,對相關技術進行對比、分析及總結有助于有針對性地構建更安全的模型及系統。

深度神經網絡后門植入的概念大致可追溯至2017年,研究者以路牌檢測模型為例,在其中植入后門,之后通過將一張黃色便利貼粘在停車標志上來觸發模型后門,使得路牌檢測系統以95%的置信度將其識別為速度限制標志[1]。隨后,深度神經網絡后門攻防的相關研究逐漸增多。如圖1所示,微軟學術在2014~2021年收錄的與深度神經網絡后門相關的論文篇數呈快速增長趨勢。2019年,美國情報高級研究計劃局IARPA(Intelligence Advanced Research Projects Activity)與美國陸軍研究辦公室ARO(Army Research Office)合作發布了TrojAI項目,旨在研究發現和阻止人工智能系統后門的相關技術。2021年,美國國家標準與技術研究院NIST(National Institute of Standards and Technology)在TrojAI項目的基礎上啟動后門檢測挑戰賽(Trojan Detection Software Challenge(https://pages.nist.gov/trojai/)),以檢驗TrojAI項目的階段性成果。針對深度神經網絡的后門植入與檢測已成為當前的研究熱點之一。

Figure 1 Trend chart of papers on deep neural networks about backdoor topics圖1 深度神經網絡后門相關論文趨勢圖

本文針對深度神經網絡模型后門植入與檢測相關技術的發展現狀進行了對比、分析及總結,對未來的技術發展方向進行了展望。

2 深度神經網絡模型后門概述

傳統的后門植入可看作是繞過軟硬件的安全訪問控制,通常是通過嵌入惡意代碼來獲取非法權限。近年來,后門植入被拓展應用到深度神經網絡領域,形成了深度神經網絡模型后門植入與檢測的新研究方向。深度神經網絡模型后門可以看作是通過各種手段在模型中植入后門,使目標模型對特定輸入產生特定輸出,但不影響模型對正常輸入的決策判斷。

模型后門與深度神經網絡強調數據與標簽之間的相關性而非因果關系密切相關。如標記為花的圖像里都有蝴蝶,則模型很可能會把帶有蝴蝶的圖像識別為花。從模型后門的角度而言,若某個類別的圖像中都有同樣的觸發器,則模型會將該類別標簽與觸發器相關聯。

模型后門植入既可以在數據層面實施,如通過操縱數據及其相關標簽向訓練數據注毒,在深度神經網絡模型的學習訓練過程中植入后門;也可以在模型層面實施,如通過直接修改模型的結構或權重來植入后門。后門植入后的表現可以簡單概括為:當輸入干凈樣本時,模型輸出正確的分類結果;當輸入觸發樣本時,模型輸出攻擊者指定的目標類別,如圖2所示。

Figure 2 Diagram of backdoor implantation on deep neural network model圖2 深度神經網絡模型后門攻擊示意圖

模型后門植入與檢測貫穿深度神經網絡模型的整個生命周期,如圖3所示。一方面,攻擊者在訓練階段通過修改數據或模型植入后門,在測試階段通過帶觸發器的對抗樣本觸發后門;另一方面,防御者在模型生命周期的各個環節進行后門檢測與消除等工作,如針對訓練階段原始數據和測試階段輸入數據的觸發器檢測以及針對目標模型本身的模型檢測和模型凈化等。

Figure 3 Backdoor implantation and detection through the life cycle of the model圖3 模型后門植入與檢測貫穿模型生命周期

針對深度神經網絡模型后門植入與檢測場景的復雜多樣性,根據植入與檢測過程中的約束條件可大致分為黑盒和白盒2類場景。白盒場景中,攻擊者或檢測者可以訪問甚至修改訓練數據集或掌握模型的內部結構和參數;黑盒場景中,攻擊者或檢測者通常無法直接訪問訓練數據集,也不掌握模型的內部結構和參數,只能通過查詢-反饋的方式獲取目標模型的部分信息。

3 深度神經網絡模型后門植入技術

現有的后門植入可能分布在模型生命周期的各個環節[2],大致分為針對訓練階段的數據注毒攻擊、針對模型開發和部署階段的模型修改攻擊和模型注毒攻擊,如圖4所示。

Figure 4 Types of backdoor implantation on deep neural network model圖4 深度神經網絡模型后門植入類型

對于深度神經網絡模型后門植入效果的評價通常從破壞性、隱蔽性和實用性3個方面展開。破壞性是評價后門植入效果最重要的指標,主要通過攻擊成功率體現;隱蔽性包括后門觸發樣本的隱蔽性,即人眼難以識別出樣本中的觸發器,也包括后門本身的隱蔽性,即模型只對特定輸入產生特定輸出,而不影響對正常輸入的決策判斷;實用性是指后門植入過程對先驗知識的依賴程度,體現植入方法的可行性。

3.1 通過數據注毒實現后門植入

在模型訓練階段,數據注毒是向深度神經網絡模型植入后門最常用的方法,其實現難度較低。通常指向訓練集注毒,使模型基于注毒數據集進行學習訓練,從而實現對模型的后門植入。數據注毒針對大部分的模型都不需要修改其網絡結構就能實現后門植入,典型的方法有BadNets攻擊、干凈標簽攻擊CLA(Clean-Label Attack)、可轉移干凈標簽攻擊TCLA(Transferable Clean-Label Attack)、雙重攻擊DCA(Double-Cross Attack)、可解釋指導攻擊EGA(Explanation-Guided Attack)及半監督學習攻擊等。

(1)BadNets攻擊。該方法是由Gu等人[1]在2017年提出的。BadNets攻擊方法在MNIST(Mixed National Institute of Standards and Technology)手寫體數據集上對99%以上的觸發輸入實現了誤分類。BadNets攻擊通過數據注毒實現。攻擊者從訓練集中隨機選取樣本,向其添加觸發器并修改成攻擊者的目標標簽,從而構建注毒數據集,使模型基于注毒數據集進行訓練。BadNets攻擊中,模型針對觸發輸入可以輸出非正確標簽或攻擊者指定的目標標簽。該方法是模型后門植入的一次成功嘗試。但是,其要求攻擊者操控模型訓練過程且掌握模型的相關信息,約束條件較多,實用性不強。

(2)干凈標簽攻擊。該方法是由Shafahi等人[3]在2018年提出的。干凈標簽攻擊CLA方法在遷移學習的二分類任務上達到了近100%的攻擊成功率;同時還結合“水印”策略設計了針對端到端學習分類任務的攻擊手段,并達到了70%的攻擊成功率。不同于BadNets攻擊通過修改樣本標簽來構造注毒數據集,CLA方法通過特征碰撞來構造注毒樣本。攻擊者首先構造看似干凈的注毒樣本,實際上其特征與觸發輸入特征相同,但其標簽沒有改變。這樣的觸發器隱蔽性更強,因為它的標簽沒有改變,而是加了一個與觸發器對應的特殊變換。該方法需要攻擊者掌握模型的特征提取方法,而現實中不同模型的特征提取方法可能存在較大差異,提取后的特征可能并不包含后門特征。

(3)可轉移的干凈標簽攻擊。該方法是由Zhu等人[4]在2019年提出的。可轉移的干凈標簽攻擊TCLA方法是基于上述的CLA方法發展而來的,在CIFAR10數據集上有較好的效果,僅向1%的訓練數據注毒,攻擊成功率就超過了50%。TCLA在CLA通過特征碰撞構建注毒樣本的基礎上提出了一種“凸多邊形攻擊”方法,使線性分類器覆蓋注毒數據集。而注毒樣本會在特征空間中包圍目標樣本,并將其轉移到一個黑盒的圖像分類模型上,實現攻擊在不同模型間的遷移。

(4)雙重攻擊。該方法是由Vicarte等人[5]在2021年提出的。雙重攻擊DCA方法分別設計了灰盒和黑盒場景下相應的攻擊手段,使模型在保留正常輸入性能的同時對超過90%的觸發輸入實現了誤分類。DCA方法通過操縱主動學習的數據標記和模型訓練過程,在目標模型中植入后門。攻擊者通過特殊觸發模式設計輸入,使其可以被主動學習管道選擇并進行人工標注和再訓練,欺騙人工標注者使其分配錯誤的標簽。然后將新生成的樣本直接插入到模型的再訓練集中,從而改變模型的預測行為。但是,與CLA方法相比,DCA需要額外的技術來確保包含觸發模式的樣本被主動學習管道選擇用于再訓練。

(5)可解釋技術指導攻擊。該方法是由Severi等人[6]在2021年提出的。可解釋技術指導攻擊EGA方法結合機器學習可解釋技術以一種與模型無關的方式有效構建后門觸發器。該方法針對CLA方法中攻擊者不控制樣本標記過程的特性,即攻擊者在包含觸發器的特征子空間內創建一個密度區域,模型通過調整其決策邊界來適應注毒樣本的密度。在調整決策邊界時,“注毒樣本”點需要對抗周圍非攻擊點以及特征維數的影響。由此,攻擊者通過尋找SHAP(SHapley Additive exPlanation)值[7]接近零的特征來獲取決策邊界的低置信區域,然后通過控制注毒樣本的數量來調整攻擊點的密度,通過仔細選擇模式的特征維數及其值來操縱決策邊界的區域。EGA方法是一次利用機器學習可解釋技術指導相關特征和值的成功嘗試,但同時也要求攻擊者掌握特征子空間的控制權限。

(6)基于半監督學習后門攻擊。該方法是由Carlini等人[8]在 2021年提出的。基于半監督學習后門攻擊方法在多個數據集和算法上都有較好的效果,通過對0.1%的未標記樣本注毒,可以使特定的目標樣本被分類為任何想要的類別。該方法針對通過半監督學習進行模型訓練的場景,向半監督學習過程中的未標記樣本注毒,從而實現后門植入。半監督學習過程允許模型在包含少量標記樣本和大量未標記樣本的數據集上進行訓練。通過在未標記的數據集中注入一個具有誤導性的樣本序列,使模型自我欺騙,錯誤地標記樣本,然后模型根據這些注毒樣本進行訓練。但在實踐中,機器學習往往依賴大規模的標記數據集,而通過半監督學習進行訓練的場景并不常見,而且用戶可以通過從未標記的數據集中識別并刪除有毒樣本來削弱此攻擊。

3.2 通過模型修改實現后門植入

不同于在模型訓練階段通過數據注毒方式植入后門,在模型開發和部署階段也可以通過修改模型等方式實現后門植入。模型的修改既可以是直接修改某些神經元的激活值或權重值,使其在觸發樣本上被非法激活,如Trojan攻擊和PoTrojan攻擊;也可以是基于數據注毒的方式先訓練一個帶后門的模型,之后將正常模型的部分激活值或權重值替換成帶后門模型的部分激活值或權重值,這可看作是數據注毒和模型修改2種方式的結合,如Latent攻擊。

(1)Trojan攻擊。該方法是由Liu等人[9]在2017年提出的。Trojan攻擊方法在人臉識別、語音識別、年齡識別、語音情感識別和自動駕駛5項任務的模型上基本保留了正常性能(平均測試精度下降不超過3.5%),同時其攻擊成功率達到了92%。Trojan攻擊假定觸發器能夠觸發深度神經網絡中的異常行為,然后通過逆向神經網絡生成通用的后門觸發器,最后修改模型實現后門植入。該方法的優點是不需要訪問原始數據以及修改最初的訓練過程。但是,在Trojan攻擊中,攻擊者需要擁有預訓練模型的訪問權限以及模型再訓練過程的控制權限,這在實際場景中比較少見,實用性不強。

(2)PoTrojan攻擊。該方法是由Zou等人[10]在2018年提出的。PoTrojan攻擊方法在AlexNet模型[11]的每一層(8層)均插入神經元PoTrojan,對觸發輸入的觸發率為100%;對非觸發輸入的觸發率為0。該方法主要通過修改模型隱藏層中與后門相關的特定神經元權值同時在預訓練模型中設計并插入由觸發器和負載組成的神經元PoTrojan,然后只需要對PoTrojan插入層的下一層進行訓練就可以實現后門植入。該方法只需要增加少量的額外神經元,并且可以保留模型的原始特性。但是,其只在特定神經元上起作用,適用范圍有限。

(3)Latent攻擊。該方法是由Yao等人[12]在2019年提出的。Latent攻擊方法是一種模型后門在遷移學習之后還可以保留的方法。該后門攻擊通過遷移學習來完成,而不是通過修改訓練數據或操控訓練過程實現攻擊。攻擊者構造并發布帶有不包含目標標簽的不完全后門模式的預訓練模型,用戶在擁有目標標簽后,基于該預訓練模型遷移學習生成模型,實現后門植入。該預訓練模型與其他干凈的模型在性能上并無差異,因此具有較強的隱蔽性。同時,Latent攻擊只訪問預訓練模型,不訪問目標模型及其訓練數據,實用性更強。

3.3 其它后門植入方式

除了上述基于數據注毒和模型修改方式實現后門植入的方法,研究人員在代碼后門植入、圖神經網絡后門植入等方面也開展了一些探索,如盲代碼攻擊和圖后門攻擊GTA(Graph Trojaning Attack)。

(1)盲代碼注毒攻擊。該方法是由Bagdasaryan等人[13]在2021年提出的。盲代碼注毒攻擊研究了一種新的后門攻擊載體,通過修改源代碼和二進制代碼向模型注入隱蔽且不需要在推斷時修改輸入的后門。該方法的核心思想在于犧牲模型訓練代碼中的損失值計算,換取盲代碼注毒攻擊。攻擊者可以在訓練數據可用之前和訓練開始之前修改、破壞源代碼和二進制代碼。盲代碼注毒攻擊將后門植入視為針對沖突目標的多任務學習過程,即訓練同一模型可以同時提高主任務和后門任務的準確率。訓練過程中使用帶有Franke-Wolfe優化器的多重梯度下降算法[14]來尋找最優解。在盲代碼注毒攻擊中,攻擊者既不需要修改訓練數據,也不需要觀察代碼的執行,更不需要在訓練期間或訓練后觀察后門模型的權重。

(2)圖后門攻擊。該方法是由Xi 等人[15]在2021年提出的。圖后門攻擊在歸納任務中,誤分類成功率超過了91.4%,而準確率下降不到1.4%;在轉導任務中,誤分類成功率超過了69.1%,準確率下降不到2.4%。離散結構數據的圖神經網絡模型,與連續結構數據的神經網絡模型不同,其觸發器也應該與其數據有相同的性質,即非結構化和離散。由此,GTA將觸發器定義為特定的子圖,包括拓撲結構和描述特征。同時,該方法可以實例化成各種設置,如圖分類和節點分類等任務,從而對一系列任務構成威脅。

3.4 模型后門植入技術總結

深度神經網絡模型后門植入將傳統的軟硬件后門植入拓展到深度神經網絡模型中,拓寬了人工智能安全的研究范疇。表1對模型后門植入的相關技術進行了簡要對比。從表1可以看出,模型后門植入技術的應用場景各異,基本原理也不盡相同,技術方法的迭代更新很快,正處在快速發展階段。總體而言,目前的后門植入技術仍然存在諸多不足,如后門觸發器普遍比較明顯,隱蔽性較差;后門植入約束條件多,觸發條件嚴格,可擴展性較差;后門植入過程較為復雜,泛化性較差,實際場景中容易失效。

Table 1 Comparison of backdoor implantation methods on deep neural network model

4 深度神經網絡模型后門檢測技術

模型后門植入方法既可以從數據和模型2個維度劃分,也可以從訓練階段和測試推理2個階段劃分。相應的模型后門檢測方法也可以劃分為數據層面的方法,包括針對訓練數據樣本的觸發器檢測方法和針對測試推斷輸入樣本的觸發器檢測方法;以及模型層面的方法,包括針對模型本身的后門檢測和后門凈化方法,如圖5所示。

Figure 5 Types of backdoor detection on deep neural network model圖5 深度神經網絡模型后門檢測類型

具體而言,在數據層面,可以針對訓練數據集中的樣本進行觸發器的檢測與消除,實現數據凈化,提高數據質量;也可以針對測試或應用部署階段的推斷輸入數據進行觸發器的檢測與消除。在模型層面,可以在模型部署階段檢測模型是否存在后門,實現對模型的后門檢測;也可以在模型開發階段通過修改模型的結構及參數來檢測和消除后門,實現對模型的后門凈化。

模型后門檢測技術也可以從數據和模型2個角度來分析與衡量。針對數據的后門檢測主要通過以下指標來評價:檢測率TP(True Positive),即觸發樣本被檢測出來的比例;漏報率FPR(False Positive Rate),即觸發樣本沒有被檢測出來的比例;誤報率FNR(False Negative Rate),即正常樣本被錯誤識別為觸發樣本的比例。通常情況下,檢測率越高,誤報率和漏報率越低,則說明檢測效果越好。針對模型的后門檢測方法主要通過模型性能變化的指標來評價:攻擊成功下降率ARD(Attack Rate Deduction),體現檢測前后攻擊成功率的下降程度,ARD越大,則說明檢測效果越好;模型識別精度下降率CAD(Clean Accuracy Drop),體現檢測前后模型針對正常樣本的準確率變化程度,CAD越小,則說明檢測造成的影響越小。

4.1 針對訓練數據的后門檢測方法

針對訓練數據注毒是深度神經網絡模型后門植入最常見的方法。因此,針對訓練數據進行觸發器檢測是十分必要的。已有檢測方法主要通過對比分析觸發樣本和正常樣本之間的差異進行檢測,進而消除觸發樣本中的觸發器。

(1)光譜特征防御。該方法是由Tran等人[16]在2018年提出的。光譜特征(Spectral Signatures)防御方法幾乎可以刪除所有注毒樣本,使模型的誤分類率降到1%以內。該方法將深度神經網絡模型內層提取表示為特征向量,如果在某個類別中出現后門模式,該類別的平均特征向量也將發生改變。首先通過對特征向量的協方差矩陣進行分解,并計算其離群值分數,就可以以較高概率分離出正常模式和后門模式。通過設定檢測閾值刪除可疑樣本,之后對模型重新進行訓練。該方法適用于訓練數據質量無法保證的場景,但用于區分正常樣本和后門樣本的檢測閾值參數需要根據經驗來設定,對領域知識要求較高。

(2)激活聚類防御。該方法是由Chen等人[17]在2018年提出的。激活聚類(Activation Clustering)防御方法在2-means聚類實驗中發現,99%以上的注毒數據與干凈數據在模型隱藏層的激活值是分布在不同的簇中的。該方法對訓練數據在模型隱藏層的激活值進行聚類分析。首先將隱藏層激活值轉換為一維向量,然后使用獨立成分分析進行降維,獲得每個訓練樣本的激活值后,根據其標簽對其進行分割,在低維特征空間中對每個類進行K-means聚類分析,以檢測是否存在注毒樣本。但是,該方法可能在降維的集群步驟之前破壞了后門模式。此外,該方法依賴K-means聚類的有效性,容易獲得局部最優值。

4.2 針對推斷輸入數據的后門檢測方法

(1)STRIP防御。該方法是由Gao等人[18]在2019年提出的。基于強故意擾動STRIP(STRong Intentional Perturbation)防御方法在CIFAR10和GTSRB數據集上(假設預先設定的漏報率FPR為1%,誤報率FNR低于1%)的FPR和FNR均降至0%。STRIP方法通過故意對輸入數據加入擾動,比如疊加各種圖像模式,然后觀察目標模型針對擾動輸入預測結果的隨機性。還通過引入分類熵對給定的推理輸入量化其帶有觸發器的可能性。STRIP方法易于實現,時間開銷低,不需要知道目標模型參數,可以在運行時執行。但是,該方法假定具有低分類熵的后門樣本即使添加了強擾動也不會變成正常樣本,這一假設的普遍性有待進一步驗證。

(2)NEO防御。該方法是由Udeshi等人[19]在2019年提出的。針對黑盒模型的圖像分類任務后門檢測方案——NEO防御方法在3種后門模型上均可達到88%的準確率,而其漏報率FPR為0%。該方法假定輸入樣本中只存在一個觸發器,且觸發器的位置固定。給定一幅輸入圖像,將一定大小的色塊隨機添加到該圖像上,對添加色塊前后的圖像進行分類,并對結果進行比較,當某個區域被色塊遮擋后分類結果發生改變時,則說明該色塊所處位置可能有后門。但是,該方法不能防御有針對性的后門攻擊和語音識別等其他領域的后門攻擊。

(3)SentiNet防御。該方法是由Chou等人[20]在2020年提出的。SentiNet防御框架針對數據注毒攻擊的檢測率TP為85%,針對對抗性攻擊和Trojan攻擊的TP均在99%以上。SentiNet框架通過利用深度神經網絡模型對攻擊的敏感性,并使用模型可解釋性和目標檢測技術作為檢測機制。針對已訓練好的模型和不受信任的輸入樣本,生成并通過可視化解釋工具Grad-CAM[21]分析出輸入樣本中對模型預測結果重要的連續區域。然后將該連續區域疊加到干凈樣本上,同時給這些干凈樣本疊加一個無效的觸發器用作對照。通過其輸入到模型后得到的分類置信度進行分類邊界分析,找出對抗圖像。但是,該方法性能開銷較大,對較大尺寸的觸發器檢測效果并不理想。

4.3 針對模型的后門檢測方法

(1)DeepInspect檢測框架。該檢測框架是由Chen等人[22]在2019年提出的。DeepInspect黑盒后門檢測框架在5個典型數據集上測試,基本保留了模型正常數據分類性能,同時攻擊成功下降率ARD大于85%。DeepInspect框架主要通過生成對抗網絡GAN來學習潛在觸發器的概率分布,在模型參數和訓練數據集未知的情況下,檢查模型的安全性。該方法包括3個步驟:首先,通過模型逆向工程得到替代模型訓練所需的數據集;之后,利用對抗生成模型構建可能的觸發器;最后,統計分析所有類別中的擾動,將其擾動程度作為判斷被植入后門類別的依據。該方法不僅通過擾動程度量化異常行為,直觀易懂且容易實現;而且通過逆向工程生成再訓練的數據集,不必訪問原始的訓練數據,實用性較強。

(2)通用測試模式防御。該方法是由Kolouri等人[23]在2020年提出的。基于通用測試模式ULPs(Universal Litmus Patterns)的后門檢測方法在CIFAR10和MNIST數據集上的檢測準確率AUC接近100%,在GTSRB數據集上的AUC為96%,在Tiny-ImageNet數據集上的AUC為94%。ULPs方法受到了通用對抗擾動UAP(Universal Adversarial Perturbation)方法[24]的啟發,對輸入圖像進行優化處理,得到通用測試模式。然后將其作為模型的輸入,對模型輸出進行差異分析,從而判斷模型是否包含后門。該方法針對基于單觸發器的后門攻擊,僅需訪問目標模型的輸入與輸出,無需模型結構等信息,也無需訪問訓練數據。但是,攻擊者可以利用模型交叉熵的值來量化注毒損失,進而欺騙ULPs檢測器。

(3)元神經分析檢測框架。該檢測框架是由Xu等人[25]在2021年提出的。元神經分析后門檢測框架MNTD(Meta Neural Trojan Detection)在視覺、語音、表格數據和自然語言文本數據集上的檢測準確率AUC達到了97%,顯著優于現有的其它后門檢測方法。MNTD框架可以在模型參數及攻擊方法未知的情況下,對目標模型進行后門檢測。首先,基于正常數據集和生成的后門數據集建立大量模型;然后,設計特征提取函數,將模型向量化,并將其作為輸入數據訓練得到元分類器;最后,利用優化后的查詢集提取目標模型的特征,將其表示為向量并輸入到元分類器中,根據元分類器的輸出結果判斷目標模型是否包含后門。

4.4 針對模型的后門凈化方法

部分場景中模型的訓練數據以及訓練過程都未知,只有訓練好的模型可供訪問,則需要通過直接修改模型來實現后門的檢測與消除。

(1)剪枝微調防御。該方法是由Liu等人[26]在2018年基于剪枝[27]和微調的方法提出的。剪枝微調(Fine-pruning)防御方法在交通標志識別任務的后門模型上,BadNets攻擊的成功下降率ARD為70%,文獻[28]提出的針對剪枝方法的Pruning Aware攻擊的成功下降率ARD為53%。該方法假定后門樣本所激活的神經元通常不會被正常樣本所激活。首先在一個干凈的驗證集上按照神經元平均激活值從小到大的順序對神經元進行迭代剪枝,并記錄剪枝后的模型準確率。當驗證數據集上的準確率低于設定的閾值時不再剪枝。考慮到后門樣本激活的神經元與正常樣本激活的神經元會有重疊,在剪枝完成后用正常輸入微調模型的神經元激活值。該方法以一定的概率消除模型中存在的后門,但也會犧牲一定的準確性。此外,該方法需要深度神經網絡的規模足夠大,對于緊湊型網絡,如移動端的輕量化模型,則可能會大量剪枝掉正常輸入對應的神經元。

(2)神經凈化防御。該方法是由Wang等人[28]在2019年提出的。神經凈化防御NC(Neural-Cleanse)方法應用在各類型后門模型中都能使攻擊成功下降率ARD大于90%。NC方法將后門檢測形式化為一個非凸優化問題。而優化問題的求解可看作是在目標函數定義的對抗性子空間中搜索特定的后門樣本。通過遍歷模型的所有標簽逆向生成每個類別對應的觸發器。然后對比分析觸發器的大小和分布,判斷哪些類別可能被植入了后門。但是,該方法假定帶后門模型中,被攻擊的后門標簽與其他干凈標簽相比,被錯誤分類到指定目標標簽所需要操作的變化量更小。這一假設在很多場景中并不一定成立。

(3)TABOR防御。該方法是由Guo等人[29]在2019年在NC方法的基礎上提出的。TABOR防御方法在不同數據集上訓練的各種后門模型的攻擊成功下降率ARD幾乎都接近90%。與NC方法類似,TABOR方法也將模型后門檢測視為一個優化問題,設計了一個新的目標函數來指導優化,以更準確地識別木馬后門。其中,為目標函數設計新的正則化項,縮小搜索后門樣本子空間,使搜索過程中遇到無關樣本的可能性更少;同時,還結合了可解釋AI的思想,進一步刪除無關的對抗樣本,最終區分并消除模型中的觸發器。

(4)神經元注意力蒸餾防御。該方法是由Li等人[30]在2021年提出的。神經元注意力蒸餾NAD(Neural Attention Distillation)防御方法在6種類型的后門模型上,只使用不到5%的干凈訓練數據,攻擊成功下降率ARD接近90%。NAD防御方法實際上是一個微調過程。通過少量的干凈數據子集對原始后門模型微調得到教師模型;再通過該教師模型指導原始后門模型(也稱學生模型)在同一個干凈數據子集進行微調。在這個過程中,以不同通道激活圖的均值或總和作為整體觸發效應的綜合測量,最小化學生模型和教師模型之間的激活圖差異。同時,由于整合效應,激活圖包含了后門觸發的神經元和良性神經元的激活信息,即使后門沒有被干凈數據激活,也可以從激活圖中獲得額外的梯度信息。

4.5 模型后門檢測技術總結

模型后門檢測可以從數據層面展開,也可以在模型層面展開,具體包括針對訓練數據集的后門檢測、推斷輸入數據的后門檢測、目標模型的后門檢測和模型凈化等,如表2所示。模型后門檢測面臨的挑戰包括:后門的隱蔽性使得很難通過功能性測試來識別后門;防御者通常只能得到模型的有限信息,模型的訓練數據或者替代模型較難獲得;標注后門的訓練數據或模型也較難獲得。目前已有的后門檢測方法限制條件較多,在實際場景中的應用效果難以保證。

5 總結與展望

5.1 當前研究進展總結

深度神經網絡的安全性問題是當前學術界的研究熱點之一,其模型的后門植入和檢測技術研究越來越受到重視。深度神經網絡模型后門具有較強的隱蔽性,也具有更大的潛在危害性。尤其是當前開發者大量依賴公開的預訓練模型和數據集,使得模型后門的植入形式更加多樣,植入過程更加隱蔽。與之相對應的模型后門檢測與凈化等防御技術研究成為提升人工智能系統安全性的必要環節。

Table 2 Comparison of backdoor detection methods on deep neural network model

現有的深度神經網絡模型后門植入與檢測技術貫穿模型整個生命周期的各個環節。模型后門植入技術主要從數據注毒和模型修改2個維度展開,最終在指定目標標簽與觸發輸入之間建立強相關性。但是,目前的模型后門植入方法在隱蔽性、魯棒性、抗檢測性等方面都還有提升的空間。后門檢測與凈化等防御方法主要從訓練數據觸發器檢測、測試推理數據觸發器檢測、模型后門檢測、模型后門凈化等方面展開,最終實現對后門的檢測或消除。目前的后門檢測方法限制約束條件較多,對于訓練數據或模型信息已知的假設在現實中往往并不成立。

5.2 未來研究展望

隨著人工智能技術的進一步發展,其應用場景在逐步加速拓展,與其它信息技術的結合也會逐步加深。針對深度神經網絡模型的安全性問題研究是人工智能安全的重要組成部分,也會隨著人工智能技術的進步不斷向前發展。隨著數據、模型等的進一步開源,針對深度神經網絡模型的后門植入與檢測技術研究也變得更加迫切和必要。結合當前相關技術研究進展及研究實際,未來需要從多個方面進一步深化研究:

(1)模型后門的存在機理研究。傳統軟硬件后門的存在形式比較明確,其觸發位置也比較固定,后門植入與檢測的目標相對比較明確,但模型后門在不同領域中的差異較大,如圖像、語音、文本等領域的后門難以遷移。此外,模型后門并非獨立存在于神經網絡中的某幾個神經元,而是在不同層的神經元之間通過傳導計算才會形成后門,且隨著模型的更新升級,后門所對應的神經元分布可能發生較大的變化。因此,對于模型后門的植入與檢測不能局限于表象,需要從更加本質的機理出發進行研究。

(2)黑盒場景下的模型后門植入與檢測技術研究。模型后門的植入既可以在訓練階段對訓練數據進行注毒,也可以在模型開發和部署階段對模型進行修改。但是,對于無法訪問訓練數據和目標模型的場景,如本地獨立開發的黑盒模型,則需要研究新的后門植入方法。同時,黑盒場景下的后門檢測也需要擺脫對數據和模型信息的依賴,實現在與目標模型盡可能少交互的場景下對模型后門的檢測,以及有針對性地設計輸入樣本,避免觸發潛在的后門。

(3)多維信息融合的后門植入與檢測技術研究。模型后門的存在會影響人工智能系統安全,但此類影響與人工智能系統運行所依賴的基礎軟硬件設施之間的關系,以及與模型訓練時使用的計算框架、智能算法、訓練數據等之間的關系還有待進一步研究。關聯融合不同維度的后門信息,雖然使得后門植入的過程更加隱蔽,后門觸發的形式更加多樣,但是利用不同層級的多維信息,可以更好地進行關聯分析,提高后門檢測的準確性。

(4)后門數據與后門模型的多樣化生成與標注技術研究。當前模型后門的植入與檢測技術研究主要依賴本地生成后門樣本以及訓練后門模型,在后門數據與后門模型的多樣化方面存在較大不足,測試結果的可靠性及可對比性仍有待檢驗。需要研究后門數據與后門模型的自動化、規范化、多樣化生成與標注技術,建立模型后門相關研究的標準框架。

6 結束語

深度神經網絡模型的后門植入與檢測相關技術研究對提高人工智能模型的安全性和可靠性具有重要作用。本文首先對深度神經網絡模型后門的定義以及與模型生命周期各環節的對應關系進行了分析介紹;然后,分別針對深度神經網絡模型后門植入、檢測、凈化等技術進行了探討分析和總結歸納;最后,對深度神經網絡模型后門植入和檢測相關技術研究進行總結與展望,以期為相關領域研究人員提供參考。

猜你喜歡
檢測方法模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 啪啪啪亚洲无码| 四虎亚洲国产成人久久精品| 啪啪永久免费av| 丁香婷婷激情综合激情| 亚洲国产理论片在线播放| 白丝美女办公室高潮喷水视频| 真实国产乱子伦高清| 国产区精品高清在线观看| 国产精品成人观看视频国产| 亚洲成av人无码综合在线观看| 无套av在线| 免费av一区二区三区在线| 国产精品污污在线观看网站| 伊人久综合| 国产精品区网红主播在线观看| igao国产精品| 夜夜高潮夜夜爽国产伦精品| 精品人妻无码区在线视频| 欧美在线视频a| 91网站国产| 久久精品aⅴ无码中文字幕| 欧美国产综合色视频| 国产99热| 成人日韩精品| 99视频在线免费看| 91精品国产情侣高潮露脸| 搞黄网站免费观看| 五月婷婷精品| 一级成人a毛片免费播放| 日韩中文欧美| 动漫精品中文字幕无码| 日韩在线1| 99精品视频在线观看免费播放| 国产18在线播放| 国产精品自在线天天看片| 四虎影院国产| 久久精品亚洲热综合一区二区| 丁香六月综合网| 国产成人91精品| 午夜精品久久久久久久无码软件 | 国产女人18毛片水真多1| 思思热在线视频精品| 国产丝袜91| 成人在线天堂| 国产在线视频欧美亚综合| 九九热免费在线视频| 久久国产精品电影| 制服丝袜无码每日更新| 精品在线免费播放| 国产流白浆视频| 国产一区二区三区免费观看 | 精品一区二区久久久久网站| 丰满人妻被猛烈进入无码| 久久久久免费看成人影片| 国产原创演绎剧情有字幕的| 国产剧情一区二区| 国产日韩精品一区在线不卡| 婷婷午夜天| 国产尤物jk自慰制服喷水| 亚洲国产系列| 亚洲Av综合日韩精品久久久| 国产午夜精品一区二区三| 亚洲91精品视频| 中文字幕免费视频| 黄色三级毛片网站| 人妻丰满熟妇AV无码区| 国产打屁股免费区网站| 久久一级电影| 国产精品成| 久久亚洲高清国产| 美女被狂躁www在线观看| 第一区免费在线观看| 男人天堂伊人网| 国产欧美日韩91| 在线看片免费人成视久网下载| 国产成人永久免费视频| 国产尤物视频网址导航| 久久不卡精品| www.狠狠| 欧美乱妇高清无乱码免费| 免费观看成人久久网免费观看| 91精品aⅴ无码中文字字幕蜜桃|