深度強化學習的攻防與安全性分析綜述

2022-02-17 10:46:54陳晉音王雪柯蔡鴻斌紀守領

自動化學報 2022年1期

陳晉音章燕王雪柯蔡鴻斌王玨紀守領

自Mnih 等[1]將深度學習與強化學習結合并提出第一個深度強化學習框架—深度Q 網絡(Deep Q network,DQN)[1?2]以來,深度強化學習(Deep reinforcement learning,DRL)方法就被人們視為邁向通用人工智能的必要路徑之一.隨后,各種強化學習的改進算法不斷提出,例如:基于值函數的算法有雙重深度Q 網絡(DDQN)[1?3]、優先經驗回放Q 網絡(Prioritized DQN)[4]、對偶深度Q 網絡(Dueling DQN)[5]等,基于策略的強化學習算法有異步/同步優勢行動者評論者(A3C/A2C)[6]、信任域策略優化(TRPO)[7]、K 因子信任域行動者評論者算法(ACKTR)[8]等.基于深度強化學習的應用領域也非常廣泛,例如:游戲博弈[9?10]、自動駕駛[11]、醫療健康[12]、金融交易[13]、機器人控制[14]、網絡安全[15]、計算機視覺[16?17]等.為加強深度強化學習在安全攸關領域的安全應用,及早發現深度強化學習算法漏洞,防止惡意用戶利用這些漏洞進行非法牟利行為.不同于傳統機器學習的單步預測任務,深度強化學習系統利用多步決策完成特定任務,且連續決策之間具有高度相關性.總體來說,深度強化學習系統的攻擊可針對強化學習算法的5 個主要環節展開惡意攻擊,包括:環境、觀測、獎勵、動作以及策略[18].

Huang 等[19]最早于2017 年對深度強化學習系統存在的漏洞做出了相關研究.他將機器學習安全領域中面臨的對抗攻擊應用到了深度強化學習模型中,通過在智能體的觀測狀態添加對抗擾動,令整個深度強化學習系統性能顯著下降.隨后,針對特定應用,Chen 等[20]在自動尋路任務中通過在環境中添加“擋板狀”障礙物,使智能體無法抵達目的地.Tretschk 等[21]通過對抗變換網絡修改Pong智能體訓練時維護的獎勵目標,使智能體的訓練朝著游戲失敗的方向進行.Ferdowsi 等[22]在第21 屆智能交通系統國際會議上提出了此類問題對自動駕駛應用的影響.因此深度強化學習系統真正應用到實際工業界之前,探究深度強化學習系統的脆弱點、提高其防御能力與魯棒性十分重要.

為了提高深度學習模型的魯棒性,已有研究提出了較多DRL 防御方法,主要包括三個方向:對抗訓練、魯棒學習、對抗檢測.例如:Behzadan 等[23]提出了使用對抗訓練實現梯度攻擊的防御;Gu 等[24]采用DRL 訓練對抗智能體,與目標系統的智能體進行零和博弈提升其魯棒性;Lin 等[25]借助預測幀模型,通過比較策略對預測幀與當前輸出的KL 散度概率分布實現攻擊檢測.

目前,深度強化學習領域的攻防研究還有很大發展空間,針對深度強化學習存在的易受對抗樣本攻擊等問題,深度強化學習模型的魯棒性優化以及對抗防御方法也已成為重點關注對象,仍需不斷探索.同時由于深度強化學習在安全攸關領域的應用,其存在的策略漏洞也成為了一大安全隱患.為了更好地探究深度強化學習系統的攻防研究現狀與未來發展方向,本文針對深度強化學習算法、攻擊與防御方法,以及安全性分析展開盡可能全面的綜述.

論文接下去章節安排如下:第1 節介紹主要的深度強化學習算法;第2 節針對強化學習的5 個方面介紹攻擊方法;第3 節介紹相應的防御方法;第4 節分析深度強化學習的安全性;第5 節相關應用平臺及評估指標;最后,總結并列舉未來可能的研究方向.

1 深度強化學習方法

強化學習(Reinforcement learning,RL)是一種智能體通過利用與環境交互得到的經驗來優化決策的過程[18].強化學習問題通常可以被建模為馬爾科夫決策過程(Markov decision process,MDP),可以由一個四元組表示MDP=(S,A,R,P),其中S表示決策過程中所能得到的狀態集合,A表示決策過程中的動作集合,R表示用于對狀態轉移做出的即刻獎勵,P則為狀態轉移概率.在任意時間步長t的開始,智能體觀察環境得到當前狀態st,并且根據當前的最優策略π?做出動作at.在t的最后,智能體得到其獎勵rt及下一個觀測狀態st+1.MDP 的目標就是找到最佳的動作序列以最大化長期的平均獎勵.深度強化學習則是在強化學習的基礎上結合了深度學習強大的特征提取能力,避免了特征人工提取,實現了從原始圖像輸入到決策結果輸出的端到端學習系統.

常用的深度強化學習通常被分為兩類:基于值函數的深度強化學習和基于策略梯度的深度強化學習.前者主要通過深度神經網絡逼近目標動作價值函數,表示到達某種狀態或執行某種動作得到的累積回報,它傾向于選擇價值最大的狀態或動作,但是它們的訓練過程往往不夠穩定,而且不能處理動作空間連續的任務;基于策略梯度的深度強化學習則是將策略參數化,利用深度神經網絡逼近策略,同時沿著策略梯度的方向來尋求最優策略.策略梯度算法在訓練過程中更加穩定,但是算法實現比較復雜且在通過采樣的方式進行學習時會導致方差較大.下面我們對比兩類方法中具有代表性的算法,分別對其原理、貢獻與不足進行闡述,如表1 所示.

表1 經典深度強化學習算法對比Table 1 Comparison of classic deep reinforcement learning algorithm

1.1 基于值函數的深度強化學習

基于值函數的DRL 通過維護更新價值網絡參數來得到最優策略,其最初的靈感來源于RL 中的Q學習[26].Q學習旨在通過貝爾曼方程,采用時序差分的方式進行迭代更新狀態?動作價值函數Q,使Q函數逼近至真實值Q?,從而最終得到最優策略:

其中,Qπ(s,a) 表示在狀態s做出動作a后,遵循策略π的預期回報,Gt表示從步驟t到終止狀態的累積回報.盡管已經證明Q學習算法在解決一些順序的決策問題時具有較好的表現,但是它仍然存在許多缺陷:1)在復雜場景下,狀態空間過大會導致Q表難以維護;2)學習過程中,訓練樣本的高度連續性打破了機器學習的獨立同分布要求;3)由于Q學習是一種在線學習方式,一些不常見的樣本在使用一次后就被放棄,導致樣本使用效率低.

1.1.1 深度Q 網絡

為了克服上述缺點,Mnih 等[1]首次將Q學習與深度神經網絡結合,提出深度強化學習Q 網絡(DQN),并且證明經DQN 訓練的智能體在Atrai 游戲上的技術水平能夠達到人類水準.

DQN 采用深度卷積神經網絡來逼近Q函數,解決了狀態空間過大難以維護和特征提取的問題.同時,采用經驗回放機制學習使訓練數據成為獨立同分布,降低了數據間的關聯性,而且通過重復利用提高了對樣本的利用率.此外,Mnih 等[2]在2015 年提出了目標網絡機制,目標網絡是在原有Qθ之外搭建一個結構完全相同的網絡Qθ?,減輕了每次Q值變化對策略參數的影響,增加了策略訓練的穩定性.

1.1.2 深度Q 網絡的改進方法

針對DQN 存在Q值估計偏差過大、訓練不穩定等問題,提出了一些改進版的DQN 方法.Van 等[3]根據強化學習中的雙重Q學習構建雙重深度Q 網絡(Double deep Q network,DDQN),通過評估網絡來選擇動作、目標網絡進行價值評估.針對DQN的經驗回放機制采用平均隨機采樣機制,存在稀有樣本利用率低的問題,Schaul 等[4]提出了優先經驗回放機制,定義經驗優先級,并優先采用級別高的經驗.Wang 等[5]提出了DQN 的對偶結構(Dueling network),通過狀態價值函數V和相對價值函數A來評估Q值.為了減少隱藏信息的代價,Hausknecht 等[27]將DQN 卷積層后的第一個全連接層替換為循環的長短時記憶網絡,提出深度循環Q 網絡(Deep recurrent Q network,DRQN).在此基礎上,Sorokin 等[28]加入注意力機制使得智能體在訓練過程中關注圖像中的某一點進行學習,即:深度注意力機制循環Q 網絡(Deep attention recurrent Q network,DARQN).Plapper 等[29]用噪聲網絡來替代原先的ε-貪婪探索策略.通過將參數化的自適應噪聲加入到的DQN網絡權重中,驅動智能體探索、簡化訓練難度.針對使用經驗回放機制產生參數滯后而導致的表征漂移等問題,Kapturowski 等[30]提出了循環回放分布式深度Q 網絡(Recurrent replay distributed DQN,R2D2).R2D2 使用全零狀態初始化網絡與回放完整軌跡兩種方法來比較訓練LSTM[31]的差異,提出狀態存儲和“Burn-in”方法來訓練隨機采樣的循環神經網絡.更進一步,Le Paine 等[32]提出演示循環回放分布式深度Q 網絡(Recurrent replay distributed DQN from demonstrations,R2D3).除了經驗回放,R2D3 設計了一個專家演示回放緩沖區,學習者通過調整演示和經驗之間的比率有效解決了初始條件高度可變的部分觀察環境中的獎勵稀疏任務.

1.2 基于策略梯度的深度強化學習

由于基于值函數的深度強化學習在處理連續動作空間的場景時需要對動作進行離散化處理,也就需要為眾多動作分配Q值,給實際應用帶來困難,并且DQN 得到的策略無法處理隨機策略問題,基于策略梯度的深度強化學習方法[33]應運而生,包括:異步優勢行動者?評論者(Asynchronous advantage actor critic,A3C)[6]、確定性策略梯度(Deterministic policy gradient,PGD)[34]和信任域策略優化(Trust region policy optimization,TRPO)[7]以及一些改進方法.

基于策略梯度的深度強化學習通過深度神經網絡對策略進行參數化建模:πθ(s,a)=p(a|s,θ),即對應每個狀態采取不同動作的概率.在學習過程中,通過策略梯度直接在策略空間中搜索最優策略.

1.2.1 策略梯度

策略梯度算法的主要思想是將策略π參數化為πθ,表示對應的狀態動作分布概率,然后計算出關于動作的策略梯度,沿著梯度方向來調整動作,最終找到最優策略.策略梯度的定義為:

策略梯度算法中,根據策略的定義不同,又可以分別隨機性策略與確定性策略.隨機性策略是指在當前狀態下,滿足策略參數θ時的某個概率分布,其對應的動作可能是多個.而確定性策略則是指對應于每個狀態都輸出唯一的動作.策略梯度常用于解決深度強化學習的連續控制問題,常見的策略梯度算法包括:REINFORCE 算法[35]、自然策略梯度算法(Natural policy gradient,Natural PG)[36]以及行動者?評論者算法(Actor-critic,AC)[37]等.

1.2.2 異步優勢行動者?評論者

基于經驗回放的DRL 算法將智能體與環境的交互數據存儲在經驗回放池中,訓練時進行批量采樣,減少了在線強化學習的數據相關性,通常只適用于離線策略強化學習中.針對上述問題,Mnih 等[6]結合異步強化學習思想提出了異步優勢行動者?評論者方法.

A3C 通過創建多個子線程,每個線程中智能體并行地與環境交互,實現異步學習,替代了經驗回放機制,解決了在線策略的數據相關性的問題.A3C在執行過程中采用異步更新網絡參數的方式,各線程單獨對環境采樣并計算梯度,用各自得到的梯度通過累加異步更新到全局模型中,最后將全局模型參數拷貝到各個線程網絡中.但是A3C 的異步更新方式會使得各個線程會以不同的策略去對環境進行采樣.對此,Mnih 等[6]提出了同步的優勢行動者-評論者(Advantage actor critic,A2C)方法.

相比于A3C 異步更新全局模型的方式,A2C中的各線程會將各自的采樣計算得到的梯度先進行匯總,再用匯總結果更新全局模型參數.不僅解決了在線策略數據更新的相關性問題,同時使智能體在同一策略下進行交互學習.

1.2.3 確定性策略梯度

由于在連續動作空間中選取確定動作十分困難,為此Silver 等[34]提出了確定性策略理論,并證明了確定性策略梯度的存在.Lillicrap 等在此基礎上結合了AC 框架以及DQN 中的機制,提出了深度確定性策略梯度算法(Deep deterministic policy gradient,DDPG)[38].

DDPG 使用參數為θπ的策略網絡和參數為θQ的動作價值網絡分別作為AC 框架中的行動者和執行者,同時使用經驗回放機制進行批處理學習,使用目標網絡機制來提高學習過程的穩定性.

1.2.4 信賴域策略優化

為了找到合適的步長使得策略一直向回報增加的方向更新,Schulman 等[7]提出了信任域策略優化方法,通過KL 散度來限制策略更新前后的分布差異,令更新步長處于信任域中,使策略的更新會朝著增加回報的方向前進.

理論上,TRPO 能保證更新后的策略比先前策略性能更好,在有限的策略空間中,最終能達到局部或全局最優解.在現實場景中,TRPO 也被證明擁有較好的魯棒性與實用性.但是由于TRPO 算法實現十分復雜,且計算代價過大,Schulman 等[39]隨后又提出了改進版本,即近端策略優化(Proximal policy optimization,PPO)算法.PPO 提升了采樣的復雜度而簡化了計算,同時使用了無約束優化,在保持性能同時降低了算法復雜度.Wu 等[8]結合行動者評論者算法提出了Kronecker 因子信任域行動者評論者算法(Actor critic using kroneckerfactored trust region,ACKTR),利用Kronecker 因子減少算法所需的計算量.

2 深度強化學習的攻擊方法

隨著DRL 的推廣應用,通過攻擊方法研究發現DRL 的安全漏洞也引起廣泛關注.為了系統分析各種不同的攻擊方法,本文根據強化學習MDP中的關鍵環節對攻擊方法進行歸類,即:觀測攻擊、獎勵攻擊、動作攻擊、環境攻擊以及策略攻擊,其攻擊方法主要在Atari 游戲場景以及自動導航的地圖等場景上實現,各個環節攻擊的展示如圖1 所示.

如圖1 所示,首先,觀測攻擊指攻擊者在智能體所接收到的觀測圖像上添加擾動,使智能體做出攻擊者預期的動作,通常在智能體的圖像傳感器上添加噪聲來實現.不同于觀測攻擊,環境攻擊是直接修改智能體的訓練環境,主要通過對環境動態模型的修改以及在環境中加入阻礙物(并非在智能體的傳感器上添加噪聲)的方式來實現攻擊.其次,獎勵攻擊指修改環境反饋的獎勵信號,既可以是通過修改獎勵值的符號,也可以使用對抗獎勵函數取代原有的獎勵函數來實現攻擊.再次,策略攻擊是指使用對抗智能體來生成目標智能體理解能力之外的狀態和行為,繼而導致目標智能體進入一種混亂狀態.而動作攻擊則是指修改動作輸出,這種攻擊方式可以通過修改訓練數據中的動作空間來實現.

圖1 對DRL 系統的不同類型攻擊Fig.1 Different types of attacks on DRL system

本文對DRL 攻擊方法和代表性技術進行了綜述與對比,相關方法及其原理簡述整理在表2 中.同時也對攻擊成功率進行統計,目前攻擊效果統計中,獎勵值分析占主流,極少論文提到攻擊成功率,其中部分論文中的攻擊成功率通過曲線圖來展示動態結果,只有兩篇論文中的攻擊方法給出了具體的成功率數值,相關攻擊模型及方法和對應成功率統計在表3 中.

表2 深度強化學習的攻擊方法Table 2 Attack methods toward deep reinforcement learning

表3 深度強化學習的攻擊和攻擊成功率Table 3 Attack success rate toward deep reinforcement learning

2.1 基于觀測的攻擊

2.1.1 FGSM 攻擊

Huang 等[19]最先對通過深度強化學習得到的策略進行攻擊,使用機器學習領域常用的快速梯度符號(Fast gradient sign method,FGSM)[40]算法制造對抗擾動并將擾動直接添加到智能體的觀測值上,以此對深度學習智能體進行攻擊.FGSM 的主要思想是在深度學習模型梯度變化最大的方向添加擾動,導致模型輸出錯誤結果,其數學表達式如下:

其中,J表示損失函數,θ表示模型參數,x表示模型輸入,y樣本類標(此處指最優動作項),?J(·,·,·)表示計算損失函數對當前模型參數的梯度,sign 表示符號函數,ε表示擾動閾值.

實驗證明,這種方法在白盒與黑盒設置下均有效.Huang 等[19]首次嘗試并驗證了由DQN、TRPO以及A3C 這些算法得到的智能體容易受到對抗性擾動的攻擊,且對抗樣本在不同強化學習算法得到的模型之間、在相同算法下得到的不同模型之間具有較好的遷移性.但是他的攻擊方式依然遵循著機器學習模型在時間上的獨立性,而沒有考慮到強化學習問題在連續時間上高度的相關性.

2.1.2 策略誘導攻擊

Behzadan 等[41]認為由于深度強化學習系統在學習的過程中依賴于智能體與環境的交互,使得學習過程容易受到可觀察環境變化的影響.因此他們使用基于深度學習分類器的攻擊,對DQN 模型的觀測進行了對抗擾動.

在攻擊設置中,敵手知道目標模型的輸入類型及獎勵函數,可以根據目標模型的輸入類型建立一個DQN 副本,通過副本及獎勵函數制造對抗樣本,使目標DQN 的訓練朝向選擇除最優動作at之外的動作a′t進行學習.這種攻擊方式可以視為對深度學習模型中的分類器黑盒攻擊的擴展.但是這種攻擊依然局限于傳統機器學習在時間步上獨立計算對抗樣本的形式.

2.1.3 戰略時間攻擊

Lin 等[42]認為,考慮部分強化學習問題中的獎勵信號是稀疏的,對手沒有必要在每個時間步都對智能體發起攻擊.因此他們提出了一種新穎攻擊方式:通過戰略性地選擇一些時間步進行攻擊,以減少目標智能體的預期累積回報.提出了動作偏好函數來衡量當前狀態下策略對動作的偏好程度,當偏好程度超過設定的閾值時就制造擾動進行攻擊.

實驗驗證了攻擊效果,戰略時間攻擊可以使用較少的攻擊次數達到與Huang[19]相同的效果.戰略時間攻擊相比于在所有觀測值上都添加擾動的方式更不易被察覺,更具有實用性.

2.1.4 迷惑攻擊

Lin 等[42]提出了迷惑攻擊,其目的是從某一時刻下的狀態st開始施加擾動來迷惑智能體,從未觀察智能體在H步后得到的狀態sg.迷惑攻擊需要知道目標智能體在每一步會選擇的動作,以及生成式預測模型獲得目標智能體此后可能選擇的路徑,在這兩個前提下,攻擊者制造對抗樣本來迷惑智能體,使得智能體去往攻擊者設定的預期狀態sg.實驗使用由Carlini 等[43]提出的對抗樣本生成算法.結果證明,在沒有隨機動態變化的游戲場景下,40步以內的迷惑攻擊成功率能達到70%.

這種使智能體做出攻擊者所需動作的攻擊方式,為面向強化學習系統的多樣性攻擊提供了新的思路.

2.1.5 基于值函數的對抗攻擊

Kos 等[44]提出了一種值函數指導的攻擊方法,其主要思想是借助值函數模塊評估當前狀態價值的高低,以此來選擇是否進行攻擊.當值函數對當前狀態價值做出的估計高于設定閾值,則對當前狀態添加FGSM 擾動,反之則不進行擾動,以此達到減少攻擊成功所需要注入的對抗樣本次數.實驗證明,在這種攻擊方式下,攻擊者只需要在一小部分幀內注入擾動就可以達成目的,并且效果比在沒有值函數引導下以相似頻率注入擾動要更加好.

該方法與Lin 等[42]的戰略時間攻擊想法類似,都追求以更少的攻擊次數來實現較好的攻擊效果.這類攻擊方法考慮到了強化學習場景下一些關鍵決策時間步對整體的影響,具有一定的指導意義.但是這種方法不能應用在一些單純依靠策略梯度的場景.

2.1.6 嗅探攻擊

Inkawhich 等[45]提出了嗅探攻擊方法,攻擊者無法訪問目標智能體的學習參數及其與之交互的環境,只能監測到目標智能體接收到的觀測值,以及它反饋給環境的動作、獎勵信號.基于該假設,給定4 種威脅場景S、SA、SR、SRA,分別對應于只監測狀態信號、監測狀態及動作信號、監測狀態與獎勵信號、同時監測三者.在這些場景中,攻擊者訓練并得到代理模型,以代理模型為基礎制造對抗樣本.

在一些策略部署在服務器端的場景下,相比于目前大部分需要訪問目標智能體學習參數的攻擊方法,嗅探攻擊的可行性更高.

2.1.7 基于模仿學習的攻擊

Behzadan 等[46]提出使用模仿學習來提取目標模型進而使用對抗樣本的遷移性對目標模型進行攻擊.模仿學習是一種從專家決策樣本中快速學習專家策略的技術.實驗證明了對經模仿學習得到的策略有效的對抗樣本,對于原目標模型依然適用.

這種攻擊方式在思想上與策略誘導攻擊方式十分類似,都是在等效模型的基礎上使用對抗樣本的遷移性進行攻擊.不同的是該攻擊使用模仿學習加快了等效模型建立的速度,為黑盒設置下對深度強化學習模型的攻擊提供了新方案.

2.1.8 CopyCAT 算法

Hussenot 等[47]提出了CopyCAT 算法,這一算法可以引導目標智能體遵循攻擊者設定的策略.不同于其他針對狀態進行的攻擊,CopyCAT 算法嘗試攻擊的是智能體從觀測環境到生成狀態這一感知過程.該算法的實施分為三個階段:1)收集目標智能體與環境交互的數據;2)根據收集的數據,采用優化算法為所有的觀測感知過程生成掩碼;3)在目標智能體測試階段,根據攻擊者預先設定的策略為智能體添加掩碼,更改目標智能體動作所遵循的策略.

該攻擊方式并不是簡單地為了降低目標智能體地性能表現,而是為了使智能體的行為能遵循攻擊者所設定的策略,這種預先設計的策略既可以是使智能體性能惡化的策略,又可以是使智能體性能提升的策略.而且由于掩碼是在攻擊前預先計算得到的,因此這種攻擊方式可以被視為一種實時攻擊.相比與FGSM 等需要在攻擊過程中耗費計算資源的攻擊方式,CopyCAT 更適合應用于對深度強化學習系統的攻擊.

2.2 基于獎勵的攻擊

2.2.1 基于對抗變換網絡的對抗攻擊

Tretschk 等[21]將新型的對抗攻擊技術,即對抗變換網絡整合到了策略網絡結構中,通過一系列的攻擊使得目標策略網絡在訓練時優化對抗性獎勵而不再是優化原始獎勵.對優化的獎勵前后變化如下圖2 所示,其中綠色區域表示獎勵為1 的區域,暗紅色區域表示獎勵為0 的區域.原始獎勵r0在球沒有擊中對手的墊子時給予獎勵,對抗獎勵在球擊中對手墊子中心點時給予獎勵.

圖2 獎勵可視化Fig.2 Reward visualization

通過實驗證明,對狀態觀測添加一系列的擾動,可以對目標策略網絡施加任意的對抗獎勵,使目標策略發生變化.這種攻擊者存在的可能性令人們對持續學習型深度強化學習系統在工業領域中的應用而感到憂慮.

2.2.2 木馬攻擊

Kiourti 等[48]首次提出了在深度強化學習系統的訓練階段使用木馬攻擊.他們只在0.025%的訓練數據中加入木馬觸發器,并在合理范圍內對這些訓練數據中對應的獎勵值做出修改.如果目標智能體對這些中毒樣本的狀態做出了攻擊者想要的動作,則給予該數據最大的獎勵值;如果沒做出攻擊者想要的動作,則給予該數據最小的獎勵值.

在這種木馬攻擊下,目標智能體在正常情況下的性能并沒有受到任何影響,但是一旦木馬觸發器被觸發,智能體就會執行攻擊者預設的行為.

2.2.3 翻轉獎勵符號攻擊

在深度強化學習系統訓練過程中,訓練樣本以(s,a,s′,r)的形式存放在經驗回放池中,其中s為當前狀態,a為智能體在此狀態下選擇的動作,s′為下一狀態,r為獎勵值.在Han 等[49]預設的攻擊場景下,攻擊者可以翻轉經驗回放池中5%樣本的獎勵值符號,以此來最大化目標智能體的損失函數.

實驗結果證明,盡管這種攻擊方式可以在短時間內最大化智能體的損失函數,對其性能造成一定的影響,但是在長期訓練后,智能體依然可以從中恢復過來.

這種攻擊場景可以看做是獎勵值信道錯誤的一種極端情況,例如傳感器失靈或被人劫持,因此這種攻擊具有一定的實際意義.

2.3 基于環境的攻擊

2.3.1 路徑脆弱點攻擊

針對基于DQN 的自動尋路系統,Bai 等[50]提出一種在路徑脆弱點上添加障礙物的攻擊方法.他們首先利用DQN 尋找一副地圖的最優路徑,在DQN的訓練過程中,通過在路徑上相鄰點之間Q值的變化尋找路徑脆弱點,之后借助相鄰脆弱點之間連線的角度來輔助計算對抗樣本點.最后通過在環境中加入對抗點減緩智能體找到最優路徑的時間.

這種攻擊方法需要對智能體規劃路徑上的點進行角度分析,所能應用到的場景受到較大的限制.而且實驗最后證明,隨著訓練次數的增加,智能體依然可以收斂到最優路徑.

2.3.2 通用優勢對抗樣本生成方法

在A3C 路徑查找任務中,智能體在尋路過程中只能獲得周圍的部分環境信息,因此無法通過在全局地圖添加微小的擾動來達成攻擊效果.因此,Chen 等[20]針對基于A3C 的路徑查找任務提出了一種通用的優勢對抗樣本生成方法,使用這種方法可以為給定的任意地圖生成優勢對抗樣本.這種方法的核心思想是,在智能體訓練過程中找到值函數上升最快的梯度帶,通過在梯度帶上添加“擋板狀”的障礙物來使目標智能體無法到達目的地或者在最大程度上延長到達目的地所需要的時間.

這種攻擊在不同規模的地圖上進行測試,攻擊成功率均在91.91%以上,證明了這種攻擊在不同地圖上具有通用性.但是只針對基于A3C 算法訓練的智能體進行試驗,尚不足以證明在深度強化學習算法之間的通用性.

2.3.3 對環境模型的攻擊

環境動態模型的輸入是當前狀態及智能體動作,輸出為下一狀態.Xiao 等[51]提出了兩種對環境動態模型的攻擊,希望通過在動態模型上添加擾動使得智能體達到攻擊者指定的狀態.他們提出了兩種攻擊方法:1)隨機動態模型搜素,通過隨機使用一種動態模型,觀察智能體是否會達到指定狀態;2)在現有的動態模型上添加擾動,通過確定性策略梯度的方式不斷訓練對抗動態模型,直到智能體能達到攻擊者指定的狀態.

2.4 動作空間擾動攻擊

Lee 等[52]提出了兩種對DRL 算法動作空間的攻擊:第一種方法是一個最小化具有解耦約束的深度強化學習智能體的累積獎勵的優化問題,稱為近視動作空間攻擊;第二種方法和第一種攻擊方法的目標相同,但具有時間耦合約束,稱為具有前瞻性的動作空間攻擊.結果表明,具有時間耦合性約束的攻擊方法對深度強化學習智能體的性能具有更強的殺傷力,因為這個方法考慮到了智能體的動態因素.

由于動作空間獨立于智能體策略之外,因此這種通過擾亂動作空間以減少智能體所獲得的累積回報的方法幾乎無法被防御.此類攻擊適合應用于連續動作空間任務,但是在面對經過獨熱編碼的離散動作空間任務時難度較大.

2.5 通過策略進行攻擊

Gleave 等[53]提出一種新的威脅算法,攻擊者控制著對抗性智能體在同一環境與合法智能體進行對抗.在這種零和博弈場景下,敵人無法操縱合法智能體的觀察,但可以在合法智能體遵循自身策略的情形下創建自然觀察以作為對抗性輸入.這種自然觀察并沒有包含在合法智能體的訓練樣本中,因此合法智能體在面對這些自然觀察時會顯得“手足無措”.

實驗中,對抗性對手智能體基于PPO 訓練,受害者智能體基于LSTM 和MLP 訓練.結果表明,敵人可以通過混淆受害者來贏得比賽,攻擊效果如圖3 所示.圖中第一行表示正常的對手與受害者的博弈過程,對手采用直接擊打受害者的方式進行攻擊,而第二行中的對抗性對手在與受害者博弈過程中,采取倒在地上的方式作為攻擊手段.如果受害者躲過對手攻擊,則受害者獲勝,否則對手獲勝.對抗性對手在無法保持站立的情況下依然能使受害者陷入一種混亂狀態.實驗證明,對抗性對手的勝率在86%左右,而正常對手勝率僅為47%.

圖3 對抗智能體攻擊效果Fig.3 Adversarial agent attack

2.6 攻擊的適用性分析

在本節中,針對基于不同深度強化算法的學習模型及攻擊場景,對上述攻擊方法的適用性進行分析.

1)觀測攻擊:針對環境觀測展開攻擊的方法中,基于FGSM[19]的強化學習攻擊方法具有較強的攻擊遷移能力,實驗驗證了其生成的對抗樣本可以攻擊不同的強化學習模型,均有較好的攻擊效果.策略誘導攻擊[41]、迷惑攻擊[42]和基于模仿學習的攻擊[46]均通過構建等價模型生成對抗樣本,可用于攻擊基于不同算法的強化學習黑盒模型.而戰略時間攻擊通過戰略性地選擇特定時間點進行攻擊,適用于處理離散動作空間算法的學習模型,如DQN[1?2]和A3C[6].基于值函數的對抗攻擊[44]通過借助值函數模塊評估當前狀態價值的高低,從而決定是否進行攻擊.因此這種方法不能應用在一些單純依靠策略梯度的算法構建的學習模型中.嗅探攻擊[45]和CopyCAT 算法[47]分別通過訓練不同智能體模型來生成對抗樣本與使用掩碼讓智能體按照預先設定的策略行動來達到攻擊的效果,可攻擊不同強化學習算法得到的模型,具有一定的攻擊遷移性.

2)獎勵攻擊:基于對抗變換網絡的攻擊[21]通過加入一個前饋的對抗變換網絡獲得對抗獎勵,可實現對強化學習的白盒攻擊.木馬攻擊[48]則在狀態訓練數據中加入木馬觸發器,并在合理范圍內修改其對應的獎勵值,該方法同時適用于不同的算法得到的不同模型.翻轉獎勵符號攻擊[49]可以翻轉經驗回放池中部分樣本的獎勵值符號,所以適用于存在經驗回放機制的強化學習模型.

3)環境攻擊:路徑脆弱點攻擊[50]和通用優勢對抗樣本生成方法[20]都是在自動導航系統上進行攻擊,而前者需要對智能體規劃路徑上的點進行角度分析,所能應用到的場景受到較大的限制;后者則只針對基于A3C 算法訓練的智能體進行實驗,尚不足以證明在深度強化學習算法之間的通用性.對環境模型的攻擊[51]方法是在環境的動態模型上增加擾動,可攻擊基于環境動態建模的強化學習模型.

4)動作攻擊:動作空間擾動攻擊[52]適合應用于連續動作空間任務,但是在面對經過獨熱編碼的離散動作空間任務時難度較大.

5)策略攻擊:通過訓練進行攻擊[53]是指通過訓練對抗性智能體與目標智能體進行對抗使目標智能體失敗,目標智能體可以通過不同強化學習算法訓練得到.

3 深度強化學習的防御方法

本節將詳細介紹深度強化學習系統為應對各種不同的攻擊方法而提出的防御方法,可分為三大類:對抗訓練、魯棒學習、對抗檢測.表4 對現有的主要防御方法做了歸納與比較.同時也對防御成功率進行統計,目前防御效果統計中,獎勵值分析占主流,極少論文提到防御成功率,在調研過程中就發現一篇水印授權[54]的對抗檢測防御方法給出了對抗樣本檢測成功率指標,但并沒有給出具體數值,文中作者僅給出了檢測成功率曲線圖.

表4 深度強化學習的防御方法Table 4 Defense methods of deep reinforcement learning

3.1 對抗訓練

對抗訓練是指將對抗樣本加入到訓練樣本中對模型進行訓練,其主要目的是提高策略對正常樣本以外的泛化能力.但是對抗訓練往往只能提高策略對參與訓練的樣本的擬合能力.面對訓練樣本之外的對抗樣本,策略的性能表現依然不盡人意.

3.1.1 使用FGSM 與隨機噪聲進行重訓練

Kos 等[44]使用對抗訓練來提高深度強化學習系統的魯棒性.他們先使用普通樣本將智能體訓練至專家水平,之后將FGSM 擾動與隨機噪聲添加至智能體的觀測狀態值上進行重訓練.Pattanaik 等[55]也采用了這種方法來提高智能體的魯棒性.

實驗證明,經過FGSM 對抗訓練后,智能體在面對FGSM 擾動時能保持與正常情況下相當的性能.但是這種方法只能防御FGSM 與隨機擾動,在面對其他對抗擾動時依然無能為力.

3.1.2 基于梯度帶的對抗訓練

Bai 等[50]針對自己的優勢對抗樣本攻擊方法提出了一種在自動尋路地圖場景中基于梯度帶的對抗訓練方法.該對抗訓練方法不同于傳統的對抗訓練,它只需要在一個優勢對抗樣本上訓練即可免疫幾乎所有對此地圖的優勢對抗攻擊.

該實驗在基于A3C 的自動尋路任務下進行.實驗結果證明,在一個優勢對抗樣本地圖上進行基于梯度帶的對抗訓練后,智能體在面對其他優勢對抗樣本時防御精度能達到93.89%以上,而且該方法訓練所需要的時間遠少于傳統的對抗訓練方法.

3.1.3 非連續擾動下的對抗訓練

Behzadan 等[23]提出了非連續擾動下的對抗訓練機制.與傳統對抗訓練為所有訓練樣本添加擾動不同,該方法以一定的概率P在訓練樣本中添加FGSM 擾動.

他們對DQN 與噪聲DQN 模型進行了此非連續擾動的對抗訓練.實驗結果表明在P為0.2 和0.4 的情形下,DQN 與噪聲DQN 均能從擾動中恢復原有的性能.經過此方法重訓練得到的智能體在面對測試階段連續的FGSM 擾動時,性能表現與正常情況相當.

3.1.4 基于敵對指導探索的對抗訓練

Behzadan 等[56]將ε 貪婪探索與玻爾茲曼探索結合,提出了敵對指導探索機制.這種探索機制能根據敵對狀態動作對的顯著性來調整對每個狀態抽樣的概率.提高非連續對抗擾動對抗訓練的樣本利用率,同時也能使訓練過程更加穩定.

這種方法是非連續擾動下對抗訓練的改進,但是這種方法并沒有拓展所能防御的攻擊類型.

3.2 魯棒學習

魯棒學習是訓練模型在面對來自訓練階段或者測試階段時的攻擊方法時提高其自身魯棒性的學習機制.

3.2.1 基于代理獎勵的魯棒學習

由于在現實場景中,通常會因為傳感器故障而導致獎勵中帶有噪聲,因此Wang 等[58]提出使用獎勵混淆矩陣來定義一系列的無偏代理獎勵進行學習.使用該代理獎勵進行訓練能將模型從誤導獎勵中解救出來,并且訓練的收斂速度比基準強化學習算法更快.

實驗證明,使用代理獎勵值訓練得到的智能體在獎勵噪聲場景下具有更好的表現.這種代理獎勵具有很好的泛化性,可以輕易將其整合到各種強化學習算法中.

3.2.2 魯棒對抗強化學習

Pinto 等[58]將建模誤差以及訓練及測試場景下的差異都看作是系統中的額外干擾,基于這種思想,他們提出了魯棒對抗強化學習,核心是令一個智能體以扮演系統中的干擾因素,在目標智能體的訓練過程中施加壓力.他們將策略的學習公式化為零和極大極小值目標函數,目標智能體在學習過程中一邊以完成原任務為目標,一邊使自己在面對對抗智能體的干擾時變得更加魯棒.

在MuJoCo 物理仿真環境中,Pinto 等[58]證明經過該方法訓練得到的智能體在面對額外干擾時具有更好的魯棒性,考慮到了現實中可能存在的干擾,為深度強化學習系統從模擬環境走向現實環境提供了一份參考方案.

3.2.3 其余基于博弈理論的魯棒訓練

Bravo 等[59]將受到攻擊或損壞的獎勵值信道問題建模了強化學習智能體與對手之間的零和博弈問題,并且提出了均衡原則,證明了在具有內部平衡的二人零和博弈情況下,無論觀察結果受到的噪聲水平如何,訓練的時間平均值都將收斂至納什均衡.

Ogunmolu 等[60]將深度強化學習智能體與攻擊者在訓練階段的對抗交互建模為迭代的最大最小動態博弈框架,通過控制訓練過程來使兩者達到鞍點均衡.這種方法提高了模型訓練的策略在對抗干擾下的魯棒性.

由于傳統A3C 在正常環境中訓練的智能體無法處理一些具有挑戰性的場景,因此Gu 等[24]提出了一種對抗A3C 學習框架.與Pinto 等[58]類似,對抗A3C 在學習過程中引入一個敵對智能體,以此模擬環境中可能存在的不穩定因素.目標智能體通過與該敵對智能體博弈訓練,最終達到納什均衡.

3.2.4 噪聲網絡

Behzadan 等[61]對噪聲網絡的防御能力進行了測試.在實驗中,他們使用等價模型方法建立了目標網絡的副本,以副本為基礎制造FGSM 對抗擾動.

實驗證明,在測試階段,經過噪聲DQN 訓練的智能體在面對此類黑盒攻擊時,其性能表現要比原始DQN 訓練的智能體更加好;在訓練階段,噪聲DQN 智能體的性能也會隨著攻擊時間的增長而惡化,但是其惡化速度也比原始DQN 慢.可以證明,使用噪聲網絡訓練的智能體在面對對抗擾動時具有更好的彈性與魯棒性.Neklyudov 等[62]也使用了類似的高斯方差層來提高智能體的探索能力與魯棒性.

3.3 對抗檢測

對抗檢測指模型對正常樣本與對抗樣本加以甄別,并在不修改原始模型參數的情況下處理對抗樣本.

3.3.1 基于元學習的對抗檢測

Havens 等[63]介紹了一種元學習優勢層次框架,它在只使用優勢觀察的情況下,能夠有效地檢測并減輕基于狀態信息的對抗攻擊.核心思想是使用主智能體監視子策略,通過衡量一定時間內子策略的回報來決定是否繼續執行當前子策略.由于主智能體已經對子策略制定了準確的預期,因此一旦攻擊者使策略行為發生變化,主智能體就能察覺并轉換子策略.

這種學習框架能在時域范圍內檢測攻擊者帶來的預期之外的影響.相較于傳統深度強化學習系統,提高了受攻擊場景下的回報下界.

3.3.2 基于預測模型的對抗檢測

Lin 等[25]提出了一種動作條件幀預測模型,通過比較目標策略對預測幀與當前幀的動作分布差異來判斷當前幀是否為對抗樣本,如果當前幀被判斷為對抗樣本,則智能體使用預測幀作為輸入并執行動作.實驗效果如圖4 所示,該圖描述了攻擊者對智能體πθ進行連續攻擊的場景.在時間步t-1 和t,智能體接受惡意擾動輸入并輸出會導致性能下降動作分布.給定先前得觀測和動作,并結合視覺預測模型得到預測幀,并通過得到預測動作分布.比較πθ(xt)與兩個動作分布,如果兩個分布的距離大于閾值H,則將當前幀視作對抗樣本.

圖4 基于預測模型的對抗檢測Fig.4 Adversarial detection based on prediction model

Lin 等[25]將此方法與Feature Squeezer[64]、AutoEncoder[65]以及Dropout[66]三類對抗檢測方法進行比較.實驗結果證明,他們提出的方法能夠以60%到100%的精度來檢測對抗攻擊,性能表現優于其他三類方法.

3.3.3 水印授權

Behzadan 等[54]將Uchida 等[67]提出的水印技術加以修改并應用到了深度強化學習系統中.其核心思想是為策略中對一些特定的狀態轉移序列加上唯一標識符.同時保證在正常情況下,標識符對策略的性能影響最小.一旦攻擊者對策略進行篡改并除法水印,智能體就會中止活動.

3.3.4 受威脅的馬爾科夫決策過程

Gallego 等[68]提出了一種受威脅的馬爾科夫決策過程,將攻擊者對獎勵值產生過程的干擾行為考慮在內.同時提出了一種K 級思維方式來對這種新型馬爾科夫決策過程求解.實驗中,攻擊者以1 級思維利用正常的Q學習算法降低目標智能體對獎勵的獲取,目標智能體則以2 級思維去估計攻擊者的行為并嘗試獲得正向獎勵.

實驗結果證明,以2 級思維模型訓練的智能體在獎勵值干擾下累積回報不斷增加,最終實現正向的累積回報;而以傳統方式訓練的智能體性能不斷惡化,最終收斂于最差的累積回報.

3.3.5 在線認證防御

Lutjens 等[69]提出了一種在線認證的防御機制,智能體能在執行過程中保證狀態動作值的下界,以保證在輸入空間可能存在對抗擾動的情況下選擇最優動作.防御過程中,智能體通過狀態觀測得到受擾動的狀態sadv,DQN 網絡輸出狀態動作價值Q(sadv,a).在線認證節點在狀態空間中魯棒閾值±ε,并為每個離散動作計算狀態動作價值下限QL,智能體根據最大的動作價值選擇相對應的動作a?.

實驗結果證明,將這種機制添加到DQN 后,智能體在面對傳感器噪聲、帶目標的FGSM 擾動時能具有更好的魯棒性.這種在線認證的防御方式易于集成,而且目前計算機視覺領域的魯棒性驗證工具可以更好地計算狀態動作價值的置信下界.

4 深度強化學習的安全性分析

雖然目前已經有了許多對深度強化學習系統的攻防方法,但是攻擊與防御方法的效果卻很難進行評估.早期往往使用簡單的標準對攻擊效果進行評估,例如Atari 游戲中得分的下降,但是這通常不足以表征攻擊方法的效果.其次防御方法缺乏泛化性,對當前攻擊有效的防御方法在面對其他類型的攻擊時可能就失效了.此外,攻擊和防御方法都在快速的更新迭代,許多傳統的防御方法在面對新出現的攻擊方法時都被證明是無效的.例如,在深度學習中,混淆梯度策略的提出,證明了許多防御措施是無效的[70].由于防御方法泛化能力的不足,眾多研究者轉而著力研究策略的魯棒性及策略的安全邊界問題,以解決上述的不足.下面介紹模型安全性分析驗證方面的一些研究.

4.1 基于等價模型的方法

由于DNN 網絡的復雜性,對學習到的策略網絡的魯棒性等屬性進行直接驗證是比較困難的.因此,比較直觀的想法就是使用等價模型來等效替代策略網絡.這種方法對等價模型的要求較高,至少需要滿足以下兩個條件:1)等價模型的性能表現能與原來的策略在同一水平線上(或是稍弱一些);2)要求等價模型能夠很好地驗證安全性、穩定性和魯棒性等屬性.除此之外,還需要考慮到擴展性以及算法復雜度等因素.下面對現有的等價模型方法進行介紹.

4.1.1 決策樹等價模型

Bastani 等[71]提出使用決策樹策略來等價DNN 策略.他們訓練的決策樹策略能夠表示復雜的策略.由于決策樹的非參數和高度結構化性質,使用現有的技術可以對其進行有效的驗證.但是其中首要的難題就是決策樹策略難以訓練.對此,他們提出了VIPER 方法,該方法在模仿學習算法的基礎上利用了Q函數,將原來的DNN 策略作為專家策略,最終學習到一顆較小的決策樹(小于1 000個結點),整個流程如圖5 所示.圖5 表明,該方法將強化學習模型建模為MDP 過程,通過神經網絡訓練得到相應的策略并將其作為專家策略來訓練生成決策樹模型,最后將決策樹學習生成的策略在該實驗場景中驗證其有效性.

圖5 決策樹等價模型驗證方法流程Fig.5 Process of decision tree equivalent model verification

實驗表明,根據使用DQN 與使用VIPER 提取的決策樹策略進行強化學習任務得到相同回報值的結果,表明學習得到的決策樹在Atari 的Pong和cart-pole 場景下具有較好的表現.并且Bastani 等[71]描述了如何手動檢查反例來驗證決策樹策略的正確性、穩定性和魯棒性,他們表示與傳統DNN策略相兼容的驗證方法相比,決策樹等價模型具有更大的擴展性.但是實驗所證明的策略屬性還不夠全面,這是該方法需要在未來進行拓展的方向.

4.1.2 形式化驗證技術

Zhu 等[73]考慮了如何將傳統軟件系統開發的形式化驗證技術用于強化學習的驗證問題.該技術不是通過檢查和更改神經網絡的結構來加強安全性,而是使用黑盒的方法擬合策略,繼而得到一個更簡單、解釋性更強的合成程序.通過反例和句法引導的歸納綜合過程來解決神經網絡驗證問題,并使用一個驗證過程來保證程序提出的狀態總是與原始規范和部署環境上下文的歸納不變量一致.這個不變量定義了一個歸納屬性,該屬性將轉換系統中可表達的所有可達(安全)和不可達(不安全)狀態分開.在此基礎之上開發了一個運行監控框架,該框架將合成的程序視為安全盾牌,每當建議的操作可能會導致系統進入不安全區域時,該框架會覆蓋此類操作.不安全區域需要根據相應的環境給出,這里根據時間的消耗、能夠屏蔽的不安全狀態的數量以及達到穩定狀態所需要的步數來對合成的確定性程序進行評價.

以上兩種方法都是模型本身出發,尋找策略網絡的替代模型進行可驗證的安全性分析,方法具有可行性.但是我們也需要考慮到在生成等價模型過程中造成的損失.此外可以根據替代模型的優勢,在驗證某一屬性時,進行模型的選擇.

4.2 其他方法

除了等價模型的方法外,眾多研究者還提出了其他的一些方法.碰撞避免是安全性研究的一個重要方面,如何有效的減少碰撞的發生,是強化學習技術應用在自動駕駛汽車、機器人導航等領域時需要解決的問題.Gallego 等[68]在智能體運行過程中對輸入狀態給定一個范圍計算Q值的安全下界,以在輸入空間由于可能的對手或噪音而導致的最壞情況下,識別并選取最佳操作,并據此提出了一種防御機制,所得到的策略(添加到訓練好的DQN網絡上)提高了對對手和傳感器噪聲的魯棒性,通過調整魯棒性范圍計算碰撞次數的變化以及回報值的變化來衡量模型的性能以及魯棒性范圍的選取.這種方法是事先設定一個安全邊界并進行實驗驗證,與從模型本身得出安全邊界有所不同.

同樣是在碰撞避免方面的研究,Behzadan 等[73]提出了一種基于深度強化學習的新框架,用于在最壞情況下對碰撞避免機制的行為進行基準測試,即處理一個經過訓練以使系統進入不安全狀態的最優對手智能體.他們通過比較兩種碰撞避免機制在應對故意碰撞嘗試時的可靠性,驗證了該框架的有效性.基于碰撞次數以及回報值進行評價,此外還對從開始到產生碰撞的時間進行了測量,時間越長表明這種機制有更強的防碰撞能力.

此外,為了以獨立于攻擊類型之外的方式評估智能體在測試階段面對對抗擾動的魯棒性與彈性,Behzadan 等[74]提出了衡量深度強化學習策略的彈性與魯棒性指標.首先定義對抗性后悔的概念,對抗性后悔是指未受干擾的主體在時間T 獲得的回報與受干擾的主體在時間T 獲得的回報的差值,那么彈性指的是造成最大對抗性后悔需要的最小的擾動狀態數量,魯棒性指的是給定最大擾動數量,可以達到的最大對抗性后悔.通過在Cart-Pole 環境中訓練的DQN、A2C 和PPO2 智能體上的實驗評估,DQN 在較少數量的擾動狀態數量下,引起了等量的對抗性后悔,表明其彈性較差,其次是PPO2策略,而A2C 策略的彈性是三者中最強的.對于最大為10 個擾動狀態的情況下,三者的魯棒性很接近,這是因為在彈性的計算中取得最大的對抗性后悔比較合適的擾動狀態數為7.5,超越這個數量,三者的效果都不是很好,對于固定的最大為5 個擾動狀態的情況下,DQN 的對抗后悔值最大,表明其魯棒性最差,而A2C 的對抗后悔值較小,表明魯棒性最強.

盡管深度強化學習在實驗室環境下取得了一個卓越的表現,在沒有良好的安全性保證的情況下,深度強化學習在工業領域的落地應用還是有待考慮.

5 應用平臺與安全性評估指標

在監督學習中,有如ImageNet 數據集、LeNet 網絡模型作為基準,方便比較學者們的研究成果.在深度強化學習領域與之對應的就是各式各樣的環境、算法的實現.本節我們列舉部分常用的環境、算法庫和攻擊方法庫,給出了已有論文中在不同模型以及實驗平臺下的攻擊防御安全性評估指標,攻防指標整理在表6 和表7 中.本節提供的實驗平臺算法是已有強化學習研究基礎平臺,也可作為之后研究的基準.

表6 深度強化學習的攻擊指標Table 6 Attack indicators of deep reinforcement learning

表7 深度強化學習的防御指標Table 7 Defense indicators of deep reinforcement learning

5.1 深度強化學習的環境基準

OpenAI Gym[75]提供了多種環境,比如Atari、棋盤游戲等,并且它還提供了統一的環境接口,方便研究人員定制自己想要的環境.Johnson 等[76]是一個基于流行游戲Minercraft 的人工智能實驗平臺,它提供了一系列具有連貫、復雜動態因素的3D環境以及豐富的目標任務.OpenSpiel[77]提供了從單智能體到多智能體的零和、合作等博弈場景以及一些分析學習動態和其他常見評估指標的工具.James 等[78]旨在為機器人學習提供一系列具有挑戰的學習環境,它具有100 項完全獨特的手工設計任務.MuJoCo[79]是一個物理模擬引擎,提供了一系列連續動作的模擬任務場景.目前常用的是OpenAI Gym 游戲平臺,已有的大部分實驗成果都是在該平臺的游戲場景中通過訓練、攻擊與防御等技術獲得的.

5.2 深度強化學習的算法實現基準

OpenAI Baseline[80]提供了幾種當下最流行的深度強化學習算法的實現,包括DQN、TRPG、PPO等.Rllab[81]提供了各種各樣的連續控制任務以及針對連續控制任務的深度強化學習算法基準.Dopamine[82]是用于快速實現強化學習算法原型制作的研究框架,它旨在滿足用戶對小型、易處理代碼庫的需求.

5.3 深度強化學習的攻擊基準

CleverHans[83]、Foolbox[84]都提供了制造對抗樣本和對抗訓練的標準化實現,可以用來量化和比較機器學習模型之間的魯棒性.但是這兩者只能用于對深度強化學習中的狀態進行攻擊,并不能涵蓋獎勵、動作等強化學習特有的環節.

5.4 深度強化學習的安全性評估基準

安全性評估指標通常用來評價攻擊或者防御方法的強弱,以評估模型的魯棒安全性.我們在表5中分別給出現有大部分論文中的攻擊和防御的安全性評估指標,分析其評價機制和評價目的.

表5 深度強化學習的安全性評估指標Table 5 Security evaluation indicators of deep reinforcement learning

6 未來研究方向

本文針對深度強化學習已提出的攻擊方法以及為抵御這些攻擊而提出的防御措施進行了全面調查.我們還提供了可用于實驗的環境、算法以及攻擊基準,同時對攻防指標進行整理總結.本節我們針對深度強化學習的攻防方法及安全性分析,探討其在未來的研究發展方向,從不同角度分析之后可發展的研究內容.

6.1 攻擊方法

已有的面向深度學習的攻擊方法中,迭代攻擊方法的性能相對較優,但是迭代方法計算代價太高,不能滿足DRL 系統實時預測的需求.針對DRL 的攻擊,未來可能從攻擊的實時性要求出發,研究基于生成式對抗網絡的對抗樣本生成方法,經過訓練后可生成大量高效的攻擊;從攻擊的實操角度出發,研究基于模仿學習構建替代模型的方式來縮短攻擊準備的時間,以解決DRL 系統的黑盒替代模型訓練代價太大的問題;對于訓練階段進行的攻擊,研究DRL 訓練過程的中毒攻擊技術,通過在DRL 系統中的狀態、獎勵值或是環境模型中嵌入后門觸發器實現后門攻擊;針對攻擊的遷移性,研究攻擊方法在不同算法或者不同模型結構上的遷移性,比較其攻擊成功率;針對DRL 的多智能體任務,研究多智能體的協同合作過程中存在的策略漏洞,從而進行策略攻擊;從攻擊的可解釋性出發,研究不同的攻擊方法對策略網絡中神經元的激活狀況的影響,尋找敏感神經元和神經通路來提高攻擊的效果.

此外,與傳統DNN 模型類似,一些大型的如金融交易領域的DRL 系統通常會被部署到云平臺上.這些領域的環境模型與訓練數據常常具有非常高的價值,攻擊者未來可以嘗試以訪問云平臺公用API的方式進行模型與訓練數據的竊取.

6.2 防御方法

深度學習主要通過修改模型輸入、目標函數以及網絡結構這三類方法來實現防御效果.但是,深度學習的大多數防御方法不能滿足DRL 的實際應用場景中,尤其是在多智能體的任務場景中.針對DRL 的防御,之后的研究可能從數據安全的角度出發,研究使用自編碼器對受擾動的獎勵、觀測信號進行數據預處理,提高DRL 系統面對信號噪聲的魯棒性;從模型魯棒的角度出發,構建基于模型集成的強化學習環境動態建模方法,通過模型集合來提高模型魯棒性,生成穩定有效的模型策略;從策略優化的角度出發,研究單個智能體甚至于多個智能體協同合作之間的策略漏洞,體現在模型策略網絡的訓練過程,以優化模型的策略.

6.3 安全性分析

DL 在攻防的分析上已經提出了許多指標,如對抗類別平均置信度、平均結構相似度、分類精確方差等.而對DRL 的攻擊與防御的實驗結果主要還是以簡單的平均回合獎勵、獎勵值的收斂曲線來進行評估.這樣單一、表面的指標不能夠充分說明DRL 模型的魯棒性,未來還需要提出更深層的評估標準,用以展現決策邊界、環境模型在防御前后的不同.

目前在DL 領域,已經有研究人員推出了一些模型測試評估平臺,這些平臺集成了目前對DL 模型的攻擊方法與防御方法,并以現有的模型安全指標對模型進行安全性分析.DRL 領域也可以結合本身的特點,搭建相應的攻防安全分析平臺,并添加DRL 特有的測試需求,如對系統的環境建模誤差進行分析、針對不同的系統生成標準的連續測試場景等.