999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

強化學習的可解釋方法分類研究

2024-07-31 00:00:00唐蕾牛園園王瑞杰行本貝王一婷
計算機應用研究 2024年6期

摘 要:強化學習能夠在動態復雜環境中實現自主學習,這使其在法律、醫學、金融等領域有著廣泛應用。但強化學習仍面臨著全局狀態空間不可觀測、對獎勵函數強依賴和因果關系不確定等諸多問題,導致其可解釋性弱,嚴重影響其在相關領域的推廣,會遭遇諸如難以判斷決策是否違反社會法律道德的要求,是否準確及值得信任等的限制。為了進一步了解強化學習可解釋性研究現狀,從可解釋模型、可解釋策略、環境交互、可視化等方面展開討論。基于此,對強化學習可解釋性研究現狀進行系統論述,對其可解釋方法進行歸類闡述,最后提出強化學習可解釋性的未來發展方向。

關鍵詞:強化學習;可解釋性;策略-值函數;環境交互;視覺解釋

中圖分類號:TP309 文獻標志碼:A文章編號:1001-3695(2024)06-001-1601-09

doi: 10.19734/j.issn.1001-3695.2023.09.0430

Classification study of interpretable methods for reinforcement learning

Abstract:Reinforcement learning can achieve autonomous learning in dynamic and complex environments, which makes it widely used in fields such as law, medicine, and finance. However, reinforcement learning still faces many problems such as the unobservable global state space, strong dependence on the reward function, and uncertain causality, which results in its weak interpretability, seriously affecting its promotion in related fields. It will encounter limitations such as difficulty in ju-dging whether the decision-making violates social legal and moral requirements, whether it is accurate and trustworthy, etc. In order to further understand the current status of interpretability research in reinforcement learning, this article discussed from the aspects of interpretable models, interpretable strategies, environment interaction and visualization, etc. Based on these, this article systematically discussed the research status of reinforcement learning interpretability, classified and explained its explainable methods, and finally proposed the future development direction of reinforcement learning interpretability.

Key words:reinforcement learning; interpretability; strategy-value functions; environment interaction; visual interpretation

0 引言

隨著科技的不斷發展,強化學習在金融、醫療、交通、圖像識別、語音識別等方面廣泛應用[1],大幅縮減了各領域的人工成本,提升了各行業的工作效率,也在一定程度上推動了經濟的發展。在交通、醫學、金融等領域,對算法可信性的要求會更加嚴格。強化學習算法通常需要基于大樣本的歷史數據集來對深度神經網絡進行迭代訓練,以獲取最優的策略模型,決策的準確性是衡量深度神經網絡性能的重要指標之一,而若決策過程所依據的思想違反法律和網絡安全的原則,則強化學習算法的決策結果在公眾面前將會缺乏可信度[2]。此外,算法訓練出的策略模型,對于多數訓練樣本都具有良好的表示能力,如若數據集與訓練樣本分布存在顯著差異,由于策略不具備顯著的因果關系,將會造成預測準確率大幅下降[3]。

隨著強化學習算法的應用日益廣泛,人們對其解釋能力的需求也在不斷提高。雖然強化學習(reinforcement learning,RL)也被廣泛應用于科研與工業領域,可解釋強化學習(explainable reinforcement learning,XRL)也受到更多關注,但強化學習一般通過優化方法來解決問題,很少真正關注任務的內在結構,且難以創建人類用戶可以理解的更高層次的表示。在強化學習框架中,智能體通過獎勵與環境迭代交互生成目標策略,可能導致狀態空間和動作空間過大,是強化學習解釋難以廣泛應用的原因[4]之一,因此,導致可解釋算法的設計復雜、計算成本高昂。此外,RL通常適用于模型訓練,而很少應用于對話式場景,造成用戶不能直接與之交互。總體而言,人工智能的可解釋性可分為事前可解釋性和事后可解釋性[5],事前解釋代表模型的可解釋性來自于模型自身的內部結構,如線性回歸模型、決策樹等,事后可解釋性即對已經訓練好的機器學習模型進行可解釋性開發。在人工智能領域的研究中,強化學習從最基礎的數學理論逐步演變,至今已然具有較強的邏輯性,且該特性與可解釋性的可開發程度密切相關,故進一步對強化學習模型進行可解釋性開發,使其更具有優越性。

目前國內外解釋黑盒模型的主要方法為基于注意力的方法[6~8]和基于顯著圖的方法[9~12],通過可視化圖像中的像素或者語義對象解釋任務[13],易于識別關鍵決策信息。但這兩種方法的解釋效果存在局限性,比如在Breakout游戲中高亮Atari智能體及其影響因素,并沒有具體解釋智能體決策過程。通過構造決策樹的方法[14]可以更具體地解釋智能體決策,使其具有模塊化、靈活性和可擴展性的特點,但該方法受特征表示的限制,并不能處理圖像、文本這些非結構化數據;在視覺解釋的基礎上考慮加入文本解釋,生成視覺和文本結合的多模態解釋[15,16],以便用戶更易于理解。除此之外,針對智能體行為及智能體與環境交互進行可解釋開發以便解釋智能體策略[17],可通過反事實解釋方法[18~23]對比模型變化,輔以因果可解釋模型回答因果關系[24],如“模型為什么會作出這樣的決策?”“去掉某種特征,模型決策變化的影響因素是什么?”,進而理解模型的決策過程。而目前對于可解釋方法質量的評估并沒有統一的標準,常用方法是將算法解釋的結果與標記的真實結果進行一致性比較,從而評估模型可解釋的性能,但并沒有定量的指標。強化學習解釋方法評估標準的制定實施任重而道遠。

隨著強化學習應用的日益廣泛,強化學習可解釋發展的必要性日益提升,已有部分學者對強化學習可解釋方法進行了一定的歸納總結。Puiutta等人[25]根據解釋信息提取時間(事前解釋、事后解釋)、解釋范圍(局部、全局)等特性將強化學習可解釋方法分為程序可解釋的強化學習、多任務強化學習的分層解釋、基于決策樹的強化學習可解釋、因果可解釋四個大類,Wells等人[26]將強化學習解釋方法主要分為視覺解釋、策略解釋、基于查詢的解釋、基于驗證的解釋四大類,這兩種分類方法的維度差異略大。Heuillet等人[27]提出的分類方法也與Puiutta等人[25]相似,將強化學習可解釋方法根據事前解釋與事后解釋兩個維度分類,分類粒度較粗。與前幾篇文獻相比,Qing等人[28]主要從模型解釋、獎勵解釋、狀態解釋、任務解釋四個方面系統地概述強化學習方法,涵蓋文獻較豐富、闡述更全面。Glanois等人[5]從可解釋的輸入、可解釋的模型和可解釋的決策三方面對強化學習可解釋方法進行分類。劉瀟等人[29]從環境解釋、任務解釋、策略解釋三個方面對強化學習可解釋方法進行了系統闡述。Milani等人[30]主要著眼于解釋強化學習智能體,提出了特征重要性、學習過程和馬爾可夫決策過程、策略解釋三個分類標準。此外,Guidotti等人[31]和Adadi等人[32]的綜述主要討論機器學習黑盒模型的可解釋方法,Arrieta等人[33]的綜述主要是對可解釋人工智能進行總結歸納與展望,但文獻[31~33]均并沒有專注于強化學習可解釋方法。本文則從基于強化學習框架的解釋、基于環境交互的解釋、基于視覺解釋三方面系統分類強化學習可解釋方法。該分類方法主要特點為從強化學習方法范圍遞增進行描述,首先對強化學習框架內部進行的可解釋開發進行描述、其次對智能體與環境交互層面的可解釋開發進行描述、最后專注于最外部的視覺解釋描述,層層遞進,系統闡述強化學習可解釋方法。

1 強化學習與可解釋的定義

1.1 強化學習的定義

強化學習中作出決策的一方稱為智能體(agent),智能體每作出一個動作,環境給予相應反饋,智能體在評估反饋后決定下一個動作。在強化學習中,回報是智能體作出動作的基礎,其目標是得到盡可能多的獎勵。在強化學習中主要關注狀態(state)、動作(action)、獎勵(reward)三個指標,其結構框架[34]如圖1所示。state代表智能體在所處環境下的狀態,對于不同狀態,智能體會生成不同的響應動作集合。reward則是一個實數,每當智能體采取動作之后會得到相應獎勵,若reward為正數,則代表智能體的行為是受到鼓勵的,反之則代表不希望此行為發生,以此進行迭代,使智能體的行為朝著擁有更高獎勵的方向逐步調整,最終智能體總體回報達到最優。

根據強化學習算法是否訓練環境動態模型,可將強化學習模型分為基于無模型(model-free)的框架和基于模型(model-based)的框架兩大類。從模型的表示形式方面,model-free進一步被分為基于值函數、基于策略函數、基于值-策略函數三種模型。在基于策略函數的強化學習模型中,主要注意點在于策略函數的最優化選擇。模型主要通過策略函數表示智能體決策過程,首先初始化策略函數,輸入t時刻智能體狀態St與策略函數π后,執行相應action。在訓練過程中,以最大化獎勵函數為目的對模型部分參數調整,直到獲得獎勵相對最優的策略函數。在基于值函數的強化學習模型中,通過值函數對模型進行評估,該類算法主要通過值函數Q去衡量動作空間A下每一個動作所獲得的reward,最終選擇Q函數數值最大的相應動作。基于策略-值函數的強化學習模型同時學習值函數和策略函數,以逼近最優模型。

基于model-based的強化學習算法涉及到復雜的決策和狀態空間,模型內部的運作往往難以理解,需要花費大量的時間和精力來設計和實現可解釋性的算法,造成基于model-based的強化學習可解釋性開發難度高的問題。此外現有研究[35]表明,基于model-free的強化學習算法可解釋開發的可行性高,且目前已有多種可解釋方法。故本文在基于強化學習框架開展相關研究時,主要從基于值函數、基于策略函數、基于值-策略函數三種強化學習算法的可解釋性開發進行總結敘述,即從強化學習內部結構方面進行可解釋性開發,此外,許多方法也基于強化學習框架無關方面進行可解釋性開發,即環境交互、視覺解釋方法,故本文同時對基于環境交互、視覺解釋的可解釋性開發方法進行總結,如表1所示。

1.2 可解釋的定義

關于模型的可解釋性開發的方法多種多樣[35],這表明可解釋性并非單一概念。Miller的非數學定義中[36],可解釋性指人們能夠理解決策原因的程度,模型的可解釋性越高,人們對某些決策或預測方法的理解程度則越高,可解釋方法不僅輸出預測值,同時也會輸出預測背后的原因,而本文中的解釋即人工智能的可解釋性,對模型進行可解釋性開發,可從度量模型的質量、提高用戶對模型的可信度以及接受度等方面入手,也可從解釋的影響因素,如環境、任務、智能體策略等方面入手提升模型性能。

解釋可分為事前解釋和事后解釋[5]。事前解釋一般指自解釋模型,即可被人類直接查看和理解的算法模型,模型自身就可說明決策相關含義、原因等,比較常見的自解釋模型包括決策樹、回歸模型(包括邏輯回歸)等。自解釋模型屬于內在解釋,例如線性模型的權值,或者由決策樹學習得到的樹結構。事后解釋通常指由其他軟件工具或人工方式生成的解釋,旨在描述、說明特定算法模型如何運作或如何得到特定輸出結果,對于具有黑箱屬性的深度學習算法,通常只能訴諸事后解釋。事后解釋還可分為局部解釋和全局解釋[37],局部解釋聚焦于理解算法模型的特定輸出結果,而全局解釋則側重于對算法模型整體的理解。

1.3 強化學習可解釋性

強化學習可解釋性是指對于強化學習算法的決策過程和行為結果進行解釋的能力。以下是幾個常用的強化學習可解釋性的性能指標:

a)可解釋性度量:這是一個定性指標,用于評估強化學習算法提供的解釋能力。可以考慮以下問題:算法是否能夠提供決策的解釋和原因?算法是否能夠解釋行為的結果和影響?算法是否能夠提供可視化或圖形化的解釋?

b)透明度:用于衡量算法內部決策過程的可理解程度。例如,算法是否使用可解釋的模型或規則來做決策?算法是否提供了決策的解釋或決策路徑的可追溯性?

c)可信度:是指算法的決策和行為是否能夠被用戶或利益相關者所接受和信任。算法是否提供了足夠的證據和解釋來支持其決策和行為結果的可信度?

d)公平性:是指算法是否在決策過程中考慮了不同群體的利益和權益。算法是否提供了公平性的解釋,并能夠解釋其決策對不同群體的影響?

e)解釋一致性:用于評估算法的解釋是否與其實際決策和行為一致。算法的解釋是否能夠正確反映其決策的原因和影響?

目前,強化學習可解釋性的性能指標還沒有統一的標準和度量方法,不同的應用場景和問題可能需要特定的指標和評估方法來評估強化學習的可解釋性。因此,選擇哪些衡量指標還需要結合具體應用需求和背景去進行考量。

2 基于強化學習框架的可解釋性

在研究強化學習可解釋性的方法時,學者們提出了多種不同的分類方法,以幫助理解強化學習算法的決策過程和行為結果,可以根據不同的角度和目標對可解釋性方法進行劃分。在本章中,將介紹一些常見的基于強化學習框架的可解釋性方法分類,分類方法如表2所示。

2.1 基于策略的強化學習可解釋性

智能體可解釋性的核心是策略解釋,策略解釋主要集中在智能體主體的動作推理和動作序列間的關聯性。對強化學習的可解釋性相關研究中,以策略解釋的方式來表達模型決策中的隱式邏輯,是目前強化學習研究的熱點問題。盡管策略并不能解釋單一操作,但仍可以幫助提供上下文,說明為何進行特定操作,并更廣義地解釋為何智能體要執行全部操作。

在可解釋性應用的發展歷程中,基于策略的強化學習算法在可解釋性方面得到了進展與提升。Fukuchi等人[38]提出基于指令的行為解釋(instruction-based behavior explanation,IBE)方法,智能體可通過人類專家提供的指令,自主獲得對自身行為進行解釋的相關表達式,加快智能體策略的學習速度,此外IBE還可使開發智能體以充分的時間粒度對其行為進行解釋,并將其擴展到智能體動態改變策略的場景中。Hayes等人[39]使用代碼對動作函數和狀態空間變量賦予標簽,通過馬爾可夫決策過程(Markov decision process,MDP)構建控制軟件本身的域和策略模型。Amir等人[40]提出一個策略總結概念性框架,由智能狀態提取、環境狀態表示和策略匯總界面組成,該框架通過策略展示,向用戶展示不同條件或場景下的預期結果及行為解釋,使用戶更好地理解所使用的系統。Lage等人[41]描述了不同的agent策略總結方法,使用反向強化學習和模仿學習方法進行策略模仿,以達到不斷學習智能體策略的目的。Bastani等人[42]提出使用決策樹代替策略模型解釋強化學習算法,以達到策略解釋的目的,在該過程中,使用Q-DAGGER (Q-function dataset aggregation)算法進行決策樹策略提取,有效解決了決策樹過于復雜的問題。同時,有些研究者以新的決策樹模型為基礎,以增強樹的表示能力,實現對行為的克隆。比如Frosst等人[43]提出利用已訓練好的神經網絡,建立更容易理解的軟決策樹模式,采用隨機梯度下降進行訓練,并利用神經網絡進行預測,從而使目標含有更豐富的信息。基于輸入示例,軟決策樹通過學習得到的濾波函數以實現決策的分層處理,最后將該類別中特定靜態概率分布值作為其輸出,與直接訓練數據的決策樹相比,該方法雖具有更好的泛化性,但性能仍差于用于提供軟目標訓練的神經網絡。Ding等人[44]的研究表明,基于軟決策樹(soft decision tree,SDT)和基于離散可微決策樹(discretized differentiable decision tree,DDT)算法均可獲得較好的分類效果,且均為可解釋策略,進一步改進基于樹的可解釋RL的性能和可解釋性后,將其引入到決策過程中,使決策過程具備更加豐富的表達能力的級聯決策樹(cascading decision tree,CDT)概念開始出現。

傳統的可解釋技術通常依賴于特征和結果變量兩者間的相關性,得出一些與事實相反甚至病態的解釋,且不能對“若更改模型的某個干預,則接下來模型所采取的決策或判斷會是什么?”這樣的反事實問題進行回答,而對該類反事實解釋問題的研究主要集中在圖像數據和表格數據[45~48]。強化學習也被應用于反事實解釋相關研究中,如Numeroso等人[49]使用MEG(molecular explanation generator)框架進行反事實解釋,為使其充分對模型進行解釋,需滿足生成的反事實實例與原始實例在預測模型中的輸出值的差值達到最大的條件,同時保持原始實例和反事實實例之間的相似性。因果關系通常是多場景穩定的,且與相關關系相比,其受到的干擾較小。因此,以因果關系為依據的決策更加穩定,這是希望強化學習可解釋性開發能夠學習到的關系類型。因果模型的決策系統(或智能體)具有可解釋性、高樣本效率和輸入分布變化健壯性等特點,為決策系統(或智能體)帶來諸多好處。Madumal等人[3]使用因果模型推導因果解釋行為的強化學習智能體主體,提出在強化學習訓練過程中學習結構因果模型,并對變量間的因果關系進行編碼,該模型隨后被用于因果模型的反事實分析,生成對行為的解釋。Madumal等人[50]介紹并評估了一個針對無模型強化學習體的遠端解釋模型,該模型可以對“為什么要”和“為什么不”這類問題進行解釋。目前在可解釋性深度學習方面的工作僅側重于由輸入特征解釋單個決策,不適合對系列決策進行解釋。為解決這一需求,Topin等人[51]引入抽象策略圖,即抽象狀態的馬爾可夫鏈,用于對由APG Gen方法生成的策略表示進行解釋。諸如S-RL Toolbox[52]允許從嵌入狀態空間(通過狀態表示學習)進行采樣,實現對模型內部狀態的可視解釋,并將其與相關的輸入觀察進行配對,以此提高可解釋性。目前在可解釋性方面的研究通常是對預測模型進行解釋,以幫助用戶理解和預測模型的輸出結果[53],但這些方法卻面臨著泛化性較差的問題。為解決上述問題,可使agent在新狀態下采取與原始狀態不同的動作,即反事實行為。Stein[54]對反事實動作與原始實例動作的Q函數數值差進行計算,并使用掩碼梯度下降法,使算法生成只包含智能體認為重要的子目標屬性的解釋,找到決策邊界后,使用基于規則的語言將其轉換為自然語言解釋,最終生成可解釋高級行為的反事實解釋。Frost等人[55]通過設計反事實軌跡,得到智能體的多樣軌跡分布,并通過分析智能體在這些軌跡分布變化下的表現,對強化學習智能體決策行為進行解釋。此外,實驗過程對下游任務的預測能力進行評估,最終實驗結果表明智能體行為策略的可解釋性與泛化性均有所提高。

2.2 基于值函數的強化學習可解釋性

使用值函數解釋智能體行為的目的是解釋為什么在特定的狀態下,一個行為比另一個行為更受歡迎,即智能體為什么選擇動作a1而不是a2,表示為Q(s,a1)>Q(s,a2)。Juozapaitis等人[56]提出了獎勵差異解釋(reward difference explanations,RDX),定義為向量Δ(s,a1,a2)=Δ(s,a1)-Δ(s,a2)的分解向量Δc(s,a1,a2)之間的差異,RDX的每個組成Δc(s,a1,a2)是智能體動作偏好的正向或反向原因,這表明了a1在獎勵類型c方面是否比a2有優勢。而當存在多種獎勵類型時,解釋智能體行為就更為困難,所以需要去確定一小部分重要原因,引入了最小充分解釋(minimal sufficient explanations,MSX),對偏好解釋進行排序并選擇能夠解釋重要部分的內容。在CV領域有基于像素擾動[57]的可解釋性方法,即Greydanus等人[9]利用顯著圖的方法進行解釋,而顯著部分的選取主要通過Q函數的數值大小進行判斷,在該模型的基礎上,擾動It的像素(It表示在t時刻的圖像),若對分類結果影響越大,則該像素點越重要。當對圖像的像素點的重要性全都計算后,相應地可對圖片分類結果進行解釋。在強化學習中,關注像素變化對策略輸出的影響,更多的則是關注動作產生的相對回報是否隨擾動而變化,用Q(s,a)表示,公式如式(1)所示,該方法可用于對Atari游戲中智能體的行為進行解釋。

在強化學習算法中,通常通過Q函數去估計狀態-動作對的預期獎勵,但僅使用Q函數會使模型忽略對許多知識的解釋,故Liu等人[58]開發了Q函數的模擬學習框架,在該框架中,引入線性U-Tree模型(linear model U-Tree,LMUT)近似表示預測過程,并通過存儲在LMUT樹結構中的知識計算特征的影響、分析提取的規則、突出超像素,達到解釋模型決策的目的。Mott等人[6]引入注意力機制提供強化學習可解釋性,在提高可解釋性的同時提高模型效果,其優勢在于注意力機制可挖掘出不同空間位置物體之間的關系,且長短時記憶網絡(LSTM)可提供時間序列信息,根據歷史信息提取出當前決策相關因素。Hüyük等人[59]提出一個可解釋策略學習模型(INTERPOLE),其主要計算決策動態和決策邊界,并用期望最大化算法(expectation maximization,EM)訓練模型。

2.3 基于策略-值函數的強化學習可解釋性

基于策略-值函數的強化學習可解釋性開發的主要研究目標是在環境觀測(圖像)中,對智能體決策(actor輸出)和值函數建模(critic輸出)的關鍵成分進行查找,進而為智能體動作提供可解釋性。文獻[9]使用的顯著性方法(式(2)),雖聚合了所有動作的變化,但并未關注具體動作效果。文獻[60]提出的顯著性計算在某種程度上則更聚焦于動作空間(式(2)),但卻忽略了對Q函數的影響是自身還是所有動作空間所造成。Gupta等人[61]則認為在Breakout游戲中需關注策略和狀態價值函數的變化,故提出式(1)(2)的組合方案。

如圖2[61]所示,在象棋實例中文獻[9,60]使用作用值函數Q(s,a)和狀態值函數V(s)的差異或策略向量的L2范數來計算顯著性映射,生成的顯著性地圖可體現與智能體所采取的移動無關部分,相比之下,SARFA生成的顯著性圖突出的是與移動相關的部分。對圖2分析可知,諸如白皇后這樣的棋子對勝負的影響均是顯著的。

在利用RL學習因果圖過程[62]中,獲取最終的DAG過程每添加一條邊,需檢查得到的圖是否為有向無環圖,并使用得分函數和懲罰項去設計reward函數,其中第一項是得分函數,可衡量給定有向圖和觀測數據的匹配度,第二和第三項作為懲罰項,通過選擇合適的懲罰權重,最大化reward等價于之前打分法[63]的形式,不斷更新DAG。而actor-critic強化學習算法則被用于優化目標。由于懲罰項系數的緣故,RL算法最終得到的為無環圖。強化學習圖神經網絡本身解釋性弱,但可以通過設計解釋器,確定出最有影響力的子圖對實例預測過程進行解釋,從而增強可解釋性,GNNExplainer[64]和PGExplainer[65]嘗試用連續放縮方法搜索最優子圖,SubgraphX[66]和Causal Screening[67]設計搜索條件,使用基于啟發式的搜索方法解決優化問題,但上述提到的方法存在子圖不能可視化信息傳遞路徑、搜索標準通用性差的缺點。為解決上述問題,Shan等人[68]受到經典組合優化求解器的啟發,使用強化學習去解釋GNN的預測,提出RG-Explainer框架,生成解釋性更強的子圖去解釋實例的預測過程。除此之外,Fukuchi等人[38]提出基于分層強化學習,使用A2C優化策略法,即通過k個技能獲取階段來學習最終的層次策略。在兩階段的學習中,將每個階段分為基礎技能習得階段和新技能習得階段。在每個階段中,所有策略均使用有利的A2C進行訓練。

3 基于環境交互的強化學習可解釋性

環境可解釋性是指可對環境轉移態勢的內部機理進行解釋。在強化學習中,環境充滿一定的黑盒性。環境可解釋性的構建,有利于理解環境態勢變化對智能體決策的影響,可更準確地建立模型和環境態勢數據的關聯性,實現有效的智能體建模。另外,在具備可解釋的環境中,人類更容易判斷智能體模型是否能學習到真實規律,也可采取相關措施提升模型的泛化能力,避免因環境的細微變化導致智能體決策出現的較大偏差。

逆向強化學習算法則是為有效規避行為克隆單一地模仿專家行為,而不去推理行為產生的原因,其核心是尋找環境規律,利用對模型的強化學習過程進行逆向計算,進而對環境中的知識進行擬合。在XRL中,有些工作借鑒了逆強化學習的思想。Sequeira等人[69]提出一個強化學習可解釋框架,其結構如圖3[70]所示,該框架對智能體與環境交互過程進行分析(交互過程中,智能體負責統計相關信息,根據收集到的數據元素,對元素進行篩選,得到有解釋作用的元素,以視覺形式展示給用戶),以提取有助于解釋智能體行為的元素。為利用環境對算法進行可解釋性開發,淵亭科技提出DataExa-Nash[70]方法,即面向決策智能應用場景的強化學習可解釋性方法。DataExa-Nash集成多種可解釋性算法(模仿學習類型、注意力類型、基于分析統計類型),因此可利用其本身具有的可解釋性算法解釋智能體行為、對環境中全局態勢和單個觀測態勢解釋,也可通過觀察態勢、行為及獎勵對結果的影響,對決策作出可解釋性分析。Van Der Waa等人[71]提出一種可以解釋智能體對動作偏好的方法,其主要思想是學習一種特殊的動作價值網絡,通過嵌入式自我預測模型并對比每個動作的未來屬性,預測解釋對應的動作偏好。

此外,通過學習解耦的潛在表征,捕獲語義上有意義的特征,同樣可提高可解釋性[72],解耦[73]就是將原始數據空間中糾纏著的數據變化,變換到一個好的表征空間中,在這個空間中,不同要素的變化是可以彼此分離的,并且多基于變分自編碼模型(variational auto-encoders,VAE)[74]學習。故解耦表征可解析環境特征,加快強化學習在多種操作任務上的學習速度,并提高其泛化能力,通過生成可解釋的潛在策略,并使潛在目標直接與環境的可控特征保持一致,從而達到更好的效果。Caselles-Dupré等人[75]近期提出的基于對稱性的解耦表示學習算法可以得到泛化性更強的特征表示,即對初始環境以及將初始環境進行對稱性轉換后的新環境進行交互后計算得到最終特征表示。目前的方法籠統地認為統計相關性即因果關系,該觀點在實際應用過程中可能導致模型出現錯誤決策[76]。Yang等人[77]認為圖像解耦后的潛在變量在生成原圖像的過程中存在因果關系,提出基于VAE的框架CasualVAE,該模型中包含一個因果層,可挖掘數據間的因果關系,進而形成因果矩陣,最終形成因果圖,使環境中數據元素的因果關系達到語義上的可解釋性,如文獻[62]根據樣本數據進行迭代生成數據因果圖,如圖4所示。圖4(a)為樣本數據經過n輪迭代得到的數據因果圖,圖4(b)為真實數據因果圖,通過不斷迭代,生成的樣本數據因果圖逐漸接近真實數據因果圖,能更好地挖掘出數據間的潛在關系以及本質關系,展現出良好的因果解釋效果。當前解釋方法多為將屬性分數分配給輸入圖像中的像素區域,表明圖片特定區域對模型決策的重要性,為了獲得含有更多因果關系的顯著圖,Klein等人[78]提出學習解耦的潛在特征去捕捉環境中語義意義上的有用特征的框架,其可以可視化解耦地表示,進而使專家能夠利用自己的知識研究決策因果關系,該框架同時可用于下游任務預測。

4 基于視覺解釋的強化學習可解釋性

使模型可解釋的一種方法就是視覺注意力解釋[15],以圖片為輸入的任務中,通過觀察任務中的側重部分,使用顯著圖法或注意力機制[79]的掩碼機制,得到掩碼后與原圖片疊加實現相關區域的高亮,進而實現視覺解釋。在大多數情況下,顯著圖或熱力圖應用于圖像領域,可突出顯示智能體顯著區域。顯著圖的一個突出優勢是其可生成易于人類(甚至是非專家)理解的元素。當然,顯著圖的解釋難度很大程度上取決于用于計算該圖的顯著性方法及其他參數,如配色方案或突出顯示技術,其缺點是對不同的輸入變化非常敏感,并且此類可視化解釋方案不可直接進行調試。Annasamy等人[80]提出用于Q學習的可解釋神經網絡架構,利用鍵值存儲器、注意力和可重構嵌入,進而為模型的行為提供全面解釋。顯著圖通過突出顯示智能體行為的強相關狀態特性,重點關注智能體如何學習和執行策略,以達到解釋智能體行為的目的。

現有基于擾動的顯著性方法[81]雖突出顯示了輸入的區域,但這些區域與智能體所采取的動作并無實際關聯。Kim等人[81]提出的注意力瓶頸架構將視覺注意力與信息瓶頸融合[82],使視覺注意力可以識別模型正在使用輸入的內容,信息瓶頸則可以使模型只關注輸入過程中的重要部分。這不僅可提供稀疏和可解釋的注意力圖(例如只關注場景中的特定車輛),而且可在不顯著影響模型精度的情況下增加其透明性。Greydanus等人[9]引入新的基于擾動的顯著性計算方法,可使在OpenAI Gym環境下,Atari 2600游戲的RL智能體生成清晰且易于解釋的顯著圖,其主要思想是對所考慮的圖像進行擾動,在不添加新信息的情況下去除特定像素上的信息(通過對同一圖像的高斯模糊生成插值),該方法對強化學習智能體的解釋集中于生成顯著圖,并輸入擾動函數,通過觀察策略變化幅度去解釋智能體行為,這種方式可以解釋一些參與智能體決策的區域,但它不能解釋某些類型的行為,比如解釋框架中組成成分缺失智能體作出的決策。Mott等人[6]引入注意力機制,使用空間注意力去挖掘在圖像狀態空間中對當前決策重要的因素,通過挖掘不同空間位置物體之間的相互關系,同時對得到的注意力權重在圖像中進行可視化,發現智能體的關注區域,以此解釋智能體策略。該方法產生的注意力圖中,智能體更關注智能體遵循的路徑以及未來可能的長期路徑,而Greydanus等人的方法更注重策略的顯著性,與該方法相比,注意力圖可以告知智能體其策略的信息而進行更全面的分析。Gupta等人[61]提出的SARFA(specific and relevant feature attribution)方法,通過平衡特異性和相關性兩個方面以捕獲不同的顯著性需求,從而生成更有針對性的顯著性圖。第一種是擾動要解釋的智能體行為,觀察擾動對智能體動作的影響,第二種則是降低一些與行為弱相關特征的影響程度。基于顯著圖和注意力圖的特性,Shi等人[83]同時使用顯著圖和注意力圖解決兩個解釋性要素:智能體創建策略時的重點關注區域(顯著圖)和智能體在時間步上對過去重點關注區域的移動(注意力圖)。不論是顯著圖還是注意力圖的生成,都是掩碼生成后與原圖片的重疊效果,而如何衡量各個算法生成的視覺釋效果亟待解決。在該實驗中,評價掩碼質量的定量指標為特征重疊率(feature overlapping rate,FOR)與背景消除率(background elimination rate,BER)。FOR即真實掩碼與學習到的掩碼區域之間的重疊率,BER即掩碼消除的背景區域和整個背景區域的比率。對于特定的狀態s,掩碼度量FOR(s)和BER(s)的計算如式(3)所示。

其中:∩是相交運算符;Se,f、St,f、St,b分別是提取到的特征區域、真實的特征區域、真實的背景區域。FOR表示agent從狀態中提取有用的信息,BER表示掩碼如何在狀態中消除與任務無關的信息。FOR和BER度量從像素分類角度等效于真陽性率(TPR)和真陰性率(TNR),而使用FOR和BER度量評估RL領域中生成掩碼的質量,其含義更直觀且非專家也可以理解。

基于顯著圖的視覺解釋實例如圖5所示,已學習好的智能體,可視化展示智能體具體根據輸入狀態中的哪些特征作出相應決定,即能夠對智能體采取某個行動的原因進行解釋,圖5中藍色熒光對影響智能體當前決策的一些重要特征(對于圖片而言就是像素點)進行標記(參見電子版)。觀察圖5的Breakout游戲[9],高亮區域代表影響智能體當前決策的一些重要因素,即小球的位置和左上角的一些殘缺磚塊位置,通過區域熱力圖并結合游戲知識,用戶可判斷出,小球在運動時需關注底部板,完成彈射,且傾向于上方較空缺位置,方便不斷與頂部板碰撞,達到解釋智能體行為的目的。

現有基于顯著圖的可解釋RL方法包括Jacobian顯著圖和基于擾動的顯著圖,然而,顯著性方法并不適用于所有場景,均局限于視覺輸入問題,如文獻[84]所指出的,顯著圖要遵守一定數量的規則,例如實現不變性、輸入不變性以及可靠性。Wang等人[85]提出適用于視覺輸入和數字輸入的基于屬性的顯著性方法,該方法對關于每個輸入狀態所貢獻的策略進行解釋,其主要目標是了解RL智能體在決策時所關注的信息。Pan等人[86]提出可預測未來視覺輸入特征表示的駕駛策略學習框架,該模型不僅可推斷未來事件,還可推斷語義,這為政策決策提供了可視化解釋。除此之外,也可以通過反事實方法形成顯著圖,從而進行模型決策的可視化解釋。Atrey等人[87]提出以反事實推斷為基礎,測試從顯著圖中產生的假設,并對其與RL環境在語義上的一致性進行評估,但由于顯著圖預測覆蓋了每一個可能的原因,所以需對輸入的差異部分著重強調。視覺輸入環境中的反事實工作依賴于其他技術,如Chang等人[22]提出FIDO算法,該算法需確定出在生成模型輸出值過程中,哪些區域會最大程度地改變圖像的預測類別,從而為圖像生成反事實,使用現有生成模型進行填充生成顯著圖。Goyal等人[88]對圖像進行反事實的視覺解釋,找出原始圖像I(c)和干擾圖像I′(c′)之間的最小區域交換數,去創建反事實的解釋,但這類區域互換的方式可能會生成奇怪的反事實顯著圖,造成解釋不夠明確的問題。對此,可以利用反事實解釋智能體決策,Olson等人[89]引入了產生反事實狀態解釋的解釋生成模型,首先生成反事實狀態s′,利用原始狀態s與反事實狀態s′的絕對差值,生成反事實mask并與原始狀態s結合生成顯著圖,去獲取深層RL智能體的決策。

5 結束語

5.1 強化學習可解釋現狀與展望

通過對上述方法的歸納,不難發現目前強化學習可解釋方法在各個方面都有了一定的進展,但由于強化學習可解釋方法通常關注局部解釋,且解釋方法多為語言解釋、視覺解釋、模型解釋混合使用去解釋局部算法,但仍未達到直觀的解釋效果,需要借助開發者提升可解釋性,故強化學習方法的透明度仍較差。此外,這些解釋方法可以使用戶或者操作人員在強化學習算法應用于實際問題時,充分理解算法過程以便在程序異常時作出實際且關鍵的決策。另一方面,在眾多解釋方法中,雖然都在一定程度上說明了可解釋程度與范圍,但是如何評估各個方法之間的優劣,尚無定論,目前主要依賴透明度、可解釋范圍等定性指標進行評估,但這些指標并不能明確表示可解釋方法之間的性能差異,也無法證明解釋方法在實際問題應用中的有效性,更需要像累計回報(cumulative reward,CR)、最大回報(maximum reward,MR)等強化學習定量指標去衡量算法優劣。

目前國內外可解釋強化學習方法亟待完善,該部分主要針對強化學習可解釋開發的挑戰討論一些可能的改進方法。首先,從啟發式解釋方面出發,引入解釋學習的方法,例如用戶通過問答系統、對話代理等方式,提出問題、請求解釋,使用戶能夠通過與算法進行互動和對話來學習算法的決策過程,以加強用戶對強化學習內部結構的理解。此外,現有的對智能體行為的解釋大多只解釋智能體間行為的表象原因,即對現有結果的原因分析,但Yau等人[90]發現,如果解釋強化學習智能體所隱含的預期結果,會得到更好的解釋效果,且具有在多個強化學習問題上的有效性。

從完善評估解釋方法的指標方面,可以通過衡量解釋內容的完整性,包括涵蓋的決策因素、關鍵特征、算法內部狀態等方面,通過計算解釋中所包含的信息比例或涵蓋的關鍵特征數量評估解釋方法性能。同理,解釋方法的可靠性與一致性意味著指標的結果應是準確穩定和可重復的,不受隨機性和偶然因素的影響,量化解釋方法的可靠性與一致性可以通過重復實驗、交叉驗證等方法確定解釋結果的準確性。除此之外,若期望可解釋方法的評估指標逐漸統一,在建立算法實驗時,應自覺根據基線及理論知識建立算法評估標準,盡可能使用與基線方法較為一致的評估指標,在解釋方法評估指標的完善與統一中逐漸完善評估標準。

5.2 總結與討論

前期基于決策樹和軟決策等對強化學習的可解釋進行開發及解釋。在深度學習風靡前期,決策樹作為準確性和可解釋性的標桿,不僅可給出輸入數據x的預測結果,還能一同輸出預測過程的中間決策部分。而在圖像分類數據集上,決策樹的準確率要比神經網絡落后40%左右。因此亟需一個精確率高、可解釋性強的模型。但傳統的可解釋技術更多的依賴于特征和結果變量之間的相關性,造成從強化學習自身出發進行可解釋性開發,即在因果模型的反事實分析基礎上,因果結構模型被用于生成行為的解釋。除了從模型本身開發去提高算法的可解釋性外,也可從外部環境入手,通過逆強化學習等方法,發現環境規律或者使用解耦表示解析環境特征數據,發現環境相關性。無論哪種可解釋方法,擁有可視化效果可使算法解釋性更顯著,通常使用擾動顯著圖或注意力機制掩碼實現可視化,可展示給“觀眾”達到可解釋效果。

由于大多數XAI方法均是為有監督學習量身定制的,所以想要對僅應用于RL算法的方法進行概述,必須首要解決一些關鍵問題。自解釋模型的可解釋性發展因RL模型的復雜性而受到諸多限制,而事后可解釋模型較內在可解釋模型要更容易實現,在發展事后可解釋方法時,致力于追求模型無關的方法,以達到高泛化性目的,但由于其可與標準RL方法結合使用,故不必修改學習機制本身。當可解釋性與模型底層分離時,可解釋的發展才能更加開放,因此當前學者研究的重點在于與模型無關的可解釋性方法。與模型無關的可解釋性方法具有自身底層模塊化的模型可與解釋方法易分割的優點,這種可解釋方法的獨立性使其能夠與不同類型的模型相結合,并適應不同領域和應用的需求,從而更便于進行擴展。

此外,在發展模型的可解釋性時,重點應該在于分析模型而非分析數據。可解釋挖掘關注的并非數據本身,而是數據中蘊涵的知識,故原始數據本身的作用并不大,模型的可解釋就是一種從數據中提取知識的好方法。在未來發展中,人工智能模型可能具備自主決策的能力,或與人類用戶合作進行決策,因此對模型決策的解釋及證明變得至關重要。為實現這一目標,需要將重點放在跨學科工作上,例如將人工智能、機器學習、心理學和人機交互等領域相結合,開發出以人為中心的模型,實現高效人機交互合作。

參考文獻:

[1]趙廷玉,趙曉永,王磊,等. 可解釋人工智能研究綜述 [J]. 計算機工程與應用,2023,59(14): 1-14. (Zhao Tingyu,Zhao Xiaoyong,Wang Lei,et al. A review of explainable artificial intelligence research [J]. Computer Engineering and Applications,2023,59(14): 1-14.)

[2]Buolamwini J,Gebru T. Gender shades: intersectional accuracy disparities in commercial gender classification [C]// Proc of Conference on Fairness,Accountability and Transparency. 2018: 77-91.

[3]Madumal P,Miller T,Sonenberg L,et al. Explainable reinforcement learning through a causal lens [C]// Proc of AAAI Conference on Artificial Intelligence. 2020: 2493-2500.

[4]Molnar C. 可解釋機器學習: 黑盒模型可解釋性理解指南 [M]. 朱明超,譯. 北京:電子工業出版社,2021. (Molnar C. Interpretable machine learning: a guide to understanding the interpretability of black box models [M]. Zhu Mingchao,Trans. Beijing:Electronic Industry Press,2021.)

[5]Glanois C,Weng P,Zimmer M,et al. A survey on interpretable reinforcement learning [EB/OL].(2021).https://arxiv.org/abs/2112.13112.pdf.

[6]Mott A,Zoran D,Chrzanowski M,et al. Towards interpretable reinforcement learning using attention augmented agents [C]//Advances in Neural Information Processing Systems. 2019.

[7]Bhattacharya M,Jain S,Prasanna P. Radio transformer: a cascaded global-focal transformer for visual attention-guided disease classification [C]// Proc of European Conference on Computer Vision. Cham: Springer,2022: 679-698.

[8]Fanda L,Cid Y D,Matusz P J,et al. To pay or not to pay attention: classifying and interpreting visual selective attention frequency features [C]// Proc of the 3rd International Workshop on Explainable and Transparent AI and Multi-Agent Systems. Cham:Springer,2021: 3-17.

[9]Greydanus S,Koul A,Dodge J,et al. Visualizing and understanding Atari agents [C]//Proc of International Conference on Machine Learning. 2018: 1792-1801.

[10]Zahavy T,Ben-Zrihem N,Mannor S. Graying the black box: understanding DQNs [C]//Proc of International Conference on Machine Learning. 2016: 1899-1908.

[11]Peng Yitao,Yang Longzhen,Liu Yihang,et al. MDM: visual explanations for neural networks via multiple dynamic mask [EB/OL]. (2022-07-17). https://arxiv.org/abs/2207.08046.pdf.

[12]Srinivas S,Fleuret F. Full-gradient representation for neural network visualization [C]// Advances in Neural Information Processing Systems. 2019.

[13]張一飛,孟春運,蔣洲,等. 可解釋的視覺問答研究進展 [J]. 計算機應用研究,2024,41(1):10-20. (Zhang Yifei,Meng Chunyun,Jiang Zhou,et al. Research progress on interpretable visual question answering [J]. Application Research of Computers,2024,41(1):10-20.)

[14]Zhu Yuanyang,Xiao Yin,Li Ruyu,et al. Extracting decision tree from trained deep reinforcement learning in traffic signal control [C]// Proc of International Conference on Cyber-Physical Social Intelligence. 2021: 1-7.

[15]Park D H,Hendricks L A,Akata Z,et al. Multimodal explanations: justifying decisions and pointing to the evidence [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 8779-8788.

[16]鄒蕓竹,杜圣東,滕飛,等. 一種基于多模態深度特征融合的視覺問答模型 [J]. 計算機科學,2023,50(2): 123-129. (Zou Yunzhu,Du Shengdong,Teng Fei,et al. A visual Q&A model based on multimodal deep feature fusion [J]. Computer Science,2023,50(2): 123-129.)

[17]Ribeiro M T,Singh S,Guestrin C. “Why should I trust you?”Explaining the predictions of any classifier [C]// Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM Press,2016: 1135-1144.

[18]Grgic-Hlaca N,Redmiles E M,Gummadi K P,et al. Human perceptions of fairness in algorithmic decision making: a case study of criminal risk prediction [C]// Proc of World Wide Web Conference. 2018: 903-912.

[19]Wachter S,Mittelstadt B,Russell C. Counterfactual explanations without opening the black box: automated decisions and the GDPR [J]. Harvard Journal of Law & Technology,2017,31: 841-887.

[20]Karimi A H,Barthe G,Balle B,et al. Model-agnostic counterfactual explanations for consequential decisions [C]//Proc of International Conference on Artificial Intelligence and Statistics. 2020: 895-905.

[21]朱霄,邵心玥,張巖,等. 面向數據庫配置優化的反事實解釋方法 [J/OL]. 軟件學報. (2023-10-19) [2023-11-16]. https://doi.org/10.13328/j.cnki.jo s.006977. (Zhu Xiao,Shao Xinyue,Zhang Yan,et al. Counterfactual explanation method for database configuration optimization [J/OL]. Journal of Software. (2023-10-19) [2023-11-16]. https://doi.org/10.13328/j.cn ki.jos.006977.)

[22]Chang C K,Creager E,Goldenberg A,et al. Explaining image classifiers by counterfactual generation [EB/OL]. (2018).https://arxiv. org/abs/1807. 08024. pdf.

[23]Karimi A H,Schlkopf B,Valera I. Algorithmic recourse: from counterfactual explanations to interventions [C]// Proc of ACM Confe-rence on Fairness,Accountability and Transparency. New York: ACM Press,2021: 353-362.

[24]Moraffah R,Karami M,Guo R,et al. Causal interpretability for machine learning-problems,methods and evaluation [J]. ACM SIGKDD Explorations Newsletter,2020,22(1): 18-33.

[25]Puiutta E,Veith E M S P. Explainable reinforcement learning: a survey [C]//Proc of International Cross Domain Conference for Machine Learning and Knowledge Extraction. Cham: Springer,2020: 77-95.

[26]Wells L,Bednarz T. Explainable AI and reinforcement learning—a systematic review of current approaches and trends [J]. Frontiers in Artificial Intelligence,2021,2021(4): article ID 550030.

[27]Heuillet A,Couthouis F,Díaz-Rodríguez N. Explainability in deep reinforcement learning [J]. Knowledge-Based Systems,2021,2021(214): article ID 106685.

[28]Qing Yunpeng,Liu Shunyu,Song Jie,et al. A survey on explainable reinforcement learning: concepts,algorithms,challenges [EB/OL]. (2022).https://arxiv.org/abs/2211.06665.pdf.

[29]劉瀟,劉書洋,莊韞愷,等. 強化學習可解釋性基礎問題探索和方法綜述 [J]. 軟件學報,2023,34(5): 2300-2316. (Liu Xiao,Liu Shuyang,Zhuang Yunkai,et al. Exploration and methodological survey of fundamental issues of interpretability of reinforcement learning [J]. Journal of Software,2023,34(5): 2300-2316.)

[30]Milani S,Topin N,Veloso M,et al. Explainable reinforcement lear-ning: a survey and comparative review [J]. ACM Computing Surveys,2024,56(7): article No.168.

[31]Guidotti R,Monreale A,Ruggieri S,et al. A survey of methods for explaining black box models [J]. ACM Computing Surveys,2018,51(5): 1-42.

[32]Adadi A,Berrada M. Peeking inside the black-box: a survey on explainable artificial intelligence (XAI) [J]. IEEE Access,2018,6: 52138-52160.

[33]Arrieta A B,Díaz-Rodríguez N,Ser J D,et al. Explainable artificial intelligence (XAI): concepts,taxonomies,opportunities and challenges toward responsible AI [J]. Information Fusion,2020,58: 82-115.

[34]Sun Yuewen,Zhang Kun,Sun Changyin. Model-based transfer reinforcement learning based on graphical model representations [J]. IEEE Trans on Neural Networks and Learning Systems,2021,34(2): 1035-1048.

[35]Miller T. Explanation in artificial intelligence: insights from the social sciences [J]. Artificial Intelligence,2019,267: 1-38.

[36]Holzinger A,Langs G,Denk H,et al. Causability and explainability of artificial intelligence in medicine [J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery,2019,9(4): e1312.

[37]Mcdermid J A,Jia Yan,Porter Z,et al. Artificial intelligence explaina-bility: the technical and ethical dimensions [J]. Philosophical Trans of the Royal Society A,2021,379(2207): article ID 20200363.

[38]Fukuchi Y,Osawa M,Yamakawa H,et al. Autonomous self-explanation of behavior for interactive reinforcement learning agents [C]// Proc of the 5th International Conference on Human Agent Interaction.New York: ACM Press,2017: 97-101.

[39]Hayes B,Shah J A. Improving robot controller transparency through autonomous policy explanation [C]// Proc of ACM/IEEE International Conference on Human-Robot Interaction. 2017: 303-312.

[40]Amir O,Doshi-Velez F,Sarne D. Summarizing agent strategies [J]. Autonomous Agents and Multi-Agent Systems,2019,33: 628-644.

[41]Lage I,Lifschitz D,Doshi-Velez F,et al. Toward robust policy summarization [J]. Autonomous Agents and Multi-Agent Systems,2019,2019: 2081-2083.

[42]Bastani O,Pu Yewen,Solar-Lezama A.Verifiable reinforcement lear-ning via policy extraction [C]// Advances in Neural Information Processing Systems. 2018.

[43]Frosst N,Hinton G E. Distilling a neural network into a soft decision tree [EB/OL]. (2017).https://arxiv. org/abs/1711. 09784. pdf.

[44]Ding Zihan,Hernandez-Leal P,Ding G W,et al. CDT: cascading decision trees for explainable reinforcement learning [EB/OL].(2020). https://arxiv. org/abs/1711. 09784. pdf.

[45]Vermeire T,Brughmans D,Goethals S,et al. Explainable image classification with evidence counterfactual [J]. Pattern Analysis and Applications,2022,25(2): 315-335.

[46]Mothilal R K,Sharma A,Tan Chenhao. Explaining machine learning classifiers through diverse counterfactual explanations [C]// Proc of Conference on Fairness,Accountability and Transparency. 2020: 607-617.

[47]Dhurandhar A,Chen Pinyu,Luss R,et al. Explanations based on the missing: towards contrastive explanations with pertinent negatives [J]. Advances in Neural Information Processing Systems,2018,31: 592-603.

[48]Cheng Furui,Ming Yao,Qu Huamin. DECE: decision explorer with counterfactual explanations for machine learning models [J]. IEEE Trans on Visualization and Computer Graphics,2020,27(2): 1438-1447.

[49]Numeroso D,Bacciu D. Explaining deep graph networks with molecular counterfactuals [C]// Advances in Neural Information Processing Systems,Workshop on Machine Learning for Molecules. 2020.

[50]Madumal P,Miller T,Sonenberg L,et al. Distal explanations for explainable reinforcement learning agents [C]// Proc of AAAI Confe-rence on Artificial Intelligence. 2020: 13724-13725.

[51]Topin N,Veloso M. Generation of policy-level explanations for reinforcement learning [C]// Proc of the 33rd AAAI Conference on Artificial Intelligence. 2019: 2514-2521.

[52]Garnelo M,Shanahan M. Reconciling deep learning with symbolic artificial intelligence: representing objects and relations [J]. Current Opinion in Behavioral Sciences,2019,29: 17-23.

[53]Hoffman R R,Mueller S T,Klein G,et al. Metrics for explainable AI: challenges and prospects [EB/OL]. (2018).https://arxiv.org/abs/1812.04608.pdf.

[54]Stein G.Generating high-quality explanations for navigation in partially-revealed environments [J]. Advances in Neural Information Processing Systems,2021,34: 17493-17506.

[55]Frost J,Watkins O,Weiner E,et al. Explaining reinforcement learning policies through counterfactual trajectories [EB/OL].(2022). https://arxiv. org/abs/2201. 12462. pdf.

[56]Juozapaitis Z,Koul A,Fern A,et al. Explainable reinforcement lear-ning via reward decomposition [C]//Proc of IJCAI/ECAI Workshop on Explainable Artificial Intelligence. 2019.

[57]Fong R C,Vedaldi A. Interpretable explanations of black boxes by meaningful perturbation [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2017: 3429-3437.

[58]Liu Guiliang,Schulte O,Zhu Wang,et al. Toward interpretable deep reinforcement learning with linear model U-trees [C]// Proc of European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin: Springer,2019: 414-429.

[59]Hüyük A,Jarrett D,Tekin C,et al. Explaining by imitating: understanding decisions by interpretable policy learning [C]// Proc of International Conference on Learning Representations. 2021.

[60]Iyer R,Li Yuezhang,Li Huao,et al. Transparency and explanation in deep reinforcement learning neural networks [C]//Proc of AAAI/ACM Conference on AI,Ethics,and Society. 2018: 144-150.

[61]Gupta P,Puri N,Verma S,et al. Explain your move: understanding agent actions using specific and relevant feature attribution [C]// Proc of International Conference on Learning Representations. 2020.

[62]Zhu Shengyu,Ng I,Chen Zhitang. Causal discovery with reinforcement learning [EB/OL]. (2019).https://arxiv. org/abs/1906. 04477. pdf.

[63]Peters J,Mooij J,Janzing D,et al. Causal discovery with continuous additive noise models [J]. The Journal of Machine Learning Research,2014,15(1): 2009-2053.

[64]Ying R,Bourgeois D,You Jiaxuan,et al. GNNExplainer: generating explanations for graph neural networks [J]. Advances in Neural Information Processing Systems,2019,32:9244-9255.

[65]Luo Dongsheng,Cheng Wei,Xu Dongkuan,et al. Parameterized explainer for graph neural network [J]. Advances in Neural Information Processing Systems,2020,33: 19620-19631.

[66]Yuan Hao,Yu Haiyang,Wang Jie,et al. On explainability of graph neural networks via subgraph explorations [C]// Proc of International Conference on Machine Learning. 2021: 12241-12252.

[67]Wang Xiang,Wu Yingxin,Zhang An,et al. Causal screening to interpret graph neural networks [EB/OL]. (2021). https://arxiv.org/abs/2112.15089.

[68]Shan Caihua,Shen Yifei,Zhang Yao,et al. Reinforcement learning enhanced explainer for graph neural networks [J]. Advances in Neural Information Processing Systems,2021,34:22523-22533.

[69]Sequeira P,Gervasio M. Interestingness elements for explainable reinforcement learning: understanding agents’ capabilities and limitations [J]. Artificial Intelligence,2019,288: 103367.

[70]構建可信的智能決策體系: 淵亭科技多智能體強化學習可解釋性探索 [EB/OL]. (2022-11-01) [2023-11-20]. http://www. 81it. com/2022/1101/13848. html. (Building trusted intelligent decision systems: an explainable exploration of multi-intelligent body reinforcement learning in yuanting technology [EB/OL]. (2022-11-01) [2023-11-20]. http://www. 81it. com/2022/1101/13848. html.)

[71]Van Der Waa J,Van Diggelen J,Van Den Bosch K,et al. Contrastive explanations for reinforcement learning in terms of expected consequences [C]// Proc of IJCAI Explainable Artificial Intelligence Workshop. 2018.

[72]Locatello F,Bauer S,Lucic M,et al. Challenging common assumptions in the unsupervised learning of disentangled representations [C]// Proc of International Conference on Machine Learning. [S.l.]: PMLR,2019: 4114-4124.

[73]Higgins I,Amos D,Pfau D,et al. Towards a definition of disentangled representations [EB/OL]. (2018).https://arxiv. org/abs/1812. 02230. pdf.

[74]Kingma D P,Welling M. Auto-encoding variational Bayes [EB/OL]. (2013).https://arxiv. org/abs/1312. 6114. pdf.

[75]Caselles-Dupré H,Garcia-Ortiz M,Filliat D. Symmetry-based disentangled representation learning requires interaction with environments [C]// Advances in Neural Information Processing Systems. 2019: 4606-4615.

[76]Holzinger A,Müller H. Toward human-AI interfaces to support explainability and causability in medical AI [J]. Computer,2021,54(10): 78-86.

[77]Yang Mengyue,Liu Furui,Chen Zhitang,et al. CausalVAE: disentangled representation learning via neural structural causal models [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. 2021: 9593-9602.

[78]Klein L,Carvalho J B S,El-Assady M,et al. Improving explainability of disentangled representations using multipath-attribution mappings [C]// Proc of Machine Learning Research-Under Review. 2022.

[79]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C] // Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc.,2017:6000-6010.

[80]Annasamy R M,Sycara K. Towards better interpretability in deep Q-networks [C]// Proc of the 33rd AAAI Conference on Artificial Intelligence.2019: 4561-4569.

[81]Kim J,Bansal M. Towards an interpretable deep driving network by attentional bottleneck [J]. IEEE Robotics and Automation Letters,2021,6(4): 7349-7356.

[82]Goyal A,Islam R,Strouse D,et al. Infobot: transfer and exploration via the information bottleneck [EB/OL].(2019) https://arxiv. org/abs/1901. 10902. pdf.

[83]Shi Wenjie,Huang Gao,Song Shiji,et al. Self-supervised discovering of interpretable features for reinforcement learning [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2020,44(5): 2712-2724.

[84]Adebayo J,Gilmer J,Muelly M,et al. Sanity checks for saliency maps [J]. Advances in Neural Information Processing Systems,2018,31:9525-9536.

[85]Wang Yuyao,Mase M,Egi M. Attribution-based salience method towards interpretable reinforcement learning [C]//Proc of AAAI Spring Symposium Combining Machine Learning with Knowledge Enginee-ring. 2020.

[86]Pan Xinlei,Chen Xiangyu,Cai Qizhi,et al. Semantic predictive control for explainable and efficient policy learning [C]//Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2019: 3203-3209.

[87]Atrey A,Clary K,Jensen D D. Exploratory not explanatory: counterfactual analysis of saliency maps for deep reinforcement learning [C]// Proc of the 8th International Conference on Learning Representations. 2020.

[88]Goyal Y,Wu Ziyan,Ernst J,et al. Counterfactual visual explanations [C]// Proc of International Conference on Machine Learning. 2019: 2376-2384.

[89]Olson M L,Khanna R,Neal L,et al. Counterfactual state explanations for reinforcement learning agents via generative deep learning [J]. Artificial Intelligence,2021,295: article ID 103455.

[90]Yau H,Russell C,Hadfield S. What did you think would happen?Explaining agent behaviour through intended outcomes [J]. Advances in Neural Information Processing Systems,2020,33: 18375-18386.

主站蜘蛛池模板: 国产极品美女在线| 波多野结衣无码AV在线| 免费观看男人免费桶女人视频| 国产激情在线视频| 国产一区成人| 国产精品女人呻吟在线观看| 欧美不卡视频一区发布| 2021国产精品自产拍在线| 国产午夜福利片在线观看| 国产男女免费完整版视频| 国产在线观看精品| 狠狠综合久久| 性网站在线观看| 日韩黄色在线| 欧美综合区自拍亚洲综合绿色| 亚洲swag精品自拍一区| 99精品国产高清一区二区| 99热这里都是国产精品| 尤物视频一区| 亚洲精品不卡午夜精品| 国产精品一老牛影视频| 国国产a国产片免费麻豆| 日本在线亚洲| 99视频只有精品| 日本久久网站| 久久亚洲精少妇毛片午夜无码| 91欧美亚洲国产五月天| 国产高颜值露脸在线观看| 国产精品免费电影| 中文字幕无码av专区久久| 久久人妻xunleige无码| 午夜无码一区二区三区在线app| 亚洲最大看欧美片网站地址| 日韩精品成人在线| 找国产毛片看| 亚洲人成日本在线观看| 久久综合干| 中国一级特黄视频| 国模私拍一区二区三区| 久久精品人妻中文系列| 女高中生自慰污污网站| 亚洲欧美成aⅴ人在线观看| 色爽网免费视频| 在线欧美一区| 国产精品无码一二三视频| 欧美一区福利| 亚洲伊人久久精品影院| 欧美午夜网| 极品国产在线| 国产免费人成视频网| 福利在线不卡一区| 亚洲三级电影在线播放| 免费国产黄线在线观看| 国产成人高精品免费视频| 57pao国产成视频免费播放| 国产美女精品一区二区| 色综合中文| 精品欧美一区二区三区久久久| 伊人久久大香线蕉成人综合网| 日韩精品高清自在线| 天天摸夜夜操| 黄色网址免费在线| 国产av一码二码三码无码| 日韩无码精品人妻| 天堂成人在线| 国产亚洲男人的天堂在线观看| 亚洲第一成年网| 亚洲福利网址| 国产成人久视频免费| 欧美亚洲网| 在线国产资源| 精品一區二區久久久久久久網站 | 精品国产中文一级毛片在线看| 97视频免费看| 欧美色伊人| 中日韩一区二区三区中文免费视频| 色噜噜狠狠狠综合曰曰曰| 国产99精品久久| 亚洲欧美在线综合一区二区三区| 久久精品电影| 在线观看av永久| 久久精品这里只有国产中文精品|