999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

可解釋的視覺(jué)問(wèn)答研究進(jìn)展

2024-02-18 14:16:27張一飛孟春運(yùn)蔣洲欒力ErnestDomanaanmwiGanaa
關(guān)鍵詞:人工智能

張一飛 孟春運(yùn) 蔣洲 欒力 Ernest Domanaanmwi Ganaa

摘 要:在視覺(jué)問(wèn)答(VQA)任務(wù)中,“可解釋”是指在特定的任務(wù)中通過(guò)各種方法去解釋模型為什么有效。現(xiàn)有的一些VQA模型因?yàn)槿狈山忉屝詫?dǎo)致模型無(wú)法保證在生活中能安全使用,特別是自動(dòng)駕駛和醫(yī)療相關(guān)的領(lǐng)域,將會(huì)引起一些倫理道德問(wèn)題,導(dǎo)致無(wú)法在工業(yè)界落地。主要介紹視覺(jué)問(wèn)答任務(wù)中的各種可解釋性實(shí)現(xiàn)方式,并分為了圖像解釋、文本解釋、多模態(tài)解釋、模塊化解釋和圖解釋五類,討論了各種方法的特點(diǎn)并對(duì)其中的一些方法進(jìn)行了細(xì)分。除此之外,還介紹了一些可以增強(qiáng)可解釋性的視覺(jué)問(wèn)答數(shù)據(jù)集,這些數(shù)據(jù)集主要通過(guò)結(jié)合外部知識(shí)庫(kù)、標(biāo)注圖片信息等方法來(lái)增強(qiáng)可解釋性。對(duì)現(xiàn)有常用的視覺(jué)問(wèn)答可解釋方法進(jìn)行了總結(jié),最后根據(jù)現(xiàn)有視覺(jué)問(wèn)答任務(wù)中可解釋性方法的不足提出了未來(lái)的研究方向。

關(guān)鍵詞:視覺(jué)問(wèn)答; 視覺(jué)推理; 可解釋性; 人工智能; 自然語(yǔ)言處理; 計(jì)算機(jī)視覺(jué)

中圖分類號(hào):TP391?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號(hào):1001-3695(2024)01-002-0010-11

doi:10.19734/j.issn.1001-3695.2023.05.0181

Research advances in explainable visual question answering

Abstract:In the context of visual question answering (VQA) tasks, “explainability” refers to the various ways in which researchers can explain why a model works in a given task. The lack of explainability of some existing VQA models has led to a lack of assurance that the models can be used safely in real-life applications, especially in fields such as autonomous driving and healthcare. This would raise ethical and moral issues that hinder their implementation in industry. This paper introduced various implementations for enhancing explainability in VQA tasks and categorized them into four main categories: image interpretation, text interpretation, multi-modal interpretation, modular interpretation, and graph interpretation. This paper discussed the characteristics of each approach, and further presented the subdivisions for some of them. Furthermore, it presented several VQA datasets that aimed to enhance explainability. These datasets primarily focused on incorporating external know-ledge bases and annotating image information to improve explainability. In summary, this paper provided an overview of exis-ting commonly used interpretable methods for VQA tasks and proposed future research directions based on the identified shortcomings of the current approaches.

Key words:visual question answering; visual reasoning; explainability; artificial intelligence; natural language processing; computer vision

0 引言

隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,作為深度學(xué)習(xí)兩大領(lǐng)域——計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)的交叉領(lǐng)域之一的視覺(jué)問(wèn)答任務(wù)(VQA)[1,2]逐漸興起。VQA指的是給定一張圖片和一個(gè)與該圖片相關(guān)的自然語(yǔ)言問(wèn)題,計(jì)算機(jī)能輸出一個(gè)正確的回答。顯然,這是一個(gè)融合了CV與NLP技術(shù)的多模態(tài)問(wèn)題,計(jì)算機(jī)需要同時(shí)學(xué)會(huì)理解圖像和文字。正因如此,直到2015年相關(guān)技術(shù)取得突破式發(fā)展,VQA的概念才被Antol等人[1]正式提出。

視覺(jué)問(wèn)答是一種涉及計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的學(xué)習(xí)任務(wù)。這一任務(wù)的定義如下:一個(gè)VQA系統(tǒng)以一張圖片和一個(gè)關(guān)于這張圖片形式自由、開(kāi)放式的自然語(yǔ)言問(wèn)題作為輸入,以生成一條自然語(yǔ)言答案作為輸出。簡(jiǎn)單來(lái)說(shuō),VQA就是根據(jù)給定的圖片進(jìn)行問(wèn)答。視覺(jué)問(wèn)答可以被應(yīng)用于在線教育、盲人輔助導(dǎo)航、視頻監(jiān)控自動(dòng)查詢等領(lǐng)域,但是由于現(xiàn)有深度學(xué)習(xí)模型大部分缺乏可解釋性,當(dāng)模型出錯(cuò)時(shí),用戶無(wú)法理解為什么會(huì)出錯(cuò)和如何避免,這導(dǎo)致模型在某些關(guān)鍵領(lǐng)域的使用可能會(huì)危害人的生命安全。所以這些先進(jìn)的技術(shù)在生產(chǎn)中落地時(shí),常常會(huì)面臨倫理道德乃至法律層面的問(wèn)題。例如,最近的歐洲通用數(shù)據(jù)保護(hù)和法規(guī)(general data protection and regulation,GDPR)引入了這樣一種觀點(diǎn),即用戶應(yīng)該擁有獲得由自動(dòng)化處理提出的決策的解釋的權(quán)利[3]。但是用現(xiàn)代機(jī)器學(xué)習(xí)方法,尤其是基于深度學(xué)習(xí)的方法,很難滿足這樣的要求。因此,為了提高深度學(xué)習(xí)模型在生產(chǎn)實(shí)踐中的安全性問(wèn)題和解決由于深度學(xué)習(xí)的“黑盒”特性帶來(lái)的倫理道德以及安全問(wèn)題,提高視覺(jué)問(wèn)答模型的可解釋性十分必要,所以大量的研究試圖通過(guò)對(duì)深層神經(jīng)網(wǎng)絡(luò)的決策過(guò)程生成人類可理解的解釋,使其更加透明。

大多數(shù)最先進(jìn)的VQA系統(tǒng)[4~8]都是通過(guò)訓(xùn)練,使用問(wèn)題和視覺(jué)特征簡(jiǎn)單地?cái)M合答案分布,并在簡(jiǎn)單的視覺(jué)問(wèn)題上實(shí)現(xiàn)高性能。然而這些系統(tǒng)往往可解釋性一般,因?yàn)樗鼈冎魂P(guān)注簡(jiǎn)單的視覺(jué)特征和問(wèn)題特征,而不是為正確的原因找到正確的答案[9,10]。當(dāng)問(wèn)題需要更復(fù)雜的推理和常識(shí)知識(shí)時(shí),類似的低可解釋性問(wèn)題就變得越來(lái)越嚴(yán)重。本文的主要貢獻(xiàn)如下:a)綜述了視覺(jué)問(wèn)答任務(wù)中的各種可解釋方法的特點(diǎn),將解釋模型的方法劃分為視覺(jué)解釋、文本解釋、模塊化解釋、圖解釋和多模態(tài)解釋,并且對(duì)其中的一些大類又進(jìn)行了細(xì)分,最后綜合分析了現(xiàn)有方法的優(yōu)點(diǎn)和不足,并提出了改進(jìn)的方向;b)介紹了VQA任務(wù)中涉及可解釋性的數(shù)據(jù)集,討論了不同數(shù)據(jù)集的區(qū)別,并對(duì)如何利用數(shù)據(jù)集來(lái)提升可解釋性提出了建議;c)討論了VQA任務(wù)中可解釋性的發(fā)展情況以及未來(lái)展望,并對(duì)文中介紹的視覺(jué)問(wèn)答可解釋性方法提供了建議。

1 可解釋性方法發(fā)展歷程

1.1 基本定義

可解釋性目前沒(méi)有數(shù)學(xué)定義,Miller[11]認(rèn)為可解釋性是人類理解決策原因的程度;Kim等人[12]認(rèn)為可解釋性是人類可以一致地預(yù)測(cè)模型結(jié)果的程度。可解釋性可以翻譯為interpretable或explainable,一開(kāi)始這兩個(gè)詞經(jīng)常互換使用,因?yàn)榉g成中文是同一含義,即對(duì)模型的輸出結(jié)果可以產(chǎn)生合理的解釋。然而Miller[11]認(rèn)為,這兩個(gè)詞在學(xué)術(shù)上有細(xì)微的差別:interpretable是指本就透明的白盒模型,其本身就可以解釋輸出的答案,所有經(jīng)驗(yàn)水平的使用者都可以明白模型的含義;而explainable是指研究人員對(duì)黑盒模型的輸出結(jié)果作出人們能理解的解釋。本文所討論的可解釋性是指包含這兩種概念的更加廣義的可解釋性,所以不再另外區(qū)分。

1.2 可解釋性方法

從目前已有的可解釋性方法來(lái)看,可解釋性方法可以分為事后可解釋方法和構(gòu)造本質(zhì)上可解釋的模型的方法。事后可解釋方法可以理解為通過(guò)觀察模型的輸出結(jié)果或隱層狀態(tài)來(lái)研究輸入的相關(guān)特征與模型輸出結(jié)果之間的因果關(guān)系。構(gòu)造本質(zhì)上可解釋的模型則可以讓模型把內(nèi)部推理過(guò)程以白盒的方式直觀地呈現(xiàn)給人類,因?yàn)槠浔举|(zhì)上推理流程就容易被人理解所以無(wú)須使用顯著圖等事后可解釋方法。本文所討論的視覺(jué)問(wèn)答中的可解釋性方法都可以歸類到上述兩種可解釋方法中,并且在最后給出了一些與視覺(jué)問(wèn)答可解釋性相關(guān)的數(shù)據(jù)集。

2 視覺(jué)問(wèn)答任務(wù)中的可解釋方法分類

解釋的視覺(jué)問(wèn)答任務(wù)可以定義為:給定一個(gè)圖像或視頻V和一個(gè)問(wèn)題Q,模型預(yù)測(cè)答案A并且給出相應(yīng)的解釋E。本文根據(jù)智能問(wèn)答與視覺(jué)推理中的可解釋性的實(shí)現(xiàn)方式將視覺(jué)問(wèn)答中的可解釋模型分為圖像解釋、文本解釋、多模態(tài)解釋、模塊化解釋和圖解釋。視覺(jué)問(wèn)答(VQA)任務(wù)當(dāng)前主流方法主要是首先提取問(wèn)題和圖像特征,然后結(jié)合融合圖像和文本特征進(jìn)行分類,最后得到答案。如圖1所示,視覺(jué)問(wèn)答任務(wù)涉及對(duì)輸入圖像和輸入問(wèn)題的處理,當(dāng)考慮視覺(jué)問(wèn)答中的可解釋方法時(shí),主要從文本和圖像的可解釋性方面去考慮。

此外,一些其他視覺(jué)問(wèn)答的處理方法也具有可解釋性,如可解釋的模塊化神經(jīng)網(wǎng)絡(luò)和一些結(jié)合圖神經(jīng)網(wǎng)絡(luò)和外部知識(shí)庫(kù)的方法等,對(duì)這些方法的詳細(xì)分類如圖2所示。本文提出的分類方法從視覺(jué)問(wèn)答任務(wù)本身的特性去考慮,只考慮視覺(jué)問(wèn)答模型中的可解釋性問(wèn)題,除去了一些傳統(tǒng)機(jī)器學(xué)習(xí)中使用的并且與視覺(jué)問(wèn)答任務(wù)無(wú)關(guān)的可解釋方法。具體來(lái)說(shuō),在圖像解釋方法中,討論了基于注意力的圖像解釋方法、區(qū)域掩模方法和基于梯度的方法,在文本解釋方法中,討論了圖像描述法和外部知識(shí)庫(kù)法。此外還討論了一些與常規(guī)圖像解釋和文本解釋不同的解釋方法,這些方法包括多模態(tài)解釋方法、模塊化推理方法和包含圖像圖和問(wèn)題圖的圖解釋方法。

2.1 利用圖像解釋的方法

圖像解釋的方法主要是通過(guò)探究圖像的整體或部分特征和推理結(jié)果之間的關(guān)系來(lái)達(dá)到解釋模型輸入與輸出之間關(guān)系的目的。圖像解釋的方法可以大體分為基于注意力的圖像解釋方法、利用區(qū)域掩模的方法和基于梯度的方法三類。

2.1.1 基于注意力的圖像解釋

注意力模塊不僅可以提取細(xì)粒度和精確的二元關(guān)系,還可以提取更為復(fù)雜的三元關(guān)系。這兩種與問(wèn)題相關(guān)的視覺(jué)關(guān)系提供了更多更深層次的視覺(jué)語(yǔ)義,從而提高了問(wèn)題回答的視覺(jué)推理能力。此外,該模塊還結(jié)合了外觀特征和關(guān)系特征,有效地協(xié)調(diào)了兩類特征。

目前,大多數(shù)VQA算法都專注于通過(guò)使用普通的VQA方法將注意力機(jī)制應(yīng)用于關(guān)注相關(guān)的視覺(jué)對(duì)象,或通過(guò)視覺(jué)關(guān)系推理中現(xiàn)成的方法來(lái)考慮對(duì)象之間的關(guān)系,然而,它們?nèi)匀挥幸恍┤秉c(diǎn):a)它們主要對(duì)對(duì)象之間的簡(jiǎn)單關(guān)系進(jìn)行建模,由于未能提供足夠的知識(shí),導(dǎo)致許多復(fù)雜的問(wèn)題無(wú)法正確回答;b)它們很少利用視覺(jué)外觀特征和關(guān)系特征的交互。為了解決這些問(wèn)題,Peng等人[5]提出了一種新的端到端VQA模型,稱為多模態(tài)關(guān)系注意力網(wǎng)絡(luò)(MRA-Net),是一個(gè)旨在提高性能和可解釋性的模型,通過(guò)提取二元和三元關(guān)系來(lái)實(shí)現(xiàn)。MRA-Net包括三個(gè)模塊:(a)自引導(dǎo)詞關(guān)系注意模塊用于提取隱含的語(yǔ)義關(guān)系知識(shí),為推理過(guò)程提供支持,它能夠自動(dòng)學(xué)習(xí)并捕捉不同對(duì)象之間的關(guān)系,并生成語(yǔ)義關(guān)系圖;(b)對(duì)象注意模塊用于識(shí)別與答案最相關(guān)的對(duì)象,幫助模型更好地理解問(wèn)題;(c)可視化關(guān)系注意模塊利用兩個(gè)支持問(wèn)題提取對(duì)象之間的細(xì)粒度二元和三元關(guān)系,通過(guò)識(shí)別對(duì)象及其關(guān)系,該模塊能夠提供深刻的視覺(jué)語(yǔ)義,從而提高視覺(jué)推理的可解釋性。這些模塊的組合使得MRA-Net能夠在推理任務(wù)中表現(xiàn)出更好的性能,并提供可解釋的結(jié)果。

Ben-Younes等人[6]提出了一種基于雙線性體系結(jié)構(gòu)的VQA模型MUTAN,通過(guò)融合視覺(jué)和文本信息來(lái)進(jìn)行視覺(jué)推理。該模型引入了基于多模態(tài)張量的塔克分解,不僅能控制視覺(jué)和文本特征之間雙線性交互的復(fù)雜性,還能保持良好的可解釋性。Wang等人[7]提出了一種基于注意力的加權(quán)上下文特征(MA-WCF)的VQA任務(wù)系統(tǒng),該系統(tǒng)使用基于RNN的編碼器-解碼器結(jié)構(gòu)提取語(yǔ)義上下文特征,并使用基于MDLSTM的編碼器-解碼器結(jié)構(gòu)提取圖像上下文特征。具體來(lái)說(shuō),系統(tǒng)中的RNN結(jié)構(gòu)被選擇為雙向LSTM結(jié)構(gòu)[8]。這個(gè)多模態(tài)系統(tǒng)可以根據(jù)問(wèn)題和圖像本身的特征以及其上下文特征分配自適應(yīng)權(quán)值從而產(chǎn)生更好的效果。由此可見(jiàn),注意力機(jī)制在VQA任務(wù)中有廣泛的應(yīng)用,它有助于關(guān)注視覺(jué)信息和文本信息的興趣領(lǐng)域。為了正確回答問(wèn)題,模型需要有選擇地瞄準(zhǔn)圖像的不同區(qū)域,這表明基于注意力的模型可能會(huì)從明確的注意力監(jiān)督中受益。由于缺乏人類注意數(shù)據(jù),Qiao等人[9]首先提出了人類注意網(wǎng)絡(luò)(HAN)來(lái)生成類人注意地圖,在人類注意數(shù)據(jù)集(VQA-HAT)上進(jìn)行訓(xùn)練;然后,將預(yù)先訓(xùn)練好的HAN應(yīng)用于VQA v2.0數(shù)據(jù)集,自動(dòng)生成所有圖像問(wèn)題對(duì)的類人注意地圖,為VQA v2.0數(shù)據(jù)集生成的類人注意圖數(shù)據(jù)集被命名為類人注意(HLAT)數(shù)據(jù)集;最后,將類人注意監(jiān)督應(yīng)用到一個(gè)基于注意的VQA模型中。實(shí)驗(yàn)證明,添加類人監(jiān)督可以產(chǎn)生更準(zhǔn)確的關(guān)注和具備更好的性能。

雖然如此,獲得特定于視覺(jué)基礎(chǔ)的人類注釋仍是困難和昂貴的,Zhang等人[10]提出了一種具有視覺(jué)定位監(jiān)督的VQA架構(gòu),該架構(gòu)的注意區(qū)域定位可以從可用的區(qū)域描述和對(duì)象注釋中自動(dòng)獲得。他們的工作表明,視覺(jué)問(wèn)答模型使用這種監(jiān)督訓(xùn)練生成的視覺(jué)區(qū)域定位,相對(duì)于人工注釋的定位獲得了更高的相關(guān)性,同時(shí)實(shí)現(xiàn)了最先進(jìn)的VQA精度。陳婷等人[13]提出了一種問(wèn)題文本特征引導(dǎo)圖像的視覺(jué)問(wèn)答算法,該算法在問(wèn)題特征提取過(guò)程中通過(guò)對(duì)關(guān)鍵詞的篩選加強(qiáng)對(duì)問(wèn)題中有效信息的關(guān)注,實(shí)現(xiàn)對(duì)問(wèn)題的注意;同時(shí),該算法還增強(qiáng)了對(duì)圖像屬性特征的關(guān)注,使得圖像信息更加豐富。通過(guò)問(wèn)題強(qiáng)化和圖像強(qiáng)化,該算法引導(dǎo)視覺(jué)問(wèn)答模型在推理過(guò)程中根據(jù)問(wèn)題信息更有效地關(guān)注于圖像中的關(guān)鍵區(qū)域,而圖像中的關(guān)鍵區(qū)域又為推理過(guò)程提供了依據(jù)和解釋。

基于注意力機(jī)制的視覺(jué)解釋只能顯示與推理結(jié)果相關(guān)的視覺(jué)區(qū)域,但不能解釋如何利用這些區(qū)域來(lái)推導(dǎo)出結(jié)果。在組合推理任務(wù)中,視覺(jué)解釋很難表達(dá)不同推理鏈接之間的邏輯關(guān)系。此外,當(dāng)前視覺(jué)推理模型中注意力機(jī)制產(chǎn)生的參與圖像區(qū)域通常與人類注意機(jī)制[14]不同,這也限制了推理模型的有效性。

2.1.2 區(qū)域掩膜方法

區(qū)域掩膜類型的方法主要通過(guò)區(qū)域掩碼和對(duì)象去除對(duì)圖像進(jìn)行語(yǔ)義編輯,從而識(shí)別圖像中與問(wèn)題和答案相關(guān)的對(duì)象并進(jìn)行相應(yīng)的推理過(guò)程解釋,這實(shí)際上是一種基于擾動(dòng)的視覺(jué)解釋,擾動(dòng)的視覺(jué)可解釋性可以定義為:a)保留解釋,為了保留模型的原始輸出,圖像中必須保留的最小區(qū)域;b)刪除解釋,為了改變模型的原始輸出,圖像中必須刪除的最小區(qū)域。Fong等人[15]提出了一種模型不可知和可測(cè)試的解釋方法,該方法可以學(xué)習(xí)一個(gè)擾動(dòng)掩膜,通過(guò)有意義的擾動(dòng)輸入的圖像找到對(duì)分類輸出分?jǐn)?shù)影響最大的區(qū)域。與其他圖像顯著性方法不同,該方法顯式地編輯圖像,以達(dá)到可解釋的目的。Liu等人[16]在CLEVR[17]的基礎(chǔ)上構(gòu)建了用于理解指稱表達(dá)式的診斷數(shù)據(jù)集CLEVR-Ref+,并在文獻(xiàn)[18]的基礎(chǔ)上提出了一種用于視覺(jué)推理的神經(jīng)模塊網(wǎng)絡(luò)IEP-Ref。IEP-Ref中的分割模塊使用LSTM生成器將引用表達(dá)式轉(zhuǎn)換為一系列結(jié)構(gòu)化模塊,每個(gè)模塊由一個(gè)小CNN參數(shù)化。執(zhí)行IEP-Ref可以生成優(yōu)秀的分割掩膜,清晰地揭示網(wǎng)絡(luò)的推理過(guò)程,從而使模型擁有更強(qiáng)的可解釋性。

大多數(shù)基于區(qū)域掩膜的可解釋VQA模型過(guò)于依賴相關(guān)性進(jìn)行推理,而且容易產(chǎn)生虛假的相關(guān)性。因此,Agarwal等人[19]提出了一種語(yǔ)義視覺(jué)變異方法,采用基于GAN的再合成模型[14]去除圖像中的目標(biāo),檢驗(yàn)?zāi)P皖A(yù)測(cè)的一致性。刪除對(duì)象有兩種情況:a)刪除與問(wèn)題無(wú)關(guān)的對(duì)象,答案保持不變;b)移除問(wèn)題中涉及的對(duì)象,答案就會(huì)以可預(yù)測(cè)的方式改變。被移除的對(duì)象以基于擾動(dòng)的方法為推理過(guò)程提供了可解釋性。與基于注意力機(jī)制的視覺(jué)解釋類似,語(yǔ)義編輯也無(wú)法解釋如何使用這些對(duì)象來(lái)派生結(jié)果,難以表達(dá)不同推理步驟之間的邏輯關(guān)系。

2.1.3 基于梯度的方法

圖像一般是通過(guò)向量方式表示,即一張圖片可以表示為{x1,…,xn,…,xN},假設(shè)圖片有一個(gè)對(duì)應(yīng)的類別yk,現(xiàn)在每次給圖片的某個(gè)像素加入一個(gè)δx,那么對(duì)應(yīng)的類別yk就會(huì)發(fā)生變化,記為yk+δx。如果想要知道每個(gè)像素的擾動(dòng)對(duì)最終結(jié)果的影響,就需要計(jì)算δx/δy,通過(guò)計(jì)算每一個(gè)像素點(diǎn)對(duì)預(yù)測(cè)類別的影響可以繪制出顯著圖,通過(guò)觀察顯著圖可以判斷不同像素點(diǎn)對(duì)預(yù)測(cè)類別的影響,顯著圖亮度越高的區(qū)域?qū)︻A(yù)測(cè)結(jié)果的影響最大,這就是基于圖像的可解釋性方法的概念。在VQA模型中,梯度方法就是利用每個(gè)圖像中的某些區(qū)域的損失梯度為VQA模型提供解釋。

顯然,基于梯度的方法需要用到顯著性方法,關(guān)于顯著性方法,Simonyan等人[20]討論了兩種基于輸入圖像計(jì)算類分?jǐn)?shù)的梯度的可視化技術(shù):a)類模型可視化(class model visualisation)方法,給定一個(gè)學(xué)習(xí)好的分類ConvNet網(wǎng)絡(luò)和一類感興趣的類別,可視化方法包括數(shù)值生成一個(gè)圖像,再根據(jù)ConvNet類評(píng)分模型代表該類;b)圖像特定的類顯著性可視化(image-specific class saliency visualisation)方法,這種方法計(jì)算特定于給定圖像和類的類顯著性映射,這種映射可以用于弱監(jiān)督對(duì)象的分類分割。這兩種方法都是基于批次梯度下降法的方法。Shrikumar等人[21]提出了DeepLIFT(deep learning important features),一種通過(guò)將網(wǎng)絡(luò)中所有神經(jīng)元對(duì)輸入的每個(gè)特征的貢獻(xiàn)反向傳播來(lái)分解神經(jīng)網(wǎng)絡(luò)對(duì)特定輸入的輸出預(yù)測(cè)的方法。DeepLIFT將每個(gè)神經(jīng)元的激活與其“參考激活”進(jìn)行比較,并根據(jù)差異分配貢獻(xiàn)分?jǐn)?shù)。通過(guò)選擇性地單獨(dú)考慮積極和消極的貢獻(xiàn),DeepLIFT也可以揭示其他方法所遺漏的依賴關(guān)系。

以上兩種方法的缺點(diǎn)是違反了Sundararajan 等人[22]提出的靈敏度和實(shí)現(xiàn)不變性公理,所以Halbe[23]嘗試使用集成梯度(IG)用于可解釋性。IG根據(jù)網(wǎng)絡(luò)的預(yù)測(cè)計(jì)算輸入特征的屬性,這些屬性將輸入特征的信用/責(zé)任分配給輸入特征(圖像時(shí)的像素和問(wèn)題時(shí)的單詞),這些特征負(fù)責(zé)模型的輸出。這些屬性可以幫助識(shí)別模型的準(zhǔn)確性,如過(guò)度依賴圖像或可能的語(yǔ)言先驗(yàn),它們是根據(jù)一個(gè)基線輸入來(lái)計(jì)算的。此外,Selvaraju等人[24]提出了一種用于從基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的大類模型中生成決策的可視化解釋的方法Grad-CAM,使用任何目標(biāo)概念的梯度,流入最終的卷積層,生成一個(gè)粗糙的本地化地圖,突出顯示圖像中用于預(yù)測(cè)概念的重要區(qū)域。Grad-CAM使用特定于類的梯度信息來(lái)定位重要區(qū)域。這些定位與現(xiàn)有的像素空間可視化相結(jié)合,創(chuàng)建了一種新的高分辨率和類鑒別性可視化,稱為引導(dǎo)Grad-CAM。這些方法有助于更好地理解基于CNN的模型,包括圖像字幕和VQA模型。Grad-CAM為理解基于CNN的模型提供了一種新的方法,將Grad-CAM與現(xiàn)有的細(xì)粒度可視化相結(jié)合,創(chuàng)建了一個(gè)引導(dǎo)式Grad-CAM模型,為圖像描述和VQA提供視覺(jué)解釋。

最近,利用在原始數(shù)據(jù)中生成反事實(shí)圖像來(lái)增強(qiáng)可解釋性的方法也利用到了以上基于擾動(dòng)和梯度的方法。例如,Boukhers等人[25]引入了一種通過(guò)生成反事實(shí)圖像的可解釋性方法。具體來(lái)說(shuō),生成的圖像是導(dǎo)致VQA模型給出一個(gè)不同的答案且與原始圖像相比變化最小的,此外,他們的方法確保了生成的圖像是真實(shí)的。由于不能使用定量指標(biāo)來(lái)評(píng)估所提出模型的可解釋性,他們通過(guò)用戶研究來(lái)評(píng)估方法的不同方面。梯度方法可以識(shí)別正確的結(jié)果是否取決于簡(jiǎn)單視覺(jué)推理中錯(cuò)誤的原因,然而,這類方法的缺點(diǎn)是只能顯示與推理結(jié)果相關(guān)的視覺(jué)區(qū)域,但不能解釋如何利用這些區(qū)域來(lái)推導(dǎo)出結(jié)果。

常用的圖像解釋模型在VQA v1和VQA v2上準(zhǔn)確率的對(duì)比如表1所示,可以看出MA-WCF在兩個(gè)數(shù)據(jù)集上分別以6.16%和8.44%的準(zhǔn)確率優(yōu)于其他模型。這是因?yàn)镸A-WCF作為一種注意加權(quán)上下文特征的可解釋的多模態(tài)系統(tǒng),相比于其他模型,可以根據(jù)問(wèn)題和圖像的重要性為其上下文特征賦予自適應(yīng)權(quán)重。實(shí)驗(yàn)結(jié)果表明了合理利用上下文特征信息對(duì)提升視覺(jué)問(wèn)答模型準(zhǔn)確率的重要性。

2.2 利用文本解釋的方法

VQA系統(tǒng)需要有正確的理由才能很好地推廣到測(cè)試問(wèn)題。雖然視覺(jué)解釋[26]只標(biāo)記圖像的哪些部分對(duì)答案貢獻(xiàn)最大,但文本解釋[27]能編碼更豐富的信息,如詳細(xì)的屬性、關(guān)系或常識(shí)知識(shí),這些信息不一定全都能在圖像中直接找到。VQA系統(tǒng)中的文本解釋方法主要分為使用自然語(yǔ)言生成技術(shù)生成圖像描述的方法和利用外部知識(shí)庫(kù)的方法。

2.2.1 圖像描述法

圖像描述法是指用自然語(yǔ)言來(lái)描述指定圖像中的視覺(jué)信息。現(xiàn)有的方法可以分為基于模板的方法和基于神經(jīng)的方法。基于模板的方法利用計(jì)算機(jī)視覺(jué)的最新進(jìn)展來(lái)檢測(cè)視覺(jué)元素,如對(duì)象、關(guān)系和位置,然后通過(guò)使用預(yù)定義的語(yǔ)言模板來(lái)轉(zhuǎn)換這些元素。Farhadi等人[28]提出了一個(gè)圖像描述的自動(dòng)方法,它可以計(jì)算一個(gè)連接一個(gè)圖像到一個(gè)句子的分?jǐn)?shù)。通過(guò)比較圖像的意義估計(jì)和句子的意義估計(jì)來(lái)獲得分?jǐn)?shù),此分?jǐn)?shù)可用于將描述性句子附加到給定的圖像上,或者獲得說(shuō)明給定句子的圖像。Kulkarni等人[29]提出的圖像描述方法由兩部分組成:a)內(nèi)容規(guī)劃,通過(guò)從大量的視覺(jué)描述性文本池中挖掘出的統(tǒng)計(jì)數(shù)據(jù),對(duì)基于計(jì)算機(jī)視覺(jué)的檢測(cè)和識(shí)別算法的輸出進(jìn)行平滑,以確定用于描述圖像的最佳內(nèi)容詞;b)表面實(shí)現(xiàn),根據(jù)自然語(yǔ)言的預(yù)測(cè)內(nèi)容和一般統(tǒng)計(jì)數(shù)據(jù),選擇單詞來(lái)構(gòu)建自然語(yǔ)言句子。基于神經(jīng)網(wǎng)絡(luò)的方法大部分使用CNN對(duì)視覺(jué)信息進(jìn)行編碼,并使用RNN解碼對(duì)圖像的文字描述。Mao等人[30]提出了一個(gè)多模式遞歸神經(jīng)網(wǎng)絡(luò)(mRNN)來(lái)生成新的圖像描述。它直接模擬了生成一個(gè)單詞和一個(gè)圖像的概率分布。圖像描述是根據(jù)此分布而生成的。該模型由句子的深度遞歸神經(jīng)網(wǎng)絡(luò)和圖像的深度卷積網(wǎng)絡(luò)組成,這兩個(gè)子網(wǎng)絡(luò)在一個(gè)多模態(tài)層中相互作用,形成整個(gè)mRNN模型。Xu等人[31]將注意力機(jī)制引入到圖像描述中,通過(guò)引入一個(gè)基于注意力的模型可以自動(dòng)學(xué)習(xí)描述圖像的內(nèi)容,通過(guò)使用標(biāo)準(zhǔn)的反向傳播技術(shù)和隨機(jī)地以確定性的方式訓(xùn)練這個(gè)模型,并通過(guò)最大化變分下界。

利用自然語(yǔ)言處理的方法從圖片中生成文字信息并用作解釋開(kāi)始是被Li等人[32]提出作為對(duì)答案的解釋的,但是Li等人提出的VQA-E模型沒(méi)有把對(duì)答案的解釋本身作為信息在推理過(guò)程中加以利用,所以Cai等人[33]在此基礎(chǔ)上首先利用該模型中的圖像處理方法提取圖像中的目標(biāo)信息,將其與文本信息相結(jié)合,并在結(jié)合過(guò)程中使用協(xié)同注意力機(jī)制而不是VQA-E模型中只關(guān)注圖像,然后將解釋與問(wèn)題信息相結(jié)合輸入到LSTM系統(tǒng)中。他們的方法豐富了視覺(jué)問(wèn)答中的文本信息,提高了答案的準(zhǔn)確性。與普通的協(xié)同注意力機(jī)制不同,Hendricks等人[34]提出了一種更具鑒別性的方法,重點(diǎn)關(guān)注可見(jiàn)對(duì)象的鑒別屬性,聯(lián)合預(yù)測(cè)一個(gè)類標(biāo)簽并解釋了為什么預(yù)測(cè)的標(biāo)簽適合于圖像,他們還提出了一種基于抽樣和強(qiáng)化學(xué)習(xí)的新的損失函數(shù),來(lái)學(xué)習(xí)生成實(shí)現(xiàn)全局句子屬性的句子。視覺(jué)解釋突出了決策背后的關(guān)鍵圖像區(qū)域,然而它們并不能解釋推理過(guò)程和突出顯示的區(qū)域之間的關(guān)鍵關(guān)系,文本解釋恰恰彌補(bǔ)了這一缺點(diǎn)。

2.2.2 利用外部知識(shí)庫(kù)法

當(dāng)人類看到一個(gè)圖像時(shí)就可以自動(dòng)推斷出圖像中隱藏的視覺(jué)之外的東西,比如物體的功能、物體的狀態(tài)等。然而要實(shí)現(xiàn)這種功能對(duì)計(jì)算機(jī)來(lái)說(shuō)是非常困難的,例如,關(guān)于吹風(fēng)機(jī)可以用來(lái)干什么的問(wèn)題,不僅需要在圖片中識(shí)別出吹風(fēng)機(jī),而且還需要知道吹風(fēng)機(jī)可以用來(lái)吹頭發(fā)。想要讓計(jì)算機(jī)實(shí)現(xiàn)這種類似的功能需要引入外部知識(shí)庫(kù)。

在VQA模型中引入外部知識(shí)庫(kù)的方法有很多。Wang等人[35]構(gòu)建了一個(gè)FVQA數(shù)據(jù)集、一個(gè)附帶的數(shù)據(jù)集以及從三個(gè)不同來(lái)源提取的事實(shí)知識(shí)庫(kù),即WebChild[36]、DBpedia[37]和ConceptNet[38];同時(shí)還開(kāi)發(fā)了一個(gè)模型,利用支持事實(shí)中存在的信息來(lái)回答有關(guān)圖像的問(wèn)題,他們的方法不是直接學(xué)習(xí)從問(wèn)題到答案的映射,而是學(xué)習(xí)從問(wèn)題到KB查詢的映射,所以它更可擴(kuò)展到答案的多樣性。該方法不僅給出了視覺(jué)問(wèn)題的答案,還提供了得出答案的支持事實(shí),從而增強(qiáng)了推理過(guò)程的可解釋性。文獻(xiàn)[35]實(shí)際上是關(guān)鍵字匹配技術(shù),從問(wèn)題中提取關(guān)鍵字,并從知識(shí)庫(kù)中檢索包含這些關(guān)鍵字的事實(shí)。顯然,在這種方法中同義詞和同構(gòu)詞容易帶來(lái)誤解,為了解決這個(gè)問(wèn)題,Narasimhan等人[39]開(kāi)發(fā)了一種基于學(xué)習(xí)的檢索方法,該方法學(xué)習(xí)了事實(shí)和問(wèn)題圖像對(duì)到嵌入空間的參數(shù)映射。為了回答一個(gè)問(wèn)題,使用了與提供的問(wèn)題-圖像對(duì)最一致的事實(shí)。基于神經(jīng)網(wǎng)絡(luò)的模型的缺陷是對(duì)于自然語(yǔ)言部分需要進(jìn)行訓(xùn)練,模型難以調(diào)試,并且因?yàn)樯窠?jīng)網(wǎng)絡(luò)的“黑盒”性質(zhì)導(dǎo)致缺乏可解釋性。為了應(yīng)對(duì)這類問(wèn)題,Basu等人[40]提出了AQuA框架,AQuA不存在所有純基于神經(jīng)網(wǎng)絡(luò)方法中的缺陷,通過(guò)結(jié)合常識(shí)知識(shí)和使用ASP進(jìn)行推理來(lái)復(fù)制人類的VQA行為。AQuA框架中的VQA使用了以下知識(shí)來(lái)源:使用YOLO算法提取的對(duì)象的知識(shí)、從問(wèn)題中提取的語(yǔ)義關(guān)系、從問(wèn)題中生成的查詢、常識(shí)知識(shí)。AQuA運(yùn)行在查詢驅(qū)動(dòng)的、可擴(kuò)展的答案集編程系統(tǒng)上,該系統(tǒng)可以提供一個(gè)證明樹(shù)作為正在處理的查詢的理由。AQuA會(huì)將問(wèn)題轉(zhuǎn)換為ASP查詢而無(wú)須任何培訓(xùn),密切地模擬了人類的操作方式。

利用外部知識(shí)庫(kù)增強(qiáng)可解釋性的方法在一些用來(lái)模擬人類應(yīng)對(duì)可解釋性問(wèn)題的方法中也有應(yīng)用,因?yàn)槿祟愒诮鉀Q問(wèn)題時(shí)會(huì)自然而然地利用外部知識(shí)。Riquelme等人[41]提出了一個(gè)VQA模型,該模型將處理模塊集成到模擬人類視覺(jué)注意、利用先前的視覺(jué)知識(shí)開(kāi)發(fā)外部來(lái)源,以及用自然語(yǔ)言提供解釋來(lái)支持每個(gè)答案。這三個(gè)處理模塊模擬了人類解決VQA問(wèn)題的方式:將注意力集中在與回答每個(gè)問(wèn)題相關(guān)的圖像區(qū)域的能力;使用適當(dāng)?shù)谋尘爸R(shí),如常識(shí)知識(shí),構(gòu)建合適的答案的能力;用連貫的解釋支持答案的能力。

現(xiàn)有的基于知識(shí)的視覺(jué)問(wèn)答的解決方案的一個(gè)限制是,它們聯(lián)合嵌入了各種信息而沒(méi)有細(xì)粒度的選擇,這將引入意想不到的噪聲來(lái)推理正確的答案。如何捕捉以問(wèn)題為導(dǎo)向、信息互補(bǔ)的證據(jù),一直是解決這一問(wèn)題的關(guān)鍵挑戰(zhàn)。Yu等人[42]提出了一種基于圖的循環(huán)推理網(wǎng)絡(luò)GRUC,用于需要外部知識(shí)的視覺(jué)問(wèn)題回答,側(cè)重于圖結(jié)構(gòu)多模態(tài)知識(shí)表示的跨模態(tài)知識(shí)推理。本文從視覺(jué)、語(yǔ)義和事實(shí)觀點(diǎn)的多個(gè)知識(shí)圖中描述了多模態(tài)知識(shí)來(lái)源。引入高級(jí)抽象的語(yǔ)義圖對(duì)基于知識(shí)的視覺(jué)問(wèn)答模型帶來(lái)了顯著的改進(jìn),該模型通過(guò)對(duì)多個(gè)模塊進(jìn)行多次疊加進(jìn)行傳遞推理,在不同模式的約束下得到面向問(wèn)題的概念表示;最后利用圖神經(jīng)網(wǎng)絡(luò),綜合考慮所有概念推導(dǎo)出全局最優(yōu)解。Wang等人[43]也提出了一種與GRUC類似的方法VQA-GNN,通過(guò)統(tǒng)一的像素級(jí)信息和概念知識(shí)進(jìn)行聯(lián)合推理。給定一個(gè)問(wèn)題-圖像對(duì),VQA-GNN從圖像中構(gòu)建一個(gè)場(chǎng)景圖,從知識(shí)圖譜中檢索一個(gè)相關(guān)的語(yǔ)言子圖,從VisualGenome中檢索一個(gè)視覺(jué)子圖,并將這三個(gè)圖和問(wèn)題統(tǒng)一到一個(gè)聯(lián)合圖,即多模態(tài)語(yǔ)義圖;然后,VQA-GNN學(xué)習(xí)聚合消息,并在多模態(tài)語(yǔ)義圖捕獲的不同模態(tài)之間進(jìn)行推理。該方法提供了跨視覺(jué)和文本知識(shí)域的可解釋性。

以上方法的局限性是,從純文本的知識(shí)庫(kù)捕獲的相關(guān)知識(shí)只包含事實(shí)表示的一階謂詞或語(yǔ)言描述,而缺乏復(fù)雜的、但不可或缺的多模態(tài)知識(shí)的視覺(jué)理解。基于此,Ding等人[44]提出了用一個(gè)顯式三元組表示多模態(tài)知識(shí)的MuKEA將視覺(jué)對(duì)象和事實(shí)答案與隱式關(guān)系關(guān)聯(lián)起來(lái)。該方法首先提出了一種用顯式三元組表示多模態(tài)知識(shí)單元的新模式,將問(wèn)題所涉及的視覺(jué)對(duì)象嵌入到頭部實(shí)體中,將事實(shí)答案的嵌入保留在尾部實(shí)體中,通過(guò)三元組顯式關(guān)系表達(dá)頭部與尾部之間的隱性關(guān)系。該方法提出了三個(gè)客觀損失函數(shù),通過(guò)對(duì)比正負(fù)三元組、對(duì)齊真值三元組和提煉實(shí)體表示,從粗到細(xì)學(xué)習(xí)三元組的表示。在此基礎(chǔ)上,提出了一種基于前訓(xùn)練和微調(diào)的學(xué)習(xí)策略,從域外和域內(nèi)的VQA樣本中逐步積累多模態(tài)知識(shí),用于可解釋推理。

本文在VQA v2、FVQA和OK-VQA數(shù)據(jù)集上對(duì)比了上文討論的利用文本解釋的視覺(jué)問(wèn)答模型的準(zhǔn)確率,對(duì)比結(jié)果如表2所示。其中E-Q-I模型是作為利用圖像描述法增強(qiáng)可解釋性的方法之一,在VQA v2數(shù)據(jù)集上取得了最佳結(jié)果。該方法利用協(xié)同注意力機(jī)制使模型同時(shí)關(guān)注于圖像和文本信息。同時(shí),模型中的問(wèn)題信息與生成的解釋信息相結(jié)合,豐富了視覺(jué)問(wèn)答中的文本特征信息,提升了模型的準(zhǔn)確率。GRUC作為一種圖推理視覺(jué)問(wèn)答方法,在基于知識(shí)的FVQA數(shù)據(jù)集上取得了最高準(zhǔn)確率,該模型通過(guò)基于記憶的遞歸推理網(wǎng)絡(luò)收集面向問(wèn)題的視覺(jué)和語(yǔ)義信息,相比其他模型得到了顯著的改進(jìn)。MuKEA在OK-VQA上的準(zhǔn)確率超過(guò)了GRUC,因?yàn)樵撃P拖啾绕渌椒ㄔ诶猛獠恐R(shí)進(jìn)行推理的過(guò)程中考慮了多模態(tài)知識(shí)和現(xiàn)有知識(shí)庫(kù)的互補(bǔ)信息,同時(shí)該方法通過(guò)采用預(yù)訓(xùn)練和微調(diào)學(xué)習(xí)策略逐步積累基本知識(shí)和特定領(lǐng)域的多模態(tài)知識(shí),用于答案預(yù)測(cè)。總之,使用基于外部知識(shí)的VQA模型,不僅使模型能理解數(shù)據(jù)集中的外部信息,還增強(qiáng)了模型的可解釋性。

2.3 多模態(tài)解釋

與單一的視覺(jué)解釋方法和文本解釋方法不同,目前多模態(tài)解釋在VQA模型中主要是結(jié)合圖像解釋和文本解釋的方法,先利用注意力機(jī)制定位圖像中的關(guān)鍵區(qū)域,然后再對(duì)關(guān)鍵區(qū)域生成文本解釋。Park等人[27]提出了一個(gè)視覺(jué)推理模型指向與推理模型(PJ-X)來(lái)生成多模態(tài)解釋。PJ-X模型在回答了VQA問(wèn)題后會(huì)為答案生成文本解釋,生成的文本解釋能指出圖片中支持答案的區(qū)域,PJ-X通過(guò)注意掩模指向圖片中支持解釋的證據(jù)。因?yàn)槿狈Π祟悶闆Q策作出的解釋的數(shù)據(jù)集,Park等人還提出了兩個(gè)數(shù)據(jù)集ACT-X和VQA-X。Park等人的方法也有不足,他們實(shí)際上采用了一種“事后理由”的形式,并沒(méi)有真正遵循和反映系統(tǒng)的實(shí)際處理,Wu等人[45]認(rèn)為解釋應(yīng)該更忠實(shí)地反映底層系統(tǒng)的實(shí)際處理過(guò)程,以便讓用戶對(duì)系統(tǒng)有更深入地理解并且出于正確的原因增加信任,而不是試圖簡(jiǎn)單地說(shuō)服他們相信該系統(tǒng)的可靠性,所以Wu等人提出了一種更可信任的方法。為了忠實(shí),文本解釋生成器只關(guān)注于一組有助于預(yù)測(cè)答案的對(duì)象,并只從與實(shí)際VQA推理過(guò)程一致的標(biāo)準(zhǔn)解釋中得到適當(dāng)?shù)谋O(jiān)督而且方法中的解釋模塊直接使用了VQA參與的特征,并通過(guò)GradCAM訓(xùn)練生成可追溯到相關(guān)對(duì)象集的解釋。

與以上方法不同,Zhang等人[46]提出了一種融合了圖推理的多模態(tài)解釋方法,具體來(lái)說(shuō),該方法采用預(yù)先訓(xùn)練的語(yǔ)義關(guān)系嵌入的多圖推理與融合(MGRF)層來(lái)同時(shí)推理位置和語(yǔ)義關(guān)系,并自適應(yīng)地融合這兩種關(guān)系。MGRF層可以進(jìn)一步深度堆疊,形成深度多模態(tài)推理和融合網(wǎng)絡(luò)(DMRFNet),以充分推理和融合多模態(tài)關(guān)系。多模態(tài)解釋方法能結(jié)合其他各種單一解釋方法的優(yōu)點(diǎn),并且推理過(guò)程中指向解釋證據(jù)的方式更加貼近于人類。鄒蕓竹等人[47]提出了一種基于多模態(tài)深度特征融合的視覺(jué)問(wèn)答模型,該模型利用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)分別提取圖像和文本的特征;然后通過(guò)使用元注意力單元組合構(gòu)建的深度注意力學(xué)習(xí)網(wǎng)絡(luò),實(shí)現(xiàn)了圖像和文本之間以及模態(tài)內(nèi)部的注意力特征交互學(xué)習(xí);最后,將學(xué)習(xí)到的特征進(jìn)行多模態(tài)融合表示,并進(jìn)行推理預(yù)測(cè)輸出。該方法使用了自注意力和交互注意力這兩種元注意力單元。通過(guò)單層內(nèi)兩次遞進(jìn)的跨模態(tài)特征交互,實(shí)現(xiàn)了圖像特征和文本特征相互指導(dǎo)注意力權(quán)重的學(xué)習(xí)。這些學(xué)習(xí)到的注意力權(quán)重為模型輸出的答案提供了解釋。

表3對(duì)比了DMRFNet和CDI-VQA方法,DMRFNet相比CDI-VQA準(zhǔn)確率提升了20.67%。DMRFNet設(shè)計(jì)了一種有效的多模態(tài)推理和融合模型,以實(shí)現(xiàn)細(xì)粒度的多模態(tài)推理與融合。具體而言,該方法通過(guò)多圖推理與融合層MGRF,該層采用預(yù)先訓(xùn)練好的語(yǔ)義關(guān)系嵌入,對(duì)視覺(jué)對(duì)象之間復(fù)雜的空間關(guān)系和語(yǔ)義關(guān)系進(jìn)行推理并自適應(yīng)融合。MGRF層可以進(jìn)一步進(jìn)行深度疊加,形成深度多模態(tài)推理融合網(wǎng)絡(luò),充分推理和融合多模態(tài)關(guān)系。

2.4 模塊化推理方法

所謂模塊化推理方法,就是將模型分解成神經(jīng)網(wǎng)絡(luò)子模塊,每個(gè)模塊的功能各不相同。在智能問(wèn)答與推理中,模塊化方法能讓人類更好地理解答案是怎么產(chǎn)生的,從而增強(qiáng)模型的可解釋性。Andreas等人[48]在2015年首次提出了基于神經(jīng)模塊網(wǎng)絡(luò)的新模型架構(gòu)(NMN),如圖3所示,這個(gè)架構(gòu)將問(wèn)題解析為語(yǔ)言子結(jié)構(gòu),并將較小的模塊組裝成特定于問(wèn)題的深度網(wǎng)絡(luò),每個(gè)模塊解決一個(gè)子任務(wù)。這種架構(gòu)使得使用聯(lián)合訓(xùn)練的神經(jīng)模塊集合回答關(guān)于圖像的自然語(yǔ)言問(wèn)題成為可能,這些模塊可以動(dòng)態(tài)地組裝成任意的深度網(wǎng)絡(luò)。然而,Andreas等人提出的NMN實(shí)現(xiàn)依賴于脆弱的現(xiàn)成的解析器,并且僅限于這些解析器提出的模塊配置,而不是從數(shù)據(jù)中學(xué)習(xí)它們;所以隨后Hu等人[49]在2017年提出了端到端模塊網(wǎng)絡(luò)(N2NMN)。它可以通過(guò)在沒(méi)有解析器幫助的情況下直接預(yù)測(cè)特定實(shí)例的網(wǎng)絡(luò)布局來(lái)學(xué)習(xí)推理,將文本問(wèn)題中提出的復(fù)雜推理問(wèn)題分解為幾個(gè)連接在一起的子任務(wù),并學(xué)習(xí)使用序列對(duì)序列RNN實(shí)現(xiàn)的布局策略預(yù)測(cè)每個(gè)問(wèn)題合適的布局表達(dá)式。在訓(xùn)練過(guò)程中,該模型可以首先從專家布局策略中通過(guò)行為克隆進(jìn)行訓(xùn)練,并使用強(qiáng)化學(xué)習(xí)進(jìn)一步進(jìn)行端到端優(yōu)化。以上的模塊化網(wǎng)絡(luò)首先分析問(wèn)題,然后預(yù)測(cè)一組預(yù)定義的模塊,每個(gè)模塊實(shí)現(xiàn)為一個(gè)神經(jīng)網(wǎng)絡(luò),這些模塊連接在一起來(lái)預(yù)測(cè)答案。然而,他們需要一個(gè)專家布局,或監(jiān)督模塊布局來(lái)訓(xùn)練布局策略,以獲得良好的準(zhǔn)確性。Hu等人[50]在2018年又提出了進(jìn)一步優(yōu)化的模塊化網(wǎng)絡(luò)結(jié)構(gòu)Stack-NMN,可以在沒(méi)有布局監(jiān)督的情況下進(jìn)行訓(xùn)練,并用基于堆棧的數(shù)據(jù)結(jié)構(gòu)替換布局圖。該模型同時(shí)解決了這兩個(gè)任務(wù),利用相關(guān)任務(wù)應(yīng)該共享共同的子任務(wù),并在任務(wù)之間共享共同的神經(jīng)模塊集。與以前的模塊化方法相比,該模型誘導(dǎo)將推理過(guò)程分解為子任務(wù),同時(shí)不需要專家的布局監(jiān)督。該模型可以通過(guò)一系列軟模塊選擇、圖像注意和文本注意來(lái)解釋其推理步驟。

與以上單一的模塊化推理方法不同,Shi等人[51]提出了一種融合了圖推理的模塊化方法XNMS。如圖4所示,XNMS將對(duì)象作為節(jié)點(diǎn)、對(duì)象關(guān)系作為邊來(lái)構(gòu)成場(chǎng)景圖進(jìn)行可解釋推理。XNMS包括AttendNode、AttendEdge、Transfer和Logic四個(gè)模塊。Ren等人[52]將神經(jīng)網(wǎng)絡(luò)模塊應(yīng)用于定性推理,從而增強(qiáng)了模型的可解釋性,具體來(lái)說(shuō),他們使用端到端的神經(jīng)網(wǎng)絡(luò)來(lái)模擬預(yù)測(cè)和比較這兩個(gè)推理任務(wù),每個(gè)推理鏈都包含多個(gè)神經(jīng)模塊,為理解和推理過(guò)程提供透明的交互預(yù)測(cè)。

表4對(duì)比了四種模塊化推理方法,其中NMN模型是模塊化推理方法的先驅(qū),該方法通過(guò)執(zhí)行每一個(gè)子模塊來(lái)獲得推理過(guò)程中間步驟的結(jié)果。N2NMN在NMN的基礎(chǔ)上通過(guò)直接預(yù)測(cè)實(shí)例特定的網(wǎng)絡(luò)布局來(lái)學(xué)習(xí)推理,無(wú)須解析器的幫助,該模型在學(xué)習(xí)生成網(wǎng)絡(luò)結(jié)構(gòu)的過(guò)程中同時(shí)學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。Stack-NMN與以上兩個(gè)方法的不同之處在于,該方法通過(guò)自動(dòng)誘導(dǎo)期望的子任務(wù)分解來(lái)執(zhí)行組合推理,而不依賴于強(qiáng)力的監(jiān)督。該方法允許通過(guò)共享的模塊來(lái)連接不同的推理任務(wù),不同的子模塊會(huì)處理任務(wù)之間的通用例程。XNMS模型超越了現(xiàn)有的神經(jīng)模塊網(wǎng)絡(luò),使用場(chǎng)景圖作為結(jié)構(gòu)化的知識(shí)進(jìn)行可解釋推理,該模型僅由四個(gè)元模塊網(wǎng)絡(luò)構(gòu)成,相比之前的方法大大減少了網(wǎng)絡(luò)的參數(shù)量。

總而言之,模塊化方法就是通過(guò)把神經(jīng)網(wǎng)絡(luò)模型分解成一個(gè)個(gè)子模塊來(lái)達(dá)到增強(qiáng)模型可解釋性的目的。在具體實(shí)驗(yàn)過(guò)程中,還可以與一些其他可解釋性方法結(jié)合,如文本解釋和圖解釋等,從而使模型的可解釋性更強(qiáng)。

2.5 利用圖解釋的方法

在視覺(jué)問(wèn)答與智能推理中,圖解釋方法主要是通過(guò)把問(wèn)題中的圖像和問(wèn)題分解為圖結(jié)構(gòu)來(lái)進(jìn)行推理從而增強(qiáng)模型的可解釋性。這種解釋方法主要分為圖像圖和問(wèn)題圖兩種類型。具體來(lái)說(shuō),圖像圖通過(guò)檢測(cè)目標(biāo),把目標(biāo)物體作為節(jié)點(diǎn),目標(biāo)物體之間的關(guān)系作為邊來(lái)構(gòu)造圖;問(wèn)題圖通過(guò)解析VQA任務(wù)中問(wèn)題的語(yǔ)義信息,包括對(duì)象的屬性、關(guān)系等來(lái)建模圖結(jié)構(gòu)。與端到端的黑盒模型相比,加入圖形結(jié)構(gòu)的網(wǎng)絡(luò)可以直觀地為答案提供更多的解釋信息。

2.5.1 圖像圖

基于圖像圖的圖解釋方法主要通過(guò)圖像中目標(biāo)對(duì)象的信息、關(guān)系來(lái)生成圖結(jié)構(gòu),從而為推理過(guò)程提供解釋。Norcliffe-Brown等人[53]提出了一種基于圖解釋的VQA模型。該模型中的圖形學(xué)習(xí)器學(xué)習(xí)以問(wèn)題為條件的圖像的圖形表示,并對(duì)場(chǎng)景中對(duì)象之間的相關(guān)交互進(jìn)行建模。該模型可以學(xué)習(xí)圖像的圖結(jié)構(gòu)表示,然后利用學(xué)習(xí)到的圖結(jié)構(gòu)來(lái)學(xué)習(xí)更好的圖像特征。Li等人[54]提出了一種關(guān)系感知圖注意網(wǎng)絡(luò)ReGAT,它將每個(gè)圖像編碼成一個(gè)圖,并通過(guò)圖注意機(jī)制建模多類型的對(duì)象間關(guān)系,以學(xué)習(xí)問(wèn)題自適應(yīng)關(guān)系表示。ReGAT利用了兩種類型的視覺(jué)對(duì)象關(guān)系:一是表示對(duì)象之間幾何位置和語(yǔ)義交互的顯式關(guān)系,二是捕捉圖像區(qū)域之間隱藏動(dòng)態(tài)的隱式關(guān)系,通過(guò)圖的注意來(lái)學(xué)習(xí)一個(gè)關(guān)系感知的區(qū)域表示。Guo等人[55]從圖的角度重新考察了VQA任務(wù)中的雙線性注意網(wǎng)絡(luò)。經(jīng)典的雙線性注意網(wǎng)絡(luò)建立了一個(gè)雙線性注意圖來(lái)提取問(wèn)題中單詞與圖像中對(duì)象的聯(lián)合表示,但缺乏對(duì)復(fù)雜推理中單詞之間的關(guān)系的充分探索。相比之下,Guo等人開(kāi)發(fā)的雙線性圖網(wǎng)絡(luò)來(lái)建模單詞和對(duì)象的聯(lián)合嵌入的上下文。圖像圖學(xué)習(xí)問(wèn)題中的單詞與圖像中對(duì)象之間的圖,生成它們的聯(lián)合嵌入,而問(wèn)題圖對(duì)單詞之間的圖進(jìn)行建模,以交換上下文信息。圖像圖將檢測(cè)到的對(duì)象的特征傳輸?shù)剿鼈兿嚓P(guān)的查詢?cè)~中,使輸出節(jié)點(diǎn)能夠同時(shí)具有語(yǔ)義和事實(shí)信息。問(wèn)題圖從圖像圖中在這些輸出節(jié)點(diǎn)之間交換信息,以放大對(duì)象之間隱式而重要的關(guān)系。這兩種圖相互合作,因此模型可以建模對(duì)象之間的關(guān)系和依賴關(guān)系,從而實(shí)現(xiàn)多步驟推理。

鄒品榮等人[56]提出了一個(gè)場(chǎng)景關(guān)系視覺(jué)問(wèn)答模型,通過(guò)關(guān)注于圖像中實(shí)體間的語(yǔ)義關(guān)系和空間位置關(guān)系來(lái)分別生成語(yǔ)義關(guān)系圖和空間關(guān)系圖,然后利用圖注意力神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)自適應(yīng)問(wèn)題的視覺(jué)關(guān)系區(qū)域表示,學(xué)習(xí)到的關(guān)系區(qū)域表征最終被送入自注意單元和引導(dǎo)注意單元生成跨媒介的語(yǔ)義特征用以分類輸出答案。該方法在推理的過(guò)程中顯式地提供了圖像中物體間的空間位置關(guān)系和語(yǔ)義關(guān)系,為模型推理出的答案提供事實(shí)依據(jù)作為解釋。張昊雨等人[57]提出了一種基于圖結(jié)構(gòu)的級(jí)聯(lián)注意力模型,用于捕捉不同候選框區(qū)域圖像的空間信息以及與問(wèn)題之間更高的層次關(guān)系。該模型使用單詞嵌入和遞歸神經(jīng)網(wǎng)絡(luò)提取文體特征。對(duì)于圖像表示方法,使用候選框坐標(biāo)和相應(yīng)的圖像特征向量來(lái)構(gòu)建成對(duì)描述符特征。這些文本特征和圖像組合特征被輸入到圖學(xué)習(xí)模塊,用于學(xué)習(xí)一個(gè)鄰接矩陣。該鄰接矩陣使得空間圖卷積不僅關(guān)注圖像中的目標(biāo)對(duì)象,還關(guān)注與問(wèn)題最相關(guān)的對(duì)象關(guān)系。在空間圖卷積的輸入中,除了來(lái)自學(xué)習(xí)模塊的鄰接矩陣,還包括從極坐標(biāo)函數(shù)獲取的空間信息。融合了空間圖卷積和文本特征的特征向量被輸入到后續(xù)的深度級(jí)聯(lián)層網(wǎng)絡(luò),最終通過(guò)預(yù)測(cè)層給出分類答案。總體來(lái)說(shuō),該方法引入了新的關(guān)系編碼方式,可以對(duì)圖像區(qū)域各個(gè)對(duì)象之間的關(guān)系進(jìn)行空間建模,以此來(lái)揭示更加細(xì)粒度的圖像概念,從而為模型提供一個(gè)整體的解釋。

與以上只通過(guò)圖像信息生成圖像圖的視覺(jué)問(wèn)答方法不同,蘭紅等人[58]提出了一個(gè)問(wèn)題引導(dǎo)的空間關(guān)系圖推理視覺(jué)問(wèn)答模型QG-SRGR用于處理圖像圖數(shù)據(jù)。該模型通過(guò)引入問(wèn)題信息的引導(dǎo)實(shí)現(xiàn)了基于問(wèn)題的空間關(guān)系推理。模型利用問(wèn)題引導(dǎo)的聚焦式注意力,分為節(jié)點(diǎn)注意力和邊注意力,用于發(fā)現(xiàn)與問(wèn)題相關(guān)的視覺(jué)對(duì)象和空間關(guān)系。通過(guò)節(jié)點(diǎn)注意力和邊注意力的權(quán)重,構(gòu)造了門控圖推理網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用信息傳遞機(jī)制和控制特征信息的聚合,獲得節(jié)點(diǎn)的深度交互信息,從而學(xué)習(xí)到具有空間感知的視覺(jué)特征表示。通過(guò)這種方式,模型能夠?qū)崿F(xiàn)基于問(wèn)題的空間關(guān)系推理。該方法在圖推理的過(guò)程中,來(lái)自問(wèn)題的注意力信息為圖推理提供了依據(jù),相比傳統(tǒng)的圖推理方法擁有更強(qiáng)的可解釋性。

2.5.2 問(wèn)題圖

理解VQA任務(wù)中的自然語(yǔ)言問(wèn)題并將問(wèn)題解析為邏輯形式是個(gè)困難的任務(wù),目前的一些方法通過(guò)類似于斯坦福解析器[59]的語(yǔ)言解析器來(lái)解析問(wèn)題的結(jié)構(gòu)。問(wèn)題通常包含一個(gè)或兩個(gè)關(guān)系三聯(lián)體,這要求模型由多步推理來(lái)預(yù)測(cè)合理的答案。Cao等人[60]在2019年提出了HVQA模型,通過(guò)知識(shí)路由模塊網(wǎng)絡(luò)KM-Net將問(wèn)題解析為一系列相關(guān)的基本查詢的結(jié)構(gòu)組合來(lái)生成不同的多跳推理問(wèn)題;隨后Cao等人[61]又提出了用于視覺(jué)問(wèn)題推理的語(yǔ)言驅(qū)動(dòng)的圖膠囊網(wǎng)絡(luò),通過(guò)在語(yǔ)言解析樹(shù)的指導(dǎo)下從底部到頂部合并膠囊,在CNN內(nèi)雕刻一個(gè)樹(shù)結(jié)構(gòu)。該方法通過(guò)每個(gè)單獨(dú)解析的語(yǔ)言布局引導(dǎo)膠囊網(wǎng)絡(luò)學(xué)習(xí)每個(gè)圖像問(wèn)題對(duì)的自適應(yīng)推理歷程,CNN中的樹(shù)結(jié)構(gòu)提供了推理的解釋。

Vatashsky等人[62]提出了一種方法,它由兩個(gè)主要部分組成:生成一個(gè)問(wèn)題圖表示和一個(gè)回答過(guò)程。在把問(wèn)題映射為圖的過(guò)程中,將問(wèn)題表示為有向圖,其中節(jié)點(diǎn)表示對(duì)象,邊表示對(duì)象之間的關(guān)系。圖結(jié)構(gòu)的組件包括對(duì)象類、屬性和關(guān)系。節(jié)點(diǎn)表示包括回答此問(wèn)題所需的所有對(duì)象視覺(jué)需求。這種方法將問(wèn)題到圖的任務(wù)作為一個(gè)從自然語(yǔ)言問(wèn)題轉(zhuǎn)換成圖表示的問(wèn)題來(lái)處理,將基于LSTM的序列訓(xùn)練到序列模型[63]。圖在DFS遍歷后被序列化并表示為字符串序列,因此模型任務(wù)是將問(wèn)題序列轉(zhuǎn)換為圖序列。

以上方法中,圖像圖的建模提取了圖像中物體之間的關(guān)系,問(wèn)題圖和回答程序的結(jié)合給了問(wèn)答方法解釋其答案的能力。但是以上方法都是單一的偏向于某一個(gè)單獨(dú)模態(tài)的圖解釋方法,最近Xiong等人[64]應(yīng)用結(jié)構(gòu)化對(duì)齊,使用視覺(jué)和文本內(nèi)容的圖結(jié)構(gòu)表示,旨在捕捉視覺(jué)和文本模式之間的深層聯(lián)系,他們首先將不同的模態(tài)實(shí)體轉(zhuǎn)換為連續(xù)的節(jié)點(diǎn)和鄰接圖,然后合并它們進(jìn)行結(jié)構(gòu)化對(duì)齊。這種方法在改善交叉模態(tài)表示的同時(shí)顯式地表達(dá)了它們的內(nèi)部關(guān)系,更容易被人理解,具有更強(qiáng)的可解釋性。

表5對(duì)比了八種具有代表性的圖解釋方法在VQA v2數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中BGN模型的準(zhǔn)確率最高,該方法從圖的角度對(duì)視覺(jué)問(wèn)答任務(wù)中的雙線性注意網(wǎng)絡(luò)進(jìn)行了新的研究。經(jīng)典的雙線性注意網(wǎng)絡(luò)通過(guò)構(gòu)建雙線性注意圖提取問(wèn)題中的詞與圖像中對(duì)象的聯(lián)合表示,但在復(fù)雜推理中缺乏對(duì)詞之間關(guān)系的充分挖掘。BGN模型使用雙線性圖網(wǎng)絡(luò)來(lái)模擬單詞和對(duì)象的聯(lián)合嵌入上下文信息,該方法研究了圖像圖和問(wèn)題圖兩種圖。圖像圖將被檢測(cè)對(duì)象的特征傳遞到與之相關(guān)的查詢?cè)~上,使輸出節(jié)點(diǎn)同時(shí)具有語(yǔ)義信息和事實(shí)信息;問(wèn)題圖在圖像圖的這些輸出節(jié)點(diǎn)之間交換信息,以放大對(duì)象之間隱式且重要的關(guān)系。這兩類圖之間相互配合,使模型可以對(duì)對(duì)象之間的關(guān)系和依賴關(guān)系進(jìn)行建模,從而實(shí)現(xiàn)多步推理。

3 數(shù)據(jù)集

現(xiàn)有的視覺(jué)問(wèn)答數(shù)據(jù)集種類已經(jīng)十分豐富,但是這些數(shù)據(jù)集大部分存在以下阻礙視覺(jué)問(wèn)答任務(wù)的可解釋性問(wèn)題:a)數(shù)據(jù)集中的圖片不夠貼近真實(shí)世界,很多數(shù)據(jù)集的圖片都是通過(guò)互聯(lián)網(wǎng)收集的,比如VQAv2.0等,這導(dǎo)致訓(xùn)練出來(lái)的模型在實(shí)際應(yīng)用時(shí)難以取得理想的效果;b)視覺(jué)問(wèn)答數(shù)據(jù)集中的單一樣本答案缺乏多樣性,現(xiàn)有的視覺(jué)問(wèn)答數(shù)據(jù)集中有的對(duì)圖像的標(biāo)注信息有很多,但是答案只有一個(gè),缺乏多樣性,此外答案和問(wèn)題的語(yǔ)言也大部分是英文,導(dǎo)致數(shù)據(jù)集應(yīng)用的泛化性受限;c)數(shù)據(jù)集偏見(jiàn)的問(wèn)題,因?yàn)樯婕暗降膯?wèn)題和概念的多樣性巨大且不平衡,往往會(huì)阻止模型學(xué)習(xí)推理,導(dǎo)致它們執(zhí)行有根據(jù)的猜測(cè)[65],從而導(dǎo)致類似于Clever Hans的問(wèn)題出現(xiàn),即模型過(guò)度依賴偏差,阻礙其泛化。表6介紹了一些能增強(qiáng)可解釋性的數(shù)據(jù)集。

最近的研究[69]發(fā)現(xiàn),VQA模型所作出的回答可能依賴于語(yǔ)言相關(guān)性,而不是邏輯推理,例如在VQAv1.0數(shù)據(jù)集上,關(guān)于某個(gè)問(wèn)題,只需要回答“是”就可以獲得40%~90%的準(zhǔn)確率。VQA模型如果僅僅記住訓(xùn)練數(shù)據(jù)中的強(qiáng)語(yǔ)言先驗(yàn)值,就是所謂的語(yǔ)言偏見(jiàn),VQA-CP[69]提出的減輕語(yǔ)言偏見(jiàn)的一個(gè)簡(jiǎn)單解決方案是通過(guò)使用額外的注釋或數(shù)據(jù)擴(kuò)充來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù),比如利用上文提到的視覺(jué)解釋和文本解釋提高視覺(jué)標(biāo)注能力[4];此外,在數(shù)據(jù)集中生成對(duì)抗樣本[70~72]有助于平衡訓(xùn)練數(shù)據(jù)。這些方法證明了無(wú)偏見(jiàn)的訓(xùn)練對(duì)提高VQA模型泛化性的效果。然而,VQA-CP的提出是為了驗(yàn)證VQA模型是否能夠分離學(xué)習(xí)的視覺(jué)知識(shí)和記憶的語(yǔ)言先驗(yàn)[69],因此,如何在有偏訓(xùn)練下進(jìn)行無(wú)偏推理仍然是一個(gè)主要挑戰(zhàn)。目前已有的解決方案包括通過(guò)在訓(xùn)練集中使用單獨(dú)的僅提問(wèn)分支來(lái)學(xué)習(xí)語(yǔ)言先驗(yàn)[73]和一種稱為CF-VQA的新型反事實(shí)推理框架[74],以減少VQA中的語(yǔ)言偏見(jiàn)。具體來(lái)說(shuō),CF-VQA將語(yǔ)言偏見(jiàn)表述為問(wèn)題對(duì)答案的直接因果效應(yīng),并通過(guò)從總因果效應(yīng)中減去直接語(yǔ)言效應(yīng)來(lái)緩解偏見(jiàn)。Zhao等人[75]提出了一種由基本模型分支、僅問(wèn)題模型分支和可視化模型分支三部分組成的進(jìn)一步改進(jìn)視覺(jué)內(nèi)容的方法,以增強(qiáng)視覺(jué)內(nèi)容對(duì)答案的影響。由此可見(jiàn),VQA任務(wù)可以通過(guò)對(duì)數(shù)據(jù)集的修改來(lái)解決視覺(jué)問(wèn)答問(wèn)?題中的語(yǔ)言偏見(jiàn)問(wèn)題從而能夠讓模型輸出的答案更加準(zhǔn)確合理,容易被人理解。

4 展望與挑戰(zhàn)

單一的圖像解釋和文本解釋存在難以反映推理過(guò)程的共同問(wèn)題,其中,利用外部知識(shí)庫(kù)的文本解釋方法還存在依賴外部知識(shí)庫(kù)的問(wèn)題。模塊化方法雖然能直觀體現(xiàn)推理過(guò)程的每個(gè)步驟,但是卻存在泛化能力差的問(wèn)題。圖解釋方法不僅可以反映推理過(guò)程,而且可以融合圖像解釋和文本解釋方法,但是當(dāng)圖結(jié)構(gòu)中節(jié)點(diǎn)較多時(shí),存在模型效率變低的問(wèn)題。多模態(tài)解釋的方法能充分利用數(shù)據(jù)中的信息,更接近人類直觀感受,但是與單一的解釋方法相比模型比較復(fù)雜。表7對(duì)本文討論的視覺(jué)問(wèn)答可解釋性方法進(jìn)行了總結(jié),并在最后提出了已有的問(wèn)題和未來(lái)的發(fā)展方向。

由此可見(jiàn),可解釋的視覺(jué)問(wèn)答仍是一個(gè)新興的研究,仍然有很多方面等待發(fā)展和優(yōu)化。具體而言,有以下幾個(gè)方面:a)多圖解釋結(jié)合,將文本生成的問(wèn)題圖和圖片生成的場(chǎng)景圖結(jié)合,同時(shí)可以將外部知識(shí)和信息轉(zhuǎn)換成類似于知識(shí)圖譜的結(jié)構(gòu)化信息加入到圖推理中;b)探索更多與模型無(wú)關(guān)的視覺(jué)問(wèn)答可解釋方法,當(dāng)解釋方法可以應(yīng)用于任何模型時(shí),機(jī)器學(xué)習(xí)開(kāi)發(fā)人員可以自由使用他們喜歡的任何機(jī)器學(xué)習(xí)模型,任何建立在機(jī)器學(xué)習(xí)模型解釋上的東西,如圖形或用戶界面,也獨(dú)立于底層機(jī)器學(xué)習(xí)模型;c)將基于實(shí)例的可解釋方法應(yīng)用到視覺(jué)問(wèn)答系統(tǒng)中,例如加入反事實(shí)樣本和對(duì)抗樣本等,這種方法同時(shí)也是與模型無(wú)關(guān)的方法,但是基于實(shí)例的方法通過(guò)選擇數(shù)據(jù)集的實(shí)例而不是通過(guò)創(chuàng)建特征來(lái)解釋模型,如反事實(shí)解釋、對(duì)抗樣本、有影響的實(shí)例等可解釋方法都是基于實(shí)例的;d)可解釋性缺乏評(píng)價(jià)指標(biāo),目前的可解釋方法很多,但是缺乏評(píng)價(jià)指標(biāo),所以難以比較哪種可解釋性方法更好;e)可以利用可解釋性來(lái)增強(qiáng)模型的魯棒性,目前的視覺(jué)問(wèn)答系統(tǒng)對(duì)問(wèn)題或圖像中的信息十分敏感,如果修改圖片或者問(wèn)題中的句子就可能導(dǎo)致答案的變化,從而魯棒性降低,如果利用類似于模型解耦[76]等可以增強(qiáng)模型可解釋性的方法找出問(wèn)題和圖像中對(duì)改變答案影響大的區(qū)域,然后再有針對(duì)性地優(yōu)化模型,就可以提高模型的魯棒性,然而目前視覺(jué)問(wèn)答中這方面的研究較少;f)深度神經(jīng)網(wǎng)絡(luò)可解釋性研究理論框架的缺失問(wèn)題,近年來(lái),深度學(xué)習(xí)可解釋性的研究雖然有諸多的進(jìn)展,但是依舊缺乏理論體系框架的支撐,使得研究的創(chuàng)新點(diǎn)過(guò)于分散,后來(lái)者很難收集前人的足跡點(diǎn)進(jìn)行對(duì)比研究,評(píng)估并從中作出具有突破性的創(chuàng)新點(diǎn)。

5 結(jié)束語(yǔ)

可解釋性是一個(gè)非常有前景的研究領(lǐng)域,該領(lǐng)域已經(jīng)成為國(guó)內(nèi)外學(xué)者的研究熱點(diǎn),并且取得了許多矚目的研究成果。但到目前為止,視覺(jué)問(wèn)答與推理的可解釋性研究還處于初級(jí)階段,依然存在許多關(guān)鍵問(wèn)題尚待解決。為了總結(jié)現(xiàn)有研究成果的優(yōu)勢(shì)與不足,探討未來(lái)研究方向,本文從可解釋性相關(guān)方法進(jìn)行了歸類、總結(jié)和分析,同時(shí)討論了當(dāng)前研究面臨的挑戰(zhàn)和未來(lái)潛在的研究方向,旨在為推動(dòng)視覺(jué)問(wèn)答的解釋性研究的進(jìn)一步發(fā)展提供幫助。

參考文獻(xiàn):

[1]Antol S, Agrawal A, Lu Jiasen, et al. VQA: visual question answe-ring[C]//Proc of IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society,2015:2425-2433.

[2]Marino K, Rastegari M, Farhadi A, et al. OK-VQA:a visual question answering benchmark requiring external knowledge[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3190-3199.

[3]Wachter S, Mittelstadt B, Russell C. Counterfactual explanations without opening the black box: automated decisions and the GDPR[EB/OL].(2018-03-21).https://arxiv.org/abs/1711.00399.

[4]Selvaraju R R, Lee S, Shen Yilin, et al. Taking a hint: leveraging explanations to make vision and language models more grounded[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:2591-2600.

[5]Peng Liang, Yang Yang, Wang Zheng, et al. MRA-Net:improving VQA via multi-modal relation attention network[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(1):318-329.

[6]Ben-Younes H, Cadene R, Cord M, et al. MUTAN: multimodal tucker fusion for visual question answering[C]//Proc of IEEE International Conference on Computer Vision. Washington DC:IEEE Computer Society,2017:2612-2620.

[7]Wang Yu, Shen Yilin, Jin Hongxia. An interpretable multimodal visual question answering system using attention-based weighted contextual features[C]//Proc of the 19th International Conference on Autonomous Agents and Multi-agent Systems.Richland, SC:International Foundation for Autonomous Agents and Multiagent Systems,2020:2038-2040.

[8]Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J].Neural networks,2005,18(5-6):602-610.

[9]Qiao Tingting, Dong Jianfeng, Xu Duanqing. Exploring human-like attention supervision in visual question answering[EB/OL].(2017-09-19).https://arxiv.org/abs/1709.06308.

[10]Zhang Yundong, Niebles J C, Soto A. Interpretable visual question answering by visual grounding from attention supervision mining[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2019:349-357.

[11]Miller T. Explanation in artificial intelligence: insights from the social sciences[J].Artificial Intelligence,2019,267(2):1-38.

[12]Kim B, Khanna R, Koyejo O. Examples are not enough. Learn to criticize! Criticism for interpretability[C]//Proc of the 30th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2016:2288-2296.

[13]陳婷,王玉德,任志偉.基于問(wèn)題增強(qiáng)的問(wèn)題引導(dǎo)圖像視覺(jué)問(wèn)答算法[J].通信技術(shù),2022,55(2):166-173.(Chen Ting, Wang Yude, Ren Zhiwei. Question-guided image attention based on question enhancement for visual question answering[J].Communication Technology,2022,55(2):166-173.)

[14]Shetty R, Fritz M, Schiele B. Adversarial scene editing:automatic object removal from weak supervision[C]//Proc of the 32nd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2018:7717-7727.

[15]Fong R C, Vedaldi A. Interpretable explanations of black boxes by meaningful perturbation[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3429-3437.

[16]Liu Runtao, Liu Chenxi, Bai Yutong, et al. CLEVR-Ref+: diagnosing visual reasoning with referring expressions[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:4180-4189.

[17]Rissanen J. Modeling by shortest data description[J].Automatica,1978,14(5):465-471.

[18]Johnson J, Hariharan B, Van Der Maaten L, et al. Inferring and executing programs for visual reasoning[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3008-3017.

[19]Agarwal V, Shetty R, Fritz M. Towards causal VQA: revealing and reducing spurious correlations by invariant and covariant semantic editing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:9687-9695.

[20]Simonyan K, Vedaldi A, Zisserman A. Deep inside convolutional networks: visualising image classification models and saliency maps[EB/OL].(2014-04-19).https://arxiv.org/abs/1312.6034.

[21]Shrikumar A, Greenside P, Kundaje A. Learning important features through propagating activation differences[C]//Proc of the 34th International Conference on Machine Learning.2017:3145-3153.

[22]Sundararajan M, Taly A, Yan Qiqi. Axiomatic attribution for deep networks[C]//Proc of the 34th International Conference on Machine Learning.2017:3319-3328.

[23]Halbe S. Exploring weaknesses of VQA models through attribution driven insights[C]//Proc of the 2nd Grand-Challenge and Workshop on Multimodal Language.Stroudsburg,PA:Association for Computational Linguistics,2020:64-68.

[24]Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM:visual explanations from deep networks via gradient-based localization[J].International Journal of Computer Vision,2020,128(2):336-359.

[25]Boukhers Z, Hartmann T, Jürjens J. COIN: counterfactual image generation for VQA interpretation[J].Sensors,2022,22(6):2245.

[26]Das A, Agrawal H, Zitnick L, et al. Human attention in visual question answering:do humans and deep networks look at the same regions?[J].Computer Vision and Image Understanding,2017,163(10):90-100.

[27]Park D H, Hendricks L A, Akata Z, et al. Multimodal explanations:justifying decisions and pointing to the evidence[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:8779-8788.

[28]Farhadi A, Hejrati M, Sadeghi M A, et al. Every picture tells a story: generating sentences from images[C]//Proc of the 11th European Conference on Computer Vision.Cham:Springer,2010:15-29.

[29]Kulkarni G, Premraj V, Ordonez V, et al. BabyTalk: understanding and generating simple image descriptions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(12):2891-2903.

[30]Mao Junhua, Xu Wei, Yang Yi, et al. Deep captioning with multimodal recurrent neural networks (m-RNN)[EB/OL].(2015-06-11).https://arxiv.org/abs/1412.6632.

[31]Xu K, Ba J, Kiros R, et al. Show, attend and tell: neural image caption generation with visual attention[C]//Proc of the 32nd International Conference on International Conference on Machine Lear-ning.2015:2048-2057.

[32]Li Qing, Tao Qingyi, Joty S, et al. VQA-E:explaining,elaborating, and enhancing your answers for visual questions[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:570-586.

[33]Cai Wenliang, Qiu Guoyong. Visual question answering algorithm based on image caption[C]//Proc of the 3rd IEEE Information Technology,Networking, Electronic and Automation Control Conference.Piscataway,NJ:IEEE Press,2019:2076-2079.

[34]Hendricks L A, Akata Z, Rohrbach M, et al. Generating visual explanations[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:3-19.

[35]Wang Peng, Wu Qi, Shen Chunhua, et al. FVQA:fact-based visual question answering[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(10):2413-2427.

[36]Tandon N, De Melo G, Suchanek F, et al. WebChild: harvesting and organizing commonsense knowledge from the Web[C]//Proc of the 7th ACM International Conference on Web Search and Data Mi-ning.New York:ACM Press,2014:523-532.

[37]Auer S, Bizer C, Kobilarov G, et al. DBpedia:a nucleus for a Web of open data[C]//Proc of the 6th International Semantic Web Confe-rence.Berlin:Springer,2007:722-735.

[38]Liu H, Singh P. ConceptNet: a practical commonsense reasoning tool-kit[J].BT Technology Journal,2004,22(4):211-226.

[39]Narasimhan M, Schwing A G. Straight to the facts: learning know-ledge base retrieval for factual visual question answering[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:451-468.

[40]Basu K, Shakerin F, Gupta G. AQuA: ASP-based visual question answering[C]//Proc of the 22nd International Symposium on Practical Aspects of Declarative Languages.Cham:Springer,2020:57-72.

[41]Riquelme F, De Goyeneche A, Zhang Yundong, et al. Explaining VQA predictions using visual grounding and a knowledge base[J].Image and Vision Computing,2020,101(9):103968.

[42]Yu Jing, Zhu Zihao, Wang Yujing, et al. Cross-modal knowledge reasoning for knowledge-based visual question answering[J].Pattern Recognition,2020,108(12):107563.

[43]Wang Yanan, Yasunaga M, Ren Hongyu, et al. VQA-GNN:reaso-ning with multimodal semantic graph for visual question answering[EB/OL].(2022-05-23).https://arxiv.org/abs/2205.11501.

[44]Ding Yang, Yu Jing, Liu Bang, et al. MuKEA: multimodal knowledge extraction and accumulation for knowledge-based visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:5079-5088.

[45]Wu Jialin, Mooney R J. Faithful multimodal explanation for visual question answering[C]//Proc of ACL Workshop BlackboxNLP:Analyzing and Interpreting Neural Networks for NLP. Stroudsburg,PA:Association for Computational Linguistics,2019:103-112.

[46]Zhang Weifeng, Yu Jing, Zhao Wenhong, et al. DMRFNet:deep multimodal reasoning and fusion for visual question answering and explanation generation[J].Information Fusion,2021,72(8):70-79.

[47]鄒蕓竹,杜圣東,滕飛,等.一種基于多模態(tài)深度特征融合的視覺(jué)問(wèn)答模型[J].計(jì)算機(jī)科學(xué),2023,50(2):123-129.(Zou Yunzhu, Du Shengdong, Teng Fei, et al. Visual question answering model based on multi-modal deep feature fusion[J].Computer Science, 2023,50(2):123-129.)

[48]Andreas J, Rohrbach M, Darrell T, et al. Neural module networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2016:39-48.

[49]Hu Ronghang, Andreas J, Rohrbach M, et al. Learning to reason:end-to-end module networks for visual question answering[C]//Proc of IEEE International Conference on Computer Vision. Washington DC:IEEE Computer Society,2017:804-813.

[50]Hu Ronghang, Andreas J, Darrell T, et al. Explainable neural computation via stack neural module networks[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:53-71.

[51]Shi Jiaxin, Zhang Hanwang, Li Juanzi. Explainable and explicit visual reasoning over scene graphs[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:8368-8376.

[52]Ren Mucheng, Huang Heyan, Gao Yang. Prediction or comparison: toward interpretable qualitative reasoning[EB/OL].(2021-06-04).https://arxiv.org/abs/2106.02399.

[53]Norcliffe-Brown W, Vafeias E, Parisot S. Learning conditioned graph structures for interpretable visual question answering [C]// Proc of the 32nd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2018:8344-8353.

[54]Li Linjie, Gan Zhe, Cheng Yu, et al. Relation-aware graph attention network for visual question answering[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:10312-10321.

[55]Guo Dalu, Xu Chang, Tao Dacheng. Bilinear graph networks for visual question answering[J].IEEE Trans on Neural Networks and Learning Systems,2023,34(2):1023-1034.

[56]鄒品榮,肖鋒,張文娟,等.融合場(chǎng)景語(yǔ)義與空間關(guān)系的視覺(jué)問(wèn)答[J].西安工業(yè)大學(xué)學(xué)報(bào),2023,43(1):56-65.(Zou Pinrong, Xiao Feng, Zhang Wenjuan, et al. Visual question answering based on scene semantic relation and spatial relation[J].Journal of Xian Technological University,2023,43(1):56-65.)

[57]張昊雨,張德.基于圖結(jié)構(gòu)的級(jí)聯(lián)注意力視覺(jué)問(wèn)答模型[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(6):155-161.(Zhang Haoyu, Zhang De. Cascaded attention visual question answering model based on graph structure[J].Computer Engineering and Applications,2023,59(6):155-161.)

[58]蘭紅,張蒲芬.問(wèn)題引導(dǎo)的空間關(guān)系圖推理視覺(jué)問(wèn)答模型[J].中國(guó)圖象圖形學(xué)報(bào),2022,27(7):2274-2286.(Lan Hong, Zhang Pufen. Question-guided spatial relation graph reasoning model for visual question answering[J].Journal of Image and Graphics,2022,27(7):2274-2286.)

[59]Klein D. Manning C D. Accurate unlexicalized parsing[C]//Proc of the 41st Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2003:423-430.

[60]Cao Qingxing, Li Bailin, Liang Xiaodan, et al. Explainable high-order visual question reasoning:a new benchmark and knowledge-routed network[EB/OL].(2019-09-23).https://arxiv.org/abs/1909.10128.

[61]Cao Qingxing, Liang Xiaodan, Wang Keze, et al. Linguistically driven graph capsule network for visual question reasoning[EB/OL].(2020-03-23).https://arxiv.org/abs/2003.10065.

[62]Vatashsky B Z, Ullman S. VQA with no questions-answers training[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10373-10383.

[63]Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:3104-3112.

[64]Xiong Peixi, You Quanzeng, Yu Pei, et al. SA-VQA:structured alignment of visual and semantic representations for visual question answering[EB/OL].(2022-01-25).https://arxiv.org/abs/2201.10654.

[65]Kervadec C, Antipov G, Baccouche M, et al. Roses are red, violets are blue… but should VQA expect them to?[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2021:2775-2784.

[66]Plummer B A, Wang Liwei, Cervantes C M, et al. Flickr30k Entities: collecting region-to-phrase correspondences for richer image-to-sentence models[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:2641-2649.

[67]Krishna R, Zhu Yuke, Groth O, et al. Visual Genome: connecting language and vision using crowdsourced dense image annotations[J].International Journal of Computer Vision,2017,123(1):32-73.

[68]Zhu Yuke, Groth O, Bernstein M, et al. Visual7W: grounded question answering in images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:4995-5004.

[69]Agrawal A, Batra D, Parikh D, et al. Dont just assume; look and answer: overcoming priors for visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4971-4980.

[70]Chen Long, Yan Xin, Xiao Jun, et al. Counterfactual samples synthesizing for robust visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2020:10797-10806.

[71]Abbasnejad E, Teney D, Parvaneh A, et al. Counterfactual vision and language learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10041-10051.

[72]Liang Zujie, Jiang Weitao, Hu Haifeng, et al. Learning to contrast the counterfactual samples for robust visual question answering[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2020:3285-3292.

[73]Cadene R, Dancette C, Ben-Younes H, et al. RUBi:reducing unimodal biases for visual question answering[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:841-852.

[74]Niu Yulei, Tang Kaihua, Zhang Hanwang, et al. Counterfactual VQA:a cause-effect look at language bias[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:12695-12705.

[75]Zhao Jia, Zhang Xuesong, Wang Xuefeng, et al. Overcoming language priors in VQA via adding visual module[J].Neural Computing and Applications,2022,34(11):9015-9023.

[76]Hu Jie, Cao Liujuan, Tong Tong, et al. Architecture disentanglement for deep neural networks[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:652-661.

猜你喜歡
人工智能
我校新增“人工智能”本科專業(yè)
用“小AI”解決人工智能的“大”煩惱
汽車零部件(2020年3期)2020-03-27 05:30:20
當(dāng)人工智能遇見(jiàn)再制造
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
AI人工智能解疑答問(wèn)
人工智能與就業(yè)
基于人工智能的電力系統(tǒng)自動(dòng)化控制
人工智能,來(lái)了
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
人工智能來(lái)了
主站蜘蛛池模板: 日韩区欧美国产区在线观看| 国产国拍精品视频免费看| 亚洲天堂视频在线观看| 久久伊人操| 国产不卡在线看| 日韩中文欧美| 精品久久人人爽人人玩人人妻| yjizz国产在线视频网| 国产精品视频白浆免费视频| 日韩精品亚洲一区中文字幕| 日韩免费中文字幕| av免费在线观看美女叉开腿| 尤物午夜福利视频| 91毛片网| 亚洲av片在线免费观看| 国产亚洲精久久久久久久91| 91免费在线看| 久热中文字幕在线观看| 最新国产精品第1页| 欧美亚洲日韩中文| 88av在线| 少妇精品在线| 一本大道视频精品人妻 | 白浆视频在线观看| 亚洲一区二区三区国产精品 | 毛片久久久| 色综合久久88| 久久久久国色AV免费观看性色| 日本影院一区| 在线无码av一区二区三区| 国产成年女人特黄特色毛片免 | 狠狠综合久久| 91综合色区亚洲熟妇p| 日韩午夜伦| 无码高潮喷水专区久久| 草草线在成年免费视频2| 不卡无码网| 亚洲第一天堂无码专区| 67194在线午夜亚洲 | 国内黄色精品| 都市激情亚洲综合久久| 国产丝袜一区二区三区视频免下载| 亚洲日韩每日更新| 欧美成人看片一区二区三区| 欧美午夜在线视频| 久草视频福利在线观看 | 成人午夜视频网站| 超碰色了色| 国产97色在线| 欧美性猛交一区二区三区| 一级毛片免费不卡在线 | 无码国产偷倩在线播放老年人| 国产福利2021最新在线观看| 波多野结衣中文字幕一区二区| 久久天天躁狠狠躁夜夜2020一| 国产综合色在线视频播放线视 | 日韩一区精品视频一区二区| 中文毛片无遮挡播放免费| 伊人91视频| 99re在线免费视频| 亚洲视频三级| 国产精品国产三级国产专业不| 91在线视频福利| 欧美一级在线播放| www.精品国产| 九九香蕉视频| 国产成人精品第一区二区| 免费看的一级毛片| 青青草国产免费国产| 亚洲无码高清视频在线观看| 一级毛片网| 亚洲AⅤ无码日韩AV无码网站| 91av国产在线| 三上悠亚在线精品二区| 日韩毛片基地| 国产一级毛片yw| 97色伦色在线综合视频| 中文字幕第1页在线播| 狠狠色香婷婷久久亚洲精品| 欧美一级大片在线观看| 久久精品视频一| 国产人在线成免费视频|