王瑞平,吳士泓,張美航,王小平
1.遠光軟件股份有限公司遠光研究院,廣東 珠海 519085
2.華中科技大學 人工智能與自動化學院,武漢 430074
3.武漢科技大學 機械自動化學院,武漢 430081
視覺問答是隨計算機視覺和自然語言處理的成熟而衍生出的一門多學科跨模態人機交互技術,其過程伴隨著對視覺和語言特征的感知、識別和理解,以及跨模態融合推理,具有重要的理論研究價值,此外,視覺問答也被認為是人工智能邁向更高層次的重要途徑,極具應用潛力。
視覺問答系統主要由三部分組成,分別是視覺特征處理、語言特征處理和跨模態特征融合。語言特征處理是視覺問答任務的重點和難點之一,其核心方法和理論源于自然語言處理。語言特征處理涉及的關鍵技術包括但不限于命名實體識別、常識推理、關系抽取和邏輯推理,此外,還包括跨模態融合及答案生成。
針對視覺問答中的語言處理方法,相關綜述已經對其進行了歸納總結。例如Zhang等人[1]從圖像和視頻問答入手,簡要分析了相關研究中所使用的語言處理方法,并指出不論在圖像問答還是視頻問答,LSTM[2]和GRU[3]都是當前最受歡迎的語言編碼方式;Manmadhan和Kovoor[4]對語言處理方法的研究則更為具體和深入,他們以單詞和文本嵌入為切入點進行分類闡述,討論了詞嵌入近來的發展趨勢,并對最先進視覺問答模型中所使用語言處理方法進行了對比分析,其中使用情況統計結果如圖1所示。

圖1 語言處理方法使用情況統計Fig.1 Usage statistics of language processing methods
更普遍的情況出現在已公開發表的視覺問答論文當中,每一篇研究視覺問答的文章都會對所涉及語言處理方法進行描述。例如Zhang 等人[5]使用雙向GRU 進行詞表達,以實現問題表征,而在答案生成階段,則使用了基礎GRU方法,同樣使用雙向GRU進行問題表達的還有Urooj等人[6];Sharma等人[7]利用GRU進行問題表達,使用LSTM執行答案生成;Rahman等人[8]使用GloVe[9]+LSTM 的方式來編碼輸入問題,其中GloVe 執行單詞嵌入,LSTM 用于問題特征生成和與視覺特征的融合;Whitehead 等人[10]使用了BERT[11]對語言特征進行提取和表達。盡管上述文獻均涉及到了對語言處理方法的描述,但多數情況下僅僅是指出所選用的方法及基礎理論模型,并不會給出選擇原因。此外,通過進一步觀察和分析語言處理方法在每一篇文章中所占比重,能夠發現語言處理方法并不受視覺問答研究群體重視。
形成鮮明對比的是近年來自然語言處理技術的快速發展。李舟軍等人[12]將自然語言處理分為三個階段,分別是以Word2Vec[13-14]和GloVe[9]為代表的靜態詞嵌入技術,以ELMo[15]、GPT[16]和BERT 模型[11]為代表的動態預訓練技術,以BERT改進模型[17-18]和XLNet[19]為代表的新式預訓練模型,其中靜態詞嵌入技術常與LSTM 和GRU 結合使用。陳德光等人[20]將自然語言處理的預訓練方法分為傳統預訓練技術和神經網絡預訓練技術,并對兩者進行了細致闡述。此外,他們還針對自然語言處理算法模型的壓縮方法進行了分類陳述,對具體應用領域的研究進展進行了介紹。Otter 等人[21]重點調查了深度學習在自然語言處理中的應用,并對自然語言處理的整個體系進行了細致介紹,如語言模型和詞嵌入的關系,語言模型的構建、評估,以及幾類具有不同理論基礎的語言模型,并進一步對自然語言處理中涉及到的詞法、句法、語法和語義進行了介紹;最后,還對自然語言處理應用進行了細致探討和分析,指出Transformer 已經開始取代LSTM單元。結合上述調研結果,通過總結和分析,發現自然語言處理目前正朝著基礎理論研究和應用性能提升兩個方向快速發展。
縱觀視覺問答中的語言處理方法和自然語言處理領域的發展現狀,很容易感受到兩者之間的發展進程不一致。以圖1所展示的語言處理方法和李舟軍等人[12]提出的自然語言處理三個發展階段進行對比,不難發現目前在視覺問答中廣泛使用的語言處理方法在整個自然語言處理體系中基本都處于第一階段,即以Word2Vec和GloVe 為代表的靜態詞嵌入技術,甚至還出現了像One-hot這種在自然語言處理領域已經要被淘汰的語言編碼技術。較高層次的動態預訓練技術僅在Whitehead等人[10]推薦的視覺問答中有所涉及,而更高層次的新式動態預訓練技術[12]則尚未在視覺問答文獻中被發現。
本文重點分析了視覺問答中語言處理方法的重要價值,調查并整理了視覺問答中涉及到的語言處理方法和最新研究進展,歸納總結了自然語言處理在視覺問答中涉及的相關應用場景,并在文章結尾展望了語言處理方法的未來發展方向以及自然語言處理技術對視覺問答的推動作用。
傳統視覺問答系統中,語言處理是關注度最低的關鍵技術之一。大多數視覺問答的研究焦點是多模態融合及關系推理,對于視覺和語言處理方法的重視程度相對較低。但近年隨著來面向視覺的關系推理和視覺語義網絡提出,被看作是提升視覺問答準確性的有效途徑,進而推動了視覺處理在視覺問答中的快速發展。語言處理相對視覺處理而言,研究領域和應用場景相對較窄,且目前廣泛使用的深度神經網絡與自然語言處理的結合又比與計算機視覺要晚,在各種因素的影響下,導致視覺問答中語言處理方法的研究進展較為緩慢。此處通過對近年來視覺問答領域相關性較強的論文進行分析,得到如圖2所示結果。

圖2 視覺問答中關鍵支撐技術歷年情況統計Fig.2 Statistics of key supporting technologies in visual question answering over years
圖2 對視覺問答涉及的三類關鍵技術從2016 到2021 年近六年的相關研究情況進行了統計,發現除2016年并沒有涉及多模態融合和推理外,其余每一年都有大量相關研究工作公開發表,且數量遠超視覺和語言處理;而語言處理領域的論文數量除2018 和2019 年超過視覺處理外,其余年份均低于視覺處理。為了更加直觀展示兩者之間的關系變化情況,這里引入相關論文的累計發表數量進行評價,如圖3所示。

圖3 視覺問答相關技術的論文累積發表情況Fig.3 Cumulative publications of papers on visual question answering technologies
圖3相比于圖2更加直觀地展示了各關鍵技術近年來相關研究成果的總體變化情況。在收集的92篇視覺問答論文中,研究多模態融合與推理的共計74篇(占比80.4%),研究視覺處理的31篇(占比33.7%),研究語言處理的24篇(占比26.1%)。很顯然,針對語言處理方法的研究在低于多模態融合與關系推理外,同樣也低于視覺處理。
然而,作為視覺問答中關注度最低的關鍵支撐技術,語言處理方法所發揮的作用和存在的意義卻極為重要。圖4展示了常規視覺問答組成。

圖4 常規視覺問答組成Fig.4 Regular visual question answering composition
其中“+”用來表示跨模態融合與推理,“=”表示生成或得到答案的過程。通過圖4可知,常規視覺問答是輸入一幅圖像和一個問題,得到一個答案,并循環往復這一過程。但在某些時候,這一標準模式會被改變,例如將輸入圖像、問題或輸出答案進行壓縮合并,得到如圖5所示的情況。

圖5 壓縮某一部分輸入輸出后的視覺問答Fig.5 Visual question answering after compressing certain part of input and output
圖5(a)合并了輸入圖像,此時的視覺問答轉變為視覺對話;圖5(b)合并了輸入問題,即針對多張不同圖像,僅完成針對某一個問題的回復,此時的視覺問答退化成一個類似于目標檢測、識別或者關系推理問題;圖5(c)合并了輸出答案,屬于視覺問答中的一種特殊情況,即面向不同圖像通過輸入不同問題后獲得了相同答案,這類研究可以用于科學問題探索,以找出不同現象背后的本質原因。
進一步對圖5(a)~(c)進行分析能夠發現如下現象:(1)面對同一幅圖像,不同的輸入問題會產生不同的答案,如圖5(a)所示;(2)不同的輸入圖像,也有可能獲得完全相同的答案,這取決于輸入問題引導,如圖5(c)所示;(3)同一個問題,有可能會得到完全不同的答案,如圖5(b)所示,這源于問題的選擇。上述分析結果表明,視覺問答中輸入問題的選擇、設定和引導對于視覺問答最終結果具有極大影響,換言之,輸入問題不同可能會產生不同的答案類型和結果,因此,解析輸入問題的語言處理方法意義重大。
語言處理方法是視覺問答的重要組成部分,但針對視覺問答中語言處理方法的文獻綜述尚未被公開發表。本章將對圖2和圖3所整理的視覺問答相關論文進行總結歸納,并按照是否針對語言處理方法展開研究,研究是在傳統自然語言處理的基礎上進行改進優化,還是有針對性地提出一套全新理論,以此對語言處理方法進行劃分。
其中第一類方法直接采用成熟的自然語言處理技術,未對其進行改良和優化而直接作為視覺問答的語言處理,這一類方法本文將其稱為基礎型方法;第二類引入了更加先進的自然語言處理技術,或者在傳統技術的基礎上進行了卓有成效的調整和改進,使其能夠更好地與視覺特征進行多模態融合及關系推理,以獲得更加準確的答案,這一類語言處理方法被稱為進階型語言處理方法;第三類方法不同于目前已經公開的自然語言處理方法,而是研究人員根據提出的視覺問答模型中各個組成的內在需求重新設計語言處理方法,此類方法被稱為專有型語言處理方法。
語言處理作為視覺問答的關鍵支撐技術,在每一類視覺問答方法中都會被用到,然而,并不是所有新提出的視覺問答方法都會針對語言處理部分進行研究,多數情況下僅僅是將自然語言處理中成熟的方法引入到視覺問答中,然后與視覺特征進行跨模態融合,實現關系推理。
基礎型語言處理方法在三類方法中占有較高比重,因此這部分工作目前已經在眾多視覺問答相關綜述中被涉及。例如Manmadhan 等人[4]針對視覺問答開展的綜述,以及Zhang 等人[1]針對信息融合開展的研究均對語言處理方法有所討論,但上述文獻對語言處理方法的討論過于籠統。同時,發現在閱讀某一篇論文時,常常會出現兩種或多種語言處理方法,究其原因,是相關研究人員在分析視覺問答的語言處理過程時并沒有將詞嵌入(word embedding)和詞表達(word representation)區分開來,從而導致了語言處理方法闡述的混亂。本節將針對語言處理過程中的詞嵌入和詞表達分別進行分析,以獲得對語言處理方法更加清晰的認知。表1對基礎型語言處理中的詞嵌入方法進行了整理歸納。

表1 基礎型語言處理中的詞嵌入方法統計Table 1 Statistics of word embedding methods in language processing
通過對公開發表的92篇與視覺問答具有強相關性的論文進行統計分析,發現屬于基礎型語言處理方法的共計64 篇,其中能夠明確找出詞嵌入方法類型的共計53篇,其余11篇作者并未提及具體使用的詞嵌入方法,例如Bai 等人[72]和Yu 等人[73]的研究成果。而在能夠確定詞嵌入方法類型的53篇論文中所使用的詞嵌入方法主要分為五類,分別是One-hot、BoW、Word2Vec、GloVe和Skip-thought。
進一步對上述53篇論文中所使用的詞嵌入方法進行分析,能夠發現如下現象:(1)GloVe詞嵌入方法在視覺問答中占據主要地位,特別是在2018 年之后,換言之,GloVe是目前使用最為廣泛的詞嵌入方法;(2)Onehot在2017 和2018 年使用較多,而在GloVe 出現并被廣泛使用后,One-hot逐漸被放棄;(3)BoW和Skip-thought僅僅在某一時間段被使用,這也說明這兩種方法存在著極大弊端;(4)Word2Vec 盡管每年數量不多,但持續在被使用,可見其本身具備某些優異性能。總體來說,GloVe是目前使用最廣的詞嵌入方法,其余方法使用較少。進一步的,對詞表達方法的使用情況也進行總結歸納,見表2所示。

表2 基礎型語言處理中的詞表達方法統計Table 2 Statistics of word embedding methods in language processing
表2所展示的統計結果表明,基礎型語言處理方法中所包含的詞表達方法共有四類,分別是LSTM[2]、GRU[3]、Bi-LSTM和Bi-GRU,其中,Bi-LSTM和Bi-GRU表示雙向LSTM和雙向GRU。顯然,LSTM和GRU兩者相比于Bi-LSTM和Bi-GRU具有明顯優勢,而LSTM和GRU之間并沒有顯著差異。為了直觀展示基礎型語言處理方法中詞嵌入方法和詞表達方法的歷年變化情況,本節將表1和表2的結果進行了可視化處理,并展示在圖6中。

圖6 視覺問答語言處理方法隨時間變化曲線Fig.6 Time-varying curve of language processing methods for visual question answering
相比基礎型語言處理方法,進階型語言處理方法的最大區別在于并沒有在詞嵌入和詞表達過程中使用表1和表2中所涉及的傳統語言處理方法,而是引入了自然語言處理領域更加先進的語義處理模型,例如Bert 和Transformer等,這些語言模型往往是在傳統的LSTM以及GRU 基礎上發展進化而來。除此之外,進階型語言處理方法還包含了那些針對基礎型語言處理方法的改進版本,例如堆疊式GRU[82],因此將這些語義處理方法統稱為進階型語言處理方法。為了清晰展示這些方法,從詞嵌入、詞表達和時間維度來對進階型語言處理方法進行了可視化展示,結果見圖7所示。

圖7 進階型語言處理方法相關論文發表統計Fig.7 Published statistics on advanced language processing methods
圖7中的實心圓用來表示進階型詞嵌入方法,正方形用來代表詞表達方法,不同的顏色則表明具體方法不同。通過觀察圖7中的統計結果可以發現如下現象:(1)在進階型語言處理方法中,詞表達方法所在比重更高,這表明視覺問答的相關研究人員更愿意針對詞表達方法進行改進優化;(2)詞表達方法中,BERT 和Transformer各出現了兩次,結合引言部分關于自然語言處理部分的論述不難發現,視覺問答領域逐漸意識到需要從自然語言處理領域學習最先進的算法,并將其引入到視覺問答當中;(3)在詞表達一側,發現了堆疊式GRU,該方法是在GRU的基礎上改進而來。考慮到圖7展示得比較簡單,接下來,將對調查到的進階型語言處理方法做進一步闡述。
Whitehead 等人[10]和Gokhale 等人[83]在詞表達過程中引入了BERT[11]模型,以提升視覺問答過程中的語言處理精準度。Liang 等人[84]提出了圖視覺問答,他們的核心觀點是將一個自然語言問題轉化為在圖節點之間傳遞多個消息迭代的問題,用到的語言處理方法是序列到序列的Transformer;同樣用到Transformer的還有Gao等人[85],不同之處在于他們使用了Bi-Transformer[86]。Liu等人提出了一種空間語義注意力模型,用于學習圖像區域與疑問詞之間的視覺文本關聯和對齊。在注意力模型中,利用連體網絡來探討視覺內容與文本內容的一致性。然后,將樹結構的LSTM模型和空間語義注意模型與聯合深度模型相結合,利用多任務學習方法訓練模型進行答案推理[87]。針對語言處理方法,作者使用了樹形結構的LSTM來編碼問題語句。Fang等人[82]以GRU為基礎,設計了四種堆疊式GRU結構用于問題編碼,并探討了性能差異。Zhu 等人[88]使用了一個簡單的MLP 模型進行問題編碼和答案解碼。
除了上述提到的進階型詞表達方法外,也有少量針對詞嵌入的改進和優化,例如Gupta等人提出了一種問題分割技術,并將該技術應用到分層深度多模態網絡當中用于產生可能的答案。在詞嵌入部分,作者首先使用了GloVe技術,除此之外也引入了子詞嵌入來捕獲醫學術語中未知詞的嵌入,而在字詞嵌入過程中,使用了FastText 詞嵌入技術[89]。Huasong 等人提出了一種新的自適應神經模塊Transformer,用來代替傳統的前饋式編解碼結構。
不同于基礎型和進階型語言處理方法,專有型語言處理方法是作者根據視覺問答模型需要而專門設計的語言處理方法。因此,這些方法和對應的模型往往都是獨一無二、且難以被其他類型的視覺問答系統所使用。然而,這并不是說研究專有型語言處理方法就沒有意義,恰恰相反,這些獨一無二的語言處理方法在解決某些問題時往往具有非常好的借鑒意義,因此把這一部分放在三類方法的最后來介紹。
視覺問答提出的早期,由于缺少實踐經驗,研究人員并不清楚哪一種類型的語言處理方法在視覺問答系統中能夠有更好表現,因此各種類型的語言處理方法紛紛涌現并被嘗試,其中專有型語言處理方法也不例外。
Shih等人[90]提出了一種圖像區域選擇機制,可以學習識別與問題相關的圖像區域。語言處理部分使用Word2Vec和一個三層網絡對解析后的問題和答案進行編碼。此外,受到基于向量的語義表示方法啟發,Shih等人使用相似向量編碼相似單詞,以便于更好地回答開放式問題。在實驗部分,作者展示了他們提出的向量平均語言模型明顯優于更復雜的基于LSTM模型,從而證明了這種類似BoW 模型為VQA 任務提供了非常有效和簡單的語言表達。
Hu 等人[91]提出了一個端到端的模塊化網絡,該網絡能夠直接通過預測實例網絡層來學習推理,而并不需要解析器輔助。該模型能夠通過學習生成網絡結構(通過模仿專家演示)和網絡參數。其語言處理部分采用了序列到序列的循環神經網絡布局策略,作者希望為每個問題都能夠預測最為合理的推理結構,再根據這個推理結構組裝神經網絡模型來輸出問題答案。但在實際使用過程中,該方法適應性和泛化能力較差,因此難以獲得推廣。
Aditya 等人[92]提出了一個在端到端神經網絡結構上采用顯式推理層的集成系統。推理層支持推理和回答需要附加知識的問題,同時為最終用戶提供可解釋的接口。具體來說,推理層采用基于概率軟邏輯的引擎對視覺關系、問題的語義解析和來自ConceptNet[93]的本體論知識背景進行推理。其中問題處理與通用解析器密切相關,通用解析器使用邏輯語言或標記圖來表示句子。
Gao 等人[94]指出問題在視覺問答中起著主導作用,因為它指定了機器應該處理的視覺對象。為此,作者提出了問題引導的目標注意力,即通過探索問題語義、細粒度圖像信息以及兩者之間的關系來提高視覺問答性能。在語言處理方面,Gao等人提出使用卷積神經網絡來提取問題短語特征,之所以使用卷積神經網絡,是因為在視覺問答中,問題通常用一組短語描述關于查詢對象的重要信息,而與LSTM和GRU相比,具有權值共享能力的卷積單元擁有更好捕獲連續單詞之間豐富結構和組成的能力。
Liu等人[95]提出了一種具有共同注意網絡的雙重自注意力視覺問答模型。具體來說,該模型包含三個子模塊,其中視覺自注意模塊通過對每個區域所有位置的視覺特征進行加權求和,選擇性地聚合每個區域的視覺特征;文本自注意模塊通過整合句子中詞與詞之間的關聯特征,自動強調相互依賴詞特征;視覺-文本共注意模塊探討了從自注意模塊學習到的視覺特征和文本特征之間的密切關系,這三個模塊集成到一個端到端框架中來推斷答案。針對語言處理方法,作者發現傳統循環神經網絡存在問題,即不能很好地捕捉不同位置單詞之間的內部依賴關系,而為了解決這一問題,提出了將時間信息編碼為特征級的自注意力,以捕獲詞的依賴關系從而進行表征學習。
專有型語言處理方法相比基礎型語言處理方法和進階型語言處理方法而言,研究群體相對較小,且多出現在視覺問答提出的早期,因此整體成熟度和普及型較低,但因其與提取的視覺特征和多模態融合過程具有更好的嵌合度,因此同樣是一類比較重要的語言處理方法。
通過對當前已有的強關聯性視覺問答系統所涉及的語言處理方法系統綜述,基本可以了解該研究領域的研究現狀,但還缺少對各類型語言處理方法的深入分析和優缺點解析。本章將對基本型、進階型和專有型語言處理方法的特點進行更加細致分析,從而揭示各自特點和適用情況。
基本型語言處理方法在三類語言處理方法中占比最重且應用廣泛,但由于所涉及的詞嵌入和詞表達方法提出得較早,因此某些性能方面無法與進階型語言處理方法相比。基本型語言處理方法的最大優勢是模型簡單,簡單的模型往往更容易訓練和改進優化,因此以基礎型語言處理方法作為底層,發展出了大量的新方法,這其中就包括有進階型語言處理方法和專有型語言處理方法。
進階型語言處理方法是從先進的自然語言處理領域引入或者在基礎型語言處理方法的基礎上發展而來,因此在某些關鍵性能方面相比于基礎型語言處理方法具有先天優勢,能夠獲得更好的語言識別效果。但進階型語言處理方法的模型一般較大,訓練過程更長,同時在進行端側部署時難度也更大。
專有型語言處理方法是針對視覺問答模型特別開發的語言處理方法,其思想來源于基礎型語言處理方法和自然語言處理領域,原則上與視覺問答模型的切合度更高,融合性更好。但該方法的設計難度較大,且很多時候需要配合特定的訓練數據集使用,適用范圍受限;此外,專有型語言處理方法往往僅針對特定視覺問答模型效果較好,當遷移到其他模型上時會出現性能大幅度下降的問題。基于上述兩方面原因,專有型語言處理方法的發展較為緩慢。
三類方法中,基礎型語言處理方法目前依然被廣泛使用,其原因在于視覺問答研究人員普遍將精力放在多模態融合上,而很少關注基礎的語言和視覺處理方法,所以針對語言和視覺處理方法往往直接引入現成的算法模型進行使用,所以,基礎型語言處理方法適合于僅關注多模態融合及其他非語言處理方向的研究工作。進階型語言處理方法模型相對比較復雜,性能也更加優異,且具有一定的優化改造空間,因此特別適合于實驗設備性能較好,且有意通過改進語言處理方法來提升視覺問答性能的研究人員,同時,針對企業級用戶,進階型語言處理方法是更好的選擇。專有型語言處理方法適合于專門研究語言處理方法與視覺問答關系的相關研究人員,這類研究需要較好的自然語言處理知識和多模態融合知識,但整體而言,這類算法的價值相對較小。
盡管本文將語言處理方法分為了三種類型,但不可否認的是自然語言處理領域的發展為語言處理方法的推陳出新提供了巨大幫助。正如基礎型語言處理方法本身脫胎于自然語言處理,進階型語言處理方法源自于先進的自然語言處理或者以自然語言處理為基礎而進行的改進優化,即使是專有型語言處理方法,其創新的靈感往往也離不開自然語言處理,因此,可以毫不夸張的講,自然語言處理是視覺問答語言處理方法的基礎;而從另一個角度來看,視覺問答中語言處理方法面臨的困境,同樣也是在向自然語言處理領域提出的挑戰,這種挑戰可以促進自然語言處理向著更有性能和更加完善的方向發展。
基礎型語言處理方法會長期占據主導地位,但這并不意味著本文中所述的基礎型詞嵌入和詞表達方法會一直存在并始終占據主導地位。未來,隨著自然語言處理的持續發展,會有新的、性能更加優異的算法提出,并被引入到視覺問答的語言處理過程中,在此過程中,基礎型語言處理方法將會被目前的進階型語言處理方法及其變體替代,基礎型語言處理方法將會是一個迭代更新的過程。既然如此,目前眾多的進階型語言處理方法中哪一種會成為未來的基礎型語言處理方法,這是非常值得探討并研究的工作。
正如文中所述,視覺問答中的語言處理方法包括了詞嵌入方法和詞表達方法,而通過對第2章研究現狀的分析發現,從基礎型到進階型語言處理方法,再到專有型語言處理方法,多數情況下發展的都是詞表達方法,而詞嵌入方法基本上一直沿用固定幾類,這幾類詞嵌入方法即使是最新的,提出時間也已經有近十年。詞嵌入方法直接關系著語言處理模型的規模,未來如果想要將模型進行無損壓縮,詞嵌入方法的發展必然是一個非常重要的研究方向。
目前的視覺問答系統都是由視覺處理、語言處理和多模態融合等幾個關鍵部分組成,因此需要對應的圖像處理方法和語言處理方法,而不同的處理方法在處理模態數據并進行理解的過程中,總會產生偏差,甚至出現偏置,正如某些論文中提到的即使沒有輸入圖像,僅僅給出問題,系統有時也能夠得到正確答案。為此,研究端到端的視覺問答系統,將圖像處理和語言處理部分直接取消,也許是另一個值得研究的內容。但同時值得注意的是,這種針對某種模式的徹底改變,難度和可行性是首先需要評估和研究的。
語言處理方法在視覺問答中起著溝通、引導圖像內容和最終答案的作用,基于語言處理方法的問題解析對于最終答案的正確與否意義重大。本文首先分析并指出了語言處理方法對于視覺問答的價值和重要性;進一步的,對于目前廣泛使用的語言處理方法進行了系統性闡述,并根據其先進性和構成要素將其分為三類,分別是基礎型語言處理方法、進階型語言處理方法和專有型語言處理方法,同時對每一類語言處理方法的研究現狀進行了調研和分析;最后對于三類方法各自的特點和選用依據進行了闡述,為后續研究人員開展視覺問答語言處理方法研究奠定了基礎。