999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

視覺語言導航研究進展

2023-01-16 07:35:44司馬雙霖何科技
自動化學報 2023年1期
關鍵詞:指令模態動作

司馬雙霖 黃 巖 何科技 安 東 袁 輝 王 亮,3,4,5

近年來,越來越多研究人員意識到單模態分析 技術在現實中處理信息的局限性,對于自然語言、音頻信息以及視覺等多模態融合方面的研究投入日益增加.視覺語言導航[1]是智能體在第一視角下,基于真實環境下的全景圖,綜合處理指令和視覺信息并進行推理的多模態任務,也是智能管家等應用的核心技術之一.視覺語言導航嘗試使用多模態融合的方式,為室內導航任務的研究提供了一個新的方向.如圖1 所示,智能體需要結合指令信息和視覺信息,在模擬器中完成一系列的決策,最終到達目標位置.其中主要難點在于如何學習理解指令和視覺的信息,從而完成導航過程中的每一步決策.

圖1 視覺語言導航過程示意圖Fig.1 The process of vision-and-language navigation

Anderson 等[1]于2018 年首先提出視覺語言導航任務,并公開了與任務相對應的基于真實環境的Room-to-Room (R2R)數據集,并在Matterport-3D[2]模擬器完成了導航任務的仿真.視覺語言導航一經提出便引起了廣泛的關注.隨著研究的不斷深入,研究人員提出了很多拓展任務,如室外視覺語言導航Touchdown[3]、結合導航和指稱表達(Remote embodied visual referring expression in real indoor environments,REVERIE)[4-5]以及視覺對話導航任務[6].除此之外,研究人員也發現了一些視覺語言導航亟需解決的問題,如數據量級還遠不能滿足實際需求,數據稀缺問題愈發突出、以及模型的泛化能力低.這些問題一直阻礙著視覺語言導航的發展.另外現有的方法全是基于模擬器的仿真環境,該設定與現實場景下的導航仍存在很大差異.如何將現有的模型應用到實際環境中,也是視覺語言導航的一大難題.

為了解決以上問題,一系列的改進模型方法被相繼提出.研究人員在指令集擴充、學習策略升級和多模態融合等方面進行較多探索并取得了巨大進展.本文首先介紹常用的數據集,然后按照不同的模型改進方式對現有的方法進行分類介紹,并結合不同數據集的實驗結果分析不同模型的優勢和不足,全面介紹目前視覺語言導航的研究現狀.

1 視覺語言導航數據集

視覺語言導航的數據集,主要是針對Matter-Port3D 模擬器的90 個場景建立的.為了推動視覺語言導航任務的發展,研究人員從指令描述粒度、指令長度以及語言種類入手,收集了大量的人工指令.這一定程度上擴大了數據量,對視覺語言導航的發展,起著非常重要的作用.本節將按照不同的指令粒度和指令長度的數據集分類介紹.

1.1 R2R 數據集

R2R 數據集是由Anderson 等[1]構建,其中總詞匯量約3 100 個單詞,構成7 189 條路徑下的21 567 條人工標注的指令,且每條指令的平均長度為29 個單詞.R2R 數據集在很大程度上覆蓋了視覺環境中的大部分細節信息,具有多樣性的特點.在視覺語言導航中,R2R 數據集被分成訓練集、可見環境的驗證集、不可見環境的驗證集和測試集.其中訓練集和可見環境的驗證集共用61 個真實場景,但是把相應場景下的數據集分為了兩個部分:用于訓練的14 025 條指令和用于可見環境驗證的1 020條指令.不可見環境的驗證集和測試集中并沒有交叉重復的數據,不可見環境驗證集使用11 個真實場景和2 349 條指令,而剩余的18 個真實場景和4 173 條對應的指令構成測試集.

1.2 Fine-Grained R2R 數據集

由于R2R 參考路徑是由初始位置到目標位置間的最短路徑構成,這在一定程度上影響了路徑與指令的耦合度,同時缺少細粒度指令和視覺場景的對應關系.Hong 等[7]提出了一種細粒度的子指令形式,對原先的R2R 指令使用啟發式算法生成相應的子指令,構造了細粒度的Fine-grained R2R(FGR2R)數據集.FGR2R 訓練集和驗證集的每條指令平均可拆分為3.6 條子指令,且每條子指令平均包含7.2 個單詞和2.6 個對應的導航點.例如這條簡單的指令:“左轉,走上樓梯,進入衛生間”,對智能體,準確無誤地理解它十分困難,必須對指令分解逐一理解每個詞語的意思.這意味著將導航任務簡化為多個子任務,每個子任務都有與其對應的子指令.此外,智能體不僅需要理解指令信息,而且需要對環境中的視覺物體進行識別.比如 “走上樓梯”,直到檢測到樓梯匹配到指令信息,才可以執行后續的動作.

1.3 R4R、R6R和R8R 數據集

由于Room-for-Room (R4R)、Room-6-Room(R6R)和Room-8-Room (R8R)數據集構建的思路一致,本節將介紹這3 個數據集.在R2R 數據集中的路徑普遍需要4~6 個步驟完成,并且利用最短路徑的方式到達目的位置.這樣不利于評估指令和路徑的匹配程度,因此需要一個包含更長路徑的數據集來對導航中的動作與指令的一致性進行評價.文獻[8-9]提出拼接R2R 數據集指令的方式,由此形成更長指令長度的R4R、R6R和R8R 數據集.由于指令長度和參考路徑變得更長,從而增加了訓練模型的難度.同時,先前的評價指標僅僅關注是否到達目標位置,對指令和路徑是否匹配并不敏感.因此針對長指令數據集,研究人員提出了一些新的評價指標和方法,來衡量和提高模型的泛化能力.

1.4 RxR 數據集

對于現有的R2R 數據集中存在偏差、指令和路徑的數量少等問題,Ku 等[10]提出新的Roomacross-Room (RxR)數據集,分別從指令語言種類、數據集規模、路徑和指令的匹配粒度和姿態跟蹤4個方面對數據集進行了拓展和改進.RxR 數據集包括16 500 條路徑,且每條路徑對應3 條不同語種的指令,總詞匯量高達980 萬條,構成126 000 條指令.此外,He 等[11]利用標志物信息,將en-RxR 劃分成短指令的形式,構建了Landmark-RxR 數據集.相較于R2R 數據集,RxR 數據集中指令對應的路徑長度更長,并且在指令和路徑的匹配程度上更為一致.同時RxR 采用對三種語言指令進行測試,可以避免對單一語種產生過擬合的現象.RxR 數據集中首次引入姿態跟蹤的方式,即對比與人執行指令時所采取的動作和經過的位置.后續的工作將RxR 數據集引入到連續環境的模擬器,以尋找更具有更加實用的模型.

除了以上的指令數據集,還有一些視覺語言導航拓展工作的數據集,如REVERIE[4]和Bilingual Room-to-Room (BL-R2R)[12]數據集.表1 介紹了不同數據集的各項屬性.

表1 視覺語言導航不同數據集的對比Table 1 The comparison of different datasets in vision-and-language navigation

2 視覺語言導航模型

目前視覺語言導航所面臨的兩大難題:數據稀缺和模型的泛化性低,一直阻礙著該領域的發展.但隨著越來越多研究人員投入到視覺語言導航中,這些問題都不同程度地得到解決.我們將視覺語言導航模型分為數據增強、搜索策略、動作空間、訓練策略4 個方面來進行介紹.

2.1 基于數據增強的視覺語言導航模型

視覺語言導航是根據真實場景下的照片所構成的仿真環境和人工指令,進行一系列推理的過程.專業人員標注的指令不僅成本高,且數量十分有限,例如常用的R2R 數據集中僅含有21 567 條語言指令.因此,數據稀缺是視覺語言導航中的先天問題,不僅使得學習跨模態匹配更加困難,還在很大程度上限制了模型的性能.當前很多領域的研究已經證明了數據增強的有效性,特別是提升模型的性能有很大幫助.接下來,本節將從合成新指令和拼接舊指令兩個方面介紹視覺語言導航中的數據增強方法.

2.1.1 基于生成新指令的數據增強模型

Fried 等[13]首先提出了一種數據增強的方式,如圖2 所示,“說話者”模型可以從視覺軌跡合成新的指令,拓展當前有限的訓練指令集.而 “跟隨者”模型來檢驗生成指令,產生的軌跡可以作為 “說話者”的輸入,從而達到數據增強的目的.使用數據增強指令訓練導航模型的方法,不僅可以顯著提升模型性能,而且對提升泛化能力很有幫助.除此之外,“說話者”模型可以用來評價智能體導航路徑的好壞.很多后續工作都在這種數據增強的基礎上,再做相應的方法改進.Fu 等[14]指出現有的數據增強模型性能表現并不理想,究其原因在于困難樣本的導航成功率不高.針對這一問題,他們提出一種對抗訓練的方式.該方法通過模型動態更新路徑生成器,旨在提高困難樣本的成功率,以進一步提升整體的泛化效果.而文獻[15]通過分析 “說話者”模型生成的合成指令,發現大部分合成指令存在語句邏輯問題,并沒有建立好和視覺環境之間的聯系,反而引入了更多的誤差.因此Huang 等[15]提出一種生成高精度指令的數據增強方式,通過設置一個判別器來評價生成數據的質量,同時引入一些負樣本,以提高訓練的魯棒性.盡管模型的表現不錯,但是依然沒有解決有效的生成指令數量少的問題.由于缺少指令的評估指標,Zhao 等[16]提出一個不需要參考指令的指令軌跡親和模型.

圖2 “說話者”和 “跟隨者”[13]模型的數據增強過程Fig.2 The data augmentation process in“speaker-follower”[13]

另外,不少研究人員在導航環境方面做出新的嘗試,并指出 “說話者”模型訓練時的有限環境數量,限制了指令的多樣性.首先,Tan 等[17]在 “說話者”和 “跟隨者” (Speaker-follower,SF)模型的基礎上,提出了基于環境的數據增強模型,即通過遮擋環境中的同類物體,進而產生新的環境;從這些環境收集新的路徑,然后通過 “說話者”模塊生成新的指令;最后利用這些數據微調模型.此外,An 等[18]認為當前視角可能缺失指令中的關鍵物體信息,進而導致錯誤決策,于是提出鄰近視角增強模型(Neighbor-view enhanced model,NvEM).該模型使用當前視角的圖像特征和相鄰視角的圖像特征,以擴大智能體的感受野.無論是從指令或環境入手,這些方法均是基于最短路徑的原則來導航,這樣會導致學習過程中出現依賴于訓練時所做過的動作,從而出現忽略重要語言信息和視覺信息的問題.為了解決該問題,文獻[19]提出基于隨機路徑方式的數據增強.Yu 等[19]基于 “說話者”和 “跟隨者”模型,額外設置路徑選擇器動態地采樣隨機路徑,并用“說話者”模塊為這些路徑生成相應的指令,然后再使用生成數據訓練 “跟隨者”模塊,最終達到隨機路徑形式的數據增強目的.這些方法都基于自主合成新指令的方式,但合成的指令與人類指令之間仍存在較大差異.主要原因是合成指令的細節不足和邏輯不通,從而導致了合成新的有效指令比較匱乏的問題.

2.1.2 基于拼接舊指令的數據增強模型

除了生成新指令的方式外,文獻[8]提出拼接R2R數據集,來構成R4R 數據集的方法,進而達到數據增強的目的.由于直接訓練較長路徑的模型比較困難,Jain 等[8]提出模型先在較短路徑下訓練,然后再將模型遷移到較長路徑的導航任務中.Zhu 等[9]進一步將R2R 數據集拓展到R6R和R8R 長指令數據集,并提出一個記憶緩存來保存歷史子指令和子軌跡對,同時使用模仿學習和課程強化學習進行兩個階段的訓練.

盡管當前視覺語言導航的工作已經取得一定的進展,但是在提高視覺信息和指令耦合度方面,并沒有很多突破性的工作.以往的研究驗證了使用循環神經網絡訓練會存在長期依賴的問題,即當前狀態會受一段時間之前的狀態影響,這在長指令集訓練過程中是無法避免的.無論是哪種數據增強手段產生的指令都存在偏差,以及有效指令和路徑的數量少等問題.因此Ku 等[10]提出了新的RxR 數據集,從路徑軌跡采樣方式、路徑和指令的數量、路徑和指令的粒度、語言種類四個方面對R2R 數據集進行拓展和改進.

在視覺語言導航任務中,數據增強作為一種提升模型泛化能力的方法,一定程度上縮小模型在可見環境和不可見環境的表現差距.但是視覺語言導航中仍存在導航成功率低和過于依賴拓撲結構的問題,純粹依賴數據增強不能根本緩解以上問題.

2.2 基于改進搜索策略的視覺語言導航模型

早期的視覺語言導航任務采用的搜索策略是貪婪解碼[20].因MatterPort3D 平臺將真實環境簡化成離散點集,而導航過程需要連續地推理決策,來得到全局最優解,所以貪心算法的效果并不理想.Fired 等[13]發現這一問題,提出在全景動作空間中將導航任務簡化為加權無向圖搜索方法.如圖3 所示,通過采用波束搜索[21]的方式,能夠選擇多條備選全局路徑進行打分來選擇最優路徑.這種搜索策略大幅提升導航成功率,但是存在路徑過長、搜索效率低的缺點.為了改進以上的方法,研究人員提出帶回溯的前沿搜索(Frontier aware search with back tracking,FAST)[22]和基于回溯機制的后悔模型[23],旨在降低搜索成本.回溯機制是在每次決策后及時評估,如果打分低,則選擇回溯上一步,否則選擇鄰近未探索的節點.而FAST 則是在此基礎上,提出了一種局部信息和全局信息相結合的方式.該方法通過比較不同長度的局部路徑,結合全局信號,利用異步搜索的方式來實現有效回溯.

圖3 視覺語言導航任務中的不同搜索策略[22]Fig.3 Different search strategies in vision-and-language navigation[22]

由于存在指令語義模糊和局部視覺不確定性的問題,Wang 等[24]提出一種動態決定探索方向、允許對下一步節點探索并進行預測的方法.但探索過多會導致軌跡長度過長和基于路徑長度加權的成功率降低的問題,整體效果并不理想.而Chi 等[25]提出當智能體不知選擇哪個方向時,采用輔助解惑的手段.當學習到的融合信息讓智能體感到 “疑惑”時,交互學習方式能幫助智能體解決導航中下一步移動的問題.而為了縮小訓練和測試之間的差距,Deng 等[26]提出可變圖規劃器模型(Evolving graphical planner,EGP),這是一種使用原始圖像高效生成全局規劃的方法.其通過動態地構建一個圖的表示(包括動作空間),以便于更好決策.Hong 等[27]則通過構建語言和視覺實體關系圖模型(Language and visual entity relationship graph,Relgraph),更好地利用不同模態間的關系.同時他們提出一種消息傳遞算法,在圖中的語言元素和視覺實體之間傳播信息,然后將這些信息組合起來以確定下一步要采取的動作.為了更好地長期規劃決策,Wang等[28]提出一種結構化場景記憶的模型(Structured scene memory,SSM),允許智能體對已探索的區域保留訪問權力,然后通過這種持久性的空間表示,智能體在細粒度指令的輔助下,在全局決策方面表現出色.

現有的導航策略都是盡可能地找到每步的最佳決策,尋找一條從起始位置到目標位置的有效路徑.雖然一定程度上會造成導航路徑長度過長,卻對導航成功率的提升十分明顯.此外,隨著研究的深入,記憶機制和圖結構的引入,為視覺語言導航策略提供了不同的思路和方向.

2.3 基于不同動作空間的視覺語言導航模型

文獻[29]首次按照動作空間劃分不同的模型,將依賴于模擬平臺和導航圖的模型稱為高級動作模型,對于直接預測下一個基礎動作的模型稱為低級動作模型.如圖4 所示,圖4(a)表示低級動作空間的5 個基礎動作,圖4(b)表示高級動作空間基于導航點的動作.本節根據動作空間的劃分,分別介紹高級動作空間和低級動作空間的視覺語言導航方法.

圖4 低級動作空間和高級動作空間表示[29]Fig.4 Low-level action space and high-level action space[29]

2.3.1 基于高級動作空間的視覺語言導航

早期Fried 等[13]提出將36 張不同仰角和水平偏角的圖像合成一張全景圖的方法,后來該形式被通稱為高級動作空間.在此高級動作空間中,智能體只需選擇鄰近節點移動.高級動作空間不僅可以簡化導航過程,并且能顯著提升導航成功率.在高級動作空間下,文獻[30]發現導航結果反饋模糊的問題,即導航成功產生的反饋結果,并不能反應指令和路徑是否匹配.由此,Wang 等[30]提出強化跨模態匹配(Reinforced cross-modal matching,RCM)的方法來解決上述問題.利用推理導航器在局部區域內進行跨模態對齊,再使用匹配評判器促進路徑和指令之間的全局匹配,進一步強化模態融合效果和提高導航成功的標準.Ma 等[31]提出自我監控智能體模型(Self-monitor agent,SMNA).他們根據模態匹配的關系,認為 “下一個動作的執行常常是由上一個動作完成與否決定的”,并相應提出了視覺和語言聯合對齊模型,來監控導航進度.另外,由于指令中含有豐富的實體描述和方向信息,Qi 等[32]提出物體和動作可知模型(Object-and-action awared model,OAAM),分別對視覺特征和方向特征使用注意力機制,最后再融合兩部分特征.該方法充分利用指令中實體和方向信息,來與視覺場景進行匹配,最后設置路徑損失來限制智能體僅沿著最短路徑移動.

在視覺語言導航的設定中,MatterPort3D 模擬器是將場景劃分為離散的可導航位置點集.這一做法簡化導航過程為一個無向圖的探索過程,即每步移動都從鄰近的有限點集中選擇下一個目標節點.這在一定程度上減少了視覺信息對任務的影響.文獻[33]指出在視覺語言導航和問答任務中,不利用視覺信息的單模態模型的表現好于多模態模型,模態融合反而造成了性能衰減.針對以上問題,Hu等[34]提出在不同模態融合條件下,對比 “說話者”和 “跟隨者”模型[13]和自我監控智能體模型[31]的性能表現,發現模型更容易利用幾何拓撲結構信息,而忽略了大量的視覺模態信息的現象.模型對于拓撲結構的依賴一定程度降低了指令和視覺信息的耦合度.為了解決這個問題,Yu 等[19]提出改變最短路徑為隨機路徑的移動策略,旨在消除對于路徑結構的依賴,更多地專注語言和視覺之間的信息匹配.針對不同環境中的性能差異問題,Zhang 等[35]設計新的環境劃分和特征替換的方案,研究環境偏差的影響.

除了改變路徑采樣的方式之外,另一個思路是回到低級動作空間.Anderson 等[36]嘗試轉移模擬環境訓練的智能體到現實場景中,并提出一個子目標模型來識別臨近可達的節點.他們使用即時定位與地圖構建和路徑規劃的方法,建立智能體學習的高級動作和智能體的低級動作的變換聯系,將模型性能損失控制在可接受的范圍內.但高級動作空間方面的遷移工作,還是受Matterport3D 模擬器不能支持低級動作的影響,需要通過特定算法轉換為低級動作,因此很多模型不便于直接由模擬環境轉移現實場景中.

2.3.2 基于低級動作空間的視覺語言導航

相對于高級動作空間中選擇鄰近節點的移動方式,低級動作空間只包括六種基礎動作:向上、向下、左轉30 度、右轉30 度、前進和停止.在這種動作空間下,模型在對于環境拓撲結構未知的情況下,直接預測智能體的動作.如圖5 所示,在視覺語言導航任務中,基于編碼-解碼的方法首先通過長短期記憶網絡(Long short-term memory,LSTM)[37]編碼器將指令編碼 [x1,x2,···,xl]和真實圖像 [v1,v2,···,vt],映射到一個上下文的動作序列,再通過LSTM 解碼器融合編碼后的語言特征和視覺特征預測每一步的動作 [a0,a1,···,aT].解碼過程中額外加入了注意力機制,這一機制選擇性關注視覺感知和當前指令中相關聯的內容,幫助智能體結合環境選擇相應的基礎動作.通過建立緊密的模態間的信息聯系,模型生成一系列的低級動作命令來指導完成導航任務.

圖5 視覺語言導航中的 seq2seq 模型Fig.5 The seq2seq model in vision and language navigation

高級動作空間中存在過度依賴已知的路徑拓撲結構的問題,不利于未來部署在現實場景中.因此,不少研究人員開始關注更具有現實意義的模型,Landi 等[38]提出使用動態卷積濾波器的方法,模型基于當前指令信息動態地從視覺信息中提取相關信息,并輸出低級動作空間下的動作概率.在此基礎上,Landi 等[29]進一步提出類似Transformer[39]結構的感知轉化移動模型(Perceive,transform and act,PTA),通過多次利用注意力機制的形式來融合模態間信息.實驗證實了該模型同時兼容高級動作空間和低級動作空間.由于MatterPort3D 平臺環境本身的約束,新型的模擬環境平臺相繼被提出.首先是FacebookAI 實驗室在2019 年提出的Habitat 平臺[40]和Shen 等[41]在2020 年提出的iGibson平臺.這些支持連續環境模擬器的推出,大大推動了基于低級動作空間方面的研究.文獻[42]提出基于Habitat 平臺的連續環境下的視覺語言導航任務.不同于以往的高級動作空間方法,存在傳送移動、依賴幾何結構和精準定位的問題,Krantz 等[42]通過構建一個跨模態注意力機制的連續環境的視覺語言導航模型,驗證了數據增強、數據聚合和進度控制對模型的積極作用.同時對比高級動作空間的視覺語言導航模型,他們發現先前的視覺語言導航模型中存在過多理想化的條件,在真實環境中的可行性有待驗證.Chen 等[43]在基于連續環境的視覺語言導航模型的基礎上,將其分解為兩個階段:計劃和控制,在探索過程中,拓撲地圖被建立用于導航規劃.然后局部控制器接受導航規劃并生成低級動作來完成導航任務.

無論在高級動作空間和低級動作空間中,現有的方法并未詳細解釋模型在模態融合后性能提升的原因.文獻[33]對以往的模態融合方式提出了質疑,并建議以后的模型增加模態消融實驗以佐證效果.為了更好地融合模態間的信息,Zhu 等[44]提出輔助推理導航模型(Auxiliary reasoning navigation,AuxRN).該模型通過四個輔助任務:動作解釋、估計進度、預測方向和軌跡一致性評價,來提高模型的推理和環境感知的能力.由于指令間信息差異和指令中語義模糊的問題,Xia 等[45]編碼相同軌跡的所有指令,其中每條指令互作補充,去提高模型的文本理解能力.在視覺語言導航中,模態間的聯系并不是簡單地合并指令和視覺信息,而是需要建立互為補充的關系,進一步提升模型的性能,并通過合理的實驗證明在不同的動作空間下模態融合方式的有效性.

2.4 基于訓練方法的視覺語言導航模型

視覺語言導航任務中常用的兩種模型學習方式:監督學習和強化學習.監督學習是通過R2R 數據集中的最短路徑標注數據,學習得到一個優化的模型,進而預測不可見環境中的路徑序列.而強化學習是把視覺語言導航任務看作一個馬爾可夫決策過程.智能體在導航過程中觀察周圍環境并進行分析和反饋,并通過特定的獎勵函數,嘗試將學習到的經驗知識應用到導航任務中,不斷地進行試驗,以達到完成視覺語言導航任務的目的.盡管這些方法的有效性得到很好的驗證,但是各自的局限性也被揭露出來.研究人員在訓練方法的選擇上進行了更為深入的研究,當前預訓練模型通過大規模數據訓練,對視覺語言導航的性能提升十分明顯.下面將對傳統訓練模型和預訓練模型展開介紹.

2.4.1 基于傳統訓練的視覺語言導航模型

由于R2R 數據集提供了參考路徑,通過匹配預測動作分布和最佳路線,最初的視覺語言導航方法大多采用的是監督學習方式.文獻[1]使用基于注意力機制的LSTM 的序列到序列模型(Sequenceto-sequence,seq2seq)[46],并結合 “學生自學”[47]的訓練方法,對于先前的分布采用動作輸出序列預測下一步動作,這是初期流行的一種基礎方法.該方法使用交叉熵損失函數,學習標注數據的特征信息,泛化到未知環境中.但是由于人工標注的數據成本過于昂貴,最優路徑并不容易獲取.在后續的研究中,為了進一步提升在不可見環境下的泛化能力,Wang等[48]提出使用強化規劃(Reinforced planning ahead,RPA)的方法,將模型無關和基于模型兩種強化學習聯合在一起.其中展望模型結合了環境模型和策略模型,在R2R 數據集上取得了不錯的效果.最近的研究提出了很多新穎的學習方法,諸如Wang 等[30]提出一種自監督模仿學習的方法.通過訓練,智能體可以根據過往的決策,學習產生多條可能的軌跡.模型利用最佳匹配的軌跡輔助訓練,并優化軌跡的生成.文獻[17]改進以往的方法,提出將模仿學習和強化學習的損失結合作為一個損失函數,并用半監督學習的方式進行反向翻譯和環境消除(Environmental dropout,Envdrop),分別為了訓練額外的數據和生成未知環境.這種方法對模型的泛化能力進一步提升,如圖6 所示,模仿學習和強化學習結合的方法通過結合兩種學習策略的優勢,能夠有效地提升模型的性能.Wang 等[49]對于模仿學習的錯誤累積和強化學習中的獎勵設計成本問題,嘗試使用蒸餾的方法減少過擬合,提出軟專家獎勵學習模型(Soft expert reward learning,SERL).具體地,通過設置軟專家蒸餾模塊讓模仿過程減少錯誤,同時利用自我感知模塊讓智能體一直向目的位置移動.研究人員在學習方法上的研究仍在繼續,不斷地優化方法策略.

圖6 融合強化學習和模仿學習的過程Fig.6 The mixture of reinforcement learning and imitation learning

在視覺語言導航中,“學生自學”和 “老師指導”[50]訓練策略的選擇,是影響生成路徑序列的一大因素.在視覺語言導航的設定中,因為導航路徑長,并且采用離散動作的問題,所以早期的動作抽樣工作是基于 “學生自學”的方式.但由于全景動作空間的提出,路徑長度被縮短了一大半,“老師指導”的方式開始流行起來.但是兩者都存在曝光偏差[51]的問題.一旦出現誤差,則會導致大量累計誤差,從而偏離正確路線.針對 “學生自學”引入偏差的問題,文獻[9]提出了基于 “學生自學”的模仿學習,保證軌跡和指令的一致性.為了充分發揮兩者的優勢,Li 等[52]從課程抽樣方式中得到靈感,提出隨機動作采樣的方式.具體地,基于伯努利分布的抽樣策略通過隨機選擇每一步的動作抽樣方式,借此來保證利用 “學生自學”和 “老師指導”的優勢,進而得到一種相對偏差較小的動作抽樣方法.

目前,很多工作通過結合模仿學習和強化學習的方式,取得了較大性能提升.模仿學習學習老師的動作,而強化學習通過從獎勵中采樣動作,使智能體可以探索環境和提升泛化能力.如何更好地選擇和利用訓練策略,是提高導航模型泛化能力的一個關鍵因素.

2.4.2 基于大規模預訓練的視覺語言導航模型

近年來,研究人員在如何提升智能體對不可見環境的泛化能力方面進行了不少嘗試,包括預探索、數據增強和分析模態融合關系等方式.當前使用預訓練模型提取特征的方式已經應用到各種任務中,其可以有效地提升下游任務的性能.受此啟發,研究人員提出了在視覺語言導航中使用預訓練模型,以解決泛化能力不足的問題.首先,文獻[52]提出了使用Bidirectional encoder representations from transformers (BERT)[53]等大規模預訓練語言模型,來豐富指令表達.Hao 等[54]提出使用一種通用的預訓練視覺語言導航智能體(Pre-trained vision-andlanguage based navigator,PREVALENT),并利用圖像-語言-動作信息來進行預訓練.實驗證明預訓練模型對提升模型的泛化能力很有幫助.后來Huang 等[55]在PREVALENT 的基礎上,使用參數共享的方法來減低預訓練模型的參數量.文獻[56]中指出模型可以學習更多的語言知識,來提高推理的效率.此外,Hong 等[57]提出Recurrent visionand-language bert for navigation (RecBERT).這是一個多模態BERT 模型,搭配時間感知遞歸函數,為智能體提供更豐富的信息.針對RecBERT會存在歷史信息丟失的問題,Chen 等[58]提出History-aware multi-modal transformer (HAMT),將完整的歷史信息編碼保存,并設計了層次化的歷史編碼方法,降低計算復雜度.實驗結果顯示使用預訓練的語言模型分別在可見環境和不可見環境中的導航成功率高達76%和66%,不可見環境中的基于路徑加權的成功率為60%.進一步地證明預訓練模型可以提高模型的泛化能力.

相較于傳統訓練方法,預訓練模型引入了額外的知識表達,對視覺語言導航模型的提升十分顯著.正因為高效的性能和強大的模態融合能力,如今預訓練模型已經成為視覺語言導航模型的重要研究方向.

3 視覺語言導航方法的實驗分析

第2 節和第3 節主要介紹了視覺語言導航的數據集和當前主要的模型方法,本節將對視覺語言導航的評價指標進行全面介紹,并結合R2R 數據集、R4R 數據集和RxR 數據集對比分析視覺語言導航模型.

3.1 視覺語言導航的評價指標

對于不同模型的評判,評價指標發揮著重要的作用,是衡量模型性能的關鍵性指標.隨著視覺語言導航任務的發展,新的模型評價指標相繼被提出.表2 給出了視覺語言導航任務的評價指標,包括其定義和計算公式.這為第3.2 節視覺語言導航模型性能比較提供幫助.視覺語言導航的評價指標不僅關注導航成功率(Success rate,SR)和路徑長度(Path length,PL),而且需要對導航過程中路徑軌跡和指令之間的一致性程度進行相應的度量評估.接下來將主要介紹目前的核心評價指標,其中基于路徑加權的成功率(Success weighted by path length,SPL)的主要思想是將成功率和路徑長度融合處理,來衡量導航的好壞.早期視覺語言導航模型的目標是盡可能地提高基于路徑加權的成功率,來評估模型的性能.但它僅關注是否成功到達目標位置,而忽略了預測路徑和參考路徑的一致性問題.后續工作中提出的長度加權的覆蓋分數(Coverage weighted by length score,CLS)[8]和基于動態時間規整加權成功率(Success rate weighted normal-ized dynamic time warping,SDTW)[59]兩個評價指標,主要是度量軌跡和指令一致性程度.長度加權的覆蓋分數中包括兩部分路徑覆蓋率(Path coverage,PC)和路徑長度分數(Length score,LS).路徑覆蓋率表示與參考路徑的一致程度,其計算公式如下:

表2 視覺語言導航任務中的評價指標Table 2 The metrics of vision-and-language navigation

式中,R代表查詢路徑,P代表參考路徑,r是查詢路徑的位置坐標向量,dth是閾值距離.PC(P,R)即為所計算的路徑覆蓋率.而路徑長度分數則是評價預測路徑和參考路徑的一致性程度,進而來約束預測路徑的長度,產生與參考路徑長度一致的預測路徑,計算公式為:

式中,EPL(P,R) 表示導航路徑相對于參考路徑覆蓋范圍的期望值,PL(V) 表示路徑長度,PC(P,R)表示路徑覆蓋率.LS(P,R) 即為所計算的路徑長度得分.SDTW 是對預測路徑和參考路徑在時空相似性上的約束,由導航成功率和路徑一致性合并計算.

第3.2 節將對比不同數據集下的視覺語言導航模型,通過以上主要的評價指標進行對比分析.

3.2 視覺語言導航模型的分析對比

表3和表4 分別展示了不同模型在R2R 數據集和R4R 數據集上,基于相應主要評價指標的實驗結果.而表5 以不同模型的主要創新點來劃分模型方法,包括數據增強、導航策略、動作空間和訓練方法4 個方向.表5 中 “√”表示屬于對應分類的改進方向,而—表示不屬于對應分類的改進方向.

由表3和表5 可知,隨著引入數據增強和改進導航策略之后,在R2R 數據集上,視覺語言導航模型的SR和SPL,都較以往得到了不少的提升.文獻[13]提出的全景動作空間形式和數據增強方法,為視覺語言導航模型的快速發展,提供了有力的支持.同時文獻[17]在此基礎上提出的融合強化學習和模仿學習的訓練方法,為后續的研究提供了參考模型.該方法的廣泛應用對視覺語言導航任務的發展有重要的意義.此外,最新研究發現預訓練模型BERT和Transformer 模型使智能體學習到更多有效的知識,可以進一步提升導航性能.但值得一提的是,預訓練模型的訓練時間和計算成本花銷巨大.如何盡可能地降低計算成本,設計一個輕量級的模型是亟待解決的問題.

表3 在 R2R 測試數據集上的視覺語言導航方法對比Table 3 The comparison of vision-and-language navigation methods on the R2R test dataset

表4 在 R4R 測試數據集上的視覺語言導航方法對比Table 4 The comparison of vision-and-language navigation methods on the R4R test dataset

表5 視覺語言導航中的不同方法改進的對比Table 5 The comparison of different improvements in vision-and-language navigation

不同于R2R 數據集的主要評價指標,R4R 數據集包括更長的軌跡,更注重指令和軌跡的一致性程度.因此,R4R 數據集將CLS和SDTW 作為主要評價指標.由表4和表5 可知,在導航成功率的評價指標上,R4R 數據集是明顯低于R2R 數據集.這是因為長指令的影響,導航的性能降低.由表4可知,在CLS和SDTW 上,模型的表現并不盡如人意.其主要原因是模型過于注重是否到達目標位置,忽略了指令和軌跡一致性的比較.盡管模型在基于路徑加權的成功率上有不錯的表現,但這不能保證導航軌跡與指令內容一致.因此,研究人員開始轉向子指令和子軌跡的研究,通過分段剪切長指令,對導航過程中的一致性問題展開一系列的研究.我們可以發現注重指令和軌跡一致性的模型,在主要評價指標上都有一定的性能提升.因此,如何更好地利用指令信息和視覺信息,是視覺語言導航中的關鍵問題.

由表5 中的對比可以看出,早先的方法主要研究監督學習和強化學習的選擇,但整體表現并不好.隨著數據增強以及模仿學習和強化學習的結合等方法的提出,這使模型的性能得到了較大的提升.但其利用波束搜索會導致路徑長度過長,模型從而丟失現實的應用意義.導航策略的改進極大地推動了視覺語言導航的應用發展.隨著研究的深入,研究人員將眼光投入到更貼切現實的低級動作空間,開拓新的研究方向.此外,隨著大規模預訓練模型的興起,研究人員嘗試將預訓練模型引入到視覺語言導航任務中,并取得不錯的效果,使導航性能得到大幅提升.

由表3~5 可知,隨著各種各樣的方法被提出,視覺語言導航領域的發展更加多元化.不僅僅是模型在各項評價指標上有較大的提升,更重要的是在細分研究方向上也得到了更多研究和關注.

4 未來展望

視覺語言導航是近年來在多模態領域中新興的研究方向,一經提出就受到大批研究人員的關注.隨著研究的不斷深入,視覺語言導航在導航成功率和泛化能力上,都得到了巨大的提升.研究人員通過數據增強手段,生成新的訓練數據.雖然這種方法對模型性能的提升很有幫助,但并未解決泛化能力不足的問題.因此,后續的研究開始著力于減少過擬合現象,引入預訓練模型.與此同時,研究人員不斷優化學習方式,進一步地提出視覺文本對齊和回溯機制等輔助手段,這些方法顯著提升模型的泛化能力,并取得較為理想的性能.

但是,目前仍有一些問題亟待解決:1)當前提出的一些方法,受到了仿真環境平臺和數據集的限制.從低級動作空間到高級動作空間的轉換,采用波束搜索的方式,簡化了導航過程.盡管各方面的性能表現均令人信服,但脫離現實,模型難以遷移部署到現實環境中.如何貼近真實場景、賦予模型更多現實的應用意義,這需要視覺語言導航研究的重心重新轉移到低級動作空間上.盡管已有基于連續環境的視覺語言導航模型,但是其導航效果并不理想.因此視覺語言導航需要結合傳統機器人技術,進一步優化目前在模擬環境中訓練的模式.2)有實驗表明視覺語言導航的模態融合方法會對模型性能產生負面作用.究其根本是模態信息之間關系模糊,并未形成良好的互補,模型不能有效地利用多模態信息.目前,大規模預訓練模型可以更好地利用多模態信息,獲得不錯的性能表現.但是由于計算能力不足和時間開銷過大,這為視覺語言導航的發展帶來新的問題.因此對多模態信息學習的研究,仍有很大的發展空間.3)在視覺語言導航任務中,數據稀缺的問題尤為明顯,這是限制性能的一大阻礙.盡管研究人員提出了利用機器生成合成指令的方法,但這些合成指令大部分是有缺陷的,且不符合人們的語言習慣.同時不少研究人員重新搜集數據,從規模和指令長度等方面進行拓展,獲得更接近現實場景的指令集.由此可見,數據方面的研究工作一直都是視覺語言導航中的重要內容.

在現實場景中的導航過程是動態連續的,而非簡單的無向圖探索過程,目前不少研究人員重新投入到連續空間的視覺語言導航研究,即在低級動作空間下,智能體經過一系列的基礎動作,完成視覺語言導航任務.當前Habitat 平臺和iGibson 平臺都支持連續的導航.智能體可以通過低級動作完成導航,這就為以后應用到現實場景提供了更多的可能性.此外,由于多模態任務的輸入復雜多變,機器和人類的理解能力差異較大,所以BERT 等預訓練模型的引入,為智能體提供豐富的額外知識,有助于理解模態信息和模態間的融合.總體總之,視覺語言導航任務無論是在現實中的應用,以及數據獲取方面的研究,未來還有很長的路要走.

5 結束語

視覺語言導航是一種多模態理解任務,在未來智能家具、娛樂、養老等國計民生領域有較大應用需求.本文詳細介紹了視覺語言導航任務近年來的發展,首先對于各種主流模型進行了簡要介紹,然后對提升模型泛化能力的方法進行了綜述,分別包括模態間的分析、指令集等拓展方式以及搜索策略、訓練方式和預訓練模型等輔助策略.盡管視覺語言導航任務近年來取得了快速的發展,但是隨著研究的深入,也凸顯出各種約束和限制,這需要更多研究人員投入后續的工作研究.研究人員不僅要追求性能上的突破,而且要賦予模型更多的應用價值.希望通過本文可以讓更多人了解視覺語言導航任務,吸引更多人投入其中,促進其發展.

猜你喜歡
指令模態動作
聽我指令:大催眠術
ARINC661顯控指令快速驗證方法
測控技術(2018年5期)2018-12-09 09:04:26
LED照明產品歐盟ErP指令要求解讀
電子測試(2018年18期)2018-11-14 02:30:34
動作描寫要具體
畫動作
動作描寫不可少
國內多模態教學研究回顧與展望
非同一般的吃飯動作
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 欧美人与性动交a欧美精品| 亚洲午夜18| 国产视频自拍一区| 亚洲第一成年免费网站| 国产不卡在线看| 欧洲欧美人成免费全部视频| 亚洲水蜜桃久久综合网站 | 五月丁香伊人啪啪手机免费观看| 在线观看无码a∨| 中文字幕精品一区二区三区视频| 亚洲中文字幕久久精品无码一区| 亚洲网综合| 国产精品丝袜视频| 欧美成人a∨视频免费观看| 亚洲国产高清精品线久久| 中文字幕在线看视频一区二区三区| 亚洲无码一区在线观看| 在线综合亚洲欧美网站| 国产在线观看一区二区三区| 国产福利在线免费观看| 国产凹凸视频在线观看| 狠狠亚洲婷婷综合色香| 亚洲日本中文综合在线| 亚洲美女视频一区| 美女一区二区在线观看| 99尹人香蕉国产免费天天拍| 最新亚洲人成网站在线观看| 国产99在线| 成人在线观看一区| 国产精品毛片一区视频播| 亚洲欧美自拍视频| 国产一级二级三级毛片| 亚洲精品国产日韩无码AV永久免费网| 爱爱影院18禁免费| 日韩黄色在线| 九九九久久国产精品| 欧美精品啪啪一区二区三区| 国产精品欧美亚洲韩国日本不卡| 亚洲成人免费在线| 99这里只有精品6| 国产剧情伊人| 免费人成又黄又爽的视频网站| 国产拍在线| 国产精品偷伦视频免费观看国产| 亚洲码一区二区三区| 国内精品视频| 成人午夜免费视频| 人与鲁专区| 特级做a爰片毛片免费69| 青青草原国产一区二区| 永久毛片在线播| 中文字幕乱码二三区免费| 精品欧美日韩国产日漫一区不卡| 亚洲制服丝袜第一页| 中文字幕在线不卡视频| 欧美日韩第二页| 久久黄色毛片| 亚洲区一区| 亚洲一区二区三区中文字幕5566| 久久动漫精品| 亚洲性日韩精品一区二区| 波多野结衣视频一区二区 | 国产精品3p视频| 九九九国产| 91亚洲视频下载| 亚洲伊人久久精品影院| 成人国产精品一级毛片天堂 | 色亚洲成人| 久久久久亚洲AV成人人电影软件 | 日韩福利视频导航| 小说 亚洲 无码 精品| 亚洲天堂伊人| 国产在线视频二区| 免费高清毛片| 精品视频一区二区三区在线播| 国产91全国探花系列在线播放| 免费人成视频在线观看网站| 日本成人精品视频| аⅴ资源中文在线天堂| 爱做久久久久久| 欧美精品成人| 国产原创演绎剧情有字幕的|