面向無人平臺的視覺空間關系模型

2023-11-01 13:02:22皇甫潤南田江鵬屠銥成

測繪通報 2023年10期

關鍵詞：模型

皇甫潤南,田江鵬,游雄,屠銥成

(1. 信息工程大學,河南鄭州 450052; 2. 61175部隊,江蘇南京 210046)

伴隨以大數據和深度學習為代表的新一輪人工智能技術浪潮,人工智能與武器裝備的結合日趨緊密,無人平臺已成為影響未來戰爭制勝機理的顛覆性技術,也是形成顛覆性軍事能力的重大發展方向。無人平臺是一個多學科交叉的前沿領域,涉及的理論問題和關鍵技術非常廣泛,從測繪學的視角來看,最有價值且最富挑戰的問題之一是,如何提高無人平臺對復雜環境的感知、認知和理解水平。時至今日,這一問題已取得一定突破,特別是傳感器技術和機器學習算法的進步將無人平臺推向了新的高度。自動駕駛汽車已經開始進入開放環境路測[1],搭載傳感器的無人機可在野外環境中自由穿行[2],無人艦艇也逐漸出現在多個行業和領域[3]。然而,無人平臺對環境的自主感知與理解、推理和決策的問題并未得到根本性解決,在新一輪人工智能的賦能下,逐漸成為不同領域競相追逐的前沿熱點。

測繪領域已經對這一研究熱點產生積極響應。文獻[4]指出,新時期測繪與地圖的服務領域應實現從地球表面向多維空間拓展,實現為“人”服務的測繪產品拓展到為智能機器人服務的平臺或系統提供測繪保障。地學領域與無人系統結合最為緊密的是面向自動駕駛高精地圖[5-7]的研究與應用。高精地圖是普通導航地圖的顛覆性升級,因而以地圖作為無人平臺記錄和傳播地理信息的語言,將人類使用地圖的模式和機制移植到自動駕駛車輛上,是高精地圖作為橋梁銜接地圖學與無人平臺的內在發展邏輯。事實上,機器人、自動控制等領域已經采用各式各樣的地圖對客觀環境進行抽象和描述,如特征地圖、柵格地圖、語義地圖等。從地圖學視角而言,隨著交叉研究的不斷深入和統一,一種適用于無人系統認知理解環境信息、建立環境認知模型、進行空間推理決策的機器地圖[8]將出現在地圖家族序列之中。

當認知主體由人類變為無人平臺,地圖的結構和應用模式也發生了相應的變化,其中較為典型的是關于空間關系的記錄和描述。人用地圖并非顯式地記錄要素之間的各種關系,而是通過地圖閱讀在人類的視覺系統和大腦中重建要素之間的關系[9]。若使得無人平臺具備類似于人腦的理解和推理能力,就需要在地圖中顯式地描述要素間的空間關系,具體表現為3個層次的問題。一是空間關系檢測,即無人平臺通過各類傳感器,實時感知并解譯空間關系。其中,引用計算機視覺領域對這一問題的定義[10],本文將通過視覺傳感器獲得的空間關系稱為視覺空間關系。二是空間關系記錄,即需要設計一種能夠描述地理要素及其相互關系的數據結構,如場景圖[11]使用三元組結構,以清晰地表達場景中的對象、屬性及對象間的關系。三是空間關系模型,即需要為無人平臺建立空間關系的分類模式和描述規范,建立空間關系模型,實現無人平臺地圖在空間關系記錄和描述上的統一。上述3個問題中,空間關系檢測和記錄在機器視覺領域取得了一定的突破[12-13],已經能夠從算法層面實現視覺場景空間關系的實時預測。然而,不同檢測算法和支撐數據集中空間關系實例是隨意和分散的,無人平臺缺乏統一的視覺空間關系模型。

本文針對無人平臺視覺空間關系模型缺失的問題,將地圖學和機器視覺中關于空間關系的分類、模型和算法進行交叉融合,提出一種面向無人平臺的視覺空間關系模型,并通過試驗對模型的可行性進行檢驗。

1 視覺空間關系模型

1.1 相關研究

地圖上表達的空間關系側重對空間實體對象之間所具有的空間特性的形式化,且大多用于描述空間對象之間的幾何關系[14]。文獻[15]將空間關系分為5類:拓撲關系(包含、鄰接、相交、相離等)、方位關系(東、南、西、北、上、下、左、右等)、順序關系(在……內部、在……旁邊、在……外部等)、距離關系(基于度量表示的地理實體之間的距離遠近程度)及模糊關系(接近、疏遠、貼近等)。文獻[16]認為拓撲關系、方位關系和度量關系是傳統空間關系的3種基本關系類型。在拓撲空間中,拓撲關系所表示的關系與實體的位置和距離無關,因而不會因空間實體的放大、縮小和位移而發生變化[17]。地圖對空間關系的分類模式系統性更強,實例的定義空間分布特征更為明顯,且在拓撲、方位和度量3個基本分類上已經形成共識。

在機器人領域,目標檢測和語義分割技術日趨成熟,推動了視覺空間關系檢測技術的發展。當前,視覺空間關系檢測最新進展依托于深度學習技術,是一種描述主客體視覺空間關系的數據驅動檢測流派。文獻[18]提出了首個面向場景圖、包含超過30個視覺空間關系類型的數據集Scene Graph。隨后,文獻[19]又提出了包含70個關系類別的VRD(visual relationship dataset)數據集,其中,描述關系的謂詞根據語法被分為活動、空間、介詞、比較和謂詞5個類別。以此為基礎,進一步將靜態空間關系拓展為動態空間關系,如在分析實體間空間關系時考慮時間因素影響的VG(visual genome)[18]數據集;聚焦動態場景中時空特征表達的AG(action genome)[19]數據集,通過注意關系、空間關系和接觸關系3類關系,描述了視頻關鍵幀中人和其他物體的關系。

上述兩方面的現狀進一步表明:對機器人領域和經典地圖學的空間關系進行研究,并沒有得到積極的交叉和相互啟發。在機器人領域,目標識別和語義分割的日趨成熟,使得視覺空間關系檢測成為研究熱點;而在地圖學領域,空間關系的研究仍主要面向人類主體,缺乏面向無人主體的拓展。鑒于此,參照地圖學在空間關系研究方面的經驗,將不同機器視覺算法和數據集中分散的關系實例進行統一整合,建立一種基于空間認知機理,由機器視覺算法支撐的視覺空間關系模型,將會是提高無人平臺空間關系認知和表達能力的可行方案之一。

1.2 分類模式

關于空間關系的表達,在人工智能與地學領域存在一定差異[20],人工智能領域更注重空間關系的形式化表達與推理,而地理空間關系則聚焦于空間定位,以及地物的位置和屬性特征。二元定性空間關系的形式化表達及其組合是地學研究的核心內容[21],主要體現為拓撲關系、方位關系和度量關系。作為地理學語言的地圖,則基于數學、符號和注記等規范記錄空間要素,空間關系蘊含在其中。因此,關于位置的相互關系的表示,應是無人平臺空間關系描述的關鍵問題。

綜上所述,本文提出了統一的視覺空間關系分類模式,見表1。總體上將視覺空間關系分為位置關系與語義關系兩大類。位置關系進一步分為拓撲關系、方位關系和距離關系,繼承了地學空間關系的一般表達規律。語義關系包括主體帶有目的性的動作關系及主客體自身的屬性關系。動作關系受認知與視覺領域的啟發,主要應用于人或其他具有執行動作能力主體時的場景,根據主客體之間是否接觸及主體對客體的注意力情況分為注意關系與接觸關系。屬性關系主要對空間對象的類別、特征、屬性等其他語義關系進行描述,可分為類屬關系、比較關系和相似關系。類屬關系主要用于描述具有相同類別或屬性的主客體,反映對象之間的特征、層次與實例情況;比較關系側重對主客體的屬性特征進行對比分析;相似關系描述主客體之間某一屬性的相關性。

表1 統一的視覺空間關系分類模式

1.3 表達模型

基于上述無人平臺環境描述和空間關系表達的特殊性,結合統一的視覺空間關系分類模式,可以進一步建立視覺空間關系表達模型。無人平臺在場景S中所建立的視覺空間關系圖表達模型,可表示為五元組,即

ReS=(O,R,E,T,F)

(1)

2 數據集設計

構建無人平臺視覺空間關系模型,旨在提高其空間關系的預測和表達能力,而這種能力的評測最終需落在機器算法層面。因此,本文在現有視覺空間關系檢測算法的基礎上,通過構建融合視覺空間關系模型的數據集,訓練視覺空間關系檢測模型,比較不同模型的視覺空間關系檢測能力,從而對關系模型的可行性進行驗證。

2.1 數據集構建

數據集構建的步驟主要包括:①數據采集與處理,圍繞視覺空間關系模型包含的關系類型和實例,以室內和室外園區環境為原型,以無人平臺自主導航尋路為任務背景,通過無人車及其搭載的視覺傳感器采集并獲得視頻數據;同時,采用FFmpeg插件從視頻中提取關鍵幀,并使用Faster R-CNN[22]工具從關鍵幀中提取視覺目標,以便后續試驗處理。②視覺空間關系標注,以視覺空間關系模型規定的關系類型和實例為依據,采用人工標注的方式,標注關鍵幀圖像上目標之間的空間關系,形成視覺空間關系數據集。數據集構建流程如圖1所示。

圖1 數據集構建流程

2.2 數據統計情況

本文構建了3種測評數據集,以滿足試驗方案中設計的3個模型評測需求。①自建數據集(self build dataset,SBD):嚴格按照視覺空間關系模型進行數據采集和關系標注構建的數據集,以較為客觀地反映一個完整任務的視覺數據閉環,該數據集主要用于空間關系分布特征分析試驗和模型有效性分析試驗。②AG抽樣集(Sampling AG,SamAG)[19]:是研究視覺關系檢測與動態場景圖生成的常用數據集,可作為本文視覺空間關系模型和數據集的比照對象?？紤]數據規模、關系分布等一致性問題,本文采用隨機抽樣方法構建SamAG數據集,以支撐與SBD數據集的橫向比較。③認知數據集(Cognition Vision Relation Dataset,CogVRD):以自采數據集和AG數據集為基礎,以視覺空間關系模型為依據進行圖像篩選(按照場景和任務的相似性選取了部分圖像)、關系補齊等操作獲得的數據集,主要用于空間關系預測能力分析試驗。4種試驗數據集的詳細統計信息見表2。

表2 試驗數據集統計數據

2.3 空間關系分布特征分析

以SBD數據集和SamAG數據集為基礎,對空間關系構成、分布特征和獨立性進行分析,驗證基于視覺空間關系模型構建的數據集是否反映模型的結構。

圖2為兩個數據集包含的空間關系分布情況。可以看出:①以視覺空間關系模型中的關系類型為比較依據,SBD比SamAG具有更好的空間關系覆蓋度,基本保證了每種空間關系都具有一定的出現頻次,說明了數據集構建遵循空間關系模型的結構;②兩個數據集中少部分空間關系頻次很高,而大部分空間關系出現的次數很少,空間關系分布均呈現典型的長尾分布特點,一定程度上能夠說明基于空間關系模型構建的數據集符合統計學特征;③SamAG中“in＿front＿of”“holding”“not＿contacting”等關系出現頻次較多,SBD中“meet”“not＿contacting”“in＿front＿of”等關系更為集中,兩者有所重疊但不完全一致。

圖2 數據集空間關系分布情況

圖3更為細致地比較了兩個數據集中空間關系分布的差異性?？梢钥闯?SamAG的關系分布與SBD關系曲線具有一定的差異,兩個數據集中頻次靠前的空間關系也不盡相同,因而兩種數據集在一定程度上是相互獨立的。為進一步驗證這種獨立性,將兩個數據集的空間關系頻次歸一化到[0,1]區間內,使用歐式距離函數對兩個數據集的空間關系分布擬合度進行計算,得出相似度為11.66%。

結果表明,SBD數據集和SamAG數據集在關系分布上具有獨立性,且SBD數據集具有更豐富的空間關系類型。一定程度上證明了SBD數據集能夠反映本文所提出的視覺空間關系模型,且數據集的獨立性特點為后續的比較試驗奠定了基礎。

3 基于STTran的視覺關系檢測

3.1 時空Transformer

本文采用時空Transformer方法[13]完成視覺空間關系檢測模型的訓練。時空Transformer是Transformer模型在視覺語言領域的拓展,由一個空間編碼器和一個時間解碼器構成,能夠有效利用時空上下文信息進行空間關系動態預測,適用于本文無人平臺時空連續視覺數據的處理需求。

3.2 評測任務和策略

引入視覺空間關系檢測常用的3個評測任務[23],即謂詞分類(predicate classification,PredCls)、場景圖分類(scene graph classification,SGCls)、場景圖預測(scene graph detection,SGDet)。其中,謂詞分類任務是根據對象標簽和位置預測空間關系;場景圖分類是根據對象位置預測對象標簽及其相互之間的空間關系;場景圖預測則是從關鍵幀中預測出標簽、位置和空間關系。

評測策略方面,引入文獻[13]的無約束(no constraint)、有約束(with constraint)和半約束(semi constraint)3種策略。其中,對于空間關系三元組,無約束策略允許每個主客體對有多個謂詞猜測,可以反映多標簽預測的能力,但錯誤率較高;有約束策略允許每個主客體對中最多一個謂詞,要求更為嚴格;半約束方法可以允許主客體有多個謂詞,當且只有對應關系的置信度高于設定閾值時,才認定該謂詞有效。

對于空間關系預測結果的評價,本文使用召回率(Recall@K)作為評估指標。召回率[10]是指對預測得到的空間關系三元組進行排序,在排序為前K(本文取K=10,20,50,100)個預測中,計算預測正確關系所占的比例。

3.3 關系預測能力分析

對本文構建的CogVRD數據集進行空間關系預測試驗,與AG數據集的預測結果進行對比分析,從而對比本文模型的空間關系預測能力。

表3為AG數據集與CogVRD數據集在3種評測任務和成圖策略下的預測結果?？梢钥闯?整體上,CogVRD基于視覺空間關系模型和AG數據集進行構建,類似于AG數據集,任務難度越高,建模策略越復雜,召回率越低。數據細節上,CogVRD和AG數據集的表現總體趨于同等,在不同任務下各有優劣:對于謂詞分類(PredCls)任務,AG數據集訓練的模型整體優于CogVRD數據集;對于場景圖分類(SGCls)任務,4種召回率下,CogVRD數據集均有所提高,CogVRD數據集訓練模型的場景圖分類能力在局部略優于AG數據集;難度較高的場景圖預測任務中,CogVRD數據集和AG數據集在不同策略下表現基本等同。

表3 CogVRD數據集和AG數據集的空間關系預測對比結果 (%)

試驗結果表明,基于視覺空間關系構建的CogVRD數據集,在保證與AG數據集相媲美的空間關系預測性能基礎上,擁有更加適合無人平臺環境地圖建模的空間關系分布情況,表明本文構建的視覺空間關系模型在一定程度上優化了視覺空間關系的建模能力。

4 結論

無人平臺對環境理解能力受限是影響其自主能力整體提升的瓶頸之一,而為無人平臺構建更加科學和智能的地圖模型,是未來提高其自主能力的重要方向之一。本文針對無人平臺視覺空間關系模型缺失問題,將地圖學和機器視覺中關于空間關系的分類、模型和算法進行交叉融合,提出了基于空間認知的無人平臺視覺空間關系模型。將地圖學中空間關系的分類和描述方法,與機器視覺領域的視覺空間關系檢測和建模算法相結合,采用交叉融合式研究范式建立視覺空間關系模型,能夠改善當前機器視覺領域空間關系不統一的問題,對提高無人平臺視覺關系檢測、實現空間關系記錄和地圖模型構建等具有一定的研究意義。

本文的局限性為:①視覺空間關系模型的進一步完善,可根據應用場景的差異性建立場景相關的視覺空間關系模型,提高關系預測的準確性,推動模型的應用落地;②加強空間關系標注準確度和數據集建設,以關系模型作為約束條件進行數據標注,也是非常耗時和耗力的工程,數據集的擴充、優化、按應用場景分化等,都需要投入更多的努力;③深化視覺空間關系檢測與地圖建模的銜接,打通觀測、制圖和推理決策的一體化建模流程。