何 麗,張 恒,袁 亮,劉哲凝,張文智,鐘潤豪,張 帥
1.新疆大學 機械工程學院,烏魯木齊 830017
2.北京化工大學 信息科學與技術學院,北京 100029
《中國制造2025》規劃將機器人列為重點發展領域之一,提出了推進服務機器人應用的重大需求。且由于人口老齡化加劇和智能化生活的普及,機器人服務人們日常生活的需求日益增加,在醫療健康、家庭服務、餐飲服務、消殺防疫等不同服務領域發揮著重要的作用。特別是新冠肺炎疫情爆發以來,許多服務都要避免人與人的直接接觸,更突顯出研發新一代能夠適應各種復雜多變環境且具備社會意識的服務機器人的迫切性。王天然院士指出,與人的共融改變了人與機器人的關系,是下一代機器人的本質特征[1]。因此,在實時多變、與人共融的社會工作環境中,服務機器人需要有像人一樣的思考和交流能力,能夠實現安全、可靠、舒適的自主導航,以獨立完成各種復雜的任務。
伴隨著傳感器技術的快速發展以及人工智能與機器人技術的深度融合,機器人智能導航技術已經取得了較大的發展,目前已經實現了在復雜環境中的自主移動和動態避障功能[2]。但要想使服務機器人真正走進人們的日常生活,基于避障到達目的地的自主導航已無法滿足人機共融的需求,人們逐漸關注對自主導航過程中人類舒適度、自然性和社會性[3]的研究,以及建立具備社會意識的智能導航規劃系統。
社會意識導航是指機器人在人-機-物共享空間時,根據人類的社會交互行為規則進行智能導航規劃的行為。傳統機器人的社會意識導航技術只是簡單地繞開人類舒適區,沒有考慮人類的交互行為和社會規則,無法按照人類可接受的社會行為進行導航。針對該問題,Charalampous等人[4]提出在地圖構建中引入社會映射,將獲取的人類交互信息表征到地圖中,以進一步提高服務機器人的社會意識導航能力。Moller等人[5]為讓服務機器人更好地融入人們的日常生活,做出社會可接受的“正確”行為,結合主動視覺、機器人導航、人機互動和人類社會行為建模四個功能模塊,讓機器人具備社會意識導航的能力。可見,為提升服務機器人的社會可接受性,與人共融的社會意識導航一直是服務機器人研究領域的熱點之一。
本文梳理了現階段國內外有關服務機器人社會意識導航方法的研究工作和成果,對社會意識導航系統框架及主要研究方法進行了概述;并依據服務機器人對社會行為感知程度及方式的不同,對基于社會空間關系模型、社會行為學習及行人軌跡預測的社會意識導航方法進行歸納總結,并對未來的發展趨勢進行了展望。
與人共融服務機器人需要具有社會可接受的行為,能夠安全地、舒適地接近靜動態的人類和人類群體,尊重人的社會習俗同時完成導航任務。服務機器人社會意識導航系統框架如圖1所示。該導航系統是在感知、定位、運動規劃和運動控制的傳統導航框架上融入了社會意識導航模塊,旨在通過人體檢測追蹤、行人狀態提取、社會反應控制、社會交互檢測等方法提取周圍環境的社會特征,以區分人類與常規障礙并能夠對接近機器人的行人做出合理避讓和運動規劃。

圖1 社會意識導航系統框架Fig.1 System framework for socially-aware navigation
結合服務機器人社會意識導航的發展歷程,依據社會行為感知程度及方式的不同,社會意識導航主要研究方法可分為以下三類:
(1)基于社會空間關系模型的導航方法。在早期研究中,由于導航過程行人數據繁雜難以利用,研究者們通過社會空間建模研究了基于模型的社會意識導航方法。主要通過一些社會規則假定,建立社會力模型或高斯模型,進行手工計算后由這些模型推導的結果指導機器人導航過程。
(2)基于社會行為學習的導航方法。雖基于模型的方法具有計算效率和可解釋性的優勢,但適用性有限,這些模型的參數在不同環境甚至不同行人之間差異很大,同時也無法考慮復雜時變的社會關系。因此研究者們提出了基于社會行為學習的導航方法,通過深度學習捕捉由大量傳感器數據得到的環境和周圍人類的特征,實現了社會意識導航過程由模型驅動向數據驅動的轉變。
(3)基于行人軌跡預測的導航方法?;诳臻g數據的學習方法由于計算過程的時滯性,降低了服務機器人與人友好交互的能力。基于此,研究者們通過行人軌跡預測與社會意識導航算法進行時序匹配,更好地適應行人場景中的高動態性。
社會空間關系模型主要包含社會力模型和高斯模型。其中社會力模型考慮行人的速度和方向進行模型構建,高斯模型則通過行人的社會交互意圖建立交互空間來表現出社會意識。
傳統社會力模型方法的核心是引入目標點對機器人的“引力”和障礙物對機器人的“斥力”,通過力的合成實現讓機器人既能向目標點移動,又能避開障礙物。在人的周圍添加“斥力”可以實現機器人在導航時避讓行人,但是這種避讓僅把人當作“障礙物”來處理,并沒有把人當成服務對象來對待。
部分研究人員通過改進或加入更多的社會力模型來實現多場景的社會意識導航。Ferrer等人[6]將社會力模型(social force model,SFM)引入導航中,提出了一種基于社會力模型的機器人社會意識導航方法,它將人類之間的社會互動用社會域或力量模型來表示,主要描述了人與機器人、人與人和人與障礙物之間的交互力。在導航中,機器人對社會力模型做出反應,可以大大提高行人的接受度,實驗結果表明引入社會力模型的導航方法,具有社會感知意識且方差更小,能夠更高效地處理不同的社會任務。此后,服務機器人的社會意識導航研究經常通過改進或擴展SFM以提高其在人類社會中舒適性導航的能力。Malviya等人[7]不僅考慮人與人、人與機器人之間的吸引與排斥,還考慮他們之間保持的距離是否均衡,以及這些距離在不同人類行為和社會習俗里的變化,通過加入幾種不同的社會力擴展了社會力模型,有助于模擬不同的人類行為并且運動軌跡更符合社會習俗,使得機器人的導航行為更加令人滿意。但該方法只適用于全體社會意識環境下的某一種,不適合復雜的社交場景,泛化性能較差,并且靈活性不高。Pérez-Hurtado等人[8]采用了一種基于膜計算的社會導航模型,提供了一種固有的并行計算框架,可以在并行硬件上模擬計算,能夠滿足機器人導航對實時性的要求,并結合動態窗口法和社會力模型規劃出能夠滿足社會要求的路徑。
除了改進社會力模型外,一些研究人員在社會意識導航中考慮空間關系學來實現合理的社交導航。Wang等人[9]在基于社會力模型和空間關系學的機器人導航框架上,提出了一種考慮速度約束的自適應運動控制方法進行模型匹配?;诳臻g關系理論構建了社會空間勢場,以產生社會交互力,而后提出一種動態控制方法,在結合運動速度約束的同時處理動態模型的不確定性,使機器人的運動受到目標社會力模型的自適應控制,可以有效地解決感知人類的運動控制問題。與純運動控制和基于動態模型的控制相比,該方法在結合運動速度約束的同時可以處理動態模型的不確定性,可以進一步調節機器人與人之間的空間關系。雖然所提出的方法沒有違反空間約束,但是機器人的導航軌跡侵入了個人區域,社會規范不嚴格,沒有區分不同年齡、關系的行人。Reddy等人[10]通過添加新的社會力量模型,根據社會行為選擇幾何間隙來保證機器人與人群的舒適距離,提出了一種結合社會力模型、幾何方法和間隙選擇策略的混合算法。該算法在真實環境下表現較好,機器人在人群密集的環境下與人類的最小間隙為0.56 m,比次最佳方法高出10 cm以上,且未違反最小距離約束,時間花費少。與基于社會力模型的方法相比,該方法保持了更大的間隙,提供最大可能的交互空間,產生了更安全的軌跡。但是在導航過程中,沒有考慮人類的情緒狀態和行為方式,人機交互的可能性較小。Kivrak等人[11]針對人工勢場法普遍存在陷入局部最優的問題,擴展了基于社會力模型的局部規劃器,將其與A*算法結合,同時納入了社交區域,并且考慮社會力大小和某些點的不連續可能發生的高速轉彎和振蕩問題,對連續的時間戳力進行一種插值或平滑處理,使得機器人的運動不會引起人類的不適;且為了避免不必要的重新規劃和提供平滑的運動控制,提出一種關鍵路徑點選擇算法,通過修剪全局路徑的某些部分來提取全局路徑的路徑點用于機器人的路徑規劃,實現一個完整、社交、平滑并且計算負荷低的機器人社會意識導航。
也有部分研究人員將人類運動軌跡考慮進社會力模型的導航方法中,Repiso等人[12]提出了一種機器人以人類社會行為陪伴個人或人群的導航方法,該方法將并排和V形的行人模型與預期的動力學規劃器相結合,機器人跟行人保持并排或V形隊形,預先避免靜態和動態障礙物,并可以動態改變其在群體中的位置。利用貝葉斯人類運動意向性預測器(Bayesian human motion intentionality predictor,BHMIP),機器人可以從目的地中選擇人群最可能去的目的地。通過結合BHMIP和SFM,機器人能夠預測行人運動,在5 s的時間窗口內來預測他們的行為。此外,該方法還考慮了行人的隨機性和運動方向,機器人能夠調整速度,以適應人的行為。但是遇到人群密集存在遮擋的情況下,機器人無法實時保持隊形,導航性能較差。Kamezaki等人[13]針對傳統路徑規劃方法會出現機器人在試圖通過密集人群時無法與人類進行協調,從而導致凍結的問題,開發出一種避障性、主動性和可引導性的近端群體導航方法,該方法基于一種新開發的可引導社會力量模型,首先基于社會力模型融合路徑規劃方法主動生成避碰、近端和引導物理觸摸路徑等多條路徑,基于可引導社會力量模型主動預測人體運動,根據機器人運動效率和人群入侵指數選擇最優路徑,最后根據施加的力在人群中反應移動,不僅可接近人類,還可通過物理觸碰人類來引導人類避讓,解決了機器人低效率的繞道問題和凍結問題。Kivrak等人[14]提出了基于碰撞預測的社會力模型,把該模型用作局部路徑規劃器,使得機器人在局部未知環境能夠進行平滑、安全的導航,在走廊等室內環境場景中生成與人友好的無碰路徑。這是首次有人將社會力模型應用于未知環境下,但其被應用于真實環境時對傳感器和模型參數依賴高,在多層建圖后才能快速檢測障礙物,進行安全無碰撞的社會意識導航,準備工作較多。
為使機器人在人類社會中表現出更流暢及更符合社會習俗的軌跡,可以增加對人類行為信息的利用,一些研究人員將個體或者群體的狀態信息和社會力模型相結合,實現深層次的社會意識導航。Patompak等人[15]對社會力模型進行改進,將其擴展到人與機器人之間的社會關系,提出了一種基于社會力模型的社會關系模型(social relation model,SRM)的導航方法,機器人通過獲取人類的行為信息和社會交互程度來估計人類與機器人之間的關系,利用這些信息確定人類不可接受的區域,從而遵循一定的社會約束進行導航。在基于過渡的快速隨機樹算法上測試SRM的影響,結果表明通過集成SRM,可以降低不同環境下不可接受度和平均路徑長度,該模型在考慮人類可接受的感覺同時,有助于提高導航效率。然而該實驗假設人與機器人之間的關系因素很簡單,并僅由測試者指定,沒有考慮其他因素來定義人類和機器人之間的關系。除了考慮機器人與人之間的交互關系外,還要考慮機器人會面對人在與物體互動的狀態,不去打破人-物之間的關系,Truong等人[16]考慮復雜社交環境下的機器人導航問題,創新性地將機器人與人-物之間的交互考慮到導航系統中,提出一種社會反應控制,通過將個體狀態(位置、方向、運動和人類視野)和社會互動群體(群體類型、群體中心、群體半徑和群體速度)納入傳統的社會力量模型,將其與傳統的路徑規劃技術相結合,使移動服務機器人能夠在人類交互環境中安全和社交地導航,并在真實場景驗證了其方法的有效性,但對傳感器要求高是限制其在大范圍應用的主要原因。Yang等人[17]提出基于完整系統特征的擴展社會力模型方法,以激光測距儀和相機作為傳感器,構建環境模型和檢測人類行為信息。對人群進行社會學研究的基礎上,構建了動態分組模型,將行人行為具體化到一個群體中,以實現社會導航,為了與周圍環境互動,開發擴展社會力模型并且使用多策略決策模塊,設計幾種不同功能的機器人行為,從而作為一個整體完成了機器人導航框架,解決機器人在復雜和密集的環境很難進行社交友好的導航問題。但以上方法對檢測的精準程度要求較高,若出現部分遮擋問題其效率則會受到很大影響。
表1對基于社會力模型的導航方法進行了對比,從表中可以看出通過加入社會力模型可以使機器人擁有良好的交互能力,在此基礎上融合其他方法能夠讓機器人在導航過程中更加適應行人的行為和運動,實現社會意識導航。但目前基于社會力模型的方法仍然存在不足,算法的傳感器依賴性高,而且算法對不同環境的適用性不高,與人類的運動軌跡還有一定的差距,想要實現能被行人完全接受的安全性高、適用范圍廣的社會感知導航還需對以上算法繼續深入研究和改進。

表1 基于社會空間關系模型的導航方法對比Table 1 Comparison of navigation methods based on social spatial relationship model
上述社會力模型的建立主要是基于行人的行走速度和方向,用引力和斥力來表征行人的交互意圖,沒有考慮行人的行為方式和社交狀態,存在一定的局限性。而利用高斯模型建立行人的交互空間,機器人可以根據行人的社會交互信息調整社交區域,修改自己的軌跡,保證社會群體的心理安全和舒適性,表現出社會意識和交互行為。因此,建立社會空間模型對實現服務機器人社會意識導航是十分必要的。
在社會力模型的基礎上,Sheng等人[18]提出了一種基于社會力高斯行人社交模型的社會意識導航方法,利用高斯函數改進了行人社交模型,以適應不同的行人運動行為和密度,且不需要關于環境的先驗信息和復雜的參數調整。該模型通過遵循人類社會規則,模擬行人社交空間,提高了機器人完成任務的成功率和效率。但是在行人密集的情況下,機器人的路徑平滑性較差,需要執行更多的轉彎、加速和減速。Gines等人[19]提出了一種人類可接受的機器人導航算法,將社會行為模塊和社會導航模塊集成到機器人認知架構中,并添加社會關系層修改本地代價地圖,利用高斯函數建立了不同的社交區域。機器人不僅可以探測到人類的個人區域,還能夠感知人類對其的態度,調整社交區域的大小。經過測試,參與者認為機器人和人之間的距離足夠,舒適度好。雖然提高了社會意識導航的舒適度,但行駛路徑和導航時間較長。
上述方法雖然一定程度上保證了人類的安全和舒適性,但是行駛路徑和時間較長,且路徑不平滑。針對此問題,Ngo等人[20]提出了一種利用動態窗口法和優化成本函數的移動機器人導航框架。將獲取的人類狀態進行個人空間建模,在參考路徑的假設下,建立了機器人的運動模型,采用動態窗口法和優化成本函數搜索圖中的最短路徑。實驗對三個框架(沒有人類感知框架,有人類區域的基本模型和擴展的個人空間)進行測試。結果表明在保證行人的安全和舒適的情況下,機器人接近行人的路徑更平滑,沒有打破安全閾值。但是由于計算繁重和導航過程復雜,只能應用于低密度人群。Daza等人[21]提出了一種基于最優互惠避免碰撞的社會導航方法,使用對稱高斯函數模型來表示個人距離和鄰近區域,將交互模型與導航算法結合,機器人可適應不同場景下的導航。結果表明機器人在避免入侵社交區域時的運動路徑平滑。但是在導航過程中,只考慮了行人的社交區域,沒有考慮人機互動的其他特征,例如社會習俗、身份文化等方面的因素。
在服務機器人社會意識導航過程中,服務機器人不僅能夠友好地避讓行人,還應及時獲取人類的交互信息,識別行為動作,依據不同的社會交互調整社會空間模型,進行社會意識導航。Truong等人[22]提出了一個具有社會意識的機器人導航框架,通過深度圖像和激光數據融合進行人體檢測及跟蹤,獲取行為信息,使用二維高斯函數對社會群體交互空間建模。機器人可以檢測人或人群的接近姿態,進而能夠安全地、舒適地接近社會環境中的人類群體。在模擬和真實場景的實驗中,服務機器人使用該導航框架成功地處理了10種社會情境,能夠保證個人和社會群體的心理安全和舒適性。然而,該導航框架不適用于高動態的社會環境,人類的時變運動會導致輕微的預測誤差。Charalampous等人[23]提出一個允許在人類居住環境中綜合導航的機器人框架。在機器人的巡視過程中,機器人可以檢測到人類,同時利用深度學習策略來識別人類的行為,結合深度信息發現個人在地圖上的位置,構建三維度量圖,并根據所識別的動作,使用高斯函數構建交互空間模型改變社交區域。其中加入人體檢測和動作識別模塊,可以判斷人類活動,機器人并不是簡單地避免碰撞人類,而是能夠遵循社會行為進行導航。但是在人體檢測模塊失效的情況下,人們會被視為簡單的障礙,機器人只是避免碰撞,沒有考慮社交規則。Truong等人[24]又提出了基于RGB-D和激光數據融合的人類檢測和跟蹤,并用于社會感知的機器人導航框架。與以往的工作不同,該方法考慮了人的相對位置和運動狀態,以及人和機器人之間的相對運動,利用二維高斯函數建模人類擴展的個人空間。此外,該方法對站立、行走的個人和兩三個人組成的人群場景進行測試,服務機器人能夠保證人類在社會環境中的安全和舒適進行導航,但是對于人物交互的關注程度小。在此基礎上,又提出了一個更有效的保證人類安全的導航框架[25]。該框架不僅考慮了人類狀態和交互信息,利用高斯函數建模擴展的個人空間和社會互動空間,而且將兩者結合形成一個動態的社會區域。該區域可以作為導航系統的人類感知決策模塊,允許移動機器人可以在人類居住的環境中安全和社會性地接近人群,并對人與物交互做出合適的反應。但是需要強大、實時和魯棒的人工檢測和跟蹤技術來提高導航系統的性能,在高動態環境中導航速度不夠快。
利用二維對稱高斯函數建立社會空間模型,沒有考慮人類所有維度的信息,如距離、身份、位置、移動和方向,服務機器人做出的導航行為不是最合適的,而使用非對稱高斯函數能夠根據不同的社會特征和運動狀態表征不同的社交距離,從而建立不同的社會空間模型,服務機器人對此做出相適應的行為,進行社會感知導航。Vega等人[26]提出了使用自適應空間密度函數在人類靜態環境中的社會導航,根據人群的空間排列有效地聚類,并使用非對稱高斯函數和全局密度函數構建數學模型定義場景中個人空間和每個物體對應的空間。測試結果表明,導航架構中使用聚類算法和社會規則可以實現社會可接受的導航,不會影響導航性能。但是該方法只考慮了靜態的情景,沒有考慮動態的行人交互及行人姿態的變化。Chen等人[27]提出了一種考慮社會習俗權重的導航框架。通過獲取人類狀態和社會互動的信息,利用二維非對稱高斯函數計算了社會互動空間中點的代價進行建模。機器人運動路徑受社會習俗權重的影響,社會習俗的權重越大,機器人離社會互動空間越遠。Calderita等人[28]提出了一個引入依賴時間社會映射的導航框架,該框架主要應用于護理中心,根據深度狀態表征和表層認知結構構建時間依賴的社會地圖,使用非對稱高斯函數對個人交互空間建模,該函數由兩個不同方向的橢圓函數構成。與經典路徑規劃相比,機器人能夠安全到達目標且不會打擾人類治療等行為活動。但是該方法的導航路徑和時間較長,對于護理中心不同的人物,機器人仍然無法準確區別對待。如機器人應更接近工作人員,而與普通人保持友好的社會距離。
表1對基于高斯模型的導航方法進行了對比,從表中可以看出,大部分研究都是使用高斯函數對人群進行社會空間建模,不同之處在于,部分研究通過深度圖像和激光數據融合技術及時獲取人類的行為狀態和交互信息,識別人體動作并及時調整空間關系模型,可以在一定程度上提高服務機器人社會意識導航的安全性和舒適性。雖然上述研究在各種社會環境下顯示了較好的實驗效果,但目前服務機器人構建社會空間關系模型缺乏時序性和高動態性,它不僅需要及時準確地獲取人體信息,還需對時序信息進行及時持續的跟蹤和更新,并結合注意力機制,融合人群分組及行人軌跡預測方法,建立動態社會交互空間模型,以提高服務機器人與人交互的實時性和友好性,滿足社會意識導航的需求。
基于模型的方法,如上述社會力模型、高斯模型等,都傾向于設計一個特定的規則來描述社會行為,將社會意識導航問題轉化為一個優化問題,這些方法具有一定的計算效率和可解釋性,但因這些模型的參數在不同環境甚至不同行人之間差異很大,適用性有限?;趯W習的方法通過在大量的訓練數據上優化網絡獲得導航策略,早期采用監督學習的范式,通過模仿學習讓機器人模仿專家行為來學習導航策略。Tai等人[29]提出了一種能夠讓機器人直接利用原始深度信息來在行人動態環境中持續學習的導航方法,使用生成對抗模仿學習對行為克隆策略進行了改進,讓機器人不再需要特定傳感器來獲取數據,同時大大降低了計算時間,提高了導航過程的實時性,但算法性能受到機器人速度和視角的影響,而且訓練出的導航策略無法適應復雜擁擠環境。
近年來,為了解決機器人在擁擠環境下的社會意識導航問題,將深度強化學習(deep reinforcement learning,DRL)應用于機器人導航的研究中,DRL結合了深度學習的表示能力和強化學習的決策能力,基于DRL模型的導航方法可以使機器人具備自主學習和決策的能力,具有學習能力強、對傳感器精度依賴低等優點[30]。深度強化學習的目標是通過與環境的交互最大化獎勵函數來學習導航策略,一些研究者基于獎勵函數的改進來實現符合社會規則和考慮人類舒適性的導航任務,Chen等人[31]提出SA-CADRL,通過添加復雜的社會規范獎勵來實現類人的社交導航行為;Cui等人[32]提出了一個深度世界過渡模型來估計機器人未來的觀測和相應的獎勵,并設計了一個考慮社會習俗的獎勵函數來指導導航策略的訓練。上述導航策略能夠遵循右行的社會規則,能夠在人群中適應行人的速度,但是沒有適應行人的舒適區域。Lu等人[33]進一步研究行人舒適距離隨人群密度的變化規律,將該規律應用于DRL獎勵函數的塑造,得到了彈性獎勵函數,該獎勵函數可以指導并訓練出適應不同密度人群和考慮行人舒適性的導航策略,然而,僅僅通過獎勵函數來鼓勵機器人進行復雜的社交活動是一項具有挑戰性的任務,即使獎勵函數在某些情況下看起來很明顯,它通常也必須被規則化。深度強化學習中的一個新興領域關注的是內在動機[34],內在動機以不同的方式內在地激勵機器人的導航行為,其中一種方式被稱為“授權”,授權被應用于激勵機器人獨立完成導航行為,并在獎勵較少的環境中進行訓練,Heiden等人[35]使用授權為機器人提供內在動機,機器人在其環境中努力為人類賦權,這樣人類就不會被機器人的存在和運動所干擾。
行人數量的增加和動態變化給機器人導航造成很大挑戰,適應密集動態人群的DRL模型是發展社會意識導航技術的關鍵。Everett等人[36]提出在網絡輸入處加入長短時記憶網絡(long short-term memory,LSTM),通過LSTM編碼大量的行人狀態到固定長度的向量里,使機器人擁有通過觀察任意數量的行人來選擇動作的能力。Liu等人[37]針對機器人在擁擠復雜的動態環境下無法導航的問題,融合了模仿學習和深度強化學習方法,通過將靜態障礙物和行人的信息分開處理,提出可廣泛應用于實體機器人的導航方法。Everett等人[38]隨后針對機器人導航過程中行人數量增加的問題,開發一種新的算法來學習避碰策略,用LSTM編碼空間表示取代時間表示,能夠在鄰近行人數量增多時,提高機器人的避碰能力和最優決策能力,但是簡化了對其他行人動作模型的假設。
在動態密集人群中導航時,機器人不僅要避免與人碰撞、還要考慮人類的舒適性與社會規則,以往基于模型的方法只考慮了單個的人機交互。受到注意力機制的啟發,Chen等人[39]超越單個的人機交互,聯合建模人與機器人和人與人之間的交互,利用自我注意機制將交互特征聚合為群體表示,從而推斷出鄰近人類對其未來狀態的相對重要性,產生了具有交互認知能力的導航效果,但是,當人群規模增大時,導航性能就會下降。Chen等人[40]提出了利用網絡識別并關注人群中對導航有影響的人來解決這個問題,首先訓練了一個基于人眼注視數據的圖卷積神經網絡,該網絡可以準確估計人群中不同主體的注意力,然后將學習到的注意力整合到一個基于圖的強化學習結構中,所提出的注意機制能夠為機器人的鄰居分配有意義的權重,并且具有額外的可解釋性。孫立香等人[41]針對值函數模型難以擬合復雜行人環境的問題,基于行人交互信息對值函數網絡進行改進,通過行人角度網格對行人之間的交互信息進行提取,并通過注意力機制提取行人行走軌跡的時序特征,學習得到行人當前狀態與歷史狀態的相對重要性以及對機器人導航策略的聯合影響。Xu等人[42]針對值函數模型只學習稀疏獎勵下的離散動作導航策略,收斂速度慢、動作空間有限的問題,提出了一種基于增廣關系圖的深度強化學習方法,通過將交叉熵方法引入到關系圖學習框架中,在連續動作-狀態空間中獲得足夠的訓練樣本,并引入圖形注意力網絡提取高效、可擴展的群體交互特征。
社會環境下的服務機器人要處理的信息不應該僅僅是一系列人,而應是一個更復雜的數據結構,包括人與機器人、人群內部和人與物之間的交互關系,這種復雜的交互關系可以通過關系圖來表示,圖卷積神經網絡(graph neural network,GNN)是一種特別適合用來處理這些關系圖的方法,并且具有可擴展性的優點。Chen等人[43]提出了基于深度強化學習的關系圖學習方法應用于機器人社交導航,首先利用智能體之間的潛在特征來推理它們之間的關系,并使用一個圖卷積神經網絡在每個智能體的狀態表示中編碼高階交互,然后將其用于狀態預測與值估計。所提出方法能夠在考慮人類群體時間變化的情況下,執行多步前瞻性的規劃,但是這種方法忽略了人類的方向、速度等其他信息。Rodriguez等人[44]利用GNN的關系歸納偏差產生場景表示,結合GNN和CNN生成用于社會意識導航的實時成本圖,該模型的主要限制是它考慮的場景是靜態的。Bachiller等人[45]進一步提出了由六個消息傳遞圖神經網絡組成的GNN架構,使得導航模型能夠適應于動態場景,并且可擴展,可以考慮更多數量的交互和社會因素。Liu等人[46]將社交導航場景建模為一個分散的時空圖,以捕捉機器人與多個人類在空間和時間上的交互,然后將分散的時空圖轉化為一種新的端到端的分散結構循環神經網絡,能夠推理時空關系,用于機器人社交導航決策,并使用無模型的深度強化學習算法來訓練網絡,由于機器人完全從自己的經驗中學習,由此產生的導航策略更容易適應密集的人群和部分可觀性。
表2對基于深度強化學習的導航方法進行對比,可以看出,基于深度強化學習算法進行社會行為學習為解決社會意識導航問題提供了有效的手段,特別是在高密度人群和高交互復雜度的場景。但是這些方法大多是在模擬環境中實現的,真實世界更加復雜和動態,將這些訓練好的導航策略遷移到真實世界的機器人社會意識導航任務中是核心挑戰。

表2 基于深度強化學習的導航方法對比Table 2 Comparison of navigation methods based on deep reinforcement learning
在人-機-物共享空間的服務場景中實現機器人的自主導航,對場景中的行人進行軌跡預測是一個關鍵點。行人軌跡預測的核心任務是利用過去觀察到的行人運動軌跡,通過建立模型,讓機器學習由行為推理、與他人的交互、周圍環境的影響等產生的一些規則,理解復雜環境中的人類運動,從而在未來短時間內預測行人的運動軌跡。
大多數基于當前觀測的反應性社會力模型通常適用于跟蹤問題,對于預測問題來說,這類方法由于其貪婪性會在長期預測中失敗,并會在局部代價最小的區域被阻塞。為了解決上述問題,Chung等人[47]在自我圖的基礎上進行了改進,提出了行人自我圖(pedestrian egograph,PEG),通過統計多種行人路徑,并將統計后的路徑數據作為樣本用來生成不同的軌跡,同時利用egograph的多假設特性,幫助建立軌跡預測的概率模型;為了讓機器人能夠理解行人行為與環境之間的空間關系,建立了一個空間認知模型,并通過實驗對方法的效果進行了驗證,證明了基于該算法的服務機器人能通過檢測和學習環境中的空間效應來表現出社會可接受的運動。為了解決機器人在人口稠密環境中的導航任務,Kuderer等人[48]提出了一種基于最大熵原理的導航學習方法。該方法允許機器人從觀察到的行人軌跡中捕捉并學習人類導航行為的潛在概率分布,使其能夠預測其周圍行人的行為,并做出適當的反應,但該方法只關注于導航軌跡。為了讓服務機器人能夠了解他們所接觸到的人的意圖以及同時識別他們的行為,Xiao等人[49]提出了一種學習預測行人未來動作的解決方案,將改良后的距離函數融合進聚類算法中,使其可以測量機器人附近的那些非重疊軌跡的相似性。然后使用了預訓練的支持向量機,將當前觀察到的行人軌跡的起始部分與樣本的起始部分進行匹配,從而對未來路徑提出多個選項,讓機器人能夠以不打擾行人的方式進行移動。Bera等人[50]提出了SocioSense,與以往的社會意識導航算法相比,該方法無需預計算,算法的實時性好,同時其具有通用性和良好的解釋性。但是該系統的行人軌跡數據是通過透視矯正得到的,存在準確性和局限性問題;而行為分類是基于人格模型和Eysenck PEN建立的,這可能無法為所有觀察到的行為進行建模。
許多方法都試圖通過與人保持適當距離來提高人類的舒適性,但那些方法很多沒有考慮到靜態導航規劃會導致機器人為了適應人的運動而持續改變其導航行為。機器人持續的導航規劃會導致其行為缺乏一致性并且會讓人感覺混亂和不自然,無法實現社會意識導航任務。Kollmitz等人[51]提出了一種新的人類意識導航方法,該方法使用社會代價地圖和及時規劃來改善人口稠密環境中的移動機器人導航行為,但該方法只適用于局部導航規劃。服務機器人如果想用于真實環境,就需要在較長時間范圍內進行導航規劃,因此Bruckschen等人[52]提出了一種基于長期運動預測、人類舒適區域約束的路徑規劃系統和基于時間依賴性代價地圖的人類感知導航系統。通過分析行人之間的交互,將學習到的知識轉化為可用于預測未來導航目標的基礎,然后應用代價網格來限制機器人與人類之間的距離,同時利用基于時間的路徑規劃方法以實現高效且讓人感到舒適的導航行為。
代價地圖存在實時性和適用性問題,無法適應復雜環境,而神經網絡在發展過程中逐漸被用于行人軌跡預測。在此基礎上,Chen等人[53]對社會意識模型進行了改進,在當前行人軌跡序列輸入層和行人位置估計層之間增加一個集合池化層,從而更準確地模擬行人軌跡。由于使用了基于預測的行人軌跡和跟蹤代價判斷來優化局部避障功能,使機器人能夠以更安全、更高效的方式在不斷變換的中低密度人群環境中行進。Pfeiffer等人[54]的工作考慮了行人周圍的靜態環境,引入了一種基于極坐標的空間一維網格對周圍行人進行編碼,使其可以捕捉行人之間的復雜交互,還可以將環境中的靜態障礙物納入到導航規劃中,同時降低了預測過程中的運算復雜性,讓該方法具有擴展到密集人群的能力。而且該方法不需要已知行人的目的地,這一特性能夠讓機器人更好地適應現實世界。Sathyamoorthy等人[55]為了解決機器人在不同密度人群中的適應性問題,提出了Dense-CAvoid,改進了RobustTP算法并與導航算法相融合,提高了對傳感器噪聲數據的處理能力,能夠在密集人群中生成平滑的軌跡。但是在導航過程中,機器人可能會產生凍結問題。為了解決上述問題,又提出了Frozone[56],利用行人檢測和行人軌跡預測,提前確定機器人可能會發生凍結或者會對人類產生干擾的區域,構建潛在凍結區,讓機器人在行進過程中避開該區域,以滿足機器人在密集行人環境中的安全性和符合社會規則的要求。但該方法仍然存在一定的局限性:凍結區在沒有人類愿意配合的情況下,仍是無法完全避免。該方法的表現很大程度上受到行人跟蹤算法和對行人友好度建模算法的影響。
表3對基于行人軌跡預測的導航方法進行了對比,從表中可以看出,這些方法雖有不同,但都關注導航過程中的實時性、適用性、對人類社會關系的理解以及對人類復雜交互捕捉和互動的能力。盡管這些方法在上述方面做了許多改進,但在復雜的現實環境中,要想讓機器人實現符合社會規則的順滑的運動規劃,還需要在算法實時性和不同環境的適應性上做出更多努力。

表3 基于行人軌跡預測的導航方法對比Table 3 Comparison of navigation methods based on pedestrian trajectory prediction
盡管學者們對服務機器人社會意識導航技術已經進行了大量的研究,并取得了一定的成果,但若想進一步提升機器人的社會意識導航性能,仍面臨著許多難題和挑戰。首先,對于復雜高動態密集人群的檢測,行人之間存在遮擋等問題,機器人難以準確地識別行人?,F有行人軌跡預測方法仍存在無法對周圍場景充分理解、無法適應復雜多變的環境,社會意識導航的過程中機器人無法考慮自身對人類的影響等問題。其次,在社會生活中,人類的行為活動是一系列連貫的動作,有些動作只有細微的差別但是意義完全不同。但是機器人在導航過程中,識別相似的動作判別一致,對不同時刻行人的人體信息缺少跟蹤和更新,檢測識別行人是片段化、不連續的,構建社會交互空間的時序性不能保證,無法進行友好的社會性導航。最后,目前導航算法中對行人的反應因素考慮較少,大部分研究者將行人視為動態、無反應的障礙進行訓練,導致現實環境中的機器人運動使行人感到不適,行人會因此產生機器人沒有預測到的反應,行人和機器人短期相互作用產生振蕩,導致機器人短期難以做出合適的路徑規劃。
在眾多先進技術與應用創新的挑戰下,目前對社會意識導航的理論研究和系統開發還需要進一步深入,具體有以下幾個方面:
(1)通過多源信息融合構建低成本、魯棒性強、檢測效率高的社會意識導航系統,使其在多異構環境都能正常使用。深入研究多種信息源融合處理技術,產生對人類和所處環境較全面的檢測,保證數據的完整性和數據傳輸的高效性,減小多源信息融合過程中產生的誤差,降低損耗率和關聯難度,從而獲得全面和具體的數據信息,實現在密集人群中并存在部分遮擋環境下的精確檢測的社會意識導航。
(2)在社會行為認知上可通過精確感知社交線索信息幫助服務機器人充分理解人類行為和意圖。在現有的社會意識導航中增加多個社交線索的聯合分析系統,增加多個檢測窗口,檢測行人的多個可見部位,并擴展人體信息特征識別類型,將人體姿態、頭部朝向、面部表情、生理活動等指導著社交活動的信號融合識別,建立知識信息的相關聯系,將多種類型的信息特征進行融合,同時增強機器人對人體外觀模型的學習,從而提高機器人對行人意圖的精確感知。
(3)有效的時空建??蓸O大地提高行為識別的精度,實現高效的長時序時空特征建模有助于提高社會意識導航的被接受程度和應用范圍。通過從準確的時序信息中提煉更精確的時空特征和運動特性,設計多尺度時空特征融合模塊,探索高效率的多尺度時空特征提取網絡,實現實時和高效的社會意識導航。
本文首先總結了服務機器人社會意識導航系統框架;其次對其中社會行為認知層面涉及到的基于模型的社會空間關系建模方法、基于數據的社會行為學習方法、基于時空序列的行人軌跡預測方法的國內外研究進展進行了總結歸納。最后在列舉分析了現有社會意識導航優勢與不足之后,探討了現有社會意識導航存在的問題,并對該領域未來的發展方向進行了展望。
目前,針對服務機器人社會意識導航相關理論、方法及技術還不夠完善,距離服務機器人能“像人一樣”的自主移動和工作的目標還有一定的差距。因此,在服務機器人社會意識導航研究及其實際應用的未來工作中,應該進一步加深對導航算法體系的理論研究,以現有的服務機器人系統為著手點,加強時空數據的分析匹配、數據特征的提取能力以及學習模型效率的研究,進一步提高服務機器人社會意識導航系統性能,提升服務機器人在動態社會環境下的與人共融性及友好交互,進而推進服務機器人在多場景下的應用與普及。