999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度強化學習技術在地外探測自主操控中的應用與挑戰

2023-04-19 06:07:04高錫珍湯亮黃煌
航空學報 2023年6期
關鍵詞:深度智能環境

高錫珍,湯亮,黃煌

1.北京控制工程研究所,北京 100094

2.空間智能控制技術重點實驗室,北京 100094

地外探測從最近的月球逐步延伸到越來越遠的火星、小行星等天體,探測方式從掠飛環繞,逐漸進步到著陸巡視和采樣返回[1]。地外探測自主操控(Autonomous Manipulation)是在環境不確定下,不依賴于地面測控,僅依靠自身敏感器和控制裝置,根據實時獲取的環境信息及時調整自身狀態,并自主完成空間規定動作或任務的技術手段,其應用主要包括定點著陸、移動巡視、近距離操作、取樣采集等任務。地外星表探測器中美國“好奇號”火星車具備7 m 范圍內自主選擇探測目標的能力,能夠自主識別探測目標[2]?!岸床焯枴碧綔y器具備厘米級的操作精度,可實現著陸點附近鉆探取樣[3]。中國“嫦娥3 號”實現復雜地形自主懸停避障[4],“嫦娥5 號”探測器通過表取和鉆取2 種操作方式成功實現了月球探測采樣返回[5]。目前地外探測自主操控能力有限,主要采用“地面遙操作+有限自主”的半自主探測方式,大部分時間由地面根據有限的遙測數據和圖像,對周圍環境進行分析判斷后,將決策指令信息及時傳送到探測器并使設備按預期要求運行。

但地外探測面臨環境復雜不確知、通訊時延大、以及器上資源約束嚴苛之間的沖突,僅靠傳統方法或技術優化改進難以從根本上提升在復雜無約束地外環境的自主能力,導致危險識別難,操控作業精度低,降低了探測效能。隨著新一代人工智能技術的發展,通過積累經驗、持續學習并生成知識,提升探測器的自主智能水平,實現在陌生、未知不確定探測環境中類人操控,是解決上述問題的有效途徑。目前各國已開展將人工智能引入地外探測無人系統的探索性研究[6],“毅力號”“好奇號”任務分別開展了基于深度學習的地形分類、車輪打滑預測等研究[7]。強化學習通過與環境不斷交互,從而試錯學習到當前任務最優或較優的策略,“機遇號”在火星運行15 a 獲得了大量交互數據,展現了強化學習在地外探測中應用的巨大潛力。而未來地外探測任務復雜多樣,深度強化學習(Deep Reinforcement Learning, DRL)融合了深度學習強大的特征表示能力和強化學習高效策略搜索能力,可在線實時感知信息進行推理并執行合理操作,主動適應地外星表環境,從而全自主地開展表面著陸巡視、多地取樣歸集、移動采集和設施建造等操控任務,具有廣闊的應用前景。

本文圍繞地外探測任務對自主操控的需求,首先總結了地外探測操控任務的發展現狀,通過分析地外探測操控任務的特點,總結出地外探測自主操控面臨的挑戰與難點,然后對現有基于深度強化學習的操控算法進行概括,接著以地外探測自主操控任務難點為驅動,對深度強化學習技術在地外探測操控中的應用成果進行了綜述與分析。最后結合上述難點問題及未來任務需求,概括了智能操控在地外探測應用和發展中需要突破的關鍵技術問題。

1 地外探測操控任務概況

操控能力是反映自主能力高低的關鍵因素之一,通過評估危險、規劃安全軌跡、到達感興趣的目標,使安全高效地完成地外探測任務成為可能。目前地外探測完成了在不確定環境下著陸巡視,探測設備部署和取樣分析等復雜操控任務。已有典型地外探測器的操控能力如表1所示。

表1 地外探測操控能力現狀Table 1 Manipulative ability of celestial body explorers

在地外探測操控任務中,采樣探測是拓展探測深度的有效途徑,有助于擴大科學探測成果。目前,各國地外采樣探測主要通過巡視/著陸器搭載操作臂,進行星表鏟挖和鉆取等交互接觸式操作。美國國家航空航天局(National Aeronautics and Space Administration, NASA)在深空探測任務中對操作臂探測進行了大量的應用,如“海盜號”“勇氣號”“機遇號”“鳳凰號”“好奇號”“毅力號”等火星探測器,依托操作臂實現了自主/半自主式樣品獲取,收集與分析。

中國的“玉兔號”巡視器采樣則采用地面遙控操作為主的控制方式。在“嫦娥3 號”任務中,考慮操作臂的構造特點和科學探測的各類約束條件,建立了精確的控制算法模型,研發了操作臂遙控操作控制系統,實現了對操作臂毫米量級的精確控制[8]?!版隙? 號”任務首次提出遙操作表取、鉆取的采樣方案,建立了三位一體的天-地交互操作工作模式,實現了高可靠、多樣性的預定采樣目標[9]。地外探測典型操作臂性能、任務流程等方案設計如表2[10-15]所示。

表2 典型采樣操作臂設計方案Table 2 Design schemes of typical sampling manipulators

地外探測采用操作臂攜帶一定的科學載荷完成表面科學目標的探測,從而使得星表探測器具備了強大的星表操作能力。其中“好奇號”巡視器在前200 火星日期間,操作臂參與了大約50%的探測活動[16]。目前地外探測操作臂具有如下特點:

1)探測方式

地外探測不僅有定點和移動巡視探測,還包括采樣收集等復雜作業任務。采樣方式主要有表層鏟挖和深層鉆取2 種方式。為保留樣品的層理特性,采樣方式逐漸從表面探測向土壤底層或巖石內部,以及鏟、挖、鉆等混合采樣發展。

2)采樣機構設計

探測器所攜帶的有效載荷和能源有限,采樣裝置采用輕量化、大負載、高精度和寬采樣范圍設計。機械臂自由度決定了工作方式和工作空間,考慮結構強度的影響,根據不同的科學探測目標和任務要求,機械臂在設計時一般不超過4自由度,僅在有樣本轉移、設備抓取等用途,以及探測器本體存在側傾時,才考慮增加自由度。

機械臂關節采用模塊化設計方式,每個關節獨立驅動,驅動器主要采用無刷直流電動機,其具有轉動平滑,力矩穩定,控制簡單,已成功應用于“好奇號”“毅力號”探測器等采樣機械臂上。但其裝置結構復雜,傳動數量多,在嚴苛空間環境下,容易發生機械失效。直線電機,如超聲波電動機,具有低速大力矩和高精度,不需要齒輪減速裝置,可以實現直接驅動,提高了傳動效率,結構簡單緊湊,可內部走線,大大縮小體積空間,滿足未來探測器“質量輕、體積小、耗功低”的需求,具有廣闊的應用前景。

3)操控策略

操控策略主要通過行星探測車上安裝的雙目視覺測量系統對行星表面目標進行精確定位,然后控制操作臂實現目標就位探測。從技術角度,操作臂探測目標主要包括視覺系統對探測目標的精確定位和操作臂無碰撞操作規劃兩部分。

2 地外探測操控難點問題

國內外雖然已經實施了多次地外探測,但探測效率非常低,在地外天體表面的大部分時間,都處于非移動探測狀態。“好奇號”巡視器設計最大移動速度為180 m/h,但在自主避障移動時平均速度僅約54 m/h。截止到2020-03-18,中國“玉兔2 號”月球車在月背存活周期為440 d,但累計行程僅為400 m,平均每個地球日的行程僅約為l m。上述地外探測器之所以探測效率低,是由地外天體探測任務的固有特點導致的。地外天體探測存在運行環境嚴苛未知、操作對象物理化學性質不確定以及通訊能力受限等挑戰,導致難以實現高效探測。具體原因分析如2.1~2.3 節所示。

2.1 環境嚴苛未知

地外環境復雜嚴苛未知,地外存在強輻射、大溫差等惡劣因素,而任務要求高可靠,導致器件選型,通訊等器上資源約束嚴苛,加之有限圖像測量設備受沙塵影響遮擋嚴重。而形貌原始自然,存在鏈坑、溝壑、陡坡、松軟沙地等非結構化地形,目前地外環境測量主要對局部幾何環境識別,對危險識別能力弱,運行風險高。此外,地形、地質、光照等環境特點與地面差異大、樣本稀少,操作過程難以仿真,地外探測試驗困難。

2.2 物理化學性質不確定

地外探測操作任務多樣,在不確定環境下需要完成著陸巡視、取樣歸集等多種任務。探測器會面臨車輪破損、動力學模型發生變化、低重力下不易控制等問題,同時探測目標形狀、硬度、成分、慣量、質量分布等物理化學特性先驗知識欠缺,精確建模難,使得基于模型和確定試驗環境的傳統設計難以實現精準柔順操控,環境的主動適應能力差,無法勝任定點著陸、安全巡視、柔順取樣等復雜操作任務。

2.3 通訊能力受限

由于天地時間通信鏈路和帶寬限制,天地之間的信息交互存在非常大時延。目前,最先進的“毅力號”火星車可與地球直接通信或通過火星軌道器進行中繼通信。與地球直接通信數據傳輸速率為3 kbps,與火星軌道器的數據傳輸速率為2 Mbps,但火星軌道器,如“奧德賽號”與地球的帶寬為256 kbps?;鹦呛偷厍蛑g傳播大約需要5~20 min。同樣,中國“玉兔號”月球車一次移動絕大部分時間耗費在信息傳輸和地面處理上。因此“地面遙操作+有限自主”的探測方式,難以對復雜不確定環境及操作過程作出及時有效的反應,可能破壞或污損高價值目標,導致探測效能極低,甚至威脅自身安全。

上述難點問題直接或間接導致“勇氣號”車輪陷入松軟的火星土壤中[17];“洞察號”鉆探到50 cm 時,難有寸進,且偏離原定軌跡15°,最終任務被迫終止[18];“好奇號”遇到巖石下方的松軟層時,難以取回樣品[19];“毅力號”采樣目標巖石特性未知,首次采樣失敗[20]。圖1[17-20]分別展示了地外探測操控任務所遇到的上述幾個問題的典型案例。

圖1 地外探測操控任務所遇到的幾個問題典型案例[17-20]Fig.1 Typical cases diagram showing several problems encountered in celestial body exploration missions[17-20]

3 基于深度強化學習的操控方法

深度強化學習將深度學習的感知能力和強化學習的決策能力相結合,可以直接根據輸入進行決策與控制,是一種更接近人類思維方式的智能方法[21]。根據學習方式不同,即目標策略和行為策略是否一致(其中目標策略是算法需要評估的策略,而行為策略是智能體與環境交互時所采取的策略),深度強化學習分為在策略和離策略兩種方法。此外,深度強化學習根據模型是否完全給定,還可以分為基于模型的強化學習和無模型強化學習。考慮到地外探測環境動態變化和動力學模型不確知,系統狀態轉移模型建立困難,本節重點從在策略和離策略兩方面總結無模型深度強化學習方法的研究現狀,并對其操控應用進行概括,而對基于模型的深度強化學習方法進行簡要總結。典型的深度強化學習算法及其應用場景如圖2 所示。

圖2 深度強化學習算法分類及應用Fig.2 Classification and applications of DLR

3.1 離策略(Off-policy)方法

針對現有條件下目標策略無法有效地執行并產生樣本、執行目標策略所需要的代價過大等問題,深度Q 學習網絡(Deep Q-learning Network,DQN)用深度神經網絡替代傳統強化學習中的價值函數,通過引入樣本池打破樣本間的關聯性,得到了獨立分布的樣本,同時引入更新較慢的目標Q 網絡,避免了網絡震蕩不收斂的問題[22]。DQN 方法是值優化方法,將DQN 方法應用到高維連續動作空間時,離散化將導致維數災難。

相較于值優化方法,策略優化法對最優策略進行優化,能夠直接處理高維連續動作空間。2016 年,DeepMind 公司[23]提出了深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),DDPG 直接采用網絡來學習動作的策略,直接輸出控制指令,實現了深度強化學習方法在高維連續運動空間中的控制。此后,Fujimoto 等[24]進 一 步 提 出 了 雙 延 時DDPG 算 法(Twin Delayed Deep Deterministic Policy Gradient Algorithm,TD3),通過同時學習2 個評價網絡并用其中較小的值來進行Bellman 方程的求解,同時在策略網絡的輸出中添加噪聲,提高了DDPG 算法的收斂可靠性和穩定性。Popov等[25]對DDPG 算法進一步改進,提出了DPG-R算法,在進行多步動作后進行學習,而不是每一次動作后都更新策略網絡。仿真結果表明,DPG-R 算法的學習效率得到顯著提高。當經驗的數據分布和當前策略差距很大時,由于推斷誤差引入,標準Off-policy 深度強化學習算法,如DQN 和DDPG,難以進行有效學習。為此,Fujimoto 等[26]提出了批約束強化學習算法(Batchconstrained Reinforcement Learning),通過限制動作空間,使得該算法可以利用任意策略采樣得到的離線數據學習在該環境中的最優策略。針對真實世界機器人如何進行高效學習的問題,Haarnoja 等[27]提出了柔性動作-評價算法(Soft Actor-Critic,SAC),SAC 同樣是一種動作-評價框架下的強化學習算法,其基于最大熵思想,同時優化期望和期望的熵,從而實現對樣本的高效利用。與其它主流深度強化學習算法DDPG、TD3 等進行比較,結果表明SAC 算法是目前最適用于真實世界中機器人的學習算法。

3.2 在策略(On-policy)方法

離策略算法利用離線數據進行訓練,樣本的利用率較高,適用場景廣泛,但無法保證策略的最優性和可靠性,且算法對超參數敏感且收斂不穩定。與離策略相比,在策略算法直接根據在線數據對策略進行優化,數據生成通過當前學習到的策略獲得,收斂更快速且穩定。

針對策略梯度法存在訓練不穩定問題,Schulman 等[28-29]提出了一種置信域策略梯度算法(Trust Region Policy Optimization,TRPO),利用KL-散度衡量前后兩次更新的策略網絡參數的概率分布相似度,在一定的閾值范圍內進行策略的更新,從而解決了迭代步長難以選取問題,避免策略在迭代過程中出現較大波動。仿真和物理試驗分別驗證了TRPO 算法在學習速度、穩定性、收斂性和遷移能力方面的優異性能[30-31]??紤]到TRPO 算法需要對KL-散度進行二次求導,計算資源消耗嚴重,Schulman 等[32]進一步提出了近端策略優化算法(Proximal Policy Optimization,PPO),通過對目標函數的上下界進行截斷,避免了新舊策略波動。OpenAI 和DeepMind公司在仿真環境下驗證了PPO 在學習效率和性能上都優于TRPO 算法[33],并成功用于訓練多類型機器人行走、奔跑、翻越、匍匐、擊球等高級行為[34]。針對連續動作空間離散化導致的動作數量激增問題,Tang 和Agrawal[35]提出了跨動作維度的因子分布策略,并證明了該離散策略在復雜動態的高維任務上可以顯著提升策略優化算法(PPO, TRPO)的性能。針對具有多維離散動作的 任 務 場 景,Yue 等[36]提 出 了 一 種 將ARSM(Augment-Reinforce-Swap-Merge)梯度估計器和動作價值批判相結合的Critical-ARSM 策略梯度,提高了On-policy 算法的采樣效率。與優勢動作評論算法(Advantage Actor Critic, A2C)、TRPO 等基準算法相比,該算法在高維動作空間情況下具有較好穩定性[37]。此外,針對樣本利用率低的問題,Mnih 等[38]提出了一種多線程異步優勢學習方法(Asynchronous Advantage Actor-Critic,A3C),通過多線程異步地將樣本傳到一個全局網絡,進行全局網絡的訓練。該分布式樣本生成和學習的方式,使得算法能夠運行在“多核CPU 單機”上,降低了硬件需求,縮短了訓練時間。

上述深度強化學習方法主要為無模型方法,已被證明能夠學習各種機器人技能,其需要大量和環境的交互才能獲得良好的性能?;谀P偷膹娀瘜W習方法,依賴于環境在各個動作下的狀態轉移模型,具有采樣效率高等優勢,尤其適用于機器人操作等數據量較少的實際物理場景中。目前,基于模型的方法,如PICLO(Probabilistic Inference for Learning Control)[39],在 簡 單 轉 移模型任務中取得了極大進展,然而,這些方法難以勝任具有高維空間和強非線性動力學的任務。為此,Watter 等[40-41]提出利用神經網絡擬合動力學模型的方法,實現從圖像信息預測模型和策略。此外,結合基于模型的方法和無模型方法,使用模型來加速無模型方法,值得深入研究。Ha 和Schmidhuber[42]將無模型和基于模型的方法進行結合,建立了“世界模型”,僅利用少數轉移樣本學習了虛擬環境模型,在虛擬環境中利用進化算法求解策略取得很好效果。Levine 等[43]將環境圖像信息作為策略狀態的一部分,通過端到端的訓練學習了機器人抓取、搭衣服等多種操作技能。

深度強化學習的發展,經歷了從低維離散動作空間到高維連續動作空間,從解決交互式決策問題到解決與環境深度耦合的運動體控制問題,從仿真環境中學習訓練到真實世界應用的發展歷程。當前深度強化學習在理論算法和實際應用上同步發展,實現了轉魔方、抓取,行走、跳躍等操作控制[44-45],并逐步擴展到地外探測領域,主要應用于環境未知或局部信息未知的高動態環境中,根據實時感知信息進行推理并執行合理操作,最大限度地提高任務的滿意度。

4 深度強化學習在地外探測操控中應用

深度強化學習因其強大的特征表示能力和實時決策能力,在地外探測月球/行星軟著陸及其智能巡航等領域已得到廣泛應用??紤]地外探測環境復雜嚴苛未知,操作對象先驗知識欠缺,操作過程動態不確定性強,強化學習技術已在著陸和巡視探測任務中路徑規劃、制導控制等方向取得多項創新研究成果。本節將以地外探測難點問題為導向,對深度強化學習方法在不同地外探測操控任務中的應用進行歸納和總結。

4.1 著陸探測

地外天體探測著陸過程,探測器軌道動力學模型存在高動態和強不確定性,Gaudet 和Furfaro[46]首次將強化學習用于地外天體著陸的研究。針對火星探測精確定點著陸需求,將著陸問題解釋為馬爾可夫決策過程,提出了基于強化學習技術自適應在線制導算法。著陸器狀態映射為控制動作的策略,獎勵由真實狀態向量與目標狀態向量之間的殘差組成,實現了燃耗最優的動力下降軌跡精確制導,同時對環境不確定性和未建模動力學具有魯棒性。Cheng 等[47]針對月球燃料最優著陸問題,利用交互式深度強化學習算法采用actor-indirect 體系結構,對燃料最優軌跡進行規劃,實現了登月任務的最優控制。Gaudet和Linares[48]設計了一種智能的聯合制導、導航和控 制 系 統(Guidance, Navigation and Control, GNC),如圖3[48]所示,其中IMU 為慣性測量單元(Inertial Measurement Unit)。使用PPO 算法學習著陸器的估計狀態直接映射到執行器命令,從而產生精確和燃料效率高的軌跡,提高著陸器對噪聲及系統參數不確定性的魯棒性。Jiang[49]通過整合火星再入與動力下降過程,利用自適應偽譜法同時進行最優再入與動力下降制導,并利用強化學習技術進行制導過程的切換,提高了軌跡制導的最優性、魯棒性和精度。此外,Gaudet等[50-51]還利用深度強化學習技術建立自適應在線制導算法,滿足EDL(Entry, Descent, Landing)任務實時性要求,實現燃耗最優的魯棒軌跡精確制 導。Shirobokov[52]和 黃 旭 星[53]等 對 人 工 智 能技術在航天器制導控制方面的研究現狀進行了總結,并分析了人工智能技術在航天任務中的應用優勢,表明深度強化學習技術對于解決未知不確定動力學模型有較大潛力。

圖3 基于深度強化學習的火星著陸GNC 系統[48]Fig.3 DRL-based GNC system[48]

火星表面地形復雜,探測器著陸位置和飛行路徑受到嚴格限制,而傳統ZEM (Zero Effort Miss)和ZEV (Zero Effort Velocity)最優反饋制導律的性能指標函數只考慮能量消耗,文獻[54-55]基于深度強化學習對傳統ZEM/ZEV 最優反饋制導律進行了改進。文獻[54]提出了基于路徑點的ZEM/ZEV 算法,利用Q 學習設計了最優路徑點選擇策略,在著陸位置和飛行路徑受限情況下具有良好性能,但其缺乏靈活性和實時適應能力。為此,文獻[55]提出了一種基于ZEM/ZEV 的動力下降著陸制導方法A-ZEM/ZEV,該方法通過確定性策略梯度方法學習ZEM/ZEV方法參數,將路徑約束直接納入制導律設計,可自適應地改變制導增益和飛行時間,生成一類閉環軌跡,實現了滿足約束條件下燃料接近最優。圖4[55]表明了所提出方法在規避障礙約束方面表現優于傳統方法。在參數確定方面,Furfaro 等[56]針對多滑模面制導方法對參數異常敏感導致軌跡燃耗次優問題,采用強化學習選擇制導增益集,優化制導參數,在著陸誤差和燃料消耗方面實現了性能最優。為實現安全著陸,文獻[57]提出了一種用于識別安全著陸位置的深度強化學習框架,采用TD3 算法學習的模型用于評估和選擇著陸地點,在同時考慮地形特征、未來特征觀測質量和控制能力前提下,獲得了安全有效的著陸軌跡。

圖4 不同算法生成軌跡比較 [55]Fig.4 Comparison of trajectories generated by different algorithms[55]

此外,文獻[58]提出了一種基于元強化學習的自適應小行星繞飛制導控制策略。假定著陸器裝備有測量地形特征或主動信標的光學儀器,控制策略將傳感器輸出直接映射到執行機構能夠提供精確的小行星著陸。該策略對作用于探測器的環境力和內部干擾,如執行器故障和質量中心變化以及小行星固有特性具有實時適應能力。文獻[59]利用循環神經網絡表示值函數和策略,采用PPO 優化元強化學習策略,該策略僅使用火星著陸過程中多普勒雷達高度計和小行星著陸過程中激光雷達高度計的觀測數據分別設計制導律,仿真試驗對引擎故障的情況下安全著陸火星,以及在動力學未知的小行星上著陸進行了有效驗證,該控制方法優于傳統燃料最優反饋制導算法[60-61]。

4.2 巡視探測

巡視探測是目前對地外天體近距離探測最直接有效的探測方式,但地外環境復雜非結構化,星表土壤等物理化學性質不確知,探測器通過與地外星表的交互式接觸,基于深度強化學習技術可對不確定性進行在線識別逼近,對提高巡視安全性,完成預定科學探測任務具有重要現實意義。

為了實現行星車的自主決策,并解決傳統人為規劃框架中過于依賴地圖信息的問題,周思雨等基于深度強化學習理論提出了端到端的路徑規劃方法,直接從傳感器信息映射出動作指令[62]。Serna 等[63]綜述了火星生物特征探測中無人機自主任務規劃研究現狀,提出將部分可觀測馬氏決策過程的強化學習算法應用于火星無人機導航規劃任務中,提高探測任務的自主性。同時指出未來可利用火星數字高程模型[64]模擬火星表面,并整合生物特征構建仿真訓練環境。Tavallali 等[65]針對復雜地形下移動模式選擇問題,提出了一種火星車移動模式自動切換的強化學習框架,該框架不依賴地形先驗知識,直接從物理環境交互過程中學習,優化了復雜地形穿越方案,提高了探測任務效率。需要強調的是,該學習框架獎勵函數動態變化,獎勵函數設計僅取決于火星車能源效率。同樣地,考慮到星表環境未知而探測任務復雜,強化學習獎勵函數難以設定,Pflueger 等[66]基于反向強化學習設計路徑規劃任務學習框架,結合卷積神經網絡和值迭代算法更新獎勵函數,實現可通行區域選取。圖5[66]給出了帶路徑地圖。

圖5 帶路徑地圖 [66]Fig.5 Map with paths[66]

為提高地外探測任務成功率,Huang 等[67]提出了基于DDPG 的多智能體深度強化學習方案,結果表明多智能體協同探測相比單智能體探測效率明顯提高?;鹦茄惨暺鲄f同探索方案如圖6[67]所 示,其 中POI 表表探 測 興 趣 點(Point of Interset)。Wachi 等[68-70]考慮不安全操作可能導致系統故障問題,研究了未知安全約束下的馬爾可夫決策過程,獲得了接近最優的決策,實現火星不確定環境安全探索。星上資源有限,Bernstein 和Zilberstein[71]將行星車控制問題建模為弱耦合馬爾可夫決策過程(Markov Decision Processes, MDP),研究了一種弱耦合多探測目標的分層強化學習算法,實現了有限資源充分利用,提高了探測效率。該算法的初始性能優于Q 學習,但并不能收斂到最優策略。

圖6 火星巡視器協同探索方案[67]Fig.6 Collaborative exploration scenario on Mars surface [67]

地外星表土壤機械特性直接影響地外巡視及 采 樣 探 測 的 操 控 性 能,Song[72]和Arreguin等[72-73]調研了機器學習在地外星表土壤機械特性識別中應用前景,由于環境動態變化,實時應用需要具備在線自適應特點,因此總結出深度強化學習對于實時識別非均勻地形中的土壤特性具有應用價值。

4.3 采樣探測

深度強化學習在地外采樣探測領域中應用有限,目前僅取得了少量研究成果。如文獻[74]利用深度強化學習,構建了一套樣品采集學習訓練系統,使機械臂從零開始,通過自主訓練具備了自主智能感知、規劃與操控能力,最終實現了未知環境下端到端樣品采集全自主操作。在該方案中機械臂抓取的策略網絡,以被操作物體原始圖像信息為輸入,輸出為機械臂抓取的位置和姿態。同時考慮到機械臂的動作空間是連續的,抓取動作直接進行離散化難以實現精準抓取,或出現維度災難等情況,將強化學習算法PPO 和深度神經網絡結合,直接獲得抓取姿態連續控制量的推理。真實環境中抓取結果如圖7 所示。

圖7 真實環境抓取Fig.7 Grasp experiment in real world

此外,建立了地外采樣試驗場,可用于驗證智能操控算法在地外探測采樣任務中的性能,在地外試驗場上抓取未知石塊,結果如圖8 所示。

圖8 試驗場環境抓取Fig.8 Grasp experiment in test field

但是,地外探測面臨物品材質不確定問題,上述僅依靠視覺測量信息抓取策略會導致物品變形甚至損壞,如黃土塊等易碎物品抓取。此外,為實現采樣物品最大化歸集裝箱,文獻[75]研究了基于DQN 算法的推撥優化裝箱問題,通過推撥動作對于已放置的物品位置進行調整、歸集,提高了裝箱空間利用率。

綜上,深度強化學習在地外探測中實現了著陸探測參數不確定在線識別到安全著陸區域選擇和巡視探測中從路徑規劃到自主決策,從單一智能發展為集群智能,以及樣品全自主發現與抓取?;谏鲜鲅芯砍晒?,并考慮地外探測環境及任務特點,總結分析了應用于地外探測自主操控領域的深度強化學習有別于地面機器人領域的不同之處,如表3 所示。未來探測器在未知不確定環境中實現或提升自主功能,通過感知自身狀態及外部環境,進行任務規劃調度,實現群智能體協同操作,具備動態變化環境下學習、改進、適應和再現任務的能力,仍值得進一步研究。

5 發展與展望

目前深度強化學習在地外探測著陸巡視及取樣操控任務中取得了一定的研究成果,但在實現地外探測自主操控中仍然留有許多亟待解決的問題。因此,本節根據地外探測難點問題及未來探測任務需求,按照“地面操控方法設計-地外持續學習-未來多智能體集群探測”這一思路,總結地外探測智能操控實現突破的關鍵點,其相互關系如圖9 所示。

圖9 地外探測智能操控關鍵技術相互關系Fig.9 Relationship between key technologies of intelligent control for extraterrestrial exploration

“地面操控方法設計”需要解決仿真訓練環境構建,高效操控學習以及智能水平評測問題,針對地外探測面臨的環境嚴苛未知和操控對象物理化學性質不確定等問題,基于基礎觀測數據,建立仿真訓練環境,在此基礎上,考慮地外探測任務特點,設計高效操控學習方法進行訓練,從而得到智能操控基礎模型,并對其進行評測,完成在軌應用可行性的量化評定,支撐地外操控性能持續進化;“地外持續學習”研究地外物理環境變化情況下的學習模型進化方法,并基于執行-評價的學習結構,反向更新精準操控的基礎知識庫和初始模型,進一步提高地面設計方法的操控性能;“多智能體集群探測”在以上2 個關鍵點基礎上,需要解決知識遷移和高效協同問題,通過完成預定學習任務,將學習經驗遷移到其它任務中,從而設計多智能體的最優協同決策與規劃方法,進行整體優化,提升群體協同操作的性能、效率與可靠性,并根據協作結果及時調整各智能體自身策略,從而促進多智能體協同進化。相關關鍵點具體介紹如下。

5.1 地面操控方法設計

地面操控方法設計是實現智能操控在地外探測中應用的基礎和前提。面向著陸巡視和高價值目標采樣任務需求,地外探測智能操控根據環境未知非結構化和操作對象強不確定特點,從以下3 個方面開展研究:

1)仿真訓練環境構建

深度神經網絡具有較強的非線性映射能力,其對數據的數量、質量要求很高,具有嚴重的數據依賴性。然而,在地外探測中,由于操作任務數量有限,數據回傳困難,難以獲得大量有效真實數據。另一方面,地外的地形、地質、光照等環境特點和操控對象的形狀、成分、慣量等物理化學特性,都與地面差異大,使得地面模擬地外環境困難。因此,數據量不足,難以有效構建高逼真仿真訓練環境支持網絡訓練,是地外探測面臨的一個重要問題。針對上述問題,基于有限的真實空間樣本,研究樣本增強和增廣方法,結合地外試驗中星表環境間交互數據樣本,構建高逼真數字地外任務場景模擬環境,用于地外探測的反復試錯學習,提升仿真中學習到的策略在真實場景中的應用效果。

2)高效操控學習

當前智能操控方法普遍存在面向單一任務設計的弊端,然而地外探測需要完成定點著陸、安全巡視、多地取樣歸集與設施建造等任務,任務復雜且關聯性高,評價函數難以直接確定。加之地外探測資源受限,高維連續動作等復雜任務場景下深度神經網絡設計復雜。為解決上述問題,考慮任務復雜性、環境動態變化、自身安全和資源約束等因素,結合地外探測操控學習的固有特性設計高效學習方法,優化評價函數設計,精簡神經網絡,在有效資源下提高學習效率,實現柔順精準操控。

3)智能水平評測

地外探測器發射到地外后,一旦出現故障,維修和搶救幾乎不可能。當前基于深度神經網絡的強化學習方法在不確定任務場景中作出的決策難以直觀解釋,可能會出現探測器及操作機構受損等情況。針對未來地外智能操控在軌應用面臨的高可靠需求,研究操控系統智能水平的定量評測方法,建立評測體系,對學習效能、操控水平以及空間應用的可行性和有效性進行驗證評估,實現自主智能操控在復雜地外環境下的試驗驗證和智能水平評測,提高探測安全性。

5.2 地外探測持續學習

地外環境與地球環境在地面結構、重力環境、大氣組成等方面差異顯著,地外探測存在不確定性大以及人工干預難等問題,因而迫切需求探測器在其生命周期內具有自主學習的持續優化能力。地外探測智能操控在突破上述關鍵點基礎上可遵循“數字仿真學習—地面試驗—地外持續學習”這一思路,通過在軌操作樣本積累、操作規律主動發現與優化,實現操控性能持續進化??紤]上述需求,結合場景理解結果和目標特征及力、位移等多源傳感器的執行反饋信息,研究不確定因素下感知執行交互的精準操控學習方法,以安全自然為目標,建立基于風險預測和操作性能評估的更新機制,實現操控性能的在線提升。

5.3 多智能體集群探測

未來地外具有協同探測的發展趨勢,綜合考慮探測任務需求及多個無人探測器自身能力等約束條件,從遷移和協同2 個方面開展研究:

1)動態時變環境下知識遷移

地外學習操控面臨實際環境訓練成本高的問題,目前探測器需要在虛擬仿真環境下進行大量訓練,將訓練結果直接應用到真實場景時無法達到預設操控效果。此外,地外探測環境的未知與動態特性也使得操控的學習訓練場景與真實應用場景存在較大差異,且面臨不同任務場景時需要再次利用大量時間和數據進行重新學習。探索不同環境和任務場景下的異地知識共享方法,最大化利用先驗知識和共性特征進行學習是解決上述問題的有效途徑。如可在深度強化學習中結合無模型方法和有模型方法,以及引入遷移學習和元學習實現知識遷移,提升探測器對環境和任務的適應能力,支撐多智能體協同探測。

2)多智能體高效協同

未來無人探測任務復雜多樣,目前單一探測器難以獲取充足和準確的環境及目標信息,探測效能低。因此,大范圍樣本搜尋、設施建造等任務要求探測器需要具備多器協同的能力,而不同探測器具有運動模式各異、載荷多樣化、約束復雜等特點,如地外飛行器和巡視器運動模式和任務目標完全不同,且通訊能力和能源受限。需要研究多智能體任務分配、優化機制以及協同策略,實現未知環境中高效可靠的多體協同,降低系統受單個成員故障或環境變化影響的敏感程度,提高系統整體魯棒性。

6 結 論

自主操控是實現地外安全高效探測的關鍵技術手段之一。本文分析了地外探測自主操控的難點,概括了深度強化學習算法及其在地外探測自主操控領域的研究成果,指出了存在的問題和發展的方向。

目前,地外探測已初步展現出人工智能的廣闊應用場景,未來探測器可根據任務目標、自身狀態和未知環境特點,主動感知環境,理解場景,發現高價值目標,進行可靠推理,有效決策操控,開展分析試驗,從而全自主地開展地外探測任務。

猜你喜歡
深度智能環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
深度理解一元一次方程
孕期遠離容易致畸的環境
深度觀察
深度觀察
環境
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
主站蜘蛛池模板: 日本国产一区在线观看| 国产精品亚洲а∨天堂免下载| 综合社区亚洲熟妇p| 人妻中文字幕无码久久一区| 国产爽妇精品| av午夜福利一片免费看| 亚洲一区网站| 97se亚洲综合| 亚洲a免费| 一级毛片免费的| 久久国语对白| 国产精品思思热在线| 亚洲成肉网| 日本黄色不卡视频| 58av国产精品| www精品久久| 制服丝袜在线视频香蕉| 免费观看无遮挡www的小视频| 99伊人精品| 666精品国产精品亚洲| 日韩成人免费网站| 国产91成人| 国产尤物jk自慰制服喷水| 日韩无码白| 国产精品jizz在线观看软件| 国产精品lululu在线观看| 国产精品分类视频分类一区| 国产精品毛片一区视频播| 99中文字幕亚洲一区二区| 中国黄色一级视频| 国产亚洲精品91| 国产精品欧美日本韩免费一区二区三区不卡 | 欧美成人第一页| 五月婷婷综合在线视频| 久久这里只有精品8| 亚洲无码视频喷水| 日本人妻一区二区三区不卡影院| 国产精品夜夜嗨视频免费视频| 国产一级无码不卡视频| 国产成人综合久久精品尤物| 亚洲an第二区国产精品| 蜜桃视频一区二区三区| 成人av专区精品无码国产| 亚洲国产日韩一区| 国产在线无码一区二区三区| www.av男人.com| 国产视频入口| 久久久精品久久久久三级| 久久黄色免费电影| 日韩成人免费网站| 国产又色又刺激高潮免费看| 欧美精品成人一区二区在线观看| 欧美三级日韩三级| 在线观看亚洲精品福利片| 国产美女主播一级成人毛片| 2022国产91精品久久久久久| 九色视频线上播放| 亚洲国产成人综合精品2020| av一区二区人妻无码| 欧美97色| 日韩无码黄色| 亚洲最大福利视频网| 中文字幕久久亚洲一区| 精品人妻AV区| 久久久久久国产精品mv| 欧美激情首页| 青青久在线视频免费观看| 狠狠ⅴ日韩v欧美v天堂| 国产一区二区影院| 性色生活片在线观看| 精品国产黑色丝袜高跟鞋| 午夜视频免费试看| 狠狠色婷婷丁香综合久久韩国| 国产精品爆乳99久久| 91综合色区亚洲熟妇p| 国产成人精彩在线视频50| 热久久这里是精品6免费观看| 亚洲视频四区| 国产精品免费露脸视频| 国产精品久久国产精麻豆99网站| 97久久人人超碰国产精品| 亚洲色图欧美在线|