基于深度學習的航天器位姿估計研究進展

2023-12-28 02:45:52朱文山牟金震

宇航學報 2023年11期

朱文山，牟金震，李爽，韓飛

（1.南京航空航天大學航天學院，南京 211106；2.上海航天控制技術研究所，上海 201109；3.上海市空間智能控制技術重點實驗室，上海 201109）

0 引言

相對位姿估計是在軌服務的前提［1］。基于傳統方法的航天器位姿估計技術已發展得非常成熟，成功應用于多項空間操控任務，如基于點∕線特征的方法［2-3］、基于幾何特征的方法［4-8］與基于多特征融合的方法［9-10］。但針對不同的在軌任務，傳統方法需要設計不同類型的位姿估計方法。此外，傳統方法在復雜多變光照、低光照或高曝光環境下會失效，存在智能化水平低、多任務適應差等問題。

深度學習方法的快速發展，給航天器位姿測量提供了新的思路［11-20］。深度卷積神經網絡繞過了傳統特征提取過程，直接建立輸入圖像與輸出位姿之間的偽逆映射關系。基于深度學習的位姿估計方法優勢體現在［21-38］：1）圖像特征提取具有學習能力和語義賦予能力，能夠應對空間光照及復雜背景問題；2）通過域適應設計或多樣化樣本訓練，位姿估計模型可以適應多目標、多任務場景；3）位姿任務與上下游任務結合，形成面向航天器精細化感知的統一模型。

國際上，ESA 通過資助Pose Estimation Challenge［11］與Pose Estimation 2021［12］兩次比賽，公開了數據集SPEED 和SPEED+，初步具備了在軌演示驗證能力。美國斯坦福大學是最早從事基于深度學習的航天器位姿估計的機構，提出的兩階段方法被廣泛使用，目前的研究主要集中在域適應問題上［13］。西班牙馬德里大學主要研究基于3D 引導的自適應深度學習位姿估計方法［16］。英國薩里航天中心是最早提出端到端的航天器位姿估計方法的機構［23］。盧森堡大學的研究集中在主動碎片清除過程中的位姿估計［28］。澳大利亞阿德萊德大學的研究集中在航天器關鍵點檢測階段［32］。日本九州工業大學的研究主要集中在如何基于FPGA（Field programmable gate array）實現航天器的位姿估計［35］。此外，美國商業航天公司Spire Global、Draper及瑞士航天初創公司ClearSpace SA 等通過資助學術會議等也開展了基于深度學習的航天器位姿估計研究［20-21］。國內，國防科技大學航天科學與工程學院［15］、上海交通大學航天學院［21］、復旦大學工程與應用技術研究院［38］等針對航天器在軌維修、空間碎片清除等場景，開展了基于深度學習的航天器六自由度位姿估計研究。

綜上，基于深度學習的方法已成為解決非合作航天器姿態估計問題的熱點方向。考慮到基于深度學習的航天器位姿估計的重要意義，有必要分析梳理其所涉及到的關鍵技術，總結目前存在的主要問題并給出后續發展的建議。

1 基于傳統特征的航天器位姿估計

航天器與觀測相機之間的位姿關系如圖1 所示，xCyCzC表示相機坐標系，xByBzB表示航天器坐標系，uv表示圖像坐標系，RBC表示航天器到相機的旋轉矩陣，tBC表示航天器到相機的平移向量。相機坐標系下的三維坐標（XC，YC，ZC）與航天器坐標系下三維坐標（XB，YB，ZB）關系為

圖1 航天器與相機的相對位姿關系Fig.1 The relative pose between spacecraft and camera

根據小孔成像原理，圖像坐標系下的二維坐標（u，v）到目標系下的三維坐標（XB，YB，ZB）之間的轉換關系為

式中：s是相機的深度比例因子；K為相機的內參矩陣。根據式（2），需要在圖像上提取特征點的二維坐標（u，v），并得到特征點的三維坐標（XB，YB，ZB），以此來解算RBC與tBC。因此，傳統位姿估計方法的關鍵在于特征提取。特征提取方式分為：基于點特征、線特性、橢圓特征、矩形特征、三角形特性與多特征融合。

在點特征方面，通過提取航天器圖像的Harris角度、ORB（Oriented FAST and rotated BRIEF）特征點等建立式（2），通過特征點的2D-3D 匹配PnP（Perspective-n-Point）算法求解RBC與tBC。對于特征點3D 坐標獲取，可以使用SfM（Structure from motion）、SLAM（Simultaneous localization and mapping）或者深度相機。文獻［2］提出ORB 特征的失效衛星位姿估計方法，在ORB-SLAM 框架下，通過ORB 特征點的PnP 匹配求解RBC與tBC。由于使用的是單目相機，SLAM 恢復出的3D 坐標缺少尺度因子s。因此，還需要建立關于平面法向量和單目相機安裝高度的非線性優化模型求解尺度因子s。

在線特征方面，通過提取航天器圖像的直線特征等建立式（2），求解過程中將PnP 變換為PnL（Perspective-n-Line）求解RBC與tBC。D’Amico等［3］利用單目相機獲取Tango 衛星的圖像，通過Hough 變換檢測Tango 衛星的直線，用檢測到的直線表示Tango 衛星的2D 模型，將2D 模型與已知的3D 模型匹配求解RBC與tBC。

橢圓特征方面，弧段檢測算法或者Hough 算法檢測到的對接環橢圓特征滿足：

由式（5）可知，基于橢圓特征的位姿估計存在二義性，需要進一步使用深度傳感器或者其他異面輔助特征消除虛假解，最后將獲得的真解O與n轉換為RBC與tBC。Liu 等［4］以星箭的對接環為特征，采用弧段方法提取橢圓特征，提出空間錐視覺測量模型，以二次型的形式建立了2D 圖像平面與3D 空間圓的映射關系，進而推導出位姿參數。通過優化雙目空間錐約束方程以及姿態角的定義，解決了橢圓姿態二義性問題。但是，僅采用雙目視覺與橢圓特征無法求出滾轉角，還需要進一步考慮使用異面特征或者濾波方法估計出滾轉角。

矩形特征方面，利用矩形的4 個頂點使用PnP或者利用矩形的邊使用PnL 求解RBC與tBC，還可以利用4 個頂點與矩形中心點的非共面特性，建立目標坐標系的方法求解RBC與tBC。Gao 等［5］利用通信天線的矩形特性實現位姿參數估計。Du 等［6］研究了通信天線上矩形框架交叉點的位姿測量算法。

在三角特征方面，利用三角形的3 個頂點使用PnP 或者利用三角形的邊使用PnL 求解RBC與tBC。但使用3 個頂點特征屬于P3P 問題，存在4 解問題，需要額外使用三角形的中心點構建P4P 得出唯一解。李文躍等［7］選取航天器帆板的三角支架作為研究目標，分析了近距離情況下的雙目視覺測量技術。支帥［8］研究了基于航天器帆板三角架的雙目視覺測量算法，通過求解3個特征點的空間坐標，實現航天器相對位姿的解算。

多幾何特征融合方面，是將點∕線∕圓∕矩形∕三角形進行組合，一方面消除位姿的多解問題，另一方面抑制視場角受限問題。多幾何特征融合一般應用在接近段位姿估計，但如何制定特征組合準則是非常困難的。Meng 等［9］提出一種基于圓與直線組合的位姿測量方法。Long 等［10］提出一種多圓特征與矩形特征組合的位姿測量方法。

然而，基于傳統特征的航天器位姿估計都需要人工預先設計算法提取幾何特征，難以適用于多種空間操控任務。盡管基于主被動相機融合、多特征組合的多源融合位姿測量可以滿足一定的精細化要求或者多任務場景，但受限于星載資源限制，多源融合會導致位姿數據更新低于10 Hz，無法滿足在軌操控的實時性需求。基于深度學習的位姿估計方法在本質上繞過了傳統的特征提取，試圖使用卷積神經網絡賦予圖像特征提取學習能力和語義能力，進而建立位姿信息之間的非線性變換關系，提高了航天器的智能化水平。

2 基于深度學習的航天器位姿估計

基于深度學習的航天器位姿估計的最初發展，是受航天器位姿估計比賽牽引。在公開比賽中，以歐洲航天局（ESA）為代表的航天機構通過開源數據集評測參賽隊伍所提模型的性能。比賽中，參賽隊伍受人體位姿估計的啟發，提出了兩階段和端到端兩種位姿估計方法。

2.1 基于深度學習的航天器位姿估計比賽

Pose Estimation Challenge 是ESA 與斯坦福大學航空宇航系于2019 年舉辦的公開比賽。主要目的是利用深度學習估計Tango 衛星的位姿。比賽所使用的數據集SPEED［11］為斯坦福大學航空宇航系半物理仿真制作。有45 支參賽隊伍提交了位姿估計方案。方案可分為兩類，其中一類為“關鍵點+PnP”的兩階段方法，首先使用深度學習提取Tango衛星的關鍵點，再利用PnP 的方法求解位姿。另一類為端到端的一階段方法。方法的詳細介紹見2.3 節。

Pose Estimation 2021 是ESA 與斯坦福大學航空宇航系于2021年繼續舉辦的航天器位姿估計比賽。比賽的主要目的是在Pose Estimation Challenge 基礎上，完成真實圖像與地面模擬圖像之間的域適應。所使用的數據集SPEED+［12］在SPEED 的基礎上增加了lightbox、sunlamp 兩個子數據集。Lightbox 考慮空間雜散光的干擾，sunlamp 考慮太陽光直接照射目標的強光干擾。解決航天器位姿估計域適應問題的方案有多尺度多任務多特征融合［13］、事件檢測［14］、Transformer［15］、3D結構引導［16-17］等。

SPARK 比賽［18-19］由盧森堡國家研究基金資助，主要目的是基于深度學習實現航天器檢測和軌跡估計，并將此應用到空間態勢感知系統中。

AI4Space［20-21］是由美國商業航天公司Spire Global、Draper及澳大利亞航天局等資助，已經成功舉辦兩屆，分別開設CVPR（Computer Vision and Pattern Recognition）2021 與ECCV（European Conference on Computer Vision）2022研討會。目前，該比賽吸引了來自以色列特拉維夫大學、美國斯坦福大學、澳大利亞阿德萊德大學、盧森堡大學、西北工業大學、悉尼大學等學校的學者參與。

通過以上航天器位姿估計比賽可知，基于深度學習的航天器位姿估計得到了以歐洲航天局為代表的航天機構的高度關注，以2019 年為起點，進入了快速發展階段，起到了引領作用，如2.2所介紹的大部分數據集、2.3 節所介紹的大部分模型和算法均源于以上比賽。

2.2 基于深度學習的航天器位姿估計數據集

航天器位姿估計所使用的數據集一般由軟件合成圖像、地面半物理模擬環境采集與空間真實圖像組成，其中代表性的數據集如下（匯總見表1）。

表1 用于航天器位姿的數據集Table 1 Datasets for spacecraft pose

SPEED數據集［11］是由歐洲航天局和斯坦福大學聯合制作的航天器位姿估計數據集。該數據集可用于訓練和評估基于深度學習的航天器位姿估計方法，數據集中的目標航天器模型依照PRISMA 任務中的Tango衛星真實尺寸的1∶2比例進行縮放制作。SPEED 測試集包含300 張真實圖像和2 998 張合成圖像，而訓練集包含12 000 張合成圖像和5 張真實圖像。SPEED 數據集圖像的尺寸為1 920×1 200 像素。合成圖像中航天器的距離在3～40.5 m 之間，真實圖像的距離在2.8～4.7 m之間。

SPEED+數據集［12］是在SPEED 數據集基礎上，由歐洲航天局和斯坦福大學聯合改進的航天器域適應位姿估計數據集。SPEED+由兩個不同的圖像域組成。第一個域由衛星軟件模擬器中的光學相機模擬器生成，創建包含59 960 張合成圖像的合成域synthetic。第二個是由半物理仿真生成，在模擬的光照條件下，使用太陽光模擬器、衛星模擬器、衛星表面材質模擬等生成與真實太空航天器圖像相似的雜散光域lightbox 和太陽光域sunlamp。其中，合成域synthetic 帶位姿標簽用于網絡訓練，無標簽的雜散光域lightbox和太陽光域sunlamp用于測試。

Cygnus 數據集［22］使用Blender 生成Cygnus 航天器的模型，利用Cycles 渲染引擎為圖像進行光照渲染。為了更好地模擬真實空間環境中所拍攝的圖像，使用Blender為合成圖像添加各種類型的隨機眩光、鏡頭耀斑。合成圖像使用了兩種類型的背景，第一個是真實的地球照片，旨在進一步提高真實感，第二種是完全隨機化的非真實背景圖像，旨在減少訓練過程中的過擬合。

SPARK 數據集［18-19］是一個多模態數據集，包含10類航天器、1類空間碎片的150 000張RGB 圖像和深度圖像，分辨率為1 280×720。基于Unity3D生成包括不同軌道場景、不同背景噪聲、不同傳感器的多模態數據。其中，地球背景模型展示了云層和大氣的散射效應。10 類航天器包括AcrimSat、Aquarius、Aura、Calipso、CloudSat、Jason、Terra、TRMM、Sentinel-6和1RU Generic CubeSat。空間碎片來源于航天飛機外部燃料箱、軌道對接系統、損壞的通信盤、隔熱瓦、連接器等。

URSO 數據集［23］使用UE4（Unreal Engine 4）模擬Soyuz 和Dragon 圖像，其考慮了航天器的表面材質、光學相機鏡頭的耀斑等。UE4 中的空間光照由定向光和聚光燈組成，其分別模擬太陽光和地氣光。地球背景建模為一個多邊形球體，分辨率為21 600×10 800。隨機采樣了地球日側的5 000 個視點用于數據集生成。航天器位于相機視場內，距離相機的范圍在10～40 m 之間。使用UnrealCV 插件為每個視點同步獲取RGB 圖像和深度圖。圖像的分辨率設置為1 080×960。

Swisscube 數據集［24］模擬了地球、太陽與目標的相對位置和空間環境。圖像生成過程中，借鑒了NASA 可見光紅外成像輻射計（VIIRS）獲得的地球表面和大氣的高分辨率光譜紋理，使用Mitsuba 2 renderer 光譜模擬器生成了最終數據集。數據集包含了500 個場景、100 個圖像序列下的50 000 張圖像。其中40 000 張用于訓練，10 000 張用于測試。圖像的分辨率設置為1 024×1 024。

Minerva-II2 數據集［25］參考了SPEED 數據集的制作過程中。以Minerva-II2 作為目標航天器，將Minerva-II2 的3D 模型導入到Solidworks 中，參考Hayabusa2 ONC-W2 相機參數，通過Photoview 360插件為每個視角的Minerva-II2 表面賦予相關的光譜特性。Minerva-II2 Dataset 包含了3 個部分，其中SetA 部分包含10 000 張真實的Minerva-II2 在軌圖像；SetB 部分模擬了無太陽能帆板情況下的Minerva-II2；Tumble 部分模擬了Minerva-II2 失效翻滾狀態下的圖像。

Satellite point cloud 數據集［26］采用150 個衛星CAD 模型構建了云數據集，并使用blender進行了航天器ToF（Time-of-flight）相機成像模擬。為了更好地模擬空間在軌成像情況，航天器尺寸和成像距離分別隨機設置在2～8 m和0.5～20 m范圍內。為每個衛星模型模擬了360幀的點云數據序列。從位姿空間中隨機采樣衛星初始位姿，后續每幀歐拉角和沿各軸的位置在0.75°～1.25°和-0.2～0.2 m 范圍內隨機增大，得到不同位姿下的衛星點云數據。

AKM 數據集［27-28］以航天器發動機（Apogee Kick Motor，AKM）為目標，該目標為軸對稱的橢圓球體且表面無紋理，其直徑0.62 m，長度1.066 8 m。在空間環境模擬條件下，使用Blender合成10 000張圖像，圖像大小為1 024×1 024像素，成像距離為1～10 m。

SHIRT 數據集［29］是在SPEED 基礎上，為每個交會場景創建兩組圖像，捕獲間隔為5 s。第一組是使用斯坦福大學SLAB（Space Rendezvous Laboratory）的TRON 拍攝的模擬圖像，TRON 由兩條KUKA 6 自由度機械臂組成，分別安裝相機和Tango 衛星模型。TRON 提供了每個機器人的末端執行器相對于測試平臺的實時姿態。因此，SHIRT 是首個同類基準數據集，包含具有精確姿態標簽的同一目標航天器的連續圖像。

在合成數據集上訓練模型，在真實空間所獲取的圖像上進行預測，會出現域差距問題［13-17］。目前，縮小域差距方法分為五類。

1）數據增強（方法匯總見表2）。數據增強通過改變圖像大小和多樣性變化，提高模型對不可見域的泛化。在航天器位姿算法中使用的數據增強技術可以進一步分為：像素級數據增強，如模糊、噪聲或改變圖像對比度；空間級數據增強，如旋轉或縮放［13］。

表2 數據增強方法匯總Table 2 The summary of data augmentations

2）域隨機化。域隨機化是通過在一組足夠隨機化的源數據上訓練模型來促進模型的泛化性，使目標（測試）領域看起來只是模型的另一種隨機化［30］。

3）多任務學習。多任務學習是指訓練單個深度學習模型同時執行多個相關任務。實現多任務學習最常見的方法是使用一個共享的骨干網絡來提取特征，并將這些特征提供給特定任務的網絡層。

4）對抗學習。文獻［17］將對抗學習應用于航天器位姿估計，以縮小域差距，該方法的基本思想是，分類器區分源域和目標域的能力越弱，模型的域適應性就越強。

5）深度遷移學習。源域與目標域存在一些共同的交叉特征，通過特征變換技術，將源域和目標域的特征變換到相同空間，使得該空間中源域數據與空間目標域數據具有相同的數據分布。

綜上所述，目前的數據集仍然不足以支撐在空間任務中部署基于深度學習的位姿估計算法，主要原因是合成數據集的真實感不足。渲染逼真圖像的難點在于，其涉及到空間復雜光照的模擬及其與各種附件的相互反光作用。因此，如何渲染更逼真的合成空間圖像是未來值得深入研究的方向。

2.3 基于深度學習的航天器位姿估計方法

目前，基于深度學習的航天器位姿估計方法分為：兩階段方法［30-38］、端到端方法［39-44］、域適應方法［45-47］及輕量化方法［48］。兩階段方法指第一階段使用深度卷積網絡提取航天器圖像中的關鍵點，通常與目標識別網絡配合使用，在完成航天器目標檢測后，使用關鍵點預測網絡，第二階段使用PnP方法求解3D-2D 的位姿關系，如圖2 所示。端到端方法為單階段層次化端到端可訓練方法［49-50］。端到端方法僅使用一個深度學習模型，以端到端方式直接從圖像中回歸航天器位姿，而不依賴中間階段，最后使用由位姿誤差計算的損失函數對模型進行訓練。域適應方法將目標域（如SPEED 中的圖像）和測試域（SPEED+中的圖像）的數據特征映射到同一個特征空間，以完成航天器位姿估計的遷移任務。輕量化是在星載算力和內存限制情況下，通過減少網絡參數等方式提高位姿估計的運行速度。

圖2 兩階段方法Fig.2 Two-stage method

兩階段方法方面，本文重點敘述關鍵點檢測與位姿計算兩部分。在關鍵點檢測部分，使用深度學習模型在圖像預測預先定義的3D 關鍵點的2D 投影。關鍵點檢測又分為關鍵點位置回歸、分割驅動、熱圖預測、邊界框檢測這4種方法。關鍵點位置回歸是目前常用方法。Chen 等［32］首次采用HRNet，將2D 關鍵點位置直接回歸為1×1×2N向量，其中N為關鍵點個數。Park 等［30］使用YOLO-v2 架構，提出基于MobileNet-v2網絡的位姿模型，關鍵點回歸網絡的參數量僅有5.64 Mb，在SPEED 測試集20 m 的觀測范圍內，該方法的位置誤差小于210.3 mm，姿態誤差小于3.10°。Lotti等［33］提出基于EfficientNet-Lite的關鍵點回歸模型，該模型是從原始的EfficientNets中刪除不支持硬件部署的網絡層。文獻［24，31，34］提出多種變體模型，使其參量減少。熱圖預測是對關鍵點位置的熱圖編碼概率進行回歸，從熱圖中提取概率最高的像素坐標表示關鍵點的方法。HRNet架構在整個網絡中保持高分辨率的特征圖，使其適合熱圖預測任務。UNet 架構也用于預測關鍵點的熱圖［35］。Huo 等［36］提出一種輕量級的混合架構，將YOLO 與熱圖回歸子網絡相結合用于關鍵點預測。在目標檢測和關鍵點預測之間設置共享網絡，使參數總量減少到89 Mb。邊界框預測中，Li 等［37］將關鍵點預測表述為關鍵點邊界框檢測問題，與置信度分數一起預測關鍵點上的封閉邊界框。文獻［38］使用CSPDarknet 與特征金字塔網絡（Feature pyramid network，FPN）進行多尺度特征提取，然后使用檢測頭進行關鍵點邊界框檢測，最后將卷積網絡提取的2D 關鍵點與預定義3D 點進行2D-3D 匹配，利用PnP 計算位姿。由于PnP 對異常點敏感，隨機樣本一致性（RANSAC）通常用于去除異常值。Legrand等［34］利用多層感知器架構，提出使用姿態推理網絡MLP 取代PnP，使得姿態計算過程可微。兩階段方法匯總見表3。

表3 航天器位姿估計的兩階段方法Table 3 Two-stage methods for spacecraft pose estimation

端到端方法方面，Phisannupawong 等［39］基于GoogleNet 回歸代表位置和方向四元數的位姿向量，該網絡使用指數損失函數和基于歐幾里得的損失函數進行訓練。Sharma等［40］提出沿4個自由度將姿態空間本身離散為姿態分類標簽。然而，受到姿態類標簽總數的限制，在softmax 層中，更大數量的姿態標簽將需要等量的神經元，這將增加模型的參量。Sharma 等［41］提出航天器姿態網絡（SPN），在SPEED 的測試中，其位置誤差小于220.7 mm，姿態誤差小于8.43°。文獻［42］采用ResNet 作為基礎網絡提取特征。其中，姿態預測子網絡通過軟分類和誤差四元數估計航天器的方向，姿態回歸子網絡通過直接回歸預測航天器的位置。Proen?a 等［23］提出URSONet 位姿估計模型，基于ResNet 直接回歸航天目標的位置和姿態向量，并將位姿分類定義為基于高斯混合模型的軟分類，以處理位姿模糊問題，在SPEED 測試集20 m 的觀測范圍內，位置誤差小于170.3 mm，姿態誤差小于4.02°。URSONet 在訓練階段對姿態細粒度設置得較高，不可避免地會增加網絡訓練的時間以及位姿解算時計算資源的消耗。Posso 等［43］提出mobile-URSONet，使用MobileNet-v2提取特征，將URSONet網絡的參數減少178倍，而精度損失不超過URSONet 的4 倍。Park 等［13］提出SPN-v2，對原始SPN 進行了改進，以解決域差距問題。SPN-v2 具有多尺度多任務網絡架構，其共享特征提取器使用EfficientPose。Garcia 等［44］提出一個包含位置模型和選擇模塊的姿態估計網絡。平移模塊屬于UNet 架構，用于預測航天器在相機坐標下的3D 位置和在圖像坐標系下的2D 位置。旋轉模塊采用回歸網絡預測航天器方向。Diff-6dofregression［50］利用可微分渲染技術首先重建出航天器的三維模型，然后使用姿態回歸網絡對位姿進行粗略估計，接著使用位姿細化網絡進一步優化位姿結果。Gao 等［49］提出DR-U-Net（Dense Residual Ushaped Network）提取特征，然后結合Transformer 形成SU-Net。為了解決圖像模糊導致航天器輪廓識別精度低的問題，在DR-U-Net 基礎增加了殘差模塊。最后，將一層前饋神經網絡用于航天器在軌位姿估計。文獻［21］提出基于Efficientnet 網絡的航天器位置和姿態回歸方法。將旋轉回歸損失函數轉換為預測值與真實值之間的黎曼測地線距離。此外，針對航天器數據集規模小導致的過擬合問題，提出了多種數據增強技術。文獻［15］基于Transformer實現航天器的位姿估計。端到端的方法匯總見表4。

表4 航天器位姿估計的端到端段方法Table 4 End-to-end method for spacecraft pose estimation

域適應方法方面，文獻［13］提出SPN-v2 網絡。SPN-v2 是一個多尺度、多任務的CNN，由一個共享的多尺度特征編碼器和多個預測頭組成，這些預測頭在共享的特征輸出上執行不同的任務。在SPEED+上的實驗表明，通過對不同但相關的任務進行聯合訓練，僅對合成圖像進行大量數據增強，共享編碼器學習了與合成圖像相比具有不同視覺特征的圖像域的共同特征。文獻［14］提出基于事件感知的航天器位姿估計方案，只對合成數據進行訓練，不進行自適應，可以有效地推廣到目標域。文獻［16］提出將3D 結構引入到航天器位姿估計模型中，以提供對強度域偏移的魯棒性，并提出了一種具有魯棒偽標簽的無監督域自適應算法。文獻［45］提出基于域不可知幾何約束的自我訓練框架，訓練神經網絡預測衛星的二維關鍵點，然后利用PnP 估計位姿。將目標樣本的位姿作為潛在變量，將任務轉化為最小化問題。此外，利用細粒度分割將衛星抽象為稀疏關鍵點所引起的信息丟失問題。最后，通過偽標簽生成和網絡訓練兩步迭代解決最小化問題。文獻［46］使用少量實際目標圖像進行遷移學習，實現航天器圖像高層抽象特征的自動提取，設計基于回歸模型的位姿映射網絡，建立圖像高層特征與三軸位姿角之間的非線性關系。文獻［47］考慮到航天器的非精確3D結構，提出融合誤差感知與幾何引導的位姿估計模型。綜上，域適應方法匯總見表5。

表5 航天器位姿估計的域適應方法Table 5 Domain adaptation methods for spacecraft pose estimation

輕量化方法方面，文獻［48］利用TPU（Tensor Processing Unit）加速位姿估計。在SPEED 數據集上測試，以每秒7.7 幀的速度運行，僅消耗2.2 W。文獻［42］開發了適合50 kg 微納星的6 自由度位姿估計模型，基于人體位姿估計lite 架構的啟發，提出lite-HRNet。文獻［36］針對單目位姿估計方法依賴于已知目標航天器的三維模型及計算量大的問題，提出基于卷積神經網絡航天器單目位姿估計網絡。文獻［35］提出一種基于深度學習的航天器位姿測量輕量化方法。通過引入輕量級類YOLO 網絡用于檢測航天器并實時預測先前重建的3D 模型投影關鍵點的2D 位置，利用PnP 和幾何優化器對位姿進行優化。文獻［26］提出可在FPGA 上運行的航天器位姿估計方法。在Xilinx 公司的Zynq UltraScale 上驗證了FPGA-CPU混合架構的有效性。

2.4 基于深度學習的航天器位姿估計模型分析

在邊緣設備上部署位姿估計模型，使其在星載計算機上使用，是航天器位姿估計的最終目的。因此，未來的研究需要在大型、高性能模型和小型、可部署模型之間進行權衡。算法的另一個考慮因素是模塊化性質。兩階段方法由檢測、關鍵點回歸和位姿計算3部分組成，為構建不同位姿估計任務的應用提供了更大的靈活性。相比之下，端到端方法只包含一個端到端訓練的深度學習模型，整個模型必須重新訓練以適應如相機參數的變化。在兩種方法之間的性能比較方面，通過對Pose Estimation Challenge比賽中方法分析表明［17］，兩階段方法的性能相對優于端到端方法。兩階段方法和端到端方法的平均定位誤差分別為0.008 3 m±0.026 9 m 和0.032 8 m±0.043 0 m，平均定位誤差分別為1.31°±2.24°和9.76°±18.51°。此外，現有算法仍需要考慮如下幾個方面的局限性。

1）對光照條件的魯棒性：現有算法通常對光照環境的變化敏感，直接影響位姿估計的準確性和魯棒性。Pose Estimation Challenge 2021 結果表明，即使是訓練最好的模型，在動態變化光照條件下所獲取圖像上表現不佳。

2）自主持續學習：現有的模型僅考慮訓練域與合成域之間的域差距問題，但圖像所包含的航天器種類并未改變，只是光照與背景發生了變化。當模型應用于在軌操控以后，會面臨許多類型的航天器，提高模型對未見類的自主持續學習能力非常關鍵。

3）傳統方法與深度學習的結合性：從兩階段方法來看，結合傳統方法與深度學習也是未來提高模型魯棒性和精度的一條途徑。

4）目標的非合作特性：現階段的模型，大部分都假設航天器為合作目標。實際的空間操控任務中，航天器大多都是非合作目標，其關鍵點的位置、3D 模型結構都是未知的。因此，兩階段方法所使用的關鍵點回歸可能會失效。發展融合深度估計網絡、目標三維重建網絡的位姿估計模型是必要的。

5）模型的可擴展性：空間在軌操控一般包括觀測階段、繞飛接近段、超近距離操控段。目前的模型一般僅考慮了超近距離段的位姿。觀測段與繞飛段獲取的航天器圖像可能存在低分辨率、運動模糊等問題。因此，后續的模型設計應該考慮添加圖像超分辨網絡、圖像去運動網絡等模塊。

6）模型輕量化：由于星載計算機算力有限，現有位姿模型的輕量化網絡設計也是實現在軌應用的一個關鍵問題。相較于兩階段方法，端到端方法結構簡單、更具有輕量化優勢，但目前的研究較少。兩階段方法的輕量化設計僅使用了類似輕量級類YOLO、lite-HRNet 等。面向航天器位姿估計，未來發展模型壓縮技術、知識蒸餾、模型剪枝、模型量化、低秩分解是必要的。

7）參考地面物體6 自由度位姿估計：可借鑒目前地面物體的6 自由度位姿網絡設計思路，如幾何引導直接回歸網絡（GDR-Net）、編碼器解碼器位姿網絡（EPOS）、標準化物體坐標空間（NOCS）、自監督學習姿態估計（Self6D）以及基于目標檢測改進的Yolo6D與SS6D等設計航天器的位姿估計模型。

2.5 基于深度學習的航天器位姿估計開源模型

目前，基于深度學習的航天器位姿估計開源模型匯總如表6 所示。其中表6 的YOLOv5-SPEED_SLN、HRNet-SPEED_MP 主要用于關鍵點檢測，可直接在SPEED 數據集上測試，沒有對應的論文。表6中的Spacecrafts-6D-Pose-Estimation 研究兩階段位姿估計，pose_estimation_domain_gap 研究域適應位姿估計，沒有對應的論文。

表6 基于深度學習的航天器位姿估計開源模型匯總Table 6 Summary of open-source models for spacecraft pose estimation based on deep learning

3 發展趨勢與建議

由基于深度學習的航天器位姿估計方法研究現狀，從數據集逼真度、模型可部署、多任務域適應3 個維度提煉出當前亟待解決的問題并給出研究建議［51-54］。

1）樣本標注：面向航天器位姿估計的數據集所標注的特征一般為關鍵點，缺少對接環、帆板等自然特征的標注。因此，易標注樣本引導的難標注樣本的預訓練方法值得研究。

2）多模態數據集：當前基于卷積神經網絡的位姿估計方法僅使用單目圖像進行訓練，僅有文獻［26］使用點云進行訓練。實際空間任務中，服務航天器搭載多種傳感器，如雙目視覺、ToF 相機、激光雷達、紅外相機等。因此，后續的數據集制作及位姿模型還需考慮紅外圖像、深度圖像或點云圖等模態的融合。

3）合成數量的逼真性：深度學習方法應用于空間在軌操控的主要問題是缺乏數據。使用合成數據會面臨域適應問題。解決這個問題可以通過將渲染引擎合成的圖像與實際空間圖像進行深入分析，該分析的結果可以作為開發渲染引擎的起點，用于生成較為逼真的圖像。

4）可部署性：盡管航天器位姿估計算法的發展取得了進展，但部署仍然是一個重要問題。在目前的研究工作中，只有一小部分模型在邊緣系統上進行了測試和評估［33］。此外，現有文獻很少報告影響算法可部署性的因素，如延遲、推理時間、內存需求、功耗和算力等。

5）可解釋性：深度學習模型的黑箱性質使得基于深度學習的航天器位姿估計的可解釋性變得困難，特別是對于端到端算法。考慮將貝葉斯深度學習或保形推理方法應用于航天器姿態估計，提高其可解釋性，這是未來值得研究的方向。

6）考慮多種關鍵點提取網絡：兩階段方法中，關鍵點提取網絡使用HRNet。但HRNet為保持特征圖像高分辨率，多階段級聯結構會引起參數規模與運算量過大和處理速率下降等問題，不利于在資源受限的星載計算機上實現。

7）航天器具有對稱性和表面光滑性：大部分航天器由于表面貼覆保溫材料，其紋理特征弱甚至無紋。此外，航天器一般設計為對稱結構。目前的兩階段方法一般先采用檢測算法定位目標，而目標檢測算法依賴于目標的紋理與結構，在低光照或者復雜背景情況下可能會導致檢測失效。

8）遮擋和截斷問題：對于在軌操控任務，狹小空間場景中的目標往往是存在遮擋的；另外待測目標很可能會脫離相機的視野，使得獲取的目標圖像不完整。

9）多任務聯合學習：當前深度學習的位姿估計處于單獨任務中，無法與上下游任務（如特征跟蹤、語義分割、三維重建、運動參數解耦等）結合形成一個航天器精細化感知模型。

10）適應遠距離：當前基于深度學習的位姿估計方法主要研究近距離（＜20 m）情況下的位姿估計問題。實際空間操控任務場景中，服務航天器是從100 m 以外逐漸接近目標航天器。因此，遠距離（＞100 m）獲取的航天器圖像紋理模糊、超近距離（＜2 m）獲取的航天器局部或遮擋情況下的位姿估計值得研究。

11）泛化性：當前基于深度學習的位姿估計方法主要研究特定場景的單目標位姿估計，后續還需進一步研究多任務場景下的多目標位姿估計問題。

12）時間連續性：目前的航天器位姿估計模型孤立地考慮每一幀圖像，并從單個圖像幀中提取特征信息來估計姿態。然而，在空間在軌操控中，姿態估計算法通常用于自主導航，視覺相機可以獲得一系列連續圖像。未來，考慮幀間時間連續性的位姿估計方法值得進一步研究。