周 芮,劉延芳,齊乃明,佘佳宇
(哈爾濱工業大學 航天學院,黑龍江 哈爾濱 150090)
隨著世界各國對太空資源探索的深入,航天任務范圍不斷拓展,空間任務應用逐漸多元化,不再局限于通信、遙感、導航等傳統領域,而是面向在軌服務、編隊飛行、深空探測等新型任務,這些空間任務涉及非合作目標檢測識別、繞飛接近、交會對接等過程。傳統星地回路控制方法的地面測控站由于定姿定軌精度和通訊響應速度等的影響而不利于航天器自主任務完成。為保障新型空間任務的順利完成,急需開展航天器對空間目標自主檢測跟蹤、軌跡規劃、自主控制等方法的研究,目標位姿估計技術是其中的重點技術之一。
目標位姿估計技術是非接觸測量技術領域的 重 點 研 究 方 向[1],在 空 間 操 作[2-5]、自 主 導航[6-12]、工業檢測[13-15]、輔助醫療[16-17]等領域發揮著重要作用。精確位姿測量是完成空間任務諸如交會對接[18-19]、在軌裝配[20-22]、在軌維修[23]等在軌服務任務[24-26]的關鍵環節。
空間任務[27-28]中常用的傳感器技術有微波雷達技術[29]、激光雷達技術[30]、視覺測量技術[31]。微波雷達和激光雷達是目前常用來測量空間物體之間相對運動狀態的有源主動式傳感器,但由于功耗高、體積大和造價昂貴等因素,使得它們在實際工程應用中受到了很大的限制,難以應用在微小衛星平臺上。視覺傳感器因具有體積小、質量輕、功耗低、傳感信息豐富等特點,使得基于視覺的測量技術在近距離高精度空間目標位姿估計任務中具有較大潛在優勢[32]。特別是,隨著處理器算力的大幅提高、圖像處理技術的不斷發展、深度學習算法的日新月異,航天器在軌裝配、故障或失效衛星維修、太空垃圾清理等空間任務對空間目標位姿測量提出迫切需求,基于計算機視覺的空間目標位姿估計技術逐步成為研究熱點[33]。
本文主要針對面向空間任務的視覺位姿估計技術進行綜述。首先,歸納總結在空間任務中視覺位姿估計技術及應用,然后對視覺位姿估計技術進行概述,以深度學習算法作為切入點,系統地歸納了各種目標識別及位姿估計算法;最后,針對空間任務的特殊性,在任務需求和研究現狀分析的基礎上,對視覺位姿估計技術的發展趨勢和應用進行展望。
隨著空間對抗技術與裝備的迅猛發展,構建空間態勢感知系統已成為關系國家安全的重大戰略問題。視覺系統在自動交會對接、主動碎片清除、在軌裝配服務等空間任務中成為不可或缺的關鍵技術。
空間目標近距離位姿估計任務中一般涉及目標飛行器和追蹤飛行器,目標飛行器按照三維模型是否已知或是否預先安裝合作靶標分為合作目標[34]和非合作目標[35]。針對合作目標的近距離視覺位姿估計技術較為成熟[36],已經在軌應用。但對于空間垃圾、失效衛星等非合作目標,因其無法獲取先驗信息,也沒有預先布設的合作靶標,其視覺位姿估計面臨著許多技術挑戰,仍有待深入研究[37]。穩定可靠的非合作目標的位姿估計對未來空間任務有重大意義[38]。視覺系統在空間任務中的發展如表1和圖1所示。

圖1 視覺空間任務發展Fig.1 Vision-based space mission development

表1 視覺技術在空間任務中的應用Tab.1 Applications based on visual technology in space missions

續表1視覺技術在空間任務中的應用Tab.1 Applications based on visual technology in space missions
空間遙操作是最早應用視覺系統的空間任務,宇航員通過視覺遠程操作完成空間任務,能避免出艙操作的風險,有明顯優勢。
1981年,加拿大研制出第一個航天飛機機械臂系統SRMS(Space Shuttle Remote Manipulator System),其具備遙操作功能,用來部署和回收衛星、勘探及抓獲目標,在國際空間站裝配任務中起到關鍵作用[39]。俄羅斯研制的遙操作交會對接系統TORU(Teleoperatornity Maneuvering Vehicle)成功應用于“和平號”空間站與國際空間站的交會對接任務;1994年,歐空局應用TORU遙操作系統實現了無人貨運飛船ATV與國際空間站的交會對接[40]。此外,美國機器人燃料加注任務RRM(Robotic Refueling Mission)使用機械臂在兩個相機監控下為服役衛星加注推進劑燃料[41]。2013年,我國“玉兔號”巡視器也采用了雙目相機進行遙操作[42]。
空間遙操作方式受通信速率的影響,圖像質量較差,通訊延遲較大,不能滿足所有任務需求。因此,空間任務需要航天器自主完成。合作目標位姿估計技術能夠根據已知信息自主完成位姿估計,得到測量信息。
1997年,日本川崎重工業公司研發出鄰近敏感器用于ETS-VII上,采用100個紅色二極管作為靶標,由CCD相機獲取圖像,得到相對位姿[43]。
1999年,美國開展軌道快車OE計劃(Orbital Express),采 用NASA研 發 的VGS(Video Guidance Sensor)系統,對合作目標進行抓捕,過程中應用合作目標位姿估計技術。VGS系統經過 多 次 升 級,2005年,AVGS(Advanced Video Guidance Sensor)系統應用于DART太空船計劃[44]。我國也開展了相關研究,2011年,利用合作靶標完成天宮一號和神舟八號交會對接任務[45]。
隨著航天技術的發展,空間任務不斷升級,對空間碎片清理、失效衛星回收等非合作目標任務有更多的需求,非合作目標位姿估計尤為必要,越來越多的非合作目標位姿估計計劃被提出。
美國DAPRA資助的前端機器人使能近期演示驗證計劃FREND(Fronted Robotics Enabling Near-term Demonstration)利用通用軌道修正器SUMO(Spacecraft for the Universal Modification of Orbits)平臺,采用基于多目視覺的位姿估計方案,當航天器接近至100米處,選擇最優角度的三個相機對目標成像,估計位姿[46]。2011年,在FREND計劃的基礎上,美國提出了鳳凰計劃(PHOENIX),該計劃主要實現廢舊衛星的維修及回收[47]。2002年,歐空局針對故障航天器及空間碎片等非合作目標,開展地球靜止軌道清理機器人ROGER計劃(Robotic Geostationary Orbit Restorer),采用變焦相機對非合作目標進行監視和抓捕,該項目于2003年終止[48]。2005年,德國開展空間系統演示驗證技術衛星計劃TECSAS(Technology Satellite for Demonstration and Verification of Space Systems),該計劃于2006年終止[49]。在此基礎上開展德國在軌服務DEOS(Deutsche Orbitale Servicing)項目,采用光學相機和激光雷達進行交會對接和重返大氣層等近地軌道技術演示任務,利用歐洲接近操作模擬器
EPOS(European Proximity Operations Simulator)完成半物理仿真試驗。此外,德國宇航局開發的靜止軌道延壽系統(CX-OLEV)采用多相機組合的測量方式,使兩個遠場相機測量距離由2 km到100 m,兩個中場相機測量距離由100 m到5 m,2007年,應用SMART-1衛星平臺進行驗證[50]。2009年,日本宇航探索局(JAXA)開展的空間碎片清理者項目SDMR(Space Debris Micro Remover)采用雙目立體視覺系統,對非合作目標進行位姿估計,完成對目標的繞飛、接近及抓取[51]。2016年,美國DARPA提出地球同步軌道衛星機器人服務(RSGS),2021年進行試驗驗證,采用立體視覺系統對非合作目標進行機械排故、輔助變軌等。2012年,歐洲航天局啟動e.Deorbit任務,于2021年進行相關試驗驗證,目的為清除800 km~1 000 km太陽同步軌道和極軌道上的大質量非合作目標[53]。此外,我國火星探測器“天問一號”及著陸器“祝融號”均搭載不同的相機載荷,用于導航及火星表面情況探測[52]。
綜上所述,空間任務中的近距離目標位姿估計大多采用視覺測量系統。目前,針對合作目標位姿估計較為成熟,對非合作目標的位姿估計仍存在許多技術挑戰。
如圖2所示,視覺位姿估計方法可分為傳統測量方法[54]和深度學習方法[55]。傳統測量方法包含目標識別和位姿估計兩方面,其中目標識別分為基于特征匹配[56]和模板匹配方法[57],位姿估計分為基于點特征、線特征和邊緣特征方法[58]。深度學習方法[59]分為基于目標識別網絡的測量方法[60]和基于位姿估計網絡的測量方法[61-64]。前者先采用目標識別網絡得到關鍵點位置,再采用傳統位姿解算方式得到位姿估計信息。目標識別網絡又可分為一階回歸網絡[65]和二階區域候選網絡[66]。而基于位姿估計網絡的測量方法以圖像為輸入,直接由網絡輸出位姿估計結果。位姿估計網絡按結構可以分為整體回歸[67]和分類投票[68]。

圖2 視覺位姿估計方法分類Fig.2 Classification of visual pose estimation methods
傳統視覺位姿估計技術始于上世紀八十年代,目前在實際工程任務中已得到大量應用,其基本估計的算法流程如圖3所示,包括圖像預處理、目標識別和位姿解算等環節。

圖3 傳統視覺測量方法流程圖Fig.3 Flowchart of traditional pose estimation method
傳統視覺位姿估計方法需要依據先驗知識設計特征,特定的場景下能夠達到較高的檢測速度和精度。但是,由于對先驗知識的特別依賴,導致其自適應性及泛化性較差。
傳統位姿估計方法比較成熟,文獻[54]進行了較為詳細的論述。但傳統視覺方法需要手工設計特征,在背景復雜、高自主性的空間任務應用中存在自適應性差、魯棒性低的問題。隨著計算機視覺技術及人工智能的發展,基于深度學習的視覺位姿估計方法研究發展迅猛。
基于學習方式的智能算法能夠自適應地提取目標特征,有效地提高檢測精度及泛化性,成為目前的研究熱點。基于深度學習的視覺位姿估計方法主要可分為基于目標識別網絡和基于位姿估計網絡兩類位姿估計算法,如圖4所示。

圖4 深度學習視覺位姿估計方法分類Fig.4 Classification of visual pose estimation methods based on deep learning
基于目標識別網絡的位姿估計算法先采用目標識別網絡進行特征提取,得到關鍵點位置信息,再采用傳統方式進行位姿估計。基于位姿估計網絡的位姿估計算法直接由圖像得到六自由度位姿估計結果,下面對目標識別網絡和位姿估計網絡展開論述。
3.2.1 目標識別網絡
目標識別網絡大多利用卷積神經網絡進行特征提取、特征匹配、目標識別及關鍵點檢測,主要可分為基于回歸的單階目標識別網絡和基于區域候選的兩階目標識別網絡。單階網絡通過卷積層、特征圖、預測層直接輸出目標識別結果;兩階網絡在單階網絡的基礎上增加區域候選網絡,先篩選感興趣區域,后進行目標識別,目標識別網絡結構對比圖如圖5所示。圖5中陰影部分為單階網絡,包含區域候選網絡在內的總體網絡為兩階網絡。目標識別網絡對比見表2。

表2 目標識別網絡對比Tab.2 Comparison of target recognition networks

圖5 目標識別網絡結構對比圖Fig.5 Comparison of target recognition network structure
3.2.1.1 回歸網絡
基于回歸的單階目標識別網絡代表有YOLO(You Only Look Once)[69]和SSD(Single Shot Multi-box Detector)[70]等。
YOLO網絡是2015年Redmond首次提出的基于GoogleNet的分類回歸網絡,計算速度快,能夠應用在實時任務中。SSD網絡同年被提出,其檢測精度和計算速度均優于YOLO。SSD的相關 改 進 算 法 有DSSD[71]和RSSD[72]等。而 后,YOLOv2[73]、YOLOv3[74]、YOLOv4[75]相 繼 問 世,檢測精度和計算速度逐步提升。YOLOv3,YOLOv4因計算量小、計算速度快,被應用在多種領域。2020年6月,Glenn J開源YOLOv5算法,其準確度與YOLOv4相當,但更加輕量級、速度更快。
3.2.1.2區域候選網絡
基于區域候選的兩階目標識別網絡代表有R-CNN[76]、Fast R-CNN[77]、Faster R-CNN[78]、Mask R-CNN[79]、Mask Scoring R-CNN[80]等。
2014年提出的R-CNN是區域候選網絡的開山之作,Fast R-CNN在其基礎上將整張圖像送入卷積網絡計算,大大提高計算效率。Faster RCNN提出目標有效定位方法,按區域在特征圖上進行索引,降低卷積計算消耗的時間。相較于Faster R-CNN,Mask R-CNN在速度上沒有提升,但通過改進區域池化部分,目標檢測精度得到提升。Mask Scoring R-CNN于2019年被提出,在Mask R-CNN的基礎上增加了掩碼區域打分機制,精度進一步提升。
3.2.2 位姿估計網絡
位姿估計網絡直接通過輸入圖像進行位姿估計,可分為整體回歸和分類投票網絡,詳見表3。

表3 位姿估計網絡對比Tab.3 Comparison of pose estimation networks
3.2.2.1 整體回歸網絡
整體回歸網絡通常采用端對端網絡,以圖像作為輸入,直接輸出目標位姿結果。典型的整體回歸法網絡結構有PoseCNN[81]、BB8[82]、YOLO-6D[83]、SSD-6D[84]、Deep6DPose[85]等。
PoseCNN采用卷積網絡實現平移和旋轉解耦估計。該網絡通過圖像定位物體中心并預測其與攝像機的距離來估計物體的三維平移向量,再采用回歸方式估計物體的三維旋轉向量。該網絡包含13個卷積層和4個池化層,同時提取不同分辨率特征圖,并輸出高維特征圖,利用高維特征輸出語義標簽,并將高維語義標簽嵌入低維特征,與中心點建立聯系,輸出位姿估計結果。
BB8直接檢測目標對象,再通過對象邊界框角點2D投影來預測3D姿態。BB8以單幀RGB圖像為輸入,采用卷積網絡完成圖像定位、分割、分類以及優化估計,利用3D邊界盒8個頂點的2D投影結合N點透視法PnP算法來預測目標3D姿態,并通過限制訓練圖像的旋轉范圍解決各類旋轉對稱的姿態估計不確定問題。該網絡可同時針對多個目標對象訓練。
YOLO-6D采用YOLOv2網絡結構,通過9個控制點參數化目標的3D模型,相比BB8網絡增加了形心點,在投影預測2D坐標點過程中優先考慮形心點,再改進8個角點位置,加快運算速度,而后采用PnP方法估計六自由度位姿結果。YOLO-6D運行時間與目標數量關聯不大,較為穩定且不考慮微調環節,速度加快。
SSD-6D將SSD網絡用于位姿估計任務,采用離散化視圖而非直接回歸預測姿態,將姿態估計問題轉化為分類問題,加快了估計速度。SSD-6D基礎網絡采用InceptionV4,經過不同尺寸模塊產生6個特征圖;將特征圖分別與預測卷積核卷積,得到不同尺寸和形狀的預測邊界框;最后給出離散視圖上的得分并進行分類,得到位姿結果。
Deep6DPose是一種端對端的多任務網絡,能夠進行目標檢測、實例分割、以及位姿估計。在輸入RGB圖像后,首先采用深層卷積網絡進行圖像特征提取;再利用附加區域建議網絡輸出感興趣區域;最后,針對感興趣區域分別完成目標檢測、實例分割和位姿估計任務。
3.2.2.2 分類投票法網絡
分類投票法可分為兩個階段,先對輸入圖像進行區域預選,然后根據預選區域估計目標姿態。典型的分類投票法網絡有MCN[86]、Cull-Net[87]、DenseFusion[88]、PVNet[89]、PVN3D[90]等。
MCN是基于投票方法的多視圖融合網絡,采用單個姿態預測分支,分支可由多類共享,同時進行多類訓練。此外,該網絡將類別圖與卷積層拼接,嵌入對象類別標簽,并利用物體掩膜進行進一步檢測。MCN為大規模對象類和無約束的混亂背景提供可拓展的位姿估計學習網絡,減少單視圖的模糊性。
CullNet利用置信度評分對位姿估計結果進行篩選,剔除假陽性結果,選擇最優位姿估計結果。該網絡分兩個階段操作:(1)提取階段:基于YOLOv3輸出3個不同比例的關鍵點提取結果;(2)篩選階段:將提取階段得到k組2D關鍵點經E-PnP算法得到k個位姿估計結果同裁剪后緊密匹配的原始圖像和姿態渲染模板作為輸入,傳遞到CullNet網絡中,輸出位姿估計結果校準后的置信度,挑選置信度最好的位姿估計結果輸出。
DenseFusion可以單獨處理兩個數據源,采用稠密融合網絡來提取像素級的稠密特征,并據此進行位姿估計。此外,該網絡集成了端到端迭代位姿細化步驟,進一步改善了位姿估計結果。該網絡包含兩個階段。第一個階段根據已知對象種類進行語義分割,針對每個對象分別提取深度信息和彩色信息。第二個階段處理分割的結果并進行位姿估計。
PVNet通過學習對物體2D關鍵點的方向向量場,能夠較好地處理遮擋效應,并使用不確定性驅動的PNP算法來估計位姿。該網絡首先輸出語義分割結果和關鍵點的方向向量場;然后根據一致性投票從方向向量場中計算出物體的關鍵點,同時生成關鍵點的概率分布;隨后利用關鍵點的不確定性在PnP解算中進一步提高位姿估計的魯棒性。
PVN3D將基于二維關鍵點的PVNet擴展到三維關鍵點,充分利用剛性物體的幾何約束信息,顯著提高六自由度估計的精度。該網絡采用單一的RGB-D圖像作為輸入,首先,進行特征提取,分別輸入到三個模塊中預測關鍵點、語義標簽和中心偏移;接著,應用聚類算法來區分具有相同語義標簽的不同實例;然后,利用深度霍夫投票網絡來檢測物體的三維關鍵點;最后,使用最小二乘法擬合位姿參數。
綜上所述,應用在位姿估計任務上的深度學習網絡,有以下特點:
(1)引入關鍵點不確定性或者置信度機制對位姿估計結果進行篩選,例如CullNet與PVNet;
(2)劃分多個子網絡,將高維特征語義標簽與低維特征中心點建立聯系,例如PoseCNN與PVN3D;
(3)采用不同類型的卷積網絡分別進行特征提取,使用融合網絡融合不同類型特征結果,例如Deep6DPose和DenseFusion。
隨著片上系統的發展,諸如視覺、雷達的自主測量手段具有一定的應用。同時,深度學習在不同領域,特別是計算機視覺領域,都取得了巨大的成功,吸引了很多空間研究者的注意。然而,空間應用不同于地面任務,可靠性需求高且缺少真實數據集[91]。
相比地面視覺應用,空間視覺測量任務具有以下幾點特殊性:
(1)空間視覺的任務場景范圍更大,大多視覺任務包含遠距離接近、近距離環繞和抵近距離交會對接等,測量距離變化較大,需要適應低紋理、低分辨率的目標識別需求;
(2)空間環境存在較多恒星、人造天體等的雜散光背景、測量目標表面包覆層反射及視線角變化帶來的光照變化劇烈問題,使得目標在圖像中呈亮點狀且光照復雜多變,對目標檢測帶來巨大挑戰。
4.2.1 SPN網絡
Sharma等 人[92]提 出 了Spacecraft Pose Network(SPN)網絡,該網絡是第一個基于單目視覺的已知非合作航天器位姿估計方法,采用海馬8號氣象衛星拍攝地球實際圖像和OpenGL生成SPEED數據集。該網絡使用五層CNN基本網絡,并連接到三個不同的分支:(1)使用R-CNN結構進行2D邊界框提取;(2)使用全連接網絡進行相對姿態分類;(3)通過分支2得到N個候選項,使用另一交叉熵損失最小化,獲得每個候選項的相對權重,采用四元數平均計算得到最終精細姿態。SPN網絡利用Gauss-Newton方法解決了估計相對位姿的最小化問題,相對位置誤差為厘米級、姿態誤差為度級。
4.2.2 基于ResNET方法
Proenca等 人[93]在Unreal Engine 4虛幻引 擎上構建了面向已知非合作航天器的URSO數據集,提出基于ResNet網絡的位姿估計深度學習框架,直接回歸輸出位置,以最小化相對誤差為損失函數。此外,該框架贏得了歐洲航天局位姿估算挑戰賽第二名,并給出在太空真實圖像上的執行方法。
4.2.3 基于LSTM方法
Kechagias等人[94]提出深度循環卷積神經網絡,輸入多投影點云圖像,利用CNN架構提取底層特征,采用LSTM進行建模,得到位姿估計結果。試驗中采用斯阿萊尼亞航天公司開發的衛星模型用于非合作相對機器人空間應用導航任務,僅針對模擬數據進行訓練,多種情景下的評估結果表明網絡結構有很強的適應性,能夠在較低的運算需求下提供較優的里程精度。
4.2.4 二階網絡方法
為了實現快速準確的位姿估計,Huo等人[95]提出了基于深度神經網絡方法并結合PnP算法和幾何優化方法的網絡。該網絡在SPEED數據集實現,首先設計了輕量級的YOLOv3網絡用于預測關鍵點位置,接著回歸生成熱圖,最后利用PnP和EKF方法得到位姿結果并優化,該方法實現了較低的計算消耗。
綜上所述,深度學習在空間位姿估計領域已有部分成果,理論研究表明位姿估計結果可在厘米級和度級,能夠滿足空間應用的需求。但由于缺乏真實數據集,能否滿足空間任務對魯棒性的高要求,尚未在實際空間任務中驗證。
本文對視覺位姿估計技術的發展及其在空間任務中的應用展開綜述,得到了如下幾點結論:
(1)傳統視覺位姿估計技術較為成熟,有大量工程應用,但受環境因素影響較大,需要針對任務設計特征,通用性和適應性較差。
(2)利用深度學習方法進行視覺位姿估計的理論研究發展迅猛,但現仍存在訓練需求數據集龐大,且運算量大等問題,尚未廣泛應用。
(3)各國廣泛開展視覺位姿估計技術在空間任務中的應用,其中,對于合作目標的位姿估計較為成熟,非合作目標位姿估計仍處于探索階段。
針對空間任務,相對位姿估計技術尚存在較大不足,需要針對以下特定問題展開研究:
(1)低紋理、低分辨率目標識別。相比傳統任務,空間任務視場范圍大,目標距離遠,運動速度較快,目標紋理和分辨率較低,需要對目標快速定位跟蹤。
(2)退化視覺環境成像。太空是典型的退化視覺環境,存在空間雜散光背景、目標包覆層反射、光照變化劇烈等問題。要完成空間目標的位姿估計任務,視覺位姿估計算法需要對環境有較好的適應性。