韓冰,王晨希,翟智*,劉乃金
(1. 西安交通大學未來技術學院,西安710049;2. 西安交通大學機械工程學院,西安710049; 3. 西安交通大學空間智能制造研究中心,西安710049;4. 中國空間技術研究院,北京100081)
自1957年蘇聯發射了第一顆人造衛星“斯普特尼克”-1 以來,隨著各國航天事業的蓬勃發展,衛星、火箭、空間碎片等常駐空間物體(Resident space objects,RSOs)的數目激增,這不僅壓縮了有限且不可再生的地球衛星軌道資源,同時也帶來了軌道資源擁擠和空間碰撞等問題,給各國空間活動造成了越來越大的現實威脅[1]。因此通過空間態勢感知(Spatial situational awareness,SSA)系統跟蹤、監測、編目和偵察空間目標,對于減輕碰撞造成的空間資產破壞風險至關重要[2]。SSA 作為開展各類空間活動的基礎能力,已經引起各國高度關注和大力投入[3]。
地球靜止軌道(GEO)是高價值太空資產最集中、軌道資源最寶貴的區域。地球靜止軌道周期與地球自轉周期接近,分布在該軌道上的衛星與地球表面相對靜止,可以為地面用戶提供連續、長期的服務,因此成為各個國家開展空間態勢感知和太空安全防護與競爭的熱點區域[4]。空間態勢感知主要通過地基雷達、地基望遠鏡以及天基光學、天基紅外和天基雷達等方式,實現對已知和未知的空間目標進行監測。
本文專注于地基探測地球靜止軌道的常駐空間物體,地球靜止軌道高度為大約36000 km。因此,通過地基觀測收集到的圖像中恒星成像為條紋,而地球靜止軌道物體與地球自轉同步,它們相對于觀測器的位置大致靜止,所以成像為斑點。
如圖1 所示,地球靜止軌道物體并非完全可見。由于大氣失真和較長的曝光時間,接收到的軌道物體光子被分散成像在幾個像素上,這使得觀察到的空間物體變暗;云層覆蓋、大氣/天氣影響、光污染、傳感器噪聲/缺陷、背景恒星遮擋(如圖1(a)第二幀所示)以及在極少數情況下,活躍的地球靜止軌道衛星在捕獲期間進行的軌道機動等各項因素也降低了空間目標的可見性(如圖1(a)第四幀所示,肉眼幾乎不可見)。除此之外,如圖1(b)所示,由于傳感器噪聲和缺陷引起的斑點狀偽像和亮像素與軌道目標像點十分相似,增加了檢測問題的難度。因此,本文將該問題轉化為在雜亂的圖像背景中定位類似暗斑點的一種遠距離小目標檢測問題。

圖1 地基觀測圖像示例,源自SpotGEO數據集[5]Fig. 1 Examples of ground-based observation images from the SpotGEO dataset[5]
小目標檢測長期以來是計算機視覺中的一個難點和研究熱點,其旨在精準檢測出圖像中可視化特征極少的小目標[6]。對于軌道點狀目標檢測問題,目前已經提出了許多方法。一種常見的方法是圖像疊加方法[7-10],該種方法通過連續捕獲一個圖像序列的多個圖像并堆疊在一起,利用GEO軌道物體相對于背景恒星以不同模式移動的先驗知識來識別軌道目標。然而,由于微弱物體的信噪比(Signal to Noise Ratio,SNR)過低,這一系列方法的檢測效率在幅度上通常受到硬件傳感器的可觀測幅度的限制,導致其難以檢測微弱物體[11]。針對此問題,一種被稱為先跟蹤后檢測(Track-Before-Detect,TBD)[12,13]的方法被提出,該方法在一段足夠長的觀察周期中,收集并累積不同時間的信號測量值,以此來提高微弱目標的SNR,直到達到能夠檢測到的水平。但該技術的缺點是需要較大的時間成本才能實現圖像序列中弱目標足夠的積累,并且要求精確的軌道初始化。此類傳統的目標檢測方法通過手工設置參數來提取特征,泛化性差、定位精度不足、冗余計算量大,只能在特定的場景滿足需求。
與傳統方法相比,基于深度學習的算法克服了特征提取魯棒性差的缺點,檢測效果顯著提高。然而,現有算法的設計往往更為關注大/中尺度目標的檢測性能,針對類似GEO軌道物體的點狀小目標檢測的優化并不多。加之小目標可利用特征少、定位精度要求高、占比少等自身特性所帶來的難度,導致大多數算法在小目標檢測上普遍表現不佳。
Liu 等[14]提出一種多尺度目標檢測算法(Single shot multibox detector,SSD),利用較淺層的特征圖來檢測較小的目標,提高了小目標的檢測效果。利用Liu等提出的技術,文獻[15]通過修改第一卷積層的步長,發現了第一個卷積層中的下采樣操作對小物體的檢測精度有巨大影響。Kong等[16]提出了一種多尺度融合網絡,通過綜合淺層的高分辨率特征和深層的語義特征以及中間層特征的信息顯著提高了召回率,進而提高了小目標檢測的性能。為節省特征融合的計算資源并獲得更好的特征融合效果,Lin等[17]結合單一特征映射、金字塔特征層次和綜合特征的優點提出了特征金字塔(Feature Pyramid network,FPN)結構,引入了一種自底向上、自頂向下的網絡結構,通過將相鄰層的特征融合以達到特征增強的目的。近些年來,也出現了一些適用于小目標的數據增強方法,Kisantal等[18]針對小目標覆蓋的面積小、出現位置缺乏多樣性、檢測框與真值框之間的交并比遠小于期望的閾值等問題,提出了一種Copy-Paste增強的方法,通過在圖像中多次復制粘貼小目標的方式來增加小目標的訓練樣本數,從而提升了小目標的檢測性能。在Kisantal等的基礎上,Chen等[19]提出了一種自適應重采樣策略進行數據增強,這種策略基于預訓練的語義分割網絡對目標圖像進行考慮上下文信息的復制,以解決簡單復制過程中可能出現的背景不匹配和尺度不匹配問題,從而達到較好的數據增強效果。Zoph等[20]超越了目標特性限制,提出了一種通過自適應學習方法,例如強化學習選擇最佳的數據增強策略,在小目標檢測上獲得了一定的性能提升。除此之外,一種擺脫錨框機制(FreeAnchor)的檢測方法被提出[21-23],其核心思想是將目標檢測任務轉換為關鍵點的估計,這在架構上更簡單、檢測小目標效果更好。
受到以上工作的啟發,本文方法基于目前流行的RetinaNet[24]網絡框架,針對GEO空間目標檢測任務中目標特征薄弱、尺度小和定位精度要求高的問題,提出SFF-RetinaNet算法,設計了用于空間目標檢測的NDResNet-50骨干網絡,避免對原始圖像的下采樣,提高算法對目標淺層特征的提取能力。針對觀測圖像中目標像素占比極小、定位精度要求高的問題,引入FreeAnchor 模塊,將錨框匹配策略轉化為極大似然估計問題進行優化,使高質量的檢測邊界框具有更高的精度來滿足小目標檢測和定位的要求,提高檢測精度。針對觀測圖像中目標樣本數量匱乏、分辨率低及分布不均勻的問題,采用Copy-Paste 和多分辨率采樣的數據增強方式,擴充同一張圖像中的目標數量,豐富小目標的特征,提高了模型的學習能力。實驗結果表明,本文提出的策略在GEO軌道目標檢測任務中具有較好的檢測效果。
RetinaNet算法是一種基于錨框的一階段通用目標檢測算法。如圖2所示,網絡結構由Backbone(主干網絡)、Neck(特征融合網絡)和Head(分類子網絡與邊框回歸子網絡)三部分組成。RetinaNet采用ResNet-50作為Backbone,對圖像進行特征提取,同時在Neck部分構建FPN進行特征融合。在Head部分,RetinaNet塊使用classsubnet和boxsubnet分別處理目標分類任務和邊界框回歸任務,并且使用FocalLoss根據置信度動態調整交叉熵損失來解決樣本不平衡問題。

圖2 RetinaNet網絡結構圖Fig. 2 RetinaNet network structure diagram
本文針對GEO空間目標特征薄弱、尺度小和定位精度要求高的問題,提出SFF-RetinaNet 算法,保留RetinaNet解決正負樣本不平衡問題的能力,并進一步提高。同時,提出了淺層聚焦殘差網絡(Shallow focus residual network,SFResnet)主干網絡結構,引入FreeAnchor 檢測器和多分辨率融合的Copy-Paste數據增強,SFF-RetinaNet算法整體結構如圖3所示。

圖3 SFF-RetinaNet網絡結構圖Fig. 3 SFF-RetinaNet network structure diagram
地面與GEO軌道距離為大約36000 km,觀察到的空間物體在圖像中只有不超過10個像素,大部分的空間物體只存在于淺層特征層中。深層的ResNet-50特征提取網絡很容易忽略這些淺層特征,從而不能有效地提取和學習弱小目標的特征。這是由于ResNet-50的第一卷積層步長為2的下采樣操作引起的,此操作會顯著影響小物體的檢測精度。因此,為了更有效地提取淺層特征,使主干網絡更多地關注淺層紋理信息,同時繼承其強大的分類能力,本文設計了SFResNet-50主干網絡架構。
如圖4所示,刪除了ResNet-50第一個卷積層中的下采樣操作,并用連續三個3×3卷積核替換7×7 卷積核。通過以上改進,SFResNet-50 能夠從圖像中利用更多的局部信息,從而為小物體檢測提取強大的特征。

圖4 網絡結構更改對比Fig. 4 Comparison of network structure changes

圖 5 數據增強流程Fig. 5 Data enhancement process

圖 6 數據增強整體效果Fig. 6 Data enhancement overall performance
錨框機制在目標檢測中扮演著重要的角色,許多先進的目標檢測方法都是基于錨框機制而設計的,但是錨框這一設計對于GEO 空間物體這類小目標的檢測極不友好。由于空間目標在圖像中覆蓋面積小,且定位精度要求高,在預測過程中,即便預測邊界框只偏移一個像素點,也會對定位效果產生很大的影響。此外,錨框的使用引入了大量的超參,比如錨框的數量、寬高比和大小等,使得網絡難以訓練,不易提升小目標的檢測性能。FreeAnchor 從極大似然估計的角度優化錨框與對象的匹配,能夠自動學習目標的空間信息和局部語義特征,生成適合目標的錨框,在一定程度上提升了小目標檢測的精度。FreeAnchor 從三個方面優化對目標和錨框的匹配。
(1)優化召回率,如式1 所示,定義了召回率最大似然函數。其中Precall(θ)為所有目標的錨框分類置信度和定位置信度的最大乘積,為分類置信度,為定位置信度,Ai為錨框集合。通過該極大似然函數,尋找最大的目標錨框分類置信度和定位置信度乘積。
(2)提高檢測精度,如式(2)所示,定義了精度最大似然函數。
式中:P{aj∈Ai}=1-P{aj→bi}max表示aj屬于背景類的概率,P{aj→bi}表示錨框aj正確預測目標bi的概率,表示不屬于背景類的置信度。該函數目的是將定位較差的類歸為背景。
(3)為了兼容非極大值抑制算法(Nonmaximum Suppression,NMS),定義了飽和線性函數(Saturated Linear,SL)用來表示P{aj→bi},如式(3)所示。
FreeAnchor 通過引入自定義的似然函數,實現了通過學習的方法優化目標與錨框的匹配。在保證能與NMS算法兼容的同時,也優化了召回率和提高了檢測精度。因此本文引入FreeAnchor,以提高檢測器對錨框分配的效果。
在本文使用的SpotGEO 數據集中,圖像分辨率為640×480,空間目標的尺度很小,并且在同一張訓練集圖像中目標出現的個數均值為1.74,物體像素所覆蓋的區域在整個圖像上占比不超過0.1%,在位置特征上也缺乏多樣性。傳統的旋轉、裁剪、翻轉等數據增強方法不能有效地提高小目標的準確性。因此本文通過提高圖像分辨率和圖像中目標數量的方式增強數據,用來增加小目標特征的豐富度。
如圖5 所示,首先使用Copy-Paste 的方式,對圖像中每一個目標進行復制后再粘貼到圖中任意位置的方式進行樣本擴充,操作簡單且效果良好。在復制目標區域時,采用的面積比目標框的真實面積略大,保留了目標周圍一定的上下文特征。除此之外,使用大小為5×5 的均值濾波器平滑粘貼后的目標圖像邊緣,在不干擾目標像素特征的基礎上,使新粘貼圖像的背景更加自然。之后通過雙線性插值算法分別生成圖像2 倍(1280×960)和3 倍(1920×1440)分辨率的圖像。整體效果如圖6所示。
本文使用的觀測數據來源于2020年Kelvins Spot the GEO satellite挑戰賽[25]中公開的SpotGEO數據集[6]。該數據集是通過在地面天文望遠鏡上部署低成本CMOS 傳感器而采集到的夜間圖像,所采用的望遠鏡角像素大小約為4.5 rad/s,根據相機轉動角速度與曝光時長計算每個像素對應弧長約800 m。該數據集以每五個連續幀構成一個圖像序列,總共6400個圖像序列,包含32000張圖像,每一個圖像的大小為640×480 像素。按4∶1 的比例劃分訓練集和測試集。數據分布如表1所示,由于大氣/天氣影響、云層核恒星遮擋等原因,約25%的圖像中不存在目標,同時存在7 個及以上目標的樣本量較少。

表1 數據集樣本分布Table 1 Dataset sample distribution
實驗硬件環境采用Intel Xeon Gold 5218R 處理器,GTX3090 顯卡,CUDA 版本為11.3,使用MMDetection 深度學習框架,共訓練24 輪。訓練中使用SGD優化器優化參數,Batchsize為16,學習率設置為0.02。
本文在SpotGEO數據集上評估了SFF-RetinaNet,并與Kelvins Spot the GEO satellite排行榜上的方法進行了比較。SpotGEO數據集的評價指標由兩部分組成,分別為1-F1分數和回歸誤差。F1是一種流行的統計數據,它同時考慮了精度和召回率,計算公式如式(5)所示。其中Precision表示預測精度,recall表示召回率。回歸誤差表示預測目標區域與真值的交并比誤差,具體用均方差MSE計算,如式(6)所示。其中n表示樣本數量,Y表示預測值,G表示真值。
由于排行榜僅公開了每個方法所產生的1-F1分數和回歸誤差(MSE)指標而并未公開具體算法內容,因此本文僅對比各個方法所產生的指標。如表2所示,SFF-RetinaNet的檢測效果位于第11位,所產生的1-F1分數相較第一名高出了約0.11,整體來說處于排行榜的第三到第四梯隊。一個很重要的前提是,本文只將SFF-RetinaNet訓練了24輪,這是極少的,即便SFF-RetinaNet 未必是最優的,但也能夠證明其在處理GEO任務上是有效的。

表2 模型指標對比Table 2 Model metric comparison
在目標檢測任務中,使用預測目標框與真實框的交并比(Intersection over Union,IoU)來評價模型檢測效果,一般來說,IoU>0.5 代表成功預測目標位置,精確率(Precision)與召回率(Recall)可以多角度地評價模型性能。平均精確度(Average Precision,AP)表示不同召回率下精確率的均值,用于評價單類別檢測效果,所有類別檢測精確度取平均可得到評價目標檢測算法整體性能的平均精確度均值(Mean Average Precision,mAP),指標每秒檢測圖片數量(Frames Per Second,fps)用于評價模型檢測速度。
表3 是本文的實驗結果,表格中帶√標記表示實驗采用該模塊,組合1是RetinaNet網絡的檢測效果,其mAP 為48.95%,說明其在小目標檢測任務上效果一般。組合2 至組合6 是本文基于RetinaNet模型各個改進點的消融實驗結果,組合7是本文提出的SFF-RetinaNet模型的檢測效果。

表3 模型改進實驗結果Table 3 The experimental results of model improvement
組合2、3、4、5 表明,S F R e s N e t、FreeAnchor 和多分辨率融合的Copy-Paste 模塊對于原來模型在精度上均有改進效果。本文提出的SFResNet 結構在精度上提升了3.26%mAP,檢測速度提高了3fps,說明通過SFResNet降低了原有網絡結構的參數量,在性能沒有下降的情況下還提高了計算的效率。引入的FreeAnchor 模塊在精度上提高了4.63%mAP,說明基于錨框的方法在檢測類似軌道物體的極小目標時并不適用,通過將目標檢測轉化為關鍵點預測問題能夠提升預測小目標的效果。采用的多分辨率融合的方式在精度上提高了3.07%mAP,說明通過提高圖像的分辨率,豐富目標的特征,能夠提高小目標的檢測效果。
組合5表明,通過Copy-Paste的數據增強方式在這次實驗中僅僅使得檢測精度得到0.11%mAP的微弱提升。本文認為限制Copy-Paste效果的主要原因是數據集所采用的傳感器成像效果差,該低成本相機的成像具有較大噪聲,導致相當一部分圖像會出現顏色不均勻的現象。通過復制粘貼的手段,導致原目標點周圍的背景與新粘貼位置的背景差異過大,導致模型學習到了背景發生突變的特征,增強數據的同時也給模型的學習帶來了噪聲,如圖7(b)所示。

圖7 Copy-Paste增強前與增強后效果對比Fig. 7 Performance comparison before and after Copy-Paste enhancement
但本文認為Copy-Paste可以作為一種有前途的GEO目標數據增強的思路被提出。從圖像的角度出發,空間目標探測屬于極小目標檢測問題,該問題面臨著分辨率低、可提取特征少、樣本數量匱乏等問題。采用Copy-Paste方法通過在圖像中多次復制粘貼目標的方式來增加目標的訓練樣本數,從而提升小目標檢測的效果。后續的研究中,可以在Copy-Paste的基礎上添加上下文自適應的后處理,更加充分地利用全局上下文信息用來解決背景不匹配和尺度不匹配問題,從而達到較魯棒的數據增強效果。
組合6、7、8 的實驗結果表明SFResNet、FreeAnchor 和多分辨率融合模塊進行組合對模型的提升效果大于單一模塊。其中本文提出的SFFRetinaNet 模型相較于RetinaNet 的精度提高了12.33%mAP,在檢測速度上提升了3fps。
針對地球靜止軌道(GEO)空間目標探測任務中目標特征薄弱、尺度小和定位精度要求高的問題,本文提出了SFF-RetinaNet算法,設計了一種聚焦淺層特征的殘差網絡結構,提高了網絡對圖像淺層特征的提取能力;引入了FreeAnchor 檢測器,將錨框匹配策略轉化為極大似然估計問題進行優化,提高了目標檢測框的定位精度;針對觀測圖像中目標樣本數量匱乏、分辨率低及分布不均勻的問題,引入多分辨率融合的Copy-Paste數據增強方法,提高了算法的檢測效果,得到了更優的算法模型。本文通過實驗得到以下結論,SFF-RetinaNet算法在Kelvins SpotGEO挑戰賽的數據集上進行測試,檢測精度為71.28%mAP,相較原算法提高了12.33%,算法檢測速度提高了3fps,在本文的球靜止軌道空間目標檢測任務具備更優的檢測效果。