唐 鑫,彭 博,滕 飛
(西南交通大學 計算機與人工智能學院,成都 611756)
紅外成像具有抗干擾能力強、成像清楚,精確率高等優點,被廣泛應用于飛機制導、夜視導航和遙感等軍事和民用領域。當目標距離較遠時,在生成的紅外圖像中通常呈現像素數小于9×9的小目標;同時由于紅外圖像的特性,紅外小目標具有信噪比低、缺乏有效的顏色、紋理、形狀等特征的問題,而且在實際應用過程中,紅外小目標夾雜在戈壁、海洋、云層等復雜背景中,這都給紅外小目標的跟蹤帶來了較大的挑戰。
目前紅外小目標跟蹤算法可以分為生成式法、判別式法和基于深度學習的方法[1]。生成式法是對待跟蹤目標建立特征模型并在下一幀中尋找目標模型的最優匹配,代表算法有卡爾曼濾波[2]、粒子濾波[3]、均值漂移[4]等。這些算法對變化場景中的運動目標處理能力較差,實際跟蹤效果不理想。判別式法是將目標區域和背景區域劃分為正負樣本,訓練分類器將目標和背景進行區分,代表算法有相關多示例學習[5]、隨機森林[6]等。判別式法的缺點是在跟蹤輪廓模糊的小目標時容易丟失目標。
近年來,基于深度學習的小目標跟蹤方法因獨特的深度特征、穩定的跟蹤效果、弱邊界效應等優點引起了人們的廣泛關注。Liu 等[7]提出區域卷積 神經網絡(Convolutional Neural Network,CNN)框架,利用候選區域提取深度特征完成對小目標的跟蹤。Li 等[8]提出孿生候選區域生成網絡(Siamese Region Proposal Network,SiamRPN),將整體的跟蹤任務分解為多個局部性檢測任務。胡陽光等[9]提出基于多域學習的神經網絡框架,將長寬比和均值對比度與深度特征進行融合,在單一特征的小目標跟蹤中具有良好的精度。Gazzaley 等[10]提出一種自頂向下的調制機制(Top-Down Modulation,TDM),對多層特征圖進行選擇和融合,這些特征繼承了局部更大的感受野,極大地改善了小目標的跟蹤效果。總之,卷積網絡感知目標的結構和內部幾何分布信息是有效的,但由于紅外小目標成像面積小、特征不明顯、噪聲干擾等,現有的大多數方法在面對紅外小目標時難以滿足跟蹤穩定性的要求。
一些基于低秩稀疏矩陣分解的方法[11-12]認為紅外弱小目標本身是稀疏的,相對的背景則是低秩的。針對紅外小目標跟蹤,關注目標的周圍環境信息與目標本身是同等重要的。對此,本文提出一種新的針對紅外小目標的跟蹤方法。對于紅外小目標,本文方法不僅關注目標本身,也關注小目標及其周圍場景這個整體。它可以提取當前幀有用的狀態信息并按序列傳播到下一幀,該狀態信息表示待跟蹤目標周圍的其他對象在連續幀中的運動情況。狀態信息與分類器得分一起用于預測每一幀的目標狀態與位置。本文主要工作如下。
1)提出了一種針對紅外小目標的跟蹤方法,利用傳播的狀態信息對紅外小目標進行跟蹤。提出了一種新的分類器,通過當前幀和上一幀的特征信息區分目標與背景。
2)提出了一個分數融合模塊,能有效地將分類器的分類結果和狀態信息結合起來,輸出最后的分數以確定待跟蹤目標最終的位置。
3)在DIRST(Dataset for Infrared detection and tRacking of dim-Small aircrafT)數據集[13]上進行實驗,對比了通用目標跟蹤方法和紅外小目標跟蹤方法,取得了96.2%的召回率和97.3%的精確率。
由于紅外小目標缺乏紋理和形狀信息,只依賴外觀模型對單獨某一幀進行處理是不全面的,所以本文提出一種新的跟蹤方法,結合前一幀的狀態信息對紅外圖像中的小目標進行跟蹤。
本文方法的整體結構如圖1 所示,由特征提取器、分類器、融合模塊、傳播模塊和IoU-Net[14]組成。跟蹤不僅僅依賴分類器的分類結果,還利用了傳播的狀態信息,通過為目標領域中的每個區域維護一個狀態向量實現傳播狀態信息;通過對該區域存在的目標、背景、干擾物信息編碼得到狀態向量。當目標對象在序列中移動時,首先通過估計連續幀之間的密集對應關系修正狀態向量,傳播相應的狀態向量。然后將傳播的狀態向量與目標外觀模型結合,預測目標最終位置的置信度,再利用IoU-Net 獲取目標的邊界框。最后通過卷積門控循環單元(Convolutional Gated Recurrent Unit,ConvGRU)神經網絡[15]更新狀態向量,使之能夠在連續幀中傳播。

圖1 本文方法的整體結構Fig.1 Overall structure of the proposed method
本文方法的輸入為連續序列中第0 幀~第N幀的紅外圖像和初始標簽信息。紅外圖像輸入到以ResNet(Residual Network)-50[16]為基礎的骨干網絡中提取特征信息。對于初始幀,先通過一個小型網絡γ將初始幀圖像中目標位置的標簽b0初始化為初始狀態向量,然后通過分類器、狀態傳播、融合模塊預測待跟蹤目標的中心點,同時更新當前幀的狀態信息,最終通過IoU-Net 輸出每一幀中待跟蹤目標的邊界框(x1,y1,x2,y2),其中x1,y1為邊界框左上角坐標,x2,y2為邊界框右下角坐標。
雖然紅外小目標的像素較少,但它的外觀特征信息也可以作為跟蹤的一個重要線索。為了使本文方法更具有魯棒性,設計基于兩個線索完成對于紅外小目標的跟蹤,即使用當前幀中目標與背景的大致分布和隨幀數傳播的狀態信息。分類器的作用是區分目標和背景。在使用分類器C 之前,需要先通過特征提取器提取當前幀的特征信息ft,本文選擇ResNet-50 作為骨干網絡提取特征。分類器C 的網絡結構如圖2 所示。

圖2 分類器C的網絡結構Fig.2 Network structure of classifier C

圖3 融合模塊M中分數融合部分的網絡結構Fig.3 Network structure of score fusion part in fusion module M
分類器C 的設計參考DiMP(Discriminative Model Prediction)追蹤器[17],DiMP 作為一個端到端的網絡結構,在圖像跟蹤方面有良好的表現。但由于紅外小目標的像素少,缺乏紋理顏色等信息,直接使用外觀模型區分目標與背景效果不夠明顯。為了使分類器更適應于紅外小目標,將單個卷積層的權重重新進行參數化。由于紅外小目標的像素少,僅僅使用當前幀的特征信息不利于區分目標與背景。考慮到小目標在兩幀圖像之間移動的相對距離較小,在實際預測時,保留上一幀的特征信息ft-1,結合當前幀與上一幀的特征信息輸入空間相關性取樣器中得到相關特征,將該相關特征輸到卷積層中得到分類輸出,即置信度st。表示在第t幀圖像中的位置r∈Ω:={0,1,…,W-1}×{0,1,…,H-1}的得分,其中Ω表示一維向量空間。該位置為目標中心的可能性,用于區分位置r是目標還是背景。
由于初始幀圖像帶有人工標注的目標位置框,實際運用分類器是從第二幀圖像開始的,此時上一幀的特征信息來自初始幀。使用損失函數式(1)對模型參數進行優化:
其中y=由訓練圖像中所提取的深度特征ft和相應的目標標簽cj的映射組成;殘差函數r(sω,c)計算分類器C的預測值sω與真實值c的誤差;λ是正則化參數。
對于目標跟蹤問題,需要確定待跟蹤目標的中心點。參考Bhat 等[18]的工作,對目標置信分數預測模塊重新設計使之更適用于紅外小目標的跟蹤。
在獲得當前幀目標分數后,還需要更新當前幀的狀態向量供下一幀使用,利用ConvGRU 實現狀態更新。如圖4 所示,將分類器C 的預測分數st與?t按最大值進行連接,得到εt∈RW×H×4。前一幀的狀態向量和εt作為ConvGRU 的輸入,得到當前幀的狀態向量vt。
其中:Ns為當前連續序列的幀數總和;zt是通過標簽獲取的真實分數;α為超參數,確定L′對整個損失函數的影響。
為了驗證本文方法的可行性,使用國防科技大學ATR實驗室于2019 年發布的紅外小目標數據集DIRST[13]進行對比和消融實驗。所有實驗均在單張NVIDIA GTX 2080 GPU上進行。
本章先介紹實驗所用到的DIRST 數據集以及針對紅外小目標的評價體系,再分別介紹對比實驗和消融實驗。
DIRST 數據集由22 個數據段構成,共包含 30 條運動軌跡和 16 177 張紅外圖片,每個數據段包含紅外圖像序列和與之對應的標注文件,標注主要記錄小目標中心點的橫縱坐標。DIRST 數據集包含30 條運動軌跡和16 177 張紅外圖片。DIRST 所包含的復雜場景有:天空、山脈、森林、平原、丘陵和房屋建筑,其中包含多個目標交叉飛行、地面叢林干擾和地面車輛干擾。由于該數據集沒有單獨劃分訓練集和測試集,為了使對比實驗更加公平,本文訓練集和測試集的劃分和文獻[19]中劃分保持一致。
小目標最終的邊界框小于9×9,而交并比(Intersection over Union,IoU)和ROC(Receiver Operating Characteristic)曲線下面積(Area Under the ROC Curve,AUC)評價體系主要用于大目標,所以該評價體系并不適用于小目標。將預測得到的小目標邊界框中心點與小目標真實中心點作比較,如果預測的中心點在真實中心點的3×3 范圍內,認為該預測是有效的。使用召回率(Recall,R)、精確率(Precision,P)和綜合評價指標(F-Measure,F1)(其中取參數α=1)作為指標衡量本文方法的有效性。
為了驗證本文方法對紅外小目標的跟蹤具有較好的性能,選用的幾種對比方法包括:1)通用檢測方法YOLOv3(You Only Look Once version 3)[20],在anchor box 的選擇上YOLOv3更適用于小目標的檢測;2)通用跟蹤方法KeepTrack[21],KeepTrack 作為state-of-the-art 的通用跟蹤方法在眾多跟蹤基準數據集上有優秀的表現;3)針對紅外小目標的檢測方法ISTDet[22],ISTDet是一種基于CNN 的檢測方法,用來檢測紅外小目標;4)針對紅外小目標的跟蹤方法SSD-ST(Single Shot multiBox Detector for Small Target)-1+APF(Adaptive Pipeline Filter)和SSD-ST-2+APF[23],其中APF 是用于多幀濾波階段的一個自適應管道濾波器。實驗對比結果如表1所示。

表1 不同方法的評估結果 單位:%Tab.1 Evaluation results of different methods unit:%
從表1 可以看出,本文方法在DIRST 數據集上的R 相較于 YOLOv3、ISTDet、SSD-ST-1+APF、SSD-ST-2+APF、KeepTrack 分別提高了10.0、4.0、6.4、6.1 和3.7 個百分點;P分別提高了8.9、4.3、2.2、2.3 和3.7 個百分點;F1分別提高了9.4、4.1、4.3、4.2 和3.7 個百分點。最高達到97.3%的精確率,這表明本文所提出的針對紅外小目標的跟蹤方法比通用的檢測、跟蹤以及其他針對紅外小目標的檢測跟蹤方法具有更好的性能。
由于紅外小目標自身像素少,最后包含目標的邊界框小,所以直接將跟蹤得到的邊界框與真實標簽進行比較不夠直觀。為了更直觀地展示本文方法對紅外小目標進行跟蹤的優秀性能,提供圖5 所示的紅外小目標中心點真實軌跡與跟蹤軌跡對比。DIRST 數據集包括22 個數據段,數據段1 對應的是數據包中名為data1 的文件夾,數據集2 對應的是名為data2 的文件夾,以此類推,數據段22 對應data22,故圖5中data 后數字代表第幾個數據段。本文通過計算連續序列中所有幀的邊界框的中心點,然后將全部中心點放在畫布上形成一條中心點軌跡。圖5 中包含較復雜的軌跡,本文方法預測的結果與真實軌跡基本一致,表明即使在復雜的背景和軌跡下仍能準確地完成對紅外小目標的跟蹤。綜上所述,本文方法針對紅外小目標具有良好的跟蹤性能。

圖5 紅外小目標真實軌跡與本文方法跟蹤的軌跡對比Fig.5 Comparison between real trajectories and trajectories tracked by the proposed method for infrared small targets
為分析各個組件對本文方法的影響,在DIRST 數據集上進行消融實驗,結果如表2 所示。

表2 消融實驗結果 單位:%Tab.2 Ablation experiment results unit:%
在分類器輸入中加入上一幀特征信息的作用 分類器的設計是為了區分背景與目標。為了判斷上一幀特征信息在分類過程中是否起作用。本節設計了一個僅將當前幀的特征信息輸入分類器的實驗跟蹤方法。在這種方法下得到置信度st,此置信度與上一幀特征信息無關。如表2 所示,如果不將上一幀特征信息輸入分類器,跟蹤性能將下降,表明將上一幀特征信息加入到分類器中有助于獲得更好的跟蹤表現。
傳播模塊的作用 傳播模塊的作用是將上一幀狀態向量vt-1針對當前幀進行修正,使得修正后的狀態向量輸入融合模塊時更能準確描述當前幀的狀態信息。為了驗證傳播模塊的有效性,將未修正的狀態向量vt-1直接輸入融合模塊進行對比,結果如表2 所示。結果顯示,不使用傳播模塊進行修正的情況下F1下降了9.3 個百分點,表明利用連續幀之間的密集對應關系將上一幀的狀態向量進行修正是有必要的。
屏蔽層的作用 屏蔽層的作用是當待跟蹤小目標被遮擋或者多個目標出現交叉時,避免最后的融合分數?t將遮擋物或其他目標誤認為該目標的中心點。為了驗證屏蔽層在融合模塊的作用,本節去掉屏蔽層,直接將中間分數?^t輸入Iou-Net 中得到邊界框。結果如表2 所示,通過屏蔽層能有效減少跟蹤方法的誤檢率,提高召回率,引入屏蔽層后召回率提高了3.7 個百分點。
本文提出一種基于狀態信息的紅外小目標跟蹤方法,該方法用于連續序列中紅外小目標的跟蹤。首先利用相鄰兩幀的深度特征信息區分待跟蹤目標與背景,然后結合連續幀之間的狀態向量定位小目標,最后在整個序列中傳播這些狀態向量,完成對整個序列的跟蹤。在包含天空、山脈、森林、平原、丘陵和房屋建筑等復雜場景的DIRST 數據集上評估本文方法,并與其他5 種方法進行比較。實驗結果表明,本文方法在各種復雜場景中具有良好的魯棒性,可達到96.2%的召回率和97.3%的精確率。驗證了本文方法能夠很好地完成對連續序列中紅外小目標的跟蹤任務。本文方法在復雜的紅外圖像場景中跟蹤速率較慢,并且模型的空間占用較大,未來可以從這兩方面入手優化模型。