張笑博, 吳 迪, 朱岱寅
(南京航空航天大學(xué)電子信息工程學(xué)院雷達(dá)成像與微波光子技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 江蘇南京 211106)
視頻合成孔徑雷達(dá)(Video Synthetic Aperture Radar, ViSAR)是由美國(guó)Sandia國(guó)家實(shí)驗(yàn)室提出的一種具有動(dòng)態(tài)監(jiān)測(cè)能力的高幀率成像模式,可實(shí)現(xiàn)對(duì)目標(biāo)區(qū)域全天時(shí)、全天候的持續(xù)觀測(cè),直觀地反映目標(biāo)的位置及運(yùn)動(dòng)參數(shù)等重要信息。因此,運(yùn)動(dòng)目標(biāo)的檢測(cè)與跟蹤一直是ViSAR研究領(lǐng)域的熱點(diǎn)。
在ViSAR圖像序列中,目標(biāo)運(yùn)動(dòng)使圖像出現(xiàn)散焦,同時(shí)其多普勒頻移導(dǎo)致動(dòng)目標(biāo)在成像時(shí)出現(xiàn)偏移,并在其真實(shí)位置上留下了陰影。因此,可利用陰影信息實(shí)現(xiàn)對(duì)動(dòng)目標(biāo)的檢測(cè)。國(guó)內(nèi)外學(xué)者已經(jīng)研究了基于陰影的檢測(cè)方法的魯棒性。文獻(xiàn)[3]采用單高斯模型對(duì)圖像序列進(jìn)行統(tǒng)計(jì),然后通過背景差分實(shí)現(xiàn)動(dòng)目標(biāo)陰影的檢測(cè)。文獻(xiàn)[4]將低秩稀疏分解應(yīng)用在ViSAR中,并通過實(shí)測(cè)數(shù)據(jù)驗(yàn)證了該方法的有效性。上述方法均建立在SAR圖像配準(zhǔn)的基礎(chǔ)上,且配準(zhǔn)效果極大地影響了檢測(cè)性能。文獻(xiàn)[5]采用快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-based Convolutional Neural Networks, Faster R-CNN)檢測(cè)動(dòng)目標(biāo)陰影,然后利用滑窗密度聚類算法和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)抑制虛警和提高檢測(cè)率,該方法在美國(guó)Sandia國(guó)家實(shí)驗(yàn)室公布的ViSAR片段上取得了較好的檢測(cè)效果。文獻(xiàn)[6]在Faster R-CNN的基礎(chǔ)上,引入特征金字塔結(jié)構(gòu)(Feature Pyramid Networks, FPN)和K-means算法在多尺度特征圖上檢測(cè)目標(biāo),提高了小目標(biāo)的檢測(cè)性能。文獻(xiàn)[7]從SAR圖像與光學(xué)圖像的差異考慮,提出了一種不需要預(yù)訓(xùn)練模型的船舶檢測(cè)方法。文獻(xiàn)[8-10]基于YOLO(You Only Look Once)網(wǎng)絡(luò)進(jìn)行了不同的改進(jìn),在SAR圖像檢測(cè)上取得了良好的效果。
動(dòng)目標(biāo)陰影在ViSAR圖像序列間具有較強(qiáng)的相關(guān)性。如果一個(gè)動(dòng)目標(biāo)陰影在某一幀被檢測(cè)到,那么在相鄰幀對(duì)應(yīng)位置周圍會(huì)較大概率檢測(cè)到該目標(biāo)。對(duì)動(dòng)目標(biāo)的跟蹤可以有效提高檢測(cè)性能的魯棒性。目前在多目標(biāo)跟蹤(Multi-Object Tracking, MOT)算法中最流行的是檢測(cè)后跟蹤(Tracking by Detection)范式算法,即先檢測(cè)目標(biāo),再將檢測(cè)結(jié)果與已存在軌跡關(guān)聯(lián)。由于基于深度學(xué)習(xí)的檢測(cè)方法具有良好的性能,多目標(biāo)跟蹤算法主要完成檢測(cè)結(jié)果的關(guān)聯(lián)及檢測(cè)性能的改進(jìn)。
綜上所述,針對(duì)ViSAR動(dòng)目標(biāo)檢測(cè)技術(shù),需要研究一種不依賴預(yù)訓(xùn)練模型,能夠從零開始深度學(xué)習(xí)的動(dòng)目標(biāo)陰影檢測(cè)算法。此外,為彌補(bǔ)單幀檢測(cè)算法的缺陷,需要結(jié)合ViSAR時(shí)間維度的信息設(shè)計(jì)多目標(biāo)跟蹤算法提升檢測(cè)性能。據(jù)此,本文提出了一種基于深度學(xué)習(xí)與多目標(biāo)跟蹤算法的ViSAR多運(yùn)動(dòng)目標(biāo)陰影檢測(cè)算法。首先,設(shè)計(jì)了一種從零開始深度學(xué)習(xí)的網(wǎng)絡(luò)模型,實(shí)現(xiàn)動(dòng)目標(biāo)陰影的單幀檢測(cè)。由于單幀檢測(cè)結(jié)果中存在部分虛警和漏警,采用了基于卡爾曼濾波和幀間數(shù)據(jù)關(guān)聯(lián)的多目標(biāo)跟蹤算法對(duì)檢測(cè)結(jié)果進(jìn)行跟蹤,提高了算法的魯棒性。
在深度網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)深度的加深,梯度消失和梯度爆炸也越來越明顯,使得網(wǎng)絡(luò)難以訓(xùn)練。為了緩解這一問題,通過直接映射的方式將淺層特征與深層特征連接,使得反向傳播的梯度信號(hào)可以直接傳遞到淺層中。文獻(xiàn)[14]提出一種密集連接結(jié)構(gòu)的密集塊(Dense Block)。該結(jié)構(gòu)的示意圖如圖1所示。在密集塊中,第層的輸入是之前所有的特征層:
=([,,,…,-1])
(1)
式中,[,,,…,-1]表示第0層至第-1層特征在通道維度上的連接,(·)表示批歸一化、激活函數(shù)ReLU和卷積運(yùn)算。這種密集的連接方式使得每一層都能夠直接獲取輸入信號(hào)和損失函數(shù)的梯度,從而實(shí)現(xiàn)深度監(jiān)督。這種深度監(jiān)督是從零開始深度學(xué)習(xí)的關(guān)鍵。

圖1 密集塊結(jié)構(gòu)示意圖
本文在現(xiàn)有從零開始深度學(xué)習(xí)研究成果的基礎(chǔ)上,借鑒DSOD網(wǎng)絡(luò)的設(shè)計(jì)思想,設(shè)計(jì)了用于動(dòng)目標(biāo)陰影檢測(cè)的深度網(wǎng)絡(luò)。網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示,主要包含3個(gè)模塊。第一個(gè)模塊由3個(gè)3×3卷積層和1個(gè)2×2最大池化層組成,用于提取SAR圖像的低級(jí)特征。這種小尺度卷積級(jí)聯(lián)的連接方式有效降低了輸入圖像的信息損失。第二個(gè)模塊主要由密集塊組成。密集塊能夠充分利用各特征層的信息,每一層都可以在原有特征層的基礎(chǔ)上添加新的特征,使模型的參數(shù)量大大降低。密集塊間的連接有兩種形式。第一種連接方式由1×1卷積層和2×2的最大池化層組成。這種連接方式的目的是對(duì)特征圖降采樣。神經(jīng)網(wǎng)絡(luò)中淺層的感受野較小,但包含了豐富的圖像信息,有利于小目標(biāo)的檢測(cè)。隨著網(wǎng)絡(luò)層數(shù)的加深,感受野逐漸變大,特征圖的尺度也越來越小。為了防止動(dòng)目標(biāo)陰影特征丟失,需要增加深層特征的通道數(shù)量。另一種連接方式只包括了1個(gè)1×1卷積層。由于特征圖尺度過小不利于動(dòng)目標(biāo)陰影的檢測(cè),為了在不改變特征圖尺度的情況下增加網(wǎng)絡(luò)深度,使用了1×1卷積層連接相鄰的密集塊。第三個(gè)模塊為特征學(xué)習(xí)與復(fù)用模塊,其結(jié)構(gòu)如圖3所示。在此模塊中,一半特征是通過兩個(gè)卷積從上一層特征學(xué)習(xí)而來,其中1×1卷積用于對(duì)輸入降維,降低后續(xù)學(xué)習(xí)的計(jì)算量。而另一半特征是直接對(duì)上一層特征下采樣得到的。下采樣由2×2的最大池化層和1×1卷積層完成,其中池化操作用于對(duì)特征下采樣,保證不同尺度特征連接時(shí)大小匹配。因此特征學(xué)習(xí)與復(fù)用能夠在預(yù)測(cè)時(shí)融合多尺度特征,提高了檢測(cè)的準(zhǔn)確率。網(wǎng)絡(luò)具體的參數(shù)如表1所示。

圖2 動(dòng)目標(biāo)陰影檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

表1 動(dòng)目標(biāo)陰影檢測(cè)網(wǎng)絡(luò)參數(shù)
檢測(cè)時(shí)沿用文獻(xiàn)[17]提出的多尺度預(yù)測(cè)算法,本文共使用了4個(gè)不同尺度的特征層,每個(gè)特征層設(shè)置了5種不同長(zhǎng)寬比的先驗(yàn)框,分別為{1, 2, 3, 1/2, 1/3},其中長(zhǎng)寬比為1的先驗(yàn)框設(shè)置了兩種尺寸。

圖3 特征學(xué)習(xí)與復(fù)用模塊結(jié)構(gòu)示意圖
基于深度學(xué)習(xí)的單幀檢測(cè)方法仍然存在一定的缺陷。由于SAR圖像的特征簡(jiǎn)單,場(chǎng)景中與動(dòng)目標(biāo)陰影特征相似的弱散射區(qū)域易被誤判為動(dòng)目標(biāo),造成不必要的虛警。另一方面,由于目標(biāo)的運(yùn)動(dòng),陰影區(qū)域的形狀和灰度是時(shí)變的,這導(dǎo)致了檢測(cè)中的漏警。考慮到相鄰幀間動(dòng)目標(biāo)陰影的位置具有較強(qiáng)的相關(guān)性,本文提出了一種多運(yùn)動(dòng)目標(biāo)陰影跟蹤算法。該方法通過卡爾曼濾波和逐幀數(shù)據(jù)關(guān)聯(lián)算法跟蹤動(dòng)目標(biāo)陰影,有效地提高了檢測(cè)性能。
首先,采用線性勻速模型對(duì)動(dòng)目標(biāo)陰影的運(yùn)動(dòng)建模,單個(gè)動(dòng)目標(biāo)的運(yùn)動(dòng)狀態(tài)由以下八維狀態(tài)空間描述:

(2)
式中,和表示動(dòng)目標(biāo)中心的橫縱坐標(biāo),和分別表示動(dòng)目標(biāo)的縱橫比和長(zhǎng)度,剩余4個(gè)變量依次表示,,,的變化速率。當(dāng)檢測(cè)結(jié)果與跟蹤關(guān)聯(lián)時(shí),使用坐標(biāo)信息(,,,)更新跟蹤器狀態(tài),相應(yīng)的速度分量通過卡爾曼濾波求解得出。反之,若沒有檢測(cè)相關(guān)聯(lián),通過線性勻速模型預(yù)測(cè)動(dòng)目標(biāo)的運(yùn)動(dòng)狀態(tài)。
在將檢測(cè)結(jié)果分配給現(xiàn)有的跟蹤時(shí),每個(gè)目標(biāo)在當(dāng)前幀的參數(shù)(,,,)通過卡爾曼濾波估計(jì)。然后通過計(jì)算每個(gè)檢測(cè)與現(xiàn)有目標(biāo)估計(jì)參數(shù)的交并比(Intersection-Over-Union, IOU)得到代價(jià)矩陣。在此基礎(chǔ)上,檢測(cè)與跟蹤的關(guān)聯(lián)問題可以通過匈牙利算法(The Hungarian Algorithm)求解。此外,若IOU小于預(yù)設(shè)門限將取消檢測(cè)的分配。
動(dòng)目標(biāo)跟蹤處理的流程圖如圖4所示,整個(gè)跟蹤流程由4個(gè)跟蹤狀態(tài)組成。代表狀態(tài)轉(zhuǎn)換函數(shù)。“試探性跟蹤”為任意目標(biāo)跟蹤的初始狀態(tài)。一旦有目標(biāo)初次被檢測(cè)到,跟蹤器將進(jìn)入“試探性跟蹤狀態(tài)”,同時(shí)利用其坐標(biāo)信息(,,,)進(jìn)行初始化,初始速度設(shè)置為零。當(dāng)跟蹤器被連續(xù)更新三幀時(shí),跟蹤狀態(tài)將轉(zhuǎn)換為“穩(wěn)定跟蹤”。未能連續(xù)三幀與檢測(cè)關(guān)聯(lián)的跟蹤器將被刪除,從而抑制了檢測(cè)中的虛警。如果穩(wěn)定的跟蹤器在連續(xù)的三幀中沒有被更新,跟蹤器的狀態(tài)將轉(zhuǎn)換為“候選跟蹤”。只要有檢測(cè)與候選的跟蹤器關(guān)聯(lián),跟蹤狀態(tài)就返回至“穩(wěn)定跟蹤”。這可以有效防止跟蹤對(duì)象身份的切換。若在幀內(nèi),“候選跟蹤”未能轉(zhuǎn)換為“穩(wěn)定跟蹤”,跟蹤器將被刪除。這種策略能夠限制跟蹤器的數(shù)量,降低長(zhǎng)時(shí)間未更新出現(xiàn)的跟蹤誤差。

圖4 多目標(biāo)跟蹤處理流程圖
本節(jié)利用美國(guó)Sandia國(guó)家實(shí)驗(yàn)室公布的視頻SAR數(shù)據(jù)對(duì)上述理論進(jìn)行驗(yàn)證,場(chǎng)景中沿道路方向運(yùn)動(dòng)的陰影即為待檢測(cè)目標(biāo)。在整個(gè)成像片段中共提取了440幀SAR圖像,其中300幀SAR圖像作為訓(xùn)練集,140幀SAR圖像作為測(cè)試集。為增強(qiáng)模型的泛化性,采用常用的數(shù)據(jù)增強(qiáng)處理如水平翻轉(zhuǎn)、旋轉(zhuǎn)等操作對(duì)原始數(shù)據(jù)集進(jìn)行擴(kuò)充。網(wǎng)絡(luò)訓(xùn)練時(shí),設(shè)置初始學(xué)習(xí)率為0.001,利用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)訓(xùn)練網(wǎng)絡(luò)。為了進(jìn)一步優(yōu)化模型,學(xué)習(xí)率在整個(gè)訓(xùn)練集迭代500次后下降為初始值的0.01倍。上述實(shí)驗(yàn)的硬件平臺(tái)為Intel i9-10900X和NVIIA TITAN RTX 24G。
學(xué)習(xí)率和損失函數(shù)曲線如圖5所示,其中紅色曲線表示訓(xùn)練過程損失函數(shù)的變化,藍(lán)色曲線表示學(xué)習(xí)率。模型在訓(xùn)練8 000步后收斂。

圖5 網(wǎng)絡(luò)模型訓(xùn)練過程
圖6為基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)目標(biāo)檢測(cè)結(jié)果。圖6(a)中正確檢測(cè)到的動(dòng)目標(biāo)陰影用紅色矩形框標(biāo)記,漏檢的動(dòng)目標(biāo)陰影用綠色矩形框標(biāo)記。而在圖6(b)中,檢測(cè)結(jié)果存在一個(gè)由弱散射區(qū)域引起的虛警。可以看出,基于深度學(xué)習(xí)的檢測(cè)算法能夠檢測(cè)到大部分的動(dòng)目標(biāo),但檢測(cè)結(jié)果仍存在部分漏警和虛警。為了進(jìn)一步分析本文方法的有效性,表2比較了本文檢測(cè)算法與SSD,F(xiàn)aster R-CNN和YOLO在測(cè)試集上的表現(xiàn)。TP表示正確檢測(cè)目標(biāo)的個(gè)數(shù),F(xiàn)P表示虛警個(gè)數(shù),F(xiàn)N表示漏警個(gè)數(shù)。由于ViSAR圖像中動(dòng)目標(biāo)陰影的尺寸過小,在光學(xué)圖像上廣泛應(yīng)用的模型SSD和YOLO并不能取得較為滿意的檢測(cè)結(jié)果。盡管Faster R-CNN取得了良好的檢測(cè)概率,但隨之帶來了較高的虛警。圖7給出了不同檢測(cè)方法在兩幀ViSAR圖像上的檢測(cè)結(jié)果。綜合表2和圖7,可以看出與經(jīng)典的深度學(xué)習(xí)檢測(cè)算法相比,本文提出的從零開始深度學(xué)習(xí)的檢測(cè)算法性能更加優(yōu)異。

(a) 檢測(cè)存在漏警 (b) 檢測(cè)存在虛警圖6 基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)目標(biāo)檢測(cè)結(jié)果

表2 檢測(cè)算法對(duì)比

(a) 本文檢測(cè)方法 (b) Faster R-CNN (c) SSD (d) YOLO 圖7 動(dòng)目標(biāo)陰影檢測(cè)方法對(duì)比
對(duì)動(dòng)目標(biāo)陰影進(jìn)行跟蹤時(shí),算法中的參數(shù)與分別設(shè)置為0.3和40。為了評(píng)價(jià)跟蹤算法的性能,在本文檢測(cè)算法的基礎(chǔ)上,將提出的多目標(biāo)跟蹤算法與Deepsort、TBD進(jìn)行了比較,如圖8所示。從圖中可知,多目標(biāo)跟蹤算法能夠提升檢測(cè)性能。但TBD中出現(xiàn)了較多的漏警,提升效果較差。Deepsort設(shè)置的跟蹤器活動(dòng)時(shí)間過長(zhǎng),一旦有目標(biāo)的跟蹤狀態(tài)出現(xiàn)變換,容易出現(xiàn)多個(gè)跟蹤器跟蹤同一個(gè)目標(biāo),造成不必要的虛警。進(jìn)一步地,表3對(duì)跟蹤性能進(jìn)行了定量的分析。表3中Frag表示在跟蹤過程中出現(xiàn)中斷而形成的軌跡片段的數(shù)量。IDSW表示目標(biāo)被正確跟蹤時(shí)跟蹤序號(hào)的變化次數(shù)。FP與FN的定義與表2相同。Frag與IDSW越小表示跟蹤性能越優(yōu)異。MOTA表示多目標(biāo)跟蹤的準(zhǔn)確度,其定義如下:

(3)
式中,表示真實(shí)動(dòng)目標(biāo)的總數(shù)量。MOTA越高,跟蹤性能越好。從表中可知,TBD的漏警較高,因而跟蹤到的片段較少,F(xiàn)rag的值較低。由于TBD對(duì)檢測(cè)質(zhì)量要求過高,在ViSAR圖像上跟蹤不準(zhǔn)確,跟蹤過程中虛警個(gè)數(shù)反而上升。Deepsort將目標(biāo)的運(yùn)動(dòng)信息與圖像深度特征結(jié)合用于多目標(biāo)跟蹤,在光學(xué)圖像處理中取得了優(yōu)異的跟蹤效果。與SAR圖像相比,光學(xué)圖像有著豐富的特征,如色彩、紋理、邊緣等,圖像信息能夠改善跟蹤效果。而SAR圖像中動(dòng)目標(biāo)陰影是由雷達(dá)回波能量空白造成的,圖像特征并不復(fù)雜。而且SAR圖像場(chǎng)景較大,在圖像中動(dòng)目標(biāo)間的距離較近。引入圖像信息可能會(huì)使目標(biāo)的跟蹤狀態(tài)混亂,導(dǎo)致效果變差。本文跟蹤算法中的漏警主要是由三幀確定跟蹤的策略引起的,當(dāng)一個(gè)新目標(biāo)進(jìn)入場(chǎng)景,需要使用前兩幀的檢測(cè)結(jié)果確認(rèn)跟蹤。對(duì)比可知,本文提出的算法在跟蹤動(dòng)目標(biāo)陰影時(shí)更加有效,采用本文跟蹤算法后,檢測(cè)性能有了顯著的提升。

(a) 真值圖 (b) 本文跟蹤方法 (c) TBD (d) Deepsort 圖8 動(dòng)目標(biāo)陰影跟蹤方法對(duì)比

表3 跟蹤性能比較
本文提出了一種基于深度學(xué)習(xí)與多目標(biāo)跟蹤算法的ViSAR多運(yùn)動(dòng)目標(biāo)陰影檢測(cè)方法,該方法首先采用一種從零開始深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)動(dòng)目標(biāo)陰影的初步檢測(cè),然后利用一種基于卡爾曼濾波和幀間數(shù)據(jù)關(guān)聯(lián)的多目標(biāo)跟蹤算法對(duì)動(dòng)目標(biāo)陰影進(jìn)行跟蹤,從而提高了檢測(cè)的性能。ViSAR實(shí)測(cè)數(shù)據(jù)處理結(jié)果驗(yàn)證了本文方法的有效性。