楊其利,周炳紅,鄭 偉,李明濤
(1.中國科學院 國家空間科學中心,北京 100190;2.中國科學院大學,北京 100049)
紅外弱小目標檢測和跟蹤是紅外導引的一項關鍵技術,在小天體探測、導彈制導和戰場偵察等航空航天領域具有重要意義。
由于紅外弱小目標探測距離遠,目標的成像尺寸非常小,在成像平面上僅僅占幾十甚至幾個像素,極大地增加了弱小目標檢測的難度,主要體現在:目標信號弱,無目標紋理、形狀、尺寸等特征信息;目標運動速度快,機動性強,難以獲得速度、方向等信息;背景灰度分布不均勻以及隨機噪聲和高亮度背景的干擾等都增加了弱小目標檢測的難度。
中值濾波方法是一種經典的用于圖像處理的非線性空間域濾波方法,Deshpand 等人[1]提出的最大中值濾波器,通過將紅外圖像與濾波圖像差分運算,既能夠有效抑制圖像上起伏的背景信息,又能夠抑制景象邊緣紋理信息,但是這種方法只對高信噪比的小目標有較好的處理效果。Top-Hat[2]是一種實用的非線性背景估計方法,它對弱小目標的檢測效果取決于結構元素的尺寸和形狀,但遠距離成像條件下無法獲知小目標的先驗信息,不能選取統一的結構元素。
基于頻率域的弱小目標檢測方法通過傅里葉變換將圖像從空間域轉換到頻率域上,然后使用高通濾波器對其進行濾波操作,最后進行傅里葉逆變換得到預測圖像。Yang 等人[3]將點目標作為圖像的高頻成分,提出了一種自適應巴特沃斯高通濾波器(Butterworth high pass filter,BHPF)。Hilliard 等人[4]使用低通IIR(infinite impulse response,IIR)濾波器來預測雜波,該濾波器適用于多目標情況。Reed 等人[5]在已知速度、背景雜波和噪聲的情況下,利用頻域最優三維線性匹配濾波技術檢測圖像序列中的運動點目標。
近年來,基于人類視覺系統(human visual system,HVS)的弱小目標檢測方法主要是通過在局部區域中構造一個包含內部窗口和外部窗口的嵌套結構,用于計算內部窗口與外部窗口的對比度,增強局部的目標特征。弱小目標的檢測是通過在整副圖像上逐像素滑動嵌套結構得到預測圖像,最后使用自適應閾值分割方法來實現的。Wei 等人[6]提出了一種基于多尺度局部對比度測量(multiscale patch-based contrast measure,MPCM)方法,MPCM方法考慮目標邊緣和云邊緣的分布差異,利用對角線方向上的最小乘積作為最終增強結果,該方法能夠同時增強亮目標和暗目標,在云邊緣去除方面取得了很好的效果,但在復雜背景和強雜波干擾下其檢測性能會下降。Deng 等人[7]提出多尺度絕對灰度均差(multiscale average absolute gray difference,MS-AAGD)法,它使用局部平均法抑制背景噪聲,通過局部對比度增強目標區域。該算法計算復雜度較低,適合實時處理圖像,但是當場景中包含高強度邊緣和結構背景比較混亂時,非目標區域也得到增強。Kim 等人[8]利用高斯拉普拉斯算子(Laplacian of Gaussion,LoG)提出了一種同時增強目標和抑制背景的弱小目標檢測算法,該方法關注于抑制低頻雜波,雖然能夠檢測到低對比度的小目標,但濾波器的二階導數部分會增強背景噪聲,不能濾除高頻成分的強雜波。沈等人[9]在視覺注意機制的基礎上,提出了一種結合尺度自適應的局部對比度測量的紅外弱小目標檢測方法,該方法能夠在增強目標對比度的同時抑制背景雜波,但對于復雜云層下的目標無法有效檢測。
對于復雜環境下的弱小目標檢測結果容易出現大量虛警的問題,表明這些傳統算法手工提取的特征不夠充分,而深度學習算法擁有著強大的特征提取和信息抽象能力。深度學習應用于紅外圖像弱小目標檢測的難度在于目標微小,缺乏輪廓特征信息,這對目標檢測網絡的設計帶來了非常大的困難,且目標所處的背景多樣性和復雜性,以及目標自身灰度、大小的起伏變化也加大了檢測難度。
受傳統的基于HVS 弱小目標檢測算法中使用滑動嵌套窗口的啟發,本章提出了采用滑動窗口取樣訓練的全卷積神經網絡(fully convolutoional neural network,F-CNN),此外,它使用了恒等映射以及遞歸卷積層,在不增加額外參數的情況下,擴展了模型的網絡深度,其并行卷積結構的多分支網絡還能模擬傳統算法的多尺度表達,本文還設計了多種損失函數的組合用于解決正負樣本嚴重不平衡的問題。
由于紅外弱小目標形狀微小,所占像素數不足80個像元,對于256×256的成像平面,它僅占圖像的0.122%,使得一張圖像中正樣本和負樣本像素嚴重失衡,極大增加了網絡訓練的難度。為了改善這一情況,本文采用滑動窗口取樣訓練的方式,這種做法源自基于人類視覺特性傳統弱小目標檢測算法的滑動嵌套結構思想,滑動步長設置為略小于取樣窗口大小,避免被窗口邊界切割造成目標邊緣信息丟失,圖1展示了本文滑動取樣窗口的示意圖。
通過對取樣窗口大小的選擇,可以控制網絡對整副圖像的搜索次數,其計算公式為:

式中:W、H分別表示為紅外圖像的寬和高;S表示取樣窗口大小;stride為搜索步長。本文選擇了尺寸為48×48的取樣窗口,步長設為47,因此對于尺寸為256×256的紅外圖像,需要的搜索次數為25次,遠小于逐像素遍歷需要的65536次,在檢測效率上提高了約2621倍。

圖1 滑動窗口為3,滑動步長為2的取樣窗口示意圖Fig.1 The illustration of sampling window with size 3 and sliding step with 2
從理論上講,非常深的網絡可以學習許多不同抽象層次的特征。在深度殘差神經網絡模型(deep residual network,ResNet)[10]中,通過跳躍連接,模型可以從某一層獲取激活輸出,然后迅速反饋給另外一層。ResNet的主要思想是使用殘差學習來簡化深層網絡的訓練,作者認為這些網絡層通過殘差映射可以更容易優化模型。
殘差神經網絡是由殘差塊構建的,在圖2中,左側的圖像顯示了通過網絡的“主路徑”[10]。右側的圖像為主路徑添加了跳躍連接快捷方式。通過將這些殘差塊堆疊在一起,可以形成一個非常深的網絡。將輸入表示為x,基本殘差單元表示為:


式中:W1和W2分別為兩個卷積層的權重參數。通過堆疊這些結構,構建一個152層的網絡,ResNet在ILSVRC 2015 分類競賽中獲得第一名。
深度遞歸卷積網絡(deeply recursive convolutional network,DRCN)[11]的作者認為,增加更多的權重層會引入更多的參數,這些參數會導致模型過擬合。為了解決這個問題,他首次提出了遞歸模塊,并在網絡中添加了16個遞歸層,每個遞歸層使用相同的卷積參數,這樣模型在遞歸層中執行卷積操作時就不會額外增加參數。

圖2 普通網絡(左)和殘差塊網絡[10](右)Fig.2 Left:general network,Right:residual network[10]
對于具有D個遞歸層的遞歸模塊,我們對所有卷積操作使用相同的權重W和偏值參數b。遞歸模塊的展開結構如圖3所示,定義g為遞歸模塊中單個遞歸層的卷積函數,H為遞歸層的輸入。

第d個遞歸層的遞歸模塊輸出為:

式中:gd表示函數的d次迭代。
F-CNN是一種全卷積網絡,用于檢測紅外圖像中的暗弱小目標,它可以將網絡自主提取的特征轉換為絕大部分激活值為0的稀疏特征映射。網絡的輸入圖像尺寸為48×48,F-CNN的結構如圖4所示,它由特征提取模塊、遞歸模塊和重建模塊組成。適當縮小卷積核尺寸同時增加卷積核數量,有助于網絡穩定,減少參數數量,也能夠提取足夠多的特征。因此本文所有卷積層參數設置為:卷積核大小f。卷積操作的步長s=1和零填充p=1,網絡各層的參數設置如表1所示,定義f1,f2,f3分別為特征提取模塊、遞歸模塊、重建模塊的函數。
特征提取模塊:它由5個卷積步長為1,卷積核大小為3的卷積層組成。網絡結構采用多個級聯的小濾波器,用于提取足夠多的圖像特征。式中,x為尺寸為48×48的輸入圖像,Wi,bi,(i=1,2,…,5)分別為各層卷積核參數。

圖3 遞歸模塊的展開結構,相同卷積參數應用不同遞歸層Fig.3 Unfolding recursive module,the same filter W is applied to feature maps recursively

圖4 F-CNN 網絡結構圖Fig.4 An illustration of the F-CNN architecture


表1 本文使用的F-CNN 網絡結構Table1 F-CNN architecture for semantic segmentation
遞歸模塊:如圖4所示,它由4層遞歸卷積層組成,每個卷積層使用同一組網絡層的卷積參數,為了解決梯度和最優遞歸問題,本文利用殘差網絡的跳躍連接,將特征提取模塊中的第1、3層卷積層分別連接到遞歸模塊中的第1、3層遞歸層,對這兩層遞歸層進行信息監督,以減輕梯度消失或爆炸的影響。在遞歸模塊的所有遞歸卷積層中,由于共享一個網絡層的卷積參數,只需要訓練遞歸模塊的一組卷積核參數W,b,就可以加速模型的收斂。

重建模塊:它是一種并行卷積結構,用于加權不同深度網絡層的抽象特征,并輸出預測結果。本文將遞歸模塊中所有遞歸層的層間輸出作為重建模塊并行卷積結構不同分支的輸入。在重建模塊中,并行卷積結構有4個分支網絡,所有網絡分支共同使用同一組網絡分支參數,其參數設置如表1所示,每個分支經過4層卷積操作,由于不同分支的信息輸入來自不同網絡深度遞歸層的輸出,使得圖像的感知野不同,這意味著并行卷積結構的不同分支相當于多尺度表達。

式中:d=1,2,3,4。之后將卷積操作得到的特征圖在深度方向進行權重wd加權平均,這個參數是在網絡訓練中得到的。網絡的預測結果為:

基于像素點的交叉熵損失函數是一種語義分割問題中最常用的損失函數。這種損失函數單獨檢查每個像素,其數學表達式為:

式中:y是真實樣本的標簽,是重建模塊的預測結果(數值在0~1之間)。為了減少易分類樣本的貢獻,使網絡更關注難分類樣本,本文引入了Focal函數(FL),它是在交叉熵損失函數中加入調制系數能夠控制易分類樣本和難分類樣本的權重,讓模型更關注于困難的、錯分的樣本,并引入一個平衡因子α,用來平衡正負樣本的數量比例不均勻。

式中:α=0.25,γ=2。為了解決弱小目標所在圖像中正負樣本比例嚴重失衡的問題,使目標輪廓被精確定位,本文引入Dice 系數差異函數用于衡量實際小目標和預測小目標輪廓區域的相似程度,這種損失函數可以使弱小目標輪廓部分的正樣本正確分類。Dice 系數(DC)是一種基于兩個樣本之間相似度的度量函數,其數學表達式為:



式中:α1、α2表示不同損失函數的權重;β表示網絡參數θ的懲罰因子,“”表示θ的L2 范數。
本實驗使用Google 開源框架Tensorflow 構建F-CNN 模型進行訓練。使用的數據集為仿真的圖像樣本,包括8000 張大小為48×48的訓練圖像,測試樣本來自無人機拍攝的可見光圖像[12]和其他紅外圖像。實驗設置batch為32,初始學習率為0.0001,權重衰減設為0.0001,采用Adam 模型優化,共訓練100個epoch。
由于在復雜云層背景或海平面中摻雜的暗弱目標近似于點,本文將二維高斯強度模型作為目標點添加到背景圖像中。二維高斯模型如下:

式中:(x0,y0)是圖像目標的中心;s(i,j)是目標在圖像位置(i,j)的灰度值。生成目標的強度sE是介于0~1之間的隨機數。σx和σy是高斯分布標準差。利用不同的參數可以產生不同信雜比的弱小目標,本文生成的目標信雜比在2~12之間,訓練樣本如圖5所示。
信雜比增益(the signal-to-clutter ratio gain,SCRG)[13]和背景抑制因子(the background suppression factor,BSF)[14]能夠描述目標增強以及背景抑制的性能,它們是評價最終檢測效果的重要指標,SCRG 定義為:

式中:SCRin和SCRout分別表示原始圖像和預測圖像的信雜比。信雜比(the signal-to-clutter ratio,SCR)定義為:

式中:μt表示目標的平均灰度值;μb表示目標鄰域像素的平均灰度值;σb表示目標周圍像素的標準差。鄰域的大小為(a+2d)×(b+2d),目標的大小為a×b,實驗設置d=15。BSF 定義為:

圖5 弱小目標仿真數據集Fig.5 Simulated dataset of infrared small targets

式中:σI和σO分別表示原始圖像和處理后圖像像素的標準差。通常來講,弱小目標圖像的SCRG和BSF值越高,越容易檢測到目標。
為了測試本文方法檢測弱小目標的性能,在200 張測試圖像中對比了F-CNN、MS-AAGD、LoG和MPCM方法。該測試集來自文獻[12]中3個分辨率為1920×1080的視頻序列,幀速率為30 fps,它們是由安裝在三角翼無人機的GoPro3 攝像機拍攝的。為了獲取有效的測試圖像,我們截取了視頻的部分區域,制作了200 張尺寸為720×540的復雜云背景圖像作為測試集。
圖6展示了不同方法對其中5 張測試圖像的背景抑制結果。第一列圖像是5 張具有代表性的原始圖像,背景復雜多變,每張圖像各有一個小目標,它們都淹沒在厚重的云層中,且目標占有的像素數少,缺少目標形狀結構和紋理信息,弱小目標相應的信雜比和尺寸信息如表2所示。圖6第二列展示了各測試圖像對應的三維灰度分布圖。圖6第3列至第6列分別表示MS-AAGD、LoG、MPCM和本文方法對應的背景抑制圖像。基于MS-AAGD 方法的濾波圖像中,雖然消除了大量的雜波和噪聲殘留,但也檢測出許多虛警的目標,且虛警目標的信號強度接近真實目標強度。基于LoG 方法的濾波圖像展示了明顯的真實目標信號,能夠降低虛警率,但是背景中依然存在大量的噪聲和雜波。基于MPCM的方法要優于MS-AAGD 方法,濾波結果沒有過多的背景邊緣紋理,且接近真實目標強度的虛警目標數量要少于MS-AAGD的方法。本文的方法F-CNN得到的濾波結果顯示,背景噪聲接近為0,無論是虛警目標的數量或者是信號強度,都遠遠低于對比方法。這種方法能夠使背景噪聲得到極大抑制,使目標信號極大增強,實現了目標和背景雜波區分開的理想效果,性能遠遠高于對比方法。

表2 無人機測試圖像的SCR值和目標像素數Table2 The SCR and target size of UAV test images.

圖6 不同檢測方法在5 張測試圖像上的濾波結果,矩形框表示目標,圓圈表示濾波后的噪聲Fig.6 The representative results of different methods on five test images,the rectangles denote the targets and the circles are representative examples of noise
F-CNN 方法之所以能夠實現這種效果,在于遞歸模塊中使用了遞歸卷積結構,這是它將原始圖像中的目標和背景完全區分開的重要一步。同時,重建模塊中繼承了遞歸模塊多個遞歸層的輸出預測,構造成多分支網絡結構,這相當于F-CNN 學習到多個弱小目標背景抑制方法,通過對多個分支的預測結果賦予不同權重,能夠增強真實目標信號的強度,同時對有噪聲雜波的預測賦予較低的權重,能夠極大抑制雜波信號和背景結構紋理。
為了客觀地評價不同方法的背景抑制效果,本文還計算了信雜比增益SCRG和背景抑制因子BSF,如表3所示。結果表明,F-CNN 方法能夠顯著提高圖像的SCR值和BSF值,且此方法在SCR值和BSF值指標均優于或接近對比方法。本文方法能夠有效地抑制各種復雜噪聲背景,并且在濾波結果圖中具有非常少的雜波和噪聲殘留。這些實驗結果證明了我們的方法在增強目標、抑制背景雜波和噪聲方面優異的性能。因此,我們的方法有助于探測嵌入在不同程度云層背景雜波中的弱小目標。
為了進一步驗證本文方法的有效性,對4 張紅外圖像進行對比實驗,除第三張測試圖像中含有兩個紅外目標外,其余圖像均只含有一個目標。如圖7所示,在第一張圖像的濾波結果對比圖中,本文方法提取的目標信號足夠強烈,在背景雜波抑制方面要弱于MPCM方法,但優于其他方法。第二張圖像有一條明顯的海天分割線,對比方法均出現了海天分割線的雜波,且濾波結果存在過多的雜波噪聲,雜波信號強度近似目標信號,而本文方法背景抑制效果要優于對比方法。第三張圖像包含兩個紅外目標和一個燈塔建筑,除MPCM方法外,其他方法均出現了建筑邊緣的濾波噪聲,而MPCM 出現了信號明顯的虛警目標。第四張紅外圖像的濾波結果表明,本文提取的弱小目標信號弱于對比方法,但保持了原始圖像中目標的尺寸和紋理結構信息,而不是對比方法中點目標的濾波結果。本文還計算了4 張紅外圖像的信雜比增益和背景抑制因子,表4 顯示本文方法在客觀指標上要優于或接近對比方法,這為今后的紅外圖像弱小目標檢測任務提供了解決問題的新途徑。

表3 不同方法對圖6第一列測試圖像濾波結果的SCRG和BSF值Table3 The evaluation results of SCRG and BSF of different methods for images in the first column in Fig.6

圖7 不同檢測方法在紅外圖像上的濾波結果,矩形框表示目標,圓圈表示濾波后的噪聲Fig.7 Different methods on infrared images,the rectangles denote the targets and the circles are representative examples of noise

表4 不同方法對圖7中紅外圖像濾波結果的SCRG和BSF值Table4 The evaluation results of SCRG and BSF of different methods for infrared images in Fig.7
傳統的小目標檢測基本處理過程為先進行圖像預處理,然后進行目標增強,最后依靠一定的判決條件檢測目標。本文首次將計算機視覺中語義分割的問題與紅外圖像弱小目標檢測的任務聯系起來,提出了一種基于卷積神經網絡的弱小目標檢測方法F-CNN,這是一種結合殘差結構和遞歸結構使用的全卷積網絡,它使用了滑動窗口的方式取樣訓練,由特征提取模塊、遞歸模塊和重建模塊構成,可以將圖像中的目標從背景雜波中完全分割出來,將真實目標和干擾目標(如云的邊緣)分離。方法還設計使用了多種損失函數的組合,以對抗正負樣本嚴重不平衡的問題。本文還將 F-CNN 方法與MS-AAGD、LoG、MPCM方法在實際場景中進行了檢測效果的對比。實驗表明,本文方法在目標增強、背景抑制方面均優于對比方法。