田棟,劉坤,郝博
(1.中國船舶重工集團(tuán)有限公司 第七一七研究所,湖北 武漢 430223;2.湖北工業(yè)大學(xué),湖北 武漢 430000)
紅外視頻包含大量背景雜波和空氣流動(dòng)等引起的噪點(diǎn),因此從遠(yuǎn)距離檢測紅外小目標(biāo)具有一定難度。目前,紅外圖像的小目標(biāo)檢測已成為視覺檢測領(lǐng)域的研究熱點(diǎn)。文獻(xiàn)[1]利用局部對(duì)比度檢測紅外小目標(biāo)的方法耗時(shí)且有時(shí)會(huì)增強(qiáng)目標(biāo)和雜波。為了提高性能,文獻(xiàn)[2]引入了多尺度對(duì)比度度量方法。文獻(xiàn)[3-4]引入紅外拼接圖像模型,將小目標(biāo)檢測轉(zhuǎn)化為優(yōu)化問題,通過非凸秩近似最小化可改進(jìn)模型的性能。
此外,不少研究者提出了一些使用深度學(xué)習(xí)算法(you only look once, YOLO)對(duì)短距離紅外視頻中的較大物體進(jìn)行目標(biāo)檢測和分類的方案。由于YOLO算法使用紋理信息來幫助檢測,所以對(duì)于目標(biāo)太小而沒有任何可識(shí)別紋理遠(yuǎn)程視頻的處理效果不夠理想。
針對(duì)以上問題,本文提出了一種提高遠(yuǎn)程紅外視頻中小目標(biāo)檢測性能的綜合方法。該方法由幾個(gè)部分構(gòu)成:首先,利用成熟的視頻超分辨率增強(qiáng)算法來提高視頻的空間分辨率。通過比較3種算法,證明了其中一種方法可提高目標(biāo)檢測性能。其次,引入了低強(qiáng)度與梯度(low intensity and gradient,LIG)目標(biāo)檢測方法,LIG算法表現(xiàn)出了良好的性能和計(jì)算速度[5],并且引入連通分量分析與擴(kuò)張方法,從而降低了誤檢。最后,為了進(jìn)一步提高整體檢測性能,在本文的框架中加入了簡單在線和實(shí)時(shí)跟蹤(simple online and realtime tracking, SORT)目標(biāo)關(guān)聯(lián)算法,進(jìn)一步增強(qiáng)了目標(biāo)檢測性能。
本文提出的方法由幾個(gè)部分構(gòu)成。由于遠(yuǎn)程視頻的分辨率較低,本文首先應(yīng)用視頻超分辨率算法來提高視頻分辨率。目的是研究視頻超分辨率可以獲得多少性能增益。其次,對(duì)單幀圖像應(yīng)用低強(qiáng)度梯度(LIG)算法進(jìn)行無監(jiān)督小目標(biāo)檢測。然后,針對(duì)LIG檢測結(jié)果可能出現(xiàn)的假陽性結(jié)果,采用連通分量分析將相鄰像素分組成簇。最后,提出了一種快速的目標(biāo)關(guān)聯(lián)算法,稱為簡單在線和實(shí)時(shí)跟蹤(SORT)[6],以進(jìn)一步提高檢測結(jié)果,基本原理圖如圖1所示。

圖1 基本原理流程圖
由于遠(yuǎn)距離視頻中的目標(biāo)過小,提高視頻分辨率有助于提高目標(biāo)檢測性能,因此本研究中為了提高小目標(biāo)檢測精度,將通過3種視頻超分辨率算法對(duì)原始視頻進(jìn)行分辨率提升,即雙三次插值、動(dòng)態(tài)上采樣濾波和超分辨率變焦慢動(dòng)作算法。
1)雙三次插值(bicubic interpolation):該算法是一種單幀超分辨率方法,對(duì)原始幀中的像素使用16個(gè)相鄰像素進(jìn)行插值[7-8]。
2)視頻超分辨率的動(dòng)態(tài)上采樣濾波(dynamic upsampling filter, DUF)算法:該算法能夠結(jié)合時(shí)間信息生成高分辨率幀圖像。例如,為了生成單個(gè)的超分辨率幀,VSR-DUF使用當(dāng)前幀之前和之后的幀,通過相關(guān)幀來提取信息,可獲得更好的效果[9-10]。
3)視頻超分辨率變焦慢動(dòng)作(zoom slow-motion, ZSM)算法:該算法是一種最新的深度學(xué)習(xí)視頻超分辨率方法,不僅提高了視頻中幀的分辨率,還提高了輸入視頻的幀速率[11-13]。
文獻(xiàn)[14-17]通過對(duì)各種超分辨率方法的視覺性能比較分析后得出,ZSM方法比雙三次方插值法和DUF的結(jié)果更好。
本文針對(duì)紅外圖像提出一種基于局部強(qiáng)度梯度算法(LIG)的目標(biāo)檢測方法。LIG算法比其他算法的速度快,且對(duì)背景雜波處理具有良好的魯棒性。該算法使用滑動(dòng)窗口掃描輸入圖像,窗口大小取決于輸入圖像的分辨率。對(duì)于每個(gè)窗口,分別計(jì)算局部強(qiáng)度和梯度值,然后將這些值相乘得到強(qiáng)度梯度圖,并使用自適應(yīng)閾值分割算法,以二值化圖像展示處理效果。
LIG算法主要步驟如下。

(1)
式中:f0為中心像素的值;Nm為圖像區(qū)域內(nèi)的像素?cái)?shù)量。
2)計(jì)算局部強(qiáng)度值I:
(2)
3)計(jì)算區(qū)域內(nèi)的各處梯度值Gi:
(3)

4)計(jì)算區(qū)域內(nèi)的梯度值G:
(4)
式中k為經(jīng)驗(yàn)閾值參數(shù)。
本文對(duì)LIG算法進(jìn)行了優(yōu)化,使其更適合紅外視頻:對(duì)不同分辨率的幀使用不同的窗口大小,對(duì)于原始分辨率的幀圖像使用7×7窗口;對(duì)于2倍分辨率的上采樣幀,為了兼顧識(shí)別精度和計(jì)算效率,采用19×19的更大窗口。其次,為了降低誤報(bào),對(duì)LIG方法的非零像素平均值進(jìn)行改進(jìn),使用像素強(qiáng)度最大的前0.01%像素的平均值作為適應(yīng)性閾值,更高的閾值可有效消除虛假目標(biāo)。
閾值處理后,對(duì)分割的二值化圖像執(zhí)行連通區(qū)域分析(connected component analysis),連通區(qū)域是相同像素值的相鄰像素組成的集合。本文采用兩次遍歷(Two-Pass)算法:第一遍掃描時(shí)賦予每個(gè)像素位置一個(gè)標(biāo)簽,掃描過程中同一個(gè)連通區(qū)域內(nèi)的像素集合中可能會(huì)被賦予一個(gè)或多個(gè)不同標(biāo)簽,因此需要將這些屬于同一個(gè)連通區(qū)域但具有不同值的標(biāo)簽合并,記錄它們之間的相等關(guān)系;第二遍掃描就是將具有相等關(guān)系標(biāo)記的像素歸為一個(gè)連通區(qū)域,并賦予一個(gè)相同的標(biāo)簽,完成連通區(qū)域分析。
文中為了找到幀間移動(dòng)像素,需先對(duì)二值化圖像進(jìn)行擴(kuò)張,將目標(biāo)附近的像素合并在一起。此外,連通區(qū)域被饋送到“規(guī)則分析”塊,檢查確定連通區(qū)域是否為有效檢測,包括檢查面積大小是否合理,并比較連通區(qū)域之間的最大像素強(qiáng)度。如果面積在1~100像素間則有效。最終從剩余的連通區(qū)域中,選擇信號(hào)最強(qiáng)像素區(qū)域作為目標(biāo)。
本文使用一種快速的目標(biāo)關(guān)聯(lián)算法,稱為簡單在線和實(shí)時(shí)跟蹤算法SORT,對(duì)目標(biāo)進(jìn)行跟蹤關(guān)聯(lián)。SORT算法主要是面向在線和實(shí)時(shí)應(yīng)用,其只需使用最基礎(chǔ)的卡爾曼過濾器和匈牙利算法,便可以達(dá)到相當(dāng)?shù)木取ORT算法通過運(yùn)動(dòng)信息與過去幀記憶將目標(biāo)從一幀關(guān)聯(lián)到另一幀,其原理流程如圖2所示。

圖2 SORT算法原理流程圖
SORT算法對(duì)幀內(nèi)每個(gè)檢測到的對(duì)象建模如下:
(5)
式中:u和v分別表示對(duì)象中心的水平和垂直像素位置;s和r分別表示對(duì)象的尺寸和比例。然后跨幀比較這些對(duì)象狀態(tài),以確定此狀態(tài)是否與先前狀態(tài)相關(guān)。
實(shí)驗(yàn)測試選用的SENSIAC數(shù)據(jù)集中包含白天和夜間的4個(gè)遠(yuǎn)距離紅外視頻,距離跨度為1 000~5 000 m,增量為500 m。本文測試數(shù)據(jù)中選擇了3 500 m、4 000 m、4 500 m和5 000 m的4個(gè)視頻。圖3-圖6顯示了各視頻不同場景的幀圖像,可以看出視頻中的車輛(小亮點(diǎn))較小且很難發(fā)現(xiàn)。

圖3 3 500 m視頻場景及第900幀圖像

圖4 4 000 m視頻場景及第900幀圖像

圖5 4 500 m視頻場景及第900幀圖像

圖6 5 000 m視頻場景及第900幀圖像
本研究中設(shè)定,如果二值化結(jié)果在地面真實(shí)邊界框質(zhì)心的給定閾值(本研究中設(shè)為2個(gè)像素)內(nèi),則檢測為真(TP),否則為假(FP)。基于正確的檢測和誤報(bào)計(jì)數(shù)(missed detections, MD),可計(jì)算準(zhǔn)確率P、召回率R及準(zhǔn)確率和精確率的調(diào)及平均值F1,定義分別為:
(6)
(7)
(8)
結(jié)合ZSM和LIG算法的處理流程如圖7所示,其沒有使用SORT算法,連通區(qū)域分析包括幾個(gè)步驟:首先,用自適應(yīng)閾值對(duì)LIG圖進(jìn)行二值化,即低于閾值的區(qū)域?yàn)?,高于閾值的區(qū)域?yàn)?。然后,對(duì)獲得的二值化圖像進(jìn)行擴(kuò)張?zhí)幚恚瑪U(kuò)張運(yùn)算所使用的結(jié)構(gòu)元素是正方形,其大小取決于圖像的分辨率。在原始比例下,使用長度為5的正方形,對(duì)于高分辨率視頻,為了兼顧檢測精度和計(jì)算效率,使用長度為10的正方形。

圖7 結(jié)合ZSM和LIG的工作流程圖
本研究中,使用了DUF和ZSM的預(yù)訓(xùn)練模型。ZSM是在大型Vimeo-Septuplet數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集包括Vimeo上各種視頻中約90 000個(gè)短視頻文件,每個(gè)視頻文件包括7幀圖片序列。采用ZSM算法的結(jié)果如表1所示。
從表1可知,ZSM在準(zhǔn)確率和召回率方面都屬于最優(yōu)或并列最優(yōu)。在4 000 m的情況下,就使用超分辨率圖像實(shí)現(xiàn)高性能而言,ZSM×2和ZSM×4的表現(xiàn)都略好于所有其他算法。對(duì)于4 500 m、5 000 m遠(yuǎn)距離而言,雙三次×2和DUF×2算法已表現(xiàn)出了較好的效果,因此ZSM算法沒有太大的改進(jìn)空間,但是其效果仍然可以與性能最好的方法相比。雖然ZSM算法結(jié)果比原始分辨率的視頻有所提高,但F1值提高并不顯著。因此,在實(shí)際的目標(biāo)檢測應(yīng)用中,VSR方法的效果增益是有限的。

表1 采用ZSM算法對(duì)不同分辨率的視頻進(jìn)行檢測的的性能
本節(jié)研究使用SORT算法后對(duì)整體檢測性能的影響,圖8為完整流程。結(jié)果表明,使用ZSM算法的超解析處理提高了檢測性能,但效果有限,因此,本文不采用超解析處理過程。

圖8 結(jié)合LIG、CC和SORT的工作流程圖
在實(shí)驗(yàn)中,SORT算法是在連通區(qū)域分析步驟之后實(shí)現(xiàn)的。每個(gè)連通區(qū)域的邊界框信息作為輸入,然后使用SORT算法關(guān)聯(lián)跨幀的邊界框。由于在工作流程的早期階段檢測率相對(duì)較高,跟蹤關(guān)聯(lián)將有助于消除大多數(shù)誤報(bào)。表2的測試結(jié)果證明,在3 500 m視頻的300幀中,SORT算法消除了所有的誤報(bào),同時(shí)在其他距離視頻中的效果也有所提高,可見,SORT算法有助于進(jìn)一步區(qū)分背景異常目標(biāo)和實(shí)際目標(biāo)。

表2 SORT算法目標(biāo)檢測性能對(duì)比
由于本文使用LIG算法,因此導(dǎo)致計(jì)算速度較慢,即使使用LIG Parallel并行計(jì)算,處理一幀也需要大約75 s左右,如表3所示。

表3 建議的目標(biāo)檢測框架計(jì)算時(shí)間
對(duì)比有、無SORT算法的處理流程的結(jié)果如圖9-圖12所示。可以看出,在某些幀中,采用SORT算法有助于消除誤報(bào)。

圖9 3 500 m距離視頻對(duì)比

圖10 4 000 m距離視頻對(duì)比

圖11 4 500 m距離視頻對(duì)比

圖12 5 000 m距離視頻對(duì)比
本研究主要針對(duì)遠(yuǎn)程紅外視頻中的小目標(biāo)檢測,結(jié)論如下。
1)提出了一個(gè)集成的、靈活的、模塊化的框架,包括視頻超分辨率、小目標(biāo)檢測、連通域分析和目標(biāo)軌跡關(guān)聯(lián)。
2)所提出的無監(jiān)督目標(biāo)檢測方法對(duì)于目標(biāo)尺寸非常小的遠(yuǎn)距離視頻(3 500 m及以上)具有良好的檢測能力。
3)使用了SORT算法后,通過對(duì)3 500 m~5 000 m遠(yuǎn)距離視頻數(shù)據(jù)集的測試,證明了所提檢測框架的有效性。