謝家陽,王行健,史治國,吳均峰,陳積明,陳潛,王濱
(1. 浙江大學(xué) 信息學(xué)部,浙江 杭州 310027; 2. 上海無線電設(shè)備研究所,上海 200090; 3. 杭州海康威視數(shù)字技術(shù)股份有限公司,浙江 杭州 310052)
以多旋翼為主的低空小型無人機(jī)已廣泛應(yīng)用于環(huán)境監(jiān)測、電力巡查、農(nóng)業(yè)植保、影像航拍、攝影測量、5G移動(dòng)基站[1]等工業(yè)、軍事、民用領(lǐng)域,在其市場快速增長的同時(shí),無人機(jī)的“黑飛”與“濫飛”也對個(gè)人隱私及公共安全產(chǎn)生了嚴(yán)重的威脅和挑戰(zhàn)[2]。無人機(jī)防控不僅是城市安全和隱私保護(hù)的問題,更是關(guān)系到國家安全與形象的大事,因此迫切需要研發(fā)一整套完整有效的技術(shù)手段以實(shí)現(xiàn)對低空飛行器的監(jiān)測和防控。
Shi等[3]對反無人機(jī)監(jiān)控手段進(jìn)行詳細(xì)的介紹和對比,反無人機(jī)監(jiān)測主要有雷達(dá)、射頻、音頻及視覺探測4種方式,4種方式各有優(yōu)劣。雷達(dá)探測通過無人機(jī)反射的回波測量無人機(jī)的速度、方位,但雷達(dá)成本高、輻射大、易受地面雜波影響,不適用于城市環(huán)境;射頻探測利用無人機(jī)與遙控器之間的通信或圖傳信號對無人機(jī)進(jìn)行檢測與定位,但射頻天線成本較高,檢測受無人機(jī)通信協(xié)議限制;音頻探測利用麥克風(fēng)陣列對無人機(jī)旋翼發(fā)出的聲音進(jìn)行檢測與定位,但作用距離較短,且易受環(huán)境噪聲和多徑效應(yīng)影響。視覺檢測利用攝像機(jī)獲取監(jiān)控區(qū)域的視頻,利用圖像特征進(jìn)行無人機(jī)檢測與跟蹤。由于視覺監(jiān)測方式成本低、普適性強(qiáng)、檢測距離較遠(yuǎn)且能直觀顯示檢測結(jié)果,已成為反無人機(jī)監(jiān)測領(lǐng)域研究的熱點(diǎn)。
目標(biāo)檢測是計(jì)算機(jī)視覺最基礎(chǔ)的任務(wù)之一,自計(jì)算機(jī)視覺誕生以來,一直是學(xué)術(shù)界研究的重點(diǎn)領(lǐng)域。視覺目標(biāo)檢測算法可分為傳統(tǒng)目標(biāo)檢測算法和深度學(xué)習(xí)目標(biāo)檢測算法。傳統(tǒng)目標(biāo)檢測算法通常使用滑動(dòng)窗口生成大量候選區(qū)域,然后在提取其人工設(shè)計(jì)特征后使用機(jī)器學(xué)習(xí)算法對目標(biāo)進(jìn)行檢測與識別,但這些方法檢測效率低下,且對復(fù)雜背景中形態(tài)多樣、姿態(tài)多變的目標(biāo)檢測效果不佳[4-5]。
隨著圖形處理器(graphics processing unit,GPU)并行計(jì)算技術(shù)的快速發(fā)展與深度學(xué)習(xí)算法的興起,基于深度學(xué)習(xí)的目標(biāo)檢測算法發(fā)展迅速,其主要可以分為一階段和二階段目標(biāo)檢測算法。一階段深度學(xué)習(xí)目標(biāo)檢測將圖像中的所有位置均視作潛在目標(biāo),通過神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生目標(biāo)的類別與位置,檢測速較快,但精度相對于二階段目標(biāo)檢測算法略有不如,代表算法有基于 anchor機(jī)制的YOLO(you only look once)系列算法[6]、SSD(single shot multibox detector)算法[7]和基于特征點(diǎn)的CornerNet[8]、CenterNet[9]。除了基于深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的目標(biāo)檢測算法外,基于Tranformer的目標(biāo)檢測算法也是一階段目標(biāo)檢測算法的重要分支[10]。二階段深度學(xué)習(xí)算法將目標(biāo)檢測劃分為候選區(qū)域生成、候選區(qū)域分類與邊界框調(diào)整兩個(gè)階段,代表算法為RCNN(region-based convolutional neural networks)系列目標(biāo)檢測算法[11]。候選區(qū)域生成的目的在于快速準(zhǔn)確地找出圖像中目標(biāo)可能存在的區(qū)域,除了最暴力的多尺度滑動(dòng)窗口法,研究者們還提出了基于圖像分割的超像素聚類候選區(qū)域生成方法,如基于圖結(jié)構(gòu)的圖像分割算法[12]和選擇性搜索算法[13],此類方法消除規(guī)則網(wǎng)格、固定形狀與尺度對候選區(qū)域的限制。窗口評分候選區(qū)域生成方法如Objectness[14]、Edge-Boxes[15]等是另一類重要候選區(qū)域生成方法,此類算法對每個(gè)滑動(dòng)矩形窗口是否包含物體進(jìn)行評分,并只能返回矩形候選框而非目標(biāo)輪廓,速度相較于超像素聚類方法更快。除非窗口采樣比較密集,窗口評分候選區(qū)域生成法的位置精度都較低。Faster RCNN[16]首次將基于錨框的候選區(qū)域生成網(wǎng)絡(luò)(region proposal network, RPN)引入并將其嵌入到Fast RCNN的檢測網(wǎng)絡(luò)中,實(shí)現(xiàn)了整個(gè)檢測框架端到端的優(yōu)化。如何實(shí)現(xiàn)快速準(zhǔn)確且適用于尺度目標(biāo)檢測的候選區(qū)域生成方法仍是目標(biāo)檢測研究領(lǐng)域的重要研究方向之一。第二階段對候選區(qū)域進(jìn)行分類與邊界框調(diào)整一般通過卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型有AlexNet、VGG Net、GoogleNet、ResNet、MobileNet、Res-NeX和ShuffleNet等[17],為兼顧神經(jīng)網(wǎng)絡(luò)模型的可訓(xùn)練性、推理速度與精度,對于特征任務(wù),現(xiàn)在通常采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的方法以獲取最優(yōu)的網(wǎng)絡(luò)模型[18]。在檢測到無人機(jī)后,需要控制云臺對快速飛行的無人機(jī)進(jìn)行持續(xù)伺服追蹤,使無人機(jī)一直保持在攝像機(jī)的視角中[19]。在云臺伺服追蹤過程中,仍需對視頻中的無人機(jī)進(jìn)行檢測,為云臺的控制算法提供反饋信息。在確認(rèn)視頻圖像中目標(biāo)的類別與位置后,仍持續(xù)地對后續(xù)的每一幀高分辨率圖像進(jìn)行全局檢測是對計(jì)算資源的浪費(fèi),為快速高效地對畫面中位置已知的無人機(jī)進(jìn)行跟蹤,本文采用基于局部搜索的圖像單目標(biāo)跟蹤算法對后續(xù)視頻中的無人機(jī)進(jìn)行跟蹤定位。基于局部檢測的相關(guān)濾波目標(biāo)跟蹤算法是單目標(biāo)跟蹤算法的經(jīng)典方法之一,此類算法利用循環(huán)卷積和快速傅里葉變換高效地訓(xùn)練分類器,并可以快速對局部區(qū)域內(nèi)的跟蹤目標(biāo)進(jìn)行檢測與定位,其代表算法有最小均方誤差和輸出跟蹤算法[20]、核相關(guān)濾波跟蹤算法[21]、尺度自適應(yīng)跟蹤算法[22]等。在剛引入深度學(xué)習(xí)時(shí),只是使用卷積神經(jīng)網(wǎng)絡(luò)特征替換方向梯度直方圖(histogram of oriented gradient, HOG)[5]等手工特征,使相關(guān)濾波器能獲得更魯棒的跟蹤能力,如C-COT(continuous convolution operators tracking)[23]、ECO(efficient convolution operators)[24]等。完全端到端的深度學(xué)習(xí)跟蹤算法肇始于2016年牛津大學(xué)Luca Bertinetto等[25]提出的Siamese-fc孿生網(wǎng)絡(luò)目標(biāo)跟蹤,在此基礎(chǔ)上Siam RPN[26]、Siam Mask[27]等深度學(xué)習(xí)目標(biāo)跟蹤相繼提出。雖然深度學(xué)習(xí)目標(biāo)跟蹤算法的性能更佳,其檢測速度比相關(guān)濾波目標(biāo)跟蹤算法慢得多,但是這種可實(shí)現(xiàn)快速處理的相關(guān)濾波目標(biāo)跟蹤算法在后續(xù)幀的局部搜索區(qū)域會(huì)隨轉(zhuǎn)運(yùn)的攝像機(jī)發(fā)生偏移,導(dǎo)致跟蹤失敗。
為實(shí)現(xiàn)全方位、高復(fù)雜、遠(yuǎn)距離環(huán)境下的對無人機(jī)的實(shí)時(shí)準(zhǔn)確檢測、識別與跟蹤,本文通過高清云臺攝像機(jī)對監(jiān)測范圍進(jìn)行持續(xù)動(dòng)態(tài)掃描,并提出了一種反無人機(jī)視覺閉環(huán)檢測與跟蹤框架。本文的主要貢獻(xiàn)如下:
1)提出了一種適用于云臺攝像機(jī)定點(diǎn)巡航的二階段目標(biāo)檢測算法,此算法首先對由于攝像機(jī)運(yùn)動(dòng)產(chǎn)生的視頻背景運(yùn)動(dòng)進(jìn)行補(bǔ)償,然后使用三幀差分法生成運(yùn)動(dòng)目標(biāo)候選區(qū)域,并使用由神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索得到的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識別,可在不縮小高清視頻圖像的情況下實(shí)現(xiàn)對復(fù)雜動(dòng)態(tài)背景中無人機(jī)的快速準(zhǔn)確檢測;
2)提出了一種基于背景補(bǔ)償和卡爾曼濾波的局部搜索區(qū)域重定位策略改進(jìn)了核相關(guān)跟蹤算法,解決了由于高清云臺攝像機(jī)伺服追蹤引局部搜索區(qū)域偏移問題,在視頻背景運(yùn)動(dòng)的情況下也能對快速飛行的無人機(jī)進(jìn)行準(zhǔn)確、穩(wěn)定地跟蹤;
3)提出了一種自適應(yīng)切換機(jī)制將檢測模塊和跟蹤模塊結(jié)合成一個(gè)閉環(huán)系統(tǒng),通過深度卷積神網(wǎng)絡(luò)的分類結(jié)果自動(dòng)為跟蹤模塊提供初始化跟蹤框,并使用相關(guān)濾波跟蹤響應(yīng)圖的平均峰值能量比和最大峰值能量來表征跟蹤效果的優(yōu)劣,在跟蹤失敗時(shí)自動(dòng)切換至檢測模式。
本文提出了一種適用于云臺攝像機(jī)動(dòng)態(tài)掃描狀態(tài)的自適應(yīng)閉環(huán)無人機(jī)檢測與跟蹤算法,包含檢測與跟蹤兩種模式,并通過一種自適應(yīng)切換機(jī)制將檢測模式與跟蹤模式有機(jī)結(jié)合在閉環(huán)框架中,算法的框架圖如圖1所示。

圖1 算法框架Fig.1 Algorithm framework
首先本文采用高清云臺攝像機(jī)對中近程近地動(dòng)態(tài)復(fù)雜背景進(jìn)行定點(diǎn)巡航掃描,此時(shí)攝像機(jī)處于檢測模式,使用基于運(yùn)動(dòng)背景補(bǔ)償三幀差分法提出候選目標(biāo)并通過一個(gè)輕量級的深度卷積神經(jīng)分類網(wǎng)絡(luò)對候選目標(biāo)進(jìn)行分類;根據(jù)自適應(yīng)檢測–跟蹤切換機(jī)制,當(dāng)目標(biāo)屬于無人機(jī)的概率大于預(yù)設(shè)閾值時(shí),攝像機(jī)切換到跟蹤模式,采用引入了局部搜索區(qū)域重定位策略的相關(guān)濾波跟蹤算法對無人機(jī)進(jìn)行跟蹤;自適應(yīng)檢測–跟蹤機(jī)制將根據(jù)相關(guān)濾波響應(yīng)圖的狀態(tài)對跟蹤效果進(jìn)行評估,若跟蹤效果較好,云臺攝像機(jī)將根據(jù)跟蹤結(jié)果對無人機(jī)進(jìn)行持續(xù)地伺服追蹤;若跟蹤失敗,云臺攝像機(jī)則重新切換到定點(diǎn)巡航檢測模式。算法的可視化流程如圖2所示。
云臺攝像機(jī)定點(diǎn)巡航狀態(tài)下的檢測模式采用如圖2所示的兩階段目標(biāo)檢測框架。準(zhǔn)確且快速的候選區(qū)域生成對實(shí)時(shí)目標(biāo)檢測至關(guān)重要。入侵的無人機(jī)基本都是處于飛行狀態(tài),故可采用運(yùn)動(dòng)目標(biāo)檢測算法提取候選區(qū)域,然后再使用深度卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行分類識別。但定點(diǎn)巡航狀態(tài)的云臺攝像機(jī)采集的視頻背景是動(dòng)態(tài)變化的,無法使用傳統(tǒng)的幀間差分法或背景減除法進(jìn)行運(yùn)動(dòng)目標(biāo)檢測。光流法可檢測運(yùn)動(dòng)背景中的運(yùn)動(dòng)目標(biāo),但其計(jì)算量太大,無法實(shí)現(xiàn)對高清視頻的實(shí)時(shí)處理。為實(shí)現(xiàn)攝像機(jī)巡航狀態(tài)下運(yùn)動(dòng)目標(biāo)檢測,本文提出了一種基于運(yùn)動(dòng)背景補(bǔ)償?shù)娜龓罘址▽σ伤七\(yùn)動(dòng)目標(biāo)進(jìn)行檢測。

圖2 算法可視化流程Fig.2 Visualization of the algorithm flowchart


式中:Hkl2R3×3為兩幀中對應(yīng)特征點(diǎn)坐標(biāo)轉(zhuǎn)化的單應(yīng)性矩陣;i=1,2,···,N,N為圖像中特征點(diǎn)的數(shù)量。首先選取云臺攝像機(jī)旋轉(zhuǎn)過程中的鄰近的兩幀視頻圖像Il和Ik,分別提取兩幀圖像中的ORB(oriented FAST and rotated BRIEF)[29]特征點(diǎn),然后利用快速最近鄰逼近搜索對兩幀圖像中的ORB特征點(diǎn)進(jìn)行初步匹配,由于視頻幀率較高,拍攝連續(xù)幾幀視頻時(shí)攝像機(jī)轉(zhuǎn)動(dòng)的角度較小,則兩幀中對應(yīng)的特征點(diǎn)相距較近,故可以設(shè)置閾值濾除漢明距離過大的錯(cuò)誤特征點(diǎn)對,以提高匹配的準(zhǔn)確率。為進(jìn)一步減弱錯(cuò)誤匹配的特征點(diǎn)對和前景特征點(diǎn)對對單應(yīng)性矩陣估計(jì)的影響,本文采用隨機(jī)抽樣一致性算法[30]對特征點(diǎn)對進(jìn)行采樣,然后使用最小二乘法對單應(yīng)性矩陣進(jìn)行估計(jì),最后對視頻圖像Il上的每一個(gè)像素點(diǎn)都進(jìn)行坐標(biāo)變換,即可得到背景與Ik對齊的圖像Ikl。運(yùn)動(dòng)背景補(bǔ)償前后的運(yùn)動(dòng)目標(biāo)檢測效果圖對比如圖3所示。

圖3 運(yùn)動(dòng)背景補(bǔ)償前后的運(yùn)動(dòng)目標(biāo)檢測效果對比Fig.3 Comparison of the moving target detection results before and after background motion compensation




圖4 不同運(yùn)動(dòng)目標(biāo)區(qū)域生成算法效果對比Fig.4 Comparisons of different moving region proposal generation methods
在生成運(yùn)動(dòng)目標(biāo)候選區(qū)域后,本文設(shè)計(jì)了一個(gè)深度卷積神經(jīng)分類網(wǎng)絡(luò)對候選區(qū)域進(jìn)行分類,判斷其是否為無人機(jī)。為提高檢測速度,可以先根據(jù)無人機(jī)形狀的先驗(yàn)信息將區(qū)域外接矩形橫縱比小于1或大于3的候選區(qū)域篩除。為兼顧分類的實(shí)時(shí)性和準(zhǔn)確度,本文以運(yùn)算量和準(zhǔn)確度為優(yōu)化目標(biāo),結(jié)合復(fù)合模型擴(kuò)張方法與神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索尋找面向分類任務(wù)最優(yōu)的網(wǎng)絡(luò)深度、寬度與分辨率[18],設(shè)計(jì)了一個(gè)高效的輕量級深度卷積神經(jīng)分類網(wǎng)絡(luò)EfficientNet-B0,其主干網(wǎng)絡(luò)的結(jié)構(gòu)如圖2和表1所示。

表1 EfficientNet-B0的網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Architecture of EfficientNet-B0
首先將輸入圖像縮放為 2 24×224, 經(jīng)過3×3×32的卷積核7個(gè)串聯(lián)的MBConv(mobile inverted residual bottleneck convolution)模塊來循環(huán)擴(kuò)張和壓縮特征通道,以獲取更好的學(xué)習(xí)能力,增加網(wǎng)絡(luò)的深度。其中,MBConv模塊通過 1 ×1 卷積核將特征進(jìn)行通道擴(kuò)展,經(jīng)過 3 ×3 和 5 ×5的深度可分卷積核進(jìn)行通道特征提取后,由 1 ×1 卷積核進(jìn)行特征通道壓縮,輸出經(jīng)尺寸壓縮及通道擴(kuò)張后的特征圖。此外在MBConv模塊中,還引入通道注意力機(jī)制(squeeze-and-excitation block,SE)[35]和神經(jīng)元隨機(jī)失活機(jī)制[36],選擇性加強(qiáng)包含有用信息的特征,降低過擬合風(fēng)險(xiǎn)。7層MBConv模塊輸出的 7×7×320 特征圖經(jīng)過 1 ×1 卷積核的通道壓縮、池化層的空間壓縮后,將特征張量扁平化為一維向量,輸入全連接層利用sigmoid函數(shù)輸出一維概率向量。該預(yù)測向量給出目標(biāo)屬于各個(gè)類別的概率,并選擇最大值所在的類別作為分類結(jié)果,當(dāng)侯選目標(biāo)屬于無人機(jī)的概率大于預(yù)設(shè)的檢測–跟蹤切換閾值時(shí),使用該目標(biāo)的檢測框初始化跟蹤算法。
當(dāng)檢測到無人機(jī)后,算法將切換到跟蹤模式,在此模式下,結(jié)合局部搜索區(qū)域重定位策略的核相關(guān)濾波跟蹤算法將對經(jīng)檢測算法初始化的無人機(jī)在畫面中的位置進(jìn)行持續(xù)跟蹤,同時(shí)為使無人機(jī)保持在視頻畫面中,云臺控制算法以目標(biāo)在視頻畫面中離視頻中心的距離與方位為反饋量,采用比例?積分?微分(proportion integration differential, PID)控制算法控制云臺轉(zhuǎn)動(dòng)對無人機(jī)進(jìn)行伺服追蹤[19]。
由Henriques等[21]提出的核相關(guān)濾波跟蹤算法是一種判別式局部區(qū)域跟蹤算法,在當(dāng)前幀訓(xùn)練一個(gè)局部區(qū)域目標(biāo)檢測器,使用該目標(biāo)檢測器在下一幀的鄰近區(qū)域?qū)δ繕?biāo)進(jìn)行搜索,并使用新的檢測結(jié)果更新目標(biāo)檢測器,檢測速度可達(dá)每秒幾百幀。為避免密集采樣帶來的重復(fù)特征提取和復(fù)雜訓(xùn)練過程的高耗時(shí),核相關(guān)濾波跟蹤器以檢測器提供的初始檢測框?yàn)檎龢颖荆崛∑鋐HOG[37]特征圖p2Rm×n×l, 其中m、n、l分別為fHOG特征圖的長、寬與通道數(shù),通過循環(huán)移位對所提取的fHOG特征圖進(jìn)行近似密集采樣生成樣本集合S=f(pi,gi)ji=1,2,···,(m×n)g ,其中pi為合成樣本,gi2[0,1] 為其對應(yīng)標(biāo)簽,所有的gi根據(jù)空間排布可生成一張對應(yīng)于循環(huán)移位大小的高斯分布圖G2Rm×n,離中心越近,標(biāo)簽值越大。此局部目標(biāo)檢測器可建模成一個(gè)嶺回歸優(yōu)化問題[38]:

式中: φ(·) 函數(shù)可將低維空間的樣本映射到高維空間;λ 為正則化因子。根據(jù)∑表示定理[39],此優(yōu)化問題的最優(yōu)解可表示為w=iαiφ(pi),則優(yōu)化問題轉(zhuǎn)化為求最優(yōu)的線性組合系數(shù) α,由于訓(xùn)練樣本均是由循環(huán)位移產(chǎn)生的,利用循環(huán)矩陣的性質(zhì)[40],將分類器訓(xùn)練過程轉(zhuǎn)化到頻域中計(jì)算,將復(fù)雜費(fèi)時(shí)的矩陣求逆操作轉(zhuǎn)化為簡單快速的元素點(diǎn)乘,最優(yōu)的線性組合系數(shù) α 為


在原核相關(guān)濾波算法中,該檢測器是在上一幀目標(biāo)所在位置的中心點(diǎn)的矩形區(qū)域內(nèi)進(jìn)行搜索,得到跟蹤響應(yīng)圖 ?=F?1(F(kpq)⊙F(α)),其中kpq為初始檢測框與搜索框?qū)?yīng)的fHOG特征圖p、q的高斯核函數(shù)。對應(yīng)于跟蹤響應(yīng)圖 ? 峰值的坐標(biāo)即為被跟蹤目標(biāo)的新位置。核相關(guān)濾波跟蹤算法的可視化流程圖如圖2所示。
由于云臺攝像機(jī)在追蹤無人機(jī)過程中自身的轉(zhuǎn)動(dòng),即使無人機(jī)在物理空間中是靜止的,其在視頻不同幀中的圖像坐標(biāo)也將出現(xiàn)變化,另外當(dāng)無人機(jī)飛行速度較快時(shí),它可能會(huì)飛出局部搜索框,為了更準(zhǔn)確地跟蹤無人機(jī),在上一幀的相同位置對無人機(jī)進(jìn)行跟蹤是不合理的,為實(shí)現(xiàn)在動(dòng)態(tài)追蹤的云臺攝像機(jī)中對快速運(yùn)動(dòng)的無人機(jī)進(jìn)行跟蹤,本文對無人機(jī)在下一幀中的搜索位置進(jìn)行預(yù)測和補(bǔ)償,以實(shí)現(xiàn)搜索區(qū)域重定位,使核相關(guān)濾波跟蹤算法在云臺攝像機(jī)轉(zhuǎn)動(dòng)導(dǎo)致背景運(yùn)動(dòng)時(shí)仍能對快速飛行的無人機(jī)進(jìn)行穩(wěn)定的跟蹤。





圖5給出了2種不同情況下局部搜索區(qū)域重定的跟蹤效果示意圖,圖5(a)為無人機(jī)運(yùn)動(dòng)較慢情形,是否進(jìn)行局部搜索區(qū)域重定位在這種條件下對目標(biāo)跟蹤效果影響不大,但是在圖5(b)所示無人機(jī)運(yùn)動(dòng)速度較快或者云臺旋轉(zhuǎn)較快時(shí),無人機(jī)在第k幀中將處于未經(jīng)重定位的黃色局部搜索區(qū)域外,而在經(jīng)過局部搜索區(qū)域重定位后,無人機(jī)在第k幀中將仍處于藍(lán)色局部搜索區(qū)域內(nèi)。


圖5 局部搜索區(qū)域重定位跟蹤效果示意Fig.5 Illustration of tracking algorithms with and without local search area relocation
為實(shí)現(xiàn)檢測模式與跟蹤模式的自適應(yīng)切換,本文設(shè)計(jì)了一種自適應(yīng)切換機(jī)制,將前文提到的檢測模式與跟蹤模式整合到一個(gè)閉環(huán)框架中。如前文所述,檢測模式的檢測結(jié)果可為跟蹤算法提供精確可靠的初始框,具體地,當(dāng)深度卷積神經(jīng)分類網(wǎng)絡(luò)分類結(jié)果中,屬于無人機(jī)的概率超過某閾值的目標(biāo)檢測框即跟蹤算法的初始跟蹤框。
在對無人機(jī)進(jìn)行跟蹤的過程中,遮擋、光線變化、模糊、目標(biāo)變形等因素均會(huì)造成跟蹤失敗,一旦跟蹤失敗,算法會(huì)自動(dòng)切換至檢測模式,為此本文根據(jù)核相關(guān)濾波跟蹤響應(yīng)圖提出了一種自動(dòng)跟蹤效果評估機(jī)制。如圖2所示,無人機(jī)在搜索框中的位置是由響應(yīng)圖 ? 中峰值對應(yīng)的位置決定的,跟蹤響應(yīng)圖一定程度上也可以反映跟蹤器的跟蹤效果,如圖6所示。在正常跟蹤時(shí),響應(yīng)圖一般只有一個(gè)較大的尖峰,其余部分都較為平坦;在目標(biāo)被遮擋或消失導(dǎo)致跟蹤失敗時(shí),其響應(yīng)圖可能出現(xiàn)多個(gè)尖峰,峰值均較小,且各處凹凸不平,為定量化描述跟蹤響應(yīng)圖的狀態(tài),本文提出使用平均峰值能量比 ρ 來表征跟蹤效果的優(yōu)劣:

式中:τ 為響應(yīng)圖的最大峰值。如圖6所示,在正常跟蹤時(shí),響應(yīng)圖的平均峰值能量比 ρ 可達(dá)152.6,而跟蹤失敗時(shí), ρ 僅為8.4。圖7為某次跟蹤平均峰值能量比 ρ 在不同幀的變化曲線,在開始時(shí) ρ 在較高值附近上下波動(dòng),此時(shí)認(rèn)為跟蹤正常,繼續(xù)跟蹤;當(dāng) ρ 迅速減小,本文設(shè)定當(dāng)最新視頻幀中平均峰值能量比 ρ 小于其歷史平均值的 1 /2 時(shí),判定跟蹤失敗,立即切換至檢測模式。

圖6 正常跟蹤和跟蹤失敗時(shí)的響應(yīng)圖對比Fig.6 Response maps of good and bad tracking

圖7 平均峰值能量比 ρ 變化曲線Fig.7 Changing curve of the mean peak energy ratio
為驗(yàn)證本文提出的反無人機(jī)視覺閉環(huán)檢測與跟蹤算法的有效性,本文對算法的不同模式和整體性能都做了詳盡的測試和評估。
為測試檢測模式中的基于運(yùn)動(dòng)背景補(bǔ)償?shù)倪\(yùn)動(dòng)目標(biāo)檢測算法,本文采用開源數(shù)據(jù)集changeDetection[42]中PTZ攝像機(jī)目標(biāo)下的4個(gè)圖像序列作為測試集,使用準(zhǔn)確率P、召回率r和F1分?jǐn)?shù)對檢測結(jié)果進(jìn)行評估,其具體定義為

式中:TP為檢測正確的前景像素點(diǎn)個(gè)數(shù);FP為將背景檢測成前景的像素個(gè)數(shù)(誤檢);FN為將前景檢測為背景的像素個(gè)數(shù)(漏檢)。本文提出的算法與已有算法EFIC[43]、WeSamBE[44]在此數(shù)據(jù)集上的比較結(jié)果如表2所示。

表2 運(yùn)動(dòng)目標(biāo)檢測算法性能比較Table 2 Comparisons of moving target detection
由表2可知,本文提出的算法雖然在準(zhǔn)確率上相較于EFIC、WeSamBE較低,但其召回率與F1參數(shù)均是3種算法中最高的,在候選區(qū)域生成階段應(yīng)盡可能發(fā)現(xiàn)可能的目標(biāo),故相較于準(zhǔn)確率,候選區(qū)域生成算法更關(guān)注召回率指標(biāo)。
為評估本文中的深度卷積神經(jīng)分類網(wǎng)絡(luò),本文構(gòu)建了一個(gè)無人機(jī)分類數(shù)據(jù)集,包含復(fù)雜環(huán)境下的無人機(jī)圖像作為正樣本,共600張,另包含了飛機(jī)、鳥類、行人、樹木等負(fù)樣本圖像,共200張,如圖8所示,數(shù)據(jù)集中訓(xùn)練集和測試集的比例為7∶3。

圖8 無人機(jī)分類數(shù)據(jù)集Fig.8 Drone classification dataset
為在達(dá)到高精度的同時(shí)兼顧運(yùn)算速度,實(shí)驗(yàn)通過網(wǎng)絡(luò)結(jié)構(gòu)搜索,共生成了8種不同尺寸的網(wǎng)絡(luò)(EfficientNet-b0~b7),其參數(shù)量依次增加,前向計(jì)算速度逐漸降低。由于在本文面向的場景中,分類類別數(shù)量較少,如果盲目應(yīng)用參數(shù)量較大的網(wǎng)絡(luò),反而會(huì)提升過擬合風(fēng)險(xiǎn)并降低分類精度。為實(shí)現(xiàn)精度與速度的平衡,實(shí)驗(yàn)在所構(gòu)成的分類數(shù)據(jù)集上依次評測所有生成的EfficientNet系列網(wǎng)絡(luò),使用單塊Tesla T4 GPU,實(shí)驗(yàn)結(jié)果如圖9所示。結(jié)果表明,EfficientNet-b0的分類準(zhǔn)確率和速度可達(dá)到97.2%和258 FPS,在達(dá)到無人機(jī)辨別任務(wù)精度要求的同時(shí),滿足檢測系統(tǒng)的速度要求,綜合性能最好。

圖9 EfficientNet系列網(wǎng)絡(luò)的性能對比評估Fig.9 Performance assessment of EfficientNet networks
為評估局部搜索區(qū)域重定位核相關(guān)濾波跟蹤算法,本文構(gòu)建了一個(gè)無人機(jī)檢測與跟蹤測試數(shù)據(jù)集,包含24段云臺攝像機(jī)拍攝視頻片段,圖像大小均為2 048×1 536,幀率為24 FPS,包含不同天氣、背景和距離下不同種類、尺度和姿態(tài)的無人機(jī)。本文利用距離精度(precision)和成功率(success rate)為指標(biāo)來量化算法的跟蹤效果,定義中心位置誤差(center location error, CLE)為跟蹤框與真實(shí)框中心點(diǎn)之間的距離,定義跟蹤框與真實(shí)框相交的面積與其共同占據(jù)的面積之比為交并比(intersection over union, IOU)。距離精度為CLE小于某閾值的幀數(shù)占總幀數(shù)之比,而跟蹤成功率則定義為IOU大于某閾值的幀數(shù)占總幀數(shù)之比,在不同閾值下的距離精度和成功率可由距離精度圖和成功率圖表示。
由于影響閉環(huán)檢測與跟蹤算法的因素很多,為詳盡地探究不同因素對跟蹤性能的影響,本文進(jìn)行了一系列消融性實(shí)驗(yàn)。在控制了其他因素相同的條件下,首先本文對比了基于幀間差分法和基于三幀差分法檢測器初始化跟蹤器對跟蹤效果的影響,其跟蹤效果如圖10所示。由圖10可知,基于三幀差分的檢測算法的跟蹤框初始化方法可取得更好的跟蹤效果;然后對比了改進(jìn)前后的核相關(guān)濾波跟蹤對跟蹤效果,如圖11所示,使用了局部搜索區(qū)域重定位策略的核相關(guān)濾波跟蹤算法跟蹤效果更佳;最后驗(yàn)證了自適應(yīng)檢測跟蹤切換機(jī)制對目標(biāo)跟蹤的影響,與之作為對比,比較算法每隔固定時(shí)間(實(shí)驗(yàn)設(shè)置為30幀)對跟蹤器進(jìn)行初始化,兩種檢測–跟蹤切換機(jī)制的跟蹤效果如圖12所示。由圖12可知自適應(yīng)檢測–跟蹤切換機(jī)制下的目標(biāo)跟蹤效果優(yōu)于固定周期檢測–跟蹤切換機(jī)制。

圖10 不同初始化方法的成功率和距離精度Fig.10 Success plot and precision plot of the tracker with different initialization method


圖11 核相關(guān)濾波跟蹤改進(jìn)前后的成功率和距離精度Fig.11 Success plot and precision plot of the tracker with and without searching area relocation

圖12 基于自適應(yīng)切換機(jī)制與固定周期切換機(jī)制的跟蹤成功率和距離精度Fig.12 Success plot and precision plot of the tracker with adaptive switching and periodic redetection mechanisms
在實(shí)際測試中,本文以CPU型號為Intel core i7-7 700、內(nèi)存8 GB、GPU為11 GB的Nvidia Ge-Force GTX 1080ti計(jì)算機(jī)為中央處理器,使用4路型號為HIKVISION DS2DF7330IW的云臺攝像機(jī)對周邊區(qū)域進(jìn)行定點(diǎn)巡航掃描,視頻圖像分辨率為2 048×1 536,幀率為24 FPS,支持水平 3 60?、豎直?2?~90?旋轉(zhuǎn)和30倍光學(xué)變焦。所有算法由C++和python混合實(shí)現(xiàn),圖13為由C#編寫的人機(jī)交互界面,其中左側(cè)為視頻圖像顯示框,右側(cè)則包插云臺控制按鈕、檢測報(bào)警燈、識別目標(biāo)與分類結(jié)果框。為驗(yàn)證算法的優(yōu)越性,本文對比Yolo v3[6]、Faster RCNN[16]與本文所提出的算法在5.3節(jié)提出的無人機(jī)檢測與跟蹤數(shù)據(jù)集進(jìn)行了對比實(shí)驗(yàn),并采用平均正確率(average precision,AP)和幀率(frame per second, FPS)對算法進(jìn)行評估,其比較結(jié)果如表3所示。其中在使用Yolo v3進(jìn)行檢測時(shí),需將視頻圖像縮小至 6 08×608。由表3可知,本文提出的算法對于無人機(jī)檢測與跟蹤數(shù)據(jù)集的AP為94.90%,F(xiàn)PS可達(dá)33.1,在檢測效果與其他2種經(jīng)典目標(biāo)檢測算法相媲美的條件下,檢測速度遠(yuǎn)遠(yuǎn)優(yōu)于其它兩種算法。本文做了大量的實(shí)際測試,測試結(jié)果顯示本文提出的算法及其系統(tǒng)實(shí)現(xiàn)可對各種復(fù)雜場景下的無人機(jī)檢測與跟蹤,實(shí)驗(yàn)測試檢測與跟蹤效果圖如圖14所示,檢測距離最遠(yuǎn)達(dá)1 000米。

圖13 系統(tǒng)人機(jī)圖像交互界面Fig.13 Graphic user interface of the system

表3 不同檢測算法性能比較Table 3 Comparisons of different detection algorithm

圖14 實(shí)際實(shí)驗(yàn)場景檢測與跟蹤效果Fig.14 Detection and tracking results of field tests
本文提出了一個(gè)適用于高清云臺攝像機(jī)定點(diǎn)巡航掃描狀態(tài)的無人機(jī)閉環(huán)檢測與跟蹤算法,此算法通過一種自適應(yīng)檢測–跟蹤切換機(jī)制將檢測模式和跟蹤模式有機(jī)的結(jié)合在了一個(gè)閉環(huán)框架中,可實(shí)現(xiàn)快速實(shí)時(shí)、準(zhǔn)確、穩(wěn)定的無人機(jī)檢測、識別與跟蹤。與以往工作不同,本文在目標(biāo)檢測模塊中提出了一個(gè)快速準(zhǔn)確、無需對高清視頻圖像進(jìn)行尺度縮小的二階段目標(biāo)檢測框架;并用局部搜索區(qū)域重定位策略改進(jìn)了核相關(guān)跟蹤算法;最后提出了一種自適應(yīng)切換機(jī)制實(shí)現(xiàn)了檢測模塊和跟蹤模塊的自動(dòng)切換。大量實(shí)驗(yàn)和實(shí)際測試也證明了算法不同模式與自適應(yīng)閉環(huán)框架的有效性。