李常磊,張曦郁
(駐西安地區第九軍代室,陜西 西安 710064)
無人機(UnmannedAerial Vehicles, UAV)是一種不搭載飛行員、乘客的飛行器,具有完全或部分自主的能力,在大部分情況下由人類飛行員遠程控制。 在過去10 年,人們見證了商用無人機的普及,其種類呈現了爆炸式增長,以應對不同的應用場景[1]。 需要注意的是在擁擠的公共場合和機場使用此類設備是受到監管的[2]。 在這些場合,不明無人機的存在可能對公眾構成威脅,此外由商用無人機而破壞機場安全的實例也屢見不鮮。
針對該問題,地理圍欄系統應用而生。 該系統需要預先劃定無人機可飛行的區域,然后借助藍牙、WiFi、GPS 等定位技術完成對定位源進行跟蹤和報警,由此防止無人機進入限制空域[3]。 目前,該系統主要通過在規定的空域內使用現有的攝像機基礎設施來實現,以進行適當的自動定位和響應。 本文主要研究了面向無人機地理圍欄系統的視覺跟蹤算法,以確保UAV 保持在允許的空域內。
由于運動模糊、光照變化和遮擋等固有問題,無人機的視覺跟蹤是一個具有挑戰性的問題[4]。 長期跟蹤器(Long-Term Trackers,LTT)能夠有效地解決目標消失和重現的問題,這是自主視覺跟蹤的一個基本特性[5]。 LTT 由以下兩部分組成:(1)基于前一幀估計目標邊界框的短期跟蹤模塊;(2)負責報告目標消失的檢測模塊。 該結構創建了跟蹤、學習和檢測子任務。 但在LTT 中,目標邊界框需要由用戶初始化,這在一定程度上限制了系統的自主使用的能力。
針對上述問題,本文提出了具有自動目標初始化功能跟蹤系統。 其基本流程為:(1)測量搜索區域;(2)使用現有目標分類器初始化目標邊界框;(3)利用短期跟蹤器創建用于視覺伺服的LTT。 視覺伺服方案通過調整PTZ 相機平臺的俯仰角θ,? 和變焦系數zm,使被測無人機在攝像機視場范圍內占據被測圖像的較大部分。 用于無人機跟蹤的PTZ 相機坐標系統如圖1 所示。 對無人機位置的估計是通過對其尺寸的先驗知識進行的。

圖1 用于無人機跟蹤的PTZ 相機坐標系統
在上述基本流程的第3 步提到的視覺伺服問題,可分為運動目標檢測、目標識別、跟蹤和伺服。 運動目標檢測和目標識別共同構成了無人機位置的邊界框估計,是跟蹤和伺服中STT 初始化的基礎。 本文提出的PTZ 相機視覺伺服軟件結構如圖2 所示。

圖2 PTZ 相機視覺伺服軟件結構
對于提出系統用到的嵌入式軟件包括搜索、目標檢測、分類/識別、跟蹤4 種狀態。 系統間歇性進入“搜索”狀態,調整攝像頭位置以覆蓋預定義的搜索區域。 目標檢測是從視頻序列中分割運動目標。 目標識別是為確認目標,然后將目標傳遞給利用STT 進行幀到幀關聯的目標跟蹤。
邊界框估計的目的是為實現框架提供給定幀的前景目標的位置。 其主要挑戰包括由于相機運動產生的模糊、相機傳感器產生的噪聲以及移動物體碎片。 使用基于深度學習的目標檢測器或統計背景建模來識別前景,可以有效地解決該挑戰。 基于深度學習的目標檢測器可用于對底層深度神經網絡訓練的某些目標執行定位和識別。 雖然這種檢測器已經得到了成功的應用,但目前僅限于離線處理。 而在實時性要求較高的場景下,使用高清圖像時的計算負擔限制了它們在遠程實時視覺伺服的引用。
運動目標檢測可以通過使用高斯混合建模的統計背景模型進行背景差分。 筆者測試了5 種不同的背景差分模型:混合高斯(Mixture of Gaussian,MOG),MOG2,GMG,CNT 和k 最近鄰(k-nearest neighbor,KNN)差分法[6-7]。
MOG 背景差分法用一組高斯分布的混合減去每個背景像素。 在算法的每個階段都采用了更新函數,以加快后臺學習過程。 MOG2 算法通過自動選擇混合的數量來改進MOG,提高對光照變化的彈性和對不同環境的適應性。 GMG 算法在統計估計背景圖像的同時,對每個像素使用貝葉斯分割,并通過啟發式置信度水平選擇性地應用濾波算法。 CNT 是基于計算像素穩定性的時間。 KNN 背景差分法使用k 近鄰方法根據樣本密度確定內核大小,這比使用固定內核大小產生更好的性能。
MOG,MOG2 和GMG 模型都存在分割問題,其中前景目標顯示為單獨的斑點。 盡管MOG2 在三者中提供了最小的碎片,但涉及多個移動目標的某些場景會導致失敗。 盡管并行CNT 是一種低成本的算法,但高頻紋理的存在導致分割不穩定。 與所有方法相比,KNN 產生的碎片數量最少,并且使用核大小為5px 的圓形中值濾波器可以消除噪聲。 因此,在本系統中采用KNN 模型。
預訓練的卷積神經網絡(Convolutional Neural Network, CNN)在識別形狀相似的物體方面表現出良好的性能。 在文獻中常用的ResNet50 作為目標分類器。 雖然也可以使用其他最先進的分類框架,如VGG,DenseNet,GoogLeNet 和Inception 等。 但ResNet50 提供了實現系統所需的性能。
ResNet 架構引入了殘差連接,其中兩個連續卷積層的輸出跳過下一層的輸入。 由此產生的體系結構改進了梯度流,允許更深層次的網絡實現。 本文提出對ResNet-50 架構進行修改,即對邊界框檢測器檢測到的前景目標執行二進制分類。 由于缺乏對商用無人機進行分類的數據集,本文收集了各種無人機的內部無人機數據集。 無人機二值分類器的大部分正圖像是在室內和室外飛行中采集的。 一些圖像是從網上公開的數據集和百度圖像搜索中收集的。 結果數據集有近10 000 個無人機樣本。 從ImageNet 數據集和內部鏡頭背景中隨機抽取訓練過程中匹配數量的反面例子,得到超過5 萬張訓練圖像。
在訓練過程中遇到的問題包括訓練數據和測試數據之間的光照條件差異,滾動快門相機造成的模糊,以及圖像遮擋等。 在訓練期間應用歸一化轉換、旋轉和部分縮放候選區域的樣本來增強數據集,以及用噪聲破壞40%的圖像(即加性高斯噪聲和恒定偏差、模糊、部分遮擋、水平鏡像),以提高魯棒性。
利用從第一節獲得的目標邊界框,可實現STT 的初始化。 使用核相關濾波器(kernelized correlation filter,KCF)跟蹤算法作為基礎[8]。 該算法的不足在于缺乏規模適應能力。 因此,本文提出在空間正則化判別相關濾波器跟蹤算法下,引入預定義的濾波器加權策略。
本文將通過室內測試,來驗證提出的系統在跟蹤和位置估計方面的性能。 實驗中設定的飛行時間160 s。 使用3 個解耦PID 控制器,根據跟蹤器的輸出調整攝像機的PTZ 參數。 影響平移和傾斜參數的定位誤差定義為邊界框質心與圖像中心之間的像素差,而縮放誤差則與邊界框內像素與整體圖像像素的比值有關。 實驗過程中,將比例誤差、積分誤差和導數誤差系數設置為kp=1.2,ki=0.1,kd=0.1;這些參數是使用大疆Mavic Pro 無人機在距離相機5 m 的距離手動調整為1 倍的變焦。
如果系統能夠實現當無人機不在相機的FoV 時不跟蹤,并且無人機在相機的FoV 時跟蹤,則認為所設計的跟蹤系統是有效的。 相反的,如果系統跟蹤非無人機目標,或未跟蹤無人機則認為系統無效。 通過統計在160 s 飛行時間內,有效跟蹤的時間占比來衡量系統的有效性。 統計結果表明總體跟蹤成功率為71.2%。
基于檢測到的無人機寬度和縮放因子,可以僅從視覺輸入和已知距離上檢測到的無人機寬度的先驗知識對無人機位置進行估計。 本文將軌跡估計的誤差與視覺跟蹤系統提供的真實值進行比較,計算了3個方向,以及位置估計的均方根誤差(RMSE)。 結果如表1 所示。

表1 估計的均方根誤差
實驗結果表明,在3 個方向上以及位置估計誤差均小于1 m,跟蹤誤差較小,由此進一步證明了所設計系統的有效性。
本文設計了一種面向商用無人機視覺跟蹤系統。該系統借助現有的背景模型、目標分類器來實現自動化的無人機跟蹤問題,且無需手動初始化初始目標。實驗結果表明,在室內場景下其成功率為71.2%。 此外,無人機的三維位置估計均方根誤差僅為0.76 m。實驗結果驗證了系統的跟蹤性能。