李 飛 劉文璇 夏紅霞
(1.湖北省農業科學院 武漢 430064)(2.武漢理工大學計算機科學與技術學院 武漢 430070)
隨著社會的發展,我國人民的生活質量在不斷地提升。2014年國家新型城鎮化的提出更是加強了城市、鄉村的交流,間接促進了交通工具、人口的增長與膨脹。而在經濟社會高速發展的同時,犯罪率也隨之呈現出逐步上升的趨勢,且犯罪手法更加復雜多樣,嚴重影響了社會治安,給我國乃至世界的安全建設帶來了巨大的挑戰與困難。在公共案件的偵破中,偵破人員往往需要觀看大量的案發現場視頻。抽取案發周邊區域監控畫面,或是在對已發現的車輛或者目標人物進行接力跟蹤[1]。新型視頻監控手段可以利用監控中提取道德嫌疑人的面目、體貌特征,為偵查人員提供了足量的信息[2]。
對視頻圖像的處理,是當前國內外學者以及各大企業機構研究的熱點。Zhong等使用智能技術對圖像的分類和識別進行基礎研究[3~6]。然而在實際情況中,監控攝像頭面臨著天氣導致的亮度不夠的問題。亮度灰暗致使畫面質量較差、分辨率較低。或者存在背景復雜,目標之間互相遮擋等。
原始的運動目標檢測算法以分離出前后景為前提。2004年,Huang等以光流法為基礎,實現了車輛的檢測[7]。2005年,Dalal等將HOG手工提取特征與SVM首次結合用于行人檢測[8]。然而手工提取特征同樣產生了計算量巨大、耗時費力等缺點。2008年,目標檢測領域迎來了一次突破,Felzenszwalb提 出 了DPM檢 測 算 法[9]。之 后 隨 著AlexNet[10]的提出,深度學習逐漸進入圖像研究的主流[11~15]。2015年,Yolo[15]的出現重新把目標檢測領域帶到了一個新空間。該類方法不需要產生Region Proposal的階段,直接產生物體的分類與空間坐標,大大提升了檢測速度。
相對于目標檢測,目標跟蹤的發展速度較為緩慢。1960年,Kalman在文獻[16]中提到了線性濾波,之后便被廣泛的應用于雷達、計算機視覺等各個方面。隨著技術的不斷發展,學者根據Kalman濾波的不同目的提出了各種改進[17~22]。深度學習的方法中,MOTDT[23]跟蹤器提出了一個改進的對象分類器,將區域全卷積神經網絡做出改進,實現整張圖像的計算共享。QuadMOT[24]全稱為四重卷積神經網絡。該方法的核心思想是使用四元組將丟失的幀間對象關聯起來。相關濾波的核心思想就是找出相鄰兩幀中目標的相關值。最早將相關濾波應用于目標跟蹤的是MOSSE[25]算法,由David在2010年的CVPR上提出。身為三大相關濾波算法之一的DSST[28]以MOSSE算法為基礎提出,該算法針對尺度變化的問題采取了尺度相關濾波器的措施。KCF(Kernel Correlation Filter)由Joao F.等于2014年提出[29],全稱為核相關濾波算法。
本文主要針對監控視頻中的目標檢測、跟蹤存在的問題,根據Haar-like特征在目標特征提取階段容易忽視目標部分感興趣區域,僅對全局特征進行了處理,本文提出了一種改進的KCF算法。在進行多目標的跟蹤時,本文將手工特征與深度學習方法相結合,形成一個軌跡關聯策略,并在數據集上驗證了方法的有效性。
在KCF算法流程的特征提取中,為了要描述視頻圖像中目標的形狀或者姿態,采用特征描述符HOG特征,根據不同的需求,HOG特征可以應用灰度圖像與彩色圖像。在本文的方法中,將改進的Haar-like特征結合進KCF算法中進行優化,如圖1所示,展示了改進的特征融合方法。

圖1 特征融合方法
在KCF目標跟蹤算法中使用了HOG特征,該特征首先會將輸入圖像進行處理得到灰度特征。在灰度圖像的基礎上,計算不同區域的梯度直方圖進行歸一化。在進行HOG特征計算的過程中,KCF目標跟蹤算法中僅僅使用到灰度信息用來表現目標形狀的梯度特征。目標中包含的其他信息均沒有被表達,因此本文考慮將改進Haar-like特征信息加入到提取的特征中,以提高對目標的特征表述力。在加入改進Haar-like特征后,優化的KCF算法不僅可以直觀展示HOG特征同時也能記錄表現像素的改進Haar-like特征,這樣的做法可以令特征信息表達的更加全面。
早在2006年,Hinton就提出了深度神經網絡的基本思想[30]。隨著2012年AlexNet[10]的提出,使得深度神經網絡的出現改變手工特征提取方式。深度學習方法憑借強大的表達能力走入學術界的視野。
本文根據實際數據集的情況,選擇在速度上明顯有優勢的Yolov3來進行目標檢測。
如圖2所示為本文中采用的技術路線。本文中采取Deep_Sort方法進行跟蹤。Deep_Sort于2017年被提出,其前身為Sort[31]算法。而本文在Deep_Sort算法的基礎上提出了改進的Haar-like特征與CNN相匹配的融合算法,不僅高效地實現跟蹤,同時加入了外觀信息來提高算法的性能。

圖2 多目標追蹤技術路線
在跟蹤的過程中發現,由于實際場景中的目標遮擋或者周圍環境過于陰暗,會存在目標ID轉換的問題。也就是說,在相鄰的兩幀中,跟蹤結果應該將同一個人編號為同一個ID。但是由于跟蹤方法的誤差,在獲取目標軌跡的過程中,存在同一個ID的軌跡只對應了1~2張圖片,且由于相關因素導致的目標ID轉變問題(ID_Switch)從而會使同一個目標的軌跡斷開,分開為若干個可靠的短軌跡。
為了提高軌跡的完整度,本文提出一種軌跡關聯的策略對這些相關的短軌跡進行連接,且不考慮短暫的ID_Switch——不考慮只對應1~2張圖片的軌跡。連接短軌跡時主要用前一段軌跡的最后一幀與后一段軌跡的第一幀進行對比,在軌跡連接的過程中遵從一個原則:同一個目標的若干短軌跡間不會有重疊的幀。如圖3所示,顯示了改進Haar-like特征與CNN匹配的軌跡關聯策略。具體步驟如下。

圖3 軌跡關聯策略
Step1:給定視頻目標,利用Edge Box將目標圖像分塊即提取物體的目標區域。
Step2:根據Step1中得到不同的即時窗口,不同的窗口可能包含了不同的對象位置。將窗口的置信度進行評分,保留排名靠前的目標區域。對于每個圖像I,構造一組對象區域表示為R1={rI,rI,1,rI,2,…rI,M-1}。其中rI代表了整張圖片,{rI,rI,1,rI,2,…rI,M-1}代表了Edge Box劃分的不同區域。最終劃分的區域數量為M。
Step3:對不同的區域利用CNN提取特征并將其重新采樣到227×227,并減去像素值的均值。
Step4:將提取到的CNN特征轉換為緊湊的二進制編碼。使用局部敏感哈希(LSH)算法,將每個CNN特征轉換為128位。對于不同的目標區域集R1={rI,rI,1,rI,2,…rI,M-1}中,所對應的CNN特征集合為C1={cI,cI,1,cI,2,…cI,M-1}。
Step5:將提取到的緊湊CNN二進制特征,存儲在單獨的內存空間中。
Step6:將視頻圖像的不同區域根據改進的Haar-like特征提取方法,將視頻進行目標檢測,得到初步檢測結果。
Step7:同時將視頻目標利用CNN提取特征。
Step8:將提取得到的CNN特征轉換為緊湊二進制編碼,使用局部敏感哈希算法,將每個CNN特征轉換為128位。
Step9:假設輸入圖像中只有一個對象區域。其CNN特征為CQ。比較表達式采用漢明距離:

其中,x和y是輸入圖像和原始圖像。
本文中提出的軌跡關聯策略旨在利用目標的位置信息和外觀信息,快速準確地實現目標前后幀位置關聯,實現目標的匹配。其中一個目標在ID_Switch當中會產生大小不同的兩個ID,最后的結果將ID大的直接編號歸為ID小的軌跡當中。
本文在單目標跟蹤的過程中,使用了跟蹤標準數據集OTB-50[32]與OTB-100[33]以及實際環境中的項目數據集進行實驗。在選取的這些圖像連續序列中,同時包含了灰度序列與彩色序列。不同序列涉及現實情境中可能存在的不同屬性,包括亮度改變、尺度改變等如表1所示。

表1 實驗中的視頻屬性特征
表2顯示了我們提出算法的性能。經過實驗對比發現我們的方法在目標追蹤的準確率上有明顯提升。

表2 算法在測試視頻上的表現
在多目標跟蹤的實驗過程中,采用了標準數據集PASCAL VOC系列及MOT16數據集。在PASCAL VOC 2007這一個數據集中包含9963張已經標注的圖片,這個部分由train/val/test三個文件夾組成,共有24640個物體被標注。MOT16數據集是MOT Challenge國際大賽中使用的數據集基準,與其他數據集相比,MOT16的視頻畫面更豐富且包含了不同的拍攝視角與相機運動。同時包含不同天氣狀況的視頻。MOT16數據集中共有14個視頻序列,平均分配為測試集和訓練集。
實驗中采用的性能指標有:平均精度均值mAP(mean Average Precision),FPS,MOTA(Multiple Object Tracking Accuracy):該評價指標代表了多目標跟蹤過程的準確度。包括目標個數是否準確、目標相關屬性是否準確。
MOTP(Multiple Object Tracking Precision):該評價指標代表了多目標跟蹤過程的精確度。主要體現在定位目標坐標的精確度。
ID_Switch:目標ID轉換的幀數。
圖4(a)中找到了六個矩形框,(b)找到了九個矩形框。輸出的信息不僅包含找到每個目標的準確率,同時還會輸出每個矩形框的坐標、長、寬等信息。在本文的實驗中,可以根據目標檢測輸出的坐標等信息進行下一步的重疊率面積計算,為目標跟蹤的軌跡關聯策略打下了基礎。Yolov3算法在實驗室數據集中表現了優異的性能。


圖4 監控數據集檢測結果
1)標準數據集下的實驗結果
如表3所示,展示出了不同深度學習方法下的跟蹤結果。從標準數據集的結果來看,本文算法在MOTA、MOTP上表現的比其他兩個方法優異,同時在ID_Switch的結果表現比其余兩個算法較有提升。

表3 MOT16實驗結果對比
2)軌跡關聯最終實驗結果
在進行ID軌跡關聯前得到的實驗結果如圖5所示。以ID為22的車輛為例,在后續的跟蹤中可以發現,由于光線等的背景因素,ID編號進行了轉變。將原有的車輛重新看作一個新出現的目標將其ID變為24。
軌跡關聯之后得到的結果如圖5所示,取同樣的幀數作為基準可以發現,ID為22的車輛在后續中不再進行ID_Switch,由此表明本文中軌跡關聯策略的有效性。

圖5 軌跡關聯前后ID
但本文的跟蹤方法雖然在一定程度上實現了斷掉軌跡的連接,效果仍舊需要改進,需要在盡可能多的學習到目標特征的同時達到實時檢測目標的要求。根據實驗結果可以得知,本文中提出的軌跡關聯策略充分了融合深度學習特征與手工特征的優點,使改進前的目標跟蹤中出現的斷幀情況得到很好的改善。最終形成一個完整的軌跡關聯結果。
本文從核相關濾波入手,將其與手工特征結合起來進行優化,由此提高算法的精確度。同時利用CNN特征形成軌跡關聯策略進行多目標跟蹤中目標的連接。在通過實驗驗證后,發現本文在目標發生遮擋等算法性能較強且軌跡連接策略在一定程度上解決了多目標跟蹤中的ID轉換問題。