尉晨陽,楊大為,張宇堃
(沈陽理工大學信息科學與工程學院,沈陽110159)
多目標跟蹤技術日漸成為計算機視覺領域的重點研究對象,特別是單目二維視頻的多目標跟蹤更是一個被廣泛研究的問題,廣泛應用于監控、行為、動作分析等與生活息息相關的領域。近年來,目標跟蹤的方法大多基于深度學習[1-4],根據學習特征進行跟蹤,如表觀特征的深度學習、相似性度量的深度學習、高階特征匹配的深度學習等。這些方法雖然可以準確跟蹤目標,提高算法的準確性,但模型的過度復雜會導致跟蹤算法無法滿足實時性。
當前流行的多目標跟蹤方法大多遵循檢測跟蹤框架。隨著目標檢測算法性能的不斷提高,遵循檢測跟蹤框架的跟蹤算法也得到了改進。通常,被跟蹤對象的軌跡是在一個全局優化方法下進行批處理的,而批處理無法使目標身份在每個時間段里進行更新。更傳統的數據關聯技術如多假設跟蹤(MHT)和聯合概率數據關聯(JPDA)在頂級的在線跟蹤器或者批量跟蹤器中雖然有突出地位,但當遇到對象分配具有較高的不確定性時,這些方法的計算量會隨著跟蹤對象的數量呈指數級增長,在計算的可處理性和可實現上遇到困難。最近,Rezatofighi等人重新研究了JPDA 公式,想通過高效近似于JPDA 方式解決復雜性問題。類似地,Kim 等人通過使用目標的外觀模型來完善MHT 方法,以實現最先進性能。但是,這些方法仍然存在決策延遲問題,不適合在線跟蹤。
針對這種現狀,在此提出一種實時與準確平衡的跟蹤算法,將MOT 問題視為一個簡單的關聯問題,旨在解決視頻序列幀之間的數據如何進行關聯?;跈z測跟蹤框架的算法,使用卡爾曼濾波在圖像空間上對目標進行運動信息的建模,預測出跟蹤目標的下一幀位置。研究打破了GIoU 僅作為損失函數應用于檢測算法這一常規操作,首次嘗試將GIoU方法應用于多目標跟蹤算法中,讓其作為距離度量去計算邊界框之間重疊的相似性,從而生成關聯度量矩陣。再應用匈牙利方法逐幀進行數據關聯,在MOT 基準測試上進行評估。
在多目標跟蹤技術的研究當中,基于整個視頻的檢測結果(批處理),已提出了多種方法。一種趨于普遍的做法是通過使用網絡流[5]、圖切[6]、MCMC[7]和最小分組[8]等方法,將檢測結果建模為圖形。而在逐幀輸入的情況下,匈牙利匹配[9]、貪心匹配[10]和遞歸神經網絡[11]是序列預測(在線處理)的常用模型,對于使用的關聯度量函數包括了時空關聯等方法。時空關聯的可視化方法廣受研究,被提出的基本方法包括檢測之間使用交并比(IoU)或通過使用卡爾曼濾波器加入速度模型。速度模型也有通過遞歸神經網絡學習[12],通過結合頭/關節檢測器[13]、分割[14]、活動識別[15]或關鍵點軌跡[16]等方法來實現,但這也進一步增加了分配成本的復雜性。最近出現的方法是利用物體檢測[17]或單目標跟蹤[18],依賴其外觀特征的預訓練邊界框回歸器,以在下一幀中使邊界框進行回歸。
早期工作在最小成本流數據關聯框架中執行端到端學習。最近,文獻[19]和[20]中所用的方法分別通過引入匈牙利匹配和聚類公式的可微形式來實現端到端優化。并行工程試圖在單一網絡中同時執行目標檢測、數據關聯和重新識別。特別是,Center Track 能夠只使用靜止圖像的增強來訓練檢測器。這些涉及聯合檢測和跟蹤的方法在實時速度上提供了高性能,但需要較高的注釋成本。
許多在線跟蹤方法是通過建立目標的外觀、運動等模型或通過在線學習建立一個全局模型,以幫助檢測與軌跡之間進行關聯。當只考慮一對一建模進行匹配時,可以使用全局最優解,如Geiger 等人采用的匈牙利算法[21]。該算法分兩步進行,先通過關聯相鄰幀上的檢測形成軌跡,其中的關聯矩陣是通過幾何和外觀線索結合所形成;然后再次使用幾何和外觀線索進行軌跡之間的關聯。受此兩步關聯方法的啟發,在此將基本模型關聯簡化為單個階段。
以現有檢測結果為基礎,提取其檢測對象的數據。隨后通過卡爾曼濾波對目標的下一幀位置、運動等信息進行預測。將得到的預測框與檢測框之間通過距離度量得到成本矩陣。最終利用匈牙利算法對成本矩陣進行全局最優選擇。
卡爾曼濾波是一種以狀態和觀測方程為基礎,結合遞歸方法來預測目標變化的方法。它由預測和校正兩部分組成。預測階段濾波器通過使用上一狀態信息,做出對當前狀態的預測;校正階段濾波器通過對預測階段獲得的預測值進行修正,從而獲得更接近真實值的新預測值。卡爾曼濾波通過以下公式進行預測,計算過程如下:
預測:

校正:

更新協方差估計:

其中,xk 為真實值, 為卡爾曼估計值,Pk 為卡爾曼估計誤差協方差矩陣,為預測值,Pk'為預測誤差協方差矩陣,Kk 為卡爾曼增益, 為測量余量。為預測出目標下一幀的位置、速度等跟蹤信息,此處為卡爾曼濾波創建一個運動模型。設每個目標模型的狀態如下式所示:

其中y、w分別代表檢測目標的中心橫坐標、縱坐標,s、r 分別代表目標框尺寸的大小和比例為卡爾曼濾波器預測軌跡下一幀觀測狀態的表示。
相似度矩陣選用廣義交并比GIoU(Generalized Intersection over Union)作為度量指標進行構建,用于表達預測框和檢測框之間的重疊程度。在SORT 算法中使用交并比IoU 作為兩框之間的距離度量指標。然而,該方法無法很好地表達出兩框之間的相鄰程度以及不相交程度,特別地,當IoU=0 時,無法反映出兩框之間的重合度。檢測框與預測框重疊情況如圖1 所示。

圖1 檢測框與預測框重疊情況示意圖
對于兩框而言,若使用IoU 作為距離度量的評價指標,上圖三種情況得到的數值結果是一樣的。但對于人直觀的感覺和后續相似度矩陣的產生而言,需要表達的效果應有不同。亦即:選取IoU 作為距離度量指標,會因其無法精確反映出檢測框和跟蹤框之間的重合度大小而影響目標跟蹤效果。
為克服IoU 的缺點,在此使用GIoU 作為兩框之間的距離度量指標。在以往的研究中,GIoU 作為回歸損失函數應用于先進的目標檢測算法中(例如mask R-CNN、yolo v3 等),并在一定程度上改進了檢測器的性能。作為距離度量,GIoU 方法保留IoU方法優勢的同時還對IoU 算法進行了擴展,使得當兩框之間完全重合的情況下,IoU 值與GIoU 值相等。但在GIoU 方法中,將對稱區間范圍由[0,1]改為[-1,1],區間范圍的改動會讓兩框無任何交集且距離無限遠的時候取最小值。亦即:為了能夠更準確表達出兩框之間的重合度,應選取GIoU 方法。該方法關注兩框重疊區域的同時,對非重合區域也進行了最大程度的關注。GIoU 作為距離度量設計如下:

其中,A、B 表示為檢測框與跟蹤框,C 為兩框間的最小閉包區域面積。
對于分配指派問題,此處采用匈牙利算法對相似度矩陣求解最優分配。另外,對于目標重疊小于閾值δGIoU的情況下,直接拒絕分配。
為充分體現本算法的實用性,在視頻數據集選擇上,選取了幾個具有挑戰性的行人跟蹤序列進行試驗,如頻繁的遮擋、擁擠的場景、序列在不同的視角、攝像機運動等。首先,對2DMOT2015 中具有代表性數據集進行跟蹤測試,如TUD-Stadtmitte 數據集視角低,相互遮擋嚴重,有完全遮擋的情況;TUDCampus 是側視行人的數據集;PETS09-S2L1 數據集主要挑戰在于目標移動在高速非線性模式下,目標遮擋較為頻繁;ETH-Sunnyday 是在一個移動的平臺上拍攝的數據集。
在評估方面,由于多目標跟蹤性能僅通過一個分數來判定好壞是不準確的,故此采用了文獻[22]中定義的評估度量,以及標準的MOT 度量[23]。特別地,對于MOT17 數據集,新增一個度量標準Recall,用來表示正確匹配的檢測目標數ground truth 給出的目標數。
MOT15 閾值設置為:當δGIoU與 IoU 取值同為 0.3時效果最好。實驗結果如表1 所示。

表1 基于MOT15 數據集序列的跟蹤結果
實驗選用的視頻數據測試也包含了另外兩個具有挑戰性的跟蹤基準,即MOT16 和MOT17。其中MOT16 使用的檢測器是DPM,視頻環境比MOT15中視頻環境更為復雜多變,人數增多、遮擋以及攝像機運動等問題更為全面。而MOT17 視頻環境雖然同樣復雜,但它是在兩套公開流行的檢測器(即FRCNN 和SDP)下進行檢測,相對于MOT16 中的檢測水平更加精確。
按照常規,MOT16/MOT17 中包括MOT16/17-02、MOT16/17-04 等一系列序列,以下的評估度量值取值皆為MOT16/MOT17 所包含的序列度量值的平均值。
MOT16 的閾值設置為:當 δGIoU取值為 0.3,IoU取值為0.2 時,兩者的跟蹤效果最為明顯。實驗結果如表2 所示。
MOT17 的閾值設置為:對于SDP 檢測器,當δGIoU取值為0.1,IoU 取值為0.3 時,兩者的跟蹤效果最為明顯。對于FRCNN 檢測器,當δGIoU與IoU 取值均為0.2 時效果最好。實驗結果如表3 所示。
由上述實驗結果可知,環境復雜性和檢測水平一般,如MOT15,結果會出現顯著提升,且跟蹤效果良好;環境復雜但檢測性能一般,如MOT16,結果也有所提升;當環境復雜但檢測精度較高時,如MOT17,跟蹤效果良好,無論FRCNN 還是SDP 檢測器,檢測出的MOTA 值均達到80%以上,在Recall 方面的表現也有明顯改善。

表2 基于MOT16 數據集序列的跟蹤結果

表3 基于MOT17 數據集序列的跟蹤結果
提出一種基于檢測的多目標跟蹤算法,目的在于達到跟蹤準確率和速率之間的平衡。利用最近檢測算法質量的提高,檢測目標的結果通過卡爾曼濾波進行預測,大致得到目標下一幀的位置等信息。對于兩框之間關聯問題,嘗試了以GIoU 作為距離度量應用于MOT 算法中,用其進行相似度矩陣的構建,結合實驗結果可知,作為距離度量的GIoU,在跟蹤問題上產生了不錯的效果。