蔣凌云,楊金龍
江南大學 人工智能與計算機學院,江蘇 無錫214122
圖像處理在近幾年飛速發展且發展方向廣,其中文獻[1]代表了地質科學方向。視頻多目標跟蹤是目標跟蹤方向的一個重要分支,由于存在新生目標數量與出生位置的不確定性、遮擋或交叉導致的標簽頻繁跳動、目標特征建模困難等問題,使得視頻多目標跟蹤一直是目標跟蹤領域中的研究熱點和難點。不同算法在各問題上提出優化方案。如對于處理跟蹤算法中的實時性以及標簽跳變問題,文獻[2]對檢測與跟蹤算法同時提出優化,檢測方面構建精簡的模型以提高檢測速度,跟蹤方面利用長短期記憶網絡(long short-term memory,LSTM)來減小預測誤差以減少標簽跳變;對于處理數據關聯的不確定性和外觀特征難以表達的問題,文獻[3]提出了基于軌跡置信度的分層數據關聯方式和過程融合的特征提取網絡;對于算法魯棒性以及數據關聯的問題,文獻[4]提出將卡爾曼濾波的預測框和檢測器的檢測框作為模型的選擇,融合目標多種特征信息完成多目標之間的數據關聯。
在檢測新生目標方面:近些年,隨機有限集(random finite sets,RFS)[5-11]濾波得到了廣泛關注,文獻[12-17]也將隨機有限集應用到視頻跟蹤中,但由于新生目標的隨機性未知,給該方法的使用帶來一定的困難。在隨機有限集濾波方法中,如傳統的多伯努利濾波(multi-Bernoulli filter,MBF)和概率假設密度(probability hypothesis density,PHD)算法需要建立新生模型(新生目標可能出現的位置、狀態以及概率)來捕獲新生目標,在這種情況下,通常預先了解場景信息。但在真實的視頻多目標中,由于新生目標的多變性,很難建立符合場景的新生模型,視頻中新生目標可能從邊緣進入,或被遮擋后重新出現,或從某建筑物出現等。文獻[18]提出了量測驅動目標新生模型,給定新生目標新生概率,將檢測值作為高斯分量的均值,直接去除了低置信度的檢測值。
在目標建模與重識別方面:Deepsort通過級聯匹配以及新軌跡確認機制來進行目標的重識別。文獻[19]在網路特征圖中提取人物特征向量,采用一階段多任務學習,將人物特征向量與人物檢測框共同輸出,在精度差不多的情況提高了算法運算速度。
在標簽維持及關聯方面:多數方法在數據關聯方面利用預測得出的目標建模信息與下一幀所獲取的檢測信息進行相似度比較,并利用匈牙利或最大全匹配(Kuhn-Munkres algorithm,KM)算法進行檢測框與目標框的關聯。如MYL-Deepsort、Sort[20]、IOU17[21]將框與框之間的交并比(intersection-over-union,IOU)作為關聯算法的依據,運算速度較快。文獻[1]則是利用特征與IOU 相結合的方式進行關聯,準確度較高但是運算量大。
本文提出的主要問題在新生目標以及數據關聯方面,主要貢獻概括如下:
(1)檢測自適應新生模型。在傳統的標簽多伯努利濾波中,需要在目標可能出現的位置自定義新生模型,由于視頻多目標跟蹤新生目標的不確定性,本文將定義與檢測置信度相關的新生模型。由于檢測器檢測結果的置信度會有高低之分,相比直接去除低置信度的檢測方法,本文將檢測置信度與目標新生概率結合,將低置信度的檢測加入到標簽多伯努利的濾波中,提高目標識別率的同時避免誤檢以及漏檢,為跟蹤提供良好的檢測數據。
(2)融入標簽多伯努利算法。在大部分多目標跟蹤中,通過目標模板以及檢測數據進行關聯來實現多目標跟蹤,這些方法在多目標跟蹤中有很好的效果,但在維持軌跡方面有所欠缺,標簽多伯努利不同于傳統復雜的數據關聯方法,在檢測數目變化較多的情況下,仍然可以較好地估計目標的數目以及目標的狀態,即使目標被遮擋后,也能較好地維持相應目標的軌跡。
(3)提出新的目標重識別以及目標特征提取策略。標簽多伯努利算法在估計目標數目以及目標狀態的同時,還可以估計目標的標簽狀態,本文將結合目標特征以及標簽多伯努利所估計的標簽狀態來進行目標重識別。
假設一個伯努利有限集是空的概率為1-r,是一個以p(·)為空間概率密度分布的概率為r,則伯努利的勢分布可表示為:
此概率密度函數可以理解為,加和符號將所有的伯努利隨機有限集的排列組合全部相加,即每個隨機集都是二項分布,計算M個有限集的排列組合。不是空集的伯努利隨機集i1,i2,…,in則會有具體的函數值x1,x2,…,xn。若為空集?,則概率密度的表達式可以表示為π=。如果將上式的空間密度分布忽略,則多伯努利的勢分布可表示為:
標簽多伯努利隨機集與多伯努利隨機集不同的是,在狀態x∈X中增加了標簽l∈L這一狀態維,以估計在多目標場景中某一個目標的標簽或軌跡,標簽通常從離散標簽空間L={αi:i∈N}中提取,αi是互不相同的同時標簽空間N是一系列的正整數。
每個目標的標簽被定義為l=(k,i),其中k表示目標從k時刻新生,i∈N是為了區分在同一時刻其他新生目標,因此每個目標的標簽是獨有的并且固定的。在k時刻新目標的標簽空間可表示為Lk,同時{k}×N。在k時刻新生目標的狀態為x∈X×Lk,所有在k時刻的存活以及新生目標的標簽空間為L0:k,迭代表達形式L0:k=L0:k-1?LK。
和多伯努利隨機集一樣,標簽多伯努利隨機集也可以用參數集表示為{(r(ζ),p(ζ)):ζ∈Ψ},Ψ是標簽索引集合。當一個伯努利分量(r(ζ),p(ζ))返回非空集合時,則會把標簽α(ζ)附加到狀態集中。
方便起見,標簽多伯努利隨機有限集(labelled multi-Bernoulli random finite sets,LMBRFS)的密度簡寫為π={r(l),p(l)}l∈L,更緊湊的形式為:
廣義標簽多伯努利隨機集(generalized labelled multi-Bernoulli,GLMB)的分布是由一個在狀態空間X以及離散標簽空間L的標簽多伯努利隨機集根據以下公式產生的:
其中,C代表離散索引集合,權重ω(c)(L)和空間分布p(c)滿足歸一化條件:
標簽多伯努利是廣義多伯努利的特例:
由于貝葉斯多目標濾波器更新過程中數據關聯的不確定性,在GLMB 中迭代標簽時標簽索引集合將會有多種假設進行向后的迭代,涉及到不同的軌跡標簽集合。
δ廣義標簽多伯努利隨機集(δ-generalized labelled multi-Bernoulli,δ-GLMB)是在狀態空間X以及標簽空間L的GLMB的一種特例:
其中,Ξ是一個離散空間,ξ為空間里的具體狀態,I代表所有軌跡標簽的一個集合。在目標跟蹤的實際應用中,離散空間Ξ通常為軌跡與量測關聯的歷史記錄。因此,δ-GLMB RFS 是GLMB RFS 的一個特例,在目標跟蹤應用中,δ-GLMB RFS的索引空間具有特殊結構。δ-GLMB RFS的密度函數表示為:
勢分布為:
標簽多伯努利濾波器是完全后驗遞歸的近似,算法流程如圖1所示。

圖1 LMB濾波器流程圖Fig. 1 LMB filter flow chart
LMB 是可以直接將所有量測更新的,但是這會造成不必要的計算并且造成計算資源的浪費,因此需要加入Gating 和Grouping 步驟,此步驟把在參數空間內距離目標比較近的量測進行分割與歸類,在目標進行量測更新時,只與一定范圍內的量測進行比較更新,以此可以顯著減少計算資源的浪費,同時可以進行并行計算,加快算法運算速度。
假設后驗分布是具有狀態空間X和有限標簽空間L的LMB分布,表示為:
在獲取下一次測量前的預測遵循狀態空間為X,有限標簽空間為L+=L?B的LMB分布:
該式中第一個集合表示的是上一時刻存活軌跡的LMB RFS,第二個集合表示為新生的LMB 分量,在LMB中該分量需要事先設定先驗分布。對于存活軌跡,預測的標簽與上一時刻的標簽相同,并且預測的存在概率和空間分布是由存活概率和轉移密度計算加權推出。對于新出生的軌跡,l∈B是新的與存活軌跡不同的標簽。
在給出了LMB 的預測后,可以直接將所有的量測進行δ-GLMB的更新,獲得與預測似然最高的一個量測值并進行更新。但正如前文所述,利用空間信息更有效地對目標和量測進行分組,可以實現每一組的更新并行進行。Gating 和Grouping 策略在不減少準確度的情況下大大減少了算法時間復雜度。分組后,預測之后的LMB 參數集可以劃分為相互獨立的子集。可以表示為,是標簽集合L+=L?B的分割子集,即:
其中,當n≠m時Z(n)?Z(m)=?,Z(0)集合表示的集合為沒有被分配給任何目標的量測集合,Z(n)集合則是與目標相對應的集合關聯上的量測集合。
因此對于每一個標簽伯努利分量,任何落在分量預測的距離閾值內閾值相關的量測則可表示為:
當集合之間都沒有相同的量測時,融合分類算法完成。最后一共分成了N個關于軌跡的集合g(1),g(2),…,g(N),每個集合中包含與之相關聯的量測。因此可以得出,多目標預測之后的概率密度為:
(1)對于每一個分組來說預測之后的密度形式都為LMB,在更新前需要先把LMB 形式轉換為δ-GLMB,對于包含所對應的目標標簽以及量測G(i)=的第i個分組,δ-GLMB 形式可轉換為:
(2)對于每一個分組i,δ-GLMB更新如下式所示:
式中,ΘI+表示索引空間,即包含θ:I+→{0,1,…,|Z(i)|},意味著當θ(l)=θ(l′)>0時,l=l′。
(3)將更新后得到的δ-GLMB 轉化為LMB,對于第i個分組,LMB 形式可表示為:
最終得出的目標狀態的后驗概率密度分布為:
在得出LMB 形式的目標狀態后,當軌跡的存在概率小于事先設定的閾值時,該軌跡則被刪除,當軌跡的存在概率大于設定的閾值時,則提取:
式中:
閾值?設定過高時,會減少因為雜波而誤估計的軌跡,但這將同時造成新生軌跡的延遲出現。
當閾值?設定過低時,新生目標則會立即被估計出軌跡,但代價是會估計出大量的雜波軌跡。
如何減少背景的干擾,提取具有很高區分度的視頻目標特征,并同時保持較低的時間復雜度一直是學術界研究的重要課題。本文引入文獻[22]中的特征提取方式,能保持較高的區分度,同時采用了矩陣學習來降低目標特征維度。該方法主要分為LOMO(look more than once)提取目標特征和XQDA(crossview quadratic discriminant analysis)矩陣學習降維兩大部分。
3.1.1 處理光照變化
對于描述一張人物圖片來說,顏色是一個很重要的特征,然而在實際工程中,由于攝像頭所在場景光照分布不均勻,會導致同一個人在同一個視頻中的特征有相當大的特征區別,如圖2所示。

圖2 不同角度人物特征區別Fig. 2 Differences in character characteristics from different angles
本文采用了Retinex 算法[23-24]預處理檢測圖片,Retinex 算法的基本理論為:物體的顏色是由物體對長波(紅色)、中波(綠色)、短波(藍色)的反射能力決定的,并不是通過反射光強度絕對值來決定的,從而可以得出物體的色彩不受光照的影響,具有一致性。Retinex 算法具有色感一致性、顏色恒常性。不同于一些只能對圖像的某一類特征進行增強的算法,Retinex算法可以在邊緣增強、動態范圍壓縮以及顏色恒常三方面進行優化和均衡,因此可以用于不同類型圖像的增強。經過增強的圖片如圖3所示。

圖3 圖像增強后的對比Fig. 3 Contrast after image enhancement
3.1.2 形態變化處理
同一個行人在一個視頻中,隨著時間的變化,會導致人的變大縮小,或者當一個行人一開始是向前走,但經過拐彎后開始側著走,都會導致人的形態發生較大變化,進而導致圖像特征發生較大的變化。
本文提出的處理方法為用滑動窗口來描述一個目標的局部細節。如一張128×48 大小的行人圖片,可以定義一個10×10 的窗口,用5 個像素的滑動間距遍歷整張圖片。對于每一次遍歷,提取兩個尺度的SILTP 直方圖(和)和一個8×8×8的顏色模型(hue,saturation,value,HSV)直方圖。遍歷一張圖片的同一水平位置,并且最大化這些滑動窗口計算各部分的值。最后得到的直方圖能夠對人體在形態上的變化有一定的不變性,進而捕捉到人局部區域的細節特征。圖4為LOMO特征提取方法。

圖4 人物特征提取方法Fig. 4 Character feature extraction method
為了進一步提取多尺度的圖片信息,算法對圖片進行了三層金字塔的特征表示,即對128×48 的圖片進行3 次2×2 的平均池化得到3 個不同尺度的特征圖,最后對每一個特征圖進行特征提取,并將所有的特征向量拼接成一個向量,該向量有(8×8×8+34×2)×(24+11+5)=26 960 個維度。最后用log 函數減弱數值差異較大所帶來的影響,同時對HSV 和SILTP 特征進行歸一化。提出算法只用了HSV 以及SILTP特征,時間復雜度較低。
3.1.3 特征相似度比較
假設同一個目標特征之間的差別為Δ=xi-xj(ifyi=yj),記作ΩI,不同目標特征之間的差別為Δ=xi-xj(ifyi≠yj),記作ΩE,因此,可將識別某一張人物圖片是否屬于同一個人的問題轉化為二分類問題,即用QDA 模型對ΩI和ΩE進行二分類。文獻[13]則用對數似然比來計算兩個高斯分布之間的差異,將之用在了Re-Id中。
Bayesian face 和KISSME 算法如下所示,在零均值的高斯分布下,ΩI和ΩE的差異Δ的似然被定義為:
其中,ΣI和ΣE為ΩI和ΩE的協方差矩陣,在下文中,nI和nE分別表示在這兩個類別中樣本的個數。基于貝葉斯規則和對數似然比,差異化函數被定義為:
最終兩個特征xi和xj之間的距離可表示為:
一般來說,人物圖片經過特征提取后的向量維度d很大,需要對其進行降維獲得一個低維度的向量空間Rr(r<d),提高分類的準確性和算法效率,文獻[25]分別對ΣI和ΣE進行了矩陣分解來降低維度。文獻[13]則用主成分分析(principal component analysis,PCA)進行降維,矩陣ΣI和ΣE在PCA子空間上求近似。然而,這兩種方法在降維時沒有考慮距離矩陣的學習,因此都不是最佳方式。
提出算法中,將用度量學習來對Bayesianface 和KISSME 算法進行優化。算法將用Re-Id數據集訓練出子空間W=(w1,w2,…,wr)∈Rd×r,同時訓練出距離度量方程用來計算在維度r上兩個樣本之間的相似度。假設有訓練集{X,Z},其中X=(x1,x2,…,xn)∈Rd×n,包含在同一個視野中的n個維度為d的樣本,Z=(z1,z2,…,zm)∈Rd×m,包含其他視野角度的m個維度為d的樣本,在同一個場景中,Z和X是相等的。
在維度為r的子空間W中,距離方程可表示為:
由于ΩI和ΩE是零均值的,給定一個投影方程w,投影過后的樣本依然是零均值的,但有不一樣的方差。由于兩類樣本為零均值,不能用線性判別分析(latent Dirichlet allocation,LDA)進行優化,但是由于方差的不同,依然可以用方差σI、σE對兩類樣本進行分類。因此,需要優化投影方向w,從而使σE(w)/σI(w)最大化,需要注意的是,σE(w)=wTΣEw,σI(w)=wTΣIw,因此σE(w)/σI(w)可表示為:
J(w)的最大值等價于:
本文通過標簽多伯努利、新的數據驅動新生模型和目標重識別方法,減少了碎片軌跡、標簽切換問題,目標被遮擋后無法繼續跟蹤的情況也有所減少,算法流程如圖5所示。

圖5 視頻多目標跟蹤流程圖Fig. 5 Flow chart of video multi-target tracking
在標簽多伯努利中,需要運動模型用來估計k時刻軌跡的狀態。算法中設置目標的運動模型為隨機游走模型,目標i運動狀態表示為mi=(x,y,w,h,x˙,y˙,w˙,h˙),目標的特征可表示為ai,標簽為?,其中,x和y表示軌跡目標框左上角坐標,w表示目標框寬度,h表示目標框高度,x˙和y˙表示目標框左上角坐標在x方向、y方向上的變化率,w˙和h˙表示目標框寬度以及高度的變化率。
在獲得視頻每一幀對應的檢測框后,需要對新生目標進行識別,在傳統的標簽多伯努利或其他伯努利方法下,檢驗新生目標需要先驗知識,即在目標可能出現的區域設定新生模型。由于新生目標會在接下來的時間內持續產生檢測,進而目標的后驗概率密度增加,從而識別出新生目標。
為了解決傳統新生目標檢測有延遲的問題,本文提出了量測驅動的新生目標檢測算法,同時將目標檢測置信度融入到算法中,置信度高的存在概率越大,從而一定程度上能減少雜波對算法精度帶來的影響。
4.2.1 新生目標識別
需要注意的是,當k=1 時,還未出現軌跡,算法將所有的檢測都加入軌跡。
4.2.2 目標重識別
新生目標識別后需要對新生目標進行標簽分類,進而盡量減少標簽跳變數,標簽多伯努利只能減少目標軌跡在運動時的標簽跳變數。本文提出特征池思想,通過將新生目標特征與特征池里的歷史特征進行特征比較,將相似度較高的歷史特征所對應的標簽賦值給新生標簽多伯努利分量。
其中,Σ-1為XQDA 矩陣學習出的正交矩陣,同時對f和p進行了降維,得出相似度矩陣S:
新生目標所對應的標簽數即為相似度矩陣S中每行最小值所對應的標簽。
提出算法中采用高斯混合來對標簽多伯努利濾波進行閉合求解。
標簽多伯努利隨機集是由多個標簽伯努利隨機集組成的,表示為:
識別出新生目標之后,需要對新生目標狀態初始化,即用標簽多伯努利對新生目標進行建模:
標簽多伯努利濾波更新、預測、狀態提取等過程與多伯努利濾波過程類似,并且在新生時確定目標標簽后,目標的預測與更新是不會改變目標標簽狀態的。
4.3.1 標簽多伯努利預測
標簽多伯努利的預測可表示為:
式中,LMBM表示標簽多伯努利參數集,δx為狄拉克函數。LMBMk|k(xk)表示在k時刻標簽多伯努利狀態密度表示,后驗概率參數可表示為:
式中,hk表示為標簽多伯努利所對應的假設序號,Hk為總假設個數。
LMBMk+1|k(xk)表示預測后的先驗標簽多伯努利狀態密度集合,表示為:
式中,i′為k時刻表示后驗密度的伯努利分量標號,i″表示k時刻根據新生模型新生的伯努利分量標號,對于每一個伯努利,預測過后依然為伯努利:
假設存活概率為常數,表示為:
當用高斯混合對式子進行求解時,運動方程的狀態轉移分布表示為:
預測后的參數為:
4.3.2 標簽多伯努利更新
標簽多伯努利的更新可表示為:
在進行標簽多伯努利更新前首先要進行Gating和Grouping操作,將量測進行分類,讓預測后的目標與之距離較近的量測進行更新,此操作不僅能夠極大減少算法時間復雜度,在準確率上也會因為減少不相關量測的干擾而提高。
預測后得到的多伯努利參數為:
多伯努利的更新是基于目標與Gating 和Grouping之后的檢測進行更新運算,計算出狀態以及權重,再根據權重篩選出最優的假設,更新算法流程為:
計算多伯努利的后驗概率密度參數
對于計算代價矩陣,假設有m個量測,一個多伯努利集合h有Nh個伯努利分量,則對應的代價矩陣為:
算出代價矩陣后,用Murty算法計算出檢測與目標最匹配的假設。
多伯努利更新后得到的參數為:
假設目標i與檢測j相關聯,即θi=j,則對于該假設參數更新為:
對于沒有檢測與之關聯的假設,即θi=0,則第i個伯努利更新為:
用高斯混合對以上式子求解:
4.3.3 標簽多伯努利狀態提取
經過多伯努利更新,得到標簽多伯努利參數集:
4.4.1 特征選取
在標簽多伯努利更新結束后,可以得到每個目標的目標位置參數(x,y,w,h,l),在更新后對θi進行判斷,如果θi=0,則表明在該幀沒有檢測與之匹配,為了防止該目標被遮擋導致的模板污染,此時,不對該目標進行特征提取,即:
4.4.2 特征池
建立特征池,大小設為tp=tnum×T,T代表第一幀中新生目標的數目,tnum為自定義大小。構建大小為tp=NUM×T的隊列(即先進先出模式)。
考慮到目標被遮擋后會導致目標特征提取不正確的問題,本文僅僅將高置信度檢測框所對應的圖像特征以及對應匹配上的ID放入特征池中。
在目標進行特征提取之后,包含標簽信息的特征加入特征池,以便在目標重識別時對標簽進行判別,是否為之前的目標P={p1,p2,…}。
為了驗證提出算法的有效性,在公開數據集MOT17 上與類似算法Sort[26]、GMPHD_RD、IOU17[27]、PHD_LMP[25]進行對比實驗。
5.1.1 數據集
MOT17[28]中,采用了三種不同的檢測器FRCNN(faster region-based convolutional neural network)、DPM(deformable part model)、SDP(scale-dependent pooling),本文算法將三種檢測器的檢測結果帶入到提出的跟蹤算法中,驗證提出算法的有效性。
不同檢測器有不同的檢測精度與檢測特性。FRCNN 與SDP 檢測器的檢測精度較高,同時在實際跟蹤過程中,可能會產生較多的雜波或碎片跟蹤軌跡。DPM 檢測器雖然召回率較高,然而會產生較多虛假檢測。表1為數據集中每個視頻人群特點。

表1 場景序列Table 1 Scene sequence
可以看出,序列05、10、11、13 中攝像機是移動的,序列02亮度較暗,在數據集中對目標遮擋的處理以及交叉運動的處理對結果的影響較大。
5.1.2 評價算法
本文算法所使用的評價指標為MOT17公共數據集評價算法,評價指標分別為:多目標跟蹤正確度(multiple object tracking accuracy,MOTA)、多目標跟蹤精度(multiple object tracking precision,MOTP)、誤跟數(false positive,FP)、漏跟數(false negative,FN)和標簽跳變數(ID switch,IDS)。
(1)實驗環境
處理器:Intel Core i7-8700 3.2 GHz
內存:16 GB
顯卡:NVIDIA GeForce GTX 1080 Ti
軟件:Matlab R2019b
(2)實驗參數
目標狀態:(x,y,w,h,x˙,y˙,w˙,h˙,l)
量測:(x,y,w,h)
5.3.1 目標緊鄰、遮擋
在MOT17-09視頻數據集中,商店門口有較為復雜的行人交叉走動的情況,在Sort、GMPHD_RD、IOU17、PHD_LMP等跟蹤算法中,當兩個目標交叉運動時,跟蹤器不能很好地跟蹤上被遮擋的目標。而提出算法中,利用標簽多伯努利的預測,即使在短時間內沒有目標的檢測,也能很好地維持目標軌跡,如圖6所示,所在幀為405、409、412、417、420、424。

圖6 MOT17-09數據集目標被遮擋實驗結果Fig. 6 Experimental results of target occlusion of MOT17-09 dataset
從實驗結果可以看出,提出算法在處理行人被遮擋后,仍然可以根據標簽多伯努利預測維持目標軌跡,同時在目標移動過程中維持標簽的不變性。在目標重新出現后,其他對比算法雖能再次識別目標,但其標簽發生了跳變,被當成了新生目標。
視頻數據集MOT17-10的場景為夜晚,由于攝像頭拍攝不固定,會導致場景灰暗以及目標模糊的狀態。與MOT17-09 數據集相比,不僅人數較多,而且較為密集,存在很多由于行人交叉運動而導致的目標遮擋問題。由于采用了Gating和Grouping,算法依然有很好的穩定性。實驗對應的視頻數據集MOT17-10的幀數為227、235、245、252、258,如圖7所示。

圖7 昏暗模糊場景下目標被遮擋Fig. 7 Target occlusion in dim blurred scene
從實驗結果圖7 中可以看出,當標簽為77 的目標走來時,可以在遮擋的情況下維持標簽不變,同時能準確估計出目標狀態,而其他對比算法在目標被遮擋的情況下難以較好地跟蹤目標。
5.3.2 標簽維持
視頻數據集MOT17-04 為夜晚燈光人群密集的場景,在多目標跟蹤中,如何保持標簽長時間以及長距離不變是研究的難點。在人群密集時,當目標與另一個或幾個目標緊鄰時,會出現標簽切換。在提出算法中,目標的標簽是在目標新生時分配的,算法迭代運行過程中,會根據目標歷史狀態賦予目標標簽,即使有多個目標相鄰運動,考慮到每個目標的速度大小以及速度方向,在復雜的場景中仍然能夠維持目標軌跡以及標簽狀態。
圖8 為各算法在MOT17-04 視頻數據集的179、204、214、222、266、314幀中所得的跟蹤結果,在提出的算法中,標簽為21的目標在179到314幀中一直維持自己的標簽狀態以及目標狀態,而在其他算法中,目標不僅出現了跟丟時刻,同時出現了多次標簽變換。

圖8 昏暗模糊場景下密集人群下的目標軌跡維護Fig. 8 Target trajectory maintenance under dense crowd in dim and blurred scene
5.3.3 低分辨率漏跟
與其余1 920×1 080 數據集不同,視頻數據集MOT17-05 的分辨率為640×480,同時該視頻數據集為移動攝像頭拍攝的,在跟蹤過程中常有目標被漏跟蹤的情況。
圖9 為算法在MOT17-05 數據集306、309、310、311、312 幀的跟蹤結果,在提出的算法結果中,由于標簽多伯努利在更新的過程中會考慮到目標是否漏檢測的情況,當目標在之前的歷史幀中維持了較長的軌跡,存在概率較大,當目標在之后的幀數中即使丟失檢測,也能夠在一定時間內持續跟蹤目標,當某一時刻又重新獲得檢測時,存在概率較高未剪掉的軌跡重新與檢測關聯,從而解決了目標漏跟問題。

圖9 算法對漏跟情況的處理Fig. 9 Algorithm processing for missing track
提出的算法中,標簽為55 的目標在這一時間段中持續被跟蹤上。在其他算法中,該目標處于漏跟狀態。
5.3.4 處理誤檢測
公共檢測器FRCNN、SDP、DPM中,DPM檢測器性能最差,在檢測結果中經常有誤檢測框,即在沒有目標的地方檢測出有目標,誤檢測框并不是在每一幀中都存在,同時誤檢測框的狀態也是非常不穩定的。在標簽多伯努利中,本文算法對誤檢測框進行了雜波的泊松分布建模,由于誤檢測框的不穩定性,在預測以及更新的過程中,在算法中不會將是雜波的檢測框當作檢測,進而避免目標誤跟蹤。
圖10 為數據集MOT17-02 在DPM 檢測器下第46、49、56、61、67、77幀的跟蹤結果。可以看出,在提出的算法中,很好地解決了誤跟蹤框的情況,而在其他對比算法中,由于誤檢測跟蹤結果中出現了較多的跟蹤錯誤。

圖10 算法對誤檢測的處理Fig. 10 Algorithm processing for error detection
5.4.1 未使用特征的方法
表2 給出了提出算法和對比算法在MOTA、FP、FN、IDs、MOTP 指標上統計結果。本文的跟蹤結果都是基于3個公共檢測器DPM、FRCNN、SDP的檢測結果來跟蹤的。

表2 MOT17訓練集上未使用特征的方法比較Table 2 Comparison of methods on MOT17 training set without feature
從表2 中可以看出,提出算法在MOT17 訓練集上與沒有使用圖像特征的算法進行比較,取得了較好的效果。與Sort相比,MOTA提高了4.1,效果提升了9.2%;與IOU17相比,MOTA提高了4.2,效果提升了9.3%。
本文在沒有用圖像特征信息的情況下使用了標簽多伯努利算法來估計和更新目標的位置信息,在攝像機位置固定的情況下可以較好地處理目標被遮擋的情況。從表2中可以看出,提出算法的FN(漏跟蹤目標數)指標相比其他算法降低很多,相比Sort 算法降低了9.3%,相比IOU17 算法降低了6.7%。與此同時,存在概率較大也會帶來反作用,使得FP 增加,因為當存活目標消失的時候,依然會有較高的存在概率,算法會認為該目標可能還存在,導致誤跟目標數的增加,也間接導致了IDs的增加。由于目標被誤跟,被誤跟的目標也會分配給額外的標簽,導致IDs的增長。
5.4.2 MOT17濾波方法比較
表3 為提出算法與其他運用濾波方法的算法比較,本文算法在IDs 也減少了許多,相比其他對比算法,提出算法有著更好的表現。雖然本文算法在FP與FN的指標上沒有提升,但是相較于對比算法達到了一個相對平衡的狀態。加入圖像特征后,每一幀都把檢測與軌跡的歷史特征進行相似度比較,將剔除匹配不上檢測的軌跡,能一定程度上解決目標消失之后的誤跟蹤問題,進而FP 指標有一定程度的下降。由于FP 指標的下降,在標簽多伯努利預測以及更新的過程中將會防止很多誤檢測對算法精確度的影響,FN指標也會隨之下降。IDs的減少有兩方面的原因:一方面是目標重識別的加入,在目標標簽分配前,先進行特征相似度比較,將已出現過的目標分配舊標簽;另一方面則是由于FN 的減少,標簽多伯努利的標簽估計和更新更加精確。

表3 MOT17上濾波方法比較Table 3 Comparison of filtering methods on MOT17 dataset
5.4.3 目標數目變化明顯情況下方法比較
本文算法在數據集MOT17-05 上的跟蹤結果要優于其他算法,MOT17-05數據集為移動相機在繁忙街道的拍攝,在拍攝時會出現人物對攝像頭進行大面積遮擋的情況,會導致目標數目變化明顯。同時在上文定性分析中分析了該算法對于漏跟情況的解決,避免了碎片化軌跡的造成。根據實驗結果可以看出,相對于其他四種方法,提出的算法在MOTA指標上有著更好的表現。由于FN、FP、IDs三方面的均衡優化,本文算法在MOT17 數據集上有著較好的效果,如表4所示。

表4 MOT17-05序列SDP檢測器各種方法比較Table 4 Comparison of various methods using SDP detector in MOT17-05
5.4.4 人數密集情況下方法比較
MOT17-04數據集為人數最密集的場景,在檢測器SDP下各對比算法的跟蹤結果如表5所示。FN指標有所提高,可能是由于目標數目過多,標簽多伯努利總數很多,導致當目標消失,目標存在概率衰減慢而導致誤檢為目標仍然存在,已在上文定性分析中分析了該算法在密集場景下標簽維持的能力。

表5 MOT17-04數據集SDP檢測器各種方法比較Table 5 Comparison of various methods using SDP detector in MOT17-04 dataset
5.4.5 算法消融實驗與時間復雜度分析
(1)算法消融實驗
消融實驗算法的結果如表6所示,可以看出:

表6 消融實驗對比Table 6 Comparison of ablation experiments
Our_1(傳統標簽多伯努利新生模型),由于需要在固定位置建立新生模型,在每一時刻都會將預先定義的新生模型伯努利分量加入到算法的更新中,會極大地增加算法復雜度。即使真實新生目標在初始幀就出現,當所定義的新生標簽多伯努利分量距離新生目標比較遠時,仍不能判定該檢測為新生目標檢測,進而導致FN(漏檢數)的上升。
Ours_2(將置信度低的檢測移除),本文低置信度的檢測框加入到標簽多伯努利的算法中進行預測更新,同時進行消融實驗對比。由于直接去除了較多的檢測框,在時間復雜度上有較多的提升,但是在檢測精度上有所下降。
Ours_3(不使用目標重識別),判斷出新的目標新生后,會與最近30幀置信度高的檢測框進行匹配,進一步推出該檢測為哪個軌跡的檢測,從而推出標簽重識別。因此在FN、FP指標上幾乎毫無變動,IDs略微下降。由于加入了特征的提取與匹配,導致了FPS的下降。
(2)復雜度分析
在目標跟蹤算法中,算法運行復雜度很大程度上是由視頻中每一幀的檢測數量影響的,在本文中定義平均每幀數量Avgdet來描述視頻中的檢測數量:
式中,Numdet為每個數據集總檢測數,Numframe為每個數據集總幀數。
對SDP檢測器的檢測結果進行算法時間復雜度分析,考慮到本文算法是基于模型推理的濾波算法,同時不需要進行訓練,在運算復雜度上具有一定的劣勢。
如表7 所示,當人數較少時,標簽多伯努利所對應的高斯分量就比較少,因此計算量較少。當人數急劇增加時,會導致算法復雜度的急劇上升,這也是今后科研需要解決的問題。

表7 不同人數下的時間復雜度分析Table 7 Time complexity analysis under different number of persons
5.4.6 算法結果
表8為提出算法在MOT17數據集上采用不同檢測器的跟蹤結果,可以看出,提出算法在檢測效果最差的DPM 到檢測效果最好的SDP 都有著較好的跟蹤結果。在相機固定的場景中和移動的復雜環境中,都具有較好的跟蹤結果。

表8 不同視頻中MOT17方法的比較Table 8 Comparison of MOT17 methods in different videos
本文提出了基于標簽多伯努利的視頻多目標跟蹤方法,在使用公共檢測器的基礎上,首先采用量測驅動新生模型的思想,解決傳統標簽多伯努利新生模型收斂慢的問題;同時采用特征池的思想進行目標重識別,一定程度上減少了目標標簽切換次數,從而使IDs減小。此外,借助于標簽多伯努利的預測以及更新,可以有效地解決由于檢測器性能差而導致的目標丟失問題,減少了碎片化軌跡。標簽多伯努利濾波過程中,根據目標狀態對標簽進行估計,對標簽(航跡)的維持起到了很大的作用。最后通過實驗驗證,提出算法能夠在各種復雜場景下實現對多目標較好的跟蹤。