王 玲,杜新兆,羅可心,王 鵬,趙領娣
(長春理工大學 計算機科學技術學院,吉林 長春 130022)
多目標跟蹤[1]主要通過計算機視覺相關技術,將視頻中每一幀目標都賦予一個唯一ID,并且得到其對應軌跡。早期的多目標跟蹤算法集中于傳統統計學、概率學方法,如卡爾曼濾波[2]、粒子濾波[3]、核相關濾波[4]等,該類算法利用卡爾曼濾波或概率算法預測檢測框在下一幀的狀態,將該狀態與下一幀的檢測結果進行匹配,實現多目標跟蹤。然而,若跟蹤受到遮擋或未被檢測,卡爾曼濾波預測的狀態信息將無法和檢測結果進行匹配。當遮擋結束后,目標檢測可能又將被繼續執行并生成新的ID編號,造成大量ID切換的現象。近年來,隨著機器學習、神經網絡技術的不斷發展與完善,多目標跟蹤領域開始逐漸向基于深度學習網絡模型的方向靠攏。卷積神經網絡模型(convolutional neural networks,CNN)[5]逐漸替代了傳統手工設計的特征,提供了一種端到端的處理方法,跟蹤精度也大幅提高。但針對目標漂移、旋轉等情況,模型將無法提取到目標的精準特征信息,進而影響圖神經網絡中消息傳遞的精度,導致模型魯棒性不強。綜上所述,本文提出SCAACTracker多目標跟蹤算法,可應用與公共場所行人流量檢測或者異常行為捕捉等場景,重點做出以下貢獻。①引入全新的融合非對稱[6]與自校準[7]的卷積特征提取機制,抑制背景信息,增強卷積網絡對于目標外觀的特征提取;②在圖神經網絡中使用卷積神經網絡算法作為結點和邊嵌入的計算基礎,增強圖神經網絡消息傳遞的準確性;③該特征提取機制可以主動適配不同圖像,擴大使用范圍。
近年來,隨著機器學習、神經網絡技術的不斷發展與完善,多目標跟蹤領域開始逐漸向基于深度學習網絡模型的方向靠攏。Bewley A等[8]提出SORT算法,該算法可分為3個階段:①目標檢測;②目標運動預測;③數據關聯。其中,使用FasterRCNN作為目標檢測模型,接著采用卡爾曼濾波進行目標位置的預測,最后使用匈牙利算法來實現數據關聯,即前后幀的目標匹配,從而完成目標跟蹤任務。但由于忽略了被檢測目標的外觀特征,SORT算法僅在目標狀態確定的情況下表現良好。Wojke N等[9]提出的DeepSort是在SORT算法的基礎上從行人重識別任務中提取目標外觀特征,提高網絡對丟失和遮擋目標特征提取的魯棒性,大大減少了目標標簽切換次數,提高了跟蹤的精度,但這也使得跟蹤速度有所下降。Bae S.H等[10]提出CDA-DDAL算法,該算法利用小軌道的可檢測性和連續性聯合計算小軌道的置信度,根據該置信度對多目標跟蹤任務進行劃分,最后依據其置信度將子任務以不同的方式進行關聯,從而解決了在線多目標跟蹤問題。之后,Milan A等[11]提出在線多目標跟蹤的端到端模式,將經典的貝葉斯狀態估計[12]、數據關聯以及軌跡起始和終止任務作為遞歸神經網絡來學習跟蹤和檢測之間的關聯。Sadeghian A等[13]通過使用長短期記憶網絡(long short term memory,LSTM[14])的自回歸和匹配分類來預測運動和外觀特征,大大提高了跟蹤的準確性。Chu Q等[15]提出STAM-MOT算法,該算法利用空間和時間注意力機制解決遮擋問題。Ma L等[16]提出層次關聯聚類框架,該框架主要針對在擁擠街道場景下的行人跟蹤問題,利用現有的穩定跟蹤模型,采用不同的圖網絡結構來生成跟蹤框和跟蹤軌跡,一定程度上解決了長期遮擋問題。
綜上所述,本文提出了基于自校準與異構卷積的離線圖跟蹤網絡SCAACTrack。該算法首先解決了圖神經網絡中特征提取算法表達性不強而導致的在人群環境密集的情況下難以提取目標特征信息的問題;其次解決了在目標漂移、旋轉等情況下,算法無法提取目標的精準外觀特征信息,進而影響圖神經網絡中消息傳遞的精度問題。該算法在圖神經網絡的基礎上,引入了自校準卷積和異構卷積模塊,在解決單一CNN對目標外觀特征提取較弱問題的同時,充分提升圖神經網絡的表示;且基于時間感知的消息傳遞算法能夠有效加強多目標跟蹤算法流式守恒約束,相較于現有模型,該模型擁有更高效的激活邊選取能力。
本文提出的SCAACTrack模型,利用T-1、T、T+1之間目標外觀特征、距離和時間差值來構建圖神經網絡。網絡中采用異構自校準卷積模塊進行目標外觀特征提取,以提高圖模型表達能力。SCAACTrack模型整體結構如圖1所示。

圖1 SCAACTrack模型整體結構
主要由自校準異構卷積層(self-calibrated convolutions and asymmetric convolution,SCAAC)、圖網絡嵌入層、基于時間感知的消息傳遞層以及激活邊分類構成。
自校準異構卷積層由自校準卷積網絡和異構卷積模型構成,負責對不同幀之間的目標進行外觀特征提取。
2.1.1 自校準卷積網絡
本算法首先采用自校準卷積算法(self-calibrated convolutions,SCC)進行目標行人特征提取,其目的是幫助卷積神經網絡生成更具有辨識性的表示,加強多目標網絡圖中的結點嵌入表達。它的基本思路是在原始尺度空間中的特征圖和下采樣后較小的潛在空間圖中進行卷積特征轉換。下采樣后的特征具有較大的感受野,因此在較小的潛在空間中進行變換后的嵌入將用作參考,以指導原始特征空間中的特征變換過程。自校準卷積算法流程如圖2所示。

圖2 自校準卷積算法流程

T1=AvgPoolr(X1)X′1=Up(F(T1))
(1)
接著將X′1與X1求和后輸入到Sigmod函數中,接著將輸出結果與經過K3卷積的特征嵌入相乘得到Y′1, 計算如式(2)所示
Y′1=F3(X1)·σ(X1+X′1)
(2)
再對原尺度特征空間進行處理,對特征X2經過K1卷積提取得到特征Y2, 對兩個尺度空間輸出特征Y1、Y2進行拼接操作,得到最終輸出特征Y, 具體計算過程如式(3)、式(4)所示
Y1=F4(Y′1)=Y′1*K4
(3)
Y=Y1+Y2=Y1+X2*K1
(4)
與傳統卷積相比,采用自校準操作不僅可以將目標背景信息作為低分辨率空間的嵌入來指導原始尺度空間的特征變換,還可以對通道間的依賴性進行建模。因此,該算法可以有效地擴大自校準卷積層的感受野。此外,自校準卷積操作不收集全局上下文,而只考慮每個空間位置周圍的上下文,從而避免了無關區域的無用信息。
2.1.2 異構卷積模型
由于自校準卷積算法主要針對固定區域目標外觀特征提取,當目標發生旋轉、飄逸后,算法提取到的特征并不準確,且魯棒性較差。如圖3所示,以主流的3×3卷積核為例,可以看出,在圖像翻轉前后,從輸入圖像的相同位置處提取的特征有所不同。

圖3 3×3水平反翻轉特征提取操作
為增強外觀特征的可表示性,將3×3的卷積核拆分為幾個不同形狀卷積核的形式進行訓練,推理階段將其融合為一個3×3卷積,沒有帶來額外的計算量,但是提取特征的能力更強。這依賴于卷積操作的可疊加性,特征提取的計算如式(5)所示
I*K1+I*K2=I*(K1⊕K2)
(5)
由式(5)可知,先進行K1和I的卷積、K2和I的卷積后再對結果進行相加與先進行K1和K2的逐點相加后再和I進行卷積得到的結果是一致的。同時,該公式還表明非對稱卷積不會增加額外的計算量。計算過程如圖4所示,其中令K=3。

圖4 非對稱自校準卷卷積核操作
在自校準卷積網絡中引入非對稱卷積結構,對自校準卷積網絡中的每一個卷積操作F替換為K×K,K×1,1×K大小的卷積操作,之后將卷積結果進行累加得到最終特征圖。其中K2被分成了K2×K2,K2×1,1×K2三部分,最終進行累加得到穩定特征值,圖中K1,K3,K4部分同K2所示。
非對稱卷積的引入有助于提升自校準卷積對于圖像翻轉和旋轉的魯棒性。在訓練階段引入1×3卷積核,即使在驗證階段將輸入圖像進行上下翻轉,該卷積核仍然能夠提取正確的特征,特征提取操作如圖5所示。

圖5 1×3水平翻轉特征提取操作
由圖5可知,在經過翻轉前后,對輸入圖像的相同位置處提取的特征一致。因此,引入3×1水平卷積核可以提升模型對圖像上下翻轉的魯棒性,豎直方向卷積核同理。
本算法采用基于檢測的多目標跟蹤方式(detection-based tracking,DBT),首先逐幀檢測待跟蹤目標,然后將其連接到對應的軌跡中。在給定視頻序列的情況下,對每幀圖像應用特定的對象或運動檢測算法來獲得待跟蹤目標的標記,然后進行多目標跟蹤,將檢測目標連接到軌跡中。
在此過程中,目標檢測器是預先訓練的,跟蹤目標的類型和數量由檢測算法決定,無需手工標記。該問題可建模為無向圖G=(V,E) 模型,其中每一個結點i∈V代表了一個獨立的檢測目標,即Oi∈O。 對不同幀的每對檢測構建一條邊E, 允許恢復有丟失檢測的跟蹤軌跡。場景中的每個跟蹤軌跡T*={T1,…,Tm} 均能夠被映射到圖中的一組結點 {i1,…,ini}, 為此,對圖上每條邊引入一個二元變量,若該邊連接了屬于同一條跟蹤軌跡且在同一條跟蹤軌跡上是時間連續的結點,其標簽為1,否則為0。對于不同時間戳上的每對結點 (i,j)∈E, 定義二元變量如式(6)所示
(6)
當y(i,j)=1時,對應邊 (i,j) 被視為激活狀態。因為每條跟蹤軌跡是結點不相交的,即一個結點不會屬于超過一個跟蹤軌跡,因此y(i,j)需滿足兩個線性約束,則對每個結點i∈V有
(7)
(8)
本跟蹤框架采用SCAAC算法將每幀目標檢測提取到的外觀特征作為圖神經網絡的結點嵌入,每幀目標相對位置作為圖中的邊嵌入,則初始化圖結點嵌入式如式(9)所示
(9)
針對不同時間戳ti、tj的兩個檢測oi、oj, 計算其相對距離變量如式(10)所示
(10)

圖神經網絡構建完畢后,進行圖中結點與邊之間的消息傳遞過程。與普通消息傳遞方法相比,本文采用了基于時間感知的消息傳遞算法,有效提升了更新后的結點嵌入對跟蹤約束的束縛,其過程如圖6所示。

圖6 基于時間感知的消息傳遞網絡
(11)

(12)
(13)

(14)


(15)
式中:l0∈1,…,L,w表示一個衡量參數,y∈[0,1]。 由于采用基于時間感知的更新步驟,故設置閾值0.5的二值化也能很好滿足流式守恒約束的限制,最后使用一個簡單的貪婪舍入方案獲得一個可行的二值輸出。
本文實驗使用2DMOT15[17]、MOT17、MOT數據集,這些數據集是衡量多目標跟蹤方法標準的數據集。其中,2DMOT15數據集共有22個視頻序列,其中測試集和訓練集各11個;MOT17數據集共有14個視頻序列,測試集和訓練集各7個。本次實驗采用2DMOT15的訓練集與MOT17數據集上的2,4,5,9,10,11,13序列數據進行訓練,為了保證實驗的一致性,輸入目標的檢測信息均采用SDP[18]算法,為了檢驗算法的魯棒性,在2DMOT15測試序列與MOT17數據集的1,3,6,7,8,12,14序列上進行了測試。實驗硬件環境見表1。

表1 硬件環境配置
本文首先選取多目標跟蹤中重要的評價指標準確度(multiple object tracking accuracy,MOTA)作為評價方法,MOTA非常直觀地給出了衡量跟蹤識別目標和保持一致性的能力,其計算如式(16)所示
(16)
式中:mt、fpt、mmet分別為t幀時漏檢、誤檢和錯誤匹配的數量(IDS)。gt代表Ground Truth即真實的標簽或對象。
為了對比SCAACTrack算法對目標跟蹤的精度,選擇IDF1作為衡量標準,IDF1計算如式(17)所示
(17)
式中:IDP為ID準確率(identification precision),IDR為ID召回率(identification recall),與普通MOTA不同的是,IDF1中的TP、FP、FN考慮了ID信息,而MOTA指標中只有IDS考慮了ID信息,對此可得出,IDF1對軌跡中ID信息的準確性更為敏感。
MT(mostly tracked)表示為對于給出的所有GT軌跡中,滿足至少80%的時間都能匹配成功的軌跡數目占比,該指標不注重跟蹤過程中是否發生了IDS,只要檢測框能成功匹配即可。
ML(mostly lost)對于給出的所有GT軌跡中,滿足小于20%的時間都能匹配成功的軌跡數目占比,該指標于MT恰好相反,且該指標越小說明跟蹤效果越好。
FP為模型預測為正的負樣本或誤報,FN為被模型預測為負的正樣本或漏報。IDS為ID轉變數,具體指跟蹤軌跡中目標ID切換的次數,對跟蹤算法的魯棒性有很好的衡量效果,該指標越小說明算法越穩定。
3.3.1 2DMOT15實驗結果分析
本實驗采用相同目標檢測器SDP,選取常用的MPNTrack[19]、Tracktor[22]、KCF[20]、AP_HWDPL_p[21]算法進行對比。各算法的MOTA、IDF1、MT、ML、FP、FN、IDS性能指標見表2。

表2 各算法在2DMOT15數據集上檢測結果對比
從表2中可以看出,本文算法在MOTA、IDF1和IDS等各項指標表現上都較為優異。對比本文算法與MPNTrack算法的個性能指標可知,SCAACTrack在IDS上提升了5%,MOTA和IDF1指標基本持平。這說明,在處理存在遮擋情況的場景中,本文算法表現更優。這是由于本文算法融入了非對稱的自校準卷積特征提取結構,故相對于MPNTrack算法,其在精準度方面和IDS上有了一定提升,對遮擋問題的魯棒性也更強。
3.3.2 MOT17實驗結果分析
SCAACTrack算法在MOT17各測試序列上的實驗結果見表3。
從表3可以看出,SCAAC算法在MOT17數據集的不同序列上表現出了良好的跟蹤性能。針對跟蹤目標數高達104 675、背景昏暗且拍攝角度較高的MOT17-03序列,MOTA指標為74.4%,IDS指標為131。在陰影變換較大,目標擁擠的步行街道MOT17-08數據集中,MOTA為32.2%,IDS指標為47,達到了多目標跟蹤的主流水平。
此外,本算法與MPNTrack、Tracktor、JBNOT[23]、FAMNet[24]算法對比實驗結果見表4。

表3 算法在MOT17各序列結果

表4 不同模型在MOT17數據集上檢測結果對比
從表4中可以看出,融合自校準異構卷積的圖傳遞跟蹤算法SCAACTrack在各視頻序列上的跟蹤精度均高于其它算法。和基準算法MPNTrack相比,在檢測準確度和ID切換方面都有一定提升。其中對于IDS部分,提升了17%。這是因為該網絡融合了目標多維度相關特征,使得模型在保持原有跟蹤精度的前提下,對擁擠場合中的多目標跟蹤具有更強的適用性,避免了目標背景重疊與擁堵造成的ID Switch。數據關聯階段采用基于時間感知的消息傳遞,保證了結點對于流式守恒約束的敏感性,有效提高了劃分激活邊階段的分類能力,進而提高了跟蹤算法的精度。
3.3.3 內存占用實驗結果分析
為了驗證模型的可用性,圖7給出了基準算法MPNTrack與SCAACTrack在模型訓練和模型推理時GPU內存占比情況。

圖7 模型在訓練和推理期間模型GPU內存占比
圖7橫坐標表示實驗中模型占用內存情況,縱坐標表示內存占用大小在實驗中出現的頻率百分比,即(出現在某個占用的次統計數/總統計數)×100。從圖7可知,SCAACTrack在訓練過程中出現的最大相對頻率較MPNTrack低,在推理過程中的最大內存占用較MPNTrack少且整個推理過程的內存占用頻率較平穩。總體來看,SCAACTrack在訓練和推理過程中內存占用略高于MPNTrack,但差距不大。該實驗進一步說明了SCAACTrack算法在保證對資源占用穩定的同時,通過引入自校準結構和異構卷積模塊,在不犧牲算法性能的前提下,提高了目標跟蹤的精準度。
3.3.4 消融實驗
為驗證算法有效性,本實驗在基準算法MPNTrack基礎上,使用2DMOT15數據集對所提算法進行消融驗證,對改進的策略進行逐步驗證并加以對比。
首先設計3組消融實驗,第一組為MPN-SC,在進行ReID特征提取時,僅采用自校準卷積結構,對自校準主干卷積網絡不使用非對稱結構;第二組為MPN-SC1,使用自校準卷積結構并且在其校準分支中采用非對稱卷積模塊,在其正常卷積分支中不采用非對稱卷積結構;第三組實驗設計為SCAACTrack,將本文所提改進策略全部應用在MPNTrack算法中。具體實驗結果見表5。

表5 消融實驗
SCAACTrack多目標跟蹤算法分別在MOTA指標和IDS指標高出基準MPNTrack算法0.1%和5.6%;高出第一組MPN-SC算法0.1%和4.6%,第二組MPN-SC1和SCAACTrack在MOTA上持平,但IDS指標高出5%。由此驗證,本文所提算法SCAACTrack在MPNTrack算法基礎上逐步進行優化,對多目標跟蹤任務跟蹤精度有著積極促進作用。
本文提出了一種結合自校準與非對稱結構融合的圖神經網絡跟蹤算法。該算法利用SCAAC算法的特征嵌入與目標位置嵌入來構建圖神經網絡,使用基于時間感知的消息傳遞機制更新信息,通過設置固定閾值對圖的邊進行分類,最終實現多目標跟蹤任務。實驗結果表明,SCAACTrack較MPNTrack在準確率和IDS指標上均有提升。由此看出,SCAACTrack對于MPNTrack有著積極的改進作用。但在實驗過程中,算法的速度及內存占用方面表現不佳,仍存在較大的改進空間,這也是接下來需要解決的問題。