梁貴 滕廣華 羅傳 文進 戴維



關鍵詞:跨攝像頭多目標跟蹤;加權圖;最小費用最大流算法;深度學習
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2023)14-0029-04
0 引言
基于攝像頭的目標追蹤技術得到了廣泛的應用[1-4]。如應用于逃逸犯罪分子追蹤、突發自然災害記錄、交通違章記錄留存等提供影視信息和資料具有重大意義[5-6]。隨著人工智能和深度學習研究成果的發展與更新,基于攝像頭的目標追蹤技術研究得到了進一步發展,尤其在跨攝像頭多目標監測跟蹤的研究和應用方面。
跨攝像頭多目標跟蹤(Multi-Target Multi-Cam?era Tracking,又稱MTMCT)問題致力于從多個攝像頭的視頻流中提取所有人的行動軌跡。因此,結合人工智能和深度學習的方法,解決跨攝像頭多目標跟蹤問題具有極大研究價值和研究意義。
跨攝像頭多目標跟蹤存在不足。如存在光線等環境條件不同以及目標的姿態變換。同時,無法事先得知目標區域同一時間內經過的目標的數量[7] 。因此,跨攝像頭的多目標跟蹤問題相當復雜。
跨攝像頭多目標跟蹤問題的解決方案是先提取每個攝像頭的目標軌跡,即單攝像頭多目標跟蹤任務(single-camera Multi-Object Tracking,簡稱MOT),然后再用多個攝像頭的行為軌跡匹配出對應目標的完整軌跡。主要完成目標檢測和再識別(re-identifica?tion,簡稱re-ID)的工作,兩種工作不共享特征,且模型不同。在傳統的跨攝像頭多目標跟蹤研究[8-9]中,這兩個工作獨立進行。然而,檢測追蹤過程中,目標區域存在連續多人行走和行走速度快因素,會造成系統難以負荷存儲的數據量而出現數據丟失。
因此為了解決上述問題,本文采用一種基于圖算法的多攝像機追蹤的方法,該方法首先利用DeepSort 算法和OsNet行人重識別模型得到各個單一攝像頭的軌跡后,將這些軌跡根據特定的方式組合成為圖,并為圖邊賦予一定的權重,然后通過迭代最小費用最大流算法進行解決,將各個攝像機的軌跡連接起來得到最終軌跡,該方法能夠在非重疊多攝像頭視覺目標跟蹤中取得較好的成果。
本文的貢獻如下:
1)給出行人重識別算法。利用OsNet輕量級網絡進行行人重識別,提升了行人重識別的能力。
2)建立行人追蹤模型。結合DeepSort算法,構建全局圖追蹤模型,利用最小費用最大流算法提高跨攝像頭追蹤的能力。
1 相關工作
迄今為止,大多數的跨攝像頭多目標追蹤(MT?MCT)都是由兩個階段組成,一是單攝像頭內的多目標追蹤,并生成其軌跡,二是所有攝像頭內的目標軌跡進行匹配,生成目標的完整軌跡。在過去幾十年內,已經有無數的學者進行研究,所以本文將分兩個部分介紹MTMCT的相關工作,分別是單攝像頭多目標追蹤以及跨攝像頭多目標追蹤。
1.1單攝像頭多目標追蹤
文獻[10] 提出使用雙線性LSTM 的神經門控多目標跟蹤,能有效地訓練在外觀和運動上對對象軌跡進行評分的循環模型,并在MOT 2016和MOT 2017基準測試中實現了近在線多目標跟蹤的最先進性能。文獻[11]提出一種簡單在線和實時跟蹤(SORT)方案,對圖像進行卡爾曼濾波和逐幀數據關聯,在高幀速率下實現了良好的性能。在MOT 挑戰數據集[12] 上,使用最先進的人員檢測器[13] 的SORT在標準檢測上的平均排名高于MHT。文獻[14]利用對象檢測器的邊界框回歸來預測下一幀中對象的位置,復雜的跟蹤場景,實現對檢測目標實施跟蹤。文獻[15]將多目標跟蹤的流行任務擴展到多目標跟蹤和分割(MOTS)。
1.2跨攝像頭多目標追蹤
文獻[16]利用行人重識別(Re-ID)特征技術,提出跨攝像頭多目標追蹤模型。文獻[18]提出TRACkletto-Target Assignment(TRACTA)方案解決了跨相機的軌跡匹配問題,方案具有一定的實用性。文獻[19] 提出了一種基于時空提升多切割公式的數學上優雅的多相機多目標跟蹤方法,該方法利用單相機跟蹤器產生的最先進的軌跡。
2 多目標追蹤技術模型
2.1模型架構
依據跨攝像頭視頻中所形成的完整軌跡,對輸入的視頻進行逐幀處理,實現行人檢測和追蹤。所提出的跨攝像頭多目標追蹤技術模型包括兩個模塊:單攝像頭目標跟蹤模塊和跨攝像頭目標跟蹤聚合模塊。在單鏡頭追蹤階段利用DeepSort算法[20] 和Osnet[21] 行人重識別網絡模型來實現對行人的追蹤,形成單鏡頭的追蹤軌跡;而在多鏡頭追蹤階段,則是通過參考文獻[22]中提出的最小成本流網絡圖進行對全局軌跡數據的關聯,以形成多個攝像機之間的軌跡。下面將對本方案的各個部分進行詳細介紹。
2.2行人檢測和行人重識別特征提取
本節主要完成行人檢測和行人重識別特征提取模型構建。在模型構建過程中,本節主要采用OSNe網絡來實現對行人的重新識別。OSNet 全稱為Omni-ScaleNetwork(全方位網絡)。其引入了一種新穎的統一匯聚門,以動態融合多尺度特征和與輸入有關的通道權重,有效地實現學習空間通道相關性并避免過度擬合,在構件塊同時使用了點向和深度卷積。
2.3單攝像頭多目標追蹤
本節中,在單攝像頭目標追蹤算法設計需要考慮數據濾波和圖像幀的關聯性,結合DeepSort算法實現單一攝像頭多目標追蹤算法。具體算法實現如下所示:
2.4多攝像頭多目標追蹤
本節算法的目標是將各個攝像頭中行人的運動軌跡結果中出現的同一個人的軌跡進行拼接連接,設計成為一個相似度量的全局圖模型,然后通過迭代最小費用最大流算法進行求解,得到了包含單鏡頭追蹤階段和多鏡頭追蹤階段的全局軌跡。具體算法如下所示。
3 實驗結果及分析
3.1數據集
本次實驗采用的數據集是NLPR_MCT 數據集,NLPR_MCT數據集由四個子數據集組成,每個子數據集包括3~5個不重疊場景的攝像機,根據人數(從14 到255)和照明變化和遮擋程度有不同的情況。采集的視頻既有真實場景,也有模擬環境。所有視頻(數據集3除外)都在20分鐘左右,速率為25fps,并且是在日常時間的非重疊視圖下錄制的,這使得數據集很好地代表了日常生活中的不同情況。NLPR_MCT數據集的子數據集1的部分情況的展示圖像如圖2所示:
3.3實驗結果及分析
本次實驗采用的數據集為NLPR_MCT中的三個子數據集,分別是第一、第二以及第四個子數據集,第三個子數據集由于和現實情況相差較遠,參考意義較低,因此在本文中不使用,其中訓練的硬件環境如表1 所示:
通過對NLPR_MCT數據集的三個子數據集進行訓練后結果如表2所示:
由表2的結果可知,本文提出的非重疊區域跨攝像機多目標追蹤在NLPR_MCT數據集中的子數據集一和子數據集三中得到的MTCA值分別為87.12%以及85.11%,均超過了文獻[22]的表現結果,即85.25% 以及73.7%;并且本文提出的方法在三個子數據集上的平均MTCA 值為67.41%,同樣超過了文獻[22]的65.58%。因此可以表明本方案在解決非重疊區域的跨攝像頭多目標追蹤的問題時是有效的。
4 總結
本文針對利用圖算法解決跨攝像多目標追蹤領域目前存在的問題,提出基于圖算法的跨攝像頭多目標追蹤技術模型,實現了跨攝像頭多目標追蹤功能。