顧立鵬,孫韶媛,劉訓華,李 想
(東華大學信息科學與技術學院,上海 201620)
多目標跟蹤屬于計算機視覺領域中的子問題,一直以來是工業界甚至國防工業中的核心技術之一。近年來,隨著深度神經網絡技術的迅速發展,多目標跟蹤技術領域的相關研究再次在無人車、視頻監控、智慧城市大腦等領域展現出蓬勃生機[1-7]。無人車利用自身搭載的各種傳感器采集車身周圍的信息,并用相關目標檢測算法提取出車身周圍其他車輛、障礙物、交通標志等信息,最后再根據所提取的信息完成路徑規劃、駕駛決策等后續功能。由于無人車需要對車身周圍其他車輛、障礙物、交通標志等目標進行持續跟蹤,才能完成后續的路徑規劃、駕駛決策等功能,因此多目標跟蹤算法在無人車整體系統中起著“承上啟下”的作用,是最核心的技術之一[8-10]。
應用于無人車領域的多目標跟蹤算法近年來取得了許多不錯的成果。Jiangmiao Pang等人提出了多目標跟蹤算法Quasi-Dense,具體為以目標特征建模切入點,使用一種稠密相似性學習方法,通過在一對圖像上密集地抽取數百個區域進行對比學習,以學習出每個目標的特征,然后在推理階段使用最近鄰匹配實現多目標跟蹤[11]。Abhijeet Shenoi等人提取了多目標跟蹤算法JRMOT,具體為將2D RGB圖像和3D激光點云一起輸入到一個聯合概率關聯框架中,以實現在線3D多目標跟蹤[12]。Xinshuo Weng等人在多目標跟蹤算法SORT的基礎上進行改進,提出了多目標跟蹤算法AB3DMOT,具體為將以二維邊界框表示的目標拓展成以三維邊界框表示,然后以目標三維邊界框之間的交并比3DIoU為度量指標,使用匈牙利算法匹配相鄰兩幀之間的目標[13]。雖然上述方法均可以對無人車的車身周圍存在的車輛與行人進行較好地跟蹤,但仍存在下述問題:1)Quasi-Dense算法中目標特征提取過程過于復雜;2)JRMOT算法需要多傳感器感知車身周圍的信息,并且需要相關算法融合多模態的信息,造成了成本的增加與算法的復雜度;3)AB3DMOT算法雖然是以激光雷達作為單獨傳感器感知車身周圍信息,但仍然將檢測到的目標轉換到了車載相機坐標系下進行后續跟蹤環節,這必然造成計算成本的增加。
針對上述問題,提出了基于激光點云坐標系的多目標跟蹤算法:①使用PointRCNN[14]作為以激光點云輸入的3D目標檢測器,檢測出車身周圍的車輛;②提出了基于激光點云大場景坐標系的級聯式匹配策略,對相鄰兩幀點云中檢測出的車輛進行匹配關聯。實驗結果表明,與一些公開的優秀3D多目標跟蹤算法相比,本文所提出的3D多目標跟蹤算法對車輛的跟蹤效果更優異。尤其在sAMOTA、AMOTA、AMOTP和MOTA這四個指標上都具有明顯優勢。
本文所提出的基于激光點云坐標系的多目標跟蹤算法,主要是以激光點云作為輸入,然后使用PointRCNN為目標檢測器,檢測出每幀點云中的車輛,接著使用所提出的基于激光點云大場景坐標系的級聯式匹配策略匹配相鄰兩幀之間檢測出的車輛,以簡單高效地完成在激光點云坐標下的多目標跟蹤任務,并且可以對在當前幀中漏檢的前一幀軌跡進行較好地連續跟蹤,具體網絡結構如圖1所示。

圖1 基于激光點云坐標系的多目標跟蹤算法框圖Fig.1 Block diagram of multi-object tracking algorithmbased on laser point cloud coordinate system
PointRCNN網絡是以激光點云作為輸入的兩階段3D目標檢測器,其與Faster RCNN[15]為代表的兩階段目標檢測器類似,第一步先生成3D建議候選框,然后再對生成的3D建議候選框進行微調,其網絡結構如圖2所示。PointRCNN網絡首先將輸入的每幀激光點云按前景點和背景點進行分割,然后從前景點中生成少量的3D建議候選框,最后將建議候選框在規范坐標系中學習的局部特征與在對點云進行分割過程中學習的全局特征相融合,進一步微調3D建議候選框。

圖2 PointRCNN網絡結構圖Fig.2 Network structure of PointRCNN

(1)

(2)
在多目標跟蹤的數據關聯階段,本文使用貪婪算法對相鄰兩幀之間目標進行匹配關聯。其中,所使用度量指標是激光雷達坐標系下的目標之間三維體積的交并比與三維坐標中心點坐標之間的歐式距離。目標之間三維體積的交并比3DIoU是作為尋找當前幀的每個目標與前一幀目標之間存在的潛在匹配關系的度量指標,而目標之間三維中心點坐標之間的歐式距離則是最終確定相鄰兩幀目標之間匹配關系的度量指標。關于這兩個度量指標在本文所提出的多目標跟蹤算法中的使用方法在2.4小節有詳細說明。
本文中所使用的貪婪匹配算法思路具體為:①首先對當前幀中檢測到的目標按置信度進行降序排列;②然后從高置信度開始,先根據目標之間三維體積的交并比3DIoU尋找到當前幀的該目標與前一幀中哪些目標之間存在的潛在匹配關系;③接著根據目標之間三維中心點坐標之間的歐式距離在有潛在匹配關系的前一幀目標集合中找到最近鄰的目標。若最小的距離小于閾值200,則確定這兩個目標為唯一匹配關系,反之,則認為當前幀中的該目標為新出現的目標。
在多目標跟蹤算法的數據關聯部分中,本文結合了CenterTrack[16]將目標視為點跟蹤的思想和AB3DMOT使用3D卡爾曼濾波器對在當前幀中消失的前一幀軌跡進行一定幀數內連續跟蹤的思想,提出了基于激光點云大場景坐標系的級聯式匹配策略。本文所提出的匹配策略擺脫了現有多目標跟蹤算法在圖像像素坐標系下或相機三維坐標系下進行數據關聯的固有思想,轉而在激光點云坐標系下直接完成相鄰兩幀之間目標的匹配的任務。這樣不僅可以實現在激光雷達坐標系下完成目標檢測與多目標跟蹤兩項任務,還可以簡化目標特征提取的復雜度。


圖3 匹配策略流程圖Fig.3 Flow chart of matching strategy
步驟一(Step1):計算相鄰兩幀之間目標擴大兩倍后的三維體積(xT,yt,zt,θt,2lt,2wt,2ht)的交并比(3DIoU)矩陣,如公式(3)所示。若前一幀中有目標與當前幀的目標之間的3DIoU不為0,則可認為這兩個目標存在潛在的匹配關系;反之,則不存在匹配關系。如公式(2)中,矩陣的行和列分別代表前一幀和當前幀中的目標,其數量分別為4和3。當前幀中第一個目標,分別與前一幀中第一和二個目標存在潛在匹配關系,3DIoU分別為0.92和0.12。這樣可以進一步縮小前后兩幀之間目標的匹配范圍。
(3)

(4)
實驗所使用的數據集為KITTI跟蹤數據集,其包含“Car”、“Pedestrain”、“Cyclist”等九個類別。在實驗中僅對車輛的跟蹤效果進行評估,且將訓練集中21個視頻序列切分成訓練集與驗證集。其中,驗證集被用于評估本文所提出的多目標跟蹤算法,包含了視頻序列1、6、8、10、12、13、14、15、16、18和19。

表1 實驗配置Tab.1 Experimental configuration
本文使用了Xingyi Zhou等人提出的3D多目標跟蹤評估工具對實驗結果進行評估。不同于KITTI官方提供的2D多目標評估工具,3D多目標評估工具直接以三維體積交并比為度量指標將3D跟蹤結果與真實標注進行匹配,來全面真實地評估出3D多目標跟蹤系統的性能。另外,Xingyi Zhou等人還在3D多目標跟蹤評估工具中引入了三個全新的評價指標sAMOTA、AMOTA和AMOTP。
AMOTA和AMOTP的計算方式為求多召回率下的MOTA和MOTP的平均值,主要是為了將目標的置信度閾值條件也納入了多目標跟蹤系統的評估中。AMOTA計算如公式(5)所示:
(5)
其中,L是設定的不同召回率的數量;Ngt是所有視頻序列中所標注的真實目標數量;FPr、FNr和IDSr分別為召回率為r時的漏檢目標數量、誤檢目標數量和目標身份ID切換次數。
sAMOTA計算如公式(6)和(7)所示:
(6)
(7)
本文使用AB3DMOT中提供的PointRCNN在KITTI跟蹤數據集上的檢測結果,這樣是為了更好地與AB3DMOT、mmMOT和FANTrack這三個優秀的3D多目標跟蹤算法進行比較,實驗結果如表2所示。另外,還對基于激光點云坐標系下的級聯匹配策略做了消融實驗,以驗證其三個匹配步驟對多目標跟蹤系統性能的影響,實驗結果如表3所示。
從表2中可以看出,在3DIoUthres分為0.25,0.5和0.7時,本文提出的基于激光點云坐標系下的3D多目標跟蹤算法比mmMOT、FANTrack和AB3DMOT在大部分指標上都要領先,尤其在sAMOTA、AMOTA、AMOTP和MOTA這四個指標上都要領先許多。這表明了本文所提出的3D多目標算法直接在激光點云坐標系下對相鄰兩幀點云中檢測出的車輛進行簡單高效的匹配關聯,就可以取得非常好的多目標跟蹤效果。

表2 在KITTI跟蹤驗證集上的3D多目標跟蹤評估結果Tab.2 3D Multi-object tracking evaluation results on KITTI tracking verification set
從表3中可以看出,本文中所提出的基于激光點云大場景坐標系的級聯匹配策略中三個匹配步驟都對3D多目標跟蹤系統的整體系統具體提升作用。匹配步驟一通過確定相鄰兩幀之間可能存在潛在匹配目標對,剔除不可能匹配的匹配目標對,可以較大提升3D多目標跟蹤系統的性能,MOTA指標提升了5.81 %。匹配步驟二通過對在當前幀中消失的前一幀中存在的軌跡進行跟蹤,可以進一步提升3D多目標跟蹤系統的性能,sAMOTA提升了1.93 %。

表3 在KITTI跟蹤驗證集上消融實驗結果(3DIoUthres=0.25)Tab.3 ablation results on KITTI tracking verification set(3DIoUthres=0.25)
另外,連續4幀激光點云序列的3D多目標跟蹤結果示意圖如圖4所示,從圖中可以看出直接在激光點云坐標系下對車輛進行跟蹤的效果非常可靠且簡單高效。

圖4 連續4幀激光點云序列的3D多目標跟蹤結果示意圖Fig.4 Schematic diagram of 3D multi-target tracking resultsof four consecutive frames of laser point cloud sequence
本文提出了基于激光點云坐標系的3D多目標跟蹤算法,將數據關聯任務直接在激光雷達坐標系下完成。從對比實驗和消融實驗看,本文所提出的3D多目標跟蹤算法性能表現優異,多項指標均領先一些已經公開的優秀3D多目標跟蹤算法,并且所提出的基于激光雷達大場景坐標系的級聯匹配策略中每個匹配步驟都能提高多目標跟蹤系統的整體性能。未來的工作可以集中于如何在激光雷達坐標系下將目標檢測與跟蹤這兩項獨立的任務轉化成一個任務來完成,這樣可以提升3D多目標跟蹤系統整體的效率與性能。