陸林東 張偉偉
(上海工程技術大學 上海 201620)
隨著智能交通系統的發展,監控視頻下的交通流量、違章檢測和交通事故檢測等取得了巨大的成就。由于交通事故檢測算法在智能交通系統中扮演重要的角色,因此也推動了研究人員對事故自動檢測的研究。
在過去的研究工作中,通常利用視頻圖像處理來開發事故自動檢測的方法。主要分析車輛活動,提取相關車輛的方向和加速度等運動特征來識別車輛運動中的安全狀態。Chen Y[1]利用OF-SIFT算法以提取運動特征并使用ELM分類器對交通事故進行分類。劉緯琪[2]提出OBB算法使車輛生成二維包圍盒投影在地面上,檢測不同車輛的包圍盒是否相交判斷碰撞狀態。劉松[3]建立了基于相干運動場的車輛相互作用模型。梁帥[4]構建了一個雙高斯模型的交通事故檢測框架。Singh D[5]提出了一種基于堆疊式自動編碼器(SAE)的深度學習體系結構模型,自動學習時空因果關系,在此基礎上建立了不均勻擴散模型,用于分析不同時段不同區域的交通異常。Hui Z[6]通過基于混合高斯模型的背景建模并使用均值漂移算法實現車輛的跟蹤。Yun K[7]利用運動交互場(MIF)的對稱性來檢測和定位交通事故。Mo X、Wang J、Xia L M[8~10]在視頻異常檢測中,采用了稀疏重建技術。
不同于現有方法,本文引入了一個深度學習框架來檢測與跟蹤車輛的外觀和運動特征。當交通事故發生時,車輛的姿態和運動狀態的突變是事故檢測的關鍵特征。因此本文在輸入的監控視頻中通過三維物體檢測與跟蹤算法映射整個過程的三維姿態和軌跡的運動狀態。在此基礎上將生成的車輛三維包圍框和運動特征建立三維事故檢測評價函數。設定碰撞閾值,將高于此閾值的車輛運行狀態判定為發生碰撞事故。
圖1為本文提出的算法是基于單目視覺的三維物體檢測與多目標跟蹤的框架,算法主要由三個階段組成。第一階段:利用卷積神經網絡訓練一個三維物體檢測器來檢測道路上的車輛;第二階段:利用擴展卡爾曼濾波對檢測到的車輛進行預測及狀態更新,生成二維-三維多目標跟蹤,從而在整個視頻序列中實現車輛6自由度的三維目標姿態恢復;在最后一階段中,基于運動車輛軌跡以及外觀建立了一個車輛行為函數用來判斷事故的發生。

圖1 算法框架示意圖
車輛的三維包圍框可以提供位置、尺寸與朝向等信息,即9個自由度表示車輛的運動狀態。(x,y,z)表示車輛中心點所在三維坐標系中的位置;(w,h,l)表示車輛的寬高長;(α,β,γ)則表示車輛的偏轉角、航向角及俯仰角。本文基于Darknet-53[11]網絡模型通過端到端的方式訓練模型,再由自由度參數和攝像機投影矩陣形成三維邊界框。在卷積層中提取了與特征金字塔網絡(FPN)相似的特征描述模塊,該模塊包含了更深的卷積層和反卷積層來捕獲圖像細節。如圖2所示三個不同輸出張量,高分辨率的輸出張量能夠捕獲更豐富的圖像細節,諸如視野遠處的物體,而低分辨率的輸出張量能捕獲更多的圖像上下文信息。將輸入的每張圖像都歸一化尺寸為416*416,本文所設計輸出類別為車輛,輸出參數為9個自由度參數加一個置信度參數,輸出3個不同尺寸的特征圖譜,則張量深度為


圖2 模型輸出張量
針對這些輸出參數,設計了3D Box Proposal Networks(3DBPN)損失函數,3DBPN損失函數主要包括位置Lloc、尺寸Lsize和朝向Lθ。xi,yi,zi與分別表示空間中的真實空間坐標與預測坐標;wi,li,hi與分別表示物體的真實尺寸與預測尺寸;θi與分別表示真實方向與預測方向。每個損失函數都設置了不同的權重α用于進一步提高參數的預測性能,損失函數如下所示:

通過非極大抑制算法過濾較低得分的候選生成框,以提升較高精確度的車輛三維包圍框。車輛的3D檢測算法提供了在監控視角下的車輛位姿預測,便于執行下一步的3D跟蹤。
在當前的檢測結果中建立幀與幀之間的關系,融合二維-三維擴展卡爾曼濾波(EKF)對道路上的車輛進行運動預測與狀態估計,從而實現車輛的三維姿態跟蹤。如前一節所述,在初始幀中檢測到的車輛輸出三維包圍框尺寸和角度信息后,確定初始化的車輛位姿。在連續的兩幀圖像中,利用擴展卡爾曼濾波器通過三維重投影來估計下一幀目標的跟蹤狀態。觀測結果由3D物體檢測與2D檢測相結合構成了所有的觀測模型,使用MRF模型從生成的大量假設性觀測結果中選擇合適的觀測結果作為下一幀的初始檢測框。
結合投影和反投影操作,將軌跡點應用于三維邊界框的中心位置。遞歸神經網絡LSTM用于跨幀關聯和匹配道路中車輛的位置。從LSTM模型中獲取速度,并利用該速度估計三維姿態來更新三維位置。根據訓練數據的平均大小,可以隨著視野遠近定期更新三維包圍框的大小。圖3提供了一組由二維-三維擴展卡爾曼濾波觀測組成的軌跡假設,這些假設與檢測生成三維物體相關并利用軌跡假設來跟蹤物體。通過一個新的觀測結果來更新現有的假設,并得到最優的評分跟蹤軌跡。

圖3 二維-三維擴展卡爾曼濾波觀測組成的軌跡假設
基于車輛的運動姿態,本節建立了監控視頻下由車輛軌跡、3D包圍框尺寸和旋轉角的變化組成的交通事故評價函數A。
車輛軌跡是交通視頻監控中最直觀的車輛運動行為表達方式。利用軌跡數據提取不同類型的車輛軌跡進行先驗訓練,在1~n幀里對軌跡點p采用K最近鄰分類算法。給定權重參數wt,車輛的3D包圍框軌跡函數Trajobj與軌跡評價函數Dt如下:

車輛碰撞同時也會帶來相應的3D包圍框的快速變化,本文為每個車輛設置一個合適的變化范圍用于對比車輛正常行駛中的3D包圍框。先驗包圍框的長寬高平均尺寸設為sˉ,合理尺寸si變化范圍設置如下:
計算車輛3D包圍框的尺寸方差O3D(W ,H,L),設置權重參數ws,可以得到車輛的包圍盒尺寸評價函數Ds。

相應地計算出車輛包圍框三個旋轉角O3D( α,β,γ)變化方差,設置權重參數wθ,得到車輛的旋轉角評價函數Dθ。

在連續幀中被檢測到發生車輛事故由閾值參數At決定,檢測結果函數設置如下:

本實驗主要在路口監控視角下測試車輛的檢測跟蹤以及事故檢測的性能。用于實驗測試的數據集來自于KITTI數據集[11]與國內各路口監控數據集,涵蓋了不同天氣環境和交通流量,從中提取了100個視頻序列并進行圖像標注。用于訓練的視頻幀數占據交通視頻總幀的五分之三,其余視頻幀作為測試幀。通過隨機梯度下降法對每一批1000張圖片進行訓練,計算它們的平均損失函數值以更新參數值。前3萬次迭代中設置學習率為0.001,后1萬次迭代設置學習率為0.0001。
本文的實驗與目前最先進的幾個車輛3D姿態檢測器進行了比較。檢測車輛用KITTI數據集官方評估方法,在三個不同遮擋程度下進行檢測。為了評估三維物體檢測的準確性,根據實際情況制定了三個評估標準。首先是計算物體的三維包圍框中心點距離相機的真實距離與估測距離的誤差率,其次比較隨物體與相機真實距離增大,檢測到的三維包圍框與真實三維包圍框的交并比變化趨勢。圖4(a)、(b)所示在KITTI數據集3D檢測的前兩個評估標準下,本文方法與其他方法的實驗對比圖。最后一個評估標準為車輛方向的比較,通過檢測三種不同遮擋程度的數據集,比較平均方向相似度(AOS)、平均精度(AP)和方向得分(OS)。如表1所示,本文的方法與其他三種3D檢測方法相比,綜合準確率在其他方法之上。
在三維目標跟蹤中,尺度變化、方向變化以及遮擋都會對跟蹤性能造成影響。本文對50個交通監控視角下的視頻序列進行跟蹤測試,并與其他跟蹤方法進行比較。分別從多目標跟蹤平均精度(MOTA),假陽性(FP)與假陰性(FN)來多指標評估模型的魯棒性。如表2、圖5所示,本文的3D目標跟蹤軌跡清晰,三維包圍框回歸的車輛姿態比較準確。

圖4 在KITTI數據集上的3D檢測實驗對比

表1 車輛方向回歸實驗對比

表2 跟蹤效果實驗對比

圖5 道路監控下的跟蹤效果
對于交通事故檢測性能的評價方法,本文利用真陽性率(TPR)與假陽性率(FPR)兩個評價指標繪制了ROC曲線。如圖6所示,與BiSTM[9]、STM[10]相比,本文提出的算法能夠以較高的準確率識別多種環境下道路上的交通事故。

圖6 事故檢測ROC曲線
對于道路監控下車輛事故的自動檢測,本文提出了一種融合二維圖像與三維信息的事故檢測方法。通過車輛的三維檢測與跟蹤任務生成的三維語義包圍框用來提取車輛的運動特征,其中包括車輛的軌跡、3D包圍框的尺寸與朝向,并利用三維語義包圍框建立了事故檢測評價指標。實驗結果表明,本文實現的算法在事故檢測上具有魯棒性、準確性、穩定性。