收稿日期:2021-09-06;修回日期:2021-11-06" 基金項目:浙江省重點研發計劃項目(2020C01057)
作者簡介:梁睿琳(1998-),女,陜西西安人,碩士研究生,主要研究方向為智慧高速感知技術;王銳(1985-),男,山東莘縣人,高級工程師,機電研究院院長,主要研究方向為自動駕駛關鍵技術;郭迎(1989-),女(通信作者),陜西西安人,工程師,博士研究生,主要研究方向為智慧高速全息感知關鍵技術、車路協同關鍵技術及應用(guoying_chd@126.com).
摘 要:針對傳統高速公路異常事件檢測方法效率低、漏檢率高、實時性較差等問題,提出基于視頻時空關系的高速公路異常停車檢測方法。首先,采用基于交通流頻率分析的無監督分割方法分割道路圖像,去除較小連通域提取道路分割圖;然后,通過透視關系模型將近遠目標歸一化到同一尺度并進行裁剪,輸入YOLOv4網絡進行二次檢測增強對近遠目標檢測的魯棒性;最后建立時空信息矩陣,通過時空矩陣的更新與NMS(non-maximum suppression)方法檢測合并異常區域并輸出檢測結果。實驗結果顯示,該方法在遠距離場景中的準確率為95%,在擁擠場景中的準確率為93%;通過對比實驗結果發現該方法能夠有效提高復雜場景下異常停車的檢測準確率且具有良好的泛化能力。
關鍵詞:智能交通;異常停車;道路分割;YOLOv4;透視關系;時空關系
中圖分類號:TP391.9"" 文獻標志碼:A
文章編號:1001-3695(2022)06-055-1916-05
doi:10.19734/j.issn.1001-3695.2021.09.0617
Highway abnormal parking detection based on video spatio-temporal relationship
Liang Ruilin1a,Wang Rui2,Guo Ying1a,1b
(1.a.School of Information Engineering,b.School of Foreign Languages,Chang’an University,Xi’an 710021,China;2.Zhejiang Shuzhi Communication Technology Co.,Ltd.,Hangzhou 310000,China)
Abstract:The current highway abnormal event detection efficiency is low,the leakage rate is high,real-time poor,and so on,this paper proposed highway abnormal parking detection method based on space-time relationship.Firstly,it used the traffic flow frequency to quantify the split image and removed the smaller connectivity domain to extract the road surface information,then used the perspective geometry of the pinhole camera to normalize the same scale.It used YOLOv4 network to obtain the exact position of the vehicle target,and established the space-time information matrix.To detect abnormal region and the detection results can output by the update of the space-time matrix.The experimental results show that the accuracy of this method is 95% in long-distance scenes and 93% in crowded scenes.
Key words:intelligent transportation;abnormal parking;road segmentation;YOLOv4;perspective relationship;time-space relationship
0 引言
近年來,我國機動車數量不斷增加,給現有道路通行能力和交通管控能力帶來了巨大挑戰。特別是在高速公路環境中,車輛違停等異常行為一旦發生,將會導致嚴重的交通事故。因此及時發現異常行駛車輛,檢測交通異常事件十分重要。傳統人工觀看視頻監控并判斷交通事件異常的檢測方式勞動強度大,工作效率低且存在漏判現象,已不能滿足智能交通發展的需求,基于計算機視覺的交通異常事件自動檢測技術越來越受到學者們的重視[1~3]。目前主流的基于計算機視覺的異常自動檢測方法包括基于模型的異常行為檢測和基于深度學習的異常行為檢測[4]。基于模型的方法通常采用正常樣本進行模型構造,由于異常行為會偏離正常行為模型,故在測試階段偏離模型的樣本即可判定為異常。高斯混合模型(GMM)、隱馬爾可夫模型(HMM)是異常檢測中常用的參數模型。在車輛異常行為檢測算法中,GMM可以自動獲取關聯屬性并通過曲面擬合和加權抽樣策略克服異常檢測中樣本不足的問題[5,6],但其計算過程復雜且特征數目較大時計算成本較高。HMM可以依據時域特征將目標行為分解為簡單和復雜兩部分以有效檢測場景中的細微異常行為[7],但其在訓練時需提前設定狀態數目且無法更改,因此僅適用于對場景先驗知識較了解的情況。狄利克雷混合模型(DPMM)是一種非參數模型,基于DPMM對車輛行為建模時無須提前設定模型數目,相比于參數模型更適用于對視頻中復雜場景的異常檢測[8,9]。
上述基于模型的異常檢測雖然具有良好的檢測效果,但其依賴于手工提取時空域特征且場景遷移能力差。因此隨著深度學習的發展,異常行為檢測算法正由基于模型的方法向基于深度學習的方法轉換。基于深度學習的異常檢測方法通過特定的網絡結構,從大量訓練數據中自動提取由低階邊緣到高階語義等更具有判別性的行為表示特征,具有更優異的行為檢測性能。基于深度學習的異常檢測方法可分為基于監督學習的方法和基于無監督學習的方法。
基于監督學習的方法操作簡單、易于理解,但標注數據需要大量時間,面對真實場景時檢測效果不佳,此外該方法需要大量時間調節參數以獲取最佳異常檢測結果[10]。所以基于深度學習的方法更多地采用無監督的訓練方法。文獻[11]應用自動編碼器對正常樣本行為進行特征表示,再利用解碼器對視頻幀進行重建,最后根據重建誤差檢測異常。文獻[12]基于變分自編碼器(VAE)通過端對端的深度學習技術將正常樣本的隱層表示約束成一個高斯分布,計算測試樣本隱層表示屬于高斯分布的概率并根據檢測門限判斷其是否異常。Liu等人[13]利用生成對抗網絡(generative adversarial network,GAN)等生成式網絡對視頻進行重建或預測,再將重建誤差大于閾值的個例判定為異常。Chong等人[14]通過將空間卷積特征提取器和時間特征提取器合并到深度自動編碼器中,構建了一個端到端的異常檢測模型。Medel等人[15]采用基于卷積LSTM(convolutional LSTM,Conv-LSTM)網絡的自編碼器對正常行為的外觀和運動模式進行建模,進一步提高了基于自編碼器異常行為檢測方法的性能。基于無監督的車輛異常行為檢測算法無須對樣本進行注釋,僅依靠樣本數據自身分布規律將小概率事件判定為異常。但在異常檢測時需要構建復雜的網絡模型,檢測效率低且需要對原始樣本數據進行大量的處理和分析。例如,自編碼器通過無監督的方式對交通場景中的車輛正常行為進行特征表示,但車輛異常行為的檢測需要對比分析正常樣本檢測來重建誤差。
基于以上工作,本文提出基于時空關系的異常停車檢測,該方法采用無監督學習,檢測結果僅依賴于目標識別結果,無須對待測數據進行分析與處理,能夠準確定位異常啟停時間,有效適應多變的環境。首先使用均值法建立背景,再依據交通流頻率信息分割路面;其次將透視關系與YOLOv4網絡結合以進行車輛目標檢測,該操作將處于圖像中不同位置的目標歸一化,提高了遠處小目標檢測的精度;然后根據車輛檢測結果構造時空矩陣以記錄每個被檢像素的時空狀態;最后依據時空矩陣的更新檢測異常,并對得到的異常采用非極大值抑制(NMS)方法進行回溯合并以得到準確的異常區域和開始、結束時間。該檢測方法能夠快速高效地檢測異常停車事件且具有良好的泛化能力。
1 基于透視關系和YOLOv4模型的車輛檢測
1.1 交通流頻率道路分割
為了獲取車輛坐標位置,判斷車輛違停狀態,精確提取運動目標前景是后續目標檢測和異常檢測的關鍵。高速公路監控視頻圖像視野較大,需要選用合適的方法分割路面以排除場景外房屋或路側樹木對目標檢測的影響。本文應用一種基于交通流頻率分析的無監督分割方法,該方法操作簡單且效果良好。如圖1所示,首先將檢測結果加權疊加獲得車輛在整幅圖中的分布頻率,然后歸一化整幅圖后執行二值化操作以獲得交通流分割圖,最后濾除交通流分割圖中小面積連通域的道路分割圖S。
為了區分背景和靜止車輛,本文應用背景平均加權建模[16]以增強物體中靜態部分抑制運動部分。對于具有N幀的給定視頻V,連續計算加權和由式(1)給出:
Ftavg=(1-α)Ftavg+αFt+m(1)
其中:Ftavg是時間t=100,…,N的平均圖像;α是更新率;m是固定間隔。為了降低平均復雜度,本文設置采樣周期為100。此外,設置α=0.1和m=30。
1.2 透視關系建模
濾除運動目標后需要檢測靜止車輛,然而實際交通場景中遠處小目標容易漏檢,從而導致異常事件漏檢。因此本文利用透視關系[17]將近遠目標歸一化到一個更小的波動范圍以增強對近遠目標檢測的魯棒性。
透視關系廣泛存在于車輛、人群等視角明顯的場景[18]。透視圖的一個像素定義為代表真實場景中該位置1 m的像素數[19],因此圖像中觀察到的物體大小只與透視值有關。依據圖2顯示的針孔相機透視幾何,建立透視關系如下:
yt=f(C-H)Z1
yb=fCZ1(2)
其中:yt和yb為車輛頂部和底部在圖像平面的位置。因此車輛高度計算公式為
h=yt-yb=fHZ1(3)
兩邊同除以yt得
h=HC-Hyt(4)
因此,圖像中目標大小和其在現實世界中的比例關系可表示為
hH=1C-Hyt(5)
本文假設車輛高度之間的差異沒有影響,因此采用固定的H值,且相對于同一相機,k=H/(C-H)同樣是固定值。則上式可簡化為h=k×y+b,其中b=k×y0,h通過初始檢測結果獲得:
hi=width×height(6)
其中:weight和height分別是檢測框的寬和高;y為檢測框在y軸方向的坐標;k與b的值可以通過線性回歸獲得。
1.3 基于透視關系的YOLOv4車輛檢測
透視關系的建立主要依靠檢測框結果,因此選用合適的目標檢測算法進行初始檢測十分重要。目前主流的目標檢測算法有one-stage和two-stage兩種。two-stage指檢測算法分兩步完成,首先獲取候選區域,然后進行分類,典型代表有R-CNN[20]系列;與之相對的one-stage檢測則無須單獨尋找候選區域,如SSD[21]/YOLO[22]系列。YOLO能夠在GPU上每秒處理較高幀數,同時提供與其他先進的模型相同甚至更好的精度[23]。速度是交通視頻檢測異常的關鍵,因此本文選用YOLOv4網絡作為車輛目標檢測網絡并將其與透視關系結合以獲取車輛的精確位置。首先利用YOLOv4獲取初始檢測框結果,然后應用線性回歸計算透視關系中的關鍵系數k和b,基于此就能夠對圖像中不同區域的尺度進行歸一化裁剪。裁剪區域面積根據區域內可容納的目標數量進行劃分。在這里,本文假設每個裁剪區域具有相同的車輛容量。
A=∫y2y11hdy=∫y2y11ky+bdy(7)
其中:A表示y1與y2間能夠容納車輛目標的數量;定義h0為圖像中可檢測到的最小目標尺寸,當目標尺寸小于等于h0時,忽略該目標。由于目標過小時其輪廓細節已經完全丟失難以檢測,實驗中將h0設置為10,區域的容量A設置為3。根據式(7)即可計算出區域容量為3時對應的像素個數及y軸坐標。然后根據像素個數和相應y軸坐標對原始圖片進行裁剪,當y值較小時,由于目標尺度較大,所以通常對應位置的像素值個數大于透視圖中的像素值,這也是近距離物體檢測精度高的原因。而當y值較大時,由于目標距離遠導致尺度縮小,對應位置像素值個數遠小于透視圖中的像素值,此時可以應用雙線性插值補齊相關像素以提高遠距離小目標的清晰度。最后將裁剪后的圖片輸入YOLOv4[24]網絡進行二次檢測并將檢測結果依據坐標關系映射回原圖以提高對遠距離小目標的召回率。此應用過程如圖3所示。
為了獲得更加適用于真實環境的目標檢測模型,本文通過自制數據集并使用遷移學習以訓練模型達到最佳檢測效果。對于每個視頻幀,構建檢測框集合:
B={F1,b1,F2,b2,F3,b3,…,Ft,bt}(8)
其中:Ft表示第t幀圖像。對圖像Ftavg中檢測到的每個目標,該網絡預測輸出一個檢測框:
bi={Ctxi,Ctyi,Wti,Hti,confidence,class}(9)
其中:Ctxi、Ctyi表示第t幀圖像的第i個預測框中心點x坐標與y坐標;Wti、Hti、confidence、class分別表示該檢測框的寬度、高度及預測目標所屬類別及其置信度。本文只考慮與車輛相關的類汽車、公交車、重卡、皮卡、面包車,而將剩余目標定義為其他。
2 基于時空關系的車輛異常停車檢測方法
通過透視檢測模塊能夠獲取靜止車輛位置信息,但并非所有檢測的靜止車輛都可判定為異常,并且根據檢測結果確定同一異常開始和結束時間十分困難。一個常用方法是使用對象跟蹤[25,26]或光流法[27]分析同一車輛的軌跡以判定異常。但是基于軌跡特征的異常檢測依賴于軌跡提取,而視頻質量、車輛間互相干擾都會導致軌跡縮減。因此本文不再分析車輛軌跡而著重分析其位置以穩健地定位和識別每個異常。其具體流程如圖4所示。首先建立時空矩陣記錄被檢像素在異常發生期間的時空關系,即異常像素的空間位置與所處時間狀態信息,然后通過不斷更新時空矩陣以檢測車輛異常停車行為。其更新及異常檢測流程如算法1所示。
依據原始圖片尺寸長度L和寬度W定義時空矩陣Vdetected、Vundetected、Vscore、Vstate、Vstart、Vend如下:
Vdetected=Vundetected=…=00000
00000
00000(10)
各矩陣記錄像素情況如表1所示。
其中:當連續檢測到某位置時,該位置進入可疑異常狀態,該異常狀態由Vstate更新,當檢測到最新異常時,計數矩陣Vdetected和連續未檢測矩陣Vundetected更新。道路異常停車的一個主要標準是停車時間長短。故本文只分析進入可疑異常狀態且持續時間最長的位置。當異常持續時間過長(大于60 s)時,以該位置為起點進行廣度優先遍歷,以得到Vdetected中計數值相似的連通區域。同時記錄該連通區域進入異常狀態的開始時間Vstart,同時待該區域的異常狀態Vstate更新后輸出結束時間Vend,并將檢測到連通區域位置的平均得分作為異常得分。
為了獲取準確完整的異常停車區域,本文應用NMS方法合并上述連通區域,并將大于閾值IoU(intersection over union)的異常更新最早時間定義為異常停車的開始時間,最晚時間為結束時間。因算法輸入為加權平均后的圖像,故檢測到靜止車輛時間存在延遲。針對這一問題,本文在固定時間長度內對異常區域的原始圖像進行時間回溯。回溯過程中的異常區域與當前輸出異常區域面積的IoU>0.5時,更新異常開始時間。同時,如果在此異常區域內持續檢測到車輛則繼續回溯,直到未檢測到新異常為止。
算法1 基于時空矩陣的異常停車檢測算法
輸入:T時刻視頻幀;檢測框集合B;T-1時刻圖像信息矩陣Vold;道路分割圖S。
輸出:T時刻圖像信息矩陣Vnew。
1 初始化零矩陣Mdetected and Mscore;
2 for each b∈B do
3" if scorebgt;0.3 then
4"" Mdetected[b]=1;
5"" Mscore[b]=maximum(Mdetected[b],score);
6" end if
7 end for
8 更新時空矩陣對應位置;
9 尋找異常位置峰值附近的異常區域;
10若某位置異常持續時間gt;thresholdtime
11 得二值化矩陣Mbinary where Vdetected[pos]-Vdetected≤1;
12 使用廣度優先搜索(BFS)Mbinary矩陣峰值位置的連通區域作為異常區域;
13若某位置未連續被檢測時間gt;thresholdundetected;
14" 異常狀態恢復為正常狀態;
15更新時空矩陣為Vnew;
3 實驗結果與分析
3.1 實驗數據集
本文選取來自三個真實高速公路中不同場景的監控視頻和UA DETRAC數據集[15]作為車輛檢測數據樣本。其中UA DETRAC包含使用Cannon EOS 550D相機在中國北京和天津不同位置拍攝的24個10 h視頻,分辨率為960×540。高速公路監控視頻包含雨天、夜晚等復雜天氣和匝道、主干道、上坡等不同場景的5段視頻,分辨率為1 270×980,從中抽取若干幀采用人工方式進行標注和分類。該混合數據集共包含5 200張圖像,采用隨機選擇的方式將數據集分成80%的訓練集和20%的測試集。訓練集有3 924張圖像,其中,包含2 616張來自真實高速公路的監控視頻,1 308張來自UA DETRAC數據集。測試集有1 276張圖像車輛目標與訓練集完全不同的圖像以測試已訓練模型的準確率。
由于來自真實環境的異常數據難以捕捉,所以本次實驗使用英偉達官方發布的異常事件檢測數據集[28]。該數據集由100個視頻組成,每個視頻平均時長約15 min,幀速為30 fps,分辨率為800×410,共包含18起由車禍、違章停車引起的異常停車事件。本次實驗數據集的詳細信息如表2所示。
3.2 實驗評價指標
異常數據集包含異常停車事件及異常開始及結束時間,所以應用F1-score衡量模型檢測性能,F1分數越大,模型檢測異常準確率越高,應用均方根誤差(RMSE)衡量檢測時間誤差,時間誤差越小,模型檢測異常起始時間越準確。其中,TP為標簽值為真且預測值為真,FP為標簽值為假而預測值為真,FN為標簽值為假且預測值為假,則F1-score計算公式如下:
precision=TPTP+FP,recall=TPTP+FN
F1=2×precision×recallprecision+recall(11)
均方根誤差反映了異常檢測模型測試結果與真實異常數據的偏差,本文主要依此衡量檢測時間精度,計算公式如下:
RMSE=1m∑mi=1[(Tend-Tbegin )-(Pend-Pbegin)]2(12)
其中:m表示觀測次數;Tbegin、Tend表示異常事件起始時間;Pbegin、Pend表示異常檢測模型預測異常事件起始時間。由于實驗評估指標由模型異常檢測性能和檢測時間誤差兩部分組成,所以為了更直觀地表示異常檢測模型檢測能力,定義異常模型檢測分數S并計算為
S=F1×(1-RMSE)(13)
其中:S為0~1,分數越高越好;RMSE使用min-max歸一化,最小值為0,最大值為300。
3.3 實驗過程及評價
本文以上述異常數據集為研究對象,驗證異常停車檢測算法的正確性。其中視頻分辨率為800×410,幀率為30 fps。圖5為截取自高速公路異常停車事件發生視頻的第1 803幀、第5 623幀、第7 023幀、第10 168幀及包括本文算法在內的三種異常算法檢測結果。該視頻展示的是目標車輛由正常行駛狀態逐漸變為減速慢行狀態,最后變成停車狀態的過程。從圖中可以看出,從1 803幀到5 623幀車輛由正常行駛開始逐漸減速行駛,單位時間內的位移逐漸變小;從5 623幀到7 023幀,車輛由減速行駛變為停止狀態,且在該位置停止了一段時間,在10 168幀時異常停車狀態結束。
其中圖5(a)為基于時序模型[15]的檢測結果,該方法對運動目標的速度和方向進行建模,提取光流特征至卷積神經網絡并結合分類算法實現異常停車檢測,但是由于異常發生時間過長,該時序模型已經無法保持異常檢測狀態導致在7 023幀時丟失異常。圖5(b)為基于運動目標軌跡[27]的檢測結果,該方法通過檢測運動目標軌跡并創建基于軌跡的異常判斷模型檢測出了異常停車事件,但是在5 623幀中,受異常停車事件影響而行車緩慢的兩輛車軌跡與異常軌跡高度相似(綠色框標注),導致基于軌跡的異常檢測模型檢測失誤。圖5(c)為本文異常檢測模型的檢測結果,通過輸入加權平均圖像至本文所述異常停車檢測算法,準確地檢測到了異常停止車輛并給出了異常開始和結束時間。
為了驗證本文異常停車檢測算法的有效性,分別對高速公路近遠距離場景及道路擁擠場景進行檢測并使用基于運動目標軌跡的異常檢測算法、基于時序模型的檢測算法作對比實驗。實驗中對相關參數進行設置,將正常狀態轉換到可疑狀態的閾值設置為6個連續幀,thresholddetected=6,可疑狀態轉換到正常狀態的閾值設置為8個連續幀,thresholdundetected=8,輸出異常的最短時間閾值為60 s,檢測異常的最小分數閾值為0.8。最后得到的實驗結果如表3和4所示。
在近距離和遠距離場景中,本文方法在時間誤差和準確率方面均表現出了更好的性能。在遠距離場景中,本文方法的F1分數和S分數更高,說明本文方法能夠提升遠距離場景的事件檢測能力,有效減少事件的漏檢而且檢測時間誤差小。采用基于運動目標軌跡的異常檢測算法,當背景經常變化或者目標較小時,易將車輛過濾掉而導致車輛不能有效追蹤,從而使得遠距離場景下的異常事件準確性較低。采用基于時序模型的檢測方法在異常事件持續時間較長時無法保持檢測狀態且應用深度卷積神經網絡提高檢測準確率需花費較長的時間,難以滿足實時性的要求。在道路擁擠和正常路況中,本文方法的時間誤差(RMSE)更小,S分數更大,說明本文方法對異常停車的檢測反應更敏感,定位更準確。由于擁堵場景中運動目標數量多,軌跡匹配和切換復雜導致獲取運動目標的軌跡質量差,難以精確定位停車異常。基于時序模型的方法需要對運動目標速度方向建模而擁擠道路中車輛運動速度緩慢,提取出的光流特征難以區分導致異常檢測能力下降。
4 結束語
本文完成了基于視頻時空關系的異常停車檢測研究,該方法能夠最大限度減少非異常信息的干擾。首先,量化空間交通頻率得交通流頻率分割圖,二值化分割圖后過濾小的獨立連接域實現無監督道路分割,消除道路外因素的干擾,通過不斷疊加輸入幀來增強靜態對象,消除動態交通干擾;其次,利用透視關系和YOLOv4獲取車輛坐標,透視關系將視頻遠近區域轉換成統一的尺度,提高了目標檢測精度;最后,提取視頻時空矩陣分析異常空間中的車輛位置,應用NMS模塊合并異常檢測信息得到異常的開始和結束時間。實驗結果表明,本文提出的高速公路異常停車檢測算法可以提升遠距離場景和擁堵場景下異常事件的檢測準確率,且無須標注數據和構建復雜的網絡模型,其計算速度快,占用資源少,體現了識別的準確性和實時性。但該方法無法在線實時應用,后續計劃將檢測結果替換為車輛密度圖,以實現對車輛位置和概率分布的更連續估計,并提高了時間估計的準確性。
參考文獻:
[1]Mou Luntian,Mao Shasha,Xie Haitao,et al.Structured behavior prediction of on-road vehicles via deep forest[J].Electronics Letters,2019,55(8):452-454.
[2]Lin Weiyao,Zhou Yang,Xu Hongteng,et al.A tube-and-droplet-based approach for representing and analyzing motion trajectories[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(8):1489-1503.
[3]Degardin B,Proena H.Iterative weak/self-supervised classification framework for abnormal events detection[J].Pattern Recognition Letters,2021,145:50-57.
[4]Shirazi M S,Morris B T.Looking at intersections:a survey of intersection monitoring behavior and safety analysis of recent studies[J].IEEE Trans on Intelligent Transportation Systems,2017,18(1):4-24.
[5]李楠芳,王旭,馬學智,等.基于隱高斯模型的多元離散數據異常檢測[J].計算機應用與軟件,2018,35(8):249-253.(Li Nanfang,Wang Xu,Ma Xuezhi,et al.Multivariate discrete data anomaly detection based on hidden Gaussian model[J].Computer Applications and Software,2018,35(8):249-253.)
[6]Akz ,Karsligil M E.Traffic event classification at intersections based on the severity of abnormality[J].Machine Vision and Applications,2014,25(3):613-632.
[7]Ngan H Y T,Yung N H C,Yeh A G O.Outlier detection in traffic data based on the Dirichlet process mixture model[J].Intelligent Transport Systems IET,2015,9(7):773-781.
[8]Santhosh K K,Dogra D P,Roy P P,et al.Trajectory-based scene understanding using Dirichlet process mixture model[J].IEEE Trans on Cybernetics,2018,51(8):4148-4161.
[9]Chalapathy R,Borzeshi E Z,Piccardi M.An investigation of recurrent neural architectures for drug name recognition[EB/OL].(2016-09-24).https://arxiv.org/abs/1609.07585.
[10]Sultani W,Chen Chen,Shah M.Real-world anomaly detection in surveillance videos[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6479-6488.
[11]Ribeiro M,Lazzaretti A E,Lopes H S.A study of deep convolutional auto-encoders for anomaly detection in videos[J].Pattern Recognition Letters,2018,105:13-22.
[12]蘇鵬,王常順,盧萌萌.基于變分自編碼器的視頻異常事件檢測方法[J].電子測量與儀器學報,2020,34(10):179-185.(Su Peng,Wang Changshun,Lu Mengmeng.Video abnormal event detection method based on variational autoencoder[J].Journal of Electronic Measurement and Instrument,2020,34(10):179-185.)
[13]Liu Wen,Luo Weixin,Lian Dongze,et al.Future frame prediction for anomaly detection:a new baseline[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6536-6545.
[14]Chong Y S,Tay Y H.Abnormal event detection in videos using spatiotemporal auto-encoder[C]//Proc of International Symposium on Neural Networks.Cham:Springer,2017:189-196.
[15]Medel J R,Savakis A.Anomaly detection in video using predictive convolutional long short-term memory networks[EB/OL].(2016-12-15).https://arxiv.org/abs/1612.00390.
[16]Xu Yan,Ouyang Xi,Cheng Yu,et al.Dual-mode vehicle motion pattern learning for high performance road traffic anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2018.
[17]Miao Jingshi,Yang Zhaohui,Xu Chao,et al.Revisiting perspective information for efficient crowd counting[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:7271-7280.
[18]Feng Xiong,Shi Xingjian,Yeung D Y.Spatiotemporal modeling for crowd counting in videos[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5161-5169.
[19]Zhang Cong,Li Hongsheng,Wang Xiaokang,et al.Cross-scene crowd counting via deep convolutional neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:833-841.
[20]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2014:580-587.
[21]Liu Wei,Anguelov D,Erhan D,et al.SSD:single shot multibox detector[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:21-37.
[22]Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:779-788.
[23]Al-Qaness M,Abbasi A,Fan Hong,et al.An improved YOLO-based road traffic monitoring system[J].Computing,2021,103(4):211-230.
[24]Bochkovskiy A,Wang C Y,Liao H Y M.YOLOv4:optimal speed and accuracy of object detection[EB/OL].(2020-04-23).https://arxiv.org/abs/2004.10934.
[25]Lin Weiyao,Zhou Yang,Xu Hongteng,et al.A tube-and-droplet-based approach for representing and analyzing motion trajectories[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(8):1489-1503.
[26]Kumaran S K,Dogra D P,Roy P P,et al.Video trajectory classification and anomaly detection using hybrid CNN-VAE[EB/OL].(2018-12-18).https://arxiv.org/abs/1812.07203.
[27]Giannakeris P,Kaltsa V,Avgerinakis K,et al.Speed estimation and abnormality detection from surveillance cameras[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2018.
[28]Kumar A,Khorramshahi P,Lin W A,et al.A semi-automatic 2D solution for vehicle speed estimation from monocular videos[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2018.