














摘要:【目的】車輛檢測是城市智能交通研究的重要部分,以交通監控圖像作為輸入,以運動車輛的檢測作為目標,圍繞其中的小目標問題、高密集問題以及運動屬性問題開展研究。【方法】在無錨框CenteNet的基礎上提出一種基于多尺度雙源運動感知的檢測方法。首先,引入坐標注意力,并融合網絡抽象層的多尺度和全局上下文特征,多層次多階段地補充信息,提高模型對車輛和場景的理解力;其次,借助代表車輛實際運動特征的模糊紋理和代表車輛通用運動特征的光流知識,構建模型對運動車輛的感知能力。【結果】實驗數據來源于公共數據集UA-DETRAC,以均值平均精度(mAP)和幀率(FPS)作為精確度和速度評價指標,將文章方法與已有主流方法進行比較,結果表明文章方法的mAP和FPS分別為72.46%和30 frame/s,在對比方法中具有最佳的速度與準確率均衡性。【結論】文章方法能夠勝任運動車輛的檢測任務。
關鍵詞:運動車輛檢測;CenterNet;模糊紋理;光流;多任務學習
中圖分類號:TP311 文獻標志碼:A
本文引用格式:李曉晗,劉石堅,劉建華,等. 基于多尺度和雙源運動感知的車輛檢測方法[J]. 華東交通大學學報,2024,41(4):64-72.
Study on Multi-Scale Feature and Dual-Source Motion
Perception for Vehicle Detection
Li Xiaohan1, Liu Shijian1, Liu Jianhua1, Dai Yuchen1, Zou Zheng2
(1. Fujian Provincial Key Laboratory of Big Data Mining and Applications, Fuzhou 350118, China;
2. College of Computer and Cyber Security, Fujian Normal University, Fuzhou 350117, China)
Abstract: 【Objective】Vehicle detection is critical for urban intelligent transportation. Focusing on small target problems, high-density problems, and motion attribute problems, this study takes traffic surveillance images as input and aims to detect moving vehicles. 【Method】Based on the anchor-free CenteNet, a detection method of multi-scale features and dual-source motion perception was proposed. Firstly, coordinate attention was introduced to the multi-scale and global context features of the network's abstraction layer, so as to supplement information in multiple stages and at multiple levels and improve the model's understanding of vehicles and scenes. Secondly, through fuzzy textures representing actual motion features of vehicles and optical flow knowledge representing general motion features of vehicles, the model's perception ability of moving vehicles was constructed. 【Result】The experimental data came from the public dataset UA-DETRAC. The mean average precision (mAP) and frames per second (FPS) were used as the evaluation metrics of accuracy and speed. Experiment results show that the mAP and FPS of the proposed method are 70% and 30 frame/s respectively, which have the best balance between speed and accuracy among other compared methods. 【Conclusion】It maintains that the proposed method is competent in the task of moving vehicle detection.
Key words: moving vehicle detection; CenterNet; fuzzy texture; optical flow; multi-task learning
Citation format: LI X H, LIU S J, LIU J H, et al. Study on multi-scale feature and dual-source motion perception for vehicle detection[J]. Journal of East China Jiaotong University, 2024, 41(4): 64-72.
【研究意義】車輛檢測是交通管理、自動駕駛等智能交通系統[1]的重要部分。隨著人工智能技術的發展,基于深度學習的車輛檢測研究成為當下的熱點。【研究進展】現有車輛檢測方法大多基于錨框。該類方法會生成大量冗余的候選框,影響系統效率;當多個目標高度重疊時,候選框的篩選過程易造成漏檢。而無錨框方法則可有效避免上述問題,是當前的研究趨勢。【創新特色】本文以運動車輛為研究對象,目標是從監控圖像中精確檢測出行駛的車輛,該研究可為車輛追蹤[2]、車輛違規行為判定[3]、駕駛環境評估[4]等下游任務提供客觀的評判依據。
【關鍵問題】由于拍攝角度、距離、光照、行車環境的動態變化,精確識別運動車輛仍存在以下挑戰:① 小目標問題:距離拍攝設備較遠的車輛所占圖像像素少,容易因信息不足而被漏檢;② 高密集問題:擁擠交通場景下的監控圖像中,常存在大量重疊遮擋的車輛;③ 運動屬性問題:本工作關注行駛車輛,然而停泊或等候交通信號燈等靜態車輛也具有車輛外形特征,容易造成混淆,導致誤檢。以上因素會造成不同程度的識別誤差并逐漸累積,最終降低識別精確度。針對以上難點,本文提出一種基于無錨框策略的車輛檢測方案,實現運動車輛的精準檢測。
1 相關工作
1.1 挑戰應對策略
針對上述三大挑戰,已有方法分別采取不同策略予以應對。首先,對于小目標問題,一種樸素的想法是使用更高清晰度的輸入圖像,但這也意味著更重的計算負擔。為了取得精度與速度的平衡,Hamzenejadi等[5]提出一種基于YOLOv5的改進模型。然而,更換高質量輸入數據的方案已超出本文的討論范圍。另一種策略是增強目標特征。為此,Luo等[6]將多層特征信息與上下文信息相結合,以提升模型應對小目標的魯棒性,同時指出,該策略同樣有益于解決遮擋問題。受此啟發,本文方法同樣關注多尺度特征及上下文信息,但在特征提取和融合方式上具有自己的特色。
在基于錨框的目標檢測方法中,多尺度、高密集目標意味著算法將產生大量形狀不一且高度重疊的候選框,因此錨框配置和候選框篩除策略決定了模型的檢測性能。隋昕[7]和Mao等[8]分別針對上述兩點進行優化。具體來說,隋昕[7]使用K-means方法針對名為UA-DETRAC[9]的公共數據集進行分析,以獲取錨框的優化配置。然而該方法的有效性嚴重依賴數據集,泛化能力有待考察。鑒于傳統的非極大值抑制(non-maximum suppression,NMS)候選框篩除策略容易造成漏檢,Mao等[8]提出一種名為軟NMS的方法。而本文方法采用無錨框策略,因此不存在錨框的配置和篩選問題。
其次,對于高密集問題,Kang等[10]指出:當遮擋出現時,目標邊緣區域存在極大的不確定性;相較之下,目標中心區域更可靠。基于此論斷,作者使用模糊信息熵對上述不確定性進行建模,以提升檢測性能。而本文方法采用的無錨框策略更關注目標中心點的檢測,具有類似的底層邏輯,因此同樣有利于解決高密集問題。
最后,針對運動目標的檢測,傳統方法大多依賴背景差分策略,將其運用于深度學習模型中的報道并不多見,例如Fu等[11]使用一個循環神經網絡(recurrent neural network,RNN)來表征背景差分思想,用于過濾輸入數據。本文方法則借助光流法和運動模糊思想對車輛的運動特征進行描述。
1.2 模型架構
根據是否使用錨框作為劃分依據,可將基于深度學習的車輛檢測方法分為有錨框和無錨框兩類。例如,Luo等[6]和徐浩等[12]所用方法的基礎模型分別為Faster R-CNN[13]和SSD[14],而文獻方法[5, 10, 15-17]則是建立在YOLO[18]的各種變體之上,它們均屬于有錨框的方法。然而,正如上文所述,有錨框方法的準確率受錨框大小、比例以及NMS超參數的影響較大,于是當無錨框思想被提出時,基于無錨框的目標檢測受到學術界的廣泛關注。
相比有錨框方法,無錨框方法具有時間復雜度低、召回率高等特點,為此,黃躍珍等[19]和趙帥豪[20]分別基于CenterNet[21]和YOLOX[22]對車輛檢測進行研究,但均未考慮車輛的運行屬性等問題。表1展示了上述相關工作的更多信息,包括來源、發表年份、基礎模型等。
本文前期針對安全帽檢測的工作[23]展示了無錨框方法的優越性。本文方法選擇CenterNet作為基礎網絡,結合上一節所提出的思想對其進行改進,提出一種基于多尺度雙源運動感知的車輛檢測方法。
2 方法
2.1 網絡架構
圖1展示為本文方法的網絡架構。相對基礎模型,本文方法的核心改進主要體現在圖1中虛線框所示的兩個環節,即主干網中名為“多尺度全局上下文提升”(multi-scale global context promotion,MSGCP)的模塊,以及網絡頭部名為 “雙源運動感知”(dual source motion perception,DSMP)的模塊。
2.2 多尺度全局上下文提升
為了增強模型的位置定位能力,本文方法首先向編碼器與解碼器之間的跨層連接中加入代表位置信息的坐標注意力(coordinate attention,CA)子模塊(圖1)。該優化操作既實現了淺層特征的去噪,又補充了語義較弱的目標特征。
此外,提出一種金字塔上下文關聯(pyramid context association,PCA)子模塊,并將其應用于編碼器-解碼器的最深層。這是因為該層特征的全局性和抽象性最高,有利于上下文信息的關聯融合。如圖2所示,該子模塊由“空間多尺度池化關聯”(spatial multi-scale pooling association,SPSPA)和“全局上下文關聯”(global context association,GCA)兩部分組成。
令[F0]表示PCA子模塊的第一層特征,則SPSPA可以表示為
[Fp=UCF0,P1φ1(F0),P2φ1(F0),P3φ1(F0)] (1)
式中:[φ1]為1×1卷積,將[F0]的通道數壓縮到原來的1/4;[P1],[P2],[P3]均為平均池化操作,分別生成1×1,3×3和6×6共3種空間尺寸特征;UC表示通道拼接,將多尺度特征融合得到輸出特征[Fp]。
GCA部分以[Fp]作為輸入,經過平均池化[P1],1×1卷積[φ2],逐通道相乘[?]以及逐元素相加[⊕],最后通過1×1卷積[φ3]得到與[F0]相同尺寸的輸出特征[Fpc],該過程使用公式表達如下
[Fpc=φ3Fp?φ2P1(Fp)⊕Fp]" (2)
式中:[P1]為對全局特征的表征;[φ2]和[?]一起實現通道注意力;[⊕]起到特征融合的作用;[φ3]確保[Fpc]與[F0]的尺寸一致。
綜上,本模塊實現了各層間、空間內、通道間的多重關聯,豐富了特征融合的形式,補充了位置信息和相關空間信息,提升了網絡的上下文關聯能力。
2.3 雙源運動感知
運動特征是檢測動態目標的關鍵之一,為此本文提出一種基于模糊紋理和光流知識的雙源運動感知方法。其中,模糊紋理是使用輸入圖像結合CenterNet熱圖計算得到的(圖3中的“FTME”部分),代表當前輸入數據中車輛的實際運動特征;而光流知識是模型訓練階段采用光流法進行監督學習得到的(圖3中的“OFKME”部分),代表車輛的通用運動特征。本文方法將兩者相結合,既參考個性特點,又考慮共性規律,因此能夠有效構建模型的運動感知能力。
2.3.1 模糊紋理
眾所周知,移動物體的成像往往伴隨運動模糊現象[24]。對于圖像中的像素點來說,模糊度越大,梯度值越小[25]。受此啟發,本文方法借助梯度所表達的模糊紋理特征,解決運動感知問題。
具體來說,如圖3中名為“模糊紋理映射提取”(fuzzy texture mapping extraction,FTME)的部分所示,首先依據中心點熱圖[Oc]和包圍盒尺寸熱圖[Os]確定潛在目標包圍盒集合B,然后對原圖上所有[bk∈B(1≤k≤N)](N為包圍盒的個數)對應的區域計算得到[bk]的梯度[G(bk)]為
[G(bk)=(x,y)∈bkG(x,y)bk] (3)
式中:[G(x,y)]為原圖中像素點[(x,y)]對應的梯度值;[bk]為[bk]區域內像素點的個數。接下來分別根據式(4)和式(5)將[G(bk)]轉化為[bk]的模糊度[V(bk)],并將其歸一化至[0, 1]區間,得到[V(bk)]為
[V(bk)=maxG(bi)-G(bk)," "1≤i≤N] (4)
[V(bk)=11+e-V(bk)] (5)
然后,根據[V(bk)]生成與原圖同尺寸的模糊度特征圖[VB]。對于[VB]中的任意像素點[(x,y)]來說,其模糊度[VB(x,y)]可以計算得到
[VB(x,y)=maxV(bj),if(x,y)∈{bj}(1≤j≤M)0,o th erwise](6)
式中:M為[(x,y)]所屬包圍盒的個數。
最后,將[VB]與[Oc]進行逐通道相乘后繼續與[Oc]進行逐像素相加,實現模糊運動注意力的施加,獲得中心點模糊紋理[Ocb]。
2.3.2 光流知識
除模糊紋理之外,本文方法還通過網絡頭部如圖3中名為“光流知識映射提取”(optical flow knowledge mapping extraction,OFKME)的分支獲取運動特征。由于該特征是在訓練時使用光流法結果進行監督學習得到的,故稱之為光流知識。
具體來說,以主干網絡輸出特征F作為輸入,經過卷積和上采樣得到一個與原圖同尺寸的運動目標分割映射(moving object segmentation mapping,MOSM)特征,其具有2個輸出分支,分別是:預測運動目標分割結果和下采樣得到光流知識[Op]。隨著分割任務監督學習的進行,[Op]也將得到逐步優化,為運動目標檢測任務提供有力支撐。
上述整合目標檢測任務和分割任務的靈感來自經典實例分割模型Mask R-CNN[26]。區別在于Mask R-CNN的分割任務是以目標檢測任務為基礎的,即在包圍盒內進行分割;而本文方法中,兩者并無從屬關系,分割結果的準確性雖不是本文方法的目標,但將其用于輔助目標檢測任務,確實有利于提升系統性能。
2.4 雙源運動特征融合及損失函數
本文方法遵循CenterNet模型頭部通過3張熱力圖確定目標檢測結果的方式,不同之處在于:采用雙源運動增強輸出[Ocr]替換基礎模型中的中心點輸出[Oc],即采用[Ocr],包圍盒尺寸輸出[Os]和偏移量輸出[Oo]進行預測。
上述[Ocr]是將中心點模糊紋理[Ocb],光流知識[Op]以及[Oc]三者通道拼接后應用1×1卷積得到的單通道特征,是運動特征與中心點特征的融合。
為了進行監督學習,采用如下損失函數L
[L=Lp+Lcr+0.1Ls+Lo] (7)
式中:[Lp]為光流知識損失。令N表示原圖像素點的個數,[xi]和[yi]分別表示第[i(1≤i≤N)]個點的分割預測結果和真實值,則[Lp]定義為
[Lp=-1Ni=1Nyi log(sigmoid(xi))+(1-yi) log(1-sigmoid(xi))] (8)
式中:[Lcr]為中心點雙源運動增強損失,其定義與基礎模型中的中心點損失[Lc]定義類似;[Ls]和[Lo]分別為包圍盒尺寸損失和偏移量損失。它們的定義可參考文獻[21]。
3 實驗與結果
為了驗證本文方法的有效性和性能,將其與權威方法進行對比。實驗結果既包括以均值平均精度(mean average precision,mAP)和幀率(frames per second,FPS)作為精確度和速度評價指標的量化結果,也包括典型樣本上的可視化結果。最后,對關鍵模塊進行消融實驗來展示各模塊對系統性能的貢獻情況。所有實驗均運行于一臺顯卡型號為Nvidia GeForce RTX 3060(6 GB)的筆記本電腦。
3.1 實驗數據和超參數設置
本文實驗數據來自UA-DETRAC公共數據集[9]。由于其原始數據時長共約10 h,視頻幀率為25幀/s,本實驗按照AVSS2017挑戰賽[27]的標準,以10幀為間隔從中抽取幀圖片構建得到共10 314張圖片的實驗數據,其中訓練集(Training set)、驗證集(Validation set)、測試集(Testing set)分別為7 856、601張以及1 857張圖片(表2)。數據集依據場景復雜性和挑戰性(如遮擋、光照和交通繁忙程度等)被分為簡單(Easy)、中等(Medium)、困難(Hard)3種難度,不同難度在測試集中的分布如表3所示。模型訓練所采用的學習率(Learning rate)、迭代次數(Epoch)等主要超參數設置詳見表4。
3.2 評價指標
本文采用mAP作為評價模型性能的關鍵指標。其通常定義為每個類別下平均精確度(average accuracy,AP)的平均值。由于本文方法僅有一個車輛類別,因此mAP在數值上等同于AP,AP的計算式為
[AP=01p(r)dr] (9)
式中:[p(r)]為召回率[r]對應的精確率。
3.3 對比實驗
所選對比方法既包括主流通用目標檢測方法,也有表1所列舉的代表性車輛檢測方法(詳見表5和表6)。
如表5所示,本文方法(Ours)在處理簡單、中等和困難模式時的mAP指標分別為85.89%、75.54%和63.17%,且與次優方法差距均超過3%以上;若不區分難度,本文方法的mAP為72.46%,也優于所有對比方法。速度方面YOLOv5最佳,Faster R-CNN表現最差,而本文方法在具有最高準確率的同時,速度依然可達30 frame/s。
相對車輛檢測的主流方法而言,如表6所示,基于RNN和CNN的改進方法FG-BR_Net[11]具有最高的準確率,本文方法次之,基于Faster R-CNN的改進方法[6]排名第3。然而,方法YOLO-FA[10]和NAS-Faster R-CNN[6]均是以犧牲速度為代價的。在速度方面,YOLOv5的輕量化改進方法[17]表現最佳,同樣基于YOLOv5的改進方法[16]和YOLO-FA[10]排名二、三。若以30 frame/s作為實時性方法的評判標準,則本文方法是滿足實時性條件中準確率最高的方法。
綜上,本文方法在保證準確率的前提下,最大程度地提高了檢測速度,在準確性和速度方面具有最優的均衡性。
3.4 實驗結果可視化
為直觀展示本文方法與對比方法的性能差異,從測試集中選取2 張典型圖片進行測試,并可視化為圖4的兩行結果。第1行場景涵蓋了多尺度且存在相互遮擋的車輛目標;第2行場景包含大量小目標和動、靜態車輛混合的情況。
從圖4中可知,在處理多尺度高密集場景時,CenterNet和YOLOv5n-L在黃色箭頭處的車輛重疊區存在漏檢,YOLOX則存在較多區域誤檢,本文方法則可以較好應對遮擋問題;此外,在處理小目標和動態對象時,雖然CenterNet和YOLOX比YOLOv5n-L能捕獲更多小目標,但由于缺乏動態感知能力,兩者都會誤檢遠處待行的靜態車輛。由于上下文關聯獲取能力不足,YOLOX甚至會誤檢行人目標。得益于第2節所提出的多尺度全局上下文提升模塊和雙源運動感知模塊,本文方法能更精確地檢測動態車輛目標。
3.5 消融實驗
為評估多尺度全局上下文提升模塊(Cont)和雙源運動感知模塊(Mov)對系統性能的貢獻度,開展如表7所示的消融實驗,其中√表示啟用,×表示禁用。可見,當兩者均禁用時,方法準確率僅為64.22%;相較雙源運動感知模塊,上下文模塊對性能的改善稍大;當兩者均啟用時,準確率最高。此外,各模塊的加入對檢測速度的影響較小。
4 結論
1) 優化主干網絡的特征提取和融合能力。包括引入坐標注意力子模塊,以及增加金字塔上下文關聯子模塊,使模型具有多尺度上下文感知能力,提升系統檢測小目標以及高密集目標的準確率。
2) 通過運動特征建模,提出基于模糊紋理和光流知識的雙源運動感知機制,實現運動車輛的檢測功能。
3) 與其他主流車輛檢測方法的對比表明,本文方法具有準確率高以及檢測速度較快等特點,可以勝任復雜交通環境下動態對象的實時檢測。
4) 未來將進一步探索更優的運動特征提取策略及輕量化方法,并通過低照度增強等技術來緩解光照不足等問題,實現本文方法在準確度、速度及泛化能力方面的提升。
參考文獻:
[1]" " 杜玲麗, 胡驥, 趙懷明, 等. 考慮出行者偏好和經驗的路徑選擇行為研究[J]. 公路交通科技, 2019, 36(5): 138-144.
DU L L, HU J, ZHAO H M, et al. Study on route choice behavior considering traveler's preference and experience[J]. Journal of Highway and Transportation Research and Denelopment, 2019, 36(5): 138-144.
[2]" " 郭秋蕊, 李建良, 田垚, 等. 基于改進KCF算法和多特征融合的車輛跟蹤研究[J]. 電子測量與儀器學報, 2022, 36(4): 231-240.
GUO Q R, LI J L, TIAN Y, et al. Research on vehicle tracking based on improved KCF algorithm and multi-feature fusion[J]. Journal of Electronic Measurement and Instrumentation, 2022, 36(4): 231-240.
[3]" " 姜明新, 王洪玉, 沐方順, 等. 基于視頻監控的違章停車檢測算法[J]. 計算機工程, 2012, 38(19): 151-153.
JIANG M X, WANG H Y, MU F S, et al. Illegal parking detection algorithm based on video surveillance[J]. Computer Engineering, 2012, 38(19): 151-153.
[4]" " 李卓, 陳雨人. 基于決策樹方法的偏遠地區山區公路駕駛安全性研究[J]. 華東交通大學學報, 2017, 34(2): 29-36.
LI Z, CHEN Y R. Analysis of driving safety on mountain highway in remote areas based on decision tree method[J]. Journal of East China Jiaotong University, 2017, 34(2): 29-36.
[5]" " HAMZENEJADI M H, MOHSENI H, et al. Fine-tuned YOLOv5 for real-time vehicle detection in UAV imagery: Architectural improvements and performance boost[J]. Expert Systems with Applications, 2023: 120845.
[6]" " LUO J, FANG H, SHAO F, et al. Multi-scale traffic vehicle detection based on Faster R-CNN with NAS optimization and feature enrichment[J]. Defence Technology, 2021, 17(4): 1542-1554.
[7]" " 隋昕. 基于深度學習的視頻監控中車輛檢測方法研究[D]. 成都: 電子科技大學, 2023.
SUI X. Research on vehicle detection method in video surveillance based on deep learning[D]. Chengdu: University of Electronic Science and Technology of China, 2023.
[8]" " MAO Q C, SUN H, ZUO L, et al. Finding every car: A traffic surveillance multi-scale vehicle object detection method[J]. Applied Intelligence, 2020, 50(10): 3125-3136.
[9]" " WEN L, DU D, CAI Z, et al. UA-DETRAC: A new benchmark and protocol for multi-object detection and tracking[J]. Computer Vision and Image Understanding, 2020, 193: 102907.
[10]" KANG L, LU Z, MENG L, et al. YOLO-FA: Type-1 fuzzy attention based YOLO detector for vehicle detection[J]. Expert Systems with Applications, 2024, 237: 121209.
[11]" FU Z, CHEN Y, YONG H, et al. Foreground gating and background refining network for surveillance object detection[J]. IEEE Transactions on Image Processing, 2019, 28(12): 6077-6090.
[12]" 徐浩, 楊德剛, 蔣倩倩, 等. 基于SSD的輕量級車輛檢測網絡改進[J]. 計算機工程與應用, 2022, 58(12): 209-217.
XU H, YANG D G, JIANG Q Q, et al. Improvement of lightweight vehicle detection network based on SSD[J]. Computer Engineering and Applications, 2022, 58(12): 209-217.
[13]" REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence, 2017, 39(6): 1137-1149.
[14]" LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//Amsterdam: Computer Vision-ECCV, 2016.
[15]" 王瀅暄, 宋煥生, 梁浩翔, 等. 基于改進的YOLOv4高速公路車輛目標檢測研究[J]. 計算機工程與應用, 2021, 57(13): 218-226.
WANG Y X, SONG H S, LIANG H X, et al. Highway vehicle object detection based on improved YOLOv4 method[J]. Computer Engineering and Applications, 2021, 57(13): 218-226.
[16]" DONG X, YAN S, DUAN C. A lightweight vehicles detection network model based on YOLOv5[J]. Engineering Applications of Artificial Intelligence, 2022, 113: 104914.
[17]" BIE M, LIU Y, LI G, et al. Real-time vehicle detection algorithm based on a lightweight You-Only-Look-Once (YOLOv5n-L) approach[J]. Expert Systems with Applications, 2023, 213: 119108.
[18]" REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// Las Vegas: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016.
[19]" 黃躍珍, 王乃洲, 梁添才, 等. 基于改進CenterNet的車輛識別方法[J]. 華南理工大學學報(自然科學版), 2021, 49(7): 94-102.
HUANG Y Z, WANG N Z, LIANG T C, et al. Vehicle recognition method based on improved CenterNet[J]. Journal of South China University of Technology(Natural Science Edition), 2021, 49(7): 94-102.
[20]" 趙帥豪. 基于YOLOX的車輛檢測[J]. 計算機系統應用, 2022, 31(12): 195-202.
ZHAO S H. Vehicle detection based on YOLOX[J]. Computer Systems amp; Applications, 2022, 31(12): 195-202.
[21]" ZHOU X, WANG D, KR?HENBüHL P. Objects as points[EB/OL]. (2019-04-16) [2024-02-05]. https://arxiv.org/abs/1904.07850.
[22]" GE Z, LIU S, WANG F, et al. YOLOX: Exceeding YOLO series in 2021[EB/OL]. (2021-07-18) [2024-02-05]. https://arxiv.org/abs/2107.08430.
[23]" 黃品超, 劉石堅, 徐戈, 等. 關聯增強改進的CenterNet安全帽檢測方法[J]. 計算機工程與應用, 2023, 59(17): 250-256.
HUANG P C, LIU S J, XU G, et al. Helmet wearing detection method based on improved CenterNet with enhanced associations[J]. Computer Engineering and Applications, 2023, 59(17): 250-256.
[24]" 黃彥寧, 李偉紅, 崔金凱, 等. 強邊緣提取網絡用于非均勻運動模糊圖像盲復原[J]. 自動化學報, 2021, 47(11): 2637-2653.
HUANG Y N, LI W H, CUI J K, et al. Strong edge extraction network for non-uniform blind motion image deblurring[J]. Acta Automatica Sinica, 2021, 47(11): 2637-2653.
[25]" ZHOU L, MIN W, LIN D, et al. Detecting motion blurred vehicle logo in IOV using Filter-DeblurGAN and VL-YOLO[J]. IEEE Transactions on Vehicular Technology, 2020, 69(4): 3604-3614.
[26]" HE K, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]//Honolulu: Proceedings of the IEEE International Conference on Computer Vision, 2017.
[27]" LYU S, CHANG M C, DU D, et al. UA-DETRAC 2017: Report of AVSS2017 amp; IWT4S challenge on advanced traffic monitoring[C]// Lecce: 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), 2017.
第一作者:李曉晗(1999—),女,碩士研究生,研究方向為深度學習。E-mail:307667945@qq.com。
通信作者:劉石堅(1983—),男,副教授,博士,碩士生導師,研究方向為計算機圖形學、深度學習。E-mail:liusj2003@ fjut.edu.cn。