【Abstract】With the introductionofdeep learning technology inrecent years,target detection algorithms forautonomous vehiclehave madesignificantprogress.This paperanalyzesandorganizes thetraditionalobjectdetectionalgorithmsanddep learningobjectdetectionalgorithmscurrntlyapliedinautonomousdrivingfromtheperspectiveof thedevelopmentofobject detectiontechnology,analyzes milestone detectors,network structuresand the latestdetection methods,and exploresthe development direction of target detection technology.
Key words: Autonomous driving, Environmental perception,Deep learning,Target detection, Detector
【引用格式】方文俊,楊燕紅,王昊.自動駕駛汽車目標檢測算法研究進展[J].汽車工程師,2025(8):1-14.FANGWJ,YANGYH,WANGH.ResearchProgressof Target DetectionAlgorithmforAutonomousVehicle[J].Automotive Engineer,2025(8):1-14.
1前言
中具有重要作用。
以往, 90% 的車輛事故是人為失誤造成的,而自動駕駛汽車能夠有效避免人工駕駛的很多安全問題。自動駕駛過程需要利用精確的定位系統、智能化環境感知技術,以及全面的控制算法來應對各種駕駛場景,因此,目標檢測技術在自動駕駛過程
準確檢測周圍車輛的位置、速度、行駛方向等關鍵信息,可使自動駕駛車輛預判潛在的碰撞風險,并及時作出合理決策。早期,一般通過大量人工提取特征再識別的方法進行目標檢測,而隨著算法的深人與深度學習技術的出現,自動駕駛汽車使用攝像頭和基于深度學習的方法進行目標檢測和分類4,極大地提高了車輛的實時檢測水平。
本文針對自動駕駛汽車環境感知領域常見的目標檢測算法和基于深度學習的目標檢測算法進行梳理,分析了車輛目標檢測中小尺度漏檢、遮擋等問題的解決方案,最后總結目標檢測算法面臨的挑戰及未來可能的發展方向。
2車輛的目標檢測算法
人類視覺系統在面對復雜場景時具有搜索和定位感興趣自標的能力,可以很容易地注意到圖像中的目標物體而忽略背景。這種視覺注意能力受認知生理和心理的控制,是人類處理視覺信息的重要機制。為在車載場景中實現類似的感知能力,計算機視覺系統通過模擬人類注意機制,使自動駕駛車輛能精準識別道路中的自標并過濾冗余信息。計算機視覺識別的任務主要包括:圖像分類,即將圖像分配到某個特定類別;目標檢測,對圖像進行處理、分析和理解,以識別目標類別,并通過邊界框預測每個目標的位置;實例分割,識別不同的對象,并為每個對象分配一個單獨的分類像素級掩碼,即識別并分割出圖像中的每一個特定實例對象;語義分割,將圖像分割為多個具有語義的區域,為每個像素分配特定的類別標簽,從而提供對圖像更豐富的理解。
目標檢測是計算機視覺任務的核心難點,且在自動駕駛系統中扮演著關鍵角色,其技術的發展大致經歷了傳統目標檢測和基于深度學習的目標檢測兩個階段[8]。
2.1傳統目標檢測算法
傳統目標檢測方法通常分為3個步驟,即區域提議、特征提取、分類器訓練,如圖1所示。其中,特征提取可以強調主要信息并降低次要信息的影響,分類器的優劣將極大影響目標檢測的準確率。大量研究提出了多種特征提取方法,如方向梯度直方圖(HistogramofOrientedGradient,HOG)、光流法[、可變形部件模型(DeformablePartModel,DPM)[-2]、哈爾(Haar)特征[3]、尺度不變特征變換(Scale-InvariantFeatureTransform,SIFT)[4等,并提出了多種分類器,如支持向量機(SupportVectorMachine,SVM)[5]、引導聚集算法(Bootstrapaggregating,Bagging)[、非線性SVM、AdaBoost[17]等。
2.1.1 特征提取方法
HOG是Dalal等提出的一種用于行人檢測的特征描述子。由于梯度或者邊緣方向的分布可有效表達局部物體的外觀或形狀,所以在HOG中,梯度方向的直方圖被視為特征。該方法將圖像分為若干個單元(CeI1),分別計算每個單元中每個像素的梯度和方向并構建直方圖,得到多維特征向量,再將若干個單元組合成塊,對塊進行歸一化,對塊內單元的特征向量進行拼接得到最終的特征向量。因其在圖像的局部區域操作,所以能夠很好地避免圖像的幾何和光學形變。在此基礎上,Tian8利用HOG特征和SVM開展夜間車輛檢測,在夜間弱光條件下有效增強了移動車輛的檢測能力。文獻[19]使用直方圖擴展和灰度微分值方法(Gray-levelDifferentialValueMethod,GDVM)進行車輛檢測,結果表明,傳統方法在復雜環境下有效,但在雨天和弱光條件下效果不佳,故傳統方法在處理顯著環境變化時存在局限性。
HOG在處理遮擋重疊問題時存在一定困難,促使Felzenszwalb等提出了DPM。DPM是一種基于多尺度可變形零件模型混合的物體檢測系統,DPM算法采用改進的HOG特征及SVM和滑動窗口(SlidingWindows)聯合的檢測思想對輸入的圖像進行特征提取,針對特定目標制作相應的激勵模板,并在原始圖像中計算得到該激勵的效果圖,再由激勵的分布確定目標位置。雖然DPM具有直觀簡單、運算速度快、能適應變形等特點,但其性能略有不足、激勵特征需要人為設計的特點大幅增加了工作量,所以DPM不具有普適性。后續研究2針對DPM性能不足的問題,基于顏色融合DPM,通過HSI色彩空間轉換進行圖像傳輸,提取色彩空間各通道的信息并訓練DPM,再通過自適應融合方法將DPM融合,取得了良好的檢測效果,實現了對傳統DPM的優化。
特征提取技術發展過程中,研究人員發現傳統的目標檢測側重于目標的靜態特征提取,而目標的運動信息難以獲取,因此光流法(OpticalFlow)應運而生。光流法基于圖像序列在時間域上的變化獲取上一幀與當前幀的關系,計算相鄰幀之間對象的運動趨勢[2。結合光流法和顏色直方圖的方法可以同時對車輛和天氣進行檢測,并處理復雜天氣條件下所需要的細微識別任務。由于光流法受光照噪聲影響嚴重,且車輛檢測通常在復雜的光照環境下進行,所以此方法在車輛檢測中局限性較大。
受Papageorgiou等[22使用的Haar基函數啟發,Viola和Jones提出使用積分圖計算類哈爾(Haar-Like)特征,Haar-Like特征是一種用于目標檢測或識別的圖像特征描述子,通過對圖像中每個像素以及由像素組成的相鄰矩形區域進行特定操作,來獲取能夠代表整體圖像某些特征的描述信息。整體圖像計算完成后,任意一個Haar-Like特征都可以在恒定時間內以任意尺度或位置進行計算。Haar-Like特征分為三類:邊緣特征、線性特征,以及中心特征和對角線特征。用兩種矩形框聯合生成特征模板,利用特征模板內兩種矩形像素的差值表示該模版的特征值,特征模板可用于圖像中的任一位置,且大小可任意變化,所以Haar-Like特征的取值對特征模板中的類別、位置、大小特別敏感,因此在固定大小的圖像窗口內可以提取出大量的Haar-Like特征,從而大幅提高特征提取效率。
此后,研究人員發現,如果目標存在于不同尺度的圖像中會導致之前的特征提取方法失效,SIFT能夠找到對尺度和旋轉不變的特征,并進行提取以創建對部分遮擋、雜亂、噪聲和照明變化具有魯棒性的對象識別系統。雖然SIFT具有魯棒性、局部性、可重復性等,但其計算成本高,且在極端情況下性能可能受到影響。
各類特征提取方法的特點如表1所示。從HOG到SIFT的發展過程明確地體現出特征提取方法從簡單的基礎功能實現逐步向復雜條件下高性能、普適性方向發展的趨勢。但是,上述傳統算法普遍存在的主要缺點是需要人為制作特征提取器來學習對象的不同描述子,導致工作量增加、時間延長。目標檢測任務在從圖像序列中生成局部特征后,提取的特征必須由機器學習分類器識別[23]。
2.1.2 分類器
分類器主要用于解決分類問題。最經典的分類器是SVM,主要解決二分類問題,其核心思想是通過在特征空間中找到一個最優的超平面進行分類,且間隔最大。因需要的存儲空間小、訓練和分類速度快,SVM的應用最廣泛。針對非線性分類問題,非線性SVM將數據映射到高維特征空間,以便找到一個線性可分的超平面來分隔不同類別的數據點。非線性SVM對非線性數據的適應能力強,但其對大規模數據集的訓練時間較長,且核函數的選擇較為困難。為解決非線性SVM訓練時間較長的問題,Bagging基于自助采樣(BootstrapSampling)和偏差-方差分解定理,并引入隨機性與個體學習器相互獨立的方法,減輕了過擬合問題并可實現并行訓練,因此能夠大幅度縮短訓練時間。該方法首先將一個隨機樣本放入采集的集合中,再將其放回原本的數據集,重復 N 次采樣后可獲得一個大小為 N 的樣本集合,重復 P 次,得到 P 個含有 N 個樣本的采樣集合,然后使用該采樣集合訓練出個體學習器并將其組合起來,最后根據不同的問題采用不同的方法進行預測,如針對回歸問題預測平均值、針對分類問題預測多數投票或者平均概率。但是,Bagging方法存在對異常值十分敏感、參數選擇對結果影響較大的問題。
表1各類特征提取方法及其特點
隨著技術發展和實際需求的變化,AdaBoost基于Boosting集成學習,能夠在每一輪迭代后更新樣本和弱學習器的權重,并且在每一輪迭代的基礎上以同樣的方法再訓練一個弱分類器,直至到達最大迭代次數或者獲得足夠小的誤差后將所有弱學習器的輸出整合為一個整體。AdaBoost具有準確率高、能自動選擇有效特征、靈活性強的優勢,但其計算量較大,對異常值和噪聲敏感。不同分類器的特點如表2所示。
表2各類分類器及其特點
2.2基于深度學習技術的目標檢測算法
傳統目標檢測方法大多具有明顯的缺點,如依賴手動特征工程,此外,此類模型因無法在不需要大量重新訓練的情況下快速納入新數據,適應惡劣天氣或動態環境的能力有限。深度學習在20世紀90年代作為機器學習和人工智能的一個子領域出現[24。目標檢測領域中傳統算法對規模化處理特征能力不足,深度學習算法可以較好地彌補這些缺點[25]。基于深度學習的目標檢測方法與傳統目標檢測方法在理論和應用方面存在顯著區別,如深度學習可實現更高抽象級別、更高精度和更快執行的能力。近年來,在計算機視覺領域,由于數據量的不斷增加和硬件的快速發展,基于深度學習的車輛檢測算法的實時性已經可與傳統的基于手動特征的車輛檢測算法相媲美,而深度學習方法在檢測精度方面遠超傳統算法。這一時期的里程碑檢測器如圖2所示。
2.2.1 深度學習網絡算法的演進
2012年,世界見證了卷積神經網絡(ConvolutionalNeuralNetwork,CNN)的重生,AlexNet2在ImageNet舉辦的大規模視覺識別挑戰賽(ImageNetLarge ScaleVisual RecognitionChallenge,ILSVRC)上首次使用了深度學習方法。該比賽使用ImageNet數據庫,包含 120×104 張、1000個類別的圖像。AlexNet在 top-1 和 top-5 中分別實現了 37.5% 和 17.0% 的錯誤率,分類效果有了質的提升。隨后,OverFeat針對當時檢測和分類的瓶頸,首次明確解釋了CNN的定位與檢測原理。該檢測算法使用全卷積網絡和滑動窗口技術,將大量的滑動窗口放入圖像中,滑動窗口給出對象類別的置信度得分和邊界框,與對象有 50% 重疊的邊界框將被合并、累積,并利用回歸算法預測最終邊界框。然而,該方法所需算力較大,因此效率較低。
在2014年的ILSVRC中,視覺幾何組網絡(Visual GeometryGroup Network,VGGNet)[28]在分類任務中錯誤率達到 7.32% ,在定位任務中的錯誤率為 25.32% 。為減少所需參數量,該模型通過堆積疊加,使用多個 3×3 卷積核代替大尺度卷積核,并多次使用 2×2 的池化,使結構簡潔明了,同時利用多個卷積層增加了非線性,提高了模型的性能,如圖3所示。VGGNet至今仍在圖像特征提取中廣泛應用。
圖3VGGNet模型
2014年,IanGoodfellow等首次提出生成對抗網絡(Generative Adversarial Network,GAN)[29],該網絡包括一個名為生成器的神經網絡和一個名為判別器的神經網絡,開創了許多新的研究方向。但是基于GAN的模型訓練和優化仍然較為繁瑣,模型易崩潰,結果不易收斂且不穩定,故基于GAN的變體陸續出現,如深度卷積生成對抗網絡(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)[3、信息生成對抗網絡(InformationMaximizingGenerativeAdversarialNetworks,infoGAN)[3等。
通常,深度學習模型層數越多,能捕獲的信息就越多,但是層數過多會導致梯度爆炸或退化問題。為減輕網絡的訓練負擔、解決深層網絡的退化問題,2015年,He等提出了ResNet32,此后,模型層數提高到了百層以上。ResNet通過殘差學習的方法提出殘差結構,并使用批歸一化(BatchNormalization,BN)加速訓練。在2015年的ILSVRC比賽中,152層ResNet的top-5任務錯誤率僅為3.57% ,準確率較此前的模型大幅提升。盡管ResNet通過快捷連接降低了訓練難度,但它并未充分利用先前層的功能。在逐元素運算中,淺層中的原始特征丟失,因此不能在以后直接使用。不同于ResNet,密集連接卷積網絡(DenselyConnectedConvolutionalNetwork,DenseNet)[33]相互連接了所有層,保留了淺層特征,并通過將輸人與殘差輸出連接實現特征重用,提升了效率,在參數大小相同的條件下,DenseNet的性能優于ResNet。在DenseNet中,來自淺層的大多數新開發的特征是重復的,并產生了很高的計算成本。結合ResNet與DenseNet的優點,研究人員提出了一種雙路徑網絡(Dual-PathNetwork,DPN)[34,該網絡能共享公共特征,且其雙路徑架構可保留靈活性以獲取新的特征。它與DenseNet、ResNet以及次代殘差網絡(ResidualNetworkwithNext,ResNeXt)這類網絡在模式分析、統計建模和計算學習視覺對象分類(PatternAnalysis,Statistical Modelling and ComputationalLearningVisual Object Classes,PASCAL VOC)挑戰賽的檢測與分割數據集中,相比DPN具有更優良的性能。2016年,沙漏網絡(HourglassNetwork,HourglassNet)[35被提出,其最早用于人類姿勢識別,是具有沙漏模塊序列的完全卷積結構。沙漏模塊能夠同時捕獲局部和全局信息,非常適合目標檢測任務。
受各網絡的復雜程度和設備算力的影響,深度學習的目標檢測很難搭載在移動端。2017年,移動網絡(MobileNetwork,MobileNet)[誕生,該網絡利用深度可分離卷積構建輕量級的深度神經網絡,為移動設備和嵌入式設備的性能提升提供了可能,且其顯著降低了計算成本和參數數量,而分類精度沒有明顯損失。小尺度物體自身的像素信息較少,在下采樣過程中極易被遺棄,而許多網絡利用單個高層特征,從而忽略了這一問題,文獻[37]構造了不同尺度的特征信息并進行融合,旨在提升檢測算法對不同尺寸檢測目標的魯棒性。可變形卷積網絡(DeformableConvolutionalNetwork,DCN)[38]解決了卷積核權重的固定導致的同一CNN在處理一幅圖像的不同位置時感受野大小相同的問題。而DetNet(DetectionNetwork,DetNet)通過在多尺度特征圖上采用擴張卷積、保持高分辨率特征圖等措施改進感受野,解決了多尺度物體識別問題。2017年,檢測驅動增強網絡(Detection-drivenEnhancementNetwork,DeNet)4描述了一個用CNN進行稀疏估計的框架,并提出了一種感興趣區域(RegionofInterest,ROI)檢測器和分類模型,提高了檢測性能,使用在語義分割背景下描述的反卷積和跳過層,中小型物體的檢測率得到了提升。2024年, Xu 等[41提出一種高階特征關聯網絡(High-OrderFeatureAssociationNetwork,HOFA-NET),該網絡可有效捕捉信道和空間維度特征之間的相互依賴關系,產生更可分的特征,有效提升對密集物體、小尺寸物體的檢測性能。為解決小尺度物體缺乏特征信息的問題,Dai等設計了自適應樣本分配策略(AdaptiveSampleAssignmentStrategy,ASAS)和微小目標聚焦增強模塊,有效增強了高層次語義信息對微小物體的傳播能力。這些網絡奠定了現代深度學習的發展基礎。
2.2.2 目標檢測器
目標檢測器分為兩階段檢測器和單階段檢測器,前者在檢測中表現出更高的精度,而后者具有更快的速度。兩種檢測器都生成建議,主要區別在于兩階段檢測器生成僅具有前景或背景信息的稀疏建議集,而單階段檢測器將圖像中的每個區域均視為潛在建議,并相應地估計每個位置的潛在對象的類和邊界框坐標。常見的兩階段檢測器有區域卷積神經網絡(Region-ConvolutionalNeuralNetwork,R-CNN)及其變體快速區域卷積神經網絡(FastR-CNN)更快速區域卷積神經網絡(FasterR-CNN)空間金字塔池化網絡(SpatialPyramidPoolingNetwork,SPP-Net)、基于區域的全卷積網絡(Region-basedFullyConvolutionalNetwork,R-FCN)等。從深度學習技術提出開始到目前最為有效的單階段檢測器有YOLO(YouOnlyLookOnce)、單步多框檢測器(SingleShotMultiBoxDetector,SSD)、視網膜網絡(RetinaNet)、DETR(DEtectionTRansformer)等。
2.2.2.1 兩階段檢測器
兩階段檢測器包括兩個任務階段:提案生成,識別輸入中可能是目標對象的區域;對生成的提案進行預測,采用基于深度學習的模型為提案設置正確的分類標簽。典型的兩階段檢測器及其特點如表3所示。
R-CNN43是一種簡單且可擴展的檢測算法,是CNN之后目標檢測領域極具特點的里程碑之一。R-CNN具有優良的特征提取和分類性能,其流程如圖4所示:首先采用區域建議生成2000個候選框,再將每個候選框處理成227像素 ×227 像素大小后放入網絡中提取特征,獲得4096維特征后將其送人SVM分類器,通過非極大值抑制(Non-MaximumSuppression,NMS)篩選出最可能的框,即對目標進行定位,最后修正候選框位置并使用最小二乘法解決回歸問題完成檢測。該算法簡單且可拓展,在PASCALVOC2012數據集中的平均精度均值(mean AveragePrecision, mAP )達到53.3% 。但是R-CNN簡單的操作帶來了檢測速度慢、占用存儲空間大、特征提取容易重復計算的問題。
表3典型的兩階段檢測器
圖4R-CNN流程
SPP-Net44是一種改進的R-CNN算法。通常,CNN模型需要將輸入數據的尺寸固定,如AlexNet需輸人224像素 ×224 像素的圖像,而候選區域尺度各異,難以直接輸入CNN中實現區域的特征提取。SPP-Net在R-CNN的基礎上提出了兩項重大改進:一是去除裁剪/扭曲圖像歸一化過程,解決了圖像畸形導致的信息消失和存儲問題45;二是在R-CNN的基礎上提出了以3種池化方式對特征進行池化并對結果進行拼接的空間金字塔池化層。通過上述兩項改進措施,SPP-Net極大提高了R-CNN的訓練速度和推理速度,在PASCALVOC2007數據集中的mAP達到 59.2% 。但是,SPP-Net依舊存在多級檢測和忽略所有先前的層、只微調其他全連接層的問題。候選框的選擇非常耗時,且候選框的提取、CNN特征的計算、SVM分類、邊界框回歸均需要獨立訓練,并保存大量中間結果,無法實現訓練參數的全局優化,而FastR-CNN可以解決上述問題,提高速度和精度。
FastR-CNN4作為R-CNN的變體,融人了SPP-Net的特點,并解決了SPP-Net的局限性問題。FastR-CNN將要輸入的圖像歸一化后再進行特征提取,并在最后一層特征圖上映射候選框,提高了算力的利用率。與R-CNN不同,FastR-CNN在分類前不需要將特征存儲在硬盤中。在PASCALVOC2007數據集上,FastR-CNN的mAP達到了 70.0% 0
SPP-Net和FastR-CNN等為縮短檢測網絡運行所需時間而采用區域提案方法,但區域提案需要大量計算資源,成為其發展的瓶頸。FasterR-CNN在使用FastR-CNN框架的基礎上,提出了區域提案網絡(RegionProposalNetwork,RPN),RPN可通過端對端訓練生成高質量候選框,并在訓練時采用與目標檢測網絡共享的卷積層,大幅提高了檢測速度,但其在生成候選框時仍需花費大量時間。FasterR-CNN在PASCALVOC2007數據集上的mAP達到 73.2%
R-FCN48是一個兩階段檢測器,為解決目標檢測的位置敏感性和分類位置不敏感性的矛盾問題,提出位置敏感得分映射(Position-SensitiveScoreMap)。該檢測器進行圖像預處理后,將其送入分類網絡,在分類網絡的最后一個卷積層有3個分支,第一種是在特征圖上通過RPN生成候選框,第二種是在特征圖上進行位置敏感得分映射,映射維度是 K×K×(C+1) ,第三種是在特征圖上計算4×K×K 維的位置敏感度得分映射,其中, K,C 分別為位置敏感得分映射的網格大小(將候選區域劃分為 K×K 子區域)、目標類別數。最后,在計算得到的映射上實現了ROI池的功能,可識別并獲取所需要的地址和類別信息。該檢測器與FasterR-CNN相比,具有較高的速率,精確度略有提升。
兩階段方法存在對錨點的多次細化,故與單階段方法相比,檢測結果更為精準。
2.2.2.2 單階段檢測器
單階段檢測器通過一個階段完成目標的類別預測和邊界框回歸,側重于檢測速度,精度尚可。相對于兩階段檢測器,單階段檢測器不需要生成候選區域后再進行預測,因此有效提升了檢測速度。部分典型的單階段檢測器及其特點如表4所示。
表4典型的單階段檢測器
YOLO[49]是JosephRedmon等于2015年提出的一種深度學習時代最具代表性的單階段檢測器,經多次版本迭代,目前已能實現優秀的檢測效果。與兩階段檢測不同,這種算法不采用滑動窗口技術和區域建議技術,而是將神經網絡應用到整個圖像中,將輸入的圖像分割為幾個格子區,每個格子區預測邊界框和對象在其中的置信度,再通過對比置信度來判斷相對特定類的置信度得分,但每個網格只能分類和定位一個對象,使其很難檢測到小尺度的物體和被遮擋的物體,且僅應用最后一個特征圖進行預測,也難以用于預測多尺度和多縱橫比的對象。YOLO已經陸續發展出多個版本,如:YOLOv5著力于減小模型的復雜度和提高實時性;YOLOv75通過引入優化的結構(如動態標簽分配和模型結構重新參數化),在速度和準確性方面優于大多數檢測器;YOLOv8[51拋棄基于錨的方法,引入了無錨分裂Ultralytics頭,它有助于提高檢測過程的準確性和效率,并且也采用了先進的骨干網絡(Backbone)架構提高特征提取和檢測的性能。 YOLOv10[52] 為解決之前版本因計算冗余導致參數利用率低、效率次優的問題和改進模型性能,首先提出了一種雙標簽分配和無NMS的一致雙分配策略,用于解決后處理中的冗余預測問題,隨后改進模型的體系結構,設計出了新的輕量化分類頭、空間信道解耦下采樣和秩引導塊,以減輕顯式的計算冗余,實現更為高效的模型架構,最后,通過研究大卷積核提出部分自關注模塊來提升模型性能,參數、計算量大幅度減少,并且在COCO數據集上取得了 54.4% 的平均精度(AveragePrecision,AP)。2024年,或許受實時檢測轉換器(Real-TimeDEtectionTRansformer,RT-DETR)[53能夠在實時檢測中擊敗當時的YOLO算法的影響,YOLOv11橫空出世,相比于之前的版本,其更新了更適用于特征提取的主干網絡和頸部(Neck)結構,并優化了訓練流程,使訓練更為迅速,可在速度與精度間很好地保持平衡,更滿足實際需求。YOLO算法在自動駕駛場景中也存在一定的局限性,首先是存在小目標難以檢測的情況,其次是版本較早的YOLO算法對硬件資源的要求較高,難以在自動駕駛車輛上部署,最后是在復雜交通環境中以及惡劣天氣條件下實時檢測精度急劇下降,影響實時檢測的可靠性。為解決上述問題,YOLO系列后期的優化重心可以放在針對提升圖像遠端小目標的檢測精度以及通過提升模型抗干擾能力提高惡劣環境下的召回率,保證其在自動駕駛領域中的適用性。
SSD[54] 是Liu提出的一種強大且應用廣泛的單階段目標檢測算法。在PASCALVOC2007測試集上,SSD在300像素 ×300 像素圖像的檢測任務中,mAP達到 74.3% ,且實現了59幀/s的幀速率。SSD是一種多尺度的檢測方法,且以VGG16網絡為基礎,通過增加卷積層來獲得更多的特征圖。SSD使用的特征圖包括38像素 ?×38 像素、19像素 ×19 像素、10像素 ×10 像素、5像素 ?×5 像素、3像素 ?×3 像素、1像素 ?×1 像素共6種。大尺度特征圖用于檢測小尺度的目標,包括遠處的車輛、交通燈等,小尺度特征圖用于檢測大尺度的目標,如近處車輛等,模型如圖5所示。與之前的檢測器只在頂層進行檢測不同,SSD具有多種檢測層來檢測不用尺度的對象。
圖5SSD模型
RetinaNet5通過修正正負樣本不平衡實現與兩階段方法同等的檢測準確度。在RetinaNet提出之前,相對于兩階段目標檢測,單階段目標檢測的精確度相差甚遠。焦點損失的提出使單階段方法具有與兩階段方法相差無幾的準確性以及更快的檢測速度。
2018年后,目標檢測出現了新的方向,即無錨框(AnchorBox)檢測。CornerNet、中心點網絡(CenterNet)、極值點網絡(ExtremeNet)、代表性點(RepresentativePoints,RepPoints)、網格區域卷積神經網絡(Grid Region Convolutional Neural Network,GridR-CNN)等是基于關鍵點的無錨框檢測。無特征選擇錨(FeatureSelectiveAnchor-Free,FSAF)模型、導向錨定區域提案(RegionProposalbyGuidedAnchoring,GARPN)、自適應樣本選擇(AdaptiveTrainingSampleSelection,ATSS)、Foveabox等是基于中心點的無錨框檢測。CornerNet5開創性地拋棄錨框,采用關鍵點來檢測目標,用一對角點表示目標的位置,在特征圖的每個位置預測熱圖(Heatmaps)、嵌入向量(Embeddings)和角偏移(Offsets),熱圖用于計算角點的概率,嵌入向量用于匹配成對的角點,角偏移用于回歸角點的位置。該檢測器采用HourglassNet作為骨干網絡,搭配新提出的角點池化(CornerPooling)來預測熱圖。CornerNet在COCO數據集上的AP達到了 42.1% ,超過了當時所有的單階段模型。2019年,CenterNet[57]將基于中心的方法和基于角點的方法相結合,通過關鍵點(中心點)檢測物體,回歸到物體的尺寸、維度、三維范圍、姿態等屬性,將物體檢測問題有效轉化為關鍵點估計問題。CenterNet通過預測中心點熱圖來定位目標中心,生成邊界框,同時利用中心點熱圖過濾掉低置信度的檢測結果,且在推斷時只需一次前向傳播,無需NMS后處理。2019年,ExtremeNet5被提出,其通過檢測目標的4個極點進行目標定位,然后通過幾何關系將其組合起來生成最終的邊界框,性能與其他主流檢測算法相當。ExtremeNet的檢測方法十分獨特,但是也借鑒了CornerNet的設計思路,但其依賴于較多的后處理方法,故仍有許多優化空間。與此同時,文獻[59]提出了GridR-CNN,它用基于角點的定位機制取代了線性邊界框回歸器。綜上,CornerNet、CenterNet等基于關鍵點的算法本質上與基于錨框的算法相似,通過預測目標中心點及邊框距中心點的距離來檢測目標。文獻[60]提出了一種FSAF框架,是一種可以在結構中加入特征金字塔網絡(FeaturePyramidNetwork,FPN)的單階段檢測器。FSAF將在線特征選擇應用于多級無錨框分支的訓練,訓練過程中,FSAF將每個對象動態分配到最合適的特征級別,以訓練基于中心的分支,取得了較好的檢測效果。RepPoints提出使用點集的方式來表示目標,該方法基于全卷積網絡,在分類和最后一次回歸時使用DCN,在準確度與計算量之間實現了非常好的平衡。
2.3深度學習在車輛目標檢測中的應用
自動駕駛車輛的目標檢測算法需滿足2個條件:實現道路上目標的高精確度檢測;檢測速度能夠滿足車載控制器實時控制車輛的要求。基于深度學習的算法可以在使用較少計算資源的前提下實現較高的檢測精度,成為自動駕駛系統必不可少的目標檢測方法。如圖6所示,目標檢測存在一些普遍的困難:當車輛在弱光照條件下或夜間行駛時,因光線不充足,感知系統難以獲取足夠的信息;車輛高速行駛時,車載相機拍攝到的照片會變得模糊;在雨、雪、霧天氣條件下,因受到遮擋,拍攝的照片也會不清晰;車輛行駛時,常出現小自標隱藏在復雜環境中導致漏檢的情況,從而影響行駛安全性。
圖0十假口你應側的般難點
針對車輛夜間行駛條件下的檢測困難問題,一些研究62-63通過改進和設計新的網絡結構提升弱光環境下的檢測準確率,如文獻[64]通過對圖像增強算法進行改進并與YOLO算法融合,使夜間條件下的檢測精度大幅提升,平均檢測精度達 95.92% ,比YOLOv5s精度提升了1.19百分點,這表明圖像增強技術可以很好地優化車載目標檢測任務中獲取的信息,解決夜間環境等車輛邊界難以區分的情況。然而,在實際應用中也發現了一些問題,如當遇到一些車輛輪廓微弱并且車燈等泛光嚴重的情況時,增強處理后的圖像仍然難以準確區分車輛邊界和特征,導致檢測準確率有所下降。這表明在復雜多變的現實環境中,單一的圖像增強技術無法完全應對所有不利因素,當前的技術瓶頸之一就是缺乏對多種惡劣天氣和復雜路況的適應性。文獻[65]、文獻[66]提出的方法也能夠很好地改善夜間弱光環境下車輛檢測的準確率。針對雨、雪、霧天氣下照片不清晰以及目標遮擋的問題,HasanAbbasi等提出了一種霧感知自適應YOLO算法,通過使用霧化評估器算法配合YOLO算法提高了霧化條件下的目標檢測性能。文獻[68]通過將去霧模塊與多尺度視網膜皮層理論(Multi-ScaleRetinex,MSR)相結合,增強了雨霧天氣等復雜環境條件下的檢測性能。另一項研究通過將卷積注意力模塊(ConvolutionalBlockAttentionModule,CBAM)加人YOLOv5的跨階段部分連接(CrossStagePartial,CSP)層來改善霧條件下的檢測準確率。文獻[70]利用多層次特征融合的去雨霧模塊對圖像進行優化,通過對6000張含雨水圖片與6000張含霧氣圖片進行實際測試,其搭載的算法對真實測試集雨霧條件下車輛檢測的準確率接近 89% 。這些方法均通過對圖像進行去雨霧操作提升檢測效果,但是在實際的自動駕駛任務中,大雨會導致信息的嚴重冗余,多種類型的霧氣
會造成不同程度的圖像模糊,類似于團霧天氣使場景中對比度顯著下降,導致檢測算法難以準確獲取實際信息,影響其對檢測目標的判斷。這反映出當前車輛檢測算法在應對不同類型惡劣天氣時的適應性有待提高,無法準確區分被雨滴或霧氣遮擋的車輛目標輪廓,這是需要進一步攻克的技術難題。
車輛目標檢測對實時性要求嚴苛,所以搭載精度高的單階段檢測器十分必要,迄今為止,單階段檢測器中性能最為突出的毫無疑問是YOLO,因此車輛目標檢測領域中基于YOLO的算法層出不窮,研究人員為解決小物體難以檢測、漏檢率高等問題,提出了更為有效的小目標檢測方法[71-73]。Zhang等4針對漏檢率高、遠景小物體特征提取能力和感知能力差、對目標定位能力較弱等問題,通過將YOLOv7的骨干網絡替換為Res3Unit以及在空間金字塔池化跨階段部分連接(Spatial Pyramid PoolingCross Stage Partial Connection,SPPCSPC)層后增加即插即用的混合注意力機制模塊ACmix,并在特征融合和檢測頭連接處使用感受野局部注意力(ReceptiveFieldLocal Attention,RFLA)中的高斯感受野方案(GaussianReceptiveField Scheme),相較于YOLOv7,成功將平均準確檢測率提升2.4百分點,幀速率達到了96幀/s。這意味著在實時性上能夠更好地滿足交通流量較大時對車輛目標快速準確檢測的需求。Qiu等為在檢測精度和計算代價之間取得平衡,從無人機的角度提出了一種新的特殊車輛檢測算法YOLO-GNS。該算法基于單級無頭上下文結構的特征提取算法針對幻影網絡(GhostNetwork,GhostNet)的缺點進行改進,與YOLOv7相比, mAP 提高了4.4百分點,幀速率提高 1.6% Cai等基于YOLOv4將 CSPDarknet(Cross Stage PartialDarknet)最后的輸出層替換為DCN,然后設計了特征融合模塊路徑聚合網絡 ++ (Path AggregationNetwork ++ PAN++ ),并提出一種網絡剪枝算法,相較于原算法,在各類數據集上成功提升了 mAP ,并能以高于66幀/s的速度進行檢測。為了處理移動車輛的遮蔽問題,文獻[77]使用U型網絡(U-Net)和深度卷積網絡,通過將卷積網絡在不同尺度上的信息整合到不同分辨率的圖像中,使檢測準確率顯著提高,Li等通過將深度信息與YOLOv5相結合,降低了漏檢和誤檢率,并獲得了距離信息。雖然上述方法能夠在漏檢、誤檢方面取得良好的效果,但是在車輛密集與遮擋程度嚴重的情況下,其漏檢和誤檢問題依然頗為突出,因為遮擋的程度不同會導致車輛不同程度的特征丟失,使算法難以準確識別,需要在實際交通情況下克服這一難點。
2023年,Wang等提出了CenterNet-Auto算法,將特征提取網絡RepVGG與CenterNet相結合,在不增加參數的情況下,對FPN進行優化以提高其特征提取能力,并提出了一種新的ABMin檢測頭,充分利用邊界特征輔助中心點回歸到其他物體屬性,在不損失檢測精度的前提下提高了檢測速度。BDD數據集上的驗證結果表明,其準確性和速度有較大優勢,推進了實時車輛檢測技術。
3總結與展望
傳統的目標檢測方法中特征提取算法工作量大、易受弱光和惡劣圖像質量的影響,深度學習算法在網絡結構及后處理方法等方面已被證明具有比傳統檢測算法更佳的性能,且更易研究,但仍受復雜環境和算力的巨大影響。深度學習算法被認為是一種黑箱子,其工作過程難以解釋,而且在早期發展過程中因中央處理器(CentralProcessingUnit,CPU)、圖形處理器(GraphicsProcessingUnit,GPU)和內存的性能不足而受到制約,其在車輛自標檢測領域極易出現小目標、遮擋導致的漏檢和誤檢,在復雜環境下容易出現檢測率下降的問題,目前諸多研究正在努力克服這些局限性并已取得了一些成果,還有更多的研究旨在提升整體檢測準確度。未來,針對車輛目標檢測,需要在以下幾個方面開展更為深入的研究:
a.小目標檢測。小目標檢測一直存在背景復雜情況下特征信息少的問題,可以深人研究注意力機制如何聚焦小目標特征區域,以更好地捕捉其關鍵信息,也可以通過研究更適合小目標檢測的檢測頭或高分辨率輕量級網絡的架構搭建和參數優化等,保證較高分辨率以精準檢測小目標。
b.多模態融合。在自動駕駛領域中,激光雷達點云數據與視覺數據融合、聲波雷達數據與視覺數據融合等是當前的研究熱點,模態融合在一定程度上提升了車輛對周圍環境的感知能力,但是也面臨一些挑戰:不同硬件導致所采集數據的形式和頻率不同,需要進行校準;模態的增多意味著數據量增大,會導致計算資源需求量急劇增大。未來,可通過新型傳感器研發提供更為優質的數據或者針對計算資源不足的環境進行輕量化模型設計,在保證
性能的前提下降低計算需求量。同時也需加強推進文本特征、語音特征、圖像特征的融合,以及類似Transform的模型從自然語言處理(NaturalLanguageProcessing,NLP)到計算機視覺(ComputerVision,CV)領域的應用,以滿足更為復雜環境條件下的車輛目標檢測。
c.精度與召回率之間的平衡。部分檢測算法檢測準確度較高,但召回率略有欠缺,嚴重制約了算法在復雜檢測任務中的效能,需要新的方法在精度與召回率之間取得平衡,如通過有效融合多種數據源、優化特征提取架構、優化后處理方式提升算法在復雜環境下對各類目標的檢測能力。
d.高品質數據資源庫。基于監督的深度學習模型需要通過數據驅動,所以需要足夠大量的準確數據支持其訓練以保證模型的準確性,未來可著力于制作各領域的高質量數據集。
參考文獻
[1]茅智慧,朱佳利,吳鑫,等.基于YOLO的自動駕駛目標 檢測研究綜述[J].計算機工程與應用,2022,58(15):68- 77. MAOZH,ZHUJL,WUX,etal.Review ofYOLOBased Target Detection for Autonomous Driving[J].Computer Engineering and Applications,2022,58(15): 68-77.
[2]LIU J.Application of Object Detection in Autonomous Driving[C]// Proceedings of the 2023 2nd International Conference on 3D Immersion,Interaction and MultiSensory Experiences (ICDIIME). Madrid,Spain:IEEE, 2023.
[3]段偉.汽車自動駕駛技術簡述[J].中國自動識別技術, 2024(2): 66-68. DUAN W.A BriefOverview ofAutonomous Vehicle Technology[J]. China Auto-ID,2024(2): 66-68.
[4]HNEWA M,RADHA H. Object Detection under Rainy Conditions for AutonomousVehicles:AReview of State-ofthe-Art and Emerging Techniques[J].IEEE Sigal Processing Magazine,2021,38(1): 53-67.
[5]ITTI L,KOCHC,NIEBUR E.A Model of Saliency-Based Visual Attention for Rapid Scene Analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998,20(11): 1254-1259.
[6]HUANG T S.Computer Vision:Evolution and Promise[C]// 1996 CERN School of Computing. Geneva, Switzerland: CERN,1996.
[7]WU X W, SAHOO D,HOI S CH. Recent Advances in Deep Learning for Object Detection[J]. Neurocomputing, 2020,396:39-64.
[8]ZUU Z X, SHI Z W,GUU Y H, et al. Ubject Detection in 20 Years: A Survey[J]. Proceedings of the IEEE,2019:111 (3): 257-276.
[9]DALAL N,TRIGGS B.Histograms of Oriented Gradients for Human Detection[C]// 2025 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE,2005.
[10] BEAUCHEMIN S S,BARRON JL. The Computation of Optical Flow[J]:ACM Computing Surveys,1995,27(3): 433-466.
[11] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al.Object Detection with Discriminatively Trained PartBased Models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.
[12]FELZENSZWALB P F,GIRSHICKR B, MCALLESTER D A. Cascade Object Detection with Deformable Part Models [C]// 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco,CA,USA: IEEE,2010.
[13] VIOLA P A, JONES M J. Rapid Object Detection Using a Boosted Cascade of Simple Features[Cl// 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Kauai,HI, USA: IEEE,2001.
[14]LOWEDG.Object Recognition from Local Scale-Invariant Features[J]. Proceedings of the Seventh IEEE International Conference on Computer Vision (ICCV).Kerkyra, Grece: IEEE,1999.
[15]HEARST M A,DUMAIS ST,OSUNA E,et al. Support Vector Machines[J]. IEEE Intelligent Systemsand Their Applications, 1998, 13(4): 18-28.
[16] BREIMANL. Bagging Predictors[J]. Machine Learning, 1996,24:123-140.
[17]FREUND Y,SCHAPIRE R.A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computerand System Sciences, 1997,55(1): 119-139.
[18] TIAN Q, ZHANG L, WEI Y X,et al. Vehicle Detection and Tracking at Night in Video Surveillance[J].International Journal of Online Engineering,2013,9(S6): 60-64.
[19]WUBF,JUANGJH.Adaptive Vehicle Detector Approach forComplex Environments[J]. IEEE Transactionson Intelligent Transportation Systems,2012,13(2): 817-827.
[20] ZHANG D B.Vehicle Target Detection Methods Based on Color Fusion Deformable Part Model[J]. Eurasip Journal on Wireless CommunicationsandNetworking,2018,2018(1):94.
[21] PADILLA D A, VILLAVERDE JF, MAGDARAOG JJT, et al.Vehicle and Weather Detection Using Real Time Image Processng Using Uptical Flow and Uolor Histogram [C]//20195th International Conference onControl, Automation and Robotics (ICCAR). Beijing, China: IEEE, 2019.
[22] PAPAGEORGIOU C P, OREN M, POGGIO T. A General Framework for Object Detection[J].Sixth International Conference on Computer Vision.Bombay,India: IEEE,1998.
[23]KARANGWA J,LIU J, ZENG Z. Vehicle Detection for Autonomous Driving:A Review of Algorithms and Datasets [J].IEEE Transactionson Intelligent Transportation Systems,2023,24(11): 11568-11594.
[24] ASIM M,WANG Y,WANG K Z,et al.A Reviewon Computational Intelligence Techniques in Cloud and Edge Computing[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2020,4(6): 742-763.
[25]陳曉,楊琪,姚海洋,等.基于細粒化特征感知的水下目標 檢測算法[J].陜西科技大學學報,2024,42(4):177-183. CHENX,YANGQ,YAO HY,etal.Underwater Target Detection Algorithm Based on Fine-Grained Feature Perception[J]. Journal of Shaanxi University of Science and Technology,2024,42(4): 177-183.
[26] KRIZHEVSKY A, SUTSKEVER I, HINTON GE. ImageNet Classification with Deep Convolutional Neural Networks[C]//Proceedingsof the25th International Conference on Neural Information Processing Systems. Lake Tahoe,NV,USA: Curran Associates Inc.,2012.
[27] SERMANET P,EIGEN D, ZHANG X,et al. OverFeat: Integrated Recognition,Localization and Detection Using Convolutional Networks[EB/OL]. (2014-02-24)[2025-02- 21]. https://arxiv.org/abs/1312.6229.
[28] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL]. (2015-04-10)[2025-02-21]. https://arxiv.org/abs/ 1409.1556.
[29]WANGH,YUYJ,CAIYF,et al.AComparative Studyof State-of-the-Art Deep Learning Algorithms for Vehicle Detection[J].IEEEIntellgent Transportation Systems Magazine,2019,11(2): 82-95.
[30]MEHRALIAN M, KARASFI B. RDCGAN: Unsupervised RepresentationLearningwithRegularizedDeep Convolutional Generative Adversarial Networks[C]// 2018 9th Conference on Artificial Intellgence and Robotics and 2nd Asia-Pacific International Symposium. Kish Island, Iran: IEEE,2018.
[31]CHEN X,DUAN Y,HOUTHOOFT R,et al.InfoGAN: Interpretable Representation Learning by Information Maximizing GenerativeAdversarialNets[C]//30th Juuiai riutsssgssitin (NIPS). Barcelona,Spain: Curran Assciates Inc., 2016.
[32] HE K, ZHANG X,REN S, et al. Deep Residual Learning for Image Recognition[J]. 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV, USA: IEEE,2016.
[33]HUANGG,LIU Z,VAN DER MAATENL,et al.Densely ConnectedConvolutionalNetworks[J].2O17IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI, USA: IEEE,2016.
[34] SHI H M,ZHOUQ,NIY H,et al.DPNET:Dual-Path Network for Efficient Object Detectioj with Lightweight Self-Attention[J].2022 IEEE International Conference on Image Processing.Bordeaux,France: IEEE,2021.
[35] NEWELL A,YANG K Y,DENG J. Stacked Hourglass Networks for Human Pose Estimation[M]//LEIBEB, MATAS J, SEBE N, et al. Computer Vision - ECCV 2016. Cham,Switzerland:Springer International Publishing, 2016:483-499.
[36] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[EB/OL]. (2017-04-17)[2025-02-21]. https:// arxiv.org/abs/1704.04861.
[37]LIN TY,DOLLARP,GIRSHICKR,etal.FeaturePyramid Networks for Object Detection[J].2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE,2017.
[38] DAI J F,QI H Z,XIONG Y W,et al. Deformable Convolutional Networks[C]//2O17 IEEE International Conference on Computer Vision.Venice,Italy: IEEE,2017.
[39] LI Z M,PENG C, Yu G,et al. DetNet: A Backbone network for Object Detection[EB/OL]. (2018-04-19)[2025-02-21]. https://arxiv.org/abs/1804.06215.
[40] TYCHSEN-SMITH L, PETERSSON L. DeNet: Scalable Real-Time Object Detection with Directed Sparse Sampling [C]// 2017 IEEE International Conference on Computer Vision.Venice,Italy:IEEE,2017.
[41] XU Y P, WU X,WANG L, et al.HOFA-Net: A HighOrder Feature Association Network for Dense Object Detection in Remote Sensing[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024,17: 1513-1522.
[42] DAI HH, GAO S S, HUANG H, et al. An Adaptive Sample Assignment Network for Tiny Object Detection[J].IEEE Transactions on Multimedia,2024,26: 2918-2931.
[43] GIRSHICK R,DONAHUE J, DARRELL T, et al.Rich Featiire Hierarehies for Accurate Ohieet Deteetion and Semantic Segmentation[J]. 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE,2014.
[44]HEKM, ZHANGXY,REN SQ,et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,37(9): 1904-1916.
[45] WANG J, ZHANG T J, CHENG Y,et al. Deep Learning for Object Detection: A Survey[J]. Computer Systems Science amp; Engineering,2021,38(2): 165-182.
[46] GIRSHICK R.Fast R-CNN[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE,2015.
[47]REN SQ,HE K M,GIRSHICKR,et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017, 39(6): 1137-1149.
[48] DAI JF,LI Y,HE K M,et al.R-FCN: Object Detection via Region-Based Fully Convolutional Networks[M]// 30th Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc.,2016.
[49] REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once:Unified,Real-Time Object Detection[C]// 2016 IEEEConference onComputer Visionand Pattern Recognition.LasVegas,NV,USA: IEEE,2016.
[50]WANGCY,BOCHKOVSKIYA,LIAO HY M.YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-TimeObjectDetectors[C]//2023IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver,BC, Canada: IEEE,2023.
[51]VARGHESE R,SAMBATH M.YOLOv8:A Novel Object Detection Algorithm with Enhanced Performance and Robustness[C]//2024International Conference on Advances in Data Engineering and Intellgent Computing Systems (ADICS). Chennai, India: IEEE,2024.
[52] WANGA, CHEN H, LIU L H, et al. YOLOv1O: Real-Time End-to-End Object Detection[C]// Annual Conference on NeuralInformationProcessingSystems.Vancouver, Canada: MIT Press,2024.
[53] ZHAO Y A,LV W Y, XU S L,et al. DETRs Beat YOLOs on Real-Time Object Detection[C]// Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Seattle,WA,USA: IEEE,2024.
[54] WEI L, DRAGOMIR A,DUMITRU E,et al. SSD: Single Shot MultiBoxDetector[M]//LEIBEB,MATASJ,SEBE N, et al.Computer Vision-ECCV 2O16.Cham,Switzerland: Snvin .0016 Dense Object Detection[J]. 2O17 IEEE International Conference on Computer Vision.Venice, Italy:IEEE,2017.
[56] LAW H, DENG J. CornerNet: Detecting Objects as Paired Keypoints[J]. International Journal of Computer Vision, 2020,128(3): 642-656.
[57]DUANKW,BAI S,XIELX,et al.CenterNet:Keypoint Tripletsfor ObjectDetection[C]//2019IEEE/CVF International Conference on Computer Vision. Seoul, Korea: IEEE,2019.
[58] ZHOU X Y,ZHUO J C,KRHENBUHl P.Bottom-up Object Detection by Grouping Extreme and Center Points [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USA: IEEE,2019.
[59]LUX,LI BY,YUE Y X,et al.Grid R-CNN[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach,CA,USA: IEEE,2018.
[60] ZHU C C,HE Y H, SAVVIDES M.Feature Selective Anchor-Free Module for Single-Shot Object Detection[C]/ 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach,CA,USA: IEEE,2019.
[61] YANG Z,LIU S H,HU H,et al. RepPoints: Point Set Representation for Object Detection[C]// 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea: IEEE,2019.
[62] XUYQ,CHUKB,ZHANGJ.NighttimeVehicle Detection Algorithm Based on Improved Faster-RCNN[J]. IEEE Access,2024,12: 19299-19306.
[63]YUY,CHENWX,CHENFX,et al.Night-TimeVehicle Model Recognition Based on Domain Adaptation[J]. Multimedia Tools and Applications,2024,83: 9577-9596.
[64]袁子強.圖像增強與夜間車輛識別算法研究[D].成都: 電子科技大學,2023. YUAN Z Q. Research on Image Enhancement and Night Vehicle Recognition Algorithm[D].Chengdu:University of Electronic Science and Technology of China,2023.
[65] ZHANG H, YANG KF,LI Y J, et al. Night-Time Vehicle Detection Based on Hierarchical Contextual Information[J]. IEEE Transactions on Intelligent Transportation Systems, 2024,25(10): 14628-14641.
[66] XUE T, ZHANG ZQ,MA WN,et al.Nightime Pedestrian and Vehicle Detection Based on a Fast Saliency and Multifeature Fusion Algorithmfor Infrared Images[J]. IEEE Transactions on Intelligent Transportation Systems,2022, 23:16741-16751.
[67] ABBASI H, AMINI M, YU F R. Fog-Aware Adaptive VOIn nL: L__c1/ Proceedings of the 2O23 IEEE Sensors Applications Symposium (SAS).Ottawa, ON,Canada: IEEE,2023.
[68]LI W.Vehicle Detection in Foggy Weather Based on an EnhancedYOLO Method[C]//2022International Conference on Machine Vision,Automatic Identification and Detection. Nanjing, China: IOP Publishing Ltd.,2022.
[69]WANGXJ,WANGC.VehicleMulti-TargetDetectionin Foggy Scene Based on Foggy env-YOLO Algorithm[C]/ Proceedingsof the2O22 IEEE 7th International Conference on Intelligent Transportation Engineering (ICITE).Beijing, China:IEEE,2022.
[70]孫再鳴.雨霧天氣下的車輛目標檢測關鍵技術研究[D]. 北京:華北電力大學,2023. SUNZ M.Research on Key Technologies of Vehicle Detection in Haze and Rain[D].Beijing:North China Electric Power University,2023.
[71] CARRASCO D P, RASHWAN H A,GARCIA M A, et al. T-YOLO:Tiny Vehicle DetectionBased on YOLOand Multi-Scale Convolutional NeuralNetworks[J].IEEE Access,2023,11: 22430-22440.
[72]HU S,ZHAO B X,DING TJ,et al.Prior-YOLO: EnhancingIntelligent Vehicle Small ObjectDetectionwith DrivingStatus-InformedYOLOv8[C]//20233rd International Conference on Computer Science,Electronic Information Engineering and Intellgent Control Technology (CEI).Wuhan,China: IEEE,2023.
[73]YANX,SHENBB,LIH.SmallObjectsDetectionMethod forUAVsAerialImageBasedonYOLOv5s[C]/ Proceedingsof the2O23 IEEE 6th International Conference on Electronic Information and Communication Technology (ICEICT).Qingdao,China: IEEE,2023.
[74]ZHANGYH,SUNYP,WANGZ,etal.YOLOv7-RARfor UrbanVehicleDetection[J].Sensors,2023,23(4).
[75]QIUZ,BAIH,CHENT.SpecialVehicleDetectionfrom UAV Perspective via YOLO-GNS Based Deep Learning Network[J].Drones,2023,7(2).
[76]CAIYF,LUAN TY,GAOHB,et al.YOLOv4-5D:An Effective and Efficient Object Detector for Autonomous Driving[J]. IEEE Transactions on Instrumentationand Measurement,2021,70.
[77]NATTEV S,KADICHERLA J, KATUKOJWALA SD,et al.Semantic Segmentation Using U-Net for Autonomous Driving[C]// 2O24 Third International Conferenceon Distributed Computingand Electrical Circuitsand Electronics (ICDCECE).Ballari, India: IEEE,2024.
[78]LILH,FANGMH,YINYH,etal.A Traffic SceneObject Detection Method Combining Deep Learning and Stereo VisionAlgorithm[C]//2O21 IEEEInternational Conference on Real-Time Computing and Robotics (RCAR). Xining, China:IEEE,2021.
[79]WANGH,XUYS,WANGZN,etal.CenterNet-Auto:A Multi-Object Visual Detection Algorithm for Autonomous Driving Scenes Based on Improved CenterNet[J].IEEE TransactionsonEmergingTopics in Computational Intelligence,2023,7(3): 742-752.
(責任編輯斛畔)
修改稿收到日期為2025年1月6日。
《汽車工程師》征稿啟事
《汽車工程師》于1974年創刊,是由中國第一汽車集團有限公司主管、中國第一汽車股份有限公司主辦的國內外公開發行的汽車應用技術類學術期刊,為RCCSE中國準核心學術期刊、CACJ中國應用型擴展期刊,被哥白尼精選數據庫、EBSCO學術數據庫、歐洲學術出版中心(EuroPub)數據庫、J-Gate數據庫收錄。
《汽車工程師》以報道汽車產品設計領域的技術研究成果為主,專注于技術開發與應用層面的創新成果,提供汽車設計創新解決方案。《汽車工程師》將把握電動化、智能化、網聯化、共享化的汽車技術主流發展趨勢,努力吸收優質稿源,為我國汽車工程技術創新能力提升貢獻力量。重點征稿方向包括:鋰離子電池與新體系電池、動力電池熱管理與熱失控、燃料電池及其關鍵零部件、車用電機及其控制器、自動駕駛汽車環境感知與感知融合、自動駕駛汽車定位與建圖、自動駕駛汽車測試、人工駕駛-無人駕駛車輛混行條件下的自動駕駛控制、智能線控底盤、一體化底盤、功能安全和預期功能安全。
熱忱歡迎汽車行業的專家學者不吝賜稿,反映國家重點扶持項目、自然科學基金項目和其他重點項目等研究成果的稿件將優先發表,我們期待與您共同踐行“把論文寫在祖國大地上\"的指示精神,為強大中國汽車工業作貢獻!
本刊使用協同采編系統處理稿件,請登陸期刊網站注冊后投稿,投稿要求見本刊網站中“下載中心\"欄目的作者指南,網址:http:/tjqc.cbpt.cnki.net。