



















【摘要】為提高光照變化、模糊、噪聲和遮擋等復雜環境下視覺感知系統目標檢測模型的性能,基于YOLO 11x模型,結合數據增強方法,分析了目標檢測模型在不同復雜環境下的性能變化情況,結果顯示,不同類型的環境干擾對模型性能的影響各有特點,其中高斯噪聲和運動模糊的影響較為顯著,亮度調整和隨機遮擋的影響相對較小。
關鍵詞:目標檢測 復雜環境 數據增強 自動駕駛
中圖分類號:U467.3" "文獻標志碼:A" "DOI: 10.20104/j.cnki.1674-6546.20240417
Performance Evaluation of Visual Object Detection Models of Autonomous Driving Vehicle in Complex Environments
Lu Jiawei
(Tongji University, Shanghai 201804)
【Abstract】In order to enhance performance of visual perception system object detection model in complex environments such as lighting variations, blur, noise, and occlusion, this study investigates the performance variations of object detection models under different complex scenarios using YOLO 11x and data augmentation techniques. The results indicate that various environmental disturbances have distinct impacts in model perfprmance, with Gaussian noise and motion blur having more pronounced impacts, while brightness adjustments and random occlusions are relatively less disruptive.
Key words: Object detection, Complex environments, Data augmentation, Autonomous driving
1 前言
視覺感知系統是自動駕駛技術的核心之一,但復雜環境(如光照變化、模糊、霧霾和噪聲)對其功能安全構成了重大挑戰。這些干擾可能導致目標檢測性能下降,影響系統的可靠性[1]。盡管視覺檢測模型在標準環境下表現良好,但其在真實復雜場景中的魯棒性仍缺乏系統性分析。而且現有研究多采用理想數據集對視覺檢測模型進行評價,難以全面反映真實道路條件下復雜多變的運行環境。然而,真實道路環境往往包含更多不確定因素。為此,中國智能網聯汽車產業創新聯盟(China Industry Innovation Alliance for the Intelligent and Connected Vehicles,CAICV)等行業組織也針對實車環境感知系統功能安全開展了相應研究,并發布了實車測試評估體系[2],為后續深入研究提供了一定的參考。
近年來,深度學習技術的快速發展顯著提升了視覺感知系統的目標檢測性能,YOLO系列[3]和更快速區域卷積神經網絡(Faster Region-based Convolutional Neural Network,Faster R-CNN)[4]等模型在標準數據集上的表現接近人類水平。然而,這些研究多聚焦于理想環境,未充分考慮復雜場景中的干擾因素。一些學者嘗試通過數據增強(如高斯噪聲、模糊處理和亮度調整)模擬復雜環境,探索模型魯棒性[5]。雖然相關研究表明,數據增強能在一定程度上提升適應性,但其方法往往難以全面反映真實道路中多樣化干擾的疊加效應;此外,對誤檢率、漏檢率等安全性指標的分析有限,缺乏基于真實道路場景的大規模驗證,難以準確評估模型的實際性能。針對這些不足,本文基于YOLO 11x模型,結合數據增強技術模擬典型復雜場景,并設計試驗評估模型性能,通過分析關鍵指標,揭示模型在不同場景下的性能變化規律,明確模型的魯棒性問題及優化方向,以期為視覺感知模型優化與系統改進提供實踐依據。
2 理論分析
2.1 數據增強方法與復雜環境模擬
數據增強技術可通過模擬自動駕駛場景中的復雜環境,為評估目標檢測模型的魯棒性提供有效工具[6]。本文針對典型的光照變化、模糊、遮擋及噪聲等挑戰,設計了多種增強方法,包括亮度調整、高斯模糊、運動模糊、霧化、噪聲添加和隨機遮擋等,以模擬極端光照條件、動態模糊場景、低對比度天氣以及部分目標被遮擋或受噪聲干擾的實際情況,為模型性能測試奠定基礎。
2.2 復雜環境對視覺目標檢測性能的影響
目前,視覺目標檢測模型主要依賴卷積神經網絡(Convolutional Neural Network,CNN)提取的特征,這些特征經過分類器和定位回歸模塊生成目標類別與檢測框[7]。然而,復雜環境會對特征提取和模型輸出造成顯著干擾[8]。
2.2.1 光照變化
假設圖像中像素(x,y)處的值I(x,y)在亮度增強的條件下被調整為I′(x,y)=k·I(x,y),卷積操作依賴于像素梯度的變化,其梯度表達為:
?I′(x,y)=k·?I(x,y) (1)
當I(x,y)接近飽和值時,?I′(x,y)趨近于零,導致目標區域的邊緣特征消失,使模型的特征圖響應減弱,影響目標定位。
在低亮度條件下,像素值I(x,y)接近零,對比度C可表示為:
C=(Itgt-Ibgd)/Ibgd (2)
式中:Itgt為目標物的像素值,Ibgd為背景的像素值。
當Ibgd→0時,對比度C顯著下降,使得目標的梯度特征難以區分,降低分類和定位性能。
2.2.2 圖像模糊
攝像頭對焦不準或車輛振動引起的圖像模糊可以通過高斯模糊進行建模,其核心在于對圖像進行平滑操作[9]。具體來說,模糊后的像素值I′(x,y)是原始圖像像素值I(u,v)與高斯核函數G(x?u,y?v)的二維卷積結果,表達為:
(3)
其中,高斯核G(x,y)的定義為:
[G(x,y)=12πσ2e-x2+y22σ2] (4)
式中:σ2為高斯核的方差,用于控制模糊的程度,方差越大,模糊效果越強。
高斯模糊會削弱圖像中邊緣特征的顯著性,其梯度幅值隨σ2的增加而減小。圖像的梯度近似表達為:
(5)
對于高斯模糊圖像,梯度幅值的下降表現為卷積特征圖中邊緣響應的減弱,直接影響目標檢測框的生成和定位精度[10]。模糊對檢測性能的影響與目標的尺度直接相關。對于大目標,即使邊緣特征經過平滑處理,特征仍然具有較高的顯著性,因此對定位精度的影響較小。但對于小目標,由于邊緣梯度信息本身較弱,模糊會導致小目標的細節特征完全喪失,使得檢測框的生成概率顯著下降,甚至導致漏檢。
對于由車輛的快速移動或相機的相對位移引起的圖像拖影現象,運動模糊可視為沿某一方向的線性卷積,其影響可表示為:
I′(x,y)=I(x,y)?K(x,y) (6)
式中:K(x,y)為一維運動模糊核,其長度反映了模糊強度,方向決定了模糊的方向分布。
在模糊方向上,目標的邊緣信息被拉長,導致邊界像素梯度沿模糊方向減弱。這種現象會使卷積神經網絡難以精確定位目標邊界[11]。
2.2.3 霧霾
霧化場景可以用大氣散射模型描述:
I′(x,y)=J(x,y)·t(x,y)+A·(1-t(x,y)) (7)
式中:J(x,y)為無霧圖像的真實像素值,t(x,y)=e-βd(x,y)為透射率,d(x,y)為像素點到攝像頭的深度距離,β為散射系數,A為大氣光值。
霧化降低了透射率t(x,y),使目標與背景對比度下降,導致分類器對目標類別的區分能力減弱。此外,小目標的透射率變化更劇烈,使得小目標在特征提取階段可能被忽略。
2.2.4 圖像噪聲
在車輛環境中,傳感器信號干擾可能由信號傳輸過程中的電磁干擾或傳感器硬件故障引發。這種干擾可以用高斯噪聲進行建模,其特點是像素值在均值為零、方差為σ2的正態分布下隨機波動。模糊后的像素值可以表達為:
I′(x,y)=I(x,y)+N(0,σ2) (8)
式中:N(0,σ2)為服從均值為0、方差為σ2的正態分布的隨機變量,代表高斯噪聲。
高斯噪聲對圖像的干擾表現為全局性隨機像素波動,破壞目標區域的局部特征連續性,使得卷積層難以提取清晰的邊緣和紋理特征[12]。這種特征的丟失可能導致虛假激活值的增加,模型可能將噪聲波動誤認為目標特征,生成錯誤的檢測框。同時,在特征不完整或被隨機波動掩蓋的情況下,目標的檢測框可能偏離真實位置,導致定位精度下降。
外部環境干擾(如降雨、降雪)或傳感器硬件故障(如接觸不良)可能導致圖像中出現局部極端像素值。這種現象可通過椒鹽噪聲建模,其像素值隨機變為極值(黑點或白點):
[I'(x,y)=0," " " " " " " " "rlt;p2255," " " " " "p2≤rlt;pI(x,y)," " " " " r≥p] (9)
式中:r∈[0,1]為均勻分布的隨機變量,用于模擬椒鹽噪聲;p為椒鹽噪聲的概率參數,表示噪點覆蓋的比例。
椒鹽噪聲的干擾集中在目標邊緣和細節特征上,可能引發邊界信息的破壞[13]。隨機黑白噪點可能使目標的邊界信息斷裂,特別是在小目標或復雜背景條件下,對分類和定位的影響尤為顯著。此外,當噪點覆蓋目標關鍵特征時,模型可能完全忽略目標(漏檢)或將背景誤分類為目標(誤檢)。
2.2.5 隨機遮擋
遮擋會導致目標區域部分特征缺失、檢測框定位精度降低。對于卷積層,遮擋相當于對輸入信號的非均勻性干擾。設被遮擋的特征區域為Rv,模型的特征提取響應值可以表示為:
[F=RvI(x,y)?W(x,y)dxdy] (10)
式中:W(x,y)為卷積核的權重參數,定義了模型如何提取特征。
遮擋導致Rv減小,使得目標特征的累積響應值降低,模型的分類準確性顯著下降。
基于上述推導,可以總結出復雜環境對目標檢測性能的主要影響:
a. 光照變化:過曝導致邊緣特征消失,暗光削弱目標與背景的對比度,均顯著降低定位和分類性能。
b. 模糊干擾:模糊削弱了目標邊緣和紋理特征,特別是運動模糊對小目標和快速目標的位置識別損失最為嚴重。
c. 霧化干擾:透射率的降低削弱對比度,對小目標和遠距離目標的檢測尤為不利。
d. 噪聲干擾:高斯噪聲破壞特征的連續性,椒鹽噪聲破壞邊界特征,均增加了分類錯誤和漏檢的概率。
e. 隨機遮擋:遮擋導致特征不完整,類別混淆顯著增加,對小目標影響尤為明顯。
3 試驗設計
3.1 數據集與模型選用
3.1.1 數據集的選用
本文選用KITTI 2D目標檢測數據集作為數據來源[14]。數據集包含了多種真實駕駛場景,包括城市道路、高速公路和鄉村道路,并且涵蓋了多類別目標(如車輛、行人和自行車)的高精度標注,如圖1所示。
3.1.2 模型的選擇和訓練
本文選擇Ultralytics YOLO 11x作為目標檢測模型,該模型是YOLO系列的最新版本,具備較強的特征提取能力、環境適應性和較高的計算效率。YOLO 11x模型采用改進的骨干網絡和特征融合結構,其架構包含631層,總參數量為56 883 016個,浮點運算量達到195.5×109次/s。相較于前代模型,YOLO 11x在保持較高檢測精度的同時顯著降低了計算成本,適合處理自動駕駛場景中的復雜目標檢測任務。
訓練過程基于YOLO 11x模型的官方預訓練權重文件,該權重文件通過在COCO數據集上進行大規模訓練得到,COCO數據集涵蓋了80個類別的目標檢測任務,具有豐富的多樣性和代表性。預訓練權重使模型具備了較強的特征提取能力和初始檢測精度,為后續的針對性訓練提供了基礎。本文試驗中使用KITTI數據集對模型進行進一步訓練,目標類別包含轎車(Car)、廂式貨車(Van)、行人(Pedestrian)、騎行者(Cyclist)、卡車(Truck)、其他(Misc)、有軌電車(Tram)和坐姿人類(Person_sitting)共8類。訓練過程對模型的類別數量進行了調整,使其與KITTI數據集的目標定義相匹配。
圖2展示了模型在訓練與驗證過程中的邊界框損失(Box Loss)、分類損失和分布式焦點損失(Distribution Focal Loss,DFL)的下降情況,以及交并比(Intersection over Union,IoU)閾值為0.5時的平均精度均值(mAP50)和交并比閾值為0.5~0.95時的平均精度均值(mAP50-95)的逐步提升。
為了兼顧性能和硬件限制,輸入圖像尺寸設定為1 280像素×384像素,批量大小設置為8,并使用AdamW優化器和自動混合精度(Automatic Mixed Precision,AMP)技術。
圖3展示了模型在測試數據集上的精確率(Precision)-召回率(Recall)曲線,直觀地反映了不同類別目標的檢測性能,其中轎車(Car)和廂式貨車(Van)等主要類別目標的精確率和召回率始終接近1,表現出極高的檢測穩定性,而行人(Pedestrian)等目標在邊界值處精確率略有下降,表明模型在處理稀疏目標時仍有一定改進空間。總體來看,總體的IoU50精度可以達到0.988,證明了模型在多類別任務中的高魯棒性。
需要注意的是,上述性能表現是在訓練和驗證過程中使用的驗證集上,以及IoU閾值為0.5的評估條件下得到的。在更嚴格的IoU閾值和更為復雜、多樣化的原始數據集上進行獨立測試時,模型對主要類別的檢出率和定位精度可能會顯著下降(如在原始數據中轎車的召回率為0.476 1)。因此,前文所描述的接近1的高精度、高召回率僅適用于訓練/驗證所使用的標準化環境和較寬松的評估標準,并不代表模型在所有場景下都能保持同樣的性能。
為此,進一步分析模型在各類別上的分類性能,得到模型在測試數據集上的混淆矩陣如圖4所示。轎車(Car)和行人(Pedestrian)等主要類別的對角線值較高,表明模型對這些類別的分類精確率和召回率非常高。此外,混淆矩陣還揭示了一些類別之間的誤分類情況,例如卡車(Truck)/廂式貨車(Van)和行人(Pedestrian)/騎行者(Cyclist)出現少量誤分類,可能是由于目標的外觀特征相似導致的。總體來看,模型對背景區域的誤檢測率較低,說明模型對背景干擾的抑制能力較強,體現了其分類魯棒性。
圖5展示了F1分數(F1-Score)在不同置信度閾值下的變化趨勢,進一步說明了模型的整體性能表現。對于轎車(Car)和廂式貨車(Van)等大多數類別,F1分數在0.6~0.8的置信度區間內達到峰值,表明模型在該區間內很好地平衡了精確率和召回率。而對于行人(Pedestrian)等目標較小的類別,F1分數峰值略低,但總體依然表現出可靠的檢測能力。從全類別的表現來看,在最佳置信度下,F1分數總體接近0.97,驗證了模型在多種場景下的穩定性和檢測準確性。
需要指出的是,以上訓練與驗證階段的性能指標是基于模型在訓練過程中的驗證集上測得的結果。該驗證集的數據分布與模型訓練數據較為接近,評估標準相對寬松,如IoU閾值設定為0.5(mAP50)、置信度與非極大值抑制(Non-Maximum Suppression,NMS)參數使用默認或較寬松的標準,從而在驗證條件下展示出模型的較高指標和優異性能。這些結果并不能直接等同于在更復雜、嚴格條件下對原始數據進行評估時的表現。
3.2 數據增強處理
3.2.1 數據增強的目標
自動駕駛場景中的視覺目標檢測模型常面臨復雜環境的挑戰,如光照變化、天氣干擾和硬件噪聲等。這些因素可能顯著影響模型性能,暴露出其在復雜場景中的局限性。
本為利用數據增強方法模擬典型環境干擾,以評估這些干擾對視覺目標檢測模型的影響。
3.2.2 數據增強方法及實現
為模擬自動駕駛環境中視覺系統可能遇到的多種干擾,本文設計了7種數據增強方法對KITTI數據集進行處理,以有效提升模型的魯棒性和泛化能力:
a. 亮度調整(Brightness Adjustment):對圖像的像素值進行線性縮放,通過模擬光照條件的變化增強模型在光線極暗或過曝環境下的適應能力,亮度因子調整范圍為0.3~2.0,并考慮了光線極端情況下的細節保留和視覺信息的還原。
b. 高斯模糊(Gaussian Blur):通過高斯濾波器對圖像進行平滑處理,以模擬由于攝像頭對焦不準或車輛振動導致的圖像模糊,核大小范圍設置為3×3至15×15,模糊程度隨核大小的增加而增強。
c. 運動模糊(Motion Blur):通過構造一維運動核實現不同方向和強度的模糊,以模擬因車輛高速運動而產生的動態模糊,運動核大小在15~30的范圍內隨機設定,隨機生成方向參數以適配多種場景。
d. 霧化(Fog):通過在圖像上疊加不同濃度的霧層,降低圖像對比度并增加亮度,模擬霧天環境對視覺系統的影響,霧化強度參數的范圍為0.3~0.7,能夠有效覆蓋從輕霧到濃霧的多種天氣條件。
e. 高斯噪聲(Gaussian Noise):通過添加隨機分布的像素值波動模擬傳感器噪聲對圖像的干擾,噪聲均值固定為零,標準差在5~20的范圍內隨機調整,以反映不同強度的傳感器噪聲。
f. 椒鹽噪聲(Salt and Pepper Noise):通過在圖像中隨機添加黑白噪聲點,模擬傳感器故障或圖像數據采集中的外部干擾,噪聲比例在0.02~0.07的范圍內隨機變化,確保增強圖像中噪聲的密度和分布能夠覆蓋多種實際場景。
g. 隨機遮擋(Random Occlusions):通過在圖像中隨機添加若干矩形遮擋區域模擬物體被遮擋或鏡頭附著異物的情況,遮擋面積占圖像的比例范圍為5%~30%,遮擋區域的位置、大小及數量均為隨機設定,以提高模型對遮擋場景的魯棒性。
圖6所示為原始圖像和采用7種數據增強方法處理后圖像的對比。通過對光學干擾、環境干擾和硬件問題的全方位覆蓋,這些增強方法為模型的訓練提供了更加豐富且具有挑戰性的樣本,為驗證目標檢測模型在復雜場景下的性能提供了數據支持。此外,由于所有增強方法被均勻應用于數據集,增強數據呈現出全面均勻的分布,確保模型對各種干擾場景均具備良好的魯棒性和泛化能力。
3.3 試驗步驟
3.3.1 數據準備
試驗的輸入數據集包括原始KITTI數據集以及通過7種增強方法生成的增強數據集,所有增強版本的數據集均與原始數據集在樣本數量上保持一致。每個數據集獨立存儲并編號,為后續推理階段提供明確的輸入來源。數據集的構建旨在通過全面覆蓋復雜場景,確保試驗結果的一致性。
3.3.2 推理與預測
在推理階段,本文使用預訓練模型對8組數據集進行逐一推理,生成每張圖像的目標檢測結果,包括檢測框的位置、類別和置信度。具體推理流程為:
a. 圖像預處理:為了與模型訓練階段的輸入保持一致,所有推理階段的輸入圖像被調整為1 280像素×384像素的分辨率,以確保推理結果的可比性和模型性能的有效驗證。
b. 推理執行:預訓練模型逐一處理輸入圖像,并輸出每張圖像的檢測結果。模型首先根據輸入圖像生成原始檢測框,隨后應用NMS算法消除冗余檢測框,使用IoU閾值(設置為0.7)保留最高置信度的檢測框。此外,為了提高處理效率,推理階段采用流式處理方式逐張圖像處理,有效節省內存消耗。
c. 結果存儲:推理生成的檢測結果以2種方式存儲。首先將檢測結果存儲為文本文件,包括每張圖片中目標物的檢測框信息,坐標以歸一化XYWH(中心點坐標和寬度、高度)格式表示,同時附加目標類別和置信度信息。然后生成每張圖像的可視化結果,形式為帶有檢測框和類別標注的圖像,同時疊加真值框,用于驗證檢測結果與真值之間的匹配情況。
3.3.3 核心指標定義與計算
試驗中,首先從真值文件與預測文件中分別讀取每張圖像的目標檢測結果,包括類別與邊界框坐標,逐圖計算真正例(True Positives,TP)、假正例(False Positives,FP)和假負例(False Negative,FN)數量,并累積至全局指標。同時,逐類別統計指標,為每個類別的檢測表現提供精確評估結果。為評估模型在不同增強數據集上的性能表現,選用精確率P、召回率R和F1分數F1作為核心指標:
P=NTP/(NTP+NFP) (11)
R=NTP/(NTP+NFN) (12)
F1=2PR/(P+R) (13)
式中:NTP、NFP、NFN分別為真正例、假正例、假負例的數量。
F1分數的取值范圍為[0,1]。當精確率和召回率均較高時,其值趨近于1;當二者不平衡時,F1分數會顯著降低,揭示模型在不同場景中的短板。
為細化分析模型的表現,本文將上述核心指標擴展至不同類別目標的層面。
4 結果分析
使用訓練完成的模型對原始數據集以及增強數據集進行重新檢測和評估。需要強調的是,此處評估條件與前文在訓練/驗證階段的指標計算方法有所差異:首先,評估數據集可能包含更高難度的真實場景,而非訓練過程使用的驗證集;其次,采用更嚴格的評估標準,如更高的IoU閾值0.8來匹配真實框與預測框,這意味著許多在IoU閾值為0.5標準下被視為正確的預測框,在更嚴格的IoU閾值標準下可能不再符合匹配條件,從而導致召回率和F1分數等指標明顯下降;此外,小目標在真實且復雜的場景中更難被準確識別,進一步降低了整體檢測性能指標。
4.1 定量結果
4.1.1 總體關鍵指標對比分析
原始數據和增強數據集預測結果如表1所示。
精確率的整體變化從原始數據的0.763下降到增強數據集(如高斯噪聲場景)的0.713 4,理論上,精確率的下降主要與背景區域生成的誤檢框增加相關。例如,高斯噪聲引起的全局像素隨機波動會干擾模型的特征提取過程,使模型對背景區域的誤分類顯著增加。然而,隨機遮擋和高斯模糊對精確率的影響相對較小,這表明模型在一定程度上能夠容忍局部遮擋和輕度模糊帶來的誤檢風險。這一現象與理論分析一致:隨機遮擋導致的特征缺失通常局限于局部區域,而高斯模糊對大目標的主要特征影響較弱,因此誤檢率較低。
召回率的下降在高斯噪聲、運動模糊和霧化場景中尤為顯著,召回率的急劇下降主要源于漏檢框數量的大幅增加,其背后的機制包括:高斯噪聲的隨機像素波動掩蓋了目標的局部特征,使得檢測框與真實框的IoU降低,難以滿足匹配條件(IoUlt;0.5);運動模糊導致目標邊緣的顯著性削弱,卷積網絡無法準確提取目標形狀信息,從而增加漏檢情況;霧化降低了圖像的對比度,尤其是對小目標的影響最為嚴重,進一步增加了漏檢框的數量。
F1分數在增強數據集中的下降趨勢也較為明顯,這是精確率和召回率同時下降的結果,其中召回率的下降對小目標檢測的影響尤為顯著。相比之下,亮度調整和隨機遮擋對F1分數的影響較小,這與理論分析結果一致:亮度調整的干擾較為溫和,模型仍能捕捉到大部分有效特征;隨機遮擋主要影響局部區域,對整體檢測性能的沖擊有限。
4.1.2 按類別關鍵指標對比分析
通過分解不同目標類別的關鍵指標,可以更深入地理解增強場景對模型性能的細化影響,并將其與理論分析建立關聯。
作為大基數目標類別,轎車目標的檢測結果精確率在不同增強場景下相對穩定,但其召回率和F1分數在高斯噪聲和運動模糊場景中顯著下降。理論上,這種下降主要是由于高斯噪聲對目標邊緣和紋理特征的掩蓋,使得模型無法提取穩定的特征;而運動模糊則通過邊界拉伸效應增大了檢測偏差,使得模型在這些場景下的漏檢率大幅增加。
對于行人類別目標,由于目標體積較小且邊緣特征本身較弱,其精確率和召回率在所有增強場景中均出現大幅下降,尤其是在高斯噪聲和運動模糊場景下。結合第2章的理論分析,小目標對梯度變化的敏感性更高,高斯噪聲對像素級波動的干擾會破壞小目標的局部特征,使其在特征提取階段被忽略,同時,運動模糊削弱了邊緣梯度特征,從而導致嚴重的漏檢現象。
其他類別(如廂式貨車和卡車)在增強場景下的表現介于大目標與小目標之間,其精確率相對較高,但召回率顯著下降。這表明模型在中型目標類別上的捕捉能力同樣受到干擾限制,特別是在動態模糊或低對比度場景下。
表2展示了轎車和行人目標的關鍵檢測指標對比結果。總體來看,轎車目標的檢測性能表現相對穩定,這與理論分析結果一致:大體積目標的顯著特征使其對環境干擾的魯棒性較強。同時,行人目標的性能顯著下降,特別是在高噪聲和模糊場景中,暴露了模型在復雜環境下的短板。這進一步驗證了理論分析中對小目標在梯度和交并比敏感性上的預測。
4.1.3 F1分數趨勢分析
通過不同數據增強場景檢測結果的F1分數變化趨勢,可以清晰地觀察模型在復雜場景下的性能變化特征,尤其是在不同目標類別之間的差異性表現。
整體F1分數在不同數據增強場景下呈現明顯波動。原始數據集的F1分數為0.524 4,表現出較為穩定的檢測性能。但在高斯噪聲(0.067 1)和運動模糊(0.192 4)等極端增強場景中,F1分數顯著下降,顯示模型在這些場景下的魯棒性較差。然而,對于亮度調整(0.509 4)和隨機遮擋(0.466 4)等增強場景,模型的性能接近原始數據集水平,表明模型在處理這些相對溫和的干擾時具有一定適應能力。
轎車(Car)類別作為大目標類別,其F1分數在原始數據集中表現最佳(0.603 9),在亮度調整(0.589 9)和隨機遮擋(0.551 1)場景中,F1分數相對保持穩定。然而,高斯噪聲和運動模糊場景下的F1分數分別驟降至0.087 5和0.246 5,表明模型在這些場景中對大目標的定位能力顯著受損。行人(Pedestrian)類別由于目標較小,表現出明顯的受干擾特性。在原始數據集中F1分數為0.182 5,遠低于轎車(Car)類別。經數據增強后,其性能進一步下降,尤其是在高斯噪聲和運動模糊場景中,F1分數僅為0.013 1和0.018 0。這種現象反映了模型在小目標檢測中的顯著短板,特別是在高噪聲和動態干擾條件下。
小體積目標類別總體F1分數在所有增強場景中表現不佳。例如,坐姿人類(Person_sitting)類別在高斯噪聲和霧化場景下F1分數甚至為0,表明模型對這些類別在惡劣環境中的檢測完全失敗。而隨機遮擋和亮度調整對這些類別的影響相對較小,F1分數有所提升,但仍顯不足。
圖7所示為不同場景下各類目標目標檢測結果的F1分數。多類別性能波動的特點可總結為:高斯噪聲和運動模糊是所有類別性能下降的主要原因,導致目標檢測的可靠性嚴重削弱;隨機遮擋和亮度調整對目標類別的影響較小,表現出模型對這些增強場景的較高適應能力;大體積目標類別對增強干擾表現出一定的魯棒性,而小體積目標類別則表現出顯著的脆弱性,特別是在高噪聲或動態場景下。
4.2 檢測結果可視化分析
為了直觀分析數據增強對目標檢測模型性能的具體影響,本文結合檢測結果的可視化展示,探討不同增強場景對檢測位置和分類的干擾效應,并分析其成因。
在原始數據集中,模型對“轎車”等主要類別表現出較高的檢測精度和一致性。然而,在增強數據集中,復雜環境干擾顯著影響了模型的檢測性能,具體體現在目標定位偏差、類別誤判和置信度下降等方面:
a. 光照變化:在亮度調整場景中,模型的表現因光照變化而波動較大,強光條件(過曝)導致部分目標細節被淹沒,使邊緣梯度近似為零,從而導致漏檢,如圖8a所示;暗光條件下,目標對比度下降,背景和目標的特征變得難以區分,這直接降低了模型的檢測精度,如圖8b所示。
b. 模糊干擾:高斯模糊場景中,模糊削弱了圖像的邊緣信息,使目標定位和類別識別變得困難。理論上,高斯模糊降低了梯度幅值,尤其影響小目標的邊緣特征。這在汽車類別的預測框邊界錯位以及行人和騎行者類別的顯著漏檢中表現得尤為明顯,如圖9所示。此外,運動模糊加劇了邊界的拉伸和方向性丟失,使得檢測框的位置偏差急劇增大,導致漏檢或誤檢率顯著上升。這種情況對動態小目標的影響最為嚴重。
c. 隨機遮擋:隨機遮擋場景中,部分目標區域因被遮擋導致特征缺失,這對模型的分類精度和定位能力提出了更高的挑戰。理論上,遮擋會減少模型特征提取層的響應值,導致類別混淆和定位偏差。例如,部分背景在被隨機遮擋后被誤識別為廂式貨車目標,如圖10所示。
通過上述可視化分析結果可以看出,不同數據增強場景對模型的干擾效應因目標類別和環境場景的不同而呈現顯著差異。其中光照變化導致目標特征對比度減弱或邊緣信息丟失;模糊(尤其是運動模糊)削弱了邊緣梯度特征并導致位置檢測偏差;遮擋顯著減少了特征響應,導致分類錯誤和漏檢的增加,特別是對小目標的影響尤為顯著。
這些現象與理論分析結果一致,進一步驗證了數據增強方法在暴露模型性能短板和識別潛在問題方面的有效性。
4.3 檢測置信度分析
圖11所示為目標檢測結果在不同增強效果下的核密度估計(Kernel Density Estimation,KDE)曲線。根據總體置信度的均值、標準差和偏度,原始(Raw)數據集下置信度均值為0.769、標準差為0.202、偏度為-1.46,顯示出置信度分布集中于高置信度區間([0.8,1.0])的特點。然而,在高斯噪聲(平均值為0.706、標準差為0.221、偏度為-0.91)和霧化場景(平均值為0.747、標準差為0.211、偏度為-1.23)中,置信度均值顯著下降,分布更加分散,偏度趨于平緩。這表明環境干擾削弱了模型的預測穩定性,在高斯噪聲場景下表現尤為明顯。
圖12所示為轎車類和行人類目標的檢測結果KDE曲線。轎車類目標的檢測置信度分布在大多數增強場景中保持相對穩定,其均值約為0.77,在隨機遮擋和亮度調整場景中變化較小。然而,高斯噪聲和運動模糊場景顯著降低了置信度均值,且標準差和偏度均有顯著變化。這表明,盡管模型對大目標較為魯棒,但復雜環境干擾對特定場景仍有較大影響。行人類目標的檢測置信度均值顯著低于轎車,在原始數據集中為0.58,但在高斯噪聲和運動模糊場景中分別下降至0.46和0.44。同時,偏度趨于正值,顯示出置信度分布更多集中在低置信度區間([0.0,0.5])。這一結果驗證了小目標在高噪聲和模糊環境下的不確定性更高,難以穩定檢測。
圖13所示為不同增強效果下檢測結果置信度分布比例,呈現以下特點:
a. 高置信度區間([0.8,1.0]):原始(Raw)數據集中約66.8%的目標置信度位于高置信度區間。在高斯噪聲場景中,該比例顯著下降至52.3%。運動模糊和霧化場景中,比例分別下降至54.3%和61.0%,驗證了復雜環境對模型置信度的削弱作用。
b. 中置信度區間((0.5,0.8)):高斯噪聲場景中比例增至26.1%,運動模糊場景中也增加至25.8%,這與描述中的“26%和25%”一致,說明模型在這些場景下對目標的判斷更加不確定。
c. 低置信度區間([0.0,0.5]):在高斯噪聲場景中,低置信度目標比例達到21.7%,在運動模糊場景中為19.8%,與描述基本吻合。低置信度比例的增加進一步說明目標特征被噪聲和模糊掩蓋,導致漏檢和誤檢問題。
從統計結果和分布變化來看,不同增強場景對置信度分布的影響各異,噪聲和模糊對模型的穩定性沖擊最大,在小目標檢測中表現尤為明顯。這些結果與理論分析結果一致,進一步揭示了復雜環境中模型魯棒性的問題。
5 對比與討論
5.1 實車環境評價體系對比
本文基于標準數據集與單因素數據增強,針對不同干擾對視覺檢測性能的影響開展了深入分析,但難以完全復刻真實道路的多重復雜性。《智能汽車感知系統預期功能安全評價體系與改進措施研究報告》[2](簡稱“報告”)提出了一套面向實車的功能安全評價體系,覆蓋多種天氣、光照、道路類型等多維場景,并引入相關功能安全指標,用于評估感知系統在真實環境中的安全性能和魯棒性。
表3給出了本文與實車環境評價之間的核心差異。可以看出,本文更注重拆分單一干擾的細化分析,研究不同環境因素的具體影響機理,而報告更關注多因素疊加時的綜合表現,能夠更全面地衡量系統在真實道路環境下的安全需求。兩種評價方式各有側重,也可形成互補。
5.2 實車環境數據對照分析
為進一步了解單因素數據增強與多因素疊加的實車場景在檢測性能上的區別,本文結合報告中部分測試數據進行對照分析。報告指出,在夜間低照度或濃霧天氣下,車輛檢測精度和行人漏檢率均顯著惡化,降雨或路面濕滑等情況還會導致系統響應延遲與漏檢率的同步升高。這與本文在“暗光、霧化、高斯噪聲、運動模糊”等干擾下發現的性能下降規律相吻合,表明環境干擾確實會顯著削弱感知系統的準確度和穩定性。
然而,實車場景的多因素疊加(如車輛速度、道路濕滑、傳感器臟污、光學畸變等)不僅降低了漏檢率、加劇了響應延遲,也在一定程度上難以拆分每一種干擾對測試結果的影響所占的權重。相比之下,本文通過單因素增強,能夠在可控條件下定量評估不同干擾的具體影響,可為后續算法魯棒性改進提供針對性的方向。
綜上所述,實車測試與本研究的單因素評估本質上針對不同的角度:前者可驗證整體系統在真實復雜環境中的安全可靠性,后者可幫助研究者細分干擾因素、精確分析模型在特定環境下的性能瓶頸。要真正提高自動駕駛視覺感知的功能安全水準,仍需將兩者緊密結合,既在真實道路中開展多輪次、多天氣、多交通流的測試,又要在實驗室環境下針對性地深化模型在特定干擾場景下的魯棒性改進。
6 結束語
本文通過在標準數據集上應用多種數據增強手段(亮度調整、模糊、噪聲、遮擋等),系統分析了復雜環境對自動駕駛視覺目標檢測模型(YOLO 11x)的影響。結果表明,不同類型的環境干擾均會顯著降低檢測精度和穩定性,特別是對小目標類別造成更為嚴重的識別挑戰。其中,高斯噪聲和運動模糊導致的性能下降最為明顯,而亮度調整和隨機遮擋的影響則相對溫和。
然而,本文仍存在若干局限:僅使用KITTI數據集與YOLO 11x模型,難以涵蓋更大規模或更具多樣性的場景與算法;單因素模擬雖便于量化分析各種干擾對檢測性能的影響,卻難以全面復刻真實道路中多因素疊加的復雜環境;對功能安全指標(如響應時間、最小可探測距離等)的考量尚不充分,無法全面評估模型在實車條件下的功能安全表現。
結合與實車環境測試數據的對比可見,真實道路環境中往往涉及車輛速度、天氣突變、路面濕滑等多重干擾因素,遠超單因素數據增強的范疇。未來工作將進一步拓展數據來源與傳感器種類,引入多因素疊加及更多功能安全指標,開展真實道路條件下的綜合測試與優化研究。通過多傳感器融合、自適應閾值策略以及完整的功能安全評估流程,有望持續提升自動駕駛感知系統的魯棒性與穩定性,從而更好地滿足智能駕駛對預期功能安全的高標準需求。
參考文獻
[1]" "胡明娣, 吳怡, 宋堯, 等. 單幅圖像去雨數據集和深度學習算法的聯合評估與展望[J]. 中國圖象圖形學報, 2022, 27(5): 1359-1391.
HU M D, WU Y, SONG Y, et al. The Integrated Evaluation and Review of Single Image Rain Removal Based Datasets and Deep Learning Methods[J]. Journal of Image and Graphics, 2022, 27(5): 1359-1391.
[2]" "中國智能網聯汽車產業創新聯盟智能網聯汽車預期功能安全工作組. 智能汽車感知系統預期功能安全評價體系與改進措施研究報告-發布版[R/OL]. 北京: 中國智能網聯汽車產業創新聯盟, 2022.
CAICV SOTIF Technical Alliance. Research Report on the Evaluation System and Improvement Measures of the Perception System Safety of Intelligent Vehicles (Release Version)[R/OL]. Beijing: China Industry Innovation Alliance for the Intelligent and Connected Vehicles (CAICV), 2022.
[3]" REDMON J, FARHADI A. YOLOv3: An Incremental Improvement[EB/OL]. (2018-04-08)[2023-12-30]. https://arxiv.org/abs/1804.02767.
[4]" "REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[5]" "HOWARD A, ZHU M, CHEN B, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[EB/OL]. (2017-04-17)[2023-12-30]. https://arxiv.org/abs/1704.04861.
[6]" "WU Y L, XIANG Y X, TONG E D, et al. Improving the Robustness of Pedestrian Detection in Autonomous Driving with Generative Data Augmentation[J]. IEEE Network, 2024, 38(3): 63-69.
[7]" "LI X T, WANG S Z, ZHAO Y, et al. Hierarchical Scene Coordinate Classification and Regression for Visual Localization[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020.
[8]" "孫金萍, 丁恩杰, 鮑蓉, 等. 多特征融合的長時間目標跟蹤算法[J]. 南京大學學報(自然科學), 2021, 57(2): 217-226. SUN J P, DING E J, BAO R, et al. Long-Term Object Tracking Algorithm Based on Multi-Feature Fusion[J]. Journal of Nanjing University (Natural Science), 2021, 57(2): 217-226.
[9]" "CHEN R J, ZHENG Z J, YU Y X, et al. Fast Restoration for Out-of-Focus Blurred Images of QR Code with Edge Prior Information via Image Sensing[J]. IEEE Sensors Journal, 2021, 21(16): 18222-18236.
[10] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object Detection with Discriminatively Trained Part-Based Models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[11] PAN L Y, DAI Y C, LIU M M, et al. Joint Stereo Video Deblurring, Scene Flow Estimation and Moving Object Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 29: 1748-1761.
[12] ZHOU Y, REN C, ZHANG S G, et al. A Second-Order Method for Removing Mixed Noise from Remote Sensing Images[J]. Sensors, 2023, 23(17).
[13] KUMAR A, KUMAR S, KAR A. Salt and Pepper Denoising Filters for Digital Images: A Technical Review[J]. Serbian Journal of Electrical Engineering, 2024.
[14] GEIGER A, LENZ P, URTASUN R. Are We Ready for Autonomous Driving? The KITTI Vision Benchmark Suite[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2012: 3354-3361.
(責任編輯 斛 畔)
【引用格式】 盧嘉偉. 復雜環境下自動駕駛汽車視覺目標檢測模型性能評估[J]. 汽車工程師, 2025(4): 17-28.
LU J W. Performance Evaluation of Visual Object Detection Models of Autonomous Driving Vehicle in Complex Environments[J]. Automotive Engineer, 2025(4): 17-28.