基于EfficientNet的實時目標檢測模型

2023-09-04 09:33:16趙昀杰張太紅姚芷馨

計算機應用與軟件 2023年8期

趙昀杰張太紅姚芷馨

(新疆農業大學計算機與信息工程學院新疆烏魯木齊 830052)

0 引言

隨著道路交通系統的發展,道路中各種交通工具的數量與日俱增。然而大量的交通擁堵甚至交通事故也隨之而來,這給自動駕駛和駕駛員輔助設備等智能駕駛領域的研究帶來了巨大的挑戰。在車輛行駛過程中目標檢測算法作為輔助駕駛員和自動駕駛系統的重要方法,一直受到研究者的關注,其對車輛前方目標的準確檢測影響著智能駕駛的安全性。

在過去的幾年里,目標檢測是一項重要且具有挑戰性的任務,得益于卷積神經網絡(Convolutional Neural Network,CNN)的發展,大量效果顯著的目標檢測模型相繼出現。目前,大部分精確的模型推演時間較長,這些模型在交通領域大多被用于通過攝像頭推薦空停車位等對模型推演速度要求較低的場景。然而,基于攝像頭的車輛危險預警等需要模型快速響應的場景,仍缺乏準確且高效的模型。

基于CNN的目標檢測算法主要可以分為兩類,一類是基于候選區域的雙階段目標檢測模型(Two-stage Object Detection),另一類是可實時推演的單階段檢測模型(One-stage Object Detection)。前者將目標檢測任務分為兩個階段進行,首先通過候選區域網絡選出一組可能包含目標的感興趣區域,再對這些區域進行進一步分類,從而得到最終的目標檢測結果,其中具有代表性的模型有Faster R-CNN[1]、R-FCN[2]、RepPoints[3]等。后者則是直接通過CNN所提取的全局特征直接進行目標的定位和分類,該類模型推演速率要優于雙階段檢測算法,但精度有所下降,其中具有代表性的模型有YOLO[4-7]、SSD[8]、RetinaNet[9]等。

在這些基于CNN的目標檢測模型中YOLO模型兼顧了推演速度與準確率,但其主干網絡(Backbone)與脖頸網絡(Neck)效率仍比較低,且模型中缺少具有注意力機制的模塊。該類型模塊現已大量應用于基于卷積神經網絡的計算機視覺任務中,通過融入上下文信息,使模型能提取到更有用的特征信息,并摒棄冗余的特征信息。這些內容的缺失導致網絡本身的擬合能力和推演速率受到了一定限制。因此,為構建高效的駕駛場景目標檢測模型,本文借助單階段檢測算法的思想,使用EfficientNet-B1[10]對圖像進行特征提取,并將提取到的特征圖送入空間金字塔池化[11](Spatial Pyramid Pooling,SPP)層和路徑聚合網絡[12](Path Aggregation Network,PANet)進行特征融合。最終使用K-means算法在訓練集中聚類出目標框的先驗,并借助這些先驗框在多尺度特征融合后的特征圖上進行目標框的預測和分類。此外,針對PANet推演速率慢的問題,通過對PANet結構進行改進,提出一種計算量更小的目標檢測網絡模型,并通過訓練技巧進一步提升模型的精度。

1 相關工作

2016年5月,Redmon等[4]提出了單階段目標檢測模型YOLOv1,該模型是YOLO系列的首個模型也是其發展至今的基礎。該模型將目標檢測任務作為回歸問題來處理,通過單個卷積神經網絡提取圖像的特征圖,將模型最終輸出特征圖中每個像素點看作一個網格,每個網格負責預測中心點落入其感受野的目標及目標的類別,該模型不僅推演速度快,且可以進行端到端的訓練。之后Redmon等又在首個YOLO模型的基礎上先后提出了YOLO9000[5]、YOLOv3[6],引入了特征金字塔網絡[13](Feature Pyramid Networks,FPN)作為脖頸網絡,讓模型輸出的網格融入多個尺度的特征,并在多個不同尺度特征圖上進行預測。同時,使用K-means對訓練集中的目標框進行聚類,模型預測時在聚類結果的基礎上進行縮放以得到最終結果,這相當于引入了先驗信息,使訓練過程中模型對目標坐標的回歸變得容易。YOLOv3的準確率達到了當時實時目標檢測的SOTA水平。因此,基于YOLO模型在不同場景中的應用與研究也逐漸增加,如Qi[14]和Wang[15]等在YOLOv3的基礎上,對主干網絡和脖頸網絡結構進行改進,提高了模型的推演效率及精度。Jiang等[16]通過增加主干網絡的卷積核個數,提升了網絡的檢測精度。

2017年8月,Lin等[9]提出了使用焦點損失函數(Focal Loss)的RetinaNet,該模型使用殘差網絡(ResNet)與FPN的結合輸出特征圖,并通過兩個子網絡預測出目標框和類別,該網絡通過改進損失函數有效地抑制了類別不平衡問題。

2020年4月,Bochkovskiy等[7]提出了YOLOv4網絡,其以YOLOv3為基礎,對原始YOLOv3主干網絡進行改進,并通過馬賽克數據增強(Mosaic)、修改損失函數等技巧,大幅提升了模型的準確率,其準確率已然超越了部分雙階段檢測器。

與YOLO模型類似,大部分單階段目標檢測模型都是由三個部分組成的,第一部分是在ImageNet大型圖像分類數據集上預先訓練的主干網絡,第二部分是進行多尺度特征融合的脖頸網絡,第三部分是輸出預測結果的檢測頭(Head)。

2 算法模型設計

本文將提出的基于EfficientNet-B1的目標檢測模型命名為Eff-InnerStage,其整體結構如圖1所示。

2.1 主干網絡

在YOLO模型中,使用DarkNet-53作為主干網絡提取不同尺度的特征圖。隨著EfficientNet網絡模型的提出,該模型因其能以極少的計算量達到較高的準確率,而備受關注。為保證單階段目標檢測器能在保證精度的情況下進一步提高推演效率,選擇計算量較少的EfficientNet-B1作為目標檢測模型的主干網絡。該網絡主要由移動反向瓶頸卷積[17](Mobile Inverted Bot-tleneck Convolution,MBConv)模塊和基于通道域注意力的壓縮與激發[18](Squeeze and Excitation,SE)模塊組成。

傳統目標檢測模型中,主干網絡的結構均可以分為多個階段,每個階段均由多個相同的模塊組成,主流的目標檢測模型中通常將這些階段的結果作為特征層輸出給后續的脖頸網絡。然而通過觀察不同網絡的結構后,發現這些階段性的特征圖維度較小,使用其作為特征層,將影響后續模型的表征能力。以輸入為512×512的EfficientNet-B1為例,移除該模型末端分類層后結構如表1所示。

表1 EfficientNet-B1結構表

表1中各階段的輸出特征圖維度逐漸增大,但相比于階段9較小,這一現象必然會導致主干網絡輸出的高層語義信息明顯多于低層位置信息。為在不改變原網絡結構的前提下解決該問題,以階段8為例,將其整體結構展開并省略不影響維度的批歸一化層和激活函數層,結構如圖2所示。可以看出,相對于整個階段8輸出的特征圖維度,在階段8內部存在著許多維度更大的特征圖,最大的特征圖維度達到了1 920,是階段8輸出維度的6倍。但在選擇特征圖的時候只考慮維度是不全面的,如在階段8中所有輸出維度為1 920的模塊,均包含在一個短路連接中。因為有旁路的存在,若使用這些模塊的輸出作為特征圖,必然會導致輸出的特征有所缺失。綜合考慮各方面因素,對于EfficientNet-B1選擇其各階段中第一個卷積層的輸出作為候選特征層,該層不含旁路鏈接且維度相對較大。這種特征選擇方式不會改變原主干網絡的卷積核數量,便于模型使用預訓練權重。

圖2 EfficientNet-B1階段8結構圖

為保證不引入過多的計算量,選擇EfficientNet-B1中下采樣倍數為8、16、32的網絡層輸出作為主干網絡提取的特征圖,對應網絡中階段5、7、9第一個卷積層的輸出。為驗證所述特征層選擇方法的有效性,以傳統方法選擇一組特征層進行對比實驗,對應網絡中階段4、6、9的輸出。

2.2 脖頸網絡

針對街景中目標數量多、尺度大小多樣導致檢測精度下降的問題,采用空間金字塔池化與PANet的組合對主干網絡特征進行融合,并通過引入深度可分離卷積,在保證模型精度不過度下降的同時進一步壓縮模型的計算量。

為進一步放大主干網絡的有效感受野,借助空間金字塔池化,使用尺寸不同但步長大小都為1的最大池化層,對下采樣倍數為32倍的特征圖進行多尺度池化,使網絡對原始圖片中占據區域較大的目標有更好的適應能力,其結構如圖3所示。

圖3 空間金字塔池化模塊圖

在主干模型中隨著網絡層數的加深,其語義信息變得越來越豐富,而網絡低層中的位置信息卻逐漸丟失,對于小目標的檢測,網絡低層特征往往起著決定性的作用。當前FPN作為脖頸網絡被應用于大量目標檢測和實例分割任務中,其結構如圖4(a)所示,FPN結合了不同尺度特征的信息,通過更豐富的特征表示提升網絡整體的表征性能。在FPN中主干網絡低層特征比較容易融入高層的語義信息,而主干網絡的高層特征要融入低層的位置信息則需要通過主干網絡的大量卷積操作后才能完成,如圖4中的虛線箭頭所示。在車輛行駛場景中經常會遇見聚集的人群和擁堵的車輛,網絡低層中精確的定位信息對密集目標檢測影響巨大,為此選擇PANet作為脖頸網絡,其結構如圖4(b)所示。PANet中卷積操作的數量要遠小于主干網絡,因此高層特征更易融入低層特征。如圖4中虛線箭頭所示,PANet在高層特征和低層特征之間建立了一個快讀通道,從而提升模型的整體精度。

(a) FPN

雖然PANet能為模型帶來精度的提升,但其引入的計算量也相對較大,在原始PANet結構中,特征圖之間主要使用了瓶頸(Bottleneck)結構來減少計算量,該結構主要由1×1、3×3、1×1的三個卷積組成。首先通過第一個1×1卷積進行降維,以減少接下來3×3卷積所需的計算量,最后再通過1×1的卷積回復維度。該結構雖然可以顯著地降低計算量,但3×3的卷積仍然會帶來大量計算量。為此,使用深度可分離卷積(Depthwise Separable Convolution)對瓶頸中3×3卷積核進行進一步的優化,改進前后的瓶頸結構及其輸入與輸出間的依賴關系如圖5所示。

圖5 改進前后的Bottleneck結構對比圖

從改進后的瓶頸結構中,可以看出原結構中的Bottleneck結構被分解為了兩部分,直接有效地降低了模型的計算量。但是若無針對性地替換原PANet中的所有3×3卷積操作必然會導致模型性能的大幅下降。考慮到PANet的主要任務是特征融合,對于圖4(a)中PANet的每個特征圖,若其僅包含一條輸入路徑,則說明該特征圖對特征融合的貢獻較少,針對連結這些特征圖的瓶頸結構及卷積結構進行改進,最終保證整個模型在擬合不受到過多影響的情況下,大幅降低模型的計算量。

2.3 檢測頭

模型的檢測頭主要由兩個卷積核組成,其在脖頸網絡輸出的3個特征圖上進行最終的預測,由于使用了基于先驗框(Anchor Bases)的目標檢測方法,模型預測出的目標框長度和寬度是一個縮放系數,其需要與先驗框尺寸相乘才能得到最終的預測大小。該先驗框需通過聚類計算得到,將交并比(Intersection of Union,IoU)作為樣本點與質心之間的距離計算公式,使用K-means算法對訓練集中所有目標框進行聚類,以得到9個不同尺寸的先驗框,用于模型的訓練和預測。對于預測結果使用非極大抑制(Non-Maximum Suppression,NMS)對預測出的所有目標框進行篩選,以得最終結果。

2.4 損失函數

模型訓練時,在YOLO模型損失函數的基礎上,引入CIoU損失函數替換原定位損失函數。在對模型預測的定位信息進行損失函數值計算時,YOLO主要使用均方誤差(Mean Square Error,MSE)損失函數計算預測框與真實框之間的位置及大小差距,其公式如下:

(1)

Losslocation=1-IoU+RCIoU

(2)

(3)

(4)

(5)

式中:IoU表示對預測框和真實框進行傳統的交并比計算;ρ2(b,bgt)表示真實框中心點與預測框中心點之間的歐氏距離;c表示真實框與預測框組成最小矩形的對角線長度;v表示真實框長寬比與預測框長寬比之間的差距;α是平衡參數,該參數在真實框和預測框交并比較小時,縮小v的權重,使模型更注重于中心點和邊框長寬的回歸。可以看出CIoU損失函數與YOLO的原始定位損失函數相比,考慮了更多因素,能驅使模型預測出定位更加精準且更加貼合目標的預測框,但在梯度回傳時式(4)容易出現梯度爆炸和梯度消散問題,其中v對w和h的導數公式為:

(6)

(7)

式(6)和式(7)中w2+h2位于分母位置直接導致了梯度值的不穩定,為了解決這一問題,在計算梯度值時,對原梯度公式進行改進,將式(6)和式(7)同時乘以(w2+h2)以保證梯度的穩定回傳。

3 訓練技巧

3.1 中心點縮放因子

整個預測流程中,在對目標中心點坐標進行預測時,會對模型的預測結果使用sigmoid函數以得到0～1之間的值,其正好對應了目標中心點在每個網格中的相對坐標。計算公式為:

bx=sigmoid(tx)+cx

(8)

by=sigmoid(ty)+cy

(9)

式中:tx和ty為模型對目標框中心點坐標的預測結果,其需要通過sigmoid計算轉化為目標所在網格中的相對坐標,最終通過加入網格索引cx和cy,得到預測框中心點在特征圖中的坐標by和by。可以發現sigmoid函數的計算結果起著決定性的作用,但由于該函數本身的特性使其計算結果很難達到接近0和1的值,這一特性必然會導致中心點靠近網格邊緣的目標受到影響。當目標中心點預測出現偏移,整個預測框的位置都將受到影響,致使原本貼合目標的預測框出現偏移。在訓練過程中模型為了擬合這些位于網格邊界的目標,則需要通過放大參數來增大tx和ty的值。盡管放大參數可能會使模型得到相對正確的預測結果,但過大的參數極易引起過擬合問題。為使網絡對靠近網格邊緣的目標更加敏感,將原中心點計算公式進行如下改進:

(10)

(11)

式(10)和式(11)中引入了系數α,該系數將sigmoid的計算結果進行放大和縮小,使其更容易得到接近或等于0和1的值。這一方法有效降低了模型對目標中心點的擬合難度,尤其是中心點位于網格邊緣的目標。同時由于引入的參數較少且計算簡單,增加的計算量完全可以忽略不計,α的值通常設置為1.05。

3.2 馬賽克圖像增強

馬賽克圖像增強是工業界的研究者在YOLO模型的基礎上提出的,在模型訓練過程中,將四幅圖片通過裁剪拼接的方式組合在一起,相當于把原本屬于四幅圖片的標簽融入了一幅圖片中,增加了單個樣本中所包含的目標數量,也變相增大了批處理大小(Batch Size),使模型在訓練時可以使用較小的批處理大小。但對整個數據集采用該方法會導致原數據集中的大型目標尺寸嚴重縮減,甚至導致部分本就較小的目標因尺寸過小而不參與訓練。最終致使模型對目標的識別準確率下降,故使用概率參數來控制其使用頻率。經該方法增強后的圖像如圖6所示。

圖6 馬賽克圖像增強

3.3 余弦退火

在使用梯度下降算法對模型進行優化時,損失函數的值通常會隨著訓練時間的增加變得越來越小。當損失函數值接近全局最小值時,應該使用更小的學習率來保證模型不會因為過度調參而遠離最優解,而余弦退火(Cosine Annealing)可以通過余弦函數來降低學習率。在余弦函數中,當弧度值處于0到π之間時,余弦函數首先緩慢下降,接著加速下降,最后恢復緩慢下降,這種學習率衰減模式能有效地提升模型的性能。雖然使用了學習率衰減策略,但在模型訓練初期仍需要通過使用更小的學習率來防止梯度爆炸。隨著學習率的衰減,本就較小的學習率將隨著訓練時長的增加變得越來越小,模型的訓練速度也將變得越來越慢,甚至止步不前,這導致模型難以收斂到更高的精度,且當模型陷入局部最優解時,由于學習率的不斷降低,模型很難跳出局部最優解。為解決這些問題,引入帶有預熱(Warm up)的余弦退火,在訓練初期先對學習率進行放大,當達到預設的最大學習率后,再對學習率進行余弦衰減,這加快了模型的訓練速度,讓模型在訓練時使用更大的學習率,幫助模型收斂至更高的精度。但若在整個訓練過程中僅使用一次帶有預熱的余弦退火來降低學習率,在訓練中后期模型仍然會出現落入局部最優解的情況,為此在引入預熱的基礎上對整個訓練周期引入熱重啟(Warm Restart),其對學習率的調整過程如圖7所示。

圖7 學習率余弦退火變化曲線

這種周期性的學習率調整模式,可以讓模型有效地跳出局部最優解,且隨著訓練輪數的增加,每個衰減周期的時間會逐漸變長,避免模型因過度震蕩而出現無法收斂的情況,保證其能收斂至更好的結果。

4 實驗

4.1 實驗環境與數據集

本實驗使用的GPU為NVIDIA Tesla V100,顯存32 GB。CPU為Intel Xeon Gold 6151,內存64 GB。操作系統為Ubuntu 16.04.3 LTS。

為了評價模型的檢測效果,本實驗分別使用了BDD100K和PASCAL VOC兩個數據集。其中BDD100K數據集主要針對駕駛場景中的10種常見目標,包括行人、汽車、公交車等。每種目標又被細分為被遮擋目標、被截斷目標和正常目標。數據集中每幅圖片都有三個獨立的屬性,分別為天氣、場景、時段。PASCAL VOC數據集主要針對通用目標檢測任務,其包含20類目標,該數據集還對目標是否被截斷和是否難以識別進行了標注。針對BDD100K數據集,將其中包含真值標記的80 000幅圖片隨機打亂,并按9∶1的比例分為訓練集和測試集。針對PASCAL VOC,將PASCAL VOC 2007和PASCAL VOC 2012的訓練集和驗證集進行融合,總計16 551幅圖片作為訓練集,并將PASCAL VOC 2007的4 952幅圖片作為測試集。

4.2 實驗參數設置

本實驗使用Tensorflow框架,在兩個數據集上采取完全相同的訓練參數及過程。采用的數據增強手段有隨機裁剪、隨機縮放、水平翻轉、隨機亮度、隨機對比度、隨機色彩飽和度、隨機銳度、馬賽克圖像增強。訓練過程分為兩個階段,總計訓練50個epoch。第一階段,首先加載主干網絡在ImageNet上的預訓練權重,并凍結主干網絡參數,對網絡的其余部分進行5個epoch的訓練,以在訓練初期得到較穩定的結果,防止梯度爆炸;第二階段,將網絡參數整體解凍進行訓練,直至訓練周期結束。

在整個訓練過程中,設置批處理大小(Batch Size)為16,輸入圖像大小為512×512×3。使用SGD優化器,設置初始學習率為0.001;動量值為0.9;衰減率為0.000 5,并使用余弦退火重啟對學習率進行動態調整。

設置四組對比實驗。第一組使用復現后的YOLOv4模型結構,訓練結果命名為YOLOv4;第二組使用EfficientNet-B1中階段4、6、9的輸出作為特征層,使用SPP與改進的PANet進行特征融合,訓練結果命名為Eff-Stage;第三組使用EfficientNet-B1中階段5、7、9第一個卷積層的輸出作為特征層,使用SPP與改進的PANet進行特征融合,訓練結果命名為Eff-InnerStage;第四組使用與第三組相同的配置,但將PANet中所有的瓶頸結構均使用深度可分離卷積進行替換,訓練結果命名為Eff-AllDepth。所有實驗中超參數設置、訓練流程與訓練技巧均保持一致。最后,為測試所使用訓練技巧和損失函數的實際效果,在BDD100K數據集上,使用Eff-InnerStage進行消融實驗。

4.3 評價指標

為測試實驗中模型的性能,使用與PASCAL VOC相同的評價指標,平均精度(mean Precision)、平均召回率(mean Recall)和mAP(mean Average Precision)作為模型檢測性能的評價指標。

在考慮模型精確程度的同時,模型的推演速度和模型所占內存的大小也決定其能否被應用于更多樣的設備及場景。對于模型所占內存大小,可以使用參數量來進行衡量。而對于模型的推演速率,以往使用推演時間(Infer Time)和每秒處理幀數(Frame Per Second,FPS)作為衡量指標具有一定的局限性,因為不同的設備之間計算能力各不相同,僅僅考慮推演時間和FPS是不全面的,故使用十億次浮點運算(Giga Floating Point of Operations,GFLOPs)作為衡量模型推演速率的指標。

4.4 實驗結果

模型在兩個數據集上的訓練結果如表2和表3所示。

表2 在BDD100K數據集上模型的指標對比

表3 在PASCAL VOC數據集上模型的指標對比

可以看出,相比于YOLOv4模型,使用EfficientNet-B1作為主干網絡對網絡整體性能的提升是比較顯著的。

在兩個數據集上,Eff-InnerStage模型相比于YOLOv4模型消耗了更少的計算量,但mAP、mPrec、mRec的提升較高。Eff-AllDepth模型相比于Eff-InnerStage模型計算量縮小了29.48 GB,但其精度下降較多,針對速度要求高于精度要求的目標檢測任務,可應用該模型。可以看出深度可分離卷積改進后的PANet在減小計算量的同時,仍保持著較好的特征融合能力。然而準確率的提升也取決于主干網絡中特征層的選擇,如模型Eff-Stage雖然計算量較小,但其準確率相比于其它實驗模型過于低下,說明提出的特征層選擇方法有效改進了主干網絡輸出的特征層質量。

為進一步對比實驗中模型的擬合能力和收斂速度,截取訓練過程中訓練集損失函數值的變化圖像,如圖8和圖9所示。驗證集損失函數值的變化圖像如圖10和圖11所示。

圖9 PASCAL VOC訓練集上各模型的損失函數變化曲線

圖10 BDD100K驗證集上各模型的損失函數變化曲線

圖11 PASCAL VOC驗證集上各模型的損失函數變化曲線

在BDD100K數據集上,從損失函數值的變化可以看出,Eff-Stage、Eff-InnerStage和Eff-AllDepth在同樣的訓練周期中,訓練集損失函數值要低于YOLOv4,說明使用EfficientNet-B1作為主干網絡是可行的。所有實驗模型均可在訓練集上快速收斂,這一現象說明了CIoU損失函數能保證模型正常且快速的收斂。對于驗證集損失函數值,Eff-Stage的損失值要高于其他模型,Eff-InnerStage損失值最低,這與測試集上的結果相符。在PASCAL VOC數據集上,各模型損失函數值的變化情況與BDD100K的結果相似,Eff-Stage的驗證集損失函數隨著訓練時長的增加,損失函數值由初始的快速降低變為緩慢上升,但該模型的訓練集損失函數值卻比其他幾個模型的損失值都要低,這表明模型Eff-Stage出現了過擬合現象。而實驗中其他使用EfficientNet-B1作為主干網絡的模型均未出現過擬合問題,故本文提出模型的主干網絡特征選擇是較合理的。

為更直觀地展示實驗中模型的檢測準確率,從兩個數據集的測試集中分別選取5幅圖片對模型進行測試,并將結果進行可視化展示和對比,結果如圖12和圖13所示。

(a) 原圖 (b) Eff-InnerStage (c) Eff-AllDepth(d) Eff-Stage (e) YOLOv4圖12 模型在BDD100K測試圖片上的檢測效果

(a) 原圖 (b) Eff-InnerStage(c) Eff-AllDepth (d) Eff-Stage(e) YOLOv4圖13 模型在PASCAL VOC測試圖片上的檢測效果

圖12和圖13中相同線型的目標邊框表示同一類別的目標,其中(a)是測試集原圖,其余每一列圖片均來自不同模型的預測結果。觀察圖12(b)和圖13(b)可以發現,Eff-InnerStage模型具有較高的檢測精度和普適性,這和訓練得到的各項結果相符,也證明了該模型在面對不同規模數據集時均有著較好的檢測精度,故針對PANet的改進是有效的。圖12中第二、第三行的測試圖片分別來自強光直射的白天和光線昏暗的夜晚兩種情況,從這兩幅圖片的檢測結果可以看出Eff-InnerStage模型相比于YOLOv4模型有著更好的魯棒性,其受圖片質量的影響更小。對比圖13中各模型的檢測結果可以發現Eff-InnerStage相比于YOLOv4模型有著更貼合目標的預測框,且對密集的目標更加敏感。

在消融實驗中,針對Eff-InnerStage的實驗結果如表4所示。

表4 消融實驗結果

可以發現在BDD100K數據集上,三種訓練技巧均為模型帶來了一定的提升。模型Eff-InnerStage使用CIoU定位損失函數替換MSE損失函數提升不明顯,但在實驗中能加快模型收斂。中心點縮放因子和余弦退火對模型的精度提升較小,然而在訓練階段能為模型的訓練提供保證,避免因梯度爆炸和欠擬合問題而導致大量無效實驗。馬賽克數據增強帶來的提升較大,相比于僅使用CIOU損失函數的模型提升了1.39百分點,這表明本文設計的模型是受數據驅動的,可范化至其他檢測任務中。最終多種訓練技巧的聯合使用為模型帶來了2.57百分點的精度提升,不僅說明了訓練技巧的有效性,也說明了不同訓練技巧之間具有一定的互補性。

5 結語

針對智能駕駛領域的目標檢測問題,使用精確高效的EfficientNet作為主干網絡,結合SPP與PANet構建單階段目標檢測模型,并通過改進PANet提出該模型的輕量級架構。使用改進后的YOLO損失函數,結合多種訓練技巧對模型進行訓練。實驗結果表明,提出的Eff-InnerStage網絡模型以較低的計算量消耗在BDD100K和PASCAL VOC數據集上分別達到了37.79%和82.39%的準確率,并通過對比實驗和消融實驗證明了網絡模型及訓練技巧的有效性。