改進Faster R-CNN的道路目標檢測*

2022-05-10 07:27:30朱宗曉徐征宇

計算機與數(shù)字工程 2022年4期

周康朱宗曉徐征宇田微

（中南民族大學計算機科學學院武漢 430074）

1 引言

目標檢測作為計算機視覺領域的核心問題之一，其目的是檢測目標在圖像中的位置并確定其類型。道路目標指對車輛行駛行為有重大指示意義的目標，對其進行識別定位是實現(xiàn)自動駕駛的基礎環(huán)節(jié)。隨著計算機硬件性能的快速提升，研究人員開始將深度學習應用于目標檢測任務。卷積神經(jīng)網(wǎng)絡對圖像數(shù)據(jù)進行若干層的組合操作（卷積、池化和激活函數(shù)）提取出語義特征，彌補了手工提取特征低效、泛化能力弱的缺點［1］。以YOLO［2］、SSD［3］為代表的一階段目標檢測算法直接預測圖片中包圍框的類別和偏移量。兩階段目標檢測算法如Fast R-CNN［4］首先做初步檢測，生成候選區(qū)域（包含物體大致位置）后對預測框進行詳細分類和位置微調。以Faster R-CNN為代表的兩階段算法包含生成候選區(qū)域的過程，有利于提高檢測精度，盡管相對一階段算法耗時多，但是其網(wǎng)絡框架更靈活，適用于復雜的車輛行駛環(huán)境。

車輛行駛時視野開闊，道路小目標數(shù)量繁多成為自動駕駛場景下的關鍵問題。針對通用目標檢測框架對弱小目標檢測效果不佳的問題，國內外學者做了大量研究。Bai等［5］提出基于GAN的目標檢測算法，使用超分重構將提取出的RoI高清化再做檢測。由于對圖片做了兩次檢測，模型檢測實時性較差，不適用于自動駕駛場景。Takeki［6］等將語義分割與目標檢測方法相結合，使用支持向量機（SVM）整合深層CNN網(wǎng)絡、全卷積網(wǎng)絡（FCN）及其變體的訓練結果以提高檢測性能。該方法在背景單一的圖像中檢測鳥類效果良好，但對于復雜背景下的多目標識別則表現(xiàn)不佳。Zhu等［7］提出設置anchor的新思路：采用上采樣擴大特征圖尺寸并減小anchor步長、增加小尺度anchor數(shù)量等方法使anchor與小目標的匹配度更高。Xin等［8］融合卷積神經(jīng)網(wǎng)絡的多層特征，針對小目標本身信息量弱的特點，借助周邊像素點信息輔助模型進行判斷，但相鄰目標的漏檢率較高。Kong等［9］對淺層特征作最大池化、深層特征作反卷積，經(jīng)過LRN歸一化得到圖像超特征以提升小物體檢測效果。

本文以Faster R-CNN為研究對象，針對自動駕駛場景下的目標類別復雜、弱小目標多等問題引入特征金字塔結構，融合圖像不同特征層的語義信息，提高對道路小目標的檢測精度。對數(shù)據(jù)集標簽進行分析，選擇更適合的先驗框尺寸，并且替換VGG16特征提取網(wǎng)絡，采用更深層的卷積神經(jīng)網(wǎng)絡ResNet50以獲取更豐富的語義信息，改善模型檢測道路目標的各類別精度。

2 改進算法模型

2.1 Faster R-CNN基本原理

Faster R-CNN檢測流程如圖1所示，首先將輸入圖像縮放處理為統(tǒng)一大小，經(jīng)過特征提取網(wǎng)絡（VGG16［10］）獲得區(qū)域建議網(wǎng)絡（RPN）所需的全圖特征。隨后RPN利用特征圖生成若干候選區(qū)域和相應的概率得分，對所有候選區(qū)域做非極大值抑制后將得分最優(yōu)的候選框送入感興趣區(qū)域池化層（ROI pooling）。候選框的特征圖經(jīng)過ROI pooling縮放到7×7大小，最后經(jīng)過全連接層（FC）輸出候選框的類別預測及位置回歸結果［11］。

圖1 Faster R-CNN檢測框架

2.2 改進特征金字塔結構

Faster R-CNN的骨干網(wǎng)絡使用多層卷積逐步提取圖像的語義信息，生成不同大小的特征圖。VGG16是Faster R-CNN常用的骨干網(wǎng)絡，其包含5個卷積和1個分類模塊。VGG16的網(wǎng)絡較淺，提取出的特征信息不全。ResNet50包含深層的特征網(wǎng)絡能提取出更豐富的語義信息，殘差結構的引入也有效解決了網(wǎng)絡層數(shù)增加導致的退化問題［12］。本文后續(xù)的實驗主要采用ResNet50作為Faster R-CNN的特征提取網(wǎng)絡。

原始Faster R-CNN網(wǎng)絡中，候選區(qū)域的特征僅由最深層的卷積層提供，經(jīng)過多層卷積后的深層特征中幾乎不包含弱小目標的語義信息［13］。參考FPN［14］的思想引入多尺度特征融合，對網(wǎng)絡中多種尺度的特征圖分別做上、下采樣，融合后針對不同尺度的目標物在對應層的融合特征圖上生成候選區(qū)域［15］。淺層卷積神經(jīng)網(wǎng)絡輸出的特征包含圖片中的細節(jié)信息，能幫助模型更好地識別弱小目標，特征融合的具體結構如圖2所示。

圖2 加入FPN的特征提取模塊

舉例說明，輸入224×224大小的圖片，經(jīng)過卷積模塊Conv1后，特征圖尺寸變?yōu)?6×56。隨后每經(jīng)過一個殘差模塊輸出一種尺寸的特征圖，不同層之間按照2的整數(shù)倍進行縮放，C2～C5輸出的特征圖尺度分別為56×56，28×28，14×14以及7×7。將不同尺寸的特征圖進行融合，每個殘差模塊提取出的特征圖先經(jīng)過1×1的卷積核使得各層的通道數(shù)相同（側向連接），再使用鄰近插值算法對深層的特征圖做兩倍上采樣保證兩個卷積模塊之間特征圖H、W相等。相鄰模塊輸出的特征圖經(jīng)上述處理后融合（逐個元素相加）。對上采樣得到的特征圖進行3×3的卷積以消除混疊效應對后續(xù)預測結果的影響。由上至下實現(xiàn)特征圖的融合，C4輸出的特征圖調整通道數(shù)后與C5上采樣后的特征圖逐元素相加，經(jīng)3×3卷積后得到融合后的特征圖P5。以此類推，可得到融合特征圖P4、P3、P2。C5輸出的特征圖經(jīng)多次卷積后作步長（stride）為2的下采樣生成P6，進一步擴大該層感受野，以生成大尺寸錨框用來預測大尺寸的物體。

原Faster R-CNN中區(qū)域建議網(wǎng)絡的Anchor生成器在單尺度特征圖每個位置上生成9種不同長寬比和面積的目標框（anchor），其尺寸包含三種長寬比（1∶1，1∶2，2∶1）和三種面積（1282，2562，5122）。加入FPN后將多種尺度的特征圖送入RPN，由于特征圖本身具有不同的尺度，anchor生成器只需生成三種不同長寬比的錨框，在不同尺度的特征圖上生成錨框就能達到生成不同面積錨框的效果。

2.3 候選區(qū)域映射

原始的候選區(qū)域映射到特征圖中進行切圖的操作在單張?zhí)卣鲌D上進行，引入FPN結構后得到若干不同尺度的特征圖。根據(jù)候選區(qū)域面積相對原圖的比例與特征圖對應原圖的縮放比例對兩者進行匹配，以確定候選區(qū)域應在何種尺度的特征圖上切圖。具體匹配規(guī)則見式（1）：

k表示使用哪一層特征圖進行切圖；backbone為ResNet的Faster R-CNN網(wǎng)絡中將C4作為單尺度特征圖，故k0為4；w、h分別為單個候選區(qū)域對于原圖尺寸的寬和高；s代表輸入圖片的面積。由式（1）可知，候選區(qū)域面積越小時，使用越淺層的特征圖；反之候選區(qū)域面積越大，使用越深層的特征圖。符合特征融合的核心思想，即淺層特征圖（分辨率高、感受野小）關注圖像細節(jié)信息，更適用于弱小目標的檢測；深層特征圖（分辨率低、感受野大）關注圖像整體語義信息，適用于大目標的檢測。

3 實驗結果與分析

3.1 實驗環(huán)境

為驗證網(wǎng)絡有效性，本文實驗運行及訓練基于Ubuntu20.04操作系統(tǒng)，實驗硬件環(huán)境包括：CPU為AMD?Ryzen 5 4600h，運行內存為16GB，GPU為NVIDIA RTX 2060，顯存為6GB。編譯環(huán)境為pytorch1.6.0、torchvision-0.7.0，CUDA10.0、cudnn 7.6.5。本文采用BDD100K數(shù)據(jù)集進行訓練并驗證模型效果。BDD100K［16］是伯克利大學于2018年發(fā)布的公開駕駛數(shù)據(jù)集，其中包含道路目標標注的圖片共十萬張，訓練、測試和驗證集的比例為7∶2∶1。標注信息包括物體類別、大小（標注框的左上及右下角坐標、寬度和高度）等信息。數(shù)據(jù)集中物體的標簽類別包括person，rider，car，bus等十類目標。

3.2 數(shù)據(jù)分析及預處理

由于BDD100K官方未給出測試集兩萬張圖片的標注文件，本文對訓練集7萬、驗證集1萬張圖片做數(shù)據(jù)清洗后得到訓練樣本69856張、測試樣本1萬張。Faster R-CNN作為兩階段目標檢測算法，先將特征圖送入?yún)^(qū)域建議網(wǎng)絡生成前后景分類以及邊框回歸值，結合anchor生成器生成檢測框（先驗框）。而后將先驗框傳入后續(xù)網(wǎng)絡進行分類及回歸并輸出結果。一般認為，增加先驗框的數(shù)量，豐富框的長寬比及尺寸，使其與真實標簽相匹配才能達到更好的檢測效果。嘗試對數(shù)據(jù)集標簽的面積、長寬比數(shù)據(jù)進行分析，選取出合適的anchor使得其與小目標的匹配度更高，從而提升Faster R-CNN的檢測精度［17］。如圖3所示，對訓練集標注框的面積與長寬比進行分析。經(jīng)計算長寬比在0.5～2之間的標注框占比75.9%，而面積在82與1282之間的標注框占比89.7%。故標注框的長寬比大多集中在0.5～2之間，面積集中在82～1282之間。

圖3 訓練集標簽長寬比及面積分布

3.3 不同anchor參數(shù)下的性能對比

默認anchor參數(shù)：Faster R-CNN中anchor基礎尺寸為16×16，經(jīng)過默認的縮放倍數(shù)［8，16，32］后anchor面積為［1282，2562，5122］，默認長寬比為［0.5，1，2］。根據(jù)3.2節(jié)對數(shù)據(jù)集標簽的分析，修改設置anchor的縮放倍數(shù)為［2，4，8，16，32］；長寬比不變，仍為［0.5，1，2］。Faster R-CNN特征提取網(wǎng)絡分別采用VGG16和ResNet50時在不同anchor參數(shù)下在測試集上進行實驗，采用平均精準度mAP［18］量化模型的綜合性能。如表1所示，其中VGG16+尺度［1282，2562，5122］、VGG16+尺度［322，642，1282，2562，5122］、Res50+尺度［1282，2562，5122］、Res50+尺度［322，642，1282，2562，5122］分別對應表1中①、②、③、④，IoU閾值均設為0.5。

表1 不同Anchor尺度下各類別目標AP及mAP

默認anchor參數(shù)下backbone設置為VGG16和ResNet50的mAP分別為0.392、0.406。而采用anchor縮放倍數(shù)為［2，4，8，16，32］時mAP分別提升了8%和8.8%，這說明提升anchor與數(shù)據(jù)集標簽尺寸的匹配度能有效增強檢測效果。修改anchor參數(shù)后表中各類別AP得分均有提升，對比VGG16與ResNet50，汽車分別提高11.8%和13.1%、交通燈提高13.9%和15.4%，交通標志提高13.1%和12.7%。說明添加小尺寸anchor使得模型更加匹配數(shù)據(jù)集標簽并有效地提升檢測精度，在后續(xù)的實驗改進中依舊采用［2，4，8，16，32］的anchor縮放倍數(shù)進行實驗。

3.4 不同網(wǎng)絡結構的性能對比

分別采用VGG16、ResNet50、ResNet50+FPN作為Faster R-CNN的特征提取模塊，測試其在BDD100K驗證集下的檢測精度。具體實驗結果見表2。

表2 不同網(wǎng)絡結構下各類別目標AP及mAP

由圖4可知，相對于VGG16網(wǎng)絡，ResNet50網(wǎng)絡的mAP提高了2.1%，說明更深層的特征提取網(wǎng)絡能有效提升模型檢測精度；而在ResNet50網(wǎng)絡基礎上添加特征融合結構后，融合特征層既包含淺層特征豐富的圖像紋理、邊緣等細節(jié)信息，又包含深層特征的語義信息；mAP提高了4.9%，各類別的AP得分均有不同程度的提升，說明特征融合能有效提升網(wǎng)絡整體性能。

圖4 不同網(wǎng)絡結構的mAP

查看表2中具體類別的得分變化，加深特征提取網(wǎng)絡層后AP提升0.6%～4.1%，其中大型目標（卡車）提升幅度較小，小目標（交通燈）提升幅度較大。加入特征融合后各類別AP值提高了1.9%～8.8%，弱小目標的檢測精度有明顯提高。在多項測試中train類別物體檢測結果AP得分為0，數(shù)據(jù)集中目標類“train”樣本數(shù)極少（87張），說明樣本數(shù)量過少導致模型難以學習該類別特征，故檢測效果差。觀察表2，模型對于圖片中出現(xiàn)頻率最高的car檢測精確率最高，而對于出現(xiàn)頻次較少的類別（如Bike、Motor等）檢測精確率偏低。

3.5 檢測速度對比

表3對比了特征提取模塊分別為VGG16、ResNet50時采用不同anchor與ResNet50+FPN模型的檢測速度。檢測指標為FPS（Frames Per Second），即每秒檢測幀率，數(shù)值越大說明模型實時性越好。查看具體數(shù)值，添加小尺寸anchor后檢測幀率稍有下降（0.3FPS～0.8FPS）。因為RPN階段生成的anchor會經(jīng)過閾值檢測后過濾，訓練時anchor數(shù)并不會大幅增加，說明增加anchor數(shù)量幾乎不會影響檢測速度。加入FPN結構后檢測速度相比原基于ResNet50的Faster R-CNN模型有所下降（0.9FPS），這是因為在多個特征層進行特征提取增加了計算量，隨之提高了模型運行時間。檢測速度略有下降，處在可接受的范圍內，anchor尺寸的修改和FPN模塊的加入使得模型檢測精度得到明顯提升。

表3 不同網(wǎng)絡結構下檢測速度

3.6 結果展示

分別使用VGG16、ResNet50和ResNet50+FPN算法對行駛道路圖片進行識別，各算法檢測結果對應圖5第1、2、3列。如圖所示（圖片均放大400%），第一張圖片中目標物很遠，大多為弱小目標；第二張圖片中目標物的背景復雜、遮擋嚴重；第三張圖片光線復雜，小目標較多。第一列VGG16算法對弱小目標漏檢嚴重，對于被遮擋物體，只能識別出物體的部分區(qū)域，且會誤檢背景復雜的目標，檢測準確度最低。第二列ResNet50算法對于小目標仍有漏檢（第1、2、3行圖中的汽車、行人和交通標志），但數(shù)量較少，誤檢的情況也得到改善，檢測精度有一定的提升。第三列Res50Net+FPN算法，圖片中幾乎沒有漏檢、誤檢，檢測精度提升明顯。

圖5 不同網(wǎng)絡結構的檢測結果

4 結語

本文提出了一種多尺度Faster R-CNN算法，用于道路場景多類別目標的檢測。在原Faster R-CNN的基礎上，引入特征金字塔結構融合不同特征層以提高小目標檢測精度；根據(jù)道路目標的尺度分布特點重新設計錨框尺度以提升錨框與目標的匹配度，使用更深層的特征提取網(wǎng)絡ResNet50代替VGG16，加深網(wǎng)絡深度以提高網(wǎng)絡整體性能。在BDD100K公開駕駛數(shù)據(jù)集上進行實驗，結果表明加深網(wǎng)絡深度檢測性能有一定的提升，重新設計anchor尺寸后平均準確度提升8.8%，引入特征金字塔后平均精確度再提升4.9%。模型僅對特征提取和錨框匹配方面做了優(yōu)化，后續(xù)工作是緩解數(shù)據(jù)集中類別間樣本數(shù)量不均衡問題，提升小樣本類別的檢測精度。