劉 騰,劉宏哲,李學偉+,徐 成
(1.北京聯合大學 北京市信息服務工程重點實驗室,北京 100101; 2.北京聯合大學 機器人學院,北京 100101)
隨著智慧城市、智能交通系統(tǒng)、無人駕駛的建設與發(fā)展,其中車輛目標檢測技術成為了關鍵。在交通管理、擁堵路段檢測等方面應用廣泛,深度學習技術不斷發(fā)展并取得了巨大的突破,通過卷積神經網絡目標檢測算法的檢測準確度大幅提升,并且具有更強的魯棒性,可以適應更加復雜的識別場景。在車輛檢測中,容易出現車輛目標相互遮擋,小尺度車輛目標檢測難的問題,導致檢測精度有待提高,因此上述問題成為了車輛目標檢測中亟待解決的問題。針對上述問題科研人員提出了特征金字塔等特征提取方法和無錨框的目標檢測算法。
AlexNet[1]的提出拉開了深度學習的發(fā)展大幕,VGGNet的提出使得深度神經網絡的實現成為可能。ResNet[2]的提出,通過殘差連接的方法解決了梯度爆炸問題,減少了模型收斂時間。現在主流的目標檢測算法主要分單階段和兩階段的方法,其中兩階段方法通過預測候選框,在生成的候選框基礎上進行目標的檢測,因此在具有較高的檢測精度時,檢測速度較低。
因此,研究人員提出了單階段的目標檢測算法,直接通過提取的圖像特征進行目標檢測。YOLO(you only look once)系列算法的提出[3],在保證識別準確率的同時,解決了算法實時性的問題。YOLOv1是一種無錨框檢測器,它將特征圖劃分為14*14個網格,同時預測包圍框和物體的中心,直接對每一個網格中的潛在目標進行分類和回歸。SSD[4]目標檢測算法則通過生成不同尺度的候選框,來實現多尺度目標檢測,具有很好的泛化性,文獻[5-8]在此基礎上進行改進,將其應用于車輛目標的檢測。張昭等[9]通過加入ResNet,反卷積等方法改進特征提取網絡,增加小目標車輛的檢測能力。曹磊等[10]則通過改進RPN網路來改進車輛檢測算法。馬麗萍等[11]在YOLOv3的基礎上改進采樣方式并改進訓練策略,對道路場景的車輛多目標進行檢測。劉洋等[12]通過增加注意力模塊的方式改進小目標檢測的精度。
近年來出現了無錨框類的方法,直接通過關鍵點對目標進行檢測與定位,極大地減少了網絡的參數和計算量,提高了檢測速度,其檢測精度也高于傳統(tǒng)的單階段和兩階段方法。
單階段方法在圖像上滑動復雜排列的可能bounding box(錨點),然后直接對框進行分類,而不會指定框中內容。兩階段方法對每個潛在框重新計算圖像特征,然后將那些特征進行分類。后處理,即非極大值抑制(non-maximum suppression,NMS),通過計算bounding box間的IOU來刪除相同目標的重復檢測框。而無錨框目標檢測網絡的方法不同于其它網絡,如ConerNet[13]算法通過兩個角點來對目標進行預測,CenterNet[14]則通過目標中心點來呈現目標,需要將圖像傳入卷積神經網絡中,得到一個熱力圖,熱力圖的峰值中心點即為中心點。然后在中心點位置回歸出目標的尺寸、位置等屬性,從而將目標檢測問題變成了一個標準的關鍵點估計問題。
該類算法不同于傳統(tǒng)的單階段方法,CenterNet的錨點是放在位置上,可視為一個形狀位置的anchor,不需要人工設置閾值做前后景的區(qū)分,因此該網絡不需要預先準備anchor。每個目標僅有一個正anchor,因此也不需要NMS操作進行候選框的篩選,極大地減少了網絡的參數和計算量。其檢測精度也高于傳統(tǒng)的單階段和兩階段方法,檢測速度滿足實時性檢測的要求,但仍存在多尺度特征提取不充分,對小尺度目標、遮擋目標的識別存在不精準,檢測時上下文信息不充分導致相鄰目標錯檢漏檢的問題。因此本文基于CenterNet網絡進行改進,在小尺度車輛檢測問題中克服上述問題,提出I-CenterNet車輛目標檢測方法。
本文提出一種基于單階段目標檢測算法CenterNet的改進算法。主要采用3種改進方法:①提出自適應特征提取方法;②自適應特征融合結構;③中心點位置特征增強方法。改進的網絡I-CenterNet(improved centernet)能充分提取低層網絡位置信息,減少特征融合時特征圖信息丟失,提高小目標和遮擋目標的檢測精度和速度。
為了解決車輛小目標檢測中低緯度特征提取不充分的問題,采用自適應上下文特征提取。為了克服網絡對高維特征比低維特征更敏感的問題,改進了特征融合方式,增加小目標特征的權重。對基于無錨框的檢測方法中目標中心點位置預測不精準的問題,提出中心點位置增強方法。提高改進網絡在車輛小目標檢測中的小尺度目標和遮擋目標的檢測能力,整體結構如圖1所示。
在車輛目標檢測的過程中存在目標被遮擋,目標過小的問題,在檢測過程中經過卷積和池化操作會丟失大量的特征信息,導致檢測精度降低。并且CenterNet僅使用ResNet50/101作為骨干網絡進行特征提取,易出現特征提取不充分的問題。
針對上述問題,本文通過自適應上下文特征提取方法,對網絡的輸入層進行如下改進,如圖2所示,將 Conv3-3 層的特征圖輸入特征圖池化到3×3,7×7,9×9,3個不同的尺度,來自不同感受野的上下文信息,每個池化后特征利用1×1卷積進行通道整合,之后分別使用反卷積操作將各個特征圖進行上采樣到相同的尺寸。
輸入的交通場景圖片中包含有各種尺度的車輛,不能簡單的將上下文特征進行合并,所以在上下文特征提取網絡后增加尺度融合單元,將各特征加權相加,增加小尺度目標的權重。并使用跳躍連接的方式將原始特征融合進上采樣后的各特征中,操作具體如下式
yff=a·f1+b·f2+c·f3
(1)
其中, yff是自適應上下文特征提取的輸出特征,fk(k∈{1,2,3,4}) 代表經過上采樣后并使用點乘操作融合原始特征的不同層級提取的上下文特征圖,以f1為例公式如下
f1=f2×2·f2
(2)
其中,f1如上所述,f2×2為原始2×2卷積特征,f2為上采樣后的特征。
參數a,b,c代表尺度權重,網絡可自動學習到這些參數,設置a+b+c=1, 并且a,b,c∈(0,1), 計算公式以a為例,如下所示
(3)
其中,at是平均池化和Sigmoid激活函數組成,通過相同的計算方式可計算得到b,c。
上下文特征提取后經過1×1卷積進行整合,后接改進的特征融合模塊。可以自適應的通過加權的方式從上下文特征提取網絡中選取重要的空間位置信息和語義信息,融合各特征后完成信息融合。其中來自底層的特征包含了大量的空間信息,適合進行目標的定位。而高層的特征包含了大量的語義特征,適合進行目標的分類。但是原網絡不能有效地運用底層網絡的空間信息和高層特征的語義信息,所以本文提出了改進的特征提取模塊。
本文提出的改進特征提取模塊能自適應的進行特征融合,如圖3所示。其中為特征提取的各層基礎特征圖。由于低和高層特征圖具有不同大小的分辨率和通道數,所以采用雙線性插值法將其統(tǒng)一到相同大小。其中輸入fin為原始輸入,然后進入特征選擇層,使用1×1卷積繼續(xù)特征平滑,在經過一個3×3卷積層進行分辨率和通道數的調節(jié),后接Sigmoid激活函數進行輸出。其中學習權重參數為a,b,并通過如式(4)所示的方式進行特征融合,由于低維和高維特征主要存在于網絡的對底層和最高層,所以本文中簡單的只取最底層特征為輸入的低維特征,取最高層的輸出為高維特征
y=a?fl+b?fh
(4)
其中,y代表特征融合模塊的最終輸出特征,fl代表處理后的低層特征,fh代表處理后的高層特征。?表示對應位置相乘,⊕代表對應位置相加。改進后的特征融合模塊通過學習到的權重進行對不同層的特征進行加權,進行特征信息的篩選和融合,不僅加強了低層特征中的語義特征,還在高層特征中加入了更多的空間位置信息。
為了解決原始網絡生成熱圖后預測目標中心點時,中心點位置與真實中心點位置不匹配的問題,本文通過中心點特征增強的方式解決中心點位置匹配問題。
類似CBAM[15](convolutional block attention module)模塊,本文的通道注意力模塊結構如圖4所示,首先將特征分別通過最大池化和平均池化操作,得到兩個一維矢量,再將兩個特征進行融合得到特征的通道注意力,這樣能減少操作的復雜度,還能保持較高的通道注意力,計算可以用如式(5)所示
Mc(F)=σAvgPool(F)+ωMaxPool(F)
(5)
其中,以F表示輸入特征圖,AvgPool,MaxPool分別表示平均池化和最大池化,σ、ω表示兩個操作的權重,分別取1和0.5。
空間注意力結構如圖5所示,首先做將輸入特征經過最大池化,然后對池化后的特征進行平均池化,后接卷積核為3×3的卷積操作,并使用跳躍連接,將輸入的原始特征,和經過池化后的特征進行融合,以增加空間特征注意力,最后通過Sigmoid函數進行輸出,計算公式如下
Ms(F)=?(f3×3([AvgPool(F);MaxPool(F)])·F)
(6)
其中,?表示的是Sigmoid激活函數,F表示輸入特征圖,AvgPool,MaxPool分別表示平均池化和最大池化。
本文將改進后的通道和空間注意力進行串聯,由于中心點位置對空間信息敏感,所以增加一路空間注意力模塊,如圖6所示。
通過引入中心點特征增強模塊,增加了中心點預測的準確性,解決了原始網絡中預測目標中心點位置與真實中心點不匹配的問題。在車輛檢測中增加了對遮擋車輛和遠處較小車輛的中心點預測準確度。
總結,本文提出自適應上下文特征提取,不僅能提取多尺度上下文特征,還可以根據輸入圖片中潛在目標的不同尺度分布自適應進行特征的加權融合,改進的特征融合模塊可以將低層和高層的特征進行加權融合,提高小目標的權重。并在此基礎上加入中心點特征增強模塊,有效提高了目標中心點位置的準確度。綜上有效提高了網絡對車輛小目標,和遮擋目標的檢測能力。
本文實驗平臺如下:Intel(R)Xeon E5@1.5 GHz,32 G內存,Ubuntu 18系統(tǒng),顯卡英偉達GTX 1080ti,程序運行python環(huán)境為python3.6,使用pytorch 1.5,CUDA 10.1,數據集使用UA-DETRAC數據集,訓練時對原始數據采取如下幾種數據增強方法,對數據進行擴增,以增加訓練樣本的多樣性,包括隨機角度旋轉、亮度變化、噪聲干擾、適度變換等。
本文采用精確率P(precision)、召回率R(recall)和平均精度均值mAP(mean average precision)的指標對模型進行性能測試。
準確率P,實際是正類且被預測為正類的樣本占所有預測為正類樣本的比例,公式如下
(7)
其中,TP(true positives)指原本為正類且被劃分為正類的樣本;FP(false positives)指原本為負類但被劃分為正類的樣本。
召回率R,實際是正類且被預測為正類的樣本占所有實際為正類樣本的比例,公式如下
(8)
其中,FN(false negative)指原本為正類但被劃分為負類的樣本。由P-R曲線圍成的面積則為平均精度均值mAP。
通過測試集進行測試,最終平均精度均值為92.9%,準確率P為94.3%,召回率R為93.7%。一般檢測速度高于30 fps即認為具有實時檢測的能力,本文方法的檢測速度為59 fps,即滿足實時性檢測的需求。對主流的檢測模型進行了對比,見表1,從表中可以看出,本文提出的方法的平均精度比原有網絡提高5.7%,速度幾乎相同,并且在檢測速度略有減少的情況下精度比YOLOv4更高4%,實驗效果比Faster-RCNN有所提高,并且速度更快。

表1 多種檢測算法對比
實驗效果如圖7所示,結果中對比了本文的I-CenterNet和Faster-RCNN、CenterNet。從圖中可以看出I-CenterNet對遠處較小的車輛進行了有效的識別,并且成功檢測出被遮擋車輛。Faster-RCNN、CenterNet則無法精準的識別出遠處較小的車輛,并且將遮擋的兩個車輛識別成一個目標,還出現個別車輛檢測不出來的情況。
本文對各模塊進行了消融實驗,檢測方法同上。分別對比了原始CenterNet網絡,CenterNet+改進的特征提取和特征融合(CenterNet*),CenterNet+中心點特征增強(CenterNet**)和CenterNet+改進的特征提取和特征融合+中心點特征增強(I-CenterNet)。并繪制了Bus,Truck類的P-R曲線,如圖8所示,從圖中可以看出在該數據集下,“Bus”類別的檢測效果有所改善,當R=0.5時,P=0.16,改進后算法的準確率相比CenterNet網絡提高了32%。并且從圖中可以看出在改進后算法的P-R曲線包圍面積更多,其中本文提出的模型(I-CenterNet)在Bus類的識別中AP值為87.6%,相比原始模型增加了1.4%。本文提出的模型在Truck類的識別中AP值為91.5%,相比原始模型增加了0.8%,檢測效果更好。
我們還對比了中心點增強的結果,如圖9所示,可以看到原始網絡中預測的中心點比改進的網絡預測的中心點有不同程度的偏移,并且在遠景的小車輛中,預測的點靠得很近或沒有預測出來,這樣會導致預測的目標框不精準,兩個距離很近的目標識別成一個。
表2為對比改進各模塊的檢測效果,從表中可以看出,在該數據集上,改進后的模型相比原始模型在相同類別的檢測中,本文提出的方法相比原始網絡平均精度提高了5%,僅使用中心點特征增強的網絡相比原始網絡提升了4%,因此改進后的算法整體表現最好,能夠解決車輛檢測中的小目標檢測和目標遮擋的問題。

表2 對比改進各模塊的檢測效果
本文針對小目標車輛檢測問題,提出一種基于無錨框目標檢測網絡改進的車輛目標檢測算法,提出了自適應上下文特征提取模塊,增加對多尺度車輛小目標特征提取能力,改進了原始網絡中只是用ResNet作為特征提取網絡對目標提取能力的不足。改進了特征融合方法,自適應的將低層特征與高層特征通過加權的方式特征融合,克服了網絡對高維特征比低維特征更敏感的問題。提出了中心點特征增強方法,提升中心點位置的預測準確度,并且能提升有效的特征權重并抑制無效權重,解決了原始網絡中相近目標中心點位置預測不準確的問題。使用UA-DETRAC數據集對本文算法在進行了訓練和測試,實驗結果表明:在該數據集上,本文提出的模型,總體性能優(yōu)于原始的CenterNet網絡,平均精度達到92.9%,并且檢測速度達到了59 fps。并通過實驗驗證了各模塊的有效性,在保證檢測速度的前提下,提高了網絡對車輛小目標和遮擋車輛的檢測能力,并在實驗室環(huán)境中達到了車輛檢測效果。后續(xù)將在此實驗的基礎上進行研究,提升在復雜背景下的車輛檢測能力。