朱雅喬,史延雷,馬幪朔,岳 峰,尚志武
(1.天津中德應用技術大學航空航天學院,天津 300350;2.中汽研(天津)汽車工程研究院有限公司中汽中心汽車工程研究院,天津 300300;3.武漢科技大學汽車與交通學院,武漢 430065;4.天津工業大學機械工程學院,天津 300387)
在自然場景中,自動駕駛車輛所采集的圖像一般都是具有高分辨率的圖像,所需檢測的目標在圖像中占比不大。目前還沒有一種有效的針對高分辨率圖像的目標檢測方法[1-2]。
為此,現以行人檢測為例,探討一種高分辨率圖像的目標檢測方法,力求不僅能有效檢測出目標,還具有較好的實時性。
行人檢測[3-4]作為自動駕駛和智能監控等應用的一個關鍵組成部分,在過去十多年里受到了極大的關注。大多數行人檢測方法可以分為兩大類:基于手工特征的方法和基于深度學習的方法。基于深度卷積神經網絡成功用于計算機視覺任務之前,已經有多種手工制作的特征描述法,包括SIFT(scale invariant feature transform)[5],LBP(local binary patterns)[6], SURF(speeded-up robust features)[7],HOG(histogram of oriented gradient)[8],Haar[9]已經被用于行人檢測。Piotr等[10]將圖像的多種通道特征相結合,分別在灰度通道,梯度幅度通道,LUV顏色通道和梯度方向上計算Haar-like[11-13]特征,用于行人檢測。Felzenszwalb等[14]提出了一種可變形的行人部件模型(deformable part-based model,DPM)。隨著深度學習的迅速發展,基于深度學習的檢測模型成為了研究熱點,主要分為兩類,一類是以R-CNN(region convolution neural networks)[15]、Fast R-CNN[16]、Faster R-CNN[17-19]為代表的基于候選框的檢測方法;另一類是以YOLO(you only look once)[20-21]為代表的基于回歸的檢測方法。Liu等[22]提出一種擴展的Faster RCNN行人檢測框架,通過添加網絡分支,從不同網絡層提取多分辨率特征圖,確保不同規模行人的良好檢測。
然而,盡管基于深度學習的檢測算法能夠快速準確地檢測某些區域的目標,但是這些方法通常不能達到很好的性能,仍然存在下列不足。
(1)在行人檢測過程中行人候選框的產生并非十分準確。
(2)對于高分辨率圖像的目標檢測,Faster R-CNN處理較為耗時且可能出現由于目標較小而無法識別的情況。
針對這些問題,提出一種基于LDCF-ResNet50的深度學習檢測框架。首先基于局部無關通道特征(locally decorrelated channel feature,LDCF)[23],設計行人候選區域提議方法,用來檢測行人潛在區域;然后設計一種提議區域合并和擴展的方法,將提議區域合并成正確的候選框,用于后續的ResNet-50[24]神經網絡精檢測;最后將ResNet50網絡的結果映射到原始圖像中,輸出檢測結果。
車載攝像頭拍攝的圖像通常具有高分辨率。然而,一般的深度學習網絡在處理高分辨率圖像時性能相對較差。在實驗過程中發現,如果將高分辨率圖像分割成包含目標的小區域,深度學習檢測網絡可以在這些小區域上表現良好。
根據這種方法,提出了一種高分辨率圖像中的行人檢測方法,它主要包含三個方面:①基于區域提議方法;②基于ResNet50的行人檢測方法;③用于精確定位的后處理步驟。
該方法的結構示意圖如圖1所示。

圖1 提議的行人檢測框架
原始的LDCF在行人檢測問題上已經取得了良好的性能,但是在高分辨率圖像的檢測上,還是會出現漏檢的現象。為了解決這個問題,提出了LDCF提議區域生成方法,為之后的深度學習網絡提供包含對象的優良潛在區域。給定一張輸入圖片,LDCF融合了多種特征通道信息,包括3個顏色通道(LUV),1個梯度幅值通道(|G|)和6個梯度方向直方圖通道(G1-G6),如圖2所示。LDCF將這10個通道采用LDA算法進行局部去相關,獲取前4個特征向量構成濾波器核,并把這4個濾波器核分別與通道特征圖像做卷積運算,則在每個特征通道上輸出得到40張特征圖,將這些特征圖進行級聯得到最終的LDCF特征,然后通過Adaboost分類算法進行訓練。

圖2 特征通道示意圖
為了實現行人檢測的高質量邊界框,Zhang等[25-26]首次提出以0.41的統一縱橫比自動生成邊界框。將modelIDs設置為(50,20),modelDsPad設置為(64,25)。nNeg(要采樣的負窗口的最大數量)設置為10 000,nAccNeg(要累積的負窗口的最大數量)設置為30 000。圖3展示了LDCF行人粗檢測算法的具體測試流程。

圖3 LDCF行人粗檢測算法流程
在檢測實驗過程中發現屬于一個行人邊界框之間的距離并不遠。因此,設計了一種合并方法,用于合并屬于同一對象的邊界框。并根據邊界框之間的距離分為兩種情況。一種是兩個邊界框之間有重疊;另一種是兩個邊界框之間沒有重疊。
第一種情況下,檢測到的每個行人實例是由多個不同的邊界框來標記。為了將邊界框合并成一個正確的邊界框,并得到整個行人實例,當兩個邊界框有重疊時將它們合并。用w1、h1和w2、h2表示兩個邊界框的寬度和高度,a,b分別表示兩個邊界框,表達式為
(1)
(2)
式中:(xa1,ya1)、(xa2,ya2)和(xb1,yb1)、(xb2,yb2)是兩個邊界框的左上角和右下角坐標。用xt1和xt2表示在兩個邊界框在x軸上的相對最小值和最大值。同樣,用yt1和yt2表示在兩個邊界框在y軸上的相對最小值和最大值。
(3)
(4)
(5)
(6)
然后,通過計算兩個邊界框之間的wo和ho判斷是否進行合并得到一個大的邊界框,即
wo=(w1+w2)-(xt2-xt1)
(7)
ho=(h1+h2)-(yt2-yt1)
(8)
如果wo>0且ho>0時,進行合并操作,得到兩個邊界框的最大x坐標和最小x坐標為xt2和xt1,基于此可以計算合并后的邊界框的寬度wt。同樣的,得到兩個邊界框的最大y坐標和最小y坐標為yt2和yt1,可以計算合并后的邊界框高度ht。其將合并后的邊界框作為后續網絡的輸入。
第二種情況下,如果兩個邊界框距離彼此較遠,也就是當wo≤0或ho≤0時,意味著這些邊界框屬于不同的實例,則不需要合并。或者當合并后的邊界框wt≥345或ht≥835時,也不參與邊界框合并。其中,345和835是本數據集中行人實例的最大大小。為了更好地定位和檢測,這些邊界框也將作為后續網絡的輸入,進行進一步的檢測。
特征提取模塊采用ResNet-50[24]網絡結構,將圖像I作為輸入,網絡可以生成具有不同分辨率的若干特征圖[27],其定義為
φi=fi(φi-1)=fi(fi-1{…f2[f1(I)]})
(9)
式(9)中:φi表示的是第i層輸出的特征圖;f表示的是卷積神經網絡。給定輸入圖像I的大小H×W,最終拼接特征映射的大小為H/r×W/r,其中r為下采樣因子。r=4是實驗中所證明的最好的性能,因為r越大意味著粗糙的特征映射難以精確定位,而r越小則帶來更多的計算負擔。采取的特征融合方式及提取圖片的特征的方法,如圖4所示。

圖4 基于ResNet50網絡檢測結構
所使用的數據集為TDCB[28],其涵蓋了大量街道上各類行人的真實生活場景高分辨率(2 520×1 260)圖片。其中包含行人30 490張,但是該數據集中的一些行人相對于肉眼來說都是不可見的,按照文獻[29]的方法,剔除了行人像素小于30的圖像。因此,在實驗中又重新構建了訓練集、驗證集和測試集。隨機選取包含10 000張包含行人的圖像組成新的數據集,并按照訓練集∶測試集∶驗證集=7∶2∶1的比例分配。
使用PASCAL視覺對象分類挑戰[30]中的方法,精度和召回率之間的關系來對模型進行評估。精度和召回率曲線。精度P和召回率R計算公式為
(10)
(11)
式中:TP表示真實陽性樣本的數量;FP表示誤報的數量;FN表示假陰性的數量。使用平均精度(AP)[31]表示檢測的性能。AP定義為

(12)
AP值越大,性能越好。使用IoU來測量檢測相應對象的準確性,并且IoU的重疊面積必須超過0.5才被認為成功檢測到。IoU的定義為
(13)
式(13)中:DR代表檢測區域;GT表示真實目標區域;DR∩GT代表兩者的重疊面積,DR∪GT代表兩者的合并區域。
為了評估本文所提方法的有效性,將所提方法與其他三種方法的性能進行了比較,包括YOLOv3[20]、Faster R-CNN[17]和SSD[32]。使用精度-召回率曲線和平均精度在驗證集上對比評價本文所提出的LDCF-ResNet50深度學習網絡。
圖5所示為在驗證集上測試的所有識別方法的P-R曲線,同時為了比較模型進行實時處理的能力,在3.40 GHz Xeon Gold 6128 CPU處理器和NVIDIA 2080 GPU處理器上對每個模型處理單張圖片的速度進行的測試,結果如表1所示。

圖5 不同行人檢測方法的P-R曲線

表1 不同行人識別方法的平均精度
在本文研究中,將AP用作檢測精度的評估指標,并將匹配閾值設置為0.5。該指數綜合考慮了定位精度和分類精度。同時,為了比較模型執行實時處理的能力,研究了在訪問視頻流的條件下處理每個模型的單幀速度。表1的比較結果表明,SSD是最快的方法,其次是YOLO,LDCF-ResNet50和Faster R-CNN。盡管YOLO和SSD比LDCF-ResNet50和Faster R-CNN快,但是它們的檢測精度卻低得多;LDCF-ResNet50為行人提供最高的檢測精度,如圖6所示。考慮到檢測精度和速度之間的權衡,LDCF-ResNet50優于其他所有三種方法。LDCF-ResNet50的行人檢測AP值分別比SSD,YOLO和Faster R-CNN高31.45%、17.79%和4.07%。

圖6 行人檢測結果
研究使用LDCF-ResNet50方法解決了高分辨率圖像上的行人檢測問題。解決了大多數現有方法對于高分辨率圖像檢測速度慢、漏檢和誤檢的問題。基于LDCF提取行人候選區域,進行粗檢測;然后,設計一個合適的RseNet50深度學習網絡以獲取更多的細節信息,并對提議區域進行精檢測。在高分辨率數據集下的實驗證明:本文方法相比于之前的方法有了明顯的提升。盡管本文中以行人檢測為例,但是它在其他物體檢測方面具有很大的潛力,如高分辨率圖像上的車輛檢測和一般物體檢測等。