丁 哲 陸文總 閆芬婷
(西安工業大學電子信息工程學院 陜西 西安 710021)
隨著計算機視覺技術的蓬勃發展,目標檢測已然成為當前的研究熱點,人們對目標檢測技術也提出了更高的需求。雖然該領域已研究了數十年,但仍然存在行人目標背景復雜、形態不一、目標相互遮擋和檢測精度有待提高等問題。因此,研發一種準確率高且魯棒性強的行人檢測算法具有重要意義。
2005年Dalal等[1]將HOG特征圖像局部變化與HOG-LBP特征相結合,并采用SVM分類器配合對目標進行檢測。近年來基于深度學習的目標檢測方法層出不窮,2014年Girshick等[2]提出了基于區域的卷積神經網絡R-CNN,但計算候選框的耗時較大,實時性難以滿足。2015年Redmon等[3]提出了YOLO算法,采用一個單獨的卷積神經網絡模型實現端到端的目標檢測,檢測速度有所提升,但對小目標檢測效果不好。2016年Liu等[4]提出了SSD(Single Shot MultiBox Detector)算法,其結合了Faster R-CNN算法[5]和SSD算法的優勢,在檢測精度和實時性方面均有一定的突破。
本文采用SSD算法作為基礎檢測框架,為了彌補卷積神經網絡中難以學習到圖像統計特征、邊緣約束弱等不足,針對卷積神經網絡深層輸出特征對目標分類不準確現象,提出一種將卷積神經網絡淺層提取的特征與深度特征[6]融合的SSD檢測方法,建立融合多特征的網絡模型,有效地提高了行人檢測的準確率。
多特征信息融合[7]的目標檢測模型主要由基礎網絡部分、特征提取層部分、原始包圍框生成部分和卷積預測部分組成。融入多特征的檢測模型是在VGG16[8]網絡結構的基礎上只增加了兩層3×3×256的卷積層以滿足目標尺度變化,而且較原SSD模型提升了實時性。本文在神經網絡第二個卷積層后提取圖像的方向梯度直方圖(HOG)、RGB顏色加權直方圖和LBP紋理[9]加權直方圖三種手工特征;同時在多個特征圖上利用Softmax分類與位置回歸,得到一系列固定大小的邊界框和目標類別[10]的得分;最后根據非極大值抑制得到檢測識別的結果。圖1為SSD算法特征融合框圖。

圖1 SSD算法特征融合框圖
融合多特征的SSD算法為每個單元設置長寬比和尺度不同的先驗框,然后以這些先驗框為基準預測邊界框位置,降低模型訓練的難度。在訓練過程中,圖像中的目標會根據先驗框匹配原則在設置的多個先驗框中挑選出最適合它們的先驗框進行訓練。先驗框的設置主要為長寬比和大小兩個方面,先驗框的尺度呈線性遞增,特征圖的先驗框和大小尺度也呈線性關系。
(1)
式中:n為特征圖的個數;sh為先驗框大小相對圖片的比例;smax為比例的最大值;smin為比例最小值。對于特定的長寬比,先驗框實際的寬和高為:
(2)
式中:ar為常數。
本文多特征信息融合的目標檢測方法總的損失函數定義為定位損失(loc)和置信損失(conf)的加權和,即:
(3)

(4)
(5)
式中:smoothL1(·)函數從兩個方面限制梯度,當預測框與ground truth差別過大時,梯度不至于過大,當預測框與ground truth差別很小時,梯度值足夠小;(gcx,gcy,gw,gh)表示預測包圍框;(dcx,dcy,dw,dh)表示錯誤包圍框;(lcx,lcy,lw,lh)表示預測的包圍框相對于錯誤包圍框的偏移量。
對目標檢測過程中,大量的候選框會在同一目標的位置產生,但候選框之間有大量重疊,從最大概率候選矩形框開始,分別判斷候選框與目標真實包圍框的交并比是否大于某一固定閾值,選擇概率最大的目標邊界框,將其他概率低的邊界框消除掉。不斷重復,找到所有被保留下來的包圍框。檢測窗口的重疊率p(δ1,δ2)可表示為:
(6)
式中:δ1和δ2為兩個檢測窗口;將閾值φ設定為0.7,將重疊率低于0.7的窗口消除,從而提高檢測速度。
卷積神經網絡中,基礎網絡用來提取輸入圖像的淺層特征和深層特征。其中,淺層特征直接用于目標檢測與包圍邊框回歸。考慮到卷積神經網絡在迭代過程中易出現梯度流失現象,損失網絡提取到的有效特征信息會影響目標檢測的準確性。本文利用SSD卷積神經網絡將提取深層特征和淺層特征信息在網絡中的Flatten層將其轉化成一維向量進行融合,在淺層卷積加入RGB顏色特征、方向梯度直方圖(HOG)和局部二值模式(LBP)三種人工特征,圖2為多特征信息融合框架。

圖2 多特征信息融合框架
該多特征信息融合框架以VGG16為基礎網絡模型,是神經網絡由淺到深不斷迭代的過程,整個框架共17層,在第二個卷積層之后提取圖像目標的三種人工特征,最后在網絡的Flatten層融合人工特征和深度特征并對其分類、回歸。
通過計算和統計圖像局部區域的梯度方向直方圖來提取圖像的方向梯度直方圖(HOG)特征。HOG對圖像局部進行方格單元操作,因此對圖像的幾何形變具有良好的不變性,并且在較強的局部光學歸一化、精細的方向抽樣與粗的空域抽樣條件下,只需要行人保持直立的姿勢,行人微小的肢體動作不會影響檢測效果,能夠很好地對運動行人目標進行描述。行人目標提取HOG特征如圖3所示。

圖3 HOG特征圖
顏色特征是目標最直觀的特征,提取該特征的速度快,而且有很好的區分度。RGB顏色直方圖是用來描述不同色彩在整幅圖像中所占的比例,本文考慮到模板內顏色的分布情況,因此設目標區域有n個像素,其中心像素坐標為u0,像素集為{x1,x2,…,xn},目標模板在R分量的特征是{λ=0,1,…,L-1},G分量與B分量的特征均為{λ=0,1,…,(L-4)/4},然后對每個bin內像素點統計,得到該區間像素點占整幅圖像像素的比例。在統計圖像過程中,離跟蹤框中心越近的點對識別跟蹤的貢獻越大。圖4為行人目標所對應的RGB顏色直方圖。
(7)
式中:K(·)表示每個像素權重大小的核函數,使得目標中心區域范圍的權重較大;b(ui)表示像素點ui處的特征值;d為檢測窗口的帶寬。

圖4 RGB顏色特征直方圖
當目標基本特征區分度較低的情況下,采用LBP紋理特征對目標進行區分,LBP紋理特征是描述圖像局部特征的方法,可以反映目標表面的固有特征。本文為適應不同尺度的紋理特征,實現灰度和旋轉的不變性,利用圓形領域代替方形領域。改進的LBP算子在半徑為R的圓形領域內可以有任意多個像素點,改進前后對比如圖5所示,圖6為行人目標LBP紋理加權直方圖。

圖5 LBP算子改進前后對比圖

圖6 LBP紋理加權直方圖
改進后的SSD模型的融合特征層由淺層人工特征與深層網絡特征組成,淺層特征通過下采樣以減小維度,深層特征通過上采樣增加維度。上采樣方法為直接填充,即用原特征圖上某點的值填充上采樣后該點對應區域的所有值。將提取的所有在Flatten層的特征值轉化為一維向量并融合,然后訓練卷積神經網絡模型。特征融合方式如圖7所示。

圖7 特征融合方式
本文實驗環境如下:操作系統為Ubuntu 16.04,CPU環境為:2× Intel Xeon Gold 6128 CPU@3.40 GHz,內存32 GB,1T 7200 SATA3.5+512 GB SSD,GPU環境為:2× NVIDIA Quadro P2000 5 GB顯卡。本文選用VOC2007數據集進行模型測試,數據集中共包含20個種類,其中訓練集有5 011幅,測試集有4 952幅。本文算法模型搭建環境為TensorFlow 1.12.0+Keras 2.2.2+Python 3.4.0,VOC函數利用準確率(P)、召回率(R)和平均精度(mAP)評估識別效果。本文以校園采集視頻序列作為測試數據,對模型進行評估測試。為了驗證融合多特征目標檢測算法的性能,本文又在VOC2007數據集對模型進行測試。表1為幾種常見的目標檢測算法在VOC2007數據集上的性能對比結果。準確率及召回率計算公式如下:
(8)
(9)
式中:NR為當前幀真正目標的像素集合;ND為通過檢測算法檢測到的目標的像素集合;NC為檢測到的目標和真實目標的交集部分的像素集合。

表1 算法檢測性能對比表
可以看出,僅融合多特征的SSD目標檢測算法的平均精度比其他幾種算法都略高一些,幀頻為27幀/s-1。選取VGG16為基礎網絡模型,并在網絡中加入手工特征后,對目標的分類能力比原始SSD模型有所提升,而且穩定性也較好。僅采用非極大值抑制算法(NMS)能夠有效消除多余的重疊邊框。本文將閾值設置為0.7,可以看出,使用NMS的SSD目標檢測、識別算法的均值平均精度mAP比原始SSD算法提升1.3%。本文算法在融合多特征的SSD算法基礎上加入非極大值抑制(NMS),mAP比原始SSD算法提升4.3%。
為定量對實驗結果進行分析,本文采用中心位置誤差和覆蓋率2個指標評價本文算法的定位性。中心位置誤差是指圖像定位候選框的中心位置與原圖像目標的真實位置之間的歐式距離。覆蓋率是指目標定位框與目標真實位置的重疊部分所占的比重。對VOC2007數據集中的9 963幅圖像進行實驗,本文算法與其他幾種算法的中心位置誤差和覆蓋率對比如表2所示。

表2 中心位置誤差和覆蓋率
通過本文算法與其他幾種算法的對比可以得出,本文算法的目標檢測定位精度明顯優于原SSD算法。
對融合多特征的SSD算法與原始SSD算法進行實驗對比,對校園內采集的一組圖像序列進行實驗,改進前后實驗結果對比圖如圖8所示。

(a) 原始SSD算法 (b) 融合多特征的SSD算法圖8 改進前后SSD算法檢測結果對比
可以看出,融合前的算法對不完整的行人目標、目標大面積遮擋和較小目標無法準確檢測,而通過多特征融合后的SSD算法能識別出大面積遮擋的目標和不完整的目標。與原始SSD等方法相比,改進后的SSD方法在VOC2007公開數據集上具有更低的平均誤檢率,平均準確率較傳統SSD算法提升4%左右,其融合了行人淺層和深層特征,提高了目標預測的穩定性和魯棒性,采用非極大值抑制算法,能夠有效提升檢測速度,而且對小目標和大面積遮擋目標有更好的檢測效果。
基于SSD檢測網絡框架,在卷積神經網絡的淺層提取目標的手工特征,并且與卷積網絡中深度特征進行融合,通過非極大值抑制(NMS)算法消除重疊得分較低的窗口。不僅可以降低計算成本,提高檢測速度,而且提高了檢測準確率。通過多特征信息融合后的SSD網絡模型在VOC2007公開數據集上進行驗證,結果表明,本文方法較原SSD檢測方法在小目標檢測的準確率和穩定性方面有明顯優勢。