基于EdgeBoxes與旋轉不變特征的車輛檢測*

2018-06-05 11:46:00婁玉強蔣華濤陳大鵬

網絡安全與數據管理 2018年5期

婁玉強，蔣華濤，常琳，李慶，陳大鵬

(1.中國科學院微電子研究所，北京 100029；2.中國科學院物聯網研究發展中心，江蘇無錫 214135；3.中國科學院大學，北京 100049)

0 引言

復雜環境下車輛檢測是計算機視覺領域的難題之一[1]，它在安全輔助駕駛、智能交通中都有著重要的應用。由于需要應對環境光照劇烈變化、目標姿態變化等問題，對算法時間復雜度、檢測準確率等都提出了更高的要求。文獻[2]提出一種基于局部敏感直方圖(Locality Sensitive Histograms, LSH)提取光照不變特征的方法，能夠快速地得到圖像中不隨光照變化的部分。文獻[3]提出的Fourier HOG，通過將梯度方向直方圖(Histogram of Oriented Gradients，HOG)[4]引入極坐標系下進行傅里葉分析，使Fourier HOG描述符具備旋轉不變性，明顯優于其他旋轉不變描述符[5]，但是該算法卻存在時間復雜度較高的問題，通過引入快速傅里葉變換(Fast Fourier Transform, FFT)，可以對算法進行優化，得到FFT-Fourier HOG。在檢測過程中，采用目標推薦法(object proposals)可過濾掉無關區域，大大降低系統計算負擔。本文算法首先采用EdgeBoxes算法[6]確定車輛候選區域(proposals)，然后采用參考文獻[2]中方法對圖像進行處理得到光照不變特征，之后采用FFT-Fourier HOG算法，得到最終特征描述符(descriptor)。結合線性SVM分類器，在公開數據集上實驗結果表明，相比其他算法，該算法不但提高了檢測的速度，而且提高了檢測準確率。

1 提取車輛候選區域

在車輛檢測過程中，首先確定車輛候選區域能極大地提高車輛的檢測速度。本文采用EdgeBoxes算法[6]來確定車輛候選區域，具體如下：

(1)采用結構化邊緣檢測算法[7]得到邊緣圖像，然后采用非極大值抑制算法進一步處理得到一個相對稀疏的邊緣圖像。

(2)將得到的邊緣進行分組，并計算每兩組之間的相似度。得到邊緣圖像后，采用貪心算法搜索8連通的邊緣，直到邊緣之間的方向角度和的差值大于π/2，這樣就形成了多個邊緣分組。然后計算每兩個邊緣組之間的相似度，計算公式為：

(1)

其中，si和sj為兩個邊緣組，其平均位置為xi和xj，平均方向角分別為θi和θj，θij是xi和xj之間的角度，γ為調整相似度敏感度的參數，在此設置為2。

(3)根據邊緣組相似度確定輪廓，得到最后的候選區域。定義ωb(si)∈[0,1]，即si完全在區域b內，則ωb(si)=1，其他情況ωb(si)=0。ωb(si)計算公式如下：

(2)

其中，T是長度為|T|、起點為t1∈Sb、終點為t|T|∈si的有序邊緣組路徑，由ωb可以得到每個候選區域的得分函數：

(3)

其中，mi為所有在si中像素值大小之和，bω和bh為候選區域的寬和高，κ為補償系數。根據邊緣圖像以及相似度，由公式(2)、(3)計算候選區域得分，在實際中為了提高計算效率，公式(3)中得分函數采用以下計算方法：

(4)

圖1 圖像得到候選區域

2 光照不變特征提取

文獻[2]給出了一種基于局部敏感直方圖(LSH)計算光照不變特征的算法，該算法可以有效降低光照變化的影響，同時具有速度快的優點。具體步驟如下：

(1)計算局部敏感直方圖。像素點p處的局部敏感直方圖為：

(5)

其中，α∈(0,1)為控制像素遠離目標中心時衰減權重系數，I為圖像，W為像素數，B為灰度級總數，Q(Iq,b)定義為：q∈b時，Q(Iq,b)=1，否則為0。通過理論證明可得LSH計算過程中每個像素位置僅有B個加法和B個乘法，從而得到像素為W、直方圖個數為B的LSH，算法復雜度為O(WB)，具有較好的實時性。

(2)得到光照不變特征。得到局部敏感直方圖后，計算得到光照不變特征：

(6)

式中，p點灰度級為bp，整個目標模板的灰度級個數為B,rp=k·Ip，其中k為常系數，Ip是目標模板平均亮度，平均亮度值越大，權重值越小。實驗證明，光照劇烈變化時，Γp的值基本不變。圖2(a)為原始圖片，圖2(b)為提取光照不變特征后的圖片，可見經過提取光照不變特征后光照影響得到很大限度上的濾除，紋理特征得到了很好的保留，有利于接下來梯度信息的計算。

圖2 提取光照不變特征

3 旋轉不變特征提取

本文算法在文獻[3]的基礎上進行了優化，引入快速傅里葉變換(FFT)，得到基于快速傅里葉變換的Fourier HOG，從而顯著地提升了特征提取的效率。具體步驟為：

(1)卷積核傅里葉變換。首先計算卷積核的傅里葉變換，包括空間聚集核K1，局部對比歸一化核K2以及二維基函數Uj,k。傅里葉變換后3個量分別表示為K1，K2，Uj,k。

(2)計算局部區域特征。首先，對于輸入圖像的梯度場D做基于FFT卷積的局部對比歸一化：

(7)

Fm=Znorm·exp(-imβ)

(8)

Am=F-1{F{Fm}·K1}

(9)

(10)

(3)生成最終旋轉不變特征。本步驟中，一共生成4種最終的旋轉不變特征。Am的旋轉秩特征是-m，第一種旋轉不變特征計算為：

(11)

(12)

(13)

(14)

(15)

(16)

以便于保持相位的同時保持階數。最終，得到一個實值特征向量。對于實值特征，它們被直接放入描述符，對于復值特征，實值與虛部分開放入描述符。算法流程如圖3所示。

圖3 得到旋轉不變特征描述符

4 實驗結果

4.1 實驗環境及數據庫

實驗的計算機環境是：Intel(R)Core i7-6700，3.4 GHz，Windows 7,64位操作系統。所需軟件為MLTLAB R2015b。

本文實驗數據來源于Google Earth衛星圖像數據集[8]，該公開數據集包括30張衛星拍攝圖像，每幅圖像大小為792×636像素，共有1 319輛被標注的車輛，所有車輛在圖像中任意旋轉。由于圖像的低分辨率以及因為建筑物陰影造成的多光照條件，使得該數據集上的檢測任務十分具有挑戰性。

選擇1 200個包含汽車目標在不同方向不同背景下的圖像塊作為正樣本，選擇3 000個不包含車輛的不同背景的圖像塊作為負樣本，其中正樣本從檢測框中心處選取，負樣本為檢測框外隨機采樣選取。將各個圖形塊進行歸一化為64×64像素大小的圖像，得到一個4 200 個樣本的訓練集數據，然后使用線性支持向量機來進行訓練和分類。

4.2 參數設置

本文算法設置最大頻率mmax=4，即m∈{0,1,2,3,4}。然后設置σ為6像素，同時rj∈{6,12,18}像素。只需低階k來組成二維基函數，即-4≤k≤4。本文所選取的對比算法為Fourier HOG[3]，為保持變量一致均采用線性SVM[9]作為分類器，因此需要將每一維特征歸一化到[-1,1]。在檢測過程中引入非極大值抑制[10]來消除多余的檢測框，同時采用5折交叉驗證。

4.3 實驗結果及分析

分別得到對比算法(Fourier HOG)與本文算法的實驗結果。圖4為每幅圖片特征提取時間的對比，本文算法特征提取時間縮短為對比算法的1/2。圖5是檢測時間的對比，由于本文算法首先確定了車輛候選區域，因此檢測時間有著明顯的提升，接近實時(10 fps)。圖6為準確率-召回率曲線，相比對比算法79.9%的平均準確率(AP)，本文算法達到了84.0%。綜合實驗結果可見本文算法在提高檢測速度的同時也提高了檢測準確率。

圖4 特征提取時間對比

圖5 檢測時間對比

圖6 準確率—召回率曲線

5 結論

綜合分析現有文獻并結合具體應用需求，本文提出了一種基于EdgeBoxes與旋轉不變特征的車輛檢測算法。與傳統的車輛檢測算法相比，該算法通過提取光照不變特征與旋轉不變特征，提高了檢測的準確率，而且通過確定目標候選區域以及引入快速傅里葉變換進一步降低了算法的時間復雜度。通過在Google Earth衛星圖像數據集上的實驗表明，該算法具有檢測準確率高、速度較快的優點，并且因為該算法核心是HOG在傅里葉空間的映射，從而也具有很好的魯棒性。算法下一步優化的方向是引入特征選擇，減少冗余特征，進一步提高檢測速度與準確率。

[1] MALIK J, ARBELAEZ P, CARREIRA J, et al. The three R’s of computer vision: recognition, reconstruction and reorganization[J]. Pattern Recognition Letters, 2016, 72(72): 4-14.

[2] HE S F, LAU R W H, YANG Q X, et al. Robust object tracking via locality sensitive histograms[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017,27(5):1006-1017.

[3] LIU K, SKIBBE H, SCHMIDT T, et al. Rotation-invariant HOG descriptors using Fourier analysis in polar and spherical coordinates[J]. International Journal of Computer Vision, 2014, 106(3): 342-364.

[4] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]∥Computer Vision and Pattern Recognition, 2005: 886-893.

[5] ZHANG W, SUN X F, FU K, et al. Object detection in high-resolution remote sensing images using rotation invariant parts based model[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(1): 74-78.

[6] ZITNICK C L, DOLLAR P. Edge Boxes: locating object proposals from edges[C]∥European Conference on Computer Vision, 2014: 391-405.

[7] DOLLAR P, ZITNICK C L. Structured forests for fast edge detection[C]∥International Conference on Computer Vision, 2013: 1841-1848.

[8] HEITZ G, KOLLER D. Learning spatial context: using stuff to find things[C]∥European Conference on Computer Vision, 2008: 30-43.

[9] FAN R E, CHANG K W, HSIEH C J, et al. LIBLINEAR: a library for large linear classification[J]. Journal of Machine Learning Research, 2008,9(9): 1871-1874.

[10] FELZENSZWALB P F, GIRSHICK R, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.