李文書,韓 洋,阮夢慧,王志驍
(浙江理工大學 信息學院,杭州 310018)
近年來,行人檢測在眾多領域得到了廣泛的發展,日漸成為計算機視覺和模式識別領域中的關鍵問題.然而,由于行人身材和姿態多樣性、光線多變、背景復雜等原因,使得行人檢測依舊是計算機視覺研究的熱點與難點[1–3].
自2005年,Dalal 等人[4,5]提出了方向梯度直方圖(HOG)特征后,行人檢測技術進入快速發展階段.HOG特征用于描述圖像中像素值的梯度信息,該特征對行人邊緣信息描述充分,對光照變化不敏感,目前仍是行人檢測領域中應用最廣泛的特征算子.Dalal 等人提出的HOG 特征結合支持向量機(SVM)分類器的行人檢測方法在INRIA 數據集上檢測精度達90%,但是檢測速度非常慢.在Dalal 等人的研究成果基礎上,學者們紛紛提出了改進方法.
為了提高檢測精度,陳銳等人[6]提出了一種利用主成分分析法(PCA)對HOG 特征進行降維后與局部二值模式(LBP)特征進行融合,再使用SVM 分類器進行分類的行人檢測框架,組合特征的檢測方法比單一特征的檢測方法更精確[7,8].李盈盈等人[9]提出了一種更精確的行人檢測方法,該方法將LBP 特征、CSS 特征[10]和HOG 特征進行結合,采用Adaboost[11]分類器進行行人檢測,提高了在INRIA 數據集檢測的識別率,但由于提取特征種類增加導致檢測速度變得極其慢.
為了提高檢測速度,Chen PY 等人[12]嘗試從硬件層面改善,提出了一種用于HOG 特征提取的低成本高速硬件實現,仿真實驗表明,它需要更少的硬件成本并且實現更快的工作速度.龔露鳴等人[13]提出一種用于視頻流的快速行人檢測方法.該方法首先利用基于高斯模型的背景差分法進行運動目標提取,然后在對運動目標進行人體識別,通過縮小檢測區域的方式提高了行人檢測的速度,達到可在視頻流進行實時行人檢測的目的.
此外,近年來深度學習的算法在行人檢測上的應用也越來越廣泛,基于深度學習的行人檢測算法[14–17]在速度和準確率上普遍優于傳統機器學習算法,但對硬件性能要求較高.
綜上所述,現有的HOG 特征的研究和改進都是從外部尋找其他手段提高檢測精度和檢測速度,而本文是從圖像本身和HOG 特征內部出發增強圖像和HOG特征的表達能力.
HOG 特征即方向梯度直方圖特征,是一種通過目標邊緣密度的分布來對目標形狀進行描述的特征算子,被廣泛應用于計算機視覺和圖像處理中.HOG 特征提取的方式是依次提取目標局域特征再進行串聯,所有的提取工作只在目標局部區域進行,避免了光照和圖像幾何形變的影響.因此,HOG 特征具有良好的幾何不變性和光照不變性.此外,HOG 特征通過串聯局部信息描述目標整體形狀的方式對目標姿態的變化具有很好的寬容度.在行人檢測中,只要人體姿態大致不變,小幅度的肢體動作不會對檢測效果產生影響.因此,HOG 特征特別適用于行人檢測.
HOG 特征的基本單位為細胞單元(cell),每個cell由n×n個像素組成,N×N個cell 組成一個塊(block),具體特征提取過程如圖1所示.HOG 特征的提取以block 尺寸的滑動窗口為掩碼,進行滑窗掃描提取,具體步驟為.

圖1 HOG 特征提取流程圖
1)將彩色圖像轉換為灰度圖像,使用Gamma 校正法[18,19]對圖像進行歸一化處理,計算經Gamma 校正后的圖像中像素的水平和垂直梯度;
2)其次將梯度方向分為九個區間,如圖2所示,建立梯度直方圖統計cell 在每個區間梯度幅值的分布情況,生成的9 維特征向量為該cell 的特征描述子;

圖2 梯度方向劃分圖
3)將block 內所有cell 的特征描述子串聯起來并進行歸一化處理,生成該block 的特征描述子;
4)將所有block 的特征描述子串聯起來得到輸入圖像的HOG 特征向量f.
計算每個像素在整個圖像上的全局對比度,即該像素與圖像中其他所有像素在顏色上的距離之和作為該像素的增強值,得到新的圖像.
圖像I中某個像素Ik的增強值計算公式如下:

其中,Ik為灰度值,取值范圍為[0,255];N表示圖像中像素的數量.給定一張圖像,每個像素的顏色值已知,假定Ik=am,fn表示圖像中第n個像素的頻數.則上式可重構:

其中,gb,ave表示當前block 內cell 幅值的均值,gc,sum表示當前cell 內梯度值,n為block 內cell 的個數.式(5)為block 內cell 的幅值具體調整方式,其中gc(x,y)表示當前block 內 (x,y)位置cell 的梯度值;a1,a2,a3,a4和a5為 調整系數,經實驗分析后在本文取a1=0.6,a2=0.8,a3=1,a4=1.2 和a5=1.4.
提取經過預處理后圖像的HOG 特征,從增強特征對比度角度對HOG 特征進行改進,提出了增強的HOG(Enhanced HOG,EHOG)特征.增強HOG 特征對比度的方法是在提取HOG 特征后,按照式(4)計算出當前block 的梯度值均值.再按照式(5)對該block 內每個cell 的梯度值做出調整.之后串連調整過的cell 特征描述子得到block 的特征描述子.最后將所有block 的特征描述子串連得到EHOG 特征.
經過特征增強處理,梯度直方圖中梯度值小的bin 得到進一步壓縮,梯度值大的bin 得到進一步放大,直方圖的方差增大,對比度顯著增強.為進一步分析EHOG特征相較HOG 特征的變化,本文提取INRIA 數據集中一張圖片的HOG 特征和EHOG 特征進行可視化分析,如圖3所示.

圖3 HOG 和EHOG 特征可視化比較圖
圖3中,每個紅色虛線區域代表一個cell 單元,由圖3(a)與圖3(b)比較可以很直觀地看出經過特征增強處理,cell 單元內各方向梯度值在保持原有趨勢前提下,對比度顯著增大,cell 單元特征描述子的局部描述能力得到增強.圖4從數據角度很好的反應了這一點,HOG特征整體變化趨勢與EHOG 特征保持一致但對比度得到增強,如維度17 位置對應特征分別為0.005 和0.008,僅相差0.003;最大特征值與最小特征值之差由0.335提高到0.470,較未進行特征增強之前增長了40.3%.

圖4 HOG 特征和EHOG 特征值圖

算法1.EHOG 特征獲取Input:imgGray:原始圖像對應的灰度圖Output:fOut:EHOG 特征hist ← imgGray 中出現像素灰度對應的頻數設置一個用于保存0 到255 各灰度值對應的增強值的對象dist for i ← 0 to 255 do dist[i] ← 根據hist 利用式(3)求出增強值end rows ← imgGray 的高度cols ← imgGray 的寬度設置一個用于保存結果增強后結果的與imgGray 大小相同的單通道圖像imgEnhance for i ← 0 to cols–1 do for j ← 0 to rows–1 do gray ← imgGray 位于(i,j)位置的灰度值將imgEnhance 中位于(i,j)位置的像素設置為dist[gray]的值end end對imgEnhance 進行歸一化處理szCell ← 用于提取HOG 的cell 單元大小szBlock ← 用于提取HOG 的滑動窗口大小,cell 的數量szStep ← 用于提取HOG 的步長,為szCell 的整數倍f ← 根據szBlock、szStep 和szCell 在imgEnhance 上滑動計算收集所有HOG 特征numWindow ← (rows–szBlock×szCell)×(cols–szBlock×szCell)/(szStep×szStep)+ 1 for i ← 0 to numWindow–1 do gCellSum ← 根據f 中的信息計算當前窗口內cell 梯度總和gBlock ← 根據gCellSum 利用式(4)計算出當前窗口內cell 梯度均值for j ← 0 to szBlock×szBlock–1 do gCellCur ← 格局f 中的信息獲取當前位置cell 的梯度值gCellAdp ← 根據gBlock 和gCellCur 利用式(5)計算出當前cell 的調整值將f 中對應的cell 位置的值設置為gCellAdp end end fOut ← f
本文實驗的相關參數設置如下:cell 大小為像素,block 大小為cell,滑動窗口采用固定大小為,掃描步長為8 個像素.實驗采用INRIA 數據集進行實驗分析,部分示例圖像如圖5所示.
INRIA 數據集中行人姿態多樣,背景復雜多變,在行人檢測領域該數據集認可度較高.訓練樣本中正樣本數量為2416 個,負樣本數量為1218 個;測試樣本中正樣本數量為1126 個,負樣本數量為453 個.硬件的運行環境設置為:Windows 7 操作系統,Intel(R)Core(TM)i7-4770 CPU,8 GB 內存.軟件平臺為Visual Studio 2015.

圖5 INRIA 數據集的部分示例圖像
為驗證本文提出的EHOG 特征相較其他特征的優越性,將EHOG 特征和其他幾種常用特征結合XGBoost分類器[20,21]進行實驗對比,實驗結果見表1.

表1 不同特征結合XGBoost 分類器的比較
由表1可知HOG 特征和本文提出EHOG 在識別率和檢測時間上明顯優于其他特征.相較HOG 特征,使用Haar 和LBP 特征訓練所得的分類器識別率相對較低,分別只有77.40%,83.64%.使用EHOG 特征的識別率為95.49%,較Haar 和LBP 特征分別提高了18.09%和11.85%,較傳統HOG 特征提高了4.71%.表1中最后一列是不同特征在與XGBoost 分類器結合時所需的檢測時間,其中HOG 特征所需最少,為25.61 ms,而本文提出的EHOG 特征所需檢測時間為30.85 ms 與其接近,但是識別率有明顯的提升.
為了進一步檢測XGBoost 分類器較其他分類器的優越性,本文將EHOG 特征結合SVM 分類器進行實驗對比,實驗結果見表2和圖6.

表2 不同特征結合SVM 分類器檢測時間

圖6 不同特征在SVM 和XGBoost 分類器上檢測時間的比較
由圖6可以看出,不同特征結合XGBoost 分類器普遍比SVM 分類器所需的檢測時間要少,這是因為XGBoost 分類器的多線程并行操作,有效地降低了行人檢測時間.由表2可知,HOG 特征在結合SVM 分類器時所需的檢測時間,遠遠少于Haar 特征和LBP 特征,而EHOG 特征較HOG 特征檢測時間略有增加,是因為提取EHOG 特征之前對原始圖像進行了預處理增加了時間開銷,但較傳統SVM 分類器,XGBoost 分類器很明顯的降低了檢測時間.
行人檢測具有極廣泛的應用:智能輔助駕駛,智能監控,行人分析以及智能機器人等領域.從2005年以來行人檢測進入了一個快速的發展階段,但是也存在很多問題還有待解決,主要還是在性能和速度方面還不能達到一個權衡.近年,以谷歌為首的自動駕駛技術的研發正如火如荼地進行,這也迫切需要能對行人進行快速有效的檢測,以保證自動駕駛期間對行人的安全不會產生威脅.
本文從預處理原始圖像和增強特征對比度兩方面對其做出改進,提出了增強型HOG,并基于EHOG 特征結合XGBoost 分類器的行人檢測方法.實驗結果證明,針對不同特征(Haar、LBP、HOG、EHOG),本文提出的方法在識別率和檢測速度方面有明顯優越性.
本文下一步研究方向是,針對遮擋問題改進檢測算法,在復雜環境下進一步提高檢測精度提升檢測速度.