梁琛華,常 青
(國防科技大學ATR重點實驗室,湖南 長沙 410073)
責任編輯:任健男
隨著社會經濟的發展以及人們安全意識的提高,對重要場所的安全警戒要求也越來越高。目前,智能視頻監控得到了較快的發展,因其具有對監控場景中的目標進行實時監測、跟蹤以及行為識別的獨特優勢,得到了廣泛的關注。其中,紅外視頻警戒以其全天候、抗隱蔽能力強的特點在偵察、夜戰、安全警戒中發揮了極為重要的作用。
在紅外視頻監控系統中,對目標的識別尤為重要,因為往往需要對特定目標(人)進行識別,而在較為復雜的場景中,常常會因為背景環境中的車輛、建筑、動物、電線桿以及風吹草動等影響,造成誤檢及漏檢。
為了對人體目標進行有效的識別,需要選擇目標的相應特征進行分類器的學習,就特征提取而言,常見的有利用其幾何特征,比如寬高比、形狀復雜度、緊密度等,但往往較難區分視場中的樹葉、電線桿等偽目標;或者利用灰度特征,但當背景區域亮度與人體相近,比如房屋、海邊等區域,甚至比人體更亮時,難以識別出人體目標。
此外,為了提高識別率,需要選擇相應的算法對目標特征進行學習,以形成分類器。常見的有基于AdaBoosting的學習,但該算法實時性較差,不能滿足本文場景中實時處理的要求,且在學習過程中需要大量的樣本。此外有基于二叉樹的學習,雖然算法速度最快,但識別性能太差。還有基于SVM分類器的學習,在實現目標的二分類時效果較好,但在解決多類分類的時候存在困難,同樣不適合本文的場景特征。
為了適應復雜場景中的不同目標分類,實時處理,并要求有較好的魯棒性,本文將HOG(Histogram of Oriented Gradient)算法對圖像局部區域外觀和形狀的良好表征和隨機森林分類器穩健的目標分類性能有效結合,提出了一種針對復雜場景的基于HOG的隨機森林分類器的人體識別模型。
在對人體目標進行目標分類訓練之前,需要對感興趣目標的特征進行相關的提取,并且該特征要盡可能最大程度地區分感興趣目標和其他目標,而HOG能夠對圖像的局部區域特征進行描述,它通過計算局部區域上的梯度方向直方圖來構成人體特征,能夠很好地描述人體的邊緣和輪廓特征[1-3],并且對光照的變化、目標的少量偏移以及目標的遠近不敏感,因此可以較好地表征人體與其他目標的差異。
HOG的流程圖如圖1所示。

圖1 HOG特征提取流程圖
HOG特征計算的具體步驟如下:
1)對于輸入的視頻逐幀處理,并提取感興趣的矩形區域。
2)建立方向坐標系,將-90°~ +90°平均分成NSTAGE個區域,并且得到各區域的正切范圍,便于后面根據各區域的梯度范圍進行目標的分類。

式中:i∈[1,NSTAGE -1]。
因為正切值在-90°和+90°的位置為無窮大,為了方便計算,定義

3)對于圖像中的某一點的像素I(x,y),其一階梯度為:
水平方向為

垂直方向為

4)根據各點像素的一階梯度值dx(x,y)和dy(x,y)獲得各點的梯度方向α(x,y)和梯度幅值Z(x,y)。
梯度方向為

梯度幅值為

5)根據各點像素的梯度方向α(x,y)確定該梯度幅值在坐標系中所處的范圍,并對各區域的梯度幅值累加求和。
若 α(x,y)< Stage[k+1]且α(x,y)> Stage[k],則HOGvector[k]+=Z(x,y),其中 k ∈[0,NSTAGE]。將各區域梯度值進行二范數的歸一化,各區域梯度幅值的二范數為

二范數歸一化為

獲得HOG特征向量:將各個區域歸一化后的向量連接起來,得到HOG特征向量,并且,該特征向量作為生成隨機森林分類器的訓練特征。
為了實現對人體目標的有效分類,需要基于HOG特征向量,選取適合的算法進行學習,生成分類。學習算法很多,下面簡要介紹幾個常見的算法。
1)Boosting[4]
它是判別分類器的組合,分類決策是由各個子分類器的加權組合決定的,在逐個訓練分類器的時候,數據樣本的權重會被重新分配,使之能夠給予錯誤數據更多的注意力。訓練不斷地進行,直到總錯誤低于某個特定的閾值,Boosting算法有較高的準確率,不需要先驗知識,只需要選擇合適的迭代次數,但速度過慢,需要大量數據進行訓練,且易受到噪聲影響。
2)決策樹[5]
它是一個判別分類器,該樹在當前節點通過尋找數據特征和一個閾值,最優劃分數據到不同的閾值,處理流程是不停地劃分數據,并向下到樹的兩端節點之一。和其他算法相比,其性能不為最優,但速度最快。
3)SVM[5]
支持向量機分類器,需要設定一個高維空間中任意兩點的距離函數,采用基于最大類間隔的線性分類技術,得到某種意義上較優地區分類別的非線性分類器,當數據有限時,該算法可以獲得較好的性能,SVM算法對大規模訓練樣本難以實施,且解決多類分類存在困難。
以上幾種是目前較為常見的學習方法,然而各自均存在一定的局限性,而隨機森林學習算法卻能夠很好地解決這一問題。
隨機森林可以通過收集很多樹的子節點對各個類別的投票,然后選擇獲得最多投票的類別作為判斷結果。隨機森林包含隨機選擇的多個決策樹,此外,它繼承了樹的很多屬性,通過構造不同的訓練集增加分類模型間的差異,從而提高模型的分類能力。此外,為了提高魯棒性,隨機森林使用袋外(out of bag)方法來檢驗分裂,隨機森林的具體流程如圖2所示。

圖2 隨機森林分類器
由圖2所示,多個分類器的組合模型,其性能遠優于單個決策樹的預測,魯棒性較好。
1)首先,從實驗場景中提取感興趣的正樣本53個和負樣本169個,如圖3所示。

圖3 訓練樣本圖
2)提取樣本的HOG特征向量HOGvecor,并設置參數responses的值。正樣本:responses=1;負樣本:responses=0。
3)通過以下代碼對樣本進行學習、訓練,生成分類器:

4)調用隨機森林預測函數對目標特征進行預測,并且將返回值r轉換成整數來標志是否預測正確,代碼為:

5)使用不同數量的testsample(包括正反樣本)驗證分類器的識別率。
為了驗證不同測試樣本數以及梯度區域分類數目對識別結果的影響,采用不同的數據進行觀測,此外,本文對比了不同分類器的性能。
1)選取15個正樣本,33個負樣本,HOG分成10個區域,各分類器的識別率如表1所示。

表1 HOG分成10個區域時各分類器的識別率
2)選取15個正樣本,33個負樣本,HOG分成40個區域,各分類器的識別率如表2所示。
3)選取15個正樣本,33個負樣本,HOG分成60個區域,各分類器的識別率如表3所示。

表2 HOG分成40個區域時各分類器的識別率

表3 HOG分成60個區域時各分類器的識別率
通過表1、表2、表3的結果可知,通過一定數量的測試樣本對4種分類器進行檢測,隨機森林分類器的識別效果最佳,并且隨著HOG區域細分程度的增加,分類越精細,識別率越高。
前文簡要介紹了HOG特征的提取,并且基于HOG產生的特征向量,進行隨機森林分類器的學習,建立了隨機森林分類器,并利用測試樣本驗證了隨機森林分類器的性能優于其他分類器。為了進一步說明該分類器在復雜場景中的魯棒性,選擇一些復雜的場景進行驗證。
測試視頻為紅外攝像機拍攝所得,環境溫度0~10℃,分辨率為384×288。程序運行環境為:VC++2008,OpenCV 2.10,Intel Core i5-2430M/2 Gbyte 內存。
1)場景一:街道,如圖4所示(原圖為彩色圖片)。
場景說明:圖4a中右下方狗的目標框為綠色;圖4b中中心汽車的目標框為黃色;圖4c中左上方的吊車的目標框為藍色;圖4中的人體目標框均為紅色。
場景分析:街道環境較為復雜,有電線桿、樹木、運動的吊車、寵物以及汽車的出現。從圖4a知,沒有將狗(綠框)識別成人體目標;從圖4b知,沒有將汽車(黃框)識別成人體目標;從圖4c知,沒有將運動的吊車(藍色區域)識別成人體目標;從圖4d知,當視場中出現多人體目標時,沒有出現漏檢,分類器魯棒性較好。
2)場景二:草原,如圖5所示(原圖為彩色圖片)。
場景說明:圖5中,人體目標框為紅色。
場景分析:草原環境中,背景灰度和人體目標差異較小,且存在電線桿、風引起草坪的晃動等干擾,從圖5a和圖5b中可知,分類器均能較好地識別出人體目標,并且無虛警,分類器魯棒性較好。
3)場景三:野外,如圖6所示(原圖為彩色圖片)。

圖6 野外場景下人體目標的識別
場景說明:圖6中,人體目標框為紅色。
場景分析:野外環境中,存在電線桿,有許多土坡,并且樹木較多,地面雜草叢生,因此在風大的時候會對目標識別產生一定的干擾,從圖6a和圖6b中可知,分類器能夠較好地識別出人體目標,無虛警,分類器魯棒性較好。
以上3個場景是比較有代表性的復雜場景,此外還有河套、海邊、工地等其他復雜場景,就不一一列舉了,它們有以下一個或幾個特點:1)視場中存在汽車、寵物等其他運動物體;2)存在電線桿、灌木樁等物體;3)當環境中風較大時,引起的樹葉和草叢的晃動會帶來干擾;4)背景溫度較高,比如房屋、村莊、海洋等,造成背景環境和人體灰度接近,帶來干擾。
針對以上復雜環境,基于HOG的隨機森林分類器依然可以較好地對人體目標進行準確識別,不會出現誤檢和漏檢,魯棒性較好。
本文通過對ROI區域HOG特征的提取和學習,并對一定數量的正負樣本進行訓練,建立了基于HOG的隨機森林分類器,并通過測試樣本驗證了該分類器的魯棒性。此外將基于HOG的隨機森林分類器與二叉樹、SVM和AdaBoosting等算法進行比較,驗證了其優越性。最后,將生成的分類器用于街道、草原以及曠野等復雜場景,觀察到在不同情況下均可以實現對人體目標的準確識別,在視頻監控中發揮著重要的作用。
[1]胡仕玲,顧爽,陳啟軍.基于HOG的物體分類方法[J].華中科技大學學報,2012(11):124-126.
[2]李暉,曲仕茹.基于分層梯度方向直方圖和SVM的人體識別[J].計算機測量與控制,2010,18(11):2062-2064.
[3]TRIGGS D.Histogram of oriented gradients for human detection[C]//Proc.the IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2005:886-893.
[4]董樂紅,耿國華,高原.Boosting算法綜述[J].計算機應用與軟件,2006(8):27-29.
[5]于玲,劉彥隆,郭建軍.DWT和Fast PCA與SVM在人臉識別技術中的應用[J]. 電視技術,2012,36(23):172-176.