(朝陽師范高等專科學(xué)校數(shù)學(xué)計算機系,遼寧 朝陽122000)
時空興趣點檢測的目的是找到視頻序列中發(fā)生的時空事件。通常來說,其方法是給出一種強度函數(shù),計算視頻序列中的每個位置強度值并通過極大值濾波的方法找出興趣點。Laptev等[1]將Harris角點檢測的思想擴展到時空域,得到了一種時空興趣點的檢測方法并實現(xiàn)了基于此的人體動作識別。該方法與傳統(tǒng)的方法相比,優(yōu)點在于無需對前景圖像進行分割也不要進行運動檢測,僅僅依據(jù)在時空域上的行為所引起的變化提取特征,一般采用學(xué)習(xí)的方法進行識別。受上述研究的啟發(fā),筆者利用時空興趣點提取動作特征,進行了基于特征融合的支持向量機動作識別研究。
為了克服Laptev檢測算法特征點稀少的不足,Dollar等[2]提出使用一種基于Gabor濾波器的時空興趣點檢測算法,在該算法中,一維的Gabor濾波器將作用于時間域,而空間域中仍然采用高斯濾波器。得到時空興趣點的位置后,在每個興趣點的位置,提取一個稱為Cuboids的描述子。Cuboids實際上是一個包含時空窗的像素的一個立方體,其大小通常選取當前尺度大小的6倍。在提取Cuboids后,可以利用一些常見的描述子進行表示,如灰度值的梯度信息、光流描述子以及規(guī)范化的像素值等。在得到描述子后,由于特征維數(shù)很高,采用PCA對特征進行降維處理[3]。因此,在研究中可以選取和Dollar一樣的參數(shù)設(shè)置,采用灰度值的梯度信息作為Cuboids描述子。
SIFT是David Lowe于1999年提出的局部特征描述子[4]。SIFT特征獨特性好,信息量豐富,并且對大多數(shù)圖像變換具有很強的不變性。因此,可以考慮用SIFT進行圖像幀中的特征提取。
筆者在研究中使用了Cuboids特征和SIFT特征,其中Cuboids特征將視頻片段當作一個整體進行處理,一個視頻片段生成包含N個時空興趣點的Cuboids描述,在運用司代方法后[5],每個視頻片段對應(yīng)于一個m維的向量,m取決于碼本的大小。SIFT特征針對圖像幀,每幀圖像生成一個128維的特征向量,每個視頻片段生成N×128維的特征向量(N為圖像幀數(shù)),在司代表示下,視頻的SIFT特征同樣表示為一個m維的向量,m也取決于碼本的大小。
為了將不同方法產(chǎn)生的特征利用支持向量機(Support Vector Machine,SVM)進行分類,有必要將上述特征進行融合。可以采用最簡單的特征融合方法,即將Cuboids與SIFT生成的2個128維向量連接起來,組成合并后的新向量。
SVM能夠較好地解決常見的非線性分類中的小樣本、非線性、高維數(shù)和局部極小點等問題,同時可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點的情況,在行為理解研究中得到充分應(yīng)用。因此,筆者在提取混合特征的基礎(chǔ)上,提出采用SVM進行動作識別。
設(shè)線性可分樣本集為(xi,yi),i=1,2,…,n,x∈Rd,y∈{+1,-1}是類別號。d維空間中線性判別函數(shù)和分類面方程分別如下[6]:

式中,w為權(quán)向量;b為閥值。
將判別函數(shù)歸一化,讓2類所有樣本都滿足|g(x)|≥1,使距分類面最近的樣本的|g(x)|=1,這樣分類間隔就等于2/‖w‖,則間隔最大時‖w‖(或‖w‖2)最小;若要求分類面對所有樣本正確分類,則必然滿足:

滿足上述條件且使‖w‖2最小的分類面就是最優(yōu)分類面,也叫最優(yōu)超平面。過2類樣本平行于且距離最優(yōu)超平面最近的超平面H1、H2上的樣本就是支持向量。一組支持向量可以唯一地確定一個最優(yōu)超平面。最大間隔情況下原始的優(yōu)化問題為:

若訓(xùn)練集是線性不可分的,需要引入松弛變量,其允許在一定程度上違反間隔約束。若采用松弛變量的一階范數(shù)給出誤差界,優(yōu)化問題變?yōu)椋?/p>

式中,C為懲罰因子。
為了使學(xué)習(xí)器適用于非線性的特征集,需要用一個固定的非線性映射將非線性特征集映射到高維(也可能是無窮維)特征空間,在特征空間中使用線性學(xué)習(xí)器。因此,分類函數(shù)為:

式中,φ是從輸入空間到某個特征空間的映射。
引入間隔松弛變量,則優(yōu)化問題變?yōu)椋?/p>

式中,K為核函數(shù);α為連接度。
則相應(yīng)的決策分類函數(shù)變?yōu)椋?/p>

試驗采用2種常見行為視頻數(shù)據(jù)庫,即KTH數(shù)據(jù)庫和Weizmann數(shù)據(jù)庫。KTH數(shù)據(jù)庫包含人的6種類型的動作,包括行走、單腿跳、跑步、拳擊、揮手以及鼓掌。每個動作由25個人分別在4種場景下拍攝,共2391個視頻序列。所有序列均在單一背景下,利用固定攝像機以25fps拍攝而成,并以160×120分辨率進行采樣,視頻平均長度為4s。Weizmann數(shù)據(jù)庫由90個視頻組成,每個視頻的分辨率為180×144。該數(shù)據(jù)庫包含一些人體自然行為,如跑、行走、單腿跳、短跳、雙腿跳躍前進、側(cè)跳、原地跳、伸臂跳、單手揮手以及雙手揮手等10種動作。
在提取視頻Cuboids特征和SIFT特征的基礎(chǔ)上,利用一對多的多類SVM分類器實現(xiàn)特征分類。對每一段視頻生成一個Cuboids特征,同時對每一幀圖像生成SIFT特征。利用司代方法,生成碼本。然后對于所有的視頻樣本利用碼本生成最終的直方圖特征,最后采用SVM 進行分類。試驗采用libsvm2.8作為SVM的分類工具。試驗流程圖如圖1所示。

圖1 試驗基本流程圖
圖2和圖3分別給出KTH和Weizmann下選取最優(yōu)的分類結(jié)果,每一行表示了某一動作的識別情況,其中處于對角線上的數(shù)據(jù)表示在特征融合情況下正確識別的識別率,而同一行中其他數(shù)據(jù)則表示了誤差識別的情況。上述結(jié)果是隨機選取樣本生成碼本,在碼本為500的情況下,循環(huán)20次得到的識別率平均值。
圖4給出了采用單一特征和雙特征融合情況下的識別率。從圖4可以看出,采用雙特征融合情況下的識別率明顯高于采用單一特征情況下的識別率,說明采用時空興趣點的Cuboids特征與SIFT特征的簡單融合就能有效地識別動作。由于采用雙特征融合的分類結(jié)果明顯好于使用單一特征的分類結(jié)果,因而尋找更好的融合策略是未來研究工作的重點。

圖2 KTH的混淆矩陣

圖3 Weizmann的混淆矩陣

圖4 采用單一特征和雙特征融合情況下的識別率
[1]Laptev I.Proc of International Workshop on Spatial Coherence for Visual Motion Analysis [A].Local descriptors for spatio-temporal recognition [C].Prague:L I NDEBERG T,2004:120-127.
[2]Dollar P,Rabaud V,Cottrell G,et al.Behavior recognition via sparse spatio-temporal features [A].IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance [C].Prague:L I NDEBERG T,2005:65-72.
[3]張博宇,劉家鋒,唐降龍.一種基于時空興趣點的人體動作識別方法 [J].自動化技術(shù)與應(yīng)用,2009,28(10):75-78.
[4]Lowe D G.Distinctive image features from scale-invariant keypoints [J].IJCV,2004,60(2):91-110.
[5]Sun X H,Chen M A.Hauptmann Action Recognition via local descriptors and holistic features [J].CVPR,2009,18(3):1-8.
[6]劉堃.基于整體特征的人體動作的識別 [D].南京:南京理工大學(xué),2009.