王世剛,孫愛朦,趙文婷,惠祥龍
(吉林大學 通信工程學院,長春130012)
人體行為識別是計算機機器視覺、模式識別研究領域的一個非常重要的研究方向[1-3],近年來,已經在視頻監控、病人監控及人機交互等很多領域內得到廣泛的應用。一般來說,人體行為識別可以分為以下的幾個基本過程:底層的特征提取和運動表征、簡單動作識別;高層的復雜行為和場景理解等[2]。
大部分研究在分析雙人交互行為時都先分析單人原子行為,再分析雙人行為。例如Park 等[4]采用貝葉斯網絡識別單個人體部分的姿態,然后建模單人原子行為,最后創建描述交互行為的決策樹。Ryoo 等[5]將交互行為分為人體部分提取層、姿態層、單人動作層和交互行為層。韓磊等[6]將兩人的交互行為識別分為底層采用概率圖模型建模單人原子行為。本文認為,雙人交互行為同單人行為一樣,可以被看做是一個整體的行為,在識別時不需要將兩人單獨進行研究,所以本文提出一種將交互行為作為一個整體的人體行為的識別方法,既可用于單人行為識別又可用于雙人交互行為識別。最后,通過實驗驗證了本文方法。
在空間域內提取興趣點有很多種方法,比如比較常見的Harris 角點檢測方法[7]。該方法認為,角點為圖像中正交方向上梯度向量比較大的點。該梯度向量由以下公式獲得:

式中:(x,y)為空間坐標信息,g(x,y)是高斯平滑函數。
通常空域中的興趣點只包含圖像中的空域信息,而沒有圖像的運動信息,這對人體行為的特征表示而言是非常重要的。Laptev 等[8]將Harris 的角點檢測思想擴展到了時域,該方法認為,時空角點是在x、y、t 三個方向正交向量上比較大的點(t為時間軸信息),但是該方法無法提取到足夠豐富的時空興趣點。而Dollár 等[9]所提出的時空興趣點檢測方法,能夠提取出豐富的時空興趣點,所以在本文中采取了Dollár 的時空興趣點檢測方法。其響應函數為:

式中:g(x,y;σ)是一個二維的高斯平滑核,作用于空間維度,其公式為:

hev(t;τ,ω)與hod(t;τ,ω)是一對一維的高斯平滑核,作用于時間維度,其公式為:

實驗中,ω=4/τ,σ=1,τ=10。圖1 表示揮手、跑步、握手、踢腿的興趣點檢測結果。紅色點即為檢測出的時空興趣點。

圖1 時空興趣點檢測結果Fig.1 Spatio-temporal detection results
時空興趣點可以正確地表示視頻序列中具有明顯運動的區域,值得注意的是,當兩人進行雙人交互行為時,那些包含信息量最大的興趣點通常是在兩人有接觸時,即兩個人體剪影區域C1、C2連通時,以及連通前后一段時間的視頻序列中。本文認為這一部分的信息才是兩人交互行為中最關鍵的信息,所以本實驗中只取這一部分的時空興趣點。
設視頻序列的時空興趣點集為P={p1,p2,…,pn},這里n 代表所有特征點的個數。
(1)視頻序列中有兩個互不連通人體剪影的區域C1、C2,若在t=a 時即第a 幀圖像中只有一個連通區域S,在t=b(b >a)時即第b 幀圖像中,又重新出現兩個連通區域C1、C2。則可以得到:

(2)若在整個視頻序列中,始終有兩個互不連通的人體剪影區域C1、C2。這是因為某些交互行為比如揮拳或踢腿發生時會有閃躲發生,兩人并沒有接觸到。針對這種情況,選取一個中心時間:

則可以得到:

式中:ε1、ε2為尺度參數,決定連通前后的視頻所取幀數的多少。
選取的時空興趣點集時間軸上的范圍為{Pt1,Pt1+1,…,Pt2-1,Pt2}。在本文中,用pi={xi,yi,ti}來描述時空興趣點,xi,yi為興趣點的二維空間坐標,ti為興趣點的時間量值。也就是說,本文只采用了興趣點的坐標信息,這樣做可以在很大程度上減少時空單詞的維度,提高運算速度。
由式(7)可以看出,η 是與連通幀數b-a 成反比的,也就是說,連通幀數越多,該連通部分時空興趣點所含的信息量越多,足以區分不同的行為所需要的連通前后的幀數越少;若連通的時間越少,連通部分的時空興趣點所含信息量不足以區分不同的行為,則所需要的連通前后的幀數越多。
高斯混合模型是一種聚類算法,按一定的概率將樣本劃分給不同的類,一般用于視頻背景的生成及前景的提取。在本文中,將其應用于時空興趣點的聚類,生成時空單詞。再對時空單詞進行聚類,產生最終的高斯混合模型,即行為模型的建模。
對于不同人的相同行為動作,由于行為尺度的不同,所得到的時空單詞也會不同,即高斯混合模型的聚類中心μ1,μ2,…,μk的坐標位置會有輕微的差異。但是本文認為該差異只在一定范圍內浮動,高斯混合模型能夠找到這種浮動的概率范圍,所以再次采用高斯混合模型來對時空單詞進行聚類,即行為的高斯混合模型建模。
高斯混合模型的公式如下:

式中:參數θ 包含2 個高斯模型的參數:均值μk和協方差Σk這兩部分;K 為聚類的種類數;服從高斯分布,表示點xi屬于第k 類的概率密度函數;πk表示某一個點屬于第k 類的概率;p 為點xi的維度,在本實驗中p=3。即點xi包含興趣點的x,y,t 方向的坐標值信息。
由于樣本的分類即模型參數未知,需要對高斯混合模型的參數進行估計,這里采用EM 算法對其進行估計。在GMM 建模中,EM 算法的公式為:

這樣就得到了高斯混合模型中的各個參數。
由于時空特征點集里的點都是一些散亂無關的點,所以需要對這些時空興趣點進行統計,生成時空單詞。大部分研究者采用K-means 聚類算法[3,6]來對時空興趣點進行聚類,這種方法將點強硬地分配給各個聚類中心,沒有考慮其概率分布,不符合實際情況。高斯混合模型是按一定的概率將點分配給各個聚類中心,所以本文采用高斯混合模型對時空興趣點進行聚類,生成時空單詞。為保證時空興趣點的平移與縮放的不變性,本文對所有時空興趣點進行歸一化。
歸一化后的時空興趣點集為:將X=(x1,x2,…,xn)作為EM 算法的輸入帶入式(13)~(17)中,得到第一次高斯混合模型的參數。取所得高斯模型的中心點M={μ1,μ2,…,μk}做為時空單詞,本文中,k雙人=90。
圖2 分別是揮手、跑步、握手、踢腿的時空興趣點聚類結果及其聚類中心。

圖2 各種動作聚類結果及中心Fig.2 Clustering results and clustering centers of different behaviors
得到行為庫中所有的時空單詞后,要對其進行高斯混合模型訓練。設行為庫中某一行為的所有時空單詞集為:

式中:N 為該行為的訓練集視頻個數。將其帶入式(13)~(17)中,訓練得到該行為最終的高斯混合模型:

對行為庫內每種行為的MN進行GMM 訓練,則可得到每一種行為的高斯混合模型。最后采用匹配的方法進行行為識別,將待測試視頻的時空單詞輸入到每一個GMM 中,符合該行為的高斯混合模型將得到最大值,則可判斷該視頻為哪一種行為。
本文采用Weizmann 行為數據庫(單人行為),UT 行為數據庫(雙人交互行為)及拍攝的若干單人行為和雙人交互行為視頻,對本文算法進行測試及驗證。單人行為有10 種:bend(彎腰),jack(揮手+跳),jump(向前跳),pjump(原地跳),run(跑),side(橫向步行),skip(單腿跳),walk(走),wave1(單手揮手),wave2(雙手揮手)。雙人行為有5 種:擁抱,踢腿,揮拳,握手,推。在實驗中,每種行為都取公開行為庫中的5 個與自己拍攝的20 個視頻片段作為訓練集,用來訓練高斯混合模型,其余的視頻片段作為測試集,每種行為視頻45 個。表1、表2 為實驗結果。
由于本實驗中,只采用了時空興趣點的坐標信息,所以對歸一化的要求比較高,歸一化的效果直接影響到實驗結果的準確度。本文中歸一化的結果依賴于前景的提取,而雙人行為時,很難訓練得到很好的背景,以至于無法提取到很好的前景區域,這是導致雙人行為識別準確率不高的一個重要原因。

表1 單人行為檢測結果Table 1 Result of single behavior recognition

表2 雙人交互行為檢測結果Table 2 Result of interactive behavior recognition
針對人體行為識別問題,提出了一種基于時空興趣點的高斯混合模型聚類信息的人體行為識別方法。該方法分三層:特征提取層,特征表示層與行為表示層。通過提取視頻中的時空興趣點,對其進行GMM 聚類得到時空單詞,再通過訓練得到時空單詞的GMM 模型來達到行為識別的目的。雖然本文方法雙人交互行為識別正確率不高,但是本文方法可以通用于單人與雙人交互行為識別,且比其他的雙人交互行為識別方法減少了一個層次的分析,使算法更為簡潔,并得到了較為理想的實驗效果。由于本文方法只采用了時空興趣點的坐標信息,對歸一化的要求較高,需要較好的歸一化結果以達到較高的識別正確率,且需要大量的訓練視頻以提高訓練得到的GMM 模型的準確度,并且本文沒有考慮復雜場景或多組行為場景的情況,這些都是我們下一步要解決的問題。
[1]Candamo J,Shreve M,Goldgof D B,et al.Understanding transit scenes:a survey on human behavior-recognition algorithms[J].IEEE Transactions on Intelligent Transportation Systems,2010,11(1):206-224.
[2]吳聯世,夏利民,羅大庸.人的交互行為識別與理解研究綜述[J].計算機應用與軟件,2011,28(11):60-63.Wu Lian-shi,Xia Li-min,Luo Da-yong.Survey on human interactive behavior recognition and comprehension[J].Computer Applications and Software,2011,28(11):60-63.
[3]Ryoo M S,Aggarwal J K.Spatio-temporal relationship match:video structure comparison for recognition of complex human activities[C]∥IEEE 12th International Conference on Computer Vision,2009:1593-1600.
[4]Park S,Aggarwal J K.A hierarchical Bayesian network for event recognition of human actions and interactions[J].ACM Journal of Multimedia Systems,Special Issue on Video Surveillance,2004,10(2):164-179.
[5]Ryoo M S,Aggarwal J K.Recognition of composite human activities through context-free grammar based representation[C]∥Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006:1709-1718.
[6]韓磊,李君峰,賈云得.基于時空單詞的兩人交互行為識別方法[J].計算機學報,2010,33(4):776-784.Han Lei,Li Jun-feng,Jia Yun-de.Human interaction recognition using Spatio-Temporal words[J].Chinese Journal of Computers,2010,33(4):776-784.
[7]Harris C,Stephens M.A combined corner and edge detector[C]∥Proceeding of the 4th Alvey Vision Conference,1988:147-151.
[8]Laptev I,Lindeberg T.Space-time interest points[C]∥Proceedings of Ninth IEEE International Conference on Computer Vision,2003:432-439.
[9]Dollár P,Rabaud V,Cottrell G,et al.Behavior recognition via sparse spatio-temporal features[C]∥Proceedings of 2nd Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance,2005:65-72.