摘 要: 基于計算機視覺的人體運動檢測是計算機視覺領域中備受關注的前沿課題。本文利用一個基于灰度、顏色和運動等時空特征的視覺注意模型,有效地提取出視頻中包含運動信息的顯著區域。將這一視覺注意模型與一個基于時空梯度特征提取與子塊匹配的人體動作檢測相結合,可彌補傳統方法耗時長的不足,并提高了對噪聲的魯棒性。實驗表明,利用該方法能有效提高人體動作檢測的效率和準確率。
關鍵詞: 計算機視覺 視頻分析 動作檢測 視覺注意
引言
基于視頻的人體動作檢測在智能視頻監控、基于內容的視頻檢索等方面具有廣泛的應用。由于視頻數據量大,維數高,對當前各種相關算法與計算機處理能力提出了挑戰。近年來,將視覺注意機制與視頻分析相結合的方法引起了計算機視覺領域研究者的注意[1][2]。視覺注意模型通過模擬生物視覺對復雜場景的感知特性形成目標的緊湊表達[3]。在圖像處理領域,Itti等人提出了針對靜止圖像的視覺注意模型[4]。該模型依據視覺生理學的研究成果,通過“中央—周邊差”算子提取圖像的灰度、顏色和方向信息,進一步合成顯著圖以表示圖像中的顯著區域。對于視頻序列,運動信息也是形成視覺顯著性的關鍵成分之一[5]。
通?;趫D像序列的運動與行為分析過程中一般包括環境建模、運動分割、目標分類與跟蹤等環節[6]。然而在實際中,運動分割、目標分類等經典難題往往影響了整個視頻分析的效果。Shechtman采用的思路[7]是計算查詢視頻與目標視頻的時空相關性,通過提取視頻中基于子塊的局部時空梯度信息并構造結構張量,并在此基礎上計算行為相似性,進而實現人體動作的匹配和檢測。然而,該方法需要在三維空間中進行大量的相關度計算,導致其運算復雜度很高,難以滿足實時處理的要求[8]。
1.基于時空顯著性的視覺注意模型
1.1空間域上的特征提取
空間域特征提取針對視頻中的每一幀單獨進行。先對每一幀利用多次高斯低通濾波構造高斯金字塔,其中最0層代表原始幀,第1層代表原始幀經高斯濾波并下采樣后得到的圖像,第2層代表前一層(第1層)的圖像經過再一次高斯濾波并下采樣所得到的圖像,以此類推。具體的層數可以根據輸入視頻的空間分辨率決定。進一步利用一個模擬生物視覺感受野特性的“中央—周邊差”算子來提取灰度,以及顏色兩個通道的顯著性圖[4]。
1.2時間域上的特征提取
運動信息在生物視覺注意機制中起著重要作用。本文采用的視覺注意模型通過時空梯度來獲取時域上的顯著性[6]。為降低運算復雜度,首先利用幀差法粗略獲取運動區域,以避免在非運動區域進行無意義的運動顯著性計算。三維視頻序列可視為由兩類切片組成,即“水平—時間”(x—t)與“垂直—時間”(y—t)切片[8]。根據這兩類切片的二維梯度信息生成相應的結構張量,在此基礎上分析運動顯著性。
1.3顯著圖的合成
首先對灰度、顏色、運動這三個通道的顯著圖進行歸一化處理,以確保真正顯著的位置在合成顯著圖中得到突出,并在各通道采用一個跨尺度的加算子將不同尺度上的顯著圖歸一到同一尺度上并逐點相加。
2.基于視覺注意的動作檢測
2.1基于子塊匹配的動作檢測
在基于時空相關性的動作檢測中,需要解決對于給定的包含特定人體動作的小段查詢視頻Q,如何在目標視頻V中檢測出包含相似動作的位置?;跁r空梯度和子塊匹配的方法通過將視頻分解為較小的視頻塊(例如連續3幀7×7的圖像塊)并度量子塊之間的相關性來獲取動作整體的相似度[7]。
該方法對每一個子塊P,通過提取時空梯度構造結構張量M[7]并分析得到子塊以至視頻段之間的匹配度。如果塊P只包含單一直線運動,則M是一個不滿秩的矩陣。反之,若M滿秩,則視頻塊中包含了多個方向的運動。對于查詢視頻與目標視頻中對應位置的兩個視頻塊P1與P2,同樣可以分別生成結構張量M1和M2,兩者疊加構成聯合結構張量M12。同理,若M12是個滿秩的矩陣,則P1與P2包含不同的運動方向。為了得到兩個視頻塊運動一致性的度量,Shechtman等考察M12左上角的2×2子矩陣,[7](該矩陣包含子塊的空間域梯度信息),并引入一個連續性的度量來表示兩個視頻塊之間的運動一致性。
利用較小的查詢視頻Q在較大的目標視頻V中進行動作檢測,就是將Q與V中各與Q同樣大小的視頻段落S進行匹配,具體而言,就是將Q與S中對應位置的各視頻塊進行運動一致性的計算,然后將各塊對之間的一致性度量值取平均,作為段落S與Q的相關值,相關值大的段落視為包含查詢動作而被輸出。
2.2結合視覺注意模型的動作檢測
傳統的基于時空梯度和子塊匹配的動作檢測方法需要在三維時空內進行大量的子塊相關性匹配計算,從而使得整體耗時很高。若視頻Q在三維時空內有M個像素,較大的目標視頻V有N個像素,則需要進行約MN次子塊匹配,其中每次子塊匹配都需要進行矩陣特征值的計算,運算復雜度非常高。本方法在動作檢測過程中結合視覺注意機制,將計算集中在包含關鍵信息的顯著區域上,大大減少了檢測過程中子塊匹配的次數,并提高了對噪聲的魯棒性。
我們從以下兩個方面將前述視覺注意模型結合到動作檢測過程中。第一,利用視覺注意模型提取查詢視頻Q與待匹配的視頻段落S中的顯著視頻塊。這里的顯著塊定義為塊中顯著點個數大于一定閾值的塊。進一步,采用一個“或”運算判斷每個塊對是否有必要進行一次相關性匹配:當對應位置的兩個視頻塊中一個為顯著塊時,匹配將正常進行,否則該次匹配將被跳過。這大大減少了塊對之間的匹配操作,降低了運算復雜度;同時,由于未攜帶關鍵信息的非顯著塊沒有參與匹配,其攜帶的噪聲也不會對檢測結果產生影響,從而提高了檢測過程對噪聲的魯棒性。第二,對于較大的目標視頻V而言,并非其中的所有段落均參加匹配,而是僅對具有較高顯著性的段落S進行匹配。本文將包含的顯著視頻塊數量大于一定閾值的視頻段落S定義為顯著段落。通過將匹配運算限制在顯著段落中,可以減少不必要的段落匹配,在降低運算復雜度的同時提高了對非顯著區域噪聲的魯棒性。由于匹配在三維時空內進行,逐點移動的匹配過程十分耗時。為了進一步提高運算效率,采用由粗到精的多分辨率處理方法,先在較粗的時空分辨率上進行初步匹配,再針對匹配度較高的位置在更為精細的分辨率上進行匹配。多分辨率分析分兩個層次進行,如圖1所示。一方面,查詢視頻Q與目標視頻V中的段落S進行對應位置塊對的匹配時,先在一個粗的分辨率下進行,根據匹配的結果,在相關度高的塊對周圍進行細分辨率下的匹配,直到在最精細的原始分辨率下完成匹配。在本文實驗中,粗分辨率是在原始視頻中每隔三幀,每幀的水平和垂直方向每隔7個像素進行匹配。然后在匹配相關度高于一定閾值(實驗中取最大值的90%)的位置周圍進行細分辨率下的匹配,即每幀的水平和垂直方向上各隔3個像素點進行匹配。最后在原始分辨率下進行最精細的匹配。另一方面,視頻段落S在V中的移動也采用多分辨率的方式,即S在時空三維方向上均每隔3個像素點移動一次并與Q進行匹配,再對匹配度較高的S周圍的段落進行匹配。通過以上兩個層次的多分辨率處理,可以進一步降低計算復雜度。
結語
本文將視覺注意處理機制結合到人體動作檢測中。通過建立基于時空特征的視覺注意模型,獲取視頻中具備顯著性從而攜帶關鍵信息的緊湊表達,并進一步結合到基于時空特征與子塊匹配的人體動作檢測中。該方法有效地減少了檢測過程中參與運算的無關數據,在降低計算復雜度的同時提高了對信號噪聲的魯棒性。實驗結果驗證了該方法的有效性。
參考文獻:
?。?]王亮等.人運動的視覺分析綜述[J].計算機學報,2002,25,(3).
[2]劉小明等.基于模型的人體運動跟蹤[J].計算機研究與發展,1999,36,(10).
[3]陳武凡.小波分析及其在圖像處理中的應用[M].北京:科學出版社,2002.
?。?]Douzi H.Faber2schauder wavelet Information Theory,1995,41,(3).
[5]Mallat S G.Multifrequency channel decompositions of images and wavelet models[J].IEEE Trans on Image Processing,2003,12,(11).
?。?]Malfait M,Roose D.Wavelet-based image denoising using a Markov random field a priori model[J].IEEE Trans on Image Processing,1997,6,(4).
?。?]Donobo D L.De2noising by soft2t hresholding[J].IEEE Trans on.