999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視覺的人行為理解綜述

2008-12-31 00:00:00凌志剛趙春暉
計算機應用研究 2008年9期

摘 要:基于視覺的人體運動分析是計算機領域中備受關注的前沿方向之一,而人行為理解由于在智能監控、人機交互、虛擬現實和基于內容的視頻檢索等方面有著廣泛的應用前景更是成為了未來研究的前瞻性方向之一。行為理解問題一般遵從如下基本過程:特征提取與運動表征;行為識別;高層行為與場景理解。著重從這三個方面逐一回顧了近年來人行為理解研究的發展現狀和常用方法,并對當前該研究方向上亟待解決的問題和未來趨勢作了較為詳細的分析。

關鍵詞:特征選擇;運動表征;行為識別;高層行為與場景理解

中圖分類號:TP391.4 文獻標志碼:A

文章編號:1001-3695(2008)09-2570-09

Survey on visionbased human action understanding

LING Zhigang,ZHAO Chunhui,LIANG Yan,PAN Quan,WANG Yan

(College of Automation, Northwestern Polytechnical University,Xi’an 710072, China)

Abstract:Human movement analysis from video sequences is an active research area in computer vision and human motion understanding is a future direction of prospective study as it has many potential application domains such as smart surveillance, human computer interface, virtual reality contendbased video indexing, etc. Human action understanding is generally dividedintothreefundamental subprocesses:feature extraction and motion representation,activity recognition and higher level activity and scene understanding.This paper analyzed the state of the art in human action understanding in detail from three fundamental processes. At the end,provided and analyzed some detailed discussions on vital problems and future directions in human action understanding. 

Key words:feature extraction;motion representation;activity recognition;high level activity and scene understanding

0 引言

近年來,人運動視覺分析由于在智能監控[1]、高級人機交互[2]、虛擬現實[3]和基于內容的視頻檢索與解說[4,5]等方面有著廣泛的應用前景和潛在的經濟價值,激發了廣大科研工作者及相關商家的濃厚興趣,并成為了計算機領域中備受關注的前沿方向之一。目前,在世界范圍內已經開展了大量的視覺分析研究項目。例如1997年美國國防高級研究項目署(Defense Advanced Research Projects Agency,DARPA)設立了視覺監控重大項目VSAM(visual surveillance and monitoring)[6],主要研究用于戰場及普通民用場景監控的自動視頻理解技術;實時視覺監控系統W4[7]不僅能夠定位和分割出人的身體部分以及實現多人跟蹤,而且能檢測人是否攜帶物體等簡單行為;1999年歐盟Framework5程序委員會設立重大項目ADVISOR系統[8],旨在開發一個公共交通(如地鐵、機場)的安全管理系統,它覆蓋了人群和個人的行為模式分析、人機交互等研究;2000年,DARPA又資助了HID(human identification at a distance)計劃[9],其任務是開發多模式監控技術以實現遠距離情況下人的檢測、分類和識別,從而增強國防、民用等場所抵御恐怖襲擊的能力;英國雷丁大學(University of Reading)[10]先后開展了REASON(robust methods for monitoring and understanding people in public spaces)、ETISE(evaluation of video scene understanding)、ISCAPS(integrated surveillance of crowded areas for public security)等項目以研究基于視覺的單人行為以及人與人之間的交互行為識別和場景理解等;此外還有能夠對人進行跟蹤與行為理解的實時系統Pfinder(person finder)[11],由歐盟和奧地利科學基金會共同資助的大型視頻監控技術研究項目AVITRACK(aircraft surroundings, categorized vehicles individuals tracking for apron’s activity model interpretation check)[12]等。國內在該領域的研究起步相對要晚,但也有許多大學和研究機構如中國科學院自動化所模式識別國家重點實驗室[13]、亞洲微軟研究院[14]、北京大學視覺與聽覺信息處理國家重點實驗室[15]以及清華大學等對人視覺分析關鍵技術進行了深入的研究。在學術方面,一些國際權威期刊如PAMI、IP、IJCV、CVIU、IVC和重要的學術會議如CVPR、ICCV和ICPR等將智能化視頻監控技術研究,尤其是人運動視覺分析作為主題內容之一。這些期刊為該領域的研究人員提供了更多的交流機會[1]。

人運動視覺分析是利用計算機技術從包含人的圖像序列中檢測、分類、跟蹤人,并對其行為進行理解與描述。其中運動檢測[16~18]、目標分類[19]、跟蹤[20~23]屬于視覺分析中的底層和中層處理部分(有興趣的讀者可參考文獻[24~28]);而行為理解和描述是經過對運動對象的連續跟蹤觀察,分析識別目標當前處于哪種行為模式,并利用語言進行描述,以及判斷該行為是否屬于異常行為,其屬于高層處理部分。當前,人行為理解與描述受到了廣泛關注,發表在上述權威期刊和重要學術會議上的關于行為理解研究的論文正逐年增加。由圖1可見,關于人行為理解研究的會議文章從2002年起急劇增加,并且到2005和2006年每年發表的會議論文均保持在70篇以上;期刊文章從2003年也開始大幅增加,尤其是2007年前5個月的文章數量就超過2005年全年的數量并接近2006年全年發表的數量。行為理解已經成為了未來研究的前瞻性方向之一。因為人運動視覺分析研究的最終目標就是要讓計算機能像人那樣通過視覺觀察和理解世界[29],也就是通過視覺觀察來分析和理解人類活動及場景信息等。行為理解是跟蹤器中像素測度與行為描述之間的橋梁,是使計算機向更加人性化(從“looking at people”向“understanding people”)轉變的關鍵所在。

通過對大量行為理解研究文獻的整理發現:人行為理解研究一般遵從特征提取與運動表征、行為識別、高層行為與場景理解等幾個基本過程[30~33](圖2)。特征提取與運動表征是在對目標檢測、分類和跟蹤等底層和中層處理的基礎上,從目標的運動信息中提取目標圖像特征并用來表征目標運動狀態;行為識別則是將輸入序列中提取的運動特征與參考序列進行匹配,判斷當前的動作處于哪種行為模型;高層行為與場景理解是結合行為發生的場景信息和相關領域知識,識別復雜行為,實現對事件和場景的理解。

隨著人行為理解研究的不斷發展和深入,對該領域的工作及進展作詳細的回顧和分析顯得很有必要。盡管Aggarwal[24]、Gavrila[25]、Moeslund[26]和Hu[27]等人對行為理解的方法有所闡述,但他們都是簡單性地總結分析其方法,并沒有對當前行為理解的研究現狀進行系統分析。為了使廣大相關科研人員能更好地了解和掌握行為理解技術發展的新動向,促進行為理解技術的發展,本文從行為理解的一般性處理框架出發,對目前人行為理解的算法研究現狀、存在問題及發展趨勢等進行詳細介紹。

1 特征選擇與運動表征

在人運動視覺分析中,由于視角的影響,同一種行為可能有不同的投影軌跡,而不同的行為可能有相同的投影軌跡。此外,光照變化、遮擋等現實環境因素也都給行為理解帶來了很大困難。所以從原始視頻數據中提取何種底層特征(如形狀信息包括側影、輪廓,運動信息包括位置、速度、方向等)描述人運動,以及如何選擇充分有效的描述方法表征人運動狀態并且能夠在時間分辨率和維數上減少計算量成為行為理解的關鍵問題之一。

1.1 特征選擇 

表1為2000—2007年400多篇關于行為理解研究的權威期刊與重要國際會議文章中使用特征的統計分析表。由表1可見,目前行為理解研究所采用的特征主要有如下四種:外觀形狀特征、運動特征、時空特征、形狀特征與運動特征兩者的混合特征。其中,形狀特征和運動特征是兩種最常用、也是最主要的特征,其比例均保持在30%以上。另外,時空特征在行為理解研究中開始得到越來越廣泛的使用。

基于外觀形狀特征[34~42]方法是先利用人體幾何結構、輪廓或姿態以及區域顏色等信息來估計運動目標每時刻的靜止姿態,然后用這些靜止姿態序列來描述人體運動。外觀形狀特征容易獲得且比較穩定,對紋理變化不敏感。基于運動特征方法[43~47]則沒有利用有關人體結構的任何形狀信息,而是直接從圖像序列中提取出目標運動特性(時分)信息(如光流信息、運動方向、軌跡、位置、速度等)來表征運動狀態。心理學研究表明,運動特征具有靜態形狀特征無法比擬的優勢,即使是在遠距離或惡劣的能見度情況下和最小運動系統——MLD(moving light display)[48],人能夠根據運動模式輕松地區別和識別目標的運動類型,而形狀特征在此種情況下往往變得模糊不清。但目前的計算機視覺方法很難準確地提取運動特征,所以,為了充分利用形狀特征和運動特征各自的優勢,研究人員采用兩者的混合特征[49~51]識別人的行為。此外,時空特征[52~57]是近年來行為理解研究中使用比較多的特征。時空特征通過采用二維形狀在一段時間內形成的空時立體或差分圖像來描述行為,集合了形狀和運動特征兩者的優點。由于時空特征考慮了運動信息,也有學者將其歸類于運動特征。

1.2 運動表征

人運動表征是指從人的運動序列中提取合適的特征數據來描述人的運動狀態,這是人行為理解中至關重要的一步。依據所用的特征,運動表征方法可分成基于外觀形狀特征的和基于運動特征的。

1.2.1 基于外觀形狀特征的運動表征方法

依據是否利用人體形狀模型的先驗知識,基于外觀形狀的運動表征方法又可分成基于模型和基于外觀特征(或基于視覺特征方法)兩類。

基于模型方法的核心思想是首先建立描述空間中人體形狀模型;然后利用目標的形態特征和關節位置等信息,將模型與輸入圖像序列在首幀匹配,在后續幀的跟蹤過程中,定義損失函數描述輸入圖像數據與模型之間的近似關系,并采用人體運動參數限制條件和最優策略如最小平方[58]或隨機采樣策略如粒子濾波[59,60]等方法最小化損失函數來求得當前的運動姿態。常用的模型結構可以分為矩形框、棍棒形狀[61]、二維輪廓[38]和3D立體模型[58]。基于模型方法集合了先驗模型知識和當前輸入,能夠適合復雜行為的行為理解;但通常要求首先選擇模型,初始化較難、計算量大,而且由于人運動的高自由度,容易產生局部最小值,很難找到全局最優且魯棒的模型參數,此外由于在后續的跟蹤中存在累計誤差,不能分析、跟蹤長序列運動。

基于外觀方法并不試圖恢復人體運動的結構模型,而是直接從圖像中提取物體的二維空間信息,如高度、寬度、側影輪廓和顏色等,并用這些特征直接或通過與已經訓練好的模型進行匹配來獲得對當前運動的描述。在這類方法中,形狀分析理論常用來描述運動目標的形狀變化特征(有關形狀分析請參考文獻[62])。常用的形狀分析方法有質心—邊界距離[34,36]、傅里葉描述符[41]、形狀上下文[42]和統計形狀分析[32,35,63,64]等。其中,質心—邊界距離方法使用一維函數編碼從形狀的質心到形狀邊界點的距離,這種描述符簡單但不能精確地對非凸起形狀進行編碼,如質心與一個邊界點之間的距離連線可能與另一個邊界點相交,造成細節的丟失。Poppe等人[41]提出用傅里葉描述算子恢復人姿態;其思想是用固定的邊界采樣點對人體二維側影輪廓進行采樣,并對采樣點進行傅里葉變換,利用變換后傅里葉系數的低頻部分描述形狀的大體特征,用高頻部分來反映形狀的微觀特征即詳細特征。由于傅里葉描述算子只能描述單個閉環曲線,這種方法一般用于描述外部邊界點;在噪聲環境下,傅里葉轉換性能不是很好。Mori和Malik[42]則提出用形狀上下文[65]描述算子表征人體側影形狀來恢復人體運動的三維姿態。一個點的形狀上下文算子就是試圖捕捉點集中其他點相對于該點的分布,它是一種基于內部或外部邊界采樣點的局部描述算子。傅里葉描述算子和形狀上下文算子具有平移、旋轉和尺度不變性。與傅里葉算子和形狀上下文描述算子不同的是,Hu[66]提出一種基于區域的不變矩理論,并構造出共七個不變矩,它們具有平移、旋轉和縮放不變性,目前已經廣泛應用于圖像的模式識別中。Poppe和Poel[67]對傅里葉描述算子、形狀上下文和不變矩三種算子在側影輪廓描述上的性能進行了比較,并且實驗結果表明傅里葉描述算子和形狀上下文直方圖在形變側影描述上比Hu更具有優勢。20 世紀70年代后期,Dryden等人[63]提出的統計形狀理論發展成一種用形狀概率分布分析物體形狀的實用統計方法,并且在圖像分析、目標識別等領域得到廣泛應用。文獻[64]進一步討論了投影形狀和不變量,以及形狀模型、特征和它們各自在高層視覺中的作用。Jin等人[32]用統計形方法描述每幀中的目標輪廓,并用完全Procrustes均值形狀作為極點,構造一個與數據集近似的線性空間——切空間;然后用這個線性化的輪廓作為訓練數據去學習動態系統、估計系統參數,從而識別人行為。

此外,目標形狀變化的動態特性也為目標識別和動作分類提供了重要信息。N.Vaswani等人[68]提出用形狀變化的動態特性來建模和分類動作;Liu等人[69]提出在傅里葉描述算子的基礎上建立自回歸模型學習形狀變化的動態信息;基于統計形狀理論,Veeraraghavan等人[35]提出用自回歸模型(AR)和平穩自回歸模型(ARMA)學習形狀變化的動態特性,并用模型之間的距離量測作為兩個形狀序列之間的相似性測量,取得了較好的分類效果。

基于外觀特征方法不要求特定的模型,比較簡單,能夠適用于大量的環境條件下。但外觀特征方法由于沒有模型先驗信息限制,很難建立連續幀之間的特征對應關系,并且很難區別信號和噪聲,一般對噪聲敏感。此外,外觀特征受視角影響大,所以許多學者[58,70~72]研究基于多視角環境中人的行為分析和識別。

1.2.2 基于運動特征的運動表征方法

基于運動特征的表征方法可以細分為:

a)基于預先確定區域(如腿、頭)跟蹤的運動軌跡分析方法。其關鍵是運動匹配[43,45,73],思想是在一幀圖像中提取出興趣點或區域、典型特征,并且在隨后圖像幀中進行跟蹤,多幀之間的這些特定點或區域位置匹配就會產生一條運動軌跡;然后對軌跡進行參數化處理,如將軌跡轉換成水平、垂直方向的速度以及時空曲率等來描述運動特性。

b)基于非預先確定的目標區域運動分析方法。其最典型的代表是光流法[44,46,47,74]。與運動軌跡不同的是,光流法是計算空間運動物體表面上像素點運動產生的瞬時速度場。它通過計算圖像序列中連續兩幀亮度信息來得到,指的是圖像亮度模式的表觀(或視在)運動(apparent motion)。例如Zhu等人[47]提出用光流直方圖來描述動作的運動信息,然后用支持向量機作分類器識別運動員的擊球動作。光流法在無須背景區域的任何先驗知識條件下就能夠實現對運動目標的檢測和跟蹤。光流計算的基本等式是假設相鄰兩幅圖像中對應兩點的灰度不變得到的。在這個假設條件下首先要求兩幅圖像相鄰時刻之間的間隔是很小的(幾十毫秒之內),并且要求場景光照均勻。此外光流法的計算量較大。

時空特征不僅包含人動作姿態的空間信息(人體軀干和肢體的位置、方向等),而且還包含運動的動態信息(人體的全局運動和肢體的相對運動),從而避免了光流場計算可能遇到的問題(包括孔徑、全局平滑性約束、奇異性等)和外觀形狀特征跟蹤問題[75,76](自遮擋、重新初始化、外觀改變、運動信息缺乏等)等。所以近年來時空特征在行為識別中得到了大量的使用[52~57]。Bobick和Davis[52]集合時空運動特征,提出了用運動歷史圖(MHIs)和運動能量圖(MEIs)來描述運動。其中運動歷史圖反映運動是怎么產生的,而運動能量圖反映運動發生的位置。文獻[53,54]則提出用迭代濾波(recursive filtering)和幀分組(frame grouping)來描述運動信息。用迭代濾波方法對視頻序列中的每幀圖像進行濾波處理得到一幅濾波圖像,其反映當前幀的場景空間分布信息、相鄰幀之間的時分關系以及短時間內的運動速度;幀分組方法思想是單獨分類視頻切片中的每個濾波圖像,然后用多數投票方法分類這些已標志的濾波圖像的運動類型。

基于運動特征和外觀形狀特征表征的方法都有各自的缺點,基于運動特征能夠描述人的近似運動方向和軌跡等,但很難準確、穩定地捕捉目標運動特性;另一方面,外觀形狀特征能夠描述人的姿態信息,但由于沒有運動信息,描述行為動作的能力有限。所以研究人員[56~58]通過采用融合兩種特征的方法來對人行為進行建模和識別。

2 行為識別

行為識別問題可以簡單地看做是時變特征數據的分類問題,即將測試序列與預先標定的代表典型行為的參考序列進行匹配,那么其關鍵問題是如何從學習樣本中獲取參考行為序列以及如何度量參考序列與測試序列之間的相似性。由于人動作執行的速度不一樣,學習和匹配行為序列時還必須能夠處理相似運動模式在空間和時間尺度上輕微的特征變化。目前,行為識別方法一般可以分成靜態識別和動態識別。靜態識別方法是把行為看做由一組按時間順序串連起來的靜態圖像序列,其常用的方法有模板匹配方法;動態識別方法是定義每個靜態姿勢作為圖模型上的一個節點或狀態,這些節點或狀態之間通過某種關系如概率聯系起來。任何運動序列可以看做這些靜態姿勢的不同狀態之間的一次遍歷過程。常用的識別方法有隱馬爾可夫模型(hidden Markov models,HMMs)、動態貝葉斯網絡(dynamic Bayesian network,DBN)等。這些方法可以總歸為基于狀態轉移的圖模型方法。

2.1 基于模板匹配方法

基于模板匹配方法是用從輸入圖像序列提取的特征與在訓練階段預先保存好的模板進行相似度比較,選擇與測試序列距離最小的已知模板的所屬類別作為被測試序列的識別結果。Bobick和Davis[52]將圖像序列目標運動信息轉換成運動能量圖像(MEI)和運動歷史圖像(MHI),采用馬氏距離度量測試序列與模板之間的相似性;Masoud等人[53]則采用無限沖擊響應濾波器來描述運動,并將其投影到特征空間,然后用Hausdorff距離度量測試序列與參考序列之間的相似性。此外,還有學者采用Procrustes距離[50]來度量測試序列與模板之間的相似性。這些最近鄰方法盡管在一定程度上反映了運動的時分關系,計算量小,但并沒有對運動的時分限制條件進行建模,魯棒性較差。為此,Veeraraghavan等人[35]用動態時間規整(dynamic time warping,DTW)來匹配運動序列。DTW是一種時變數據序列匹配方法,常用于微生物學的DNA匹配、字符串和符號的比較以及語音分析[77]。DTW算法的思想是給定參考模板特征矢量序列與輸入特征矢量序列,尋找一個最佳的時間規整函數,使得輸入序列的時間軸映射到參考模板的時間軸上總的累計失真最小。對DTW而言,即使測試序列模式與參考序列模式的時間尺度不能完全一致,只要時間次序約束存在,它仍能較好地完成測試序列與參考序列之間的模式匹配。DTW具有概念簡單、算法魯棒的優點,能夠對圖像序列進行分類。文獻[35]在形狀空間中用動態時間規整方法計算兩個形狀序列之間的距離來識別動作和步態,取得了很好的分類結果。然而,DTW算法計算量較大,缺乏考慮相鄰時序之間的動態特性,而在實際中,運動序列中相鄰序列在時間和空間上有高度的相關性。

基于模板匹配方法計算復雜度低、實現簡單,但缺乏考慮運動序列中相鄰時序之間的動態特性,對于噪聲和運動時間間隔變化敏感。

2.2 基于狀態轉移圖模型方法

基于狀態轉移圖模型方法[78,79]是將每個靜態姿勢或運動狀態作為圖中的一個節點或狀態,對應于各個姿勢或運動狀態節點之間的依存關系通過某種概率聯系起來,這樣任何運動序列可以看做在圖中不同節點或狀態之間的一次遍歷過程。常用于行為理解的圖模型方法有隱馬爾可夫及其改進模型[80~95]、動態貝葉斯網絡[96~102]、人工神經網絡[45,103]、有限狀態機[104,105]和置信網絡[106]等。本文對前三種常用方法進行總結分析。

2.2.1 隱馬爾可夫及改進模型

與DTW相比,隱馬爾可夫模型是一種更加成熟的匹配時變數據的技術。HMMs用馬爾可夫過程建立相鄰實例之間的相互關系,并假設觀察序列由固定個數的隱狀態構成的隱過程決定,是一種隨機狀態機。HMMs的使用涉及到訓練和分類兩個階段。訓練階段包括指定一個隱馬爾可夫模型的隱藏狀態數,并且優化相應的狀態轉換和輸出概率,以便于產生的輸出符號與對特定運動類別之內所觀察到的圖像特征相匹配。受HMMs在語音數據分析[80]成功應用的影響,研究人員將HMMs用于視覺識別[73,81~83]。Bregler[81]基于人體動力學在不同抽象等級的統計分析,提出了用一個綜合性的網絡來識別人的運動:在底層處理階段,以混合高斯模型來估計基于運動、彩色相似度和空間接近程度等小區域塊,不同的身體部分區域在圖像序列中被跟蹤;在中層處理階段,具有一致運動特性的區域被匹配為動力學系統中的簡單運動(如行走被認為是兩個簡單運動的組成:一個是腿的支撐,一個是腿在空中的擺動);在高層處理階段,HMMs被用來作為這些中級動力系統的混合模型以表達復雜的運動,識別過程通過最大化HMMs的后驗概率來完成。實驗表明,在學習能力和處理未分割的連續數據流方面,HMMs比DTW有更好的優越性。

HMMs有很強的輸出獨立性假設限制,其信號處理過程是一個單路馬爾可夫過程,不能處理多個且相互依存的序列,導致其不能考慮上下文的特征,限制了特征的選擇;而且其拓撲結構是事先給定的,它的模型參數需要用EM算法來估計(BaumWelch 算法);對觀測矩陣的初始值比較敏感,如果初始值選擇不當,會造成概率函數的局部最大值。另外,分類模型不靈活,不能處理運動中分層與共享結構。為了識別復雜動作與人們之間的交互行為,Brand等人[84]提出一種耦合隱馬爾可夫模型(coupled hidden Markov models, CHMM)[84~86]來建模行為中兩個相互關聯的隨機過程,并用CHMM對手勢進行識別。結果表明,與傳統HMMs相比,CHMM具有更好的分類效果,計算速度快,而且對初始條件不敏感。Fine等人[87]為處理自然序列中復雜的多尺度結構,提出了層級隱馬爾可夫模型(hierarchical hidden Markov model,HHMM)。HHMM具有多層隱馬爾可夫模型的結構,所以能夠更為清楚地表達出人運動中不同層次的行為細節。Nguyen等人[88,89]采用HHMM識別人的行為,并取得了很好的分類效果。此外還有抽象隱馬爾可夫模型(abstract hidden Markov model, AHMM)[90]、可變長馬爾可夫模型(variable length Markov model,VLMM)[91]、熵隱馬爾可夫模型[92,93]和分層隱馬爾可夫模型(layered hidden Markov model,LHMM)[94,95]等也被用于復雜行為識別。

2.2.2 動態貝葉斯網絡

由于HMMs不能有效處理三個或三個以上獨立的過程[86],學者提出了HMMs的推廣方法——動態貝葉斯網絡(dynamic Bayesian networks,DBNs)[96]。動態貝葉斯網絡是一種對隨機過程描述的有向圖解,通過網絡拓撲結構反映變量間的概率依存關系及其隨時間變化的情況,不受馬爾可夫鏈的鏈狀結構約束,因此不但能夠在每個時刻上對多個隨機變量所對應的不同特征之間的依存關系進行概率建模而不僅僅是一個隱藏狀態變量,而且考慮了各個時刻間的轉移概率,能夠很好地反映特征之間的時序關系,適用于不確定性和概率性事物。所以動態貝葉斯網絡逐漸成為人行為理解研究中一個有力的數學工具[97~102]。Park和Aggarwal[97]提出用層級貝葉斯網絡方法識別兩個人之間的動作。該方法在貝葉斯網絡的低層估計被跟蹤身體部分的姿態;然后在貝葉斯網絡高層估計整個身體的姿態;最后用動態貝葉斯網絡處理綜合多個身體部分組成的狀態。Muncaster等人[102]提出一個一般的d-層動態貝葉斯網絡識別復雜的事件,在每一層用確定性的退火聚類算法自動檢測觀測層的狀態。文獻[98,99]則用貝葉斯網絡識別停車場和地鐵監控環境下的復雜行為。

貝葉斯網絡的主要優點是利用先驗知識建立視覺特征之間的因果關系來處理視頻處理中固有的不確定性問題。動態貝葉斯網絡還可以任意改變拓撲結果或增刪變量以反映變量間各種不同的關聯關系,而不影響訓練算法本身,因此具有良好的可解釋性,其拓撲結構具有精確及易于理解的概率語義。相比馬爾可夫鏈,貝葉斯網絡訓練比較復雜。

2.2.3 神經網絡

人工神經網絡是由人工建立的以有向圖為拓撲結構的動態系統,它通過對連續或斷續的輸入作狀態響應而進行信息處理,在分析時變數據時具有很大的優勢。Buccolieri等人[103]用神經網絡對輪廓進行分析來識別人的姿態。由于神經網絡通常需要用大量的數據來訓練網絡,研究學者在神經網絡的基礎上提出了時延神經網絡(timedelay neural network,TDNN)。時延神經網絡是在多層前饋感知器神經網絡模型中引入時延單元使得神經網絡增加記憶功能;同時,時變序列的前述值被用來預測下一個值。由于大量數據集成為可能,時延神經網絡的重點就可以放在時分信息的表達,這樣由此導出的神經網絡模型適合應用于處理序列數據。Yang和Ahuja[45]應用時延神經網絡于手勢識別,并取得了較高的識別率。

除了上述兩類方法,支持向量機(support vector machine,SVM)由于能夠較好地解決常見的非線性分類問題中的小樣本、非線性、高維數和局部極小點等實際問題,同時可以避免神經網絡結構選擇和局部極小點問題,成為20世紀90年代末發展最快的研究方向之一,并且在行為理解中也得到了充分的應用[47,54,107~109]。Cao等人[54]用SVM建立濾波圖像分類器來對運動分類。文獻[109]提出一種基于光流直方圖運動描述算子,并用SVM訓練分類器識別運動員的動作。

3 高層行為與場景理解

盡管用上述行為識別方法能夠識別較復雜的動作,但要理解“場景中在發生什么事情”等復雜行為與事件,不僅需要解釋和理解視覺輸入,還需要場景中相關信息與背景知識,尤其是對涉及人活動的場景理解更需要抽象且有代表意義的策略。高層行為事件與場景理解是在對場景圖像信息的各種處理和分析的基礎上,解釋和描述場景圖像的內容,包括場景中人與人、人與物體的行為以及它們之間的時空關系,這也稱為高層視覺。目前研究較多的事件檢測是對整個視頻序列內容以及真實場景的總結分析過程。其核心思想是利用物體或環境知識去理解場景中發生的動作或將要發生的動作,廣泛應用于停車場、超市、地鐵以及機場等公共場所的智能監控中檢測是否有異常行為發生并告警。VSAM、Pfinder和AVITRACK等系統都具有場景理解與事件檢測的功能。目前高層行為與場景理解的方法包括基于規則推理網絡[33,105,106,110~113]、隨機文法(包括隨機上下文無關文法:stochastic context free grammar,SCFG)[114~116]、概率狀態依存語法(probabilistic state dependent grammars,PSDG)[117]、因果分析[118]等。

Badler[105]提出一種基于運動動詞的分層框架來分析運動。一個運動動詞就是一種行為,而這些動詞是預先定義在靜態圖像的規則基礎上,用自動狀態機建立起行為之間的聯系。這種系統理論上可以解釋人行為中的復雜事件,但系統僅僅在人工環境中進行測試。Kojima和Tamura[111]則提出一種事件框架來識別單個人的動作。首先提取出人體頭、身體和手的運動,定義事件幀(case frame)來描述動作規則,從而建立起人運動姿態、位置信息與運動概念之間的對應關系。Hongeng等人[112]則提出事件是由動作線程構成,而且每個線程有單個角色執行,每個單一動作線程通過貝葉斯方法,利用角色的軌跡和運動塊特性來識別,這樣事件可以通過許多在時分限制上相關的動作線程來表達。Robertson等人[113]組合運動軌跡信息與局部運動描述算子,借助圖像特征數據概率搜索方法來描述和識別動作,并用編碼場景規則的HMM平滑動作序列,這樣通過計算當前動作序列下的HMM概率來識別高層行為。基于規則的方法在動作分析中顯示了其優點,但由于某些行為的模糊性,基于規則推理方法很難給每個行為定義準確的規則,而且不同的應用領域定義的規則也不相同。

隨機文法由于能夠從包括HMM不能同時處理的多個過程中提取出有意思的行為,被用來有效地描述真實場景。Ivanov和Bobick[115]提出兩步策略來理解自動監控系統中的高層行為和事件。在低層處理部分用HMM檢測和識別簡單的行為模式,并將輸出向量映射為離散語法字母表;在高層部分則采用隨機上下文無關文法模型分析、理解低層輸出,最終實現行為理解。但這種方法受其語法的上下文無關約束的限制。復雜的行為,尤其是有目的的行為,其狀態通常是前后相關的,也就是下面的行為依賴于當前的狀態,這樣使得行為并不是上下文無關的。此外,兩步識別策略不支持從低層數據到高層理解的在線無縫概率推理。基于這樣的缺點,Nguyen等人[119]提出用抽象隱馬爾可夫記憶模型(abtract hidden Markov memory model,AHMEM)識別復雜室內環境中人的高層行為。Park和Aggarwal[118]提出一種事件語義學來表達和識別人之間的交互行為,并用語言學中的動詞元結構按每三個代理運動目標一組的結構形式來描述運動。時空限制用于決策樹來識別特殊的交互行為。在這個框架下,人的動作以“主語+動詞+賓語”結構來自動表達,同時人的交互行為根據人動作之間的因果語義關系來描述。

當前對高層行為與場景理解的研究還很不完善,高層行為與場景理解研究受一些視覺基礎問題的束縛,如像素級的分割、遮擋以及處理可變性的能力。目前的研究都是針對特定領域應用的研究,有些只是提取場景信息高層的語義,不可能在任意圖像中確定不同的景物。

4 行為理解存在的問題與發展趨勢

盡管近年來利用機器學習工具構建人行為的統計模型、理解人行為的研究有了一定的進展,但由于動態場景中運動的快速分割、寬松的著裝、遮擋、陰影和光照變化、運動的非剛性和高自由度[24,120]、行為發生的場景和人運動的模糊性(關于行為、事件、狀態有著不同的概念)等因素的影響,使得人視覺行為理解成為一個復雜且極具挑戰性的任務。相對于檢測、跟蹤等技術的顯著發展,其行為理解的研究進展比較緩慢。目前行為理解的研究仍處于初級階段,即原子動作[29]分析,也就是簡單日常標準動作如行走、跳、站起、坐等[30~37]和以人行為為目標的簡單事件檢測等[97,102,121~123]。其亟待解決的問題和未來的發展趨勢有以下幾個方面:

a)運動特征選擇與表達。如何選擇特征來充分表達運動成為行為理解的關鍵問題之一。一般是盡可能選擇較多的特征或者是在連續特征的典型匹配過程中引入人運動模型的簡化約束條件來減少、消除歧義性。但如果選取的特征過多、特征向量維數過大,則會增加計算的復雜度;而選擇特征過少,又可能不足以識別與理解人行為,而引入人運動模型的簡化約束條件與一般的圖像條件卻又是不吻合的[28]。因此,能否借鑒人類的學習、識別與理解機理,定義一個動態特征模型,首先提取有關行為的主要特征,當這些特征不足以完成識別與理解時,系統逐步提取候選的細節特征;另外一種更好的辦法是使用行為的二維表達捕捉行為的視覺不變特征[49,124],那樣對行為理解不會引起歧義。但是如何選擇視覺不變特征卻又是一項很困難的任務。此外,提取特征的不穩定性也為行為理解帶來很大的困難,但多模特征融合將為行為理解提供一種很好的解決辦法。例如在某些環境中,可視信息受干擾,變得敏感不可靠時,聲音特征將為基于視頻的行為理解提供一個很好的補充[125,126];在遮擋的情況下,基于多攝像機信息融合方法由于能夠很好地解決遮擋問題,在行為理解研究[70~72]也將會得到快速的發展。

對于運動特征表征來說,不同復雜程度的運動通常會采用不同的運動表達方法,即使是同一種動作在不同的場合,由于快慢速度不一致等都會產生不同的時空關系。如何表征這些細微的時空變化并沒有一個很好的辦法。一個可行的辦法是采用多分辨率的方法[127]來表征和分析運動,但計算量較大。

b)行為識別。目前人行為理解雖然取得一定的進展,但行為理解研究還只局限于簡單、固定視角且已切分好后的動作,對不同動作連續變化的長運動序列的研究比較少[54],而且魯棒差,在噪聲、亮度和光照變化強烈以及視角變化的復雜環境中正確識別率大大降低。目前的行為識別方法如狀態轉移的圖模型方法和模板匹配方法通常在計算代價和運動識別的準確度之間進行折中,而且都是先訓練后使用,只能識別訓練中預先定義好的動作,沒有自動學習新行為的能力,缺乏考慮場景等背景知識,很難根據目標行為和場景的先驗知識進行自動機器學習。例如HMMs等方法被看成一個黑盒,它不解釋某種行為是什么,只輸出一種未知行為與認知的模式行為之間的概率。所以仍需要尋找和開發新技術,以利于在提高行為識別性能的同時,又能有效地降低計算的復雜度。

c)高層行為與場景理解。行為本身具有很強的模糊性,同一行為、事件、狀態在不同的場景有著不同的概念,當同一場景中有多個目標出現時其行為模糊性更加明顯。所以,如何借助于先進的視覺算法和人工智能等領域的成果,將現有的簡單行為識別與理解推廣到更為復雜場景下的事件與場景理解,是將計算機視覺低、中層次的處理推向高層抽象思維的關鍵問題。

d)行為理解與生物特征識別相結合。在智能安全監控、智能人機交互中,行為理解與生物特征相結合顯得更加重要,不但要求系統能夠識別被監控對象的當前行為狀態,而且能夠識別當前被監控的對象身份。生物特征技術識別如步態識別[50]、人臉識別等[128,129]給對象身份識別提供了一個很好的解決辦法。所以與生物特征識別相結合的行為理解將會是未來的研究方向之一。

e)算法評價。一般而言,魯棒性、準確度、速度是人行為識別的三個基本要求,要求能夠快速準確地識別運動且連續地工作,對于如噪聲、光照、天氣等因素的影響不能太敏感。但目前的識別方法更多關注的是識別率,對魯棒性和速度兩個指標研究要求很少。另外,對行為識別方法沒有統一的視頻測試序列,大部分研究方法都是具體問題具體分析,是用各自選擇的視頻序列進行實驗分析,無法對提出的算法進行統一評價。

5 結束語 

人行為理解已經成為計算機視覺領域一個重要的研究方向之一,在智能監控、人機交互等方面的應用前景引起了廣大科研人員的濃厚興趣。本文從特征選擇與運動表征、行為識別方法以及高層行為與場景理解三個方面總結了近年來人行為理解研究現狀和進展。其中特征提取和運動表征可以歸結為行為建模,即如何描述行為動作。目前的方法需要根據具體實際應用情況,在動作模型描述精確度和計算復雜度中折中,選擇適當的方法來對行為建模。本文將行為識別算法細分成模板匹配方法、基于圖模型的方法等,同時對各種常用的數據匹配方法進行逐一分析,并且討論了目前的高層行為與場景理解的研究發展與現狀。最后提出了目前行為理解存在的問題和未來的發展趨勢。盡管當前行為理解研究取得了一定的進展,但依然處于萌芽階段,需要提出新的方法來解決相關問題,提高行為理解的性能。

參考文獻:

[1]王亮,胡衛明,譚鐵牛.人運動的視覺分析綜述[J].計算機學報,2002,25(3):225-237.

[2]JAIMES A,SEBE N.Multimodal human computer interaction:a survey[C]//Proc ofIEEE International Workshop on Human Computer Interaction in Conjunction with ICCV2005.Beijing:[s.n.],2005.

[3]NIJHOLT A.Meetings, gatherings, and events in smart environments[C]//Proc of ACM SIGGRAPH International Conference on Virtual Reality Continuum and Its Applications in Industry.2004:229-232.

[4]KITTLER J,BALLETTE M,CHRISTMAS W J,et al. Fusion of multiple cue detectors for automatic sports video annotation[C]//Proc of Workshop on Structural, Syntactic and Statistical Pattern Recognition.2002:597-606.

[5]TJONDRONEGORO D,CHEN Y P P,PHAM B.Content ased video indexing for sports applications using integrated multimodal approach[C]//Proc of the 13th Annual ACM International Conference on Multimedia.2005:1035-036.

[6]COLLINS R,LIPTON A,KANADE T, et-al.A system for video surveillance and monitoring: VSAM final report,CMU-RI-TR-00-12[R].[S.l.]:Carnegie Mellon University,2000.

[7]HARITAOGLU I,HARWOOD D,DAVIS L S.W4: realtime surveillance of people and their activities[J].IEEE Trans on PatternAnalysis and Machine Intelligence,2000,22(8):809-830.

[8]NAYLOR M,ATTWOOD C I.Annotated digital video for intelligent surveillance and optimized retrieval:final report[R].[S.l.]:ADVISOR Conortium,2003.

[9]HID[EB/OL].http://www-static.cc.gatech.edu/gvu/perception//projects/hid.

[10]REASON[EB/OL].http://www.cvg.cs.reading.ac.uk/.

[11]WREN C R,AZARBAYEJANI A,DARRELL T, et-al . Pfinder:real time tracking of the human body[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1997,19(7):780-785.

[12]BLAUENSTEINER P,KAMPEL M.Visual surveillance of an airport’s apron:an overview of the AVITRACK project[EB/OL].http://www.prip.tuwien.ac.at/~kampel/ papers/blauoeagm04.pdf.

[13][EB/OL].http://nlpr-web.ia.ac.cn/.

[14][EB/OL].http://research.microsoft.com/asia/group/vc/.

[15][EB/OL].http://www.cis.pku.edu.cn/introduction.htm.

[16]SHEIKH Y,SHAH M.Bayesian modeling of dynamic scenes for object detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(11):1778-792.

[17]ELGAMMAL A,HARWOOD D,DAVIS L.Non arametric model for background subtraction[C]//Proc of the 6th European Conference on Computer Vision. Dublin,Ireland:[s.n.], 2000:751-67.

[18]左軍毅,潘泉,梁彥,等.基于模型切換的自適應背景建模方法[J].自動化學報,2007,33(5):467-473.

[19]JAVED O,SHAH M.Tracking and object classification for automated surveillance[C]//Proc of the 7th European Conference on Computer Vision.Copenhagen:[s.n.],2002.

[20]CHEN Yun-qiang,RUI Yong,HUANG T S.Multicue HMMUKF for realtime contour tracking[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(9):1525-529.

[21]YANG Tao,LI S Z,PAN Quan, et-al . Real time multiple objects tracking with occlusion handling in dynamic scenes[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.San Diego,CA:[s.n.],2005.

[22]WANG Yong zhong,LIANG Yan,ZHAO Chun hui, et-al. Adaptive multi cue kernel tracking[C]//Proc of IEEE International Conference on Multimedia Expo.2007:1814-1817.

[23]李培華.一種改進的Mean Shift跟蹤算法[J].自動化學報,2007,33(4):347-354.

[24]AGGARWAL J K,CAI Q.Human motion analysis: a review[C]//Proc of IEEE Nonrigid and Articulated Motion Workshop.Piscataway:IEEE Computer Society,1997:90-102.

[25]GAVRILA D M.The visual analysis of human movement: a survey[J].Computer Vision and Image Understanding,1999,73(1): 82-98.

[26]MOESLUND T B,GRANUM E.A survey of computer visionbased human motion capture[J].Computer Vision and Image Understanding,2001,81(3):231-268.

[27]HU Wei ming,TAN Tie niu,WANG Liang, et-al. A survey on visual surveillance of object motion and behaviors[J].IEEE Trans on Systems, Man, and CyberneticsPart C: Application and Reviews,2004,34(3):334-352.

[28]劉相濱,向堅持,王勝春.人行為識別與理解研究探討[J].計算機與現代化,2004(12):1-5,27.

[29]BUXTONH,GONG Shao gang.Advanced visual surveillance using Bayesian networks[C]//Proc of the 5th IEEE International Confe rence on Computer Vision.Massachusetts:[s.n.],1995.

[30]BREMOND F,THONNAT M,ZUNIGA M.Video understanding framework for automatic behavior recognition[J].Behavior Research Methods Journal,2006,38(3):416-426.

[31]AMER A,DUBOIS E,MITICHE A.A realtime system for high level video representation:application to video surveillance[C]//Proc of SPIE International Symposium on Electronic Imaging, Conference on Visual Communication and Image Processing.Santa Clara:[s.n.],2003:530-541.

[32]JIN Ning,MOKHTARIAN F.Human motion recognition based on statistical shape analysis[C]//Proc of IEEE Conference on Advanced Video and Signal Based Surveillance.2005.

[33]ELBASI E,ZUO Long,MEHROTRA K, et-al. Control charts approach for scenario recognition in video sequences[J].Turk J Elec Engin,2005,13:303-310.

[34]FUJIYOSHI H,LIPTON A J.Real time human motion analysis by image skeletonization[C]//Proc of the 4th IEEE Workshop on Applications of Computer Vision.1998:15-21.

[35]VEERARAGHAVAN A,ROYCHOWDHURY A K,CHELLAPPA R.Matching shape sequences in video with applications in human movement analysis[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(12):1896-1909.

[36]CHEN H S,CHEN H T,CHEN Yiwen,et al.Human action recognition using star skeleton[C]//Proc of the 4th ACM International Workshop on Video Surveillance and Sensor Networks.2006.

[37]WANG Liang,SUTER D.Learning and matching of dynamic shape manifolds for human action recognition[J].IEEE Trans on Image Processing,2007,16(6):1646-1661.

[38]JU S X,BLACKY M J,YACOOBZ Y.Cardboard people:a paramete rized model of articulated image motion[C]//Proc of International Conference on Automatic Face and Gesture Recognition.1996:38-44.

[39]MITTAL A,ZHAO Liang,DAVIS L S.Human body pose estimation using silhouette shape analysis[C]//Proc of IEEE Conference on Advanced Video and Signal Based Surveillance.2003:263-270.

[40]CORREAL P,CZYZ J,MARQUEST, et-al. Silhouette based probabilistic 2D human motion estimation for realtime applications[C]//Proc of International IEEE International Conference on Image Proce ssing.2005.

[41]POPPER,POEL M.Example based pose estimation in monocular images using compact Fourier descriptors,TRCTIT-05-49[R].Enschede:University of Twente, 2005.

[42]MORI G,MALIK J.Recovering 3D human body configurations using shape contexts[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(7):1052-1062.

[43]CEDRASC,SHAH M.Motion based recognition:a survey[J].Image and Vision Computing,1995,13(2):129-155.

[44]BLACK M J,YACOOB Y,JU S X.Recognizing human motion using parameterized models of optical flow[M]//Motion based recognition.[S.l.]:Kluwer Academic Publishers,1997:245-269.

[45]YANG M H,AHUJA N.Recognizing hand gesture using motion trajectories[C]//Proc of IEEE International Conference on Computer Vision and Image Understanding.1999.

[46]EFROS A,BERG A,MORIG, et-al . Recognizing actions at a distance[C]//Proc of IEEE International Conference on Computer Vision.Nice,France:[s.n.],2003.

[47]ZHU Guangyu,XU Changsheng.Action recognition in broadcast tennis video[C]//Proc of the 18th International Conference on Pattern Recognition.2006.

[48]JOHANSSONG.Visual perception of biological motion and a model for its analysis[J].Perception and Psychophysics,1973,14(2):201-211.

[49]NIU Feng,ABDELMOTTALEB M.View invariant human activity recognition based on shape and motion features[C]//Proc of the 6th IEEE International Symposium on Multimedia Software Engineering.2004.

[50]WANG Liang,NING Hua zhong,TAN Tie niu, et-al. Fusion of static and dynamic body biometrics for gait recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2004,14(2):149-158.

[51]FANTIC,ZWLNIKMANORL,PERONAP.Hybrid models for human motion recognition[C]//Proc of IEEE Conference Computer and Pattern Recognition.2005:1166-1173.

[52]BOBICKAF,DAVISJW.The recognition of human movement using temporal templates[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2001,23(3):257-267.

[53]MASOUDO,PAPANIKOLOPOULOS N.A method for human action recognition[J].Image and Vision Computing,2003,21:729-743.

[54]CAO Dongwei,MASOUDOT,BOLEY D.On line motion classification using support vector machines[C]//Proc of IEEE International Conference on Robotics and Automation.New Orleans:[s.n.],2004.

[55]LAPTEV I,LINDEBERG T.Local descriptors for spatio temporal recognition[C]//Proc of International Workshop on Spatial Coherence for Visual Motion Analysis.Prague:[s.n.],2004.

[56]DOLL’AR P,RABAUD V,COTTRELL G, et-al. Behavior recognition via sparse spatiotemporal features[C]//Proc of the 2nd Joint IEEE International Workshop on Visual Surveillance and Performance Eva luation of Tracking and Surveillance.2005.

[57]BLANKM,GORELICKL,SHECHTMANE, et-al. Actions as space time shapes[C]//Proc of IEEE International Conference on Computer Vision.Beijing:[s.n.],2005.

[58]GAVRILA D,DAVIS L.3D modelbased tracking of human upper body movement: a multiview approach[ C]//Proc of International Symposium on Computer Vision.1995:253-258.

[59]ISARDM,BLAKEA.Condensation-conditional density propagation for visual tracking[J].International Journal of Computer Vision,1998,29(1):5-28.

[60]DEUTSCHER J,BLAKE A,REID I.Articulated body motion capture by annealed particle filtering[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.1998.

[61]NIYOGI S,ADELSON E.Analyzing and recognizing walking figures in xyt[C]//Proc of Computer Vision and Pattern Recognition.1994:469-474.

[62]LONCARICS.A survey of shape analysis techniques[J].Pattern Recognition,1998,32(8):983-1001.

[63]DRYDENI L,MARDIA K V.Statistical shape analysis[M].[S.l.]:Wiley,1998.

[64]DRYEN I.Statistical shape analysis in high level vision[C]//Proc of IMA Workshop on Image Analysis and High Level Vision.2000.

[65]BELONGIE S,MALIK J,PUZICHA J.Shape matching and objects recognition using shape contexts[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2002,24(4):509-522.

[66]HU M K.Visual pattern recognition by moment invariants[J].IEEE Trans on Information Theory,1962,8(2):179-187.

[67]POPPE R,POEL M.Comparison of silhouette shape descriptors for example based human pose recovery[C]//Proc of the 7th IEEE International Conference on Automatic Face and Gesture Recognition.Southampton:[s.n.], 2006.

[68]VASWANI N,CHOWDHURY A R,CHELLAPPA R.Activity recognition using the dynamics of the configuration of interacting objects[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition .2003.

[69]LIU Che bin,AHUJA N.A model for dynamic shape and its applications[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2004.

[70]PARK S,TRIVEDI M M.A two stage multi view analysis framework for human activity and interactions[C]//Proc of IEEE Workshop on Motion and Video Computing.2007.

[71]TYAGI A,POTAMIANOS G,DAVIS J W, et-al. Fusion of multiple camera views for kernel based 3D tracking[C]//Proc of IEEE Workshop on Motion and Video Computing.2007.

[72]ZOUBA N,BREMOND F,THONNAT M, et-al. Multisensors analysis for everyday activity monitoring[C]//Proc of the 4th International Conference on Sciences of Electronic, Technologies of Information and Telecommunications.2007.

[73]BASHIRFI,KHOKHARA A, SCHONFELDD.Object trajectory based activity classification and recognition using hidden Markov models [J].IEEE Trans on Image Processing,2007,16(7):1912-1919.

[74]ROBERTSON N,REID I.A general method for human activity recognition in video[J].Computer Vision and Image Understanding,2006,104:232-248.

[75]YACOOB Y,BLACK M J.Parameterized modeling and recognition of activities[J].Computer Vision and Image Understanding,1999,73(2):232-247.

[76]CARLSSON S,SULLIVAN J.Action recognition by shape matching to key frames[C]//Proc ofWorkshop on Models Versus Exemplars in Computer Vision.2001.

[77]RABINER L,JUANG B.Fundamentals of speech recognition[M].[S.l.]:Prentice Hall,1993.

[78]MURPHY K P.An introduction to graphical models[R].2001.

[79]STENGEL M.Introduction to graphical Models,hidden Markov models and Bayesian networks[EB/OL].(2003-02-07).http:www.markusstengel.de/varions/uni/speech/tutorial.pdf.

[80]RABINER L R.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proc of the IEEE,1989,77(2):257-286.

[81]BREGLER C.Learning and recognizing human dynamics in video sequences[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Puerto Rico:[s.n.],1997:568-574.

[82]YAMATO J,OHYA J,ISHII K.Recognizing human action in timesequential images using hidden Markov model[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Champaign, Illinois:[s.n.],1992:379-385.

[83]TOREYIN B U,DEDEOGLU Y,CETIN A E.HMM based falling person detection using both audio and video[C]//Proc of IEEE International Workshop on HumanComputer Interaction.Beijing:[s.n.],2005.

[84]BRAND M,OLIVER N,PENTLAND A.Coupled hidden Markov models for complex action recognition[C]//Proc of IEEE Internatio nal Conference on Computer Vision and Pattern Recognition.1997:994-999.

[85]KRISTJANSSON T T,FREY B J,HUANGTS, et-al. Event coupled hidden Markov models[C]//Proc of IEEE International Conference on Multimedia and Expo.2000:385-388.

[86]OLIVER N,ROSARIO B,PENTLAND A.A Bayesian computer vision system for modeling human interactions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8):831-843.

[87]FINES,SINGERY,TISHBYN.The hierarchical hidden Markov model: analysis and applications[J].Machine Learning,1998,32(1):41-62.

[88]NGUYEN N T,PHUNG D Q,VENKATESH S, et-al. Learning and detecting activities from movement trajectories using the hierachical hi dden Markov model[C]//Proc of Computer Vision and Pattern Re cognition. San Diego:[s.n.],2005:955-960.

[89]KAWANAKA D,OKATANI T,DEGUCHI K, et-al. Hierarchical HMM based recognition of human activity[C]//Proc of MVA.2005.

[90]BUI H H,VENKATESH S,WESTGA, et-al. Tracking and surveillance in widearea spatial environments using the abstract hidden Markov model[J].International Journal of Pattern Recognition and Artificial Intelligence,2001,15(1):177-195.

[91]GALATA A,JOHNSON N,HOGG D.Learning variable length Markov models of behavior[J].Computer Vision and Image Understan ding,2001,81(3):398-413.

[92]SMINCHISESCUC,KANAUJIA A,LI Zhiguo, et-al. Conditional models for contextual human motion recognition[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005.

[93]BRAND M,KETTNAKER V.Discovery and segmentation of activities in video[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8):844-851.

[94]OLIVER N,HORVITZ E,GARG A.Layered representations for human activity recognition[C]//Proc of the 4th IEEE International Conference on Multimodal Interfaces.2002:3-8.

[95]ZHANG Dong,GATICAPEREZ D,BENGIOS, et-al. Modeling individual and group actions in meetings with layered HMMs[J].IEEE Trans on Multimedia,2006,8(3):509-520.

[96]MURPHYK.DynamicBayesiannet works:representation,inference and learning[D].Berkeley:University of California,2002.

[97]PARK S,AGGARWAL J K.Recognition of twoperson interactions using a hierarchical Bayesian network[C]//Proc of ACM SIGMM International Workshop on Video Surveillance.Berkeley:[s.n.],2003:65-76.

[98]DU You tian,CHEN Feng,XU Wenli, et-al. Interacting activity recognition using hierarchical durational state dynamic Bayesian network[C]//Proc of Pacific Rim Conference on Multimedia.2006:185-192.

[99]MOENNELOCCOZN,BREMONDF,THONNAT M.Recurrent Bayesian network for the recognition of human behaviours video[C]//Proc of ICVS. Graz:IEEE Computer Society Press,2003:68-77.

[100]GONG Shao gang,XIANG Tao.Recognition of group activities using dynamic probabilistic networks[C]//Proc of International Conference on Computer Vision.2003:742-749.

[101]LUO Ying,WU T D,HWANG J N.Object based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks[J].Computer Vision and Image Understanding,2003,92(2):196-216.

[102]MUNCASTER J,MA Yunqian.Activity recognition using dynamic Bayesian networks with automatic state selection[C]/Proc of IEEE Workshop on Motion and Video Computing.2007.

[103]BUCCOLIERI F,DISTANTE C,LEONE A.Human posture recognition using active contours and radial basis function neural network[C]//Proc of Conference on Advanced Video and Signal Based Surveillance.2005.

[104]HONG Pengyu,TURK M,HUANG T S.Gesture modeling and recognition using finite state machines[C]//Proc of IEEE Conference on Face and Gesture Recognition.2000.

[105]BADLER N.Temporal scene analysis:conceptual description of object movements,No.80[R].Toronto:University of Toronto,1975.

[106]INTILLE S,BOBICK A.Representation and visual recognition of complex, multiagent actions using belief networks,No.454[R].[S.l.]:MIT,1998.

[107]MORI T,SHIMOSAKA M,SATO T.SVMbased human action recognition and its remarkable motion features discovery algorithm[C]//Proc of International Symposium on Experimental Robotics.2003.

[108]LAPTEV S I,CAPUTO B.Recognizing human actions: a local SVM approach[C]//Proc ofInternational Conference on Pattern Recognition.2004.

[109]ZHU Guang yu,XU Chang sheng,GAO Wen, et-al. Action recognition in broadcast tennis video using optical flow and support vector machine[C]//Proc of ECCV.2006.

[110]CUTLER R,TURK M.Viewbased interpretation of real time optical flow for gesture recognition[C]//Proc of the 3rd International Confe rence on Face Gesture Recognition.1998.

[111]KOJIMA A,TAMURA T.Natural language description of human activities from video images based on concept hierarchy actions[J].International Journal of Computer Vision,2001,50:171184.

[112]HONGENGS,NEVATIA R.Multi agent event recognition[C]//Proc of International Conference on Computer Vision.2001:84-91.

[113]ROBERTSON N,REID I.Behavior understanding in video: a combined method[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005:808-815.

[114]PYNADATHD V,WELLMAN M P.Generalized queries on probabilistic context free grammars[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1998,20(1):65-77.

[115]IVANOV Y,BOBICK A.Recognition of visual activities and interactions by stochastic parsing[J].IEEE Trans on Pattern Recognition and Machine Intelligence,2000,2(8):852-872.

[116]RYOOM S,AGGARWAL J K.Recognition of composite human activities through contextfree grammar based representation[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2006. 

[117]PYNADATHDV,WELLMANMP.Probabilistic state dependent grammars for plan recognition[C]//Proc of the 16th Conference on Uncertainty in Artificial Intelligence.San Francisco, CA:[s.n.], 2000:507-514.

[118]PARKS,AGGARWAL J K.Event semantics in twoperson interactions[C]//Proc of International Conference on Pattern Recognition.Cambridge:[s.n.],2004.

[119]NGUYEN N T,BUI H H,VENKATESHS, et-al. Recognising and monitoring highlevel behaviours in complex spatial environments[C]//Proc of IEEE Computer Vision and Pattern Recognition Canference.2003.

[120]KAMBHAMETTUC,GOLDGOFDB,TERZOPOULOSD,et-al.Nonrigid motion analysis[M]//Handbook of PRIP:computer vision.Orlando:Academic Press,1994.

[121]FERRYMAN J,BORGM,THIRDED, et-al. Automated scene understanding for airport aprons[C]//Proc of the 18th Australian Joint Conference on Artificial Intelligence.Sidney:SpringerVerlag,2005.

[122]BIRD N D,MASOUD O,PAPANIKOLOPOULOSNP, et-al. Detection of loitering individuals in public transportation areas[J].IEEE Trans on Intelligent Transportation Systems,2005,6(2):167-177.

[123]LUSi jun,ZHANG Jian,FENGDD.Detecting unattended packages through human activity recognition and object association[J].Journal of the Pattern Recognition,2007,40(8):2173-2184. [124]OGALEA S,KARAPURKAR A,ALOMONOS Y.Viewinvariant modeling and recognition of human actions using grammars[C]//Proc of International Conference on Computer Vision.Beijing:[s.n.],2005.

[125]GATICAPEREZD,LATHOUDG,ODOBEZJM, et-al. Audio visual probabilistic tracking of multiple speakers in meetings[J]. IEEE Trans on Audio, Speech, and Language Processing,2007,15(2):601-616.

[126]CRISTANI M,BICEGOM,MURINOV.Audio visual event recognition in surveillance video sequences[J].IEEE Trans on Multime dia,2007,9(2):257-267.

[127]LI Hong,GREENSPAN M.Multi scale gesture recognition from time varying contours[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005:236-243.

[128]高全學,潘泉, 梁彥,等.基于描述特征的人臉識別研究[J].自動化學報,2006,32(3):386-392.

[129]CHANGK,BOWYERK,FLYNN P.An evaluation of multimodal 2D+3D face biometrics[J].IEEE Trans on Pattern Recognition and Machine Intelligence,2005,27(4):619-624.

主站蜘蛛池模板: 亚洲第一区在线| 九色视频线上播放| 欧美一级专区免费大片| 亚洲女同一区二区| 天天视频在线91频| 热思思久久免费视频| 亚洲精品成人7777在线观看| 99国产在线视频| 五月天丁香婷婷综合久久| 亚洲综合在线网| 亚洲欧洲美色一区二区三区| 日本AⅤ精品一区二区三区日| 国产九九精品视频| 欧美午夜视频在线| 久久情精品国产品免费| 69综合网| 色老头综合网| 国产成人午夜福利免费无码r| 亚洲人成电影在线播放| 免费AV在线播放观看18禁强制| 国产精品香蕉| 日本日韩欧美| 99久久成人国产精品免费| 国产又粗又猛又爽视频| 国产av色站网站| a级毛片免费播放| 日韩无码真实干出血视频| 国产一级毛片在线| 亚洲va视频| 亚洲国产黄色| 草草影院国产第一页| 国产精品成人观看视频国产 | 日本免费新一区视频| 亚洲AV永久无码精品古装片| 亚洲IV视频免费在线光看| 中文字幕无码av专区久久| 91精品亚洲| 国产中文一区二区苍井空| 免费毛片在线| 天堂在线视频精品| 亚洲永久色| 亚洲成综合人影院在院播放| 色综合日本| 亚洲无码视频一区二区三区| 国产精品自在线天天看片| 91极品美女高潮叫床在线观看| 亚洲天堂.com| 天堂网国产| av在线无码浏览| 欧美色亚洲| 米奇精品一区二区三区| 毛片大全免费观看| 久久国产精品77777| 久久国产亚洲欧美日韩精品| 好紧好深好大乳无码中文字幕| 亚洲人成网线在线播放va| 一级做a爰片久久免费| 精品视频免费在线| 欧美成人精品欧美一级乱黄| 亚洲成人高清无码| 无遮挡国产高潮视频免费观看| 激情国产精品一区| 色香蕉影院| 美女免费精品高清毛片在线视| 国产又粗又爽视频| 国产福利影院在线观看| 激情综合图区| 久久久久久尹人网香蕉| 不卡无码h在线观看| 日韩毛片在线播放| 99人妻碰碰碰久久久久禁片| 欧美成人午夜影院| 在线日本国产成人免费的| 国产91av在线| 91一级片| 亚洲三级a| 国产日本一线在线观看免费| 最近最新中文字幕在线第一页| 亚洲国产在一区二区三区| 亚洲美女视频一区| 69av免费视频| 国产成人精品一区二区免费看京|