史青宣 邸慧軍 陸耀 田學東
視頻人體姿態估計是指獲取給定視頻中人體各部位在每幀圖像中的位置及方向等信息的過程[1],是目前計算機視覺領域的研究熱點,在行為識別[2]、人機交互[3]、視頻理解[4?5]等領域均有廣泛的應用.
近些年,基于部件模型[6],針對單幀圖像的人體姿態估計展開了大量的研究并取得了卓有成效的進展[7?10],然而這些方法對人體四肢,尤其末端(手腕、肘、腳踝、膝蓋)部位的估計結果還很不理想,直接運用到視頻的人體姿態估計問題上并不能得到滿意的結果.針對視頻中的人體姿態估計,借助運動信息,在人體部件模型基礎上添加時序一致性約束,將會得到更準確的估計結果.現有基于部件的視頻人體姿態估計方法通常的做法是,為每幀圖像生成各個人體部件的狀態候選;然后,構建時空概率圖模型,推理視頻中每一時刻的人體姿態.根據實體在時域上的覆蓋度,目前這類方法采用的模型可以分為細粒度模型和粗粒度模型兩類.
第一類是細粒度模型.以人體部件(構成姿態序列的最小單位)為實體,在單幀人體空域部件模型(圖1(a))基礎上,添加部件的幀間時域聯系,形成一個時空部件模型(圖1(b)),實體在時域上只覆蓋單幀圖像,模型推理目的是為每幀圖像中的人體各部件挑選符合時空約束的最優狀態[11?16].由于人體姿態變化的多樣性,人的體型、穿著、視角等變化,部件模型很難捕捉到所有的表觀變化,而時域上只引入了相鄰幀間的一致性約束,沒有長時一致性的約束,易出現部件狀態估計的誤差累積.另外由于模型存在環路,無法獲取精確解,近似推理也在一定程度上進一步降低估計的精度.

圖1 現有視頻人體姿態估計方法采用的模型Fig.1 The models used in video pose estimation
第二類是粗粒度模型.以人體部件的軌跡為實體,時空部件模型在時域上的依賴關系不復存在,實體在時域上覆蓋整個視頻,模型塌陷成為與單幀人體姿態估計相同的模型(圖1(c)),模型中結點表示部件的軌跡,邊表示部件軌跡間的約束關系,此時模型推理的目的是為每個人體部件挑選一個最優的軌跡來組裝成最終的姿態序列[17?18].粗粒度模型在時域上可以添加長時一致性的約束,避免了誤差累積的情況,而且模型簡化,推理簡單.然而,為人體部件生成合理優質的軌跡本身屬于跟蹤問題,對于人體四肢部位,尤其末端部位(比如腕部、踝部),極易出現表觀的劇烈變化、遮擋、快速運動等情況,而這些都是跟蹤的典型難題.
本文綜合粗、細粒度模型的優點,從中粒度出發,以人體部件的軌跡片段為實體,構建時空模型,推理為每一人體部件選擇最優的軌跡片段,通過拼接各部件的軌跡片段形成最終的人體姿態序列估計.模型中實體覆蓋若干幀,方便添加長時的一致性約束,降低對部件模型的敏感度.為解決對稱部件易混淆的問題,模型中添加對稱部件間約束(如圖2(a)),并從概念上將對稱部件合并為一個結點(如圖2(b)),通過該處理消除空域模型中的環路,同時保留對稱部件間約束,最終模型如圖2(c)所示.
環路的存在使得時空概率圖模型的確切解不可得,通常只能通過近似推理,如循環置信度傳播[11,19]、采樣[20]變分[12]等手段來獲取近似解.另外一類思路對原始環狀圖模型進行拆解,用一組樹狀子圖來近似原始圖模型[13?14,21].還有部分研究者采用分步優化的策略[15?16],首先不考慮空間約束,對檢測最為穩定的部件(如頭部)進行序列估計,再基于該序列估計,對其鄰接部件進行優化,該過程一直到所有部件處理完成.本文將整個時空模型(圖4(a))拆解為一組馬爾科夫隨機場(圖4(b))和隱馬爾科夫模型(圖4(c)),分別負責空域和時域的解析,通過迭代的時域和空域交替解析,完成時空模型的近似推理.

圖2 中粒度時空模型Fig.2 The medium granularity model
除推理算法外,部件候選集的質量直接影響最終姿態估計的結果.直接將單幀圖像的前K個最優姿態檢測作為候選[22?23],很難保證能夠覆蓋真實的姿態.為了生成更多可靠的姿態候選,常用的一個策略是引入局部運動信息對姿態檢測結果進行傳播[15?16,24?26].借助準確的運動信息,對優質的姿態檢測結果進行傳播,可以為相鄰幀生成合理的姿態候選.然而當視頻中存在快速運動或連續出現非常規人體姿態時,這種策略將會失效.1)快速運動易導致運動估計出現誤差.圖3給出了一個快速運動的例子,可以看出傳統的運動估計算法(LDOF[27]、FarneBackOF[28])無法成功捕捉腳的快速運動.這使得即使在t幀有準確的檢測,也無法通過傳播為t+1幀生成合理的候選.2)當非常規姿態連續出現時,姿態檢測器會在相鄰的多幀圖像中連續失敗,沒有好的姿態檢測結果,即使有準確的幀間運動信息,也無法通過傳播為這些幀生成好的候選.這時可借助長時運動信息將優質的檢測結果傳播到更遠范圍[29].然而,從圖4給出的例子可以看出,傳統的運動估計幾乎無法避免誤差累計與漂移.針對以上問題,本文引入全局運動信息[30?31]對姿態檢測結果進行傳播.全局運動信息可以給出前景長時一致的對應關系,較好地解決了快速運動造成的障礙,將優質的姿態檢測結果穩定地傳播,為更多的幀提供有效候選.

圖3 不同方法的短時運動估計對比Fig.3 Short-term performances of different motion estimation approaches

圖4 不同方法的長時運動估計對比Fig.4 Long-term performances of different motion estimation approaches
本文的主要貢獻可以歸納如下:1)引入全局運動信息進行姿態檢測的傳播,克服局部運動信息的弊端,為后期推理提供更合理、優質的狀態候選.2)構建中粒度模型,有效避免細粒度模型對部件模型敏感的缺點,同時便于添加長時的一致性約束.
給定含有N幀的視頻,本文通過三個主要步驟得到最終的姿態估計結果(圖5).首先,用姿態檢測器對每幀圖像進行姿態檢測;然后,借助全局運動信息,將每幀中的最優檢測結果傳播到整個視頻,從而為每個人體部件生成N條軌跡,隨即這些軌跡被切割成重疊的固定長度的軌跡片段,構成每個部件的軌跡片段候選集;最后,通過求解中粒度時空概率圖模型的優化問題,獲得符合時空一致性約束的最優軌跡片段,拼接融合各部件的最優軌跡片段形成最終的姿態估計序列.
第1.1節簡要介紹單幀圖像中進行姿態檢測的混合部件模型[7],第1.2節描述軌跡片段候選的生成過程,第1.3節定義中粒度時空概率圖模型.

圖5 基于中粒度模型的視頻人體姿態估計方法示意圖Fig.5 Overview of the video pose estimation method based on medium granularity model
用于單幀圖像的人體姿態檢測器將人體建模成一個包含M個結點的樹狀圖模型G=(V,E),如圖1(a)所示,其中結點對應人體的M個部件,邊表示部件間的空間約束關系.人體的姿態可表示為所有部件的狀態集合:X={x1,x2,···,xM},其中部件i的狀態xi由圖像中的坐標位置構成.給定圖像I,對某一特定人體部件狀態配置X可用式(1)進行評分:

這里φ(xi,I)為部件的觀測項,用于計算部件i取狀態xi時的圖像區域特征與部件模板的匹配程度;ψ(xi,xj)評估兩個相連人體部件i與j間的幾何連接狀況與人體模型對應結點間幾何約束的匹配程度.所有部件的模板和部件間的幾何約束模型均利用結構化SVM進行聯合訓練得到.
姿態檢測問題則形式化為最大化S(I,X)問題.本文采用文獻[7]的算法進行單幀圖像的姿態檢測,并采用文中方法對部件以及相連部件間空間約束進行建模,為描述簡潔,公式中省略了部件類型相關的描述,具體細節可參考文獻[7].
本文采用分層彈性運動跟蹤方法[31]對視頻中的人體進行彈性運動跟蹤[30],獲取全局運動信息,并基于此信息,對每幀獲得的人體姿態檢測結果進行傳播.全局運動信息給出的是目標在視頻各幀的一個全局對應關系,給定某幀圖像中一個點,通過該對應關系可以獲取該點在其他幀的對應位置.因此,將第t幀的姿態檢測結果X={x1,x2,···,xM}作為參考點集,通過全局運動信息,可獲取該點集在視頻各幀中的對應位置,由此得到各部件的一條軌跡.對所有N幀中的姿態檢測結果實施該傳播操作,為各部件生成N條軌跡候選.
在假設全局運動信息可信的前提下,t幀的姿態檢測結果中xi越準確,傳播xi所生成的軌跡質量越高,越是鄰近xi的軌跡片段越可靠.拼接各部件的優質軌跡片段,將得到高精確度的姿態估計結果.基于此直觀想法,本文將所有軌跡切割成重疊的固定長度的軌跡片段,構成各部件的軌跡片段候選,構建以部件軌跡片段為實體的中粒度時空模型,推理挑選出符合時空約束的最優軌跡片段.
本文將視頻的姿態估計問題建模成一個如圖6(a)所示的時空概率圖模型,其中結點對應人體部件軌跡片段,邊表示軌跡片段間的空間幾何約束以及時間上相鄰片段的一致性約束,目的是為每個人體部件挑選出最優的軌跡片段.該問題可形式化為圖模型的優化問題,由于該圖模型存在環,受文獻[14]啟發,本文將時空模型分解為兩個樹狀結構子圖模型:馬爾科夫隨機場與隱馬爾科夫模型,分別負責空域解析(如圖6(b))和時域解析(如圖6(c)).為保留對稱部件間的約束關系,同時剔除空域模型中的環路,對稱部件已合并,即原始的14個關節點的人體模型簡化為8結點模型,為描述清晰,我們用單部件和組合部件對部件進行區分,其中單部件指頭和頸兩部件,組合部件指合并的對稱部件即肩、肘、腕、胯、膝以及踝等6個部件.

圖6 時空模型分解為空域子模型和時域子模型Fig.6 Sub-models of the full graphical model
子圖模型馬爾科夫隨機場(圖6(b))用于在每個視頻分段內進行空域解析,我們用G=(VT,ET)來表示.表示在第t個視頻分段Vt中的M個人體部件的軌跡片段配置,其中Tt∈T,T是各部件軌跡片段候選的任意組合.對特定軌跡片段配置Tt的評分可由下式完成:

其中,一元項計算部件軌跡片段與視頻片段Vt的兼容性,以及在片段內時域上部件表觀的一致性.當部件為組合部件時,在該一元項中還將添加對稱部件間的評測.二元項評估兩部件軌跡片段間的空域兼容性.
為了能使公式描述更清晰,用Q替換Vt,當部件i為單部件,用Si替換當部件i為組合部件,用Ci替換表示長度為F幀的視頻片段Q中第f幀圖像,表示部件i的軌跡片段在第f幀的狀態.
對單部件,一元項定義為

其中,綜合部件i的表觀評分(式(1)中部件表觀評分項)與前景覆蓋度為權重因子,φg(Si)計算片段內部件i的表觀時序一致性,用部件表觀特征的方差與片段內最大位移的比值來衡量,定義為

其中,為部件i在圖像qf中取狀態時,所在的局部圖像塊歸一化后的顏色直方圖.
對組合部件,一元項定義為

其中,前兩項分別為左右部件軌跡片段的表觀評分,Φs(·)定義同式(3),Ci.l與Ci.r分別表示組合部件i的左右兩個部分;第3項度量對稱部件間的表觀一致性,為對稱部件間顏色直方圖的Chi-square距離;第4項度量對稱部件間距離,定義λ2與λ3為權重因子.評估原則為:軌跡片段的表觀與部件模型越兼容,對稱部件間顏色越一致、距離越遠,得分越高.
二元項評估兩部件軌跡片段間的空域兼容性.當鄰接的兩結點均為單部件時,二元項定義為

當鄰接的兩結點分別對應單部件與組合部件時,二元項定義為

當鄰接的兩結點均為組合部件時,二元項定義為

其中,ψp(·)評估兩鄰接部件的空域兼容性,定義同式(1)中的二元項.
隱馬爾科夫模型負責在候選集中挑選出符合時域一致性約束的軌跡片段.我們將整個視頻分割為重疊的N個片段,用表示.任一部件i在整個視頻上的軌跡片段配置用表示,并建模成為一個馬爾科夫鏈.時域上的軌跡片段配置Ti的評分函數可以定義為

其中,一元項評估軌跡片段的表觀評分以及與i結點的雙親結點pa(i)的空域兼容性,具體定義為

其中,定義同式 (2).二元項評估兩鄰接軌跡片段的時序一致性,本文利用軌跡片段重疊部分的距離來計算,假設兩鄰接軌跡片段分別為A和B,重疊m幀,則我們用計算A與B之間的距離.對單部件結點,二元項定義為

對組合部件結點,二元項定義為

其中,λ4與λ5為權重因子.
給定所有人體部件在每一視頻片段的軌跡片段候選,模型推理的目標是挑選符合時空約束的最優軌跡片段,即獲取軌跡片段的最優配置.我們通過迭代的時空解析來實現.通過空域子模型上的解析,計算出所有軌跡片段的得分,篩選高分軌跡片段候選,構成時域解析的輸入狀態空間.依據時域解析結果再次對候選進行篩選,作為空域解析的輸入進入下一次迭代.迭代解析過程從空域開始,原始輸入狀態空間由切割軌跡獲取的軌跡片段構成.隨著交替解析的進行,逐步縮減狀態候選數量,一直到最后挑選出最優結果.最終的姿態序列由最優軌跡片段拼接融合得到.
在空域解析階段,在第t個視頻片段,為部件i選擇軌跡片段候選a的評分定義為

由于空域子模型是樹狀結構,所有部件軌跡片段候選的評分可以通過消息傳遞算法求得.從部件i到其鄰接部件j的消息定義為

由此,部件i的軌跡片段的評分可依據以下定義計算:

消息從葉子傳遞到根,再由根傳遞回葉子,一個循環即可求得所有軌跡片段的評分.
在時域解析階段,由于子模型為鏈狀結構,所有軌跡片段的評分同樣可通過消息在馬爾科夫鏈上的一個循環傳遞完成.時域模型上從t片段向t+1片段傳遞的消息定義為


時序反向傳遞的消息定義類似,由此,部件i的軌跡片段的評分可定義如下:

其中,(式(10))涉及結點i與其雙親結點間的空域兼容性評估,我們采用分步處理的策略來進行各部件的時域解析.從空域模型的根結點(頭部)開始時域解析過程,由于頭部是檢測最為穩定的部件,首先,對其進行獨立的時域解析;然后,基于頭部的解析結果,計算其子結點的空域兼容項得分并對其進行時域解析,這個過程按空域模型結構一直到所有葉子結點推理完成.
迭代時空解析的算法如算法1所示.


本文在三個視頻數據集上進行了實驗.
UnusualPose視頻數據集[12]:該視頻集包含4段視頻,存在大量的非常規人體姿態以及快速運動.
FYDP視頻數據集[29]:由20個舞蹈視頻構成,除個別視頻外,大部分運動比較平滑.
Sub_Nbest視頻數據集[22]:為方便與其他方法對比,本文按照對比算法中的挑選方法,只選用了文獻[22]中給出的Walkstraight和Baseball兩個視頻.
本文采用目前常用的兩個評價機制對實驗結果進行分析.
PCK (Percentage of correct keypoints)[7]:PCK給出正確估計關鍵點(關節點部件的坐標位置)的百分比,這里的關鍵點,通常指的是人體的關節點(如頭、頸、肩、肘、腕、胯、膝、踝,當一個關鍵點的估計位置落在真值α·max(h,w)像素范圍內時,其估計被認為是準確的,這里的h,w分別是人體目標邊界框的高和寬,α用于控制正確性判斷的閾值.邊界框由人體關節點真值的最緊外包矩形框界定,根據姿態估計對象為整個人體或上半身人體,α值設為0.1或0.2.
PCP(Percentage of correct limb parts)[11]:PCP是目前應用非常廣泛的姿態估計的評價機制,它計算的是人體部件的正確評估百分比,與關節點不同,這里的人體部件是指兩相鄰關節點連接所對應的人體部位(比如上臂、前臂、大腿、小腿、軀干、頭部).當一個人體部件兩端對應的關節點均落在端點連線長度的50%范圍內時,該部件的估計被認為是正確的.
實驗中,視頻分段的長度為7幀,鄰接片段重疊3幀,模型推理通過一次迭代完成.通過表觀評分挑選前20個軌跡片段構成最初輸入空域解析的狀態空間,經空域推理為每個部件挑選最優的3個假設構成時域解析的輸入,并通過時域推理得到最優的估計,最終的姿態序列由軌跡片段的拼接融合得到.
本文提出的人體姿態估計方法,主要包括三個關鍵處理策略:1)采用全局運動信息對姿態檢測結果進行傳播;2)構建中粒度模型,以部件軌跡片段為推理實體;3)對稱部件合并,以簡化空域模型結構同時保留對稱部件間約束.為驗證這三個關鍵處理策略的有效性,本文設置了4組對比實驗,每組實驗改變其中一個處理策略,實驗的設置如下.
實驗1.用局部運動信息對姿態檢測結果進行長時傳播,構建中粒度模型,模型中添加對稱部件間約束.
實驗2.用全局運動信息對姿態檢測結果進行長時傳播,構建小粒度模型,推理每幀中每一部件的狀態,模型中添加對稱部件間約束.
實驗3.用全局運動信息對姿態檢測結果進行長時傳播,構建大粒度模型,推理每一部件的軌跡狀態,模型中添加對稱部件間約束.
實驗4.用全局運動信息對姿態檢測結果進行長時傳播,構建中粒度模型,模型中只保留連接部件間空間約束關系,不添加對稱部件間約束.
所有算法在UnusualPose視頻數據集上進行了對比,結果如圖7所示,其中“局部運動信息”、“細粒度模型”、“粗粒度模型”和“無對稱”分別對應實驗1~4.可以看出,對本文方法的三個關鍵處理策略的替換,都導致了估計精度不同程度的下降.綜合來看,本文方法的三個處理策略有效提高了視頻中姿態估計的準確率.

圖7 算法關鍵策略有效性測試結果Fig.7 Examination of key modules
本文與 Nbest[22]、UVA[29]、SYM[15]、HPEV[18]以及PE_GM[12]共5個視頻人體姿態估計方法進行了實驗對比.由于SYM與HPEV方法的代碼無法獲取,在UnusualPose視頻數據集上,本文只對比了Nbest、UVA 和PE_GM三種方法.在FYDP視頻集和Sub_Nbest視頻集上,我們直接引用文獻中提供的數據結果進行對比.
人體四肢在表達姿態中起著至關重要的作用,也是在評估姿態估計算法性能時最為關注的地方.由表1可以看出,在UnusualPose視頻集上,對比其他視頻姿態估計方法,本文方法在四肢關節點上的PCK精度最高,體現了本文方法在應對非常規人體姿態和快速運動等難題時的優勢.從表2可以看出,在FYDP數據集上,本文方法得到了最高的平均PCK得分.表3顯示本文方法在Sub_Nbest視頻集上的PCP值與PE_GM方法綜合性能相當,均優于其他視頻姿態估計方法,需要注意的是PE_GM方法采用與本文相同的全局運動信息對檢測結果進行傳播,候選質量與本文相同,進一步證明采用全局運動信息對姿態檢測結果進行傳播的有效性.不同在于PE_GM方法采用細粒度模型,通過選取姿態檢測結果最優的關鍵幀啟動其推理過程,其最終的檢測結果高度依賴其選取的啟動幀,而本文方法無需選取啟動幀,不受初始選取的限制.綜合來看,本文提出的算法具有一定的優越性.

表1 UnusualPose視頻集上的PCK評分對比Table 1 PCK on UnusualPose dataset

表2 FYDP視頻集上的PCK評分對比Table 2 PCK on FYDP dataset

表3 Sub_Nbest視頻集上的PCP評分對比Table 3 PCP on Sub_Nbest dataset
除了以上定量實驗結果外,我們還在圖8中展示了不同方法在UnusualPose視頻集上的姿態估計結果.我們為每段視頻選取一幀,并用骨架結構展示姿態估計的結果,相比較可以看出,本文給出的姿態估計結果更符合真實的人體姿態.圖9與圖10分別展示了本文方法在FYDP視頻集和Sub_Nbest視頻集上的部分姿態估計結果.

圖8 UnusualPose數據集上的實驗結果對比Fig.8 Qualitative comparison on UnusualPose dataset

圖9 FYDP數據集上的實驗結果Fig.9 Sample results on FYDP dataset
本文提出了一種用于視頻人體姿態估計的中粒度模型,該模型以人體部件的軌跡片斷為實體構建時空模型,采用迭代的時域和空域解析進行模型推理,目標是為各人體部件挑選最優的軌跡片斷,以拼接組成最后的人體姿態序列.為生成高質量的軌跡片段候選,本文借助全局運動信息對姿態檢測結果進行時域傳播,克服了局部運動信息的不足.為解決對稱部件易混淆的問題,模型中添加對稱部件間約束,提高了對稱部件的檢測準確率.算法有效性分析實驗表明本文中采用中粒度模型,通過全局運動信息進行姿態的傳播以及在對稱部件間添加約束等三個策略均對姿態估計的準確率提高有不同程度的貢獻.與其他主流視頻姿態估計方法在三個數據集上的對比實驗結果顯示了本文方法的優勢.

圖10 Sub_Nbest數據集上的實驗結果Fig.10 Sample results on Sub_Nbest dataset
References
1 Li Yi,Sun Zheng-Xing,Chen Song-Le,Li Qian.3D Human pose analysis from monocular video by simulated annealed particle swarm optimization.Acta Automatica Sinica,2012,38(5):732?741(李毅,孫正興,陳松樂,李騫.基于退火粒子群優化的單目視頻人體姿態分析方法.自動化學報,2012,38(5):732?741)
2 Zhu Yu,Zhao Jiang-Kun,Wang Yi-Ning,Zheng Bing-Bing.A review of human action recognition based on deep learning.Acta Automatica Sinica,2016,42(6):848?857(朱煜,趙江坤,王逸寧,鄭兵兵.基于深度學習的人體行為識別算法綜述.自動化學報,2016,42(6):848?857)
3 Shotton J,Girshick R,Fitzgibbon A,Sharp T,Cook M,Finocchio M,Moore R,Kohli P,Criminisi A,Kipman A,Blake A.Efficient human pose estimation from single depth images.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2821?2840
4 Cristani M,Raghavendra R,del Bue A,Murino V.Human behavior analysis in video surveillance:a social signal processing perspective.Neurocomputing,2013,100:86?97
5 Wang L M,Qiao Y,Tang X O.Video action detection with relational dynamic-poselets.In:Proceedings of the European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.565?580
6 Felzenszwalb P F,Huttenlocher D P.Pictorial structures for object recognition.International Journal of Computer Vision,2005,61(1):55?79
7 Yang Y,Ramanan D.Articulated human detection with flexible mixtures of parts.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2878?2890
8 Sapp B,Jordan C,Taskar B.Adaptive pose priors for pictorial structures.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.422?429
9 Andriluka M,Roth S,Schiele B.Pictorial structures revisited:people detection and articulated pose estimation.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA:IEEE,2009.1014?1021
10 Eichner M,Marin-Jimenez M,Zisserman A,Ferrari V.2D articulated human pose estimation and retrieval in(almost)unconstrained still images.International Journal of Computer Vision,2012,99(2):190?214
11 Ferrari V,Marin-Jimenez M,Zisserman A.Progressive search space reduction for human pose estimation.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK,USA:IEEE,2008.1?8
12 Shi Q X,Di H J,Lu Y,Lü F.Human pose estimation with global motion cues.In:Proceedings of the 2015 IEEE International Conference on Image Processing.Quebec,Canada:IEEE,2015.442?446
13 Sapp B,Toshev A,Taskar B.Cascaded models for articulated pose estimation.In:Proceedings of the Eeuropean Conference on Computer Vision.Heraklion,Greece:Springer,2010.406?420
14 Zhao L,Gao X B,Tao D C,Li X L.Tracking human pose using max-margin Markov models.IEEE Transactions on Image Processing,2015,24(12):5274?5287
15 Ramakrishna V,Kanade T,Sheikh Y.Tracking human pose by tracking symmetric parts.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.3728?3735
16 Cherian A,Mairal J,Alahari K,Schmid C.Mixing bodypart sequences for human pose estimation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.2361?2368
17 Tokola R,Choi W,Savarese S.Breaking the chain:liberation from the temporal Markov assumption for tracking human poses.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.2424?2431
18 Zhang D,Shah M.Human pose estimation in videos.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.2012?2020
19 Sigal L,Bhatia S,Roth S,Black M J,Isard M.Tracking loose-limbed people.In:Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition.Washington,D.C.,USA:IEEE,2004.421?428
20 Sminchisescu C,Triggs B.Estimating articulated human motion with covariance scaled sampling.The International Journal of Robotics Research,2003,22(6):371?391
21 Weiss D,Sapp B,Taskar B.Sidestepping intractable inference with structured ensemble cascades.In:Proceedings of the 23rd International Conference on Neural Information Processing Systems.Vancouver,Canada:MIT Press,2010.2415?2423
22 Park D,Ramanan D.N-best maximal decoders for part models.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona,Spain:IEEE,2011.2627?2634
23 Wang C Y,Wang Y Z,Yuille A L.An approach to posebased action recognition.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.915?922
24 ZuffiS,Romero J,Schmid C,Black M J.Estimating human pose with flowing puppets.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.3312?3319
25 Sapp B,Weiss D,Taskar B.Parsing human motion with stretchable models.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,CO,USA:IEEE,2011.1281?1288
26 Fragkiadaki K,Hu H,Shi J B.Pose from flow and flow from pose.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.2059?2066
27 Brox T,Malik J.Large displacement optical flow:descriptor matching in variational motion estimation.IEEE Transactions on Pattern Recognition and Machine Intelligence,2011,33(3):500?513
28 Wang H,Klaser A,Schmid C,Liu C L.Action recognition by dense trajectories.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Washington,D.C.,USA:IEEE,2011.3169?3176
29 Shen H Q,Yu S I,Yang Y,Meng D Y,Hauptmann A.Unsupervised video adaptation for parsing human motion.In:Proceedings of the European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.347?360
30 Di H J,Tao L M,Xu G Y.A mixture of transformed hidden Markov models for elastic motion estimation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(10):1817?1830
31 LFeng,Di Hui-Jun,Lu Yao,Xu Guang-You.Non-rigid tracking method based on layered elastic motion analysis.Acta Automatica Sinica,2015,41(2):295?303(呂峰,邸慧軍,陸耀,徐光祐.基于分層彈性運動分析的非剛體跟蹤方法.自動化學報,2015,41(2):295?303)