潘 霽 石繁槐
?
基于RGB-D傳感器的人體姿態估計
潘霽石繁槐
本文提出了一種基于改進的樹形圖結構模型的人體姿態估計方法,利用RGB-D傳感器,將采集到的深度信息加入到人體姿態估計中。通過使用彩色和深度圖像特征對人體區域進行檢測和預分割,在此基礎上提出人體深度觀測模型用來改進人體表觀模型轉換機制。最后根據優化的圖結構模型估計人體姿態。由真實圖像實驗結果表明,本文方法可以在節約時間成本的同時提高人體姿態估計的準確率。
伴隨人機交互和視頻監控的發展,人體姿態估計逐漸成為計算機視覺領域的一項研究熱點。在人體姿態估計領域,現有的研究方法大致可分為基于訓練學習和基于部件模型的方法,基于訓練學習的方法是以全局人體為導向進行建模或分割,其中,Sapp用一個具有代表性的樣例集合來表示姿態空間,進行姿態估計時尋找與圖像特征最為匹配的樣例去表示姿態估計結果,由于人體姿態變化復雜,該方法在尋找匹配樣例的部分算法耗時比較多。基于部件模型的方法則是將人體分為若干相互關聯的部件,利用關聯部件模型表示整個人體。Gaurav Sharma針對靜態圖像提EPM模型,Eunji Cho在FMM模型的基礎上提出聚合多種姿態理論,兩種模型針對靜態圖像有很好的準確度,但在對于視頻場景中的應用卻有局限。Ferrari提出了基于圖結構模型的人體姿態估計方法,提高了人體姿態估計的準確率,但計算人體表觀模型仍然用時較多。此外,還有學者從粒子的角度將姿態估計問題從二維空間聚合到三維空間,進而實現三維人體姿態重建。
本文在Ferrari的基礎上做出改進,研究人體上半身姿態估計,提出了一種基于彩色和深度信息的人體姿態估計方法。首先根據彩色和深度圖像的相關特征,對人體區域進行檢測和預分割;其次,提出人體深度觀測模型來改善人體的表觀模型;最后,優化圖結構模型并估計出人體姿態。真實圖像實驗結果表明本文所提方法可以實現魯棒且可靠的人體姿態估計。
為了減少后期人體搜索成本,首先對前景進行預分割。本文通過加入深度圖像特征,使得在分割人體區域的同時得到不同部件間的空間結構約束。首先利用AdaBoost算法和HOG特征訓練人臉和手部檢測器,將檢測到的人臉和手部區域用矩形框標記在對應的深度和彩色圖像中,構成圖像的ROI (Region of Interesting)。此時深度圖像記為D , F則表示候選人臉和手部序列對。最后本文提出最優區域搜索算法,通過結合人體分布特征以及深度信息確定人體的最佳區域,并最終提取出人的上半身輪廓。最優區域搜索算法的具體步驟如算法1所示
算法1:最優區域搜索算法

屬于同一主體的臉和手在圖像的位置分布上具有一定的相關性,利用相關性特征可以排除一些非同一主體的ROI。本文提出相關性函數用來判定人臉和手的相關性,記為,表達式如下:

其中分別表示像素在深度圖像中的位置和深度值。根據式(1)選出符合條件的人臉手部序列對,我們定義最優ROI能量函數Score來確定最佳的人臉和手部ROI,其中Score可由下式計算獲得:


通過計算人體深度距離范圍和最優的ROI區域可以分割出上半身人體區域。為了確保搜索的準確性,本文對人體區域做相應比例擴大并歸一化到標準尺寸,記為W。最后,本文利用GrabCut分割算法對區域W作前景提取,進一步去除部分背景干擾。圖1為一個人體上半身分割的過程示例。

圖1 人體上半身區域分割過程示例
基于圖結構模型的人體姿態估計
本文將人體上半身劃分為6個部件:頭,軀干,左上臂、右上臂、左下臂、右下臂。使用無向圖來表示上半身結構,不同的節點即代表不同的身體部件。每個節點用矩形框表示,記為其中表示部件的位置,d表示部件的深度值,θ表示矩形方向。對于某一幅圖像I,人體的姿態可以定義為。經過上一步的預處理,我們分割了人體區域,同時也獲得頭部和下臂的空間分布約束關系。本文將頭與下臂的約束加入到圖結構模型中,重新定義文獻中的人體姿態后驗概率項:

人體表觀模型
與相同,人體表觀模型是根據初始表觀模型和表觀模型轉換機制估計得到。初始表觀模型則是經先驗分割計算獲取,之后再由表觀模型轉換機制來修正初始表觀模型,最后獲得不同部件i的表觀模型和背景模型,分別記為。根據貝葉斯公式 (5)計算出不同像素點屬于部件i的概率,用來計算式(4)中的:

改進的人體表觀模型轉換機制
為了得到更加精確的人體表觀模型,本文在文獻的基礎上加入人體深度觀測模型。人體深度觀測模型是根據檢測到主體區域以及其所在的深度范圍所確定的,用DM表示。使用深度直方圖模型,將深度范圍分為256份,定義每份深度為d。在計算觀測模型之前,需要將主體區域的深度值根據深度范圍進行歸一化處理。改進后的人體各部件的表觀模型可以表達為:


實驗數據
實驗使用兩個不同的數據集來評估本文的算法:DGait database和本文作者實驗室數據集,下文記為A和B數據集,其中分別在DGait database取20組人物(1000張)圖像對,實驗室數據集取9組人物(450張)圖像對(圖像對是指對應的彩色和深度圖),兩個數據集都是通過kinect設備采集。本文采用PCP (Percentage of Correctly estimated body Parts)評估準則,分別測算不同部件被正確估計的百分比。根據PCP準則定義,如果部件估計所得位置與其真實標記區域重合度高于50%,即認為該部件被正確估計。本文硬件環境為Intel Core i5 CPU, 4GB內存。
實驗結果與分析
本文根據不同的數據集和不同方法做了對比實驗,如圖2所示, (a)是應用Ferrari方法的結果示例,(b)是應用Wang方法的結果示例, (c)是應用本文方法的結果示例。通過觀察發現,因為光線或者手臂活動等原因,前景很容易受到背景干擾,本文在增加了深度信息后,彌補了Ferrari 和Wang 方法的不足,得到了更加準確的人體姿態估計結果。表1列出了不同方法在六個部件上的定量PCP值和算法耗時,可以看出,本文的方法在六個部位上都取得了最高的PCP值,平均耗時也是最少的。說明通過加入深度信息,可以有效提高人體姿態估計的準確率,并且減少后期人體搜索的成本。此外,本文在生成人體表觀模型時,直接使用深度觀測模型生成最終的表觀模型,得到如圖3的實驗結果,從實驗結果可以看出,僅僅利用深度特征是不能提供足夠的區別性的信息,證明了彩色圖像特征在人體姿態估計中的重要性。

圖2 不同數據集中部分樣本的人體姿態估計結果

表1 人體姿態估計在不同數據集的PCP Value
基于RGB-D傳感器,本文提出了一種基于改進的圖結構模型的人體姿態估計方法,通過對人體上半身的預分割以及加入深度觀測模型,得到更加魯棒的人體姿態估計結果。實驗結果表明,與Ferrari等人提出的算法相比,本文的方法可以得到較高的姿態估計準確率,并且減少了時間成本。因為本文的方法很大程度的依賴人臉和手部的正確檢測,所以在未來的研究中,我們將優化算法,加入更多的人體信息特征。

潘 霽 石繁槐
同濟大學電子與信息工程學院
潘霽(1993-)女,碩士研究生,主要研究領域為計算機視覺與模式識別;石繁槐(1974-)男,博士,副教授,主要研究領域為計算機視覺與模式識別。
10.3969/j.issn.1001-8972.2016.01.015