摘要:提出了一種彩色視頻序列圖像中的人臉檢測與跟蹤方法。該方法將人臉檢測與人臉跟蹤有效地結合在一起,采用Condensation濾波跟蹤算法對區域進行跟蹤,在跟蹤過程中提出引入基于支持向量機的人臉置信度,樣本的置信度隨時間進行更新,人臉檢測的結果基于置信度的后驗概率。同時,該方法對Condensation濾波跟蹤算法作了改進,在跟蹤過程中采用了基于Metropolis算法的重采樣方法以及自適應的動態模型,實現了復雜背景下的對人臉自由運動的跟蹤,且精度較高。實驗結果表明,該方法有效地解決了復雜背景中人臉姿態變化情況下的人臉檢測與跟蹤問題,與靜態人臉檢測相比有更好的檢測效果。
關鍵詞:模式識別;人臉檢測;人臉跟蹤;Condensation濾波;支持向量機
中圖分類號:TP391.4文獻標志碼:A
文章編號:1001-3695(2007)08-0189-04
0引言
近年來,人臉檢測與跟蹤技術得到了很大的發展。在電視電話會議、遠程教學、監視與監控等場合,都需要對特定人臉目標進行實時跟蹤、分析和傳遞。可視電話、視頻會議、基于內容的壓縮與檢索、身份鑒別、人機智能交互等許多應用都與好的人臉檢測與跟蹤算法緊密相關。
目前,已有不少的人臉檢測與跟蹤的算法[1,2],但是其中大部分都是將人臉檢測與跟蹤分成兩個步驟,人臉跟蹤是在人臉檢測完成之后的基礎上進行的,而沒有將這兩個相互關聯的部分有效地結合起來。視覺研究表明,人眼對目標物體的辨識是一個過程。首先,人眼會對運動的物體更加有興趣,隨后,在對它進行跟蹤的過程中會運用人腦中存儲的各種信息對其加以辨識。比如,當一個物體出現在很遠的地方時,人眼可能無法辨識,但是當這個物體逐漸靠近,人眼便可能會慢慢“認出”這個物體的類別。另外,與靜態圖像相比,視頻序列圖像包含豐富的時域信息,但是目前的大多數算法僅僅將它用在跟蹤算法中,對人臉的檢測仍是采用基于靜態圖像的方法。
1Condensation濾波跟蹤方法
人臉跟蹤通常可以看成是在給定觀測量下,求解系統隱含狀態量的估計問題。貝葉斯估計方法將未知(隱含)狀態量的先驗知識和描述觀測量與狀態量關系的似然函數結合起來,利用貝葉斯公式得到未知量的后驗概率。但是迭代貝葉斯估計只在特定的模型和假設下有解析解,其特定模型包括線性高斯狀態空間模型(卡爾曼濾波)和有限狀態空間隱含馬爾可夫模型(隱馬爾可夫濾波)。然而,在許多實際問題中,狀態空間模型含有非線性和非高斯成分,因此沒有閉合的最優解。在近三十年來,人們提出了許多次優方案,如擴展卡爾曼濾波(EKF)、確定性數值積分方法等。但當狀態維數增加時,近似誤差的收斂率下降。
1996年,Isard與Blake將基于貝葉斯規則的概率模型引入到計算機視覺中,用于跟蹤非剛體的、多關節表示的手掌運動,稱之為Condensation濾波跟蹤方法[3]。與EKF不同的是,Condensation方法不是近似模型以使其符合某一給定類型的后驗概率,它是利用加權的采樣值來逼近真實后驗概率值。
通過建立一個狀態空間模型,可以將視頻序列的跟蹤問題表示為一個動態系統的狀態估計問題。在狀態空間模型中,狀態向量Xt用來描述系統的信息,觀測向量Zt對應于狀態的觀測值。狀態方程與觀測方程分別為
Condensation方法適合跟蹤那些非線性非高斯的運動,即并不要求概率密度函數為高斯分布,而這是卡爾曼濾波器所無法勝任的。另外,Condensation方法的魯棒性很強,能適應復雜的跟蹤環境。在實際跟蹤過程中,由于光照變化、遮擋或其他干擾物的出現,常常會出現一些不確定的觀測數據。Condensation的魯棒性源于對這些不確定性的描述,在跟蹤過程中并不是只保留權值最大的樣本,那些權值較小的樣本仍然有可能保留下來,在后續的跟蹤中起作用。
2人臉檢測與跟蹤
2.1基于SVM的置信度
支持向量機是Vapnik等人提出的基于結構風險最小化(structural risk minimization, SRM)原理的統計學習理論,用于分類與回歸問題[4]。其基本思想是通過一個映射將輸入向量映射到一個高維空間中,使原先空間中的非線性問題變為線性問題,然后在高維特征空間中求解最優分類超平面。得到的判別式如下:
在訓練過程中,筆者采用了Platt提出的SMO算法,用人臉/非人臉樣本對SVM進行訓練。關于“人臉樣本”的選取,用手工方法對Yale人臉庫中圖像的人臉區域進行了標定。Yale庫中共有15個人,每人有11張160×160大小的人臉圖像樣本,包含各種表情變化和光照變化。將每一個樣本調整為20×20的256級灰度像素點陣,由于人臉呈一個橢圓形狀,在點陣的四個角部分可以不予考慮,這樣可以將輸入點數量減少到340個。同時為了增強對有少許傾斜和尺寸少許變化的人臉檢測的魯棒性,將每個樣本向左右分別旋轉一定角度。共得到1 000余個人臉樣本,這些樣本經過預處理后用于訓練。訓練非線性SVM的非人臉樣本采用基于自舉方法收集,共950個樣本。
本文采用多項式函數作為核函數:
2.2改進的Condensation濾波跟蹤算法
采用人臉的膚色特征對區域進行跟蹤,因為膚色不依賴于面部的細節信息,膚色提取具有速度快、姿態不變性等特點。在跟蹤過程中,筆者將置信度引入狀態向量,對每個樣本的置信度進行更新,并采用基于Metropolis算法的重采樣方法[5,6]與自適應的動態模型。具體步驟如下:
2.3人臉區域的消失與新的人臉區域的出現
在對人臉進行跟蹤的過程中,每隔M幀便會對整幅圖像進行膚色檢測。如果檢測到新的區域,且離現在所跟蹤的區域較遠,則標記為新的跟蹤區域并進行跟蹤。這種策略同時也能解決兩個人臉區域重合后又分開的情況,因為兩個跟蹤系統可能會在分開之后集中到同一個人臉區域,采用此方法后,那個漏掉的人臉區域會被重新檢測到,并歸為新的目標區域。
在兩種情況下,認為人臉區域消失或不存在。其一是每個樣本的觀測值都很小,甚至為0,且一直持續M幀;其二是置信度曲線一直在閾值之下。在這兩種情況下就不再對區域進行跟蹤。
3實驗結果
對各種典型視頻序列圖像,如american miss、carphone、IITNRC facial video database[7]等進行了實驗,另外也從各種影片中截取了視頻序列圖像進行測試。這里列舉三組實驗來說明,其一是來自IITNRC facial video database的序列圖像;另外兩組是來自影片中的部分片斷,圖像大小均調整為160×120像素。實驗平臺是P4 2.4 GHz的微機,處理速度在10 fps左右。
圖1是對來自IITNRC facial video database中的視頻序列進行跟蹤的部分結果。可以看出在人臉大小不斷變化的情況下,算法能很好地進行了跟蹤。將跟蹤得到的人臉區域的中心點位置與人工提取的相應幀的中心點位置進行了比較,結果如圖2(a)所示,可以看出平均跟蹤誤差在三個像素點之內。(b)為跟蹤區域的置信度曲線,可以看出一直在閾值之上,表明跟蹤區域為人臉區域。
圖3與4分別是對來自兩段影片中的視頻序列圖像進行跟蹤的部分結果。從圖3中可以看出在復雜背景及人臉姿態發生變化的情況下,算法仍能進行成功跟蹤。從置信度曲線(圖5(a))的變化可以看出,當人臉慢慢從側面轉向正面時,跟蹤區域的置信度由閾值之下逐漸變化到閾值之上,表明已認出人臉區域。圖4是算法同時對兩個膚色區域進行跟蹤的結果。從圖5(b) 中可以看到,人臉區域的置信度曲線一直在閾值之上,而人手區域的置信度一直處于閾值之下。
本文將算法與基于靜態圖像的人臉檢測算法進行了比較。針對一段視頻文件中的100幀彩色圖像(共含100個人臉區域),分別用本文算法與采用膚色分割和SVM驗證的人臉檢測算法進行測試。
從表1中的實驗結果可以看到,相對于靜態圖像的人臉檢測算法,本文方法具有更高的檢測正確率。從對結果的分析中,可以發現,由于充分利用了視頻圖像中的時域信息,即使當人臉的姿態發生改變或者被遮擋,本文方法仍能正確檢測到人臉,而基于靜態圖像的人臉檢測算法只能檢測到一定姿態下的人臉區域。
4結束語
針對彩色視頻序列圖像,本文提出一種基于Condensation(conditional density propagation)濾波[3]的人臉檢測與跟蹤方法。在跟蹤過程中,用訓練好的SVM對每個樣本進行分類,并賦予一個置信度。該置信度隨著時間變化而更新。在任意時刻k,人臉檢測的結果基于置信度的后驗概率。并且,對Condensation濾波跟蹤方法進行改進,有效的保證了復雜背景下多目標跟蹤的準確性,實現了人臉姿態變化與遮擋情況下的人臉檢測與跟蹤。
參考文獻:
[1]GONG S, PSARROU A. Tracking and recognition of face sequences[C]//Proc of European Workshop on Combined Real and Synthetic Image Processing for Broadcast and Video Production.Hamburg:[s.n.], 1994:97112.
[2]YANG J, WAIBEL A. Tracking human faces in realtime, Technical Report CMUCS95210[R].[S.l.]:Carnegie Mellon University, 1995.
[3]ISARD M,BLAKE A, Condensationconditional density propagation for visual tracking [J].International Journal of Computer Vision,1998,29(1):5-28.
[4]VAPNIK V.The nature of statistical learning theory[M]. New York: SpringerVeriag,1995.
[5]METROPOLIS N, ROSENBLUTH A W,ROSENBLUTH M N,et al.Equation of state calculations by fast computing machines [J].J of Chem Phys,1953,21(6):10871092.
[6]GUO Hong,HOW Wenchi,YAN Feng,et al.A mote carlo sampling method for drawing representative samples from large databases [C]//Proc of the 16th International Conference on Scientific and Statistical Database Management.Santorini:[s.n.], 2004:1-2.
[7]GORODNICHY D O. IITNRC facial video database [EB/OL].(20051206).http://synapse,vit.iit.nrc.ca/db/video/faces/cvglab.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”