摘要:討論了基于馬爾可夫隨機場(MRF)模型的融合顏色和邊緣信息的嘴唇特征提取方法。首先進行嘴唇區域檢測,再結合嘴唇形狀特點建立了基于MRF的嘴唇圖像分割模型,構造相應的能量函數,并采用改進的最高置信度優先(HCF)算法求解能量函數的最優解,得到圖像標記場,進而提取出嘴唇輪廓。結合人臉結構信息,提出了融合鼻孔角度信息的嘴唇特征點提取方法。實驗結果表明,此算法具有良好的魯棒性。
關鍵詞:嘴唇特征;馬爾可夫隨機場; 圖像分割
中圖分類號:TP181文獻標志碼:A
文章編號:1001-3695(2007)07-0300-03
0引言
在人臉的眾多特征部位中,嘴巴是一個重要的部位。其在人機接口、唇讀、表情識別、基于唇動的身份識別等諸多研究領域有重要應用。精確的嘴唇輪廓定位和特征提取顯得越來越重要。
準確地提取嘴唇輪廓及其特征是一件困難的事。因為不同人的唇形也大不相同,而且受光照、面部表情的影響較大。十幾年來,人們提出了許多提取嘴唇輪廓的算法。P. Delmas等人[1]首先使用亮度和梯度信息來得到嘴巴區域,采用自動主動輪廓(Automatic Snake)模型來提取嘴唇。A. L. Yuille等人[2]使用可變形模板(Deformable Templates)來提取嘴唇,并被廣泛使用;但存在人工痕跡明顯、不能準確刻畫嘴唇輪廓等缺點。L. L. Mok等人[3]使用主動形狀模型(Active Shape Models, ASM)來提取特征并用于身份識別。王瑞等人[4]采用了多級、逐步細化分割的方法。然而,這些方法大多精度不高,且只利用了灰度信息。由于唇色和膚色的灰度信息差別不大,當嘴唇輪廓區域圖像質量較差時效果不好。因為嘴唇顏色相對于膚色顏色較紅,且有很多邊緣,融合顏色信息和邊緣信息的方法引起了人們的注意。Zhang X等人[5,6]變換顏色空間來進行嘴巴粗定位,在MRF模型框架內融合顏色和邊緣信息來進行嘴唇的分割和特征提取,并用于身份識別。R.M. Dansereau等人[7]進一步加入了運動信息來定位,獲得了較好的效果。但兩者的嘴唇特征點提取方法比較簡單,只適合于嘴唇水平的情況,對人臉旋轉敏感。M. Lievin等人[8]采用時空MRF模型融合顏色和運動信息進行人臉、嘴唇及眼睛輪廓的簡單跟蹤。本文采用顏色空間變換來粗定位嘴唇區域;在MRF模型框架內融合邊緣和顏色信息得到嘴唇的輪廓。為了魯棒地提取嘴唇特征點,提出了融合鼻孔位置信息的方法,使其對人臉旋轉不敏感。
1嘴唇區域檢測
在RGB顏色空間中,三分量相關性較高,很難有效地檢測嘴唇區域。而HSI空間的HS分量具有光強不變性,即隨白光強度的變化,其值幾乎不變。把RGB顏色空間轉換為HSI空間,公式見文獻[9]。下面采用式(1)來進行嘴唇區域檢測:
通過最小化系統能量函數來得到嘴唇分割結果。能量函數的優化方法很多,如模擬退火(SA)、迭代條件模型(ICM)和最高置信度優先(HCF)等。眾所周知,SA方法搜索效率較低、不實用;而ICM雖然計算復雜度低,但初始分割的好壞直接影響迭代次數和分割結果。結合嘴唇的先驗知識,采用改進的HCF方法[13]來進行能量優化:相對嘴唇周圍的皮膚來說,嘴唇更多地顯示紅色。在實驗中發現,在式(1)中,隨著閾值a和b的提高,得到的嘴唇區域會變小,最后得到一部分真正的嘴唇,把這部分嘴唇直接進行標記后再進行能量優化,提高了計算效率。實驗結果如圖2所示。
3嘴唇特征點提取
提取六個嘴唇特征點:左、右嘴角點,上嘴唇的上、下邊緣點,下嘴唇的上、下邊緣點。文獻[7]的特征提取方法比較簡單,且魯棒性不強。本文提出的特征提取方法對有一定傾斜角度的嘴唇同樣適用,并增加了特征提取的魯棒性。
在進行嘴角定位前,首先對嘴唇區域進行3×3的中值濾波,消除嘴唇以外的孤立點的影響。在嘴角定位時,參考了鼻孔連線的傾角。眼睛和鼻孔是人臉中特征比較明顯的部位,但由于許多人戴眼鏡,考慮到簡便性,選擇鼻孔。假設兩嘴角連線和兩鼻孔連線的傾角是一致的。首先對嘴唇區域垂直掃描,得到最左列和最右列的一個像素點,即為兩個候選嘴角,設為A、B。根據人臉的結構特點,通過嘴巴位置很容易得到鼻孔的大致位置。在鼻孔候選位置對灰度圖像進行二值化,得到候選的鼻孔;結合鼻孔相對位置和大小的信息得到確切的鼻孔,進而得到兩鼻孔中心;平均兩鼻孔中心連線的傾角和候選嘴角連線的傾角,得到平均傾角。根據平均傾角對候選嘴角位置進行修正:固定候選嘴角A,根據平均傾角得到另一邊的嘴角C;再固定B,同樣的方法得到D;比較AC和BD的長度,長者為兩個嘴角。假設其他四個特征點在兩個嘴角的垂直平分線上,這樣很容易得到四個特征點。
這里特別要提到的是牙齒和舌頭對結果的影響。由于牙齒和嘴唇的顏色不同,牙齒的影響可以通過調整H分量圖像的參數來檢測。舌頭在嘴巴里面,舌頭亮度較嘴唇暗,可以通過這個信息來檢測。有時下嘴唇下邊緣會有陰影,也可通過此方法減輕或消除陰影的影響。實驗效果如圖3所示。
4實驗結果
本文采用VALID數據庫[14]進行實驗分析。此數據庫采用不同類型和方向的光源。實驗發現算法對正面均勻光源效果較好,但對非均勻光源效果較差。因為在有側光的情況下,用Otsu方法得到的均值和方差與實際情況有誤差。在均勻光照條件下,拍攝了10組共100幅人臉正面圖像進行實驗,對85%的圖像的嘴唇區域都能得到較好的分割區域。同時,從圖3可以看出,筆者能較準確地提取特征點。對于有一定傾角的嘴唇,也可以提取特征點。輪廓提取的好壞直接影響了特征點的提取準確性,有時不太完整的輪廓也可以得到較好的特征點。實驗分析,兩嘴角的特征提取對最終結果影響較大。
5結束語
本文提出的方法適用于有一定傾斜角度的嘴唇特征提取,具有良好的魯棒性。文中,嘴唇區域和鼻孔區域提取的參數要針對不同環境,依靠主觀經驗來調節。以后的改進包括參數的自適應調整;此外,要研究光照不均勻情況下模型的改進。
參考文獻:
[1]DELMAS P,COULON P Y, FRISTOT V. Automatic snakes for robust lip boundaries extraction[C]//Proc of IEEE International Conference on Acoustics Speech, and Signal Processing.Phoenix:[s.n.],1999:3069-3072.
[2]YUILLE A L, HALLINAN P, COHEN D S. Feature extraction from faces using deformable templates[J].International Journal of Computer Vision,1992,8(2): 99-112.
[3]MOK L L, LAU W H, LEUNG S H,et al.Person authentication using ASM based lip shape and intensity information[C]//International Conference on Image Processing.Singapore:[s.n.],2004:561-564.
[4]王瑞,高文. 非監督、多級嘴唇區域分割方法[J].計算機工程與應用, 2003,39(2): 53-56.
[5]ZHANG X, MERSEREAU R M. Lip feature extraction towards an automatic speechreading system[C]//International Conference on Image Processing.Vancouver, Canada:[s.n.],2000:226-229.
[6]ZHANG X, MERSEREAU R M, CLEMENTS M. Automatic speechreading with application to speaker verification[C]//Proc of IEEEInternational Conference on Acoustics Speech, and Signal Processing.Orlando:[s.n.],2002:685-688.
[7]DANSEREAU R M, LI C,GOUBRAN R. Lip feature extraction using motion, color, and edge information[C]//Proc of the 2nd IEEE International Workshop on Haptic, Audio and Visual Environments and Their Applications.2003:1-6.
[8]LIEVIN M, LUTHON F.Nonlinear color space and spatiotemporal MRF for hierarchical segmentation of face features in video[J].IEEE Trans on Image Processing,2004,13(1): 63-71.
[9]RAFAEL C G, RECHARD E W.數字圖像處理[M].阮秋琦,等譯.2版. 北京:電子工業出版社, 2003.
[10]BESAG J. Spatial interactions and the statistical analysis of lattice systems[J].Journal of the Royal Statistical Society,1974,B36(2): 192-236.
[11]CANNY J. A computational approach to edge detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 1986,8(6): 679-698.
[12]OTSU N.Threshold selection method from gray-level histograms[J].IEEE Trans System, Man and Cybernetics,1979,9(1): 62-66.
[13]CHOU P B, BROWN C M. The theory and practice of Bayesian ima-ge labeling[J].International Journal of Computer Vision,1990,4(3):185-210.
[14]FOX N A, O’MULLANE B A, REILLY R B.VALID:a new practical audio-visual database, and comparative results[C]//Proc ofthe 5th International Conference on Audio and Video-based Biometric Person Authentication.Berlin:Springer,2005.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”