摘 要:提出了一種有效的從三視角2.5維人臉圖像到完整三維人臉模型的融合方法。首先用ICP(迭代最近點)方法對三視角人臉圖像上手動選取的特征區域進行粗配準,然后用一種調整能量最優方法進行精確配準,最終合成完整的三維人臉模型。通過對融合結果進行相似度測量,實驗說明了方法的有效性和優越性。
關鍵詞:三維人臉配準; 三視角人臉圖像; 調整能量最優; 相似度測量
中圖分類號:TP391.4文獻標志碼:A
文章編號:1001-3695(2009)09-3595-03
doi:10.3969/j.issn.1001-3695.2009.09.116
Multiview 2.5D face scans registration and 3D fusion
FU Wei, ZHANG Yan-ning, GUO Zhe
(School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, China)
Abstract:This paper proposed an effective method of merging three views 2.5D scans into a whole 3D face model. Firstly, using ICP completed coarse registration for feature regions in 2.5D face scans which extracted by manual, then used an energy minimizing method for fine registration. Finally merged a whole 3D face model. Using the similarity metric measuring to the registered 3D model to test, experimental results show that this method is effective and advanced.
Key words:3D face registration; three views face images; energy minimization; similarity metric
三維人臉掃描數據的配準是很多三維人臉信息處理應用的重要步驟,特別是在建立三維形態模型方面。配準問題包括查找能使多視角物體重疊部分正確配準的平移和旋轉參數,由此能由部分表面來重建該物體,得到該物體的完整表面描述[1]。對于三維人臉來說,要得到人臉的完整描述,至少需要將三個不同視角下的掃描數據(正面、左偏、右偏)配準到一起。單個視角下的掃描數據雖然是三維的,但是它只包含了人臉的部分表面信息,對于xy平面上的任意一點,最多有一個深度值z和它對應,文獻[2]稱這種曲面為2.5D曲面。本文中稱這些掃描數據為2.5維人臉圖像,而將最終重建的包含整個臉部信息的三維人臉數據稱為三維人臉模型。
目前,在三維物體配準和重建方面已有較為成熟的商業軟件,如Geomagic Studio 和由INUS Technology公司出品的RapidForm,都是高效且便捷的工具。但是在很多應用場合,需要對采集的數據實時地進行自動配準處理,合成完整的三維人臉模型。此時,這些商業軟件就不能滿足需求,它們必須將數據手動導入,人工進行操作,這就需要繼續對多視角三維掃描數據的自動配準方法進行研究。典型三維物體的完整表面模型由多視角不同部分融合得到。對于掃描人臉數據配準的有效性使得該方法能夠在很多需要重建大場景三維物體表面的實際應用中有著廣泛的應用前景,三維數據的精確自動配準也是開發三維數據搜索引擎的迫切要求和前提條件。
在三維人臉數據配準方面,很多算法已經被提出。比如,用形素模型來配準不同表情人臉模型[3,4];文獻[5]使用一個能量函數,對經過高斯變換后的不同視角三維人臉進行自動配準;文獻[6]通過找尋臉部重要標志點,用3D人臉模板薄板齒條算法建立臉部表面點之間的相應性,用于配準匹配計算;Hutton等人提出一種結合最近點迭代和動態形狀模型的技術[7],對已知完整模型與一個2.5維人臉圖像進行配準;文獻[8,9]研究了三維圖像的拼接技術。但是,對于三視角2.5維人臉圖像自動配準并合成完整三維人臉模型方面,卻沒有較好的方法予以解決。
1 粗精結合的配準方法
1.1 總體思路
針對如何自動配準三視角2.5維人臉圖像,并合成完整三維人臉模型的問題,本文構思了一種粗配準和精配準相結合的方法。首先用ICP方法對三視角人臉圖像上手動選取的特征區域進行粗配準,然后進行精確配準(本文采用調整能量最優方法),最終合成完整的三維人臉模型。這樣在實現了自動配準的同時,又提高了配準精度。圖1給出了本文所提方法的流程圖。
對多視角物體配準最直接的方法是兩兩配準不同視角的圖像,但是這種方法不是全局最優的,很容易累加每次配準的錯誤率,使得最終的配準結果產生較大的誤差。為了避免這個問題,本文采用將左、右偏轉視角人臉圖像都配準到正面視角人臉圖像坐標系的策略。為了保證配準結果的魯棒性,本文使用的2.5維人臉圖像都為自然表情。
1.2 特征區域提取
為了提高特征的魯棒性,所選的特征區域應該是待配準兩視角掃描數據所共有的,還要能反映人臉的五官分布,并且該區域對表情的影響要盡可能小。因此選取鼻尖點、內外眼角點和下巴點。在選點時為了避免自動取點產生的誤差,采用手動選點的方法以降低算法的運算復雜度,同時也能確保粗配準的精度。對手動選取的點分別進行鄰域擴充,得到若干特征區域,對這些區域采用ICP方法進行粗配準。本文的實驗是對正面、左偏45°、右偏45°三個不同視角掃描數據進行配準,因此在選點時對偏轉掃描數據選取數據中完整眼睛的內外眼角點,而正面圖像則提取兩個眼睛的內外眼角點,左偏和右偏圖像中的點分別與正面圖像中相應位置的點對應。圖2顯示了對不同視角下三維人臉掃描數據進行特征提取的結果,偏轉圖像共提取四個特征區域,而正面圖像共提取六個特征區域。
1.3 ICP粗配準
在特征區域提取步驟完成后,分別將左偏和右偏人臉圖像與正面圖像相對應的四個特征區域通過ICP(interative closest point)[10]方法進行迭代運算,得到一組最優的配準參數(旋轉和平移向量),將該配準參數用于整體模型的粗配準。ICP是最為常用的三維數據配準方法,該方法在每次迭代過程中對待配準模型上的每個點,在標準模型中尋找最相近的點,利用這組對應點計算相應的旋轉矩陣和平移向量,將其作用在待配準模型上得到新的模型代入下次迭代過程。
ICP存在配準速度慢、可能陷入局部最優、無法找到對應點等缺點。本文采用的是對待配準模型特征區域中的點,在標準模型對應區域中尋找與之最近的點,得到最近點對,對最近點對集合進行迭代運算。該方法能大大降低計算量,提高配準速度。粗配準之后的結果如圖3所示。
1.4 精配準
由圖3可以看到,粗配準已經能夠比較好地將兩個不同姿態的2.5維人臉圖像配準在一起,但是通過放大某些特殊部位(如圖3(b)所示,眼睛部位放大),可以看到在特殊部位兩幅2.5維圖像間的距離還是比較大的,需要在此基礎上對該結果進行進一步精配準,以得到更加精確的配準結果。
2 調整能量函數最優精確配準與模型融合
2.1 精配準與融合
在精配準過程中,本文對文獻[4]中的能量最小方法根據實驗數據的具體情況進行了改進,提出了一種調整整體模型能量最優方法,使得兩幅2.5維圖像之間共有部分區域的能量函數最小。由于調整條件利用了模型間點對的相關性,該相關性通過重新規格化人臉圖像產生,能夠得到一個更加準確的配準結果,該相關性還能夠用來確定調整條件的局部權值。
為了得到圖像間點對的相關性,用能量函數進行精配準之前要重新規格化人臉圖像。規格化的方法是對兩幅2.5維圖像之間共有部分區域按照統一的標準進行重采樣,由此建立兩圖像點對間的對應關系。在規格化之后,對重采樣后的區域用調整能量最優方法進行精配準,而僅存在于單個圖像上的點保持不變,因此該方法能夠將三視角2.5維人臉圖像融合在一起。
2.2 調整能量函數最優
對圖像間共有部分區域進行重采樣,能夠建立兩圖像點對間的相應性關系。由于使用一個在所估計的相應性不穩定時能調節表面結果的自適應平滑算法,本文提出的算法能對三視角2.5維人臉圖像得到比較好的融合結果。
已知對應關系的兩個頂點集合{wi}{ai}(i=1,2,…,N),wi與ai相對應。其中{wi}為標準集合,{ai}為待配準集合。給出能量函數的定義,通過使得該函數最小,最終得到配準后{ai}的新位置集合{vi}。能量函數由點集位移總量和整體表面平滑函數兩部分組成。給出點集位移總量的定義:
Ed=∑Ni=1‖vi-wi‖2(1)
令ai表示與標準點wi相對應的點的位置,調整條件取決于對該點的位移di=vi-ai。
給出平滑函數的定義:
Es=∑i∑j∈Nieij‖dj-di‖2(2)
在式(2)中,Ni表示第i個頂點的鄰域點集,系數eij體現了每條邊對于所在頂點能量函數的相對權重。該系數的一個好的選擇標準是當整體模型已經達到預期配準結果時,該邊的畸變程度。用σij表示所有統計參考模型中點i與所在鄰域點j間所有邊長的標準差,能夠定義系數eij:
eij=σ-2ij/∑Niσ-2ij(3)
將式(3)帶入(2)中能夠看到,此時每個頂點的平滑函數變為
∑j∈Nieij‖dj-di‖2∞∑j∈Ni‖dj-di‖2/σ2ij(4)
每條邊對于所在頂點能量的影響通過對多個人臉模型分析其畸形程度來體現,引入自適應平滑思想,通過衡量每個有著系數λi的Ed來確定。最終得到整體模型的能量函數:
E=1/2∑λi‖vi-wi‖2+1/2∑i∑j∈Nieij‖dj-di‖2(5)
對式(5)進行分析可知,在該式中有兩部分,位移總量函數和平滑函數,如何確定兩個函數的主次關系是一個非常重要的問題。由于進行配準的點集是歸一化后的,它們之間的點對是一一對應的,點對之間的相應性、可靠性較強,在對點進行調整的過程中,系數λi的值應該比較大,使得位移總量函數占主導,平滑函數占次要。需要說明的是在掃描的2.5維圖像中總存在一些沒有相應性的點,其位置僅能通過位移總量函數來確定。調整該函數最小,就能夠重建缺失數據,使得物體表面光滑連續并且重建錯誤率低。
在本文實驗中,設置系數λi的值為3.5。該數值能使得位移總量函數占主導,并能產生一個相對較好的平滑效果。
能量函數式(5)的全局最小通過令其對vi的偏導為零來計算,結果能產生一個稀疏線性矩陣,對該矩陣用Umfpack算法包中的方法進行求解,建立系統如式(6)所示。其中,D、A和W分別表示N×3階矩陣,用于控制向量di、ai和wi的取值。
(Λ+I-(K+KT)/2)×D=-Λ*(A-W)(6)
其中:Λ是以λi/2為元素的n×n階對角矩陣;K是一個n×n階稀疏矩陣,當且僅當{i,j}是2.5維掃描數據網格上的一條邊時Kij=eij,否則Kij=0。求解式(6)得到D,頂點的配準位置通過vi=ai+di得到。
3 相似度測量
為了檢測本文提出的三視角2.5維人臉圖像配準融合算法的性能,給出一種相似度測量標準。兩個配準模型數據之間的相似度測量基于模型間的空間偏差分布,計算配準完成后兩模型中所有點對間的距離均值及方差。均值越小,說明兩模型配準后間距越小;方差越小,說明兩模型整體配準效果越好。
R1={r11,r12,…,r1N},R2={r21,r22,…,r2N}分別為兩個配準模型點集,r1i與r2i相對應(i=1,2,…,N)。兩模型中對應點對間的距離為Di=‖r1i-r2i‖,模型中所有點對間距離均值為
Du=(1/N)∑Ni=1Di(7)
距離方差為
Do=(1/N)∑Ni=1‖Di-Du‖2(8)
4 實驗結果與分析
三維人臉識別剛剛起步,國際上尚未有一個通用的標準庫,因此實驗采用的是筆者自己使用Minolta Vivid 910激光三維掃描儀建立的三維人臉數據庫。在該庫中,對每個人采集了14個樣本,包含了姿態、表情、有無遮擋的變化,采集數據結構為三角面片網格結構。對采集數據去除干擾背景,得到實驗所用的2.5維人臉圖像。在實驗中,主要考察本文方法對正面、左偏45°、右偏45°三個不同視角圖像配準融合的有效性,采用70個人的三視角2.5維人臉圖像。給出一組配準融合結果,如圖4所示。
采用相似度測量計算配準融合后模型兩兩間的距離,統計得到距離的分布直方圖。圖5顯示了與距離分布直方圖相對應的灰度圖,該灰度圖描述了配準后模型之間的距離,灰度隨著距離由小到大,由淺到深漸變。由圖5可以看出,通過本文算法融合成的三維人臉模型,整體平滑效果較好,僅在額頭、鼻翼區域誤差相對較大。由于篇幅所限,表1給出了10組不同個體三視角2.5維人臉圖像用兩種方法得到的配準融合結果的相似度。其中M表示不同個體人臉圖像。通過計算相似度得到70個不同個體的三視角人臉圖像,用調整能量函數最優方法配準融合后距離均值平均數為1.67 mm,標準差平均值為1.04 mm,而用ICP方法配準后距離均值平均數為4.56 mm,標準差平均值為2.06 mm。均值越小,說明兩模型配準后間距越小;方差越小,說明兩模型整體配準效果越好。
從表1可以看出,本文方法得到的配準效果比單獨使用ICP方法要好。
5 結束語
本文主要針對將三個不同視角的2.5維人臉圖像快速高效的配準成完整的三維人臉模型的問題,提出了一種有效的配準融合方法:首先對三視角人臉圖像進行手動選取特征點,用ICP方法對其進行粗配準,然后用一種改進了的調整能量最優方法對三視角圖像同時進行精確配準,最終合成完整的三維人臉模型。由實驗結果可以看到,通過本文提出算法融合成的三維人臉模型,整體平滑效果較好,僅在額頭、鼻翼區域誤差相對較大。由此可知,本文提出的由三視角2.5維人臉圖像到完整三維人臉模型的融合方法是有效的。
參考文獻:
[1]BLAIS G, LEVINE M D. Registering multiview range data to create 3D computer objects[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1995, 17(8): 820-824.
[2]LU X, COLBRY D, JAIN A. Three-dimensional model based face recognition[C]// Proc of International Conference on Pattern Recognition. 2004: 362-366.
[3]BLANZ V, VETTER T. A morphable model for the synthesis of 3D faces[C]// Proc of the 26th International Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 1999:187-194.
[4]BASSO C, PAYSAN P, VETTER T. Registration of expressions data using a 3D morphable model[C]// Proc of the 7th International Conference on Automatic Face and Gesture Recognition.2006: 205-210.
[5]AYYAGARI V R. BOUGHORBEL F, KOSCHAN A. A new method for automatic 3D face registration[C]// Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2005: 119-123.
[6]IRFANOGLU M O, GOKBERK B, AKATUN L. 3D shape-based face recognition using automatically registered facial surfaces[C]// Proc of the 17th International Conference on Pattern Recognition. 2004:183-186.
[7]MALASSIOTIS S, STRINTZIS M G. Robust real-time 3D head pose estimation from range data[J]. Pattern Recognition, 2005, 38(8):1153-1165.
[8]薛婷,郝繼國,吳斌,等. 采用標記約束實現三維圖像拼接新方法[J].光電工程,2005, 32(9):63-66.
[9]周術誠,耿國華,周明全. 三維破碎物體多尺度拼接技術[J].計算機輔助設計與圖形學學報,2006, 18(10): 1525-1520.
[10]BESL P J, MACKAY N D. A method for registration of 3-D shapes[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1992,14(2):239-256.