










摘要:
為解決三維人臉重建方法DECA(Detailed Expression Capture and Animation)采用2D圖像訓練導致信息缺失所帶來的重建形狀不夠準確和MICA(MetrIC FAce)方法缺乏高頻細節以及遇到無法識別的人臉照片重建失敗的問題,利用3D數據和更為魯棒的人臉識別網絡完成有監督和自監督混合訓練,提出基于FLAME(Fitting Landmarks And Morphable Expression)人臉模型、AdaFace(Quality Adaptive Margin for Face Recognition)人臉識別網絡和DECA框架的高精度細節融合兩階段人臉重建方法(FIne-grained Facial Reconstruction,FiFR)。在粗重建階段通過Adaface身份編碼器將2D圖像編碼至隱空間,由2D和3D數據訓練的映射網絡將編碼轉化為FLAME人臉模型的相關參數,生成粗重建結果;在精細重建階段,參考DECA方法,通過細節一致性損失約束生成詳細的UV置換貼圖,增強人臉的高頻細節,實現了單一圖像的三維人臉精細重建。實驗結果表明,FiFR比DECA方法重建結果平均誤差減少了14%,針對低分辨率圖像誤差減少達到了18%;相對于MICA方法,重建人臉具有更多的高頻細節。
關鍵詞:
三維人臉重建;深度學習;神經網絡
中圖分類號:TP37
文獻標志碼:A
文章編號:10061037(2024)03004009
doi:10.3969/j.issn.10061037.2024.03.07
收稿日期:2024-02-20
基金項目:
國家自然科學基金(批準號:62172247,61702293,61772294)資助;山東省自然科學基金(批準號:ZR2019LZH002,ZR2020QF039)資助,陜西省重點研發計劃項目(項目編號:2023-YBSF-28)資助。
通信作者:
趙俊莉,女,博士,教授,主要研究方向為計算機圖形學、計算機視覺、虛擬現實。E-mail: zhaojl@yeah.net
隨著社交媒體、虛擬現實、增強現實技術的日益普及,人們對三維數字人臉技術的需求不斷增加,廣泛覆蓋3D化身創建、視頻編輯、圖像合成以及面部識別等多個領域。基于單幅圖像的人臉重建可通過有限的二維圖像信息恢復真實的三維人臉形狀,這項技術不僅對理解人臉的三維結構和表情變化具有重要意義,而且在實際應用中展現出極大的潛力。目前,基于單幅圖像的三維人臉重建的主要方法在三類:基于形變模型的方法、基于神經網絡直接回歸的方法以及結合形變模型與神經網絡的混合方法。基于形變模型3D Morphable Model(3DMM)的方法[1-2]是早期用于三維人臉建模和重建的經典方法,通過調整模型參數以擬合輸入圖像的人臉,獲得對應的三維面部結構,這類方法在精確控制人臉特征方面具有獨特的優勢,但受限于初始三維人臉模型,在捕捉人臉細節方面存在局限性。基于神經網絡直接回歸的方法[3-5]則是直接利用神經網絡從二維圖片中回歸得到三維人臉模型,這種方法試圖直接學習從二維到三維的映射關系,在處理速度和學習能力方面有著顯著的優勢,但需要大量的數據支持和計算資源。結合形變模型與神經網絡的方法[6-9]結合了形變模型的幾何約束和神經網絡的學習能力,通過神經網絡回歸形變模型參數[10-12]進行人臉重建,因其既保持了幾何約束,又提高了重建的效率和準確性而被廣泛應用。該類方法在訓練網絡時,可采用有監督[13]和自監督[14]兩種方式。其中,DECA(Detailed Expression Capture and Animation)方法[8]通過2D圖像的自監督學習,實現了高效的三維人臉重建,但在人臉輪廓和表情細節上的變化可能較為微小,難以重建出精確的幾何形狀。MICA(MetrIC Face)方法[9]通過引入預訓練的人臉識別網絡ArcFace,提取不同人臉的不同特征,以監督方式訓練網絡,但因其更關注人臉的幾何度量形狀,缺乏人臉的高頻細節,在處理一些不能被識別的人臉時,無法做到精確的人臉重建。為此,本文提出一個高精度細節融合人臉重建網絡((FIne-grained Facial Reconstruction,FiFR)),利用人臉識別網絡AdaFace產生的廣義身份特征,提高了特征提取的精確性和魯棒性,并在此基礎上增加了人臉的細節,通過混合3D監督和2D自監督的方式,對人臉的粗細結構進行兩階段重建,有效融合了人臉的幾何信息和高頻細節,顯著提高了重建的準確性和細節豐富度。
1" 高精度細節融合三維人臉重建方法(FiFR)
FiFR包括粗重建人臉幾何和細重建人臉高頻細節兩部分。
1.1" 方法概述
在DECA方法的基礎上,基于FLAME(Fitting Landmarks And Morphable Expression)人臉模型[15],參考MICA方法,本文提出了FiFR,采用對FLAME模型的參數預測實現預測人臉中性表情下的幾何形狀以及高頻細節。流程如圖1所示,通過粗、細兩次重建的方式,改進重建精度和細節。
1.2" 粗重建
粗重建的目的是重建精準的人臉幾何,采用AdaFace人臉識別網絡[16]實現身份編碼的精準預測。獲得身份編碼后,使用映射網絡解碼和轉碼,轉化成FLAME人臉模型的相關參數,指導人臉幾何重建。
1.2.1" 粗重建網絡" 粗重建先使用身份編碼器對2D圖片進行身份編碼,然后使用映射網絡解碼和轉碼,轉化成FLAME人臉模型的相關參數,最終由FLAME模型重建出人臉幾何,訓練過程見圖2。
選擇在WebFace260M[17]上預訓練的AdaFace人臉識別網絡作為身份編碼器,該網絡的主干網絡與ArcFace類似,同樣基于ResNet100[18],針對低分辨圖像,使用自適應范數損失函數,通過約束特征向量的范數來減少噪聲,以獲得用于人臉識別的高度辨別性特征,提高人臉識別的精準度。ArcFace人臉識別網絡的參數量為65 225 792,FiFR采用的AdaFace人臉識別網絡的參數量為43 585 600。粗重建網絡的身份編碼器包括4層,第一層包含2個殘差塊,第二層包含13個殘差塊,第三層包含30個殘差塊,第四層包含3個殘差塊,共48個殘差塊。粗重建階段使用數據集中成對的2D圖片和3D網格數據進行訓練。在訓練期間,凍結前3層以保留在預訓練模型中學到的特征,同時在當前任務中不進行更新,確保模型在新任務上利用了預訓練模型的知識。優化了最后的3個ResNet塊,使其能夠避免過擬合,適用于細節重建的要求。該身份編
碼器針對不同的光照、表情、旋轉、遮擋和相機參數,身份編碼是不變的,有利于魯棒的形狀預測。
使用一個映射網絡將改進后的AdaFace特征映射至隱空間,該映射網絡由4個具有Linear rectification function(ReLU)激活函數的全連接線性隱藏層和最終線性輸出層組成,輸入格式為(s,512),其中s為批次(batch),512為特征維度,網絡結構細節見表1。
整個編碼和映射的過程表示為Z
Z=MAP(AdaFace(I))(1)
其中,MAP表示映射網絡,AdaFace表示身份編碼器,I表示輸入的二維人臉圖片。
隱空間編碼經過映射后輸入至身份解碼器。由于3DMM模型可以有效地表示面部空間,因此使用在此基礎上發展起來的FLAME模型作為幾何解碼器。FLAME[19]是一種頭部的3D統計模型,由平均人臉的幾何形狀和3DMM的主成分表示,用單獨的線性身份形狀和表情空間與線性混合蒙皮(LBS)和姿勢相關的矯正混合形狀相結合的方式連接頸部、下頜和眼球。給定面部身份的參數β,姿勢θ,表情ψ,FLAME輸出一個三維人臉網格。模型M
M(β,θ,ψ)=W(TP(β,θ,ψ),J(β),θ,ω)(2)
其中,混合皮膚函數W(T,J,θ,ω)圍繞關節J旋轉T中的頂點,通過混合權重ω進行線性平滑;將恒等式β的函數定義為關節位置J;TP表示平均模板,在添加混合形狀BS(β;S),姿勢校正BP(θ;P),以及表情混合形狀BE(ψ;ε)后,獲得學習到的身份S、姿勢P和表情ε:
TP(β,θ,ψ)=T+BS(β;S)+BP(θ;P)+BE(ψ;ε)
FLAME幾何解碼器由一個線性層組成:C(Z)=B·Z+A,C為通過映射網絡映射后的身份編碼器產生的身份參數,A是平均人臉的幾何形狀,B包含3DMM的主成分。FLAME通過線性映射從過程Z中產生的隱空間編碼生成精確的人臉幾何形狀。
1.2.2" 粗重建損失函數" 粗重建部分損失函數包括Lmetric和Lreg兩部分,Lmetric約束人臉的幾何形狀,Lreg為正則化損失
Lcoarse=Lmetric+Lreg(3)
其中,Lmetric為
Lmetric=∑" (I,M)∈D|Kmask(D(MAP(AdaFace(I))))-MGD|(4)
其中,D為統一成對的2D、3D數據集,MGD是真實的網格模型,Kmask是區域相關權重(面部區域的權重為150.0,后腦勺的權重為1.0,眼睛和耳朵的權重為0.01)。
正則化損失函數Lreg用于減少過擬合:Lreg=||C||1,1。
整個粗重建渲染是最小化Lcoarse的過程,通過身份編碼器、映射網絡、身份解碼器的網絡組合,在2D和3D數據上進行監督訓練,最終在人臉臉型、年齡等方面都能夠得到魯棒的三維人臉重建結果。
1.3" 細節重建
細重建的目的是在粗重建的基礎上增加高頻細節,通過細節編碼器,利用細節一致性損失,得到UV置換貼圖,結合粗重建人臉幾何和置換貼圖,最終得到增加高頻細節的人臉幾何形狀。利用DECA方法中的部分內容,在混合圖像數據上訓練幾何形狀重建(粗重建)部分,同時在細節重建部分保留DECA的細節重建性能。細節重建過程主要包括細節編碼器、細節解碼器、細節渲染3個步驟。由于FLAME沒有外觀模型,因此利用Basel Face Model[20]的線性反照率子空間,將其轉移至FLAME的UV布局中,使其與FLAME兼容。外觀模型根據反照率參數α輸出UV反照率圖。
1.3.1" 細節重建網絡" 利用細節編碼器Edetail(由ResNet100和一個全連接層組成)將輸入的2D圖片I編碼至低維隱空間,隱空間包含128維的細節代碼(反照率參數α,光照參數l,相機參數c,姿勢參數θ、表情參數ψ以及細節參數σ)。細節編碼器的網絡結構包括100個殘差塊,每個殘差塊包含多個卷積層,每個卷積層后有批歸一化和ReLU激活函數。最后一個殘差塊之后,有一個全局平均池化層,用于將特征圖轉換成一個向量。最后,將全局平均池化得到的向量輸入到一個全連接層,輸出網絡最終結果。利用這些參數,生成相對應的UV置換貼圖
U=Fdetail(σ,ψ,θjaw)(5)
其中,Fdetail為細節解碼器,利用細節代碼σ控制靜態人物特定細節,表情參數ψ和下頜姿勢參數θjaw用以捕捉面部皺紋細節。編碼器編碼的低維隱空間參數輸入至位移解碼器中,將其轉換為一個UV置換貼圖,定義每個UV位置的位移量,在此基礎上細節渲染步驟重建高頻細節。
在細節渲染時,考慮到光照因素,需要引入相應的光照模型,面部重建最常用的光照模型是基于球諧函數(SH)的。假設光源較遠且人臉的表面反射率為理想散射率,則陰影人臉圖像
BSH(α,l,Nuv)i,j=ASH(α)i,j⊙∑9k=1lkHk(Ni,j)(6)
其中,反照率ASH、表面法線N和著色紋理BSH以UV坐標表示,其中Bi,j,Ai,j,Ni,j表示在UV坐標系中的像素(i,j)。SH的基和系數定義為Hk,⊙表示Hadamard乘積。
細節渲染時首先將置換貼圖轉換為法線貼圖,然后結合FLAME模型提供的粗略3D網格幾何和曲面法線,以創建包含更多細節的詳細幾何模型:M′uv=Muv+U⊙Nuv,M′uv表示詳細的幾何模型,Muv表示粗略的幾何模型,U表示UV置換貼圖,Nuv表示對應的表面法線。然后通過從M′計算法線N′,使用相應的法線貼圖渲染Muv來獲得細節渲染I′r:I′r=R(Muv,B(α,l,N′),c),R表示一次渲染過程。細節渲染完成后得到重建形狀準確和具有高頻細節的三維人臉。
1.3.2" 細節重建損失函數" 細節重建是最小化Ldetail的過程,損失函數包括光度損失Lpho,隱式多樣化馬爾可夫隨機場損失Lmrf、軟對稱損失Lsym、細節一致性損失Ldc和正則化損失LregD
Ldetail=Lpho+Lmrf+Lsym+Ldc+LregD(7)
光度損失計算輸入圖像I和渲染Ir之間的誤差:Lpho=||VI⊙(I-Ir)||1,1,VI是通過現有的人臉分割方法獲得的臉部皮膚區域值為1、其他地方值為0的mask。FiFR僅計算面部區域中的誤差。
給定輸入圖像和細節渲染,隱式多樣化馬爾可夫隨機場損失從預訓練網絡的不同層中提取特征塊,然后最小化兩個圖像中相應的最近鄰特征塊之間的差異。參考文獻[21],該損失在VGG19[22]的第3個卷積層的第2子層(conv3_2)和第4個卷積層的第2子層(conv4_2)計算:Lmrf=2LM(conv4_2)+LM(conv3_2),LM表示在從VGG19的layerth層的I′r和I提取的特征塊上采用的隱式多樣化馬爾可夫隨機場損失。與光度損失一樣,FiFR方法僅計算UV空間中面部皮膚區域的Lmrf。
通過軟對稱損失來約束不可見的面部部分:Lsym=||Vuv⊙(U-flip(U))||1,1,Vuv表示UV空間中的面部皮膚遮擋,flip是水平翻轉操作。
優化細節一致性損失能夠重建具有高頻細節的面部。根據來自于同一個人的兩幅不同角度、表情的人臉圖像應該具有相似的粗略幾何形狀和個性化的細節的性質,從圖像i中獲取下巴和表情參數,從圖像j中提取細節代碼,并組合起來估計皺紋細節。給定同一個人的兩個圖像Ii和Ij,損失定義為:Ldc=Ldetail(Ii,R(M(βi,θi,ψi),A(αi),Fdetail(δj,ψi,θjaw,i),li,ci)),其中,βi、θi、ψi、θjaw,i、αi、li和ci是Ii的參數,δj是Ij的細節編碼。
通過LregD=||U||1,1將細節置換貼圖正則化以減少噪聲。細節重建通過使用UV置換貼圖,在不增加網格中的頂點數目的前提下,為3D表面添加高頻細節,有利于保持網格復雜度,節省資源,具有很好的魯棒性。
2" 實驗
2.1" 實驗數據及預處理
實驗使用了多個人臉數據集,包括2D數據集VGG-Face2[23],3D數據集D3DFACS[24]、FaceWarehouse[19]和本文所采集的數據,選取了部分DECA的2D數據集(VGG-Face2)與MICA的部分3D數據集(D3DFACS和FaceWarehouse),數據集細節見表2。其中D3DFACS、FaceWarehouse與本文實驗采集的數據同時包含2D和3D數據,VGG-Face2僅包含2D數據。粗重建和細節重建主要采用的數據均來自D3DFACS、FaceWarehouse與本文實驗采集,VGG-Face2是為了提高模型細節的泛化能力。測試集主要使用Now基準的數據集,因為其得到了大多數方法的驗證。這些數據集中的人臉數據來自世界不同地區、不同種族和年齡,因此,結合這些數據集將產生更加魯棒的重建結果。
粗重建采用在2D/3D混合數據集上監督訓練的方法,細節重建采用在2D數據集上自監督訓練的方法。對數據集FaceWarehouse、D3DFACS以及采集的數據進行了必要的預處理,即將各個數據集中的人臉數據擬合至FLAME模型上,基于迭代最近點(ICP)方案[25]優化FLAME參數,形成統一拓撲的三維人臉數據。對VGG-Face2進行人臉關鍵點標記處理。
2.2" 實驗設置與評價指標
實驗采用Pytorch架構,在Nvidia Tesla K80上訓練了100 k步。FiFR模型使用帶權重衰減的AdamW(Adaptive Moment Estimation with Weight Decay)優化器,固定學習率η=1e-5,權重衰減λ=2e-4。
對單張人臉圖像重建3D人臉時,由于預測的人臉網格處在不同的局部坐標系,因此通過一組在預測和掃描之間對應的關鍵點,將重建的3D網格與掃描的3D人臉剛性對準(即旋轉、平移和可選的縮放)。對齊時根據掃描與使用關鍵點對齊后的重建網格之間的網格距離(即每個掃描頂點與網格表面中最近點之間的絕對距離)執行剛性對齊。FiFR使用剛性對齊后的掃描到重建網格的各點的歐氏距離d=(x-x′)2+(y-y′)2+(z-z′)2,用于計算均方根誤差(RMSE)以及對3D面部重建進行更具體的分析評估,均方根誤差計算公式為:RMSE=1n∑ni=1(Yi-Y︿i)2,Yi表示真實距離,Y︿i表示重建距離,即d。
2.3" 重建結果對比
為評估FiFR方法的重建結果,在NoW基準[26]上與先進的三維人臉重建方法對比,利用2.2節提到的評估指標,衡量FiFR 3D人臉重建方法的準確性。
NoW基準由100名受試者的2 054張面部圖像組成,分為驗證集(20名受試者)和測試集(80名受試者),每個受試者都有一個參考的3D面部掃描。圖像包括室內和室外、中性表情和表情面部、部分遮擋面部、從正面到側面的不同視角以及自拍圖像。該基準在嚴格對齊掃描和重建后,測量所有參考掃描頂點到重建網格表面最近點的歐氏距離。
參考圖3中各方法重建結果的d的均方根誤差(采用直方圖統計每個誤差值的頻數,并計算累積分布函數,表示小于或等于某個誤差值的樣本所占的百分比)形成的累計誤差分布圖,可以更好了解FiFR的性能。表3為各個常見人臉重建方法在NoW基準上的誤差值。綜合表3和圖3,FiFR方法在人臉面部幾何形狀重建方面優于大部分方法,與MICA方法接近。
圖4展示了FiFR與MICA方法的結果對比,與MICA方法相比,FiFR方法的重建結果具有清晰的高頻細節。如圖5所示,FiFR較DECA方法在年齡不同的情況下,例如人臉為嬰幼兒的時候,更貼近現實。由圖6所示,FiFR較DECA方法在處理胖瘦不同的人臉時,人臉幾何形狀重建方面更真實,在下顎處得到了更真實的三維網格。觀察DECA方法與FiFR方法的3D誤差熱圖可知,FiFR方法在整體輪廓方面的誤差更小,同時保證了面部的細節重建精度。綜合可知FiFR在人臉幾何形狀、年齡方面都有著更好的結果。
2.4" 消融實驗
為了更好的明確FiFR方法的不同部分對于三維人臉重建的意義,進行消融學習實驗驗證粗重建過程中的編碼器的效果和采用2D、3D數據混合的方式訓練的效果。
2.4.1" 編碼器消融實驗" 從面部識別網絡中獲得面部特征是粗重建過程中FiFR方法從2D數據預測幾何形狀的方法的關鍵組成部分。表4給出了不使用人臉識別編碼器以及兩種人臉識別方法AdaFace和ArcFace的性能,在粗重建網絡中,預訓練的AdaFace在重建質量方面與預訓練的ArcFace性能相當,但是在低分辨率的人臉識別中,使用AdaFace具有更好的重建效果。在與AdaFace相同的數據集上對網絡進行了500個epoch的訓練,實驗結果表明,利用FiFR的粗重建方法可以在人臉重建時有效地利用AdaFace網絡的廣義特征,在高分辨率(256×192)和低分辨率(40×30)的圖像上均優于DECA方法。在低分辨圖像的重建上,AdaFace編碼器要更優于ArcFace編碼器。
為了進一步改進AdaFace的效果,FiFR細化了AdaFace的最后一個ResNet層。在表5中,進行了部分層或整個管道的微調的消融實驗,實驗表明僅優化最后一層的ResNet塊可以有效地使用AdaFace網絡的廣義特征來完成度量人臉重建任務。
2.4.2" 3D數據訓練消融實驗" 在整個訓練過程中,與DECA方法等基于自監督的三維重建方法不同,FiFR采用2D數據和3D數據混合訓練的方式,目的是提高三維人臉幾何形狀的精確度。表6中比較了以下兩種情況下的重建性能:單獨使用2D數據,即凍結粗重建部分,利用與細節重建類似的編碼器編碼人臉外觀參數實現人臉粗重建;混合使用2D和3D數據,即在粗重建中使用2D和3D人臉數據訓練。實驗結果表明,同時采用2D和3D數據訓練的重建結果優于僅使用2D數據。
3" 結論
本文提出了一種基于AdaFace優化的三維人臉重建方法,通過用FLAME作為幾何先驗,以AdaFace人臉識別網絡作為粗重建身份編碼器,使用混合數據進行監督訓練,利用人臉UV置換貼圖增強人臉高頻細節,實現了單幅圖像的三維人臉重建,顯著提高了人臉重建幾何形狀的精度,賦予了人臉更多的高頻細節。實驗發現在有遮擋時,如下顎有遮擋等情況時FiFR重建的幾何精度較差,未來將探索有遮擋和極端姿勢下的單圖像三維人臉重建方法。
參考文獻
[1]BAS A, SMITH W A P, BOLKART T,et al. Fitting a 3D morphable model to edges: A comparison between hard and soft correspondences[C]// Asian Conference on Computer Vision. Taipei, 2017: 377-391.
[2]ALDRIAN O, SMITH W A P. Inverse rendering of faces with a 3D morphable model[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(5): 1080-1093.
[3]JACKSON A S, BULAT A, ARGYRIOU V, et al. Large pose 3D face reconstruction from a single image via direct volumetric CNN regression[C]// IEEE International Conference on Computer Vision. Venice, 2017: 1031-1039.
[4]GULER R A, TRIGEORGIS G, ANTONAKOS E, et al. Densereg: Fully convolutional dense shape regression in-the-wild[C]// IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, 2017: 6799-6808.
[5]WEI H W, LIANG S, WEI Y C. 3D dense face alignment via graph convolution networks[DB/OL]. [2024-01-03]. https://arxiv.org/abs/1904.05562.
[6]TRAN A T, HASSNER T, MASI I, et al. Regressing robust and discriminative 3D morphable models with a very deep neural network[C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 1493-1502.
[7]SANYAL S, BOLKART T, FENG H W, et al. Learning to regress 3D face shape and expression from an image without 3D supervision[C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 7755-7764.
[8]FENG Y, FENG H W, BLACK M J, et al. Learning an animatable detailed 3D face model from in-the-wild images[J]. ACM Transactions on Graphics (ToG), 2020, 40(4): 1-13.
[9]ZIELONKA W, BOLKART T, THIES J. Towards metrical reconstruction of human faces[C]// European Conference on Computer Vision. Israel, 2022: 250-269.
[10] DENG Y, YANG J L, XU S C, et al. Accurate 3D face reconstruction with weakly-supervised learning: From single image to image set[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops, Long Beach, 2019: 285-295.
[11] VLASIC D, BRAND M, PFISTER H, et al. Face transfer with multilinear models[J]. ACM Transactions on Graphics, 2005, 24(3): 426-433.
[12] ZENG X X, PENG X J, QIAO Y. Df2net: A dense-fine-finer network for detailed 3d face reconstruction[C]// IEEE International Conference on Computer Vision. Seoul, 2019: 2315-2324.
[13] RICHARDSON E, SELA M, OR-EL R, et al. Learning detailed face reconstruction from a single image[C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 5553-5562.
[14] GECER B, PLOUMPIS S, KOTSIA I, et al. GANIFIT: Generative adversarial network fitting for high fidelity 3D face reconstruction[C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 1155-1164.
[15] LI T Y, BOLKART T, BLACK M J, et al. Learning a model of facial shape and expression from 4D scans[J]. ACM Transactions on Graphics., 2017, 36(6): 1-17.
[16] KIM M, JAIN A K, LIU X M. Adaface: Quality adaptive margin for face recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. New Orleans, 2022: 18729-18738.
[17] ZHU Z, HUANG G, DENG J K, et al. WebFace260M: A benchmark unveiling the power of million-scale deep face recognition[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, 2021: 10487-10497.
[18] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 770-778.
[19] PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C]// 6th IEEE International Conference on Advanced Video and Signal Based Surveillance. Genova, 2009: 296-301.
[20] WANG Y, TAO X, QI X J, et al. Image inpainting via generative multi-column convolutional neural networks[C]// 32nd Conference on Neural Information Processing Systems, Montreal, 2018: 331-340.
[21] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[DB/OL]. [2024-01-03]. https://arxiv.org/abs/1409.1556.
[22] COSKER D, KRUMHUBER E, HILTON A. A FACS valid 3D dynamic action unit database with applications to 3D dynamic morphable facial modeling[C]// IEEE International Conference on Computer Vision. Kuala Lumpur, 2011: 2296-2303.
[23] CAO C, WENG Y L, ZHOU S, et al. FaceWarehouse: A 3D facial expression database for visual computing[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(3): 413-425.
[24] CAO Q, SHEN L, XIE W D, et al. VGGface2: A dataset for recognising faces across pose and age[C]// 13th IEEE International Conference on Automatic Face amp; Gesture Recognition. Xi’an, 2018: 67-74.
[25] BESL P J, MCKAY N D. Method for registration of 3-D shapes[C]// Sensor fusion IV: Control Paradigms and Data Structures. Boston, 1992: 586-606.
[26] SANYAL S, BOLKART T, FENG H W, et al. Learning to regress 3D face shape and expression from an image without 3D supervision[C]// IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 7755-7764.
[27] FENG Y, WU F, SHAO X H, et al. Joint 3D face reconstruction and dense alignment with position map regression network[C]// European Conference on Computer Vision. Munich, 2018: 557-574.
[28] SHANG J X, SHEN T W, LI S W, et al. Self-supervised monocular 3d face reconstruction by occlusion-aware multi-view geometry consistency[C]// European Conference on Computer Vision. Glasgow, 2020: 53-70.
Two-stage 3D Fine-grained Facial Reconstruction Method Based on AdaFace Optimization
MA Fei1, ZHANG Juan2, ZHAO Jun-li1
(1.College of Computer Science and Technology, Qingdao University, Qingdao 266071, China;
2.School of Journalism and Communication, Shaanxi Normal University, Xi′an 710119, China)
Abstract:
In order to address the limitations of current 3D facial reconstruction methods, such as the inaccuracies stemming from training DECA (Detailed Expression Capture and Animation) on 2D images leading to information loss, and the inability of MICA (MetrIc FAce) to handle high-frequency details and unrecognized facial images, the two-stage facial reconstruction approach termed FIne-grained Facial Reconstruction(FiFR) was suggested, which leverages 3D data and a more robust face recognition network for supervised and self-supervised mixed training. This method integrates the FLAME (Fitting Landmarks and Morphable Expression) facial model, the AdaFace (Quality Adaptive Margin for Face Recognition) face recognition network, and the DECA framework to achieve high-precision detail fusion. In the coarse reconstruction stage, Adaface identity encoders encoded 2D images into latent spaces, and a mapping network trained on 2D and 3D data transformed the encodings into relevant parameters of the FLAME model, generated coarse reconstruction results. In the fine reconstruction stage, inspired by DECA, a detail-consistency loss-constrained UV displacement map was generated to enhance the facial high-frequency details, achieving fine-grained facial reconstruction from a single image. Experimental results demonstrate that FiFR reduces the average reconstruction error by 14% compared to DECA, with an 18% reduction in error for low-resolution images. Furthermore, FiFR exhibits more high-frequency details compared to the MICA method.
Keywords:
3D facial reconstruction; deep learning; neural networks