中圖分類號:TP37 文獻標志碼:A 文章編號:1001-3695(2025)07-041-2227-07
doi:10. 19734/j. issn. 1001-3695.2024.09.0368
Abstract:Duetothelackofaditionalgeometricconstraintsandpriorknowledge,thereconstructionresultsofexistingmultiview 3D humanbodyreconstruction methods are poor interms ofqualityandcompletenes.In response tothe above problems, this paper proposeda3DGausianreconstructionalgorithmDHGS forsparse views.Firstly,itimproved estimationmethod for humanbodymodelparametersbycombiningmulti-viewjointreprojectionandintersection-over-unionror,utilizedaccurate bodypriors toiitialize3DGaussianmodel.Secondlyitproposedanadaptivedepthadjustmentmodulethatincorpoateddepth estimationmodel,acieveddepthegularizationthroughdiferentiablerasterizationrendering,ndeancedthegeometriconsistencyofthereconstructionbyleveraginghumanbodyanddepthpriorknowledge.Finall,itgeneratedsyntheticpseudo-views duringtheoptimizationprocess toenforceadditional geometricconstraints.ExperimentalresultsontheZJU-MoCap,GeneBody, and DNA-Rendering datasetsshowthatthe DHGS algorithm achieves PSNRof 26.13dB,24.87d,and 25.25dBforimage reconstruction,represented improvements of 27.3% , 32.6% ,and 17.4% over the original 3DGS algorithm.The experiments validateteeffectivenessofthealgorithm,withtheDHGSmodelbeingcapableoftraininginjust5minutestorenderhighquality 3D human body images in real time.
Keywords:3Dhuman reconstruction;3D Gaussiansplatting;depth regularization;diferentiablerasterizationrendering
0 引言
三維人體重建旨在生成具有真實外觀的人體三維模型,該技術在元宇宙、人機交互、虛擬和增強現實、游戲與電影制作等領域有著廣泛的應用前景。傳統的三維人體重建方法使用密集的陣列相機系統采集人體多視角圖像,通過視圖融合[1]、幾何建模[2]、紋理制作等流程進行重建,盡管能得到逼真的人體模型,但其高成本和低效率限制了其在日常生活場景的應用。
相比之下,基于稀疏視圖輸入的三維人體重建技術降低了數據采集難度和相應的設備、時間成本,應用范圍更廣。此類方法主要基于神經輻射場(neural radiance fields,NeRF)[3],用深度神經網絡來編碼人體場景的連續體積密度和顏色信息,通過可微分的體積渲染技術生成圖像,受益于NeRF強大的隱式三維表示,生成的人體模型具有逼真的渲染效果。三維高斯濺射(3DGaussiansplatting,3DGS)4是較新的三維重建方法,它將場景顯式地表示為三維高斯的集合,采用高度并行的可微分光柵化渲染和自適應密度控制技術,無須訓練復雜的深度網絡,在優化速度、實時渲染和生成質量方面相比NeRF均具有明顯優勢。3DGS在運動恢復結構(structurefrommotion,SfM)[5]生成的稀疏點云上創建三維高斯點,其性能強烈依賴于初始化點的數量和精度。在稀疏視圖輸入條件下,SfM生成的點云數量減少,導致3DGS難以收斂,優化速度變慢。同時,稀疏的輸人視圖無法為三維重建提供充足的約束條件,使得三維人體場景結構的模糊性和歧義性顯著增強,導致模型過擬合、渲染質量較差等問題。
本文基于3DGS,提出了一種結合人體和深度先驗的稀疏視圖三維人體重建方法DHGS。針對稀疏視圖輸入條件下初始化點數量和精度不足的問題,引人蒙皮多人線性模型(skinnedmulti-personlinearmodel,SMPL)為三維高斯場景提供結構化幾何人體先驗,生成密集的初始三維高斯點。引入單目深度估計模型得到密集深度信息,為了解決估計深度中的尺度模糊性,使用SMPL模型的深度渲染結果進行深度調整,從而作為額外幾何約束增強重建的完整性和準確性。利用三維高斯濺射自身的泛化能力,通過合成偽視圖進一步提高幾何一致性。
1相關工作
1.1基于神經輻射場的稀疏視圖三維重建方法
神經輻射場(NeRF)使用深度神經網絡作為3D空間的表達,根據大量輸入圖像的像素顏色優化3D場景的顏色信息和幾何形狀,采用體積渲染技術獲得高質量的場景視圖。然而,對密集圖像輸入的要求阻礙了其實際應用,引發了僅使用少量圖像進行3D重建的研究。一類方法引入了對視圖之間變化的約束,DietNeRF[7]使用預訓練的視覺編碼器提取高級語義屬性,添加語義一致性約束以確保該屬性在不同視圖中保持相同。 RegNeRF[8] 引入顏色和深度一致性損失,使用歸一化流模型來規范未觀察到的視點顏色。ViP-NeRF[9]修改了傳統的NeRF框架,以額外計算點的可見性實現在可見性約束下的性能改進。另一類方法通過深度監督來解決稀疏視圖問題,SparseNeRF[10]使用預訓練的深度估計模型獲取深度圖,然后將其用于局部深度排序損失,還應用深度平滑度損失和空間連續性約束來鼓勵渲染的深度圖分段平滑。DSNeRF[11]使用SfM點進行深度監督,添加損失以鼓勵光線終止深度的分布與給定的3D關鍵點匹配。然而,大多數稀疏視圖NeRF方法的處理速度較慢,內存消耗巨大,導致時間和計算成本較高。
1.2基于三維高斯的稀疏視圖三維重建方法
三維高斯濺射(3DGS)是較新的三維重建方法,用濺射技術和顯式表示替換NeRF方法的體積渲染和神經網絡可顯著減少訓練時間,并允許在優化過程中進行實時渲染,顯式的三維高斯表示相比隱式表示允許更直接的編輯和更直觀的解釋。為了緩解在輸入圖片數目受限的情況下3DGS性能下降的問題,SparseGS[12]將深度先驗與生成和顯式約束相結合,以減少背景折疊,消除漂浮物,并增強基于不同視點的幾何一致性,達到從稀疏訓練視圖中訓練高質量360度場景的目的。FSGS[13]同樣采用深度監督,提出了一種鄰近引導高斯解池方法來致密化高斯,從而提升3DGS的新視角泛化能力。CoherentGS[14]通過隱式卷積解碼器和總變化損失引入單視圖和多視圖約束,使用基于流的損失函數進一步約束優化。DNGaussian[15]提出硬和軟兩部分的漸進式深度監督流程,結合全局局部深度歸一化策略,有效提升了模型訓練的速度與質量,同時為了緩解優化過程中的過擬合問題,將3DGS中的球諧系數替換為神經網絡。CoR-GS[16]同時訓練兩個高斯輻射場,通過協同修剪點云與偽視圖協同正則化的方法來識別和抑制不準確重建。InstantSplat[17]將多視圖立體重建與基于點的表示集成在一起,使用Dust3r為三維高斯提供初始化點云和位姿,在幾秒鐘內從稀疏視圖數據構建大規模場景。由于人體具有復雜的幾何結構和非剛性特性,通用的稀疏視圖3DGS方法難以直接應用于三維人體,需要更具針對性的重建方法。
2 本文方法
本文提出的稀疏視圖三維人體重建方法DHGS共五個流程,包括稀疏視圖輸入、高斯初始化、自適應深度調整、偽視圖合成和梯度傳播和優化,如圖1所示。
視圖輸人階段需同時準備人體前景掩碼、相機校準位姿和預處理好的SMPL參數。進入重建過程首先進行高斯初始化,依據SMPL值初始化高斯基元的位置,將顏色和形狀屬性設為初始值,生成人體點云。其次執行單目深度預測獲得深度預測值,基于SMPL渲染深度自適應調整深度值。然后在模型優化指定輪次后,合成偽視圖以進行后續優化。最后通過點噴濺生成二維圖像和深度圖,計算圖像渲染誤差和深度值誤差,進行梯度傳播和優化。
2.1 多視圖數據預處理
首先對多視角人體動作視頻進行幀提取和篩選獲得原始輸入圖像,使用 RVM[18] 得到高精度人體前景掩碼。隨后提取人體模型參數,SMPLx[19]是基于 SMPL 模型的擴展,增加了面部表情和手部動作參數,用于更精確地表示人體姿態和形狀。
該模型假設人體在基準姿態下的幾何形狀不僅受身份屬性影響,同時不同的姿態屬性也會引起基準姿態幾何形狀的非剛性變形。SMPLx模型 M(θ,β) 是由 ns=10475 個三維點組成的具有固定拓撲的人體網格, θ∈R72 和 β∈R10 表示人體關節旋轉姿態和統計模型中的超參數,三維點中頂點表示人體的表面形狀,關節點表示人體內部結構,通過調整頂點和骨骼的位置朝向,能夠模擬出不同的人體形態。現有的人體模型參數估計方法用單張圖片估計,難以處理遮擋和估計不準確等問題。為了從具有相機矩陣 R 的多個輸入視圖中估計準確且均勻的SMPLx網格和參數 θ?β ,首先使用隨機選擇的輸入圖像預測粗略結果作為初始化,然后擴展SMPLify[人體參數估計方法,將多視圖關節重投影誤差加入到優化過程中:
其中: P={Pk∣k=1,…,K} 是使用OpenPose[20]估計出的2D關節位置; ωn,k 是圖像 In 中關節 k 的對應置信權重值; Jk 是在齊次坐標系中由 θB 得出的3D關節 k;s 和 χt 是SMPLx模型的比例因子和全局平移參數 ;ρ 表示Geman-McClure損失函數。
然而,僅僅最小化多視圖關節重投影誤差可能會導致模型對人體形狀的擬合不當,這是因為關節位置對身體形狀的約束較為寬松。因此進一步定義SMPLx投影區域與圖像掩碼 M= {Mn∣n=1,…,N} 之間的交并比(IoU)誤差,以使預測出的模型更加精確地擬合到多視圖中的人體形狀。交并比誤差計算公式為
其中: T 是應用于給定人體模型網格的可微分渲染函數,使用透視投影輸出圖像對應的2D掩碼,交并比誤差函數為 IoU(A, B)=|A∩B|/|A∪B| ,總能量函數可以寫為
Etotal=λprojEproj+λIoUEIoU+λθEθ(θ)+λaθEa(θ)+λβEβ(β) (3)其中: {λproj,λIoU,λθ,λa,λβ} 是函數權衡參數; Eθ(θ) 是預定義的正則化項,用來防止生成不可能的姿勢和形狀。當相機內外參數給定時,通過以下方式優化SMPLx參數:
采用Adam梯度下降法來求解最優解,直到它收斂到一個預定義的閾值,最終得到基于多視圖調整后的人體參數。
2.2基于SMPL模型的高斯初始化
3DGS使用三維高斯表示3D場景,這些高斯通過其位置、旋轉、縮放、不透明度以及與顏色相關的球諧系數進行參數化,對顏色和不透明度進行alpha混合,通過基于潑濺的渲染技術將高斯投影到二維平面來渲染圖像,第 i 個三維高斯可定義為
其中 εμi∈R3 是三維高斯的中心坐標;不透明度 oi∈[0,1] 和球諧函數參數 Ci∈Rk(k 是自由度)用來渲染二維像素顏色。為了使三維高斯可微分并能通過梯度下降正則化優化,協方差矩陣 Σi 可以分解為縮放矩陣 Si∈R+3 和旋轉矩陣 Ri∈SO(3) :
Σi=RiSiSiTRiT
3DGS的視圖渲染通過點潑濺執行,三維高斯被投影到二維平面上形成二維高斯,該過程通過視圖變換 W 和投影變換J 仿射近似的雅可比行列式實現,二維平面中的協方差矩陣Σi2D 可以計算為
對于渲染圖像中每個像素的顏色,通過按深度順序覆蓋該像素所有高斯的不透明度和顏色進行alpha混合來計算,渲染公式為
其中: N 表示覆蓋該像素的所有高斯; ci 是通過計算給定觀察變換 W 的球諧函數獲得的顏色; ai 由該像素位置的投影二維高斯的密度乘以三維高斯的不透明度 oi 得出。3DGS優化過程如圖2所示。
在優化期間,首先通過運動恢復結構(SfM)初始化三維高斯,隨后使用潑濺技術生成預測的二維圖像,計算與真實值之間的損失,最后反向優化高斯參數并自適應地控制這組三維高斯的密度。高斯自適應控制包括分割、克隆和剪枝三種,如果大梯度高斯的縮放矩陣大小大于閾值,它將被分割成更小的高斯,反之則將被克隆。分割和克隆過程增加了高斯的數量,修剪操作則消除了不透明度過小或縮放幅度過大的高斯。
當前的三維高斯濺射方法使用SfM生成的稀疏點云進行初始化,SfM點為初始三維高斯提供了基本的顏色和位置信息,但其固有的稀疏性使得模型需要大量的優化時間來致密和細化高斯,以實現充分的3D人體重建。尤其是在稀疏視圖輸入情況下,SfM得到的點云極其稀疏,不穩定的初始化三維高斯還會導致重建結果與訓練視圖過擬合。為解決該問題,本文方法引入參數化人體模型作為人體幾何先驗,采用多視圖擬合校準的SMPL點云取代稀疏SfM點集進行三維高斯初始化,這可以構建三維高斯對人體結構的初步感知,增強模型在不同人體形狀、不同動作姿勢下的泛化性。此外,根據人體先驗約束三維高斯的最小形狀,在具有頂點集合 V 的SMPL模型中,通過計算最小頂點坐標 pmin=(xmin,ymin,zmin) 和最大頂點坐標pmax=(xmax,ymax,zmax) 得到其包圍框的尺寸 s 和中心點 c ·
S=(xmax-xmin,ymax-ymin,zmax-zmin)
根據比例因子 η 擴展包圍框,以增強其魯棒性,調整后的包圍框尺寸 S′=ηS ,在三維高斯優化過程中限制新高斯點的中心坐標在包圍框范圍內。基于SMPL人體模型的高斯初始化過程利用三維先驗模型來提供強大的場景結構以及充足的高斯基元來構建場景,最大限度地減少了稀疏SfM點集稀疏性和不穩定性的影響,有效縮短了高斯優化的時間,增強了重建質量。
2.3基于深度先驗的高斯正則化
3DGS通過三維高斯來表示3D場景,從而產生優質視覺效果。然而,在稀疏視圖輸入情況下,觀測不足限制了其對幾何一致性的學習能力,導致了模型過擬合的風險,同時也會影響到對新視圖的泛化能力。因此需要提供全局的幾何信息,以引導生成的新視圖符合合理的人體幾何形狀。深度已被證實是一種高效的幾何先驗[12],但其構造存在一定的困難:SfM點的密度依賴于圖像的數量,因此得到的點數量過少,無法直接在稀疏輸入的情況下得到有效深度。為了解決這一問題,引入單目深度估計模型[21],使用其生成的密集深度信息來指導三維高斯,引導高斯幾何模型朝著合理的方向優化。輸入訓練圖像1,單目深度估計模型 Fθ 輸出密集深度 Dest
Dest=s?Fθ(I)+t
為了解決估計的密集深度 Dest 中的尺度模糊性,根據SMPL人體模型參數生成的人體網格,從指定相機位姿渲染SMPL深度進行自適應深度調整:
深度圖是通過計算每個像素的深度值來生成的。其中: n 是圖像中像素的總數; Zc(xi,yi) 是對應于像素 (xi,yi) 的相機坐標系中頂點的 z 坐標; Vc(xi,yi) 是頂點到相機中心的距離。之后將估計深度的尺度 s 和偏移 χt 調整為SMPL模型的渲染深度:
其中: w∈[0,1] 表示每個特征點的可靠性歸一化權重,該可靠性被計算為來自SMPL模型的重投影誤差的倒數。最后,使用調整后的預測深度 Dest=s??Fθ(I)+t? 來正則化3DGS的優化損失。
利用光柵化管道來渲染三維高斯濺射的深度圖,為了在引導高斯優化之前啟用深度的反向傳播,實現了可微深度光柵化方法,允許高斯模型接收渲染深度 Dres 和估計深度 Dest 之間的誤差信號。具體來說,利用三維高斯濺射中的alpha混合渲染進行深度光柵化,其中對像素有貢獻的有序高斯的 z 值被累積以生成深度值:
其中: di 代表第 χi 個高斯的 z 值,完全可微的光柵化實現了深度相關損失,進一步提高了渲染深度和估計深度之間的相似度。最后,使用L1距離將渲染深度引導至估計的密集深度:
2.4基于偽視圖合成的數據增強
三維高斯方法在稀疏視圖輸入條件下進行三維人體重建時,由于輸入視圖較少的限制,容易導致模型過度擬合輸入視圖,使得除輸人視角外的其他重建結果過度拉伸,存在不合理的幾何形狀等問題。這是因為稀疏的二維視圖不能為三維重建提供充足的幾何約束條件,尤其是在紋理特征較少的區域,直接將3DGS應用于稀疏視圖場景會導致嚴重的性能下降。通過生成偽視圖可以解決上述問題,因為在訓練數據中包含更多視圖會對輸出質量產生積極影響,額外的視圖可以改善細節和紋理的表示,同時減少模糊性和偽影。偽視圖的不同視點從新穎的角度貢獻了新數據,有助于消除場景的幾何和視覺屬性的歧義。
使用優化的三維高斯模型圍繞原始視圖合成偽視圖,并采用視圖選擇策略來提高訓練視圖覆蓋范圍并保持視圖質量。在后續的優化過程中引入合成的偽視圖來將更多先驗知識納入高斯場景,進而增強新穎視圖合成的幾何一致性。合成視圖是從歐幾里德空間中兩個最接近的訓練視圖中采樣的,計算平均相機方向并在它們之間插入一個虛擬方向,然后渲染圖像:
P′=(t+ε,q),ε~N(0,δ)
其中: t∈P 表示相機位置; q 表示兩個相機平均旋轉的四元數。這種合成偽視圖的數據增強方法可以實現動態幾何更新,三維高斯將逐步更新,從而降低過擬合的風險。
3 實驗結果與分析
3.1數據集
為驗證DHGS的稀疏視角人體三維重建性能,在ZJUMoCap[2]、GeneBody[23]和 DNA-Rendering[24]數據集上進行實驗。三個數據集均為多視角動態人體數據集,人體動作視頻由360度環繞中心人體的多個均勻分布的同步攝像機拍攝,攝像機被調整為指向中心,即表演者的位置。ZJU-MoCap數據集包含10段人類表演視頻序列,每個序列由23部同步攝像機拍攝,序列長度在 60~300 幀,視頻分辨率為 1024×1024 。GeneBody數據集由48部同步攝像機拍攝的50個視頻序列組成,包括超過295萬幀的100個主題,每個序列有150幀,視頻分辨率為2448×2048 。DNA-Rendering數據集包含1500多個人類受試者 ?5000 個運動序列和67.5M幀的數據量,本文使用其中48臺 2448×2048 工業相機拍攝的數據。由于每個視頻序列的長度不同和靜態人體重建的需要,在每個數據集中選取4個代表性序列,序列中每30幀提取1幀靜態人體圖像,選擇水平位置上四個均勻圍繞中心人體(即前、后、左、右)的相機視角,以512×512 分辨率的視圖訓練模型,并在其余相機視圖上評估重建效果。
3.2 評價指標
稀疏視角三維人體重建的結果采用峰值信噪比(peaksignal-to-noiseratio,PSNR)、結構相似性指數(structuralsimilari-tyindex,SSIM)和學習感知圖像塊相似度(leamedperceptualimagepatchsimilarity,LPIPS)三個指標來評估。
a)峰值信噪比(PSNR):基于原始圖像和生成圖像之間的均方誤差(MSE)定義,是用于衡量圖像重建質量的客觀評價指標,用MSE計算PSNR值。
其中: Lmax 為圖像的最大像素值;PSNR以分貝(dB)為單位,數值越大表明重建的圖像質量越高,越接近真實結果。
b)結構相似性指數(SSIM):用于衡量兩張圖像相似度的指標,它更加符合人眼的視覺感知特性。SSIM的計算涉及亮度、對比度和結構三個分量,在實際應用中將三者的權重系數均設為1,可得公式為
其中: ux 和 uy 是圖像 x 和 y 在局部窗口的均值; σx 和 σy 是圖像 x 和 y 的方差; σxy 是兩圖像的協方差; c1=(K1L)2,c2= (K2L)2 以及 c3=c2/2 是為了避免分母為零而引入的常數; K1 與 K2 默認為0.01和 0.03:L 是像素值的動態范圍。SSIM的計算基于滑動窗口實現,為了得到整個圖像的SSIM值,對圖像進行滑動窗口操作,計算每個窗口的SSIM值,然后對所有窗口的SSIM值取平均。
c)學習感知圖像塊相似度(LPIPS):利用卷積神經網絡(CNN)的特征提取能力,以模擬人類視覺系統對圖像差異的感知,用來衡量圖像之間的感知差異。
其中: dLPIPS 為 x 與 x0 之間的距離。從 L 層提取特征并在通道維度中進行單位規格化,利用向量 wl 來放縮激活通道數,計算L2距離,最后在空間上平均,通道上求和。
3.3 實驗細節
實驗環境為Ubuntu20.04,Python3.7.13,PyTorch1.12.1,CUDA11.6,硬件環境為IntelXeonW-2255CPU,NVIDIAGe-ForceRTX3090GPU,64GBRAM,所有實驗均在相同配置下進行。輸入數據在ZJU-MoCap數據集上選擇“0、6、12、18”號相機視圖,GeneBody和DNA-Rendering數據集上選擇“1、13、25、37”號相機視圖,使用數據集中提供的相機內外參數和前景掩碼,由于三維高斯的原始版本默認使用中心點作為主點,但主點在GeneBody和DNA-Rendering數據集中被定義為其他值,渲染的新視圖會發生錯位,實驗中重寫了數據讀取和處理方法以使結果正確。數據預處理過程中,將圖像和對應的人體前景掩碼更改為 512×512 像素,盡量確保人物位于中心。利用預訓練的DepthAnything V2[21] 進行單目深度估計,同時將圖像背景設為黑色。在優化過程中,所有數據集的總優化步驟設置為30000,在20000次迭代后對偽視圖進行采樣。
3.4消融實驗分析
為驗證本文所提各模塊的有效性,在GeneBody數據集上針對高斯初始化、深度監督和偽視圖合成三個模塊以3DGS為基線進行了消融實驗,分別驗證各模塊及其組合的三維人體重建效果。實驗結果為序列中選取人體場景重建結果的平均值,如表1所示,除增減相關模塊外,實驗參數設置均保持一致。
表1消融實驗結果Tab.1Ablation study results
由表1消融實驗結果可知,作為基線的3DGS方法因缺少額外的約束導致重建指標較差,在3DGS方法中分別添加高斯初始化、深度監督和偽視圖合成三個模塊后,重建結果均有不同程度的提高。效果最好的深度監督模塊,使基線方法的PSNR提高了 19% ,偽視圖合成模塊也能將基線提升 13% 。而高斯初始化讓重建結果提升 5% ,明顯不如其余模塊,SMPL人體點云為高斯場景提供了初始結構化感知,它對重建結果的影響會因優化過程中的自適應密度控制而降低,但相比基線使用的SFM點,高斯初始化仍是提升結果的重要模塊。圖3為消融實驗人體重建可視化結果。
在3DGS基線方法中,重建模型因過度擬合訓練視圖,從而產生了明顯分散與割裂的結果,尤其是在面部、手部和服裝等細節區域。SMPL點云帶來的結構化人體先驗一定程度上緩解了這種割裂,深度監督和偽視圖合成模塊進一步為高斯模型提供了幾何約束,豐富了結構和視覺細節,使重建結果更加貼近真實人體。深度監督模塊通過深度數據引導三維高斯的參數向更合理的幾何形狀優化,有效地消除了人體重建結果中的裂縫。偽視圖合成模塊為稀疏的訓練集提供了更多視點,該模塊將三維高斯錨定到合理的幾何形狀,顯著增強了生成新視圖的穩定性。三種模塊的組合使本文方法相比基線模型
PSNR提升了 32% ,SSIM提升了 3.4% ,LPIPS降低了 23% ,證明本文提出的各模塊能有效提升稀疏視圖三維人體重建的效果。
3.5 與現有方法的對比實驗
為驗證稀疏視圖三維人體重建效果,將DHGS與3DGS、Neural Body[22] NHR[25] ) IBRNet[26] 、AnimatableNeRF[27]和 Hu-(2號 manNeRF[28] 在 ZJU-MoCap、GeneBody 和 DNA-Rendering 數據集上進行對比實驗,在表2中列出了不同方法的人體重建質量定量結果。
表2展示了七種人體重建方法在ZJU-MoCap、GeneBody和DNA-Rendering數據集上的PSNR、LPIPS和SSIM三種評價指標數據。由對比實驗結果可知,DHGS在三個指標上均能取得最佳結果,尤其是在ZJU-MoCap和GeneBody兩個數據集上,LPIPS能達到平均值0.079,顯著優于對比方法,證明DHGS的人體重建效果在人眼感知上更為接近真實值。DHGS方法在PSNR和SSIM評價上也取得了較好結果,在ZJU-MoCap和GeneBody兩個數據集上,PSNR達到平均值25.50,相較Neural
Body、NHR和IBRNet方法有所提升,較3DGS方法提升顯著,SSIM達到均值0.935,顯示DHGS與其他主流稀疏人體重建方法相比重建效果有較大提高,顯著提升了3DGS處理稀疏視圖人體重建任務的性能。
圖4展示了三個數據集上的對比實驗人體重建效果及其關節、頭部和衣物細節。3DGS方法依賴于密集的輸入視圖來擬合特定的人體形狀,而當輸入減少時,其性能指標會顯著降低。3DGS因缺少幾何約束,在四視圖輸入的條件下難以收斂,導致重建效果不佳,但仍然能呈現符合直覺的圖像輪廓,體現了3DGS技術的強大能力。NHR、NeuralBody、AnimatableNeRF和HumanNeRF都采用了強大的人類先驗知識指導模型優化,包括SMPL網格、混合權重和運動先驗知識等,因此它們相比3DGS對稀疏輸入視圖更加魯棒,重建效果普遍具有合理的人體形狀。NHR使用卷積網絡渲染圖像,在恢復幾何結構時存在表面細節丟失的問題,導致重建模型呈現出過度的平滑性。原因在于其網絡結構未能有效捕捉和表達高頻率的細節信息。
NeuralBody和AnimatableNeRF首先從SMPL計算3D邊界框,然后在重新投影的3D框區域上訓練。因此,它們的SSIM分數通常大于推斷整個圖像的其他方法。HumanNeRF引入專注于人體的運動先驗,這種先驗可能導致在寬松衣服對象上的訓練失敗。IBRNet學習通用的視圖插值函數,對于遠離輸入視角的新視圖泛化能力較差。DHGS使用深度和人體先驗,結合偽視圖合成技術,克服了其他方法的缺點,人體重建效果接近真實值,具有高質量的細節表現。
在表3中展示了更多對比評估指標,各模型在圖像分辨率為 512×512 的情況下體量較小。得益于3DGS的高斯點云表示,DHGS不使用深度神經網絡,模型大小相比基于NeRF的方法大幅降低,訓練時間由平均 14h 降低到僅有 5min ,同時每秒渲染幀數大幅上升,能達到119fps,可實現人體的實時渲染。3DGS的每個基元需要59個浮點數來存儲,該數量遠低于深度神經網絡所需的參數量。
4結束語
在三維高斯濺射算法的基礎上,提出一種基于深度正則化的三維人體重建算法DHGS。通過SMPL人體參數化模型提供的人體幾何先驗,為高斯場景提供密集的結構化初始高斯基元。使用深度先驗正則化高斯潑濺過程,通過實驗證明了這種幾何指導的有效性。為了獲得密集的深度引導,采用預訓練的單目深度估計模型,并根據SMPL人體網格模型的深度渲染結果自適應調整深度。在高斯場景優化指定次數后合成偽視圖來執行額外幾何約束。在ZJU-MoCap、Gene-Body和DNA-Rendering三個數據集上分別與3DGS、NeuralBody、NHRIBRNet、AnimatableNeRF和HumanNeRF方法進行對比。相較于上述算法,DHGS生成的人體新視圖圖像質量接近目標圖像,各項分析指標有了較大的提升。在GeneBody數據集中檢查了提出的高斯初始化、深度監督和偽視圖合成模塊的有效性,結果顯示所提算法各模塊能提高基于三維高斯濺射的三維重建性能。
DHGS通過深度正則化提高了三維高斯濺射在稀疏人體場景的重建質量,但方法仍具有局限性。首先,該方法嚴重依賴于單目深度估計模型的性能,不正確的深度預測會導致重建結果偏離合理形狀。其次,本文方法使用SMPL頂點初始化高斯基元并將估計深度擬合到SMPL頂點來調整尺度,即使高斯基元會被不斷優化,SMPL參數的準確性仍會影響重建性能。此外,算法結果仍存在較多的空中浮點和偽影,細節部分有撕裂和模糊情況。未來將探索使用更先進的多視圖深度估計方法,利用多視角數據對深度值進行校準以增強其準確性,引人寬松的相對損失來減少深度預測不準確的影響,探索剪枝和知識蒸餾等技術在減少冗余偽影、提升細節表現方面的作用。
參考文獻:
[1]陳雅麗,李海生,王曉川,等.基于先驗知識的單視圖三維點云重 建算法研究[J].計算機應用研究,2023,40(10):3168-3172. (ChenYali,Li Haisheng,Wang Xiaochuan,etal.Single-view 3D point cloud reconstruction algorithm based on priori knowledge[J]. Application Researchof Computers,2023,40(10) :3168-3172.)
[2]陳素雅,何宏.基于特征點動態選擇的三維人臉點云模型重建 [J].計算機應用研究,2024,41(2):629-634.(Chen Suya,He Hong.3D face point cloud model reconstruction based on dynamic selection of feature points[J].Application Research of Computers, 2024,41(2):629-634.)
[3]Mildenhall B,Srinivasan P P,Tancik M,et al. NeRF: representing scenes as neural radiance fields for view synthesis[J].Communicationsof the ACM,2021,65(1) :99-106.
[4]Kerbl B,Kopanas G,Leimkuehler T,et al.3D Gaussian splatting for real-time radiance field rendering[J]. ACM Trans on Graphics, 2023,42(4) :139.
[5]Snavely N,Seitz S M,Szeliski R.Photo tourism;exploring photo collections in 3D[J].ACMTrans on Graphics,2006,25(3):835- 846.
[6]Bogo F,Kanazawa A,LassnerC,etal.Keep it SMPL:automatic estimation of 3D human pose and shape from a single image[C]//Proc of the 14th European Conference on Computer Vision. Cham:Springer, 2016:561-578.
[7]Jain A,Tancik M,Abbeel P.Putting NeRF on a diet: semantically consistent few-shot view synthesis[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2021:5865-5874.
[8]Niemeyer M,Barron JT,Mildenhall B,et al. RegNeRF: regularizing neural radiance fields for view synthesis from sparse inputs[C]//Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ:IEEE Press,2022:5470-5480.
[9]Somraj N,Soundararajan R,Somraj N,et al. ViP-NeRF:visibility prior for sparse input neural radiance fields[C]//Proc of ACM SIGGRAPH Conference.New York:ACM Press,2023:1-11.
[10]Wang Guangcong,Chen Zhaoxi,LoyC C,etal.SparseNeRF:distilling depth ranking for few-shot novel view synthesis[C]//Proc of IEEE/ CVFInternational Conference on Computer Vision.Piscataway,NJ: IEEE Press,2023:9031-9042.
[11]DengKangle,Liu A,Zhu Junyan,etal.Depth-supervised NeRF:fewer viewsand faster training for free[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2022:12872-12881.
[12]XiongHaolin,Muttukuru S,Upadhyay R,et al.SparseGS:real-time 360° sparse view synthesis using Gaussian splatting [EB/OL]. (2023)[2024-05-27]. htps://arxiv.org/abs/2312.00206.
[13]Zhu Zehao,Fan Zhiwen,Jiang Yifan,et al.FSGS:real-time few-shot view synthesis using Gaussian splatting[EB/OL]. (2023)[2024-05- 27]. https://arxiv.org/abs/2312.00451.
[14]Paliwal A,Ye Wei,XiongJinhui,etal.CoherentGS:sparse novel view synthesis with coherent 3D Gaussians[EB/OL].(2024)[2024-05- 27]. https://arxiv.org/abs/2403.19495. puo view 3D Gaussian radiance fields with global-local depth normalization [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2024:20775-20785.
[16]Zhang Jiawei,Li Jiahe,Yu Xiaohan,et al. CoR-GS: sparse-view 3D Gaussian splatting via co-regularization[EB/OL].(2024)[2024-05- 27]. https://arxiv.org/pdf/2405.12110.
[17]Fan Zhiwen,Wen Kairun,Cong Wenyan,et al.InstantSplat: sparseview SfM-free Gaussian splatting in seconds[EB/OL].(2024- 03- 29).https://arxiv.org/abs/2403.20309.
[18]Lin Shanchuan,YangLinjie,SaleemiI,etal.Robust high-resolution video matting with temporal guidance[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ: IEEE Press,2022:3132-3141.
[19]Pavlakos G,Choutas V,Ghorbani N,et al.Expressve body capture: 3D hands,face,and body from a single image[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEEPress,2019:10967-10977.
[20]Cao Zhe,Simon T,Wei Shihen,et al.Realtime multi-person 2D pose estimation using part affinity fields[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017:1302-1310.
[21]Yang Lihe,Kang Bingyi,Huang Zilong,et al.Depth anythingV2[EB/ OL].(2024)[2024-06-13].https://arxiv.org/abs/2406.09414.
[22]Peng Sida,Zhang Yuanqing,Xu Yinghao,et al.Neural body:implicit neural representations with structured latent codes for novel view synthesis of dynamic humans[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:9050-9059.
[23] Cheng Wei,Su Xu,Piao Jingtan,et al. Generalizable neural performer:learning robust radiance fields for human novel view synthesis [EB/OL]. (2022)[2022-04-25]. https://arxiv.org/abs/2204. 11798
[24]ChengWei,Chen Ruixiang,Fan Siming,et al.DNA-rendering:a diverse neural actor repository for high-fidelity human-centric rendering [C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:19925-19936.
[25]Wu Minye,WangYuehao,Hu Qiang,etal.Multi-viewneural human rendering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1679-1688.
[26]Wang Qianqian,Wang Zhicheng, Genova k,et al. IBRNet: learning multi-view image-based rendering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021:4688-4697.
[27] Peng Sida,Dong Junting,Wang Qianqian,et al.Animatable neural radiance fields formodeling dynamic human bodies[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ:IEEE Press,2021:14314-14323.
[28]Weng C,Curless B,Srinivasan PP,et al.HumanNeRF:free-viewpoint rendering of moving people from monocular video[C]//Proc of IEEE/ CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ:IEEE Press,2022:16189-16199.