基于深度學習方法的單張零件圖像重建網格模型

2024-09-14 00:00:00田錚龍雨

現代電子技術 2024年9期

摘" 要：重建物體的三維形狀是計算機圖形學領域的一個研究熱點，網格模型是一種常用的三維模型。文中基于深度學習方法提出一種從單幅機械零件圖像重建其網格模型的方法。首先經過一個圖像預處理過程將前景零件從背景中分離出來；其次基于ResNet和BSP?Net兩個骨干網絡建立一個新的網絡結構，將前景零件圖像重構為網格模型。該網絡將零件的多個視圖圖像作為輸入，并融合它們的重要特征。此外，加入形狀先驗損失引導模型的訓練過程以優化重建結果。對螺母、螺栓和墊圈進行重建實驗，驗證了該方法的有效性。通過訓練過程的損失函數曲線說明添加多視圖特征融合和形狀先驗損失可以讓損失收斂到更低的值。在三個評價指標上的測試表明，文中方法的重建結果優于ResNet+BSP?Net方法和IM?Net方法。

關鍵詞：網格模型；三維重建；深度學習；特征融合；形狀先驗；圖像分割

中圖分類號： TN911?34； TP301""""""""""""""""""""" 文獻標識碼： A"""""""""""""""""" 文章編號： 1004?373X（2024）09?0109?06

0 "引" 言

從現實中的物體重建其三維（3D）數字化模型也稱三維重建，是計算機視覺領域的經典任務。現有的三維重建技術可根據不同類型的輸入重建物體的不同三維表示形式。傳統的三維重建方法例如SfM[1]（Structure from Motion），基于多視圖幾何原理重建物體的三維形狀。然而，如果所需的信息和輸入數據不足或輸入數據包含噪聲，傳統的三維重建方法就無法表現出良好的重建性能。例如，從單一圖像重建三維模型時需要先驗知識和假設[2]。此外，如果圖像數據或掃描點云存在偏差或遮擋，重建性能也會下降[3]。

隨著深度學習技術的快速發展，三維重建領域的研究人員對應用深度學習技術重建三維模型進行了各種研究。

文獻[4]首先使用深度學習方法研究點云生成問題，通過監督學習的方式創建了一個點生成網絡PSG?Net。文獻[5]提出的PC?GAN將生成對抗網絡引入到點云生成任務中，可以將隨機噪聲重構為三維點云。文獻[6]提出的3D ShapeNets模型使用卷積深度信念網絡（CDBN）將幾何3D形狀表示為3D體素上的二元變量概率分布在3D體素上。該網絡從數據集中學習不同物體和姿態的3D形狀分布，然后合并這些概率分布。這種方法實現了2.5D深度圖到3D體素的重建。文獻[7]提出了一種端到端的網格生成模型Pixel2Mesh。該網絡首先通過卷積神經網絡從圖像中逐步提取更深層次的潛在特征向量，并將其映射到可變形球體，然后使用圖卷積操作將提取的特征向量由粗到細的可變形球體融合為目標網格模型。文獻[8]提出了AtlasNet，一種將3D形狀表示為參數化表面元素集合的方法，網絡學習將一組二維（2D）正方形轉換為曲面以生成目標形狀。

1" 本文方法

上述研究都是針對日常生活中的物體進行重建，他們使用到的數據集對機械零件泛化性較差。因此，本文提出了一個從單張零件圖像重建其網格模型的方法，過程如圖1所示。

1.1"" 圖像預處理

在進行三維重建之前，需要進行圖像預處理過程，將前景部分從背景中提取出來。前景和背景的分離是一項圖像分割任務，可以通過GraphCut算法完成。這種算法是一種交互式的圖像分割算法，用戶只需要對圖像中的前景種子點和背景種子點進行采樣，就可以實現兩者的自動分離。圖2為使用GraphCut[9]算法分割后的表格圖像實驗結果，圖2a）顯示的是原始圖像，它可以是任何分辨率的輸入，圖2b）顯示了前景和背景的標注過程，圖2c）展示了分割結果，從中可以看出，分割結果在視覺上達到了很好的表現。本次實驗的計算機系統配置為Intel[?] CoreTM i5?10500 CPU，3.10 GHz，16.0 GB RAM。

1.2" 從圖像重建網格

1.2.1" 數據集及其處理

MCB（Mechanical Components Benchmark）[10]數據集是一個用網格模型表示的機械零件三維對象的大規模數據集。本文基于MCB數據集，構建了包含螺母、螺栓和墊圈的子數據集用于三維重建任務。訓練數據總共包含4 000多個零件，測試數據總共包含300多個零件。此外，本文還對數據集進行了一系列預處理。

1）歸一化

數據集中的每個原始網格模型都具有不同的大小和維度。因此，需要進行歸一化操作將原始網格模型統一到相同的維度。本文將每個模型擬合到單位立方體中，首先將每個模型的中心點置于坐標原點，并將每個模型包圍盒的對角線長度統一為1。

2）體素化

將每個零件的原始網格模型通過binvox軟件轉換為2563分辨率的體素模型。與步驟1）類似，這些體素模型也被置于單位立方體內部的中心位置。

3）多視圖渲染

為了使網絡能夠處理不同的角度視圖輸入，本文通過Blender軟件對每個零件的網格模型生成了20張不同視角的圖像。生成的圖像初始分辨率為137×137像素，然后將其裁剪到128×128以適應網絡的輸入維度。

1.2.2" 網絡架構

本文使用編碼器?解碼器網絡架構實現圖像到網格的重建，包括一個圖像編碼器和一個形狀解碼器。圖像編碼器選擇ResNet[11]對圖像進行特征提取并壓縮成低維特征向量；形狀解碼器選擇BSP?Net[12]將低維特征向量重構成三維形狀。

網絡結構如圖3所示。

1） ResNet模塊

為了提取更多的圖像特征，需要更深層次的網絡結構，然而，更深的網絡更難訓練。ResNet框架可以降低網絡訓練的難度，它其中的殘差塊為前向網絡引入了快速連接結構，可以減少網絡層之間的信息損失，從而保證信息的完整性。ResNet有很多版本，如ResNet?18、ResNet?50等，這些版本之間的主要區別在于層數。層數越多，計算量越大。因此，為了節省計算量，本文采用ResNet?18架構。每個零件的20張多視圖經過ResNet?18處理生成對應的20個特征向量，每個特征向量都是256維，每個特征向量都包含每個視圖的像素信息。

2）多視圖特征融合模塊

該模塊計算每個特征向量對應元素的平均值，對這些特征向量進行聚合。這相當于將網絡聚焦于每個視圖中最重要的特征，聚合的向量包含這20個視圖的融合信息。如果[I∈R（224，224）]表示一幅圖像，ResNet相當于一個函數[r]：[x]→[y]；[y]∈[R256]。因此，這些圖像可以通過ResNet生成20個特征向量，可用[Y]=[{y1，y2，…}]表示。

[r（x1）=y1] （1）

[r（x2）=y2] （2）

[…"""""""" ]

[r（xn）=yn] （3）

[Gavg=（y1，y2，…，yn=g）] （4）

式中：[Gavg]指的是計算[n]個ResNet在元素級輸出的元素平均值。在多視圖特征融合模塊之后，多個視圖的特征被融合為一個256維的特征向量。然后，使用由4個線性層組成的多層感知器（MLP）來擴展該特征向量的維度。這個過程可以表示為：

[a1=σ（W1?g+b1）] （5）

[a2=σ（W2?a1+b2）] （6）

[a3=σ（W3?a2+b3）] （7）

[a4=σ（W4?a3+b4）] （8）

式中：[a1]、[a2]、[a3]、[a4]是4個線性層的輸出；[g]是融合特征向量；[W1]、[W2]、[W3]、[W4]和[b1]、[b2]、[b3]、[b4]是使用Xavier初始化器初始化的各層權重和偏置；（·）是整流線性單元（ReLU）激活函數，其定義為max（0，輸入）。最后，[a4]被重塑為[p]×4矩陣，即BSP?Net的輸入，本文中[p]為4 096。

3） BSP?Net模塊

BSP?Net是一種基于二叉空間分割（BSP）算法實現凸形狀分解的神經網絡框架。首先，形狀生成模塊從特征提取模塊中的MLP產生的4 096×4矩陣開始。矩陣表示4 096個分割平面[{Pn}]的集合。進一步，對于空間中的任何點[X]，計算該點到每個平面的符號距離函數[D]，當點[X]在形狀內部時，[D]為負，反之亦然。這一步意味著使用[n]個平面對對象進行空間劃分。接下來，將經過ReLU激活函數處理的[n]個分割平面組合成一組凸形狀原語[{Ci}]，其中ReLU激活函數保留大于0的輸入，過濾掉小于等于0的輸入。最后，通過小池化將凸形狀基元[{Ci}]合并為目標形狀[S]。

4）損失函數

為模型添加先驗信息可以讓模型更好地學習重要特征，從而獲得更好的性能。在形狀生成任務中，零件的形狀特征是重要的先驗信息。因此，本文在網絡訓練時加入了零件的形狀先驗信息來指導模型的訓練。

具體來說，首先通過在MCB數據集上預訓練好的三維卷積神經網絡（3D CNN）[13]將零件體素模型編碼為形狀向量[z]，其中包含零件的基本真實形狀信息，并將其作為形狀先驗信息來指導網絡的訓練。預訓練的3D CNN網絡包含5層三維卷積運算，每層都有ReLU激活和Xavier初始化器。如果零件的體素模型用[V]表示，三維CNN用[E2]表示，則上述過程可表示為：

[z=ReLUE2（V）] （9）

式中[z]是先驗向量。

然后，通過縮小ResNet生成的特征向量[Z]與先驗向量[z]之間在每個維度上的差值，就可以引導網絡生成正確的零件形狀向量。對于[Z]和[z]，本文將其維度設置為256-[d]，這是常用的特征向量維度。損失函數[L]計算[z]與[Z]的差值，其計算公式如下：

[L=1ni=1n（zi-zi）2] （10）

式中[n]為256。

神經網絡架構由Python的Pytorch[14]深度學習框架實現。訓練過程的批量大小為64，使用Adam優化器[15]，學習率為0.000 5。用于訓練的計算機系統配置如下：Intel[?] Xeon[?] Platinum 8163 CPU、256 GB內存、NVIDIA Geforce RTX 3090 24 GB內存和Ubuntu 18.04.6操作系統。同時，使用CUDA 11.1和CUDnn 8.0.4作為GPU加速庫。在訓練過程中，每10代輸出一個中間結果，以便觀察學習過程和網絡的性能，這相當于驗證集的作用。

2" 實驗結果與討論

圖4顯示了本文方法從螺母、螺栓和墊圈圖像重建網格模型的結果。

圖5展示了本文方法和ResNet+BSP?Net方法的損失曲線。從圖5中可以看出，與ResNet+BSP?Net方法相比，在學習率都為0.000 5的情況下，本文方法可以收斂到更小的損失值，收斂速度更慢。這是因為增加先驗知識可以幫助網絡學習更多的形狀特征，因此可以收斂到更低的值。

此外，本文對該模型的重建精度進行了定量評估。本文使用3D空間的倒角距離（Chamfer Distance， CD）、法向量連續性（Normal Consistency， NC）以及邊緣倒角距離（Edge Chamfer Distance， ECD）作為評價指標。

倒角距離是逐點計算兩個點云集合之間的[L2]距離。首先，點云[S1]中所有的點[{x1，x2，…，xn}]都在點云[S2]中所有的點[{y1，y2，…，ym}]找到[n]個距離最近的點，對所有的距離求和；點云[S2]中所有的點都在點云[S1]中所有的點找到[m]個距離最近的點，對所有的距離求和；最后把兩個距離和進行相加。CD分數越小說明重建效果越好，其計算公式如式（11）所示：

[dCD（S1，S2）=1S1x∈S1miny∈S2x-y22+1S2y∈S2minx∈S1y-x22] （11）

法向量一致性為生成的網格與真實網格的每個面片的法向量之間的點積。這項指標可以體現重建方法對物體幾何高階信息的捕獲能力。NC分數越大說明重建效果越好。

邊緣倒角距離是一種測量模型尖銳特征的評價指標。首先通過在模型表面上均勻分布的16 000點[S={si}]來計算表面的“邊緣采樣”，然后通過公式（12）計算銳度：

[σ（si）=minj∈Nε（si）ni?nj] （12）

式中：[Nε（s）]提取[s]中距離[s]的[ε]范圍內的樣本指標；[n]為樣本的表面法線。本文設置[ε]=0.01，并通過保留使[σ（si）]lt;0.1的點生成邊緣采樣。給定兩個3D形狀，它們之間的ECD分數就是相應的邊緣采樣之間的倒角距離。ECD分數越小說明對邊緣的重建效果越好。

表1顯示了本文方法和ResNet+BSP?Net方法以及IM?Net[16]方法在螺母、螺栓和墊圈三個類別中CD分數（×1 000）的比較。其中，IM?Net是一種生成隱式表示的形狀生成網絡。從表1中可以看出，本文方法的CD分數明顯低于ResNet+BSP?Net和IM?Net網絡，說明本文方法的整體重構效果更好。

表2顯示了本文方法和ResNet+BSP?Net方法以及IM?Net網絡在螺母、螺栓和墊圈三個類別中NC分數（×1 000）的比較。從表2中可以看出，本文方法的NC分數總體高于ResNet+BSP?Net和IM?Net網絡，說明本文方法對物體幾何高階信息的捕獲能力更強。

表3顯示了本文方法和ResNet+BSP?Net方法以及IM?Net網絡在螺母、螺栓和墊圈三個類別中的ECD分數（×1 000）比較。從表3中可以看出，本文方法的ECD分數總體上低于ResNet+BSP?Net和IM?Net網絡，說明本文方法在物體邊緣上的重建細節更好。

對多視圖輸入數量對網絡性能的影響進行了討論分析。初始的網絡輸入的視圖數量為20張，這里分別還對4張視圖和12張視圖輸入的網絡進行了訓練，三種不同數量視圖輸入的損失曲線如圖6所示。

圖6顯示：當網絡的輸入僅為4張視圖時，損失曲線只會收斂到一個大于0.4的較大值；當網絡的輸入為12張視圖時，損失曲線收斂到一個大于0.1的值；當網絡的輸入為20張視圖時，損失曲線可以收斂到一個小于0.1的值。這說明隨著輸入視圖數量的增加，網絡可以學習到的信息也會增加，因此可以收斂到更小的值，這對于網絡學習零件的幾何特征更加有利。

圖7展示了三種視圖數量輸入網絡生成的螺母可視化結果。

從圖7可以看到，當網絡的輸入為4張視圖和12張視圖時，網絡并不能很好地學習到螺母的幾何特征細節，例如六邊形和中間的圓孔，這是因為輸入的視圖太少，這些視圖不能完整地包含零件重要的幾何特征，使得網絡能夠學習到的信息有限。

3" 結" 語

本文基于深度學習技術提出了一種從單個零件圖像重建網格模型的方法。實驗結果表明，該方法可以實現螺母、螺栓和墊圈三類零件的重建。在倒角距離、法向量一致性評分和邊緣倒角距離三個評價指標上的測試結果說明，本文方法的重建結果優于ResNet+BSP?Net方法和IM?Net方法。后續為了生成更精確的零件形狀，可以對網絡結構進行修改，使其更關注零件的機加工特征（例如圓形、倒角）。

注：本文通訊作者為龍雨。

參考文獻

[1] SNAVELY N， SEITZ S M， SZELISKI R. Photo tourism： Exploring photo collections in 3D [J]. ACM transactions on graphics， 2006， 25（3）： 835?846.

[2] FU K， PENG J， HE Q， et al. Single image 3D object reconstruction based on deep learning： A review [J]. Multimedia tools and applications， 2020， 80（1）： 1?36.

[3] ELTNER A， KAISER A， CASTILLO C， et al. Image?based surface reconstruction in geomorphometry： Merits， limits and developments [J]. Earth surface dynamics， 2016， 4（2）： 359?389.

[4] FAN H， SU H， GUIBAS L J. A point set generation network for 3D object reconstruction from a single image [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2017： 605?613.

[5] LI C L， ZAHEER M， ZHANG Y， et al. Point cloud GAN [EB/OL]. [2018?10?13]. https：//arxiv.org/abs/1810.05795.

[6] WU Z， SONG S， KHOSLA A， et al. 3D ShapeNets： A deep representation for volumetric shapes [C]// IEEE Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2015： 1912?1920.

[7] WANG N， ZHANG Y， LI Z， et al. Pixel2Mesh： Generating 3D mesh models from single RGB images [C]// Proceedings of the European Conference on Computer Vision （ECCV）. [S.l.： s.n.]， 2018： 55?71.

[8] GROUEIX T， FISHER M， KIM V G， et al. A Papier?Mache approach to learning 3D surface generation [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2018： 216?224.

[9] BOYKOV Y Y， JOLLY M P. Interactive graph cuts for optimal boundary amp; region segmentation of objects in N?D images [C]// 8th IEEE International Conference on Computer Vision. New York： IEEE， 2001： 105?112.

[10] KIM S， CHI H G， HU X， et al. A large?scale annotated mechanical components benchmark for classification and retrieval tasks with deep neural networks [C]// European Conference on Computer Vision. [S.l.： s.n.]， 2020： 175?191.

[11] HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2016： 770?778.

[12] CHEN Z， TAGLIASACCHI A， ZHANG H. BSP?Net： Generating compact meshes via binary space partitioning [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. New York： IEEE， 2020： 42?51.

[13] JI S W， XU W， YANG M， et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis and machine intelligence， 2013， 35（1）： 221?231.

[14] PASZKE A， GROSS S， MASSA F， et al. PyTorch： An imperative style， high?performance deep learning library [C]// Conference on Neural Information Processing Systems. [S.l.： s.n.]， 2020： 7994?8005.

[15] KINGMA D， BA J. Adam： A method for stochastic optimization [EB/OL]. [2017?01?30]. https：//arxiv.org/abs/1412.6980v6.

[16] CHEN Z Q， ZHANG H. Learning implicit fields for generative shape modeling [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2019： 5939?5948.

Reconstructing mesh model from single part images

based on deep learning method

TIAN Zheng， LONG Yu

（State Key Laboratory of Featured Metal Materials and Life?cycle Safety for Composite Structures， Guangxi University， Nanning 530004， China）

Abstract： Reconstructing the 3D shape of an object is a research hotspot in the field of computer graphics. Mesh model is a commonly used 3D model. In this paper， a method to reconstruct a mesh model from a single image of a mechanical part is proposed based on deep learning method. The foreground parts are separated from the background after a process of image preprocessing. A new network structure is built based on two backbone networks （ResNet and BSP?Net） to reconstruct the foreground part images into a mesh model. In this network， multi?view images of the parts are taken as the input and their important features are fused. In addition， a shape prior loss is added to guide the training process of the model to optimize the reconstruction results. Reconstruction experiments on nuts， bolts and washers validate the effectiveness of the proposed method. The loss function curve of the training process shows that adding multi?view feature fusion and shape prior loss can make the loss converge to a lower value. Tests on three evaluation indexes show that the reconstruction results of the proposed method outperform those of the ResNet+BSP?Net method and the IM?Net method.

Keywords： mesh model; 3D reconstruction; deep learning; feature fusion; shape prior; image segmentation

DOI：10.16652/j.issn.1004?373x.2024.09.020

引用格式：田錚，龍雨.基于深度學習方法的單張零件圖像重建網格模型[J].現代電子技術，2024，47（9）：109?114.

收稿日期：2023?11?13"""""""""" 修回日期：2023?12?06

基金項目：廣西自然科學基金項目（2023GXNSFBA026287）；廣西重點研發計劃（桂科AB23026101）

田" 錚，等：基于深度學習方法的單張零件圖像重建網格模型

作者簡介：田" 錚（1998—），男，碩士研究生，研究方向為工業軟件。

龍" 雨（1977—），男，博士，博士生導師，主要從事增材制造方面的研究。