張肇軒,王誠斌,楊 鑫,樸星霖,王鵬杰,尹寶才
基于模板替換的室內場景建模方法研究
張肇軒1,王誠斌1,楊 鑫1,樸星霖2,王鵬杰3,尹寶才1
(1. 大連理工大學計算機科學與技術學院,遼寧 大連 116024;2. 鵬城實驗室,廣東 深圳 518055;3.大連民族大學計算機科學與工程學院,遼寧 大連 116600)
當前,室內場景建模相關研究已經取得很多進展,特別是基于多視角融合的建模框架與基于單視角的建模框架的提出,增強了機器人的環境感知能力。但仍然存在以下不足:①基于多視角融合的建模方式預處理時間長,建模完成后需線下優化過程,不能滿足特定條件下的建模需求;②基于單視角的建模算法輸出一般為體素,建模質量較低,信息缺失嚴重,對于場景細節無法精確刻畫,難以滿足機器人交互的要求。特提出一種基于模板替換的室內場景建模方法研究。首先,預處理由設備采集到的三維點云場景,分割出存在點云缺失的單個對象,并利用虛擬掃描技術采樣對象表面點并計算法向量與曲率。采用八叉樹網格結構,將點云的法向量與曲率信息分別存入網格中,再利用卷積神經網絡(CNN)提取高維特征向量,將其與數據庫中三維對象特征進行歐氏距離比較,得到檢索序列。從序列中挑選出最相似的對象,利用迭代就近點(ICP)配準方法,與掃描場景進行配準,完成場景優化。對提出的網絡模型在2個基準數據集上進行測試并表現出良好的性能。
機器人;室內場景建模;卷積神經網絡;迭代就近點配準;點云
三維模型的質量優劣對機器人交互、場景理解、無人駕駛等領域的研究有重要的影響。近些年隨著三維采集設備的更新及建模算法性能的提高,建模質量有較大提高。但是,由于采集過程中一些客觀條件限制,如圖1所示,模型存在缺失、噪音的情況時有發生,模型的精度還不能達到要求。為解決這一問題,需要對掃描得到的模型進行優化。目前,解決該問題的方法主要有 2種:①模型補全,即利用缺失區域周圍的點云信息將殘缺部分擬合;②模型替換,即在數據庫中尋找與掃描模型最為相似的模型,再將檢索出的數據庫模型與原掃描場景進行配準。本文采用模型替換的方法。深度學習技術的發展,為解決計算機視覺領域傳統問題提供了新的思路和方法。深度學習,特別是卷積神經網絡在二維圖像領域表現出強大的學習與抽象能力,在許多與二維圖片相關的視覺任務(分割、識別)中表現出色。正是這種高性能的表現,使用卷積神經網絡(convolutional neural network,CNN)與三維對象進行分析成為新的研究熱點。利用CNN對三維對象進行分析與處理,得到更具一般化、信息更豐富、表示更加濃縮的三維對象特征,利用這些特征來解決三維領域一系列有挑戰性的工作。SU等[1]提出基于多視角CNN提取三維對象特征的方法,將三維對象多角度渲染為多張輪廓圖,利用CNN將其特征進行融合,得到更加豐富的高維特征信息,用于分割與分類任務,但該方法較依賴于視角選擇的合理性。MATURANA和SCHERER[2]將三維數據0~1體素化以滿足卷積操作要求,通過體素化的方式可以直接在三維空間進行卷積、下采樣操作,其網絡模型雖解決了三維數據稀疏性高、不規則的問題,但是分辨率較低,對于模型的細節不夠敏感。TATARCHENKO等[3]針對0~1體素分辨率不高的問題,采用八叉樹網格重新對數據進行組織,以提高網絡處理數據的分辨率,但是該方法進行卷積、下采樣操作需要消耗大量的時間,時間成本較高。CHARLES等[4]通過使用CNN提取了二維投影的特征信息,并將其融合至三維體素信息中,最終得到高維特征。SONG等[5]同樣使用了CNN對輸入的單張深度圖像進行了特征提取、融合,從而恢復出完整的場景體素表達。本文提出的模型采用八叉樹網格對數據進行重新組織,將點云的2個具有代表性的特征,法線方向與曲率存入網格之中,通過CNN的卷積與下采樣操作,將三維對象映射于高維向量空間,將模型相似度與高維空間中的點之間的距離相關聯,以達到模型檢索的目的,本文模型在ModelNet40[6]及ShapeNetCore55[7]基準集上做測試,表現出良好的性能。本文方法采用的特征提取模型相較于基于多視角與基于體素的方法,多項測試指標均有較大的提高,同時由于采用八叉樹的組織方式,網絡訓練與測試時間大大縮短,時間成本進一步減少。檢索出相似模型后,本文利用迭代就近點(iterative closest point, ICP)配準[8]的方法,將模型與原場景進行拼接與配準,完成精細化建模任務。
本文采用DAI等[9]提出的單視角建模框架,首先對室內場景進行初次建模。該算法提出一種新穎的、實時的、端到端重建框架來完成建模任務,對原有的姿態估計與幀優化策略進行改進,采用基于彩色圖與深度圖作為輸入的高效分層方法。但該算法受限于視角稀疏與自我遮擋等客觀條件,建模場景存在點云缺失的情況,如圖2所示。由于本文提出的建模框架針對單個目標對象進行數據庫中模型檢索、替換與配準,故需對原始場景進行分割以得到信息缺失的目標對象。本文采用文獻[4]提出的點云分割算法得到目標點云對象。

圖2 場景中存在信息缺失的目標對象
該方法使用點對稱函數與目標對稱網絡解決點云順序不固定與點云旋轉的難題,通過引入新的損失項來約束由于參數量大而導致的矩陣正交情況。最終,網絡使用多層感知機為每個點生成高維度特征向量,經由非線性分類器處理,輸出每個點的分類向量,以完成對場景的分割。分割后目標對象如圖3所示。

圖3 場景對象分割
為滿足CNN輸入的要求,需對分割完成后的目標對象與數據庫中的模型進行預處理以達到規則化的數據要求。預處理步驟如下:
步驟1.提取目標對象表面法向量與曲率信息;
步驟2.使用八叉樹將點云對象網格化,并建立相應的哈希索引表。
本文采用虛擬掃描技術對點云密集區域進行采樣,選擇法向量方向變化最大的點作為采樣點的特征點,將該點的法向量與曲率信息作為點云區域的底層特征。同時將14個虛擬相機放置在點云截斷球體中心位置,朝向不同的方向,并在每個方向發射出16 000束平行光線,當光線與點云的表面相交時,即可將相交點視為對表面點的采樣。在采樣點周圍區域選取法向量變化最大的點作為該區域的特征點,并計算某點與其臨近點之間法向量夾角的算術平均值為



確定的法向量之后,取臨近個點的曲率并求平均值,作為的曲率信息,即

其中,C為個臨近點的曲率。
八叉樹具有自適應尺寸的三維網格結構,是二維的四叉樹結構在三維空間的拓展,與傳統的體素網格相比,可以在相同分辨率下顯著減少對存儲的消耗。傳統的八叉樹結構中每個節點均含有指向子節點的指針,從而使訪問某節點的時間與樹的深度呈線性比例關系,最終導致處理結點間的運算需要大量的時間,尤其是在處理高分辨率對象的情況下。為此,本文采用WANG等[10]提出的較新的八叉樹生成算法解決上述問題。該算法建立多個哈希表,表中分別存儲八叉樹中結點位置與狀態信息,通過表中的鍵值可快速查找節點的父子節點與兄弟節點位置信息,大大的縮短卷積操作所需的時間。圖4為用一個二層的四叉樹結構表示二維圖形。
本文在建模框架中,將場景中目標對象與數據庫對象分別以八叉樹的形式進行表達。首先將點云模型置于單位長度的正方體包圍盒中,并對其進行廣度優先遞歸操作。遞歸過程如下:當遍歷至八叉樹的第層時,遞歸訪問所有包含模型邊界的節點,并將包含模型邊界的包圍盒進行8等分作為該節點的+1層子節點,若某節點中不包含模型的任一部分時,停止對該節點的劃分操作。八叉樹創建完成后,為減少進行卷積、下采樣等操作所需要的時間,本文借鑒WANG等[10]提出的算法,為八叉樹的每一層節點均建立多個哈希表,且存儲一層中所有樹節點的位置信息及標記信息,進而保證子節點可以通過訪問散哈希中的鍵值快速找到父節點與兄弟節點位置。
哈希表可按類型分為以下2類:
(1) 散列哈希表:表中的鍵值表示第層節點與其第–1層父節點的相對位置關系,并按照升序
排列存入向量中,求鍵值得到

其中,xyz為八叉樹體素空間的坐標位置。
(2) 標記哈希表:表中第[]位置的鍵值為,該層[]節點為層的第個非空節點,如節點為空則鍵值為0。使用標記哈希表可快速的得到父節點的子節點,例如八叉樹的層結點的標簽向量,對于索引為的非空節點,其第1個子節點的位置為=8×([]–1),同時[,+1,…,+7]為第1個子節點的相鄰節點。
在哈希表中進行卷積計算過程為

其中,Oijk為被卷積的相鄰節點;T(n)(·)為Oijk節點中存儲的n通道特征向量;為卷積層的權值,如果Oijk不存在,T(Oijk)設置為0。
特征提取網絡目標為抽象出三維對象更加一般化的特征,將包含有法向量與曲率信息的八叉樹網格作為輸入,輸出高維特征向量作為檢索的依據。本文的網絡結構如圖5所示。

圖5 檢索網絡結構
特征提取網絡的目標在于將輸入點云模型映射為高維空間中的一個向量,為可分別輸入存儲曲率信息與法向量信息的八叉樹網格,首先對上述 2個網格進行4次卷積與下采樣操作,從而得到 2個64維特征向量;然后,對2個特征進行融合,并將其輸入至后續的特征提取網絡,經過2次卷積與下采樣操作后,得到256維向量;最后,將256維特征向量輸入至全連接層,經softmax操作后得到55維向量,此向量即為特征提取網絡的輸出結果。本文在卷積操作之后對數據進行批標準化,從而可以消除數據分布對網絡訓練的影響,同時在下采樣操作之前加入了非線性激活函數即為修正線性單元激活函數,從而提高了模型的表達能力。為防止過擬合的情況發生,本文在全連接層之后加入Dropout層。將卷積操作、批標準化、修正線性單元激活函數、下采樣操作合并為一個基本操作單元用Q表示,特征提取網絡中每一層的特征圖數目設定為2max(1,9–),卷積層的卷積核設定為3。最終,淺層特征提取可表述為



訓練特征提取網絡所使用的損失函數為交叉熵損失函數,即

其中,為期望的輸出;為神經元實際輸出;()為權重衰減項。


其中,和為旋轉平移矩陣,該算法能夠比較準確地得到兩幀點云間的變換矩陣,為了克服其對于點云場景初始位置比較敏感的限制,特別是當點云的初始變換矩陣選取得極不合理而導致陷入局部最優點的問題。本文在預處理階段將掃描模型與數據庫模型正方向朝向一致,并通過將目標對象與數據庫對象進行配準以獲取相應的位姿參數,最終通過融合的方式完成場景建模的過程。
本文的特征提取網絡可應用于三維對象分類與檢索任務中,本文在ModelNet40[6]數據集上進行三維模型分類的實驗以檢驗網絡模型在分類任務上的表現,ModelNet40[6]數據集包含有40個大類,12 311個三維模型用于訓練與測試。網絡在分類任務上性能表現及與其他模型對比實驗結果見表1,其中的精確度計算如下

其中,f為網絡預測的三維對象標簽信息;y為對象的真實標簽信息;1(·)為符號函數為測試集合對象的總數目。
分析實驗數據可知,本文提出的網絡模型在三維分類任務中的精確度優于利用自編碼網絡進行特征提取的3DShapeNet[6],同樣與基于CNN但使用0~1體素網格的VoxNet[2]相比,精準度有明顯提升,說明八叉樹結構與法向量、曲率特征使得三維對象間更有區分度。與基于多視角特征融合的GIFT[11]方法相比,精準度有明顯提高,說明本網絡結構可以直接從三維點云學習到數據分布規律。與利用一系列濾波器提取體素的淺層特征的FPNN[12]相比,分類預測的精準度較高,說明本文的特征提取網絡能得到更具有代表性的特征。

表1 三維對象分類實驗精準度統計表
為驗證特征提取網絡在檢索任務中的表現,本文采用5個通用的指標衡量網絡的性能。實驗使用ShapeNetcore55[7]數據集作為實驗數據,測試集中每個對象均作為查詢模型,整個測試集作為待檢索目標集合。檢索實驗中,對于生成的檢索序列中的每一個對象,為其設置一個狀態值,當網絡對目標模型預測的類標簽與序列中的已知的類標簽一致時,狀態值為1,反之狀態值為0,其準確率與回歸率分別表示為


其中,t為在檢索序列中正值的數目;f為在檢索序列中與目標模型類標簽不一致的對象的數目;f為在該序列中沒有被檢索出的對象模型;t+f為數據集合中該類模型的總數。
準確率和回歸率的計算并沒有什么必然的相關性關系,但是,在大規模數據集合中,這2個指標往往是相互制約的。在實際中需要根據具體情況做出取舍,本實驗引入F-Score綜合權衡這2個指標,即

當=1時,稱為F1-Score,此時精確率和回歸率權重相同,視為同等重要。
本實驗引入平均精度均值指標衡量檢索模型的性能,即

其中,為每個類的平均檢索精度;為需要預測類的總數,且的計算為

其中,precision為類中每一對象的精確度;N為每一類對象的總數。
本文利用歸一化折損累積增益NDCG指標衡量得到檢索序列的相關度指標,與檢索目標相關度越高的對象在序列中排名靠前,且NDCG值越高,即

其中,為折扣累積獲得,即

其中,1為檢索序列中每一項的得分,分值與序列中每一項與檢索目標對象類與子類標簽是否一致有關,當類和子類一致時計為2分,只有主類別相同,子類別不同的項計為1,完全不匹配的為0。本文體征提取網絡完成模型檢索實驗后,利用檢索結果計算得到相應的5個測試指標結果,并與相應的算法進行了對比,實驗結果見表2。

表2 三維模型檢索實驗效果評估
實驗結果表明,本文模型在檢測檢索性能的各項數據上均優于基于多視角與0-1體素的方法,特別是NDCG指標準確率可達90%,表明檢索中備選對象的排名順序準確度較高。與CM-CNN,Channel-Wise,ZFDR[13]等基于二維視角融合與逐通道進行特征提取的算法相比,本實驗的檢索準確度更高。
在經過特征提取網絡得到相應的特征之后,待替換對象通過與數據庫模型進行特征的匹配與檢索,得到最相似的模型集合,人為挑選出最相似的模型進行下一步的配準。首先將2個模型的正方向保持一致,然后通過最近點匹配算法不斷地進行 2個點集的匹配以完成場景配準任務,配準結果如圖6所示,場景內的椅子與桌子均被數據庫中最相似模型進行替換。

圖6 場景建模結果圖
綜上所述,本文提出的基于模板替換的室內場景建模框架,利用數據庫中相似的三維模型替換信息缺失的目標對象再經過場景配準完成場景建模任務。該框架對于場景中存在結構損失嚴重,有大部分缺失的目標對象時有較好的建模效果,原因在于基于模板替換的方式使用整體替換的方式進行建模,只要特征提取網絡能得到較好的特征,并且能檢索出相似的模型,有利于得到較好的場景復原效果。所以當場景中信息缺失較嚴重時,采用模板替換的建模方式往往有不錯的效果。但是,當要完成的任務需要比較精細化的建模效果時,且對于真實性要求較高或對位置信息比較敏感時,基于模板替換的建模框架由于數據庫容量的限制會造成檢索出的模型與真實對象有較大的偏差。同時,由于本文使用場景配準的方式進行重建,配準的誤差也將影響模型的質量,當配準的誤差較大時,將導致三維對象的位置與位姿將有較大的偏差而不能滿足交互的要求。
三維建模是智能機器人導航與環境感知的重要技術前提,通過對場景進行詳盡的描述與建模,機器人能通過這些信息進行下一步交互。對不同應用環境下進行場景建模,進而對場景進行分析而做出準確的場景評估,對精確評估場景狀況、有效提供下一步交互動作具有重要意義。針對現存研究工作的不足,本文將重建結果的表現形式定位為點云,解決了傳統方法因輸出為體素導致的分辨率較低的問題,同時利用CNN對特征進行提取,加速了模型匹配的進程,從而可以在較短時間內完成重建。
本文的主要工作為基于數據庫模板替換的方式對三維場景進行重建。通過CNN提取目標對象的高維度特征并依據特征相似度,在數據庫中檢索出最相似三維目標模型,通過配準的方式完成場景重建。
本文的創新點是利用數據驅動的方式,以CNN提取更加具有抽象性、更加具有一般性的特征,利用此高維度特征作為檢索的依據,能在數據庫中檢索出更加相似的模型,完成重建。
本文的不足在于數據庫模板替換的方式雖然可將不可見部分進行補全,但是受限于數據庫的容量限制,建模的細節往往與真實場景有較大 差距。
[1] SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition[C]//2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 945-953.
[2] MATURANA D, SCHERER S. VoxNet: a 3D convolutional neural network for real-time object recognition[C]//2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2015: 922-928.
[3] TATARCHENKO M, DOSOVITSKIY A, BROX T. Octree generating networks: efficient convolutional architectures for high-resolution 3D outputs[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2088-2096.
[4] CHARLES R Q, SU H, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 652-660.
[5] SONG S R, YU F, ZENG A, et al. Semantic scene completion from a single depth image[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 1746-1754.
[6] WU Z, SONG S R, KHOSLA A, et al. 3D ShapeNets: a deep representation for volumetric shapes[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1912-1920.
[7] CHANG A X, FUNKHOUSER T, GUIBAS L, et al. Shapenet: an information-rich 3D model repository[EB/OL]. (2015-12-09) [2019-08-15].https://arxiv.org/abs/1512.03012.
[8] RUSINKIEWICZ S, LEVOY M. Efficient variants of the ICP algorithm[C]//Proceedings 3rd International Conference on 3-D Digital Imaging and Modeling. New York: IEEE Press, 2001:145-152.
[9] DAI A, NIE?NER M, ZOLLH?FER M, et al. Bundlefusion: real-time globally consistent 3D reconstruction using on-the-fly surface reintegration[J]. ACM Transactions on Graphics (ToG), 2017, 36(3): 24-32.
[10] WANG P S, LIU Y, GUO Y X, et al. O-CNN: octree-based convolutional neural networks for 3D shape analysis[J]. ACM Transactions on Graphics (TOG), 2017: 36(4): 72-80.
[11] BAI S, BAI X, ZHOU Z C, et al. GIFT: a real-time and scalable 3D shape search engine[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 5023-5032.
[12] LI Y, PIRK S, SU H, et al. Fpnn: field probing neural networks for 3D data[C]//Advances in Neural Information Processing Systems. New York: Curran Associates, 2016: 307-315.
[13] LI B, JOHAN H. 3D model retrieval using hybrid features and class information[J]. Multimedia Tools and Applications, 2013, 62(3): 821-846.
Indoor scene modeling method based on template replacement
ZHANG Zhao-xuan1, WANG Cheng-bin1, YANG Xin1, PIAO Xing-lin2, WANG Peng-jie3, YIN Bao-cai1
(1.School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116024, China;2. Peng Cheng Laboratory, Shenzhen Guangdong 518055, China;3. School of Computer Science and Engineering, Dalian Nationalities University, Dalian Liaoning 116600, China)
Nowadays, much progress has been made in the research of indoor scene modeling, especially the modeling frameworks based on multiple perspectives and single perspective, which has enhanced the robot’s environment perception. However, the following shortcomings still exist: ①The modeling method based on multiple perspectives requires a long pre-processing time, and the offline optimization process is required after the modeling is completed, which cannot meet the modeling requirements under specific conditions. ②The modeling algorithm based on single perspective is mainly output with voxels, so the modeling quality is low, and the information is missing seriously. The details of the scene cannot be accurately characterised, and it is difficult to meet the requirements of robot interaction. In view of the above deficiencies, this paper puts forward a method of indoor scene modeling based on template replacement. First, the three-dimensional point cloud scene is preprocessed to segment a single object with missing point cloud, and then the virtual scanning technology is used to sample the surface points of the object and calculate the corresponding normal vector and curvature. Next, the octree mesh is used to store the normal vector and the curvature information respectively. Furthermore, the high-dimensional feature vectors are extracted by the convolutional neural network (CNN), and the Euclidean distance is compared with the features of three-dimensional object in the database, so as to obtain the retrieval sequence. Finally, the most similar objects are selected from the sequence, and the iterative closest point (ICP) registration method is used to register with the scanning scene to complete the scene optimization. In this paper, the proposed network model is tested on two benchmark data sets and shows good performance.
robot; indoor scene modeling; convolutional neural network; iterative closest point registration; point cloud
TP 391
10.11996/JG.j.2095-302X.2020020270
A
2095-302X(2020)02-0270-07
2019-08-16;
2019-09-21
國家自然科學基金項目(91748104,61972067,61632006,U1811463,U1908214,61751203);國家重點研發計劃項目(2018AAA0102003)
張肇軒(1994–),男,吉林松原人,博士研究生。主要研究方向為計算機視覺。E-mail:zhaoxuanzhang@mail.dlut.edu.cn
楊 鑫(1984–),男,吉林四平人,教授,博士,博士生導師。主要研究方向為計算機圖形學。E-mail:xinyang@dlut.edu.cn