999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于體素特征重組網絡的三維物體識別

2019-05-14 07:35:04張春元YUANXiaohui
圖學學報 2019年2期
關鍵詞:特征

路 強,張春元,陳 超,余 燁,YUAN Xiao-hui

?

基于體素特征重組網絡的三維物體識別

路 強1,2,張春元1,陳 超1,余 燁1,2,YUAN Xiao-hui3

(1. 合肥工業大學計算機與信息學院VCC研究室,安徽 合肥 230601; 2. 工業安全與應急技術安徽省重點實驗室(合肥工業大學),安徽 合肥 230009; 3. 北德克薩斯大學計算機科學與工程學院,德克薩斯 丹頓 76201)

三維物體識別是計算機視覺領域近年來的研究熱點,其在自動駕駛、醫學影像處理等方面具有重要的應用前景。針對三維物體的體素表達形式,特征重組卷積神經網絡VFRN使用了直接連接同一單元中不相鄰的卷積層的短連接結構。網絡通過獨特的特征重組方式,復用并融合多維特征,提高特征表達能力,以充分提取物體結構特征。同時,網絡的短連接結構有利于梯度信息的傳播,加之小卷積核和全局均值池化的使用,進一步提高了網絡的泛化能力,降低了網絡模型的參數量和訓練難度。ModelNet數據集上的實驗表明,VFRN克服了體素數據分辨率低和紋理缺失的問題,使用較少的參數取得了優于現有方法的識別準確率。

物體識別;體素;卷積神經網絡;特征重組;短連接

三維數據采集設備的普及和建模工具的簡易化,使得三維模型的數量一直在快速增長。如何快速有效的識別這些三維形狀,成為了計算機視覺和圖形學領域,尤其是在醫學影像、自動駕駛及CAD等應用場景下的一個重要問題。常見的三維物體描述方式,包括點云[1]、流形網格[2]、體素[3]和深度圖[4]等。點云和流形網格作為一種不規則的數據組織形式,難以利用高性能的學習方法進行處理。深度圖作為一種間接表現三維物體的形式,難以直觀展現物體的三維結構,同時也由于遮擋問題缺失了很多信息。而體素數據能夠完整地描述物體的空間占用情況,其以體素作為基本單位,數據組織形式規則,可以很好地適用現有的學習方法。

近年來,卷積神經網絡(convolution neural network,CNN)被廣泛地應用在分析和理解二維圖像的任務中,包括圖像分類[5]、物體檢測[6]、語義分割[7]等。其獨特的設計結構可以很好地提取圖像的特征,在復雜的任務場景中具有良好的魯棒性,表現出相較于傳統方法的獨特優勢。鑒于體素與圖像在數據組織形式上的相似性,使用CNN處理三維體素數據成為研究熱點。相較于二維圖像數據,三維體素數據由于增加了一個維度,空間開銷更大,容易導致維度災難(curse of dimensionality)[8],其限制了體素模型的分辨率。而且體素的表現方式拋棄了物體本身的紋理信息。低分辨率和紋理缺失是使用三維體素數據訓練CNN必然要面對的問題,要求網絡能夠從有限的信息中,充分提取具有代表性的物體特征。

本文針對三維體素模型識別問題,設計并搭建了一個三維CNN VFRN(voxel features reorganization networks)。VFRN針對現有三維體素CNN難以充分學習物體結構信息、參數量大、訓練困難等問題,采用多維特征重組方法,融合復用多維特征提取物體特征,并通過大小為1的卷積核降維以減少網絡參數。VFRN使用短連接方式,減少參數量,縮短特征傳遞路徑,降低訓練難度,并加入全局均值池化[9]的方法,進一步減少了網絡參數并降低了過擬合的風險。

1 相關工作

在二維圖像領域,CNN的應用已經較為成熟。2012年AlexNet[10]提出了ReLU和Dropout的概念,有效抑制了過擬合現象。之后,CNN的架構逐步更新,如VGG Net[11],GoogLeNet[12],Res-Net[13]等。這些網絡在增加網絡深度的同時,使用了不同的方法提高網絡泛化能力,減小過擬合,如GoogLeNet中的Inception結構,ResNet中的殘差結構等。文獻[14]提出了DenseNet,通過密集連接方式,復用了低維特征,在增加網絡深度的同時,保證了參數量的線性增長,取得了很好的效果。

目前,CNN是提取二維圖像特征最有效的方法之一。而三維形狀領域發展較晚,主要進展大多在近三年內。最先使用三維數據進行深度學習實驗的,WU等[15]提出的3D ShapeNet。該網絡是一個5層卷積深度置信網絡(convolution depth confidence network,CDCN),輸入為303分辨率的體素數據,完成識別三維物體的任務。為了進行實驗,該研究構建了一個標簽好的公開三維模型數據集ModelNet[15],此后,大量研究都在該數據集上進行了實驗。作為三維工作的開端,3D ShapeNet模型簡單,識別準確率較低。鑒于CNN在圖像應用上的優良表現以及體素與圖像在數據組織形式上的相似性,文獻[16]提出了VoxNet[16],將基本的二維CNN架構拓展到三維,該網絡輸入的是分辨率為323的體素,采用了三維卷積層和池化層,最后使用全連接層生成特征向量。雖然相較于3D ShapeNet,VoxNet識別效果有了較大的提升,證明了CNN同樣適合處理三維數據,但該網絡僅僅使用了普通的卷積和池化操作,并沒有在分辨率限制和紋理缺失的前提下,更加充分的提取物體的三維結構特征。考慮到二維CNN使用的許多新結構能夠提高網絡表現,BROCK等[17]提出了VRN,該網絡借鑒GoogLeNet中的Inception結構和ResNet中的殘差結構,設計了針對三維數據的Voxception結構和VRB結構,以替換傳統的卷積層和池化層。這兩種結構增加了網絡的支路,并融合了多尺度特征。VRN通過對體素數據的增廣和預處理,以及多個網絡的聯合使用,大大提高了識別準確率,但結構的復雜和多網絡的聯合使用,造成整個模型參數量巨大,訓練困難。文獻[18]構建了3個不同的結構網絡,兩個基于體素的網絡和一個基于多視圖的網絡,通過加權綜合3個網絡的特征向量構成FusionNet,也獲得了較好的識別效果。但通過分析FusionNet各子網絡的效果發現,兩個V-CNN網絡準確率并不高,對于提升兩個網絡的準確率的作用有限。而且同VRN一樣,多網絡的聯合使用在訓練和部署方面開銷巨大,實時性較差。針對三維體素數據識別問題,SU等[19]在分析比較了基于體素的方法(3D ShapeNet)和基于多視圖的方法(MVCNN)后,提出了SubVolume和AniProbing兩種網絡結構。文獻[20]認為現有的三維卷積網絡未能充分挖掘三維形狀信息,所以在SubVolume網絡中引入了使用局部數據來預測整體的子任務,減少過擬合的同時,也能更好地提取細節特征。AniProbing網絡則是另一種思路,使用長各向異性卷積核(long anisotropic kernels)來提取長距離特征。在網絡的具體實現上,長各向異性卷積核將三維體素數據處理成二維特征圖,之后使用NIN[9]進行識別,兩種網絡均取得了很好的效果。由于三維CNN相較二維增加了一個維度,網絡參數的數量也成倍增長,過多的參數量導致網絡模型具有很高的計算成本,難以應用在實時領域。ZHI等[21]提出LightNet,使用單一模型,通過精簡網絡結構,大大減少了參數量,以滿足實時任務的需要,缺點是犧牲了識別的準確率。

除體素數據以外,近年來也出現了一些使用點云和視圖進行三維物體識別的研究。點云方面,QI等[22]提出的PointNet和PointNet++[23],在點云數據上使用多層感知器學習一個描述點云的全局特征向量,用于識別等任務。但這兩種網絡受限于點云數據無序、不規則的特點,并沒有考慮到一個鄰域范圍內的物體結構特征信息。針對上述問題,LI 等[24]搭建了PointCNN,使用X-Conv操作對點云進行X變換,在變換后的特征上進行典型的卷積操作,一定程度上解決了將無序、不規則的數據形式映射成有序、規則形式的問題。然而LI等[24]也指出了網絡所學習到的X變換遠不理想,無法保證變換結果與原始點云分布的等價性。視圖方面,SU等[19]提出的MVCNN將三維模型數據在多個視角下渲染成一組二維圖像,作為二維CNN的訓練數據。網絡中間添加View Pooling層用于綜合多角度視圖信息,得到了很好的識別效果。相似地,馮元力等[25]將三維物體繪制成多角度球面全景深度圖,代替普通的多視角圖像,采用同樣的網絡結構完成識別任務。但多視圖的方式不僅需要對三維數據進行二次處理,而且對于視圖的視角較為敏感。由于采用了圖像作為網絡輸入,三維圖形識別問題通過轉換簡化為了二維圖像識別問題。

此外,還有許多針對其他三維物體表現形式的研究。如O-CNN[26]使用八叉樹方式組織三維數據并進行卷積操作,FPNN[27]使用3D距離場描述三維數據,3D-A-NET[28]使用三維深度形狀描述符,聯合訓練CNN、RNN和敵對鑒別器。這些工作也給三維視覺領域的研究帶來了新思路,但相對的,在當前環境下通用性不強。

綜上,本文重點研究使用CNN進行三維體素數據的識別任務。目前,三維體素數據存在分辨率低,紋理缺失等問題。簡單的卷積結構難以充分捕捉物體的特征信息,需要增加卷積核數量和網絡深度來提取更多的高維特征,然而這會導致網絡參數過多,造成網絡訓練困難并且容易過擬合。當前針對三維體素的CNN,往往難以兼顧充分提取三維體素特征和控制參數數量避免過擬合這兩方面的問題。本文提出了一種新的三維CNN,用于提取三維體素數據結構特征,該網絡在增加網絡深度的同時,控制了參數的數量,并融合多維度特征進行卷積操作,以充分提取三維結構信息。此外,網絡的短連接結構有利于梯度的反向傳播,加快了訓練速度,相對較少的參數有效抑制了過擬合,在三維物體識別任務上取得了很好的效果。

2 本文方法

針對三維體素識別問題,本文借鑒DenseNet的設計思想,提出一種全新的三維CNN VFRN。該網絡通過密集連接結構綜合復用多維特征,網絡參數量隨深度增加線性增長,避免了參數過多導致顯存不夠的問題,也大大降低了訓練難度。此外,網絡使用了殘差結構[13],在不增加參數的前提下,進一步融合相鄰維度的特征。這兩種短連接的結構,有效避免了增加網絡深度時可能出現的梯度消失問題。網絡中對于特征通道的復用較多,考慮到卷積層對于每個特征通道的關注度會隨著層數的加深而有所變化,本文使用特征重標定技術[29]對每個特征通道賦予一個權值,將加權處理后的特征通道輸入卷積層進行特征提取,降低冗余特征對卷積操作的影響。本文網絡結構如圖1所示,包含兩個主要模塊,特征重組模塊(features reorganization module,FRM)和下采樣(downsample)模塊。

2.1 特征重組模塊(FRM)

FRM是基于DenseNet的網絡結構,針對三維體素識別任務的需要所設計的三維網絡模塊,如圖2所示,每個FRM內部的特征尺寸大小保持不變。FRM是一個多層結構,每層都包含一個連接層(Link)和一個卷積層(Conv),輸出與后面層直接相連。每層的輸入都由上層的輸入和輸出組成,可以表示為

圖2 FRM結構

其中,()為一個非線性變換;為層的編號;x為第層中卷積層的輸入;(0)為0,0為空。這樣每一層與損失函數都有一條短路徑相連,在反向傳播過程中梯度信息能夠輕松地傳遞到每個卷積層,從而構建更深的網絡以獲得更好的效果。此外,FRM的另一個特點是在同樣深度下,相比其他卷積結構,參數更少。因為FRM中超參數限定了第個FRM中每一個卷積層輸出的特征數量。并且卷積層的輸入先通過一個1×1×1的卷積操作降維,減少特征通道的數量,并融合多個通道的信息。FRM的特征復用方式,能夠充分提取目標的結構特征,并保證隨著深度增加,參數量線性增長。

2.1.1 連接層

連接層用于組合上層網絡的輸出和輸入,并賦予特征通道權值。連接層的設計結構如圖2所示,其中表示連接層的序號,(x1)是前一層的輸出,input–1是前一層的輸入。本層輸入input分為(x1)和input1兩部分,首先通過1進行矩陣間對應元素相加的操作。由于FRM的跨層連接結構,隨著的增大,input–1的特征通道數c–1會越來越大,即

但(x–1)的通道數量受超參數K的限制,固定為K。鑒于兩個輸入input–1和(x–1)的特征通道數不同,本文選擇在(x–1)與input–1中的最后K個通道間進行對應元素求和操作,得到新的特征1。之后,(x–1)與融合后的特征1,由2完成通道維度的連接操作,即將(x–1)連接到1的最后,得到特征2。根據式(1),input–1最后K個通道實際上就是(x–2),求和操作實際上是在相鄰兩層的輸出上進行的,因此1實現了相鄰層間特征的融合。而2的通道連接操作,復用了前層的低維特征,保證本層能夠全局感知多維特征信息。1和2兩種連接結構,滿足了本文在網絡設計思路中,對于充分提取三維體素數據特征和融合多維度特征進行學習的要求。而且此結構也能在參數量開銷較少的前提下,進一步提高網絡的泛化能力。

上層網絡的輸入和輸出組合而成的特征2,包含著多個維度的特征通道,為了保證卷積層盡可能的集中注意力在其更關心的通道上,本文對各通道進行了加權操作。如圖3所示,一個全局均值池化層將融合連接后的特征2,映射為一個維度等同于2通道數的向量。以該向量作為輸入,通過兩個全連接層來學習一個權重向量,中間添加Dropout層,Dropout率為0.5。第一個全連接層的神經元數量設置為2通道數的1/8,第二個全連接層的神經元數量與2的通道數相同。3使用學習到的權重向量來重標定2的各個通道,即將每個特征通道乘以其對應的權重,以此來增強卷積層感興趣的特征,抑制冗余特征,綜上,連接層的輸出x

圖3 連接層結構

之后,卷積層以x作為輸入,進行特征提取。

2.1.2 卷積層

輸入x經過卷積層,得到輸出(x)。如圖4所示,卷積層由兩個卷積操作和兩個dropout操作構成。1×1×1卷積作為一個通道數限制瓶頸,根據超參數K將通道數超過2K的輸入x降維到2K,避免隨著層數加深,參數量爆炸式增長,同時也能起到融合多通道特征的作用。三維卷積操作的參數量為

其中,np為參數量;ci為輸入的特征通道數;co為輸出的特征通道數;kernel_size為卷積核的大小。在相同的輸入、輸出通道下,卷積參數量正比于卷積核大小的三次方。本文網絡對于特征的復用重組,使得輸入的通道數隨著深度增加也在快速增長,所以先使用大小為1的卷積核降低通道數,再使用大小為3的卷積核,可以有效減少參數量。3×3×3卷積用于提取鄰域結構特征,輸出Ki個特征通道??紤]到特征的復用,本文并沒有使用更大的卷積核,因為文獻[11]中證明多個小卷積核連接使用,可以得到等同于大卷積核的效果。而且相較大卷積核,小卷積核能夠減小參數量和計算開銷。在兩個卷積之后,均使用了Dropout來保證網絡的泛化能力,避免過擬合。此外,卷積操作的步長均為1,以保持同一模塊內特征的尺寸不變,便于連接層融合多維度特征。

2.2 下采樣模塊

下采樣模塊用于連接相鄰的FRM,由卷積和池化兩步操作完成。雖然池化操作并不需要額外的參數,但考慮到輸入包含多個維度的特征通道,需要同卷積層一樣進行多通道特征的融合。同卷積層一樣,使用了1×1×1的卷積來融合多通道特征并降低輸入特征通道數到原先的一半。不同于通常的CNN中池化層的輸入是同一維度的不同特征,本文網絡中池化層的輸入融合了多個維度的不同特征,常用的最大池化操作不能較好地采樣出可以代表局部特征的信息,本文采用了平均池化操作來綜合鄰域信息進行下采樣。

2.3 三維體素特征重組網絡結構

本文網絡總體結構如圖1所示,輸入為323分辨率的體素數據。網絡先對輸入進行步長為1,卷積核大小為5的卷積操作,和步長為2,窗口大小為3的最大池化操作。5×5×5的卷積輸出32個特征,配合最大重疊池化,初步提取目標的基本結構特征,并將體素尺寸從323降低到163。之后,4個FRM通過3個下采樣層連接,用于充分提取目標特征。最后使用全局均值池化得到一個維度等同于目標類別數量的特征向量,輸入Softmax層獲得識別結果。由于網絡特征通道數量一般遠大于目標類別數量,所以在最后一個FRM和全局均值池化之間,加入一個1×1×1的卷積操作,輸出數目等同于類別數量的特征。

網絡中每次卷積操作前都使用Batch Normalize[30]對輸入進行規范化處理,并采用ReLU激活函數完成特征映射。

3 實驗及結果分析

相比于傳統面向三維體素的CNN,本文網絡不再嚴格按照從低維到高維的順序進行卷積操作,而是連接重組前層多維特征,通過卷積操作提取特征,多次復用低維特征,更充分地捕捉結構特征。與二維卷積網絡結構相似,高維的特征更加豐富,需要增加卷積核的數量來提取不同特征,所以FRM中的超參數K,隨著的增加而增大,使得網絡能夠捕捉到更多高維特征,得到更高的識別精度。

3.1 實驗數據集

ModelNet是一個大型三維數據集,其中包括662類共127 915個三維模型。通常使用其中的兩個子集,ModelNet10和ModelNet40進行實驗。ModelNet10包含10類共4 899個三維模型,其中908個作為測試集,剩余3 991個作為訓練集。ModelNet40包含40類共12 311個三維模型,其中2 468個作為測試集,剩余9 843個作為訓練集。數據集部分模型如圖5上半部分所示。

本文將ModelNet數據集轉換為分辨率為323的二值體素數據,部分轉換實例如圖5下半部分所示??梢钥闯?,在323的分辨率下,對于形狀特征較為突出的物體,如飛機、桌子等,體素轉換可以較好地還原物體的三維輪廓結構,而對于汽車這類結構較為簡單的物體,體素轉換對于輪廓的還原較為模糊?;谏鲜銮闆r,且求網絡對于物體的細微特征的敏感程度要更高,要能夠充分提取具有代表性的物體特征。通常二值體素數據以1代表該位置的空間被物體占據,0表示沒有占據。為鼓勵網絡更關注物體占據的部分,本文使用{0,5}二值數據代替{0,1}二值數據。實驗證明,加大非0值有利于提高識別準確率[17]。此外,為進一步提高網絡的泛化能力,本文將體素數據在垂直方向上旋轉12個角度來增廣數據集,訓練及測試時分別使用未增廣的單角度數據和增廣后的多角度數據進行實驗。

圖5 ModelNet部分模型(上)及體素轉換實例(下)

3.2 實驗環境及設置

本文網絡模型使用Tensorflow 1.2實現,cuda版本為8.0。硬件配置為Intel Core i7-7700K處理器和Nvidia GTX1080顯卡,搭配16 G內存。

網絡的訓練階段設置batch size為32,Dropout率為0.2,采用交叉熵損失函數,優化策略選用Adam算法。初始學習率設置為1e-4,每30次迭代降低為當前學習率的20%,整個訓練過程迭代90次,故學習率降低2次。

3.3 VFRN在ModelNet上的性能評估

表1中展示了本文提出的VFRN與現有面向三維物體的深度學習方法在ModelNet40數據集上的相關性能指標??梢钥闯觯疚奶岢龅腣FRN在僅使用單角度數據的情況下,就達到了較高的識別準確率,與使用多視圖的MVCNN和使用深度全景圖的全景識別網絡相比,仍有明顯優勢,證明了VFRN能夠充分提取物體結構特征,并且具有良好的泛化能力。相對于最早的3D ShapeNet,VFRN識別準確率提高了18%,且參數量大大減少。VoxNet由基本的CNN結構組成,參數較少,對于三維物體難以充分提取其特征,識別準確率較低。識別準確率較高的FusionNet,采用的是3個網絡組合的方式完成識別任務,其中的多視圖子網絡使用了ImageNet進行預訓練。多網絡組合導致整個模型參數量巨大,達到了118 M,而單網絡的VFRN相較FusionNet參數減少了90%,并且在識別結果上有明顯的提升。LightNet的參數量最少,但識別準確率并不突出。文獻[20]中提出的SubVolume和AniProbing網絡,采用了比較特殊的網絡結構,但在參數量和識別準確率兩方面并沒有明顯優勢。VFRN相比于使用點云數據的PointNet和PointNet++,在識別準確率上也有明顯的提升。另與目前使用體素達到最好識別效果的VRN對比,VFRN的參數量減少了一半,并且在單網絡的前提下,另識別效果要比VRN略好。

表1 ModelNet上多種方法識別性能比較

VRN Ensemble訓練了5個網絡進行識別任務,然后依據這5個網絡的結果進行投票,按照少數服從多數的規則確定識別結果。多網絡投票的方式使得準確率得到了顯著提升,因為初始狀態的隨機性,每個網絡的擬合結果并不完全相同,結合使用彌補了單個網絡識別效果的不足,但模型的參數量也成倍增長。由于策略的較大差異,VRN Ensemble和VFRN之間并不具有可比性。而且針對單一數據集訓練的多網絡集合,很容易導致模型泛用性較差,文獻[17]也指出這一結果不具有普適性。

針對數據增廣方式,相比于VRN在垂直方向上24個角度的旋轉,以及FusionNet等在垂直和水平方向上60個角度的旋轉,本文僅做了垂直方向12個角度的旋轉。通常數據集的增廣可以帶來網絡泛化能力的提升,尤其是在網絡參數過多的情況下,增大數據集有助于抑制過擬合現象,從而提高網絡效果。表1中VFRN和VRN在多角度數據集上識別準確率相較于單角度數據集的提升,也進一步說明了數據增廣對于網絡效果的正面作用。但考慮到更大的數據集容易造成訓練困難,對于學習率等參數的調整也更為敏感,并且VFRN的目標在于精簡參數以降低訓練難度的同時提高網絡的性能,因此本文并沒有選擇更多角度旋轉的方式增廣數據集。得益于參數量的控制,相比VRN,本文在其規模一半大小的數據集上訓練VFRN仍然得到了更好的識別準確率。此外,圖6是VFRN在ModelNet40上進行測試的混淆矩陣和PR曲線,反映出VFRN網絡的穩定性和可靠性,進一步佐證了VFRN在提取特征和抑制過擬合方面的優勢。

圖6 混淆矩陣和PR曲線

表2為部分網絡在ModelNet40上的訓練用時及硬件設備情況。由于網絡參數量過大,模型復雜,VRN的訓練需要約6天,遠遠大于其他網絡模型。而VFRN在保證識別效果的情況下,訓練時間僅需8 h左右,與參數較少的LightNet和VoxNet相近。說明VFRN的短連接結構,使得梯度能夠更好地傳遞到各層,有效加快了網絡的訓練速度。

表2 4種方法訓練參數對比

綜合上述分析,本文提出的VFRN能夠從體素數據中,充分提取三維物體的結構特征,并表現出良好的泛化能力。VFRN較好地平衡了參數量和識別準確率,獨特的網絡結構降低了訓練難度,與現有前沿方法相比具有明顯的優勢。

4 結束語

針對計算機視覺領域中三維物體的識別任務,本文設計實現了一個基于體素數據的三維CNN VFRN,以充分提取物體的結構特征,提高目標識別的準確率。VFRN通過短連接結構,實現了多維特征的復用和重組,彌補了傳統三維體素CNN中特征利用率低的缺陷。同時特征復用的特性保證網絡中參數量隨深度增加線性增長,相比現有網絡參數更少,較好地解決了三維數據空間開銷過大的問題,一定程度上抑制了過擬合的問題。實驗結果表明,VFRN的識別準確率高于其他方法,并且在識別效果和參數開銷兩方面達成了很好的平衡??紤]到多角度數據對于識別結果的提升,后續研究將針對網絡自適應變換對齊體素數據,在不添加額外訓練數據的情況下進一步提升網絡效果來進行。

[1] 張愛武, 李文寧, 段乙好, 等. 結合點特征直方圖的點云分類方法[J]. 計算機輔助設計與圖形學學報, 2016, 28(5): 795-801.

[2] 徐敬華, 盛紅升, 張樹有, 等. 基于鄰接拓撲的流形網格模型層切多連通域構建方法[J]. 計算機輔助設計與圖形學學報, 2018, 30(1): 180-190.

[3] 吳曉軍, 劉偉軍, 王天然, 等. 改進的基于歐氏距離測度網格模型體素化算法[J]. 計算機輔助設計與圖形學學報, 2004, 16(4): 592-597.

[4] 范涵奇, 孔德星, 李晉宏, 等. 從含噪采樣重建稀疏表達的高分辨率深度圖[J]. 計算機輔助設計與圖形學學報, 2016, 28(2): 260-270.

[5] 呂剛, 郝平, 盛建榮. 一種改進的深度神經網絡在小圖像分類中的應用研究[J]. 計算機應用與軟件, 2014, 31(4): 182-184, 213.

[6] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[7] 李琳輝, 錢波, 連靜, 等. 基于卷積神經網絡的交通場景語義分割方法研究[J]. 通信學報, 2018, 39(4): 123-130.

[8] BELLMAN R E. Dynamic programming [M]. Princeton: Princeton University Press, 1957.

[9] LIN M, CHEN Q, YAN S. Network in network [EB/OL]. (2013-12-16). [2014-03-04]. http://arvix.org/abs/1312. 4400.

[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]//Proceedings of International Conference on Neural Information Processing Systems. New York: CAM Press, 2012: 1097-1105.

[11] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04). [2015-04-10]. https://arxiv.org/abs/1409.1556.

[12] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Tokyo: IEEE Computer Society Press, 2015: 1-9.

[13] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2016: 770-778.

[14] HUANG G, LIU Z, WEINBERGER K Q, et al. Densely connected convolutional networks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2017: 243.

[15] WU Z, SONG S, KHOSLA A, et al. 3D shapenets: A deep representation for volumetric shapes [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2015: 1912-1920.

[16] MATURANA D, SCHERER S. Voxnet: A 3D convolutional neural network for real-time object recognition [C]//Proceedings of the Intelligent Robots and Systems (IROS), 2015 IEEE/RSJ International Conference on. Los Alamitos: IEEE Computer Society Press, 2015: 922-928.

[17] BROCK A, LIM T, RITCHIE J M, et al. Generative and discriminative voxel modeling with convolutional neural networks [EB/OL]. (2016-08-15). [2016-08-16]. https://arxiv.org/abs/1608.04236.

[18] HEGDE V, ZADEH R. Fusionnet: 3D object classification using multiple data representations [EB/OL]. (2016-07-19). [2016-11-27]. https://arxiv.org/abs/1607. 05695.

[19] SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 945-953.

[20] QI C R, SU H, NIESSNER M, et al. Volumetric and multi-view cnns for object classification on 3d data [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2016: 5648-5656.

[21] ZHI S F, LIU Y X, LI X, et al. Lightnet: A lightweight 3D convolutional neural network for real-time 3D object recognition [C]//Proceedings of Eurographics Workshop on 3D Object Retrieval. Goslar: Eurographics Association Press, 2017: 9-16.

[22] QI C R, SU H, MO K, et al. Pointnet: Deep learning on point sets for 3d classification and segmentation [J]. ProcEedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2017: 77-85.

[23] QI C R, YI L, SU H, et al. Pointnet++: Deep hierarchical feature learning on point sets in a metric space [C]//Proceedings of Advances in Neural Information Processing Systems. Heidelberg: Springer, 2017: 5105-5114.

[24] LI Y, BU R, SUN M, et al. PointCNN [EB/OL]. (2018-06-23). [2018-11-05]. https://arxiv.org/abs/1801. 07791.

[25] 馮元力, 夏夢, 季鵬磊, 等. 球面深度全景圖表示下的三維形狀識別[J]. 計算機輔助設計與圖形學學報, 2017, 29(9): 1689-1695.

[26] WANG P S, LIU Y, GUO Y X, et al. O-cnn: Octree-based convolutional neural networks for 3d shape analysis [J]. ACM Transactions on Graphics (TOG), 2017, 36(4): 72.

[27] LI Y Y, PIRK S, SU H, et al. Fpnn: Field probing neural networks for 3d data [C]//Proceedings of Advances in Neural Information Processing Systems. New York: Curran Associates Inc. 2016: 307-315.

[28] REN M, NIU L, FANG Y. 3D-A-Nets: 3D deep dense descriptor for volumetric shapes with adversarial networks [EB/OL]. (2017-11-28). [2017-11-28]. https://arxiv.org/abs/1711.10108.

[29] HU J, SHEN L, SUN G. Squeeze-and-excitation networks [EB/OL]. (2017-09-05). [2018-10-25]. https:// arxiv.org/abs/1709.01507.

[30] IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [EB/OL]. (2015-02-11). [2015-03-02]. https://arxiv.org/abs/1502.03167.

3D Object Recognition Based on Voxel Features Reorganization Network

LU Qiang1,2, ZHANG Chun-yuan1, CHEN Chao1, YU Ye1,2, YUAN Xiao-hui3

(1. VCC Division, School of Computer and Information, Hefei University of Technology, Hefei Anhui 230601, China; 2. Anhui Province Key Laboratory of Industry Safety and Emergency Technology (Hefei University of Technology), Hefei Anhui 230009, China; 3. Department of Computer Science and Engineering, University of North Texas, Denton TX 76201, United States)

3D object recognition is a research focus in the field of computer vision and has significant application prospect in automatic driving, medical image processing, etc. Aiming at voxel expression form of 3D object, VFRN (voxel features reorganization network), using short connection structure, directly connects non-adjacent convolutional layers in the same unit. Through unique feature recombination, the network reuses and integrates multi-dimensional features to improve the feature expression ability to fully extract the structural features of objects. At the same time, the short connection structure of the network is conducive to the spread of gradient information. Additionally, employing small convolution kernel and global average pooling not only enhances generalization capacity of network, but also reduces the parameters in network models and the training difficulty. The experiment on ModelNet data set indicates that VFRN overcomes problems including low resolution ratio in voxel data and texture deletion, and achieves better recognition accuracy rate using less parameter.

object recognition; voxel; convolution neural network; feature reorganization; short connection

TP 391

10.11996/JG.j.2095-302X.2019020240

A

2095-302X(2019)02-0240-08

2018-09-03;

2018-09-12

安徽省自然科學基金項目(1708085MF158);國家自然科學基金項目(61602146);國家留學基金項目(201706695044);合肥工業大學智能制造技術研究院科技成果轉化及產業化重點項目(IMICZ2017010)

路 強(1978-),男,安徽合肥人,副教授,博士,碩士生導師。主要研究方向為信息可視化、可視分析。E-mail:luqiang@hfut.edu.cn

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 99精品欧美一区| 久久综合亚洲鲁鲁九月天| 激情六月丁香婷婷| 在线看片免费人成视久网下载| 2021无码专区人妻系列日韩| 亚洲天堂免费在线视频| 永久免费精品视频| 国产白浆在线| 欧美综合中文字幕久久| 欧美日韩第三页| 91视频青青草| 国产精品自在在线午夜| 日韩精品专区免费无码aⅴ| 欧美亚洲日韩中文| 国产精品自在在线午夜区app| 91欧洲国产日韩在线人成| 2022国产无码在线| 国产成人a在线观看视频| 国产精品亚洲一区二区在线观看| 青青草国产一区二区三区| 亚洲国产亚综合在线区| 爆乳熟妇一区二区三区| 日本不卡在线播放| 亚洲一道AV无码午夜福利| 久久久精品国产SM调教网站| 亚洲无线观看| 午夜丁香婷婷| 美女一区二区在线观看| 人妻丰满熟妇AV无码区| 成人亚洲国产| 中文字幕久久波多野结衣| 91偷拍一区| 欧美一区二区自偷自拍视频| 尤物亚洲最大AV无码网站| 亚洲免费福利视频| 熟妇无码人妻| 久草视频精品| 这里只有精品在线| 亚洲精品在线观看91| 99久久精品国产综合婷婷| 白丝美女办公室高潮喷水视频 | 国产精品三区四区| 国产在线自乱拍播放| 亚洲成人福利网站| 一级毛片免费的| 国产va视频| 青青久视频| 国产幂在线无码精品| 国产成人亚洲欧美激情| 日韩在线中文| 国内精品自在自线视频香蕉| 亚洲日本中文综合在线| 伊人AV天堂| 亚洲最大在线观看| 一级毛片基地| 国产成人精品亚洲77美色| 2022国产91精品久久久久久| 国产剧情国内精品原创| 国产一区亚洲一区| 日韩欧美国产区| 中文字幕久久亚洲一区| 视频国产精品丝袜第一页| 国产精品欧美激情| 国产男女免费视频| 亚洲天堂.com| 高潮爽到爆的喷水女主播视频| 色偷偷综合网| 亚洲福利一区二区三区| 亚洲第一av网站| 精品国产成人a在线观看| 天天色天天综合| 中文字幕首页系列人妻| 啪啪永久免费av| 成人精品视频一区二区在线| 国产va免费精品| 免费国产黄线在线观看| 欧美人人干| 亚洲午夜国产片在线观看| 精品综合久久久久久97| …亚洲 欧洲 另类 春色| 国产欧美日本在线观看| 亚洲中文在线看视频一区|