999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多視圖循環神經網絡的三維物體識別

2020-04-06 08:48:22李文生張文強
電子科技大學學報 2020年2期
關鍵詞:分類特征融合

董 帥,李文生,張文強,鄒 昆

(電子科技大學中山學院 廣東 中山 528406)

近5 年,基于深度學習的計算機視覺技術[1]飛速發展,已廣泛應用于智能安防和無人駕駛等多個領域。在大規模目標數據集中,針對具體的識別或檢測任務,深層卷積網絡可以通過端對端的方式自適應地學習如何從輸入數據中提取和抽象特征,以及如何基于該特征進行決策。深層卷積網絡既可作為圖像特征提取和分類操作的統一體,又可以只作為特征提取網絡供實例檢索任務使用[2-3]。目前大多數基于深度學習的圖像分類網絡和目標檢測框架都是針對二維圖像提出的,但隨著深度學習逐步應用到機器人導航和無人超市等領域,三維物體的識別技術也逐漸得到了研究人員的廣泛關注。與二維圖像相比,三維物體識別的難點在于,同一物體的不同側面可能存在較大差異,從不同角度觀察會呈現出不同的形態,而不同物體在某個側面上的差異可能很小,甚至呈現出相同的形態。這使得直接使用單視圖(即二維圖像或投影)分類網絡的識別效果較差。

在深度學習受到廣泛關注之前,有許多學者采用了SURF 等傳統幾何方法[4-7]對三維物體的識別技術進行了探索,取得了一定的成果,但這類方法的魯棒性和泛化能力較差。近幾年,研究者逐漸將深度學習推廣到三維物體識別領域,提出了多種方法。這些方法可以大致分為兩類:基于三維數據表示的方法和基于多視圖表示的方法。文獻[8]提出了基于體素網格和三維卷積的VoxelNet,該網絡是二維平面卷積到三維空間卷積的直接推廣,由于計算量過大,輸入模型的體素分辨率一般較低,進而導致識別精度也較低。文獻[9-10]提出了針對三維點云的PointNet 及后續的一系列方法,這些方法基于點云的無序性提出多種非歐卷積網絡[11-12],具有較大的影響力,但同樣存在計算量大和訓練困難的問題。文獻[13]提出了基于SSD 的6 維位姿估計目標檢測框架,開創性地將位姿估計和目標檢測二者結合,具有啟發性。文獻[14]提出了基于深度霍夫投票的3D 目標檢測框架VoteNet,該框架主要用于場景的識別,未關注單個實例的分類和檢索問題。文獻[15]提出的基于多視圖的卷積神經網絡(MVCNN),與基于三維數據的方法并行。MVCNN 在分類和檢索任務上的表現均優于基于三維數據的識別方法。在文獻[16]中,對MVCNN、PointNet++和VoxelNet 等多種方法進行對比,并指出多視圖方法的優異表現主要得益于龐大的二維圖像數據集。但MVCNN 存在兩個方面的不足:1)依賴于精確的3D 模型,且采用了固定視角的視圖,這并不符合真實的應用場景,導致算法泛化能力不足;2) 采用了最大值池化操作來對多視圖進行融合,融合后的特征會損失大量信息。

針對MVCNN 存在的問題,本文提出了一種基于MVRNN 的三維物體識別方法。首先,設計了一個包含特征辨識度指標的目標函數用于訓練網絡,能夠得到辨識度更高的物體單視圖特征和融合特征;其次,使用循環神經網絡(recurrent neural network, RNN)對多個視圖特征進行融合,得到一個更加緊湊且包含更豐富信息的融合特征作為物體的注冊特征;最后,利用單視圖特征對注冊特征進行檢索。與MVCNN 相比,MVRNN 存在以下優點:1)不依賴于3D 模型,在實際應用中,只需要采集2D 圖片提取特征并進行融合;2)對視圖的視角和數量沒有要求,對不同視圖的特征信息利用更充分;3)利用循環結構網絡進行特征融合,兼具緊湊性和完備性。

1 問題描述

1.1 多視圖數據集

PASCAL3D+和Tsukuba 等公開三維數據集主要針對三維模型的分類,并不適用于多視圖的識別場景。文獻[15]基于ModelNet 建立了多視圖的數據集,但只采用了圖1 所示的12 個固定位置和視角,并不完全符合實際應用的場景。為了充分展現MVRNN 的優點,本文自建數據集MV3D (multiview 3D)用于對比試驗。

MV3D 采用Unity 軟件制作,將三維模導入軟件,并在Camera 的視場中隨機平移和旋轉模型,得到二維視圖。該數據集共有95 個三維物體模型,每個物體包括100 個二維視圖。物體模型較ModelNet 更加精致,紋理也更加豐富。該數據集中存在一些在不同視角角度下外觀差異較大的物體,以及一些屬于不同類別但在某些視角下形態十分相近的物體。圖2 展示了該數據集中的部分樣本。

1.2 MVRNN 三維物體識別框架

在MVCNN 中, F(·)采用了簡單的最大值池化;此外, F(·)還可采用均值池化和直接拼接等實現方法。本文利用RNN 代替最大值池化實現特征融合,此即為MVRNN 的由來。

由于多個模塊同時訓練難度較大,整個框架采用分步訓練的策略:1) 訓練分類分支 E(·)和 C1(·),固化 E(·)并提取單視圖特征;2)訓練分類分支F(·)和 C2(·), 固化 F(·)計算融合特征;3)訓練二分類網絡 M(·)。 C1(·)和 C2(·)只 用于 E(·)和 F(·)的訓練,并不直接參與預測。

2 MVRNN 具體實現方案

2.1 特征提取網絡

與MVCNN 一樣,在MVRNN 中 E(·)和 C1(·)直接采用了ResNet-18[17]的結構,并加載了預訓練的參數進行微調。輸入圖片尺寸為224*224,輸出特征長度為512。訓練時,采用的損失函數為:

2.2 循環多視圖特征融合網絡

特征融合網絡的作用是對多個視圖特征進行融合,得到一個能夠完整描述物體形狀和紋理信息的特征。本節借鑒視頻分析方法,采用RNN 來融合特征,其結構如圖4 所示。物體的多個視圖在時間上無相關性,但在空間上是關聯的,因此能夠借助RNN 的記憶能力來融合特征。

F(·)網絡采用圖5 所示的結構,每個循環體中包括線性全連接層(full connection, FC)和雙曲正切單元Tanh,最后的分類層 C2(·)包括了線性全連接FC 和Softmax 操作,全連接層神經元數量均為1 024,融合后特征長度為512。 F(·)循環體的數量可以隨輸入視圖的數量變化,即輸入視圖數量不固定。 F(·)的訓練同樣采用了式(1)所示的損失函數,λ 取0.01,μ取0。

2.3 檢索匹配網絡

相似度匹配模塊 M(·)是一個二分類模型,使用了三層的全連接神經網絡結構,輸入由單視圖特征和融合后特征拼接而成,隱藏層由線性全連接、Batch Normalization 和ReLU 組成,輸出層由線性全連接FC 和Softmax 組成,隱藏層神經元數量均為1 024,網絡結構如圖6 所示。 F(·)的訓練同樣采用了式(1)所示的損失函數,其中,λ取0.000 5,μ取0。

3 特征融合方法對比

特征融合是傳統機器學習中比較常用的手段,一般需要根據先驗知識來提取不同類別的特征信息,并進行協同決策。特征融合在深度學習領域也得到廣泛應用,比如ResNet 的殘差模塊和DenseNet的跨層連接,都對不同層的特征進行了融合。常見的特征融合方法包括直接拼接(concatenating)、堆疊(stacking)、相加(adding)、最大值池化(max-pooling)和均值池化(average-pooling)等。其中,堆疊可以看做是直接拼接的特例,相加則等效于均值池化。衡量特征融合方法的主要準則有兩個:1) 原始特征的信息是否會損失,即信息的完備性;2) 融合后特征是否便于后續計算,即特征的緊湊性,一般指融合特征的長度。此外,傳統機器學習的特征融合還比較注重被融合特征之間的差異性,差異越大則信息量越多,但該準則對于本文所解決的問題并不適用。

對于三維物體的多視圖特征融合任務而言,直接拼接能夠保證信息的完備性,但融合后特征長度較大,會導致網絡規模較大,且訓練難度增大;最大值池化和均值池化得到的特征比較緊湊,但會損失部分信息;而RNN 則兼具完備性和緊湊性。幾種方法得到的融合特征長度比較直觀,直接拼接方法的完備性也是毋庸諱言。

為了對比兩種池化方法和RNN 的完備性,本節設計了一個比較極端的二維特征融合任務,對比結果如圖7~圖10 所示。圖7 包含10 個物體的不同視圖特征,每條曲線表示一個物體,曲線上的點表示不同視圖的特征。特征空間可以分為左上、左下、右上和右下4 個子空間,子空間內的物體特征存在較大的相似性。從每條曲線隨機抽取5 個點進行融合,重復得到融合特征的分布。最大值池化的結果如圖8 所示,其中,左下兩個物體特征出現了重疊,右上的類似。均值池化的結果則是左上和右下的物體特征出現重疊,具體如圖9 所示。RNN采用了單隱含層10 神經元的全連接網絡,其融合結果如圖10 所示。RNN 引入了新的網絡層將特征映射至新的空間,10 個物體被有效區分。

4 實驗結果與分析

為了說明MVRNN 在融合多視圖特征上的優越性,本節在ModelNet 數據集[15]和自建數據集MV3D 上進行了多組對比分析。

從ModelNet 數據集隨機抽取4 000 個物體,每個物體分別抽取6 張和12 張視圖,按照6:1:3 的比例劃分訓練集、驗證集和測試集。MVCNN 和MVRNN 在融合特征分類任務和實例檢索任務上的性能如表1 所示。從表1 可以看出,相較于MVCNN,MVRNN 在分類任務上有一定的提升,且融合的視圖越多,二者的準確率都有提升;在檢索任務上,MVRNN 明顯優于MVCNN;需要注意的是,隨著視圖的增多,MVCNN 檢索的準確率會下降,這是由于ModelNet 數據集中模型本身都比較簡單粗糙,缺乏具有辨識度的紋理,最大值池化操作更容易丟失信息,圖片越多,更有可能導致部分關鍵信息的丟失。

表1 MVCNN 和MVRNN 準確率對比(ModelNet)

由于ModelNet 數據集具有固定視角的限制,無法充分驗證MVRNN 的性能。因此,本文利用Unity 3D 制作了MV3D 數據集,其中訓練集包含65 個物體,測試集包含30 個物體,每個物體包含100 張視圖。數據集的設定如下:

1)訓練特征提取網絡時,訓練集中所有的視圖(6 500 張)全部參與訓練。

2)訓練特征融合網絡時,從每個物體隨機抽取6 個單視圖特征構建六元組作為網絡輸入;訓練集包含65 個物體,每個物體包含2 000 個六元組;測試集由同樣的65 個物體生成,每個物體包含500 個六元組。即訓練樣本數量為130 000,測試樣本數量為32 500。

3)訓練匹配網絡時,從物體A 隨機抽取7 個單視圖特征A1~A7,從物體B 抽取1 個單視圖特征B1,構建正負兩個七元組樣本作為網絡輸入,其中A1~A6 輸入特征融合網絡生成融合特征,A7 為檢索特征正樣本,B1 為檢索特征負樣本;訓練集包含65 個物體,每個物體包含2 000 個七元組;測試集包含30 個物體,每個物體包含2 000個七元組。即訓練樣本數量為130 000,測試樣本數量為60 000。

在MV3D 數據集上進行7 種方法的對比測試,結果如表2 所示。實驗的設定如下:1)基于單個視圖特征進行分類和檢索;2)基于多個單視圖特征進行單獨匹配,并取置信度最高的視圖作為最終匹配結果;3) MVCNN,即 F(·)為最大值池化;4) F(·)為 直 接 拼 接;5) F(·)為 均 值 池 化;6)MVRNN without Lrect; 7) MVRNN with Lrect。各組實驗涉及到的卷積網絡和相似度匹配模型均采用同樣的結構,且所有模型均使用相同的訓練方法和超參,batch_size 為50,采用Nesterov[18]梯度加速算法,初始學習率為10?2,穩定后變為10?3和10?4,動量為0.9,dropout 概率[19]為0.3。 top 1_dst定義為在檢索正確的結果中,1.0 與最大相似度之間的平均距離,即則表示在檢索正確的結果中,最大與次大相似度之間的平均距離,即可以衡量特征辨識度的高低, top 2_dst越大,同時top1_dst越小,則該值越大,也說明特征的辨識度越高。

表2 MVRNN 性能對比(MV3D)

從表2 來看,MVRNN 準確率最高,即使損失函數不考慮 Lrect項,結果依然較其他方法好。最大值池化、均值池化和直接拼接3 種方式準確率相近,為第2 梯隊;只使用單視圖的兩種方法效果最差。

在目標函數中增加 Lrect項后,MVRNN 在單視圖分類和融合特征檢索的準確率上都得到了明顯提升,具體結果如表3 所示。結合表2 的特征辨識度指標來看, Lrect能夠提升特征辨識度,進而提升分類和檢索的準確率。

表3 Lrect 效果對比

為了進一步對比MVRNN 和MVCNN 的性能,本節對表2 中的實驗3 和實驗7 進行擴展,得到了視圖數量分別為2,4,6,8,10 時,訓練集物體數量為10,20,30,40,50,65 時的檢索準確率,具體結果如圖11 所示。從圖中可以看出:1)隨著訓練集物體數量的增加,檢索準確率也不斷增加;2)在物體數量超過30 后,準確率整體的提升幅度較小,物體數量為30 時對應的訓練樣本數量為60 000;3)MVRNN 整體準確率較MVCNN 高約8%。

本文還基于MVRNN 開發了一個簡單的商品識別系統。該系統包括商品注冊和商品識別兩個模式,具體應用如圖12 和圖13 所示。在注冊階段,采集商品實例的不同視圖,以提取視圖特征進行融合,并對融合特征進行注冊;在識別階段,則根據商品單視圖特征對融合特征進行檢索。在100 種常見飲料食品類商品上進行測試,注冊圖片不超過9 張,即可完成大部分商品實例的檢索,準確率約為90%。

5 結 束 語

針對三維物體的分類和檢索問題,本文對MVCNN 進行改進,提出了MVRNN。通過在損失函數中引入特征辨識度指標,能夠有效提升分類和檢索的準確率;利用RNN 代替最大值池化操作,使得融合特征具有信息完備性。在ModelNet 數據集和MV3D 數據集上,MVRNN 的表現較MVCNN有了明顯提升。在未來的研究中,擬制作大規模商品數據集以開展MVRNN 的應用研究;此外,將MVRNN 與SSD 等目標檢測框架結合來估計物體的六維位姿也是一個比較有前景的方向。

猜你喜歡
分類特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
分類算一算
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 亚洲狼网站狼狼鲁亚洲下载| 巨熟乳波霸若妻中文观看免费 | 久久人搡人人玩人妻精品| 一区二区三区高清视频国产女人| 亚洲另类第一页| 九色国产在线| 国产精品私拍在线爆乳| 操操操综合网| 欧美啪啪一区| 久久精品女人天堂aaa| 亚洲国产欧美国产综合久久| 国产精品浪潮Av| 全部无卡免费的毛片在线看| 国产精品短篇二区| 中文字幕不卡免费高清视频| 国产性生大片免费观看性欧美| 免费一级毛片不卡在线播放| 粉嫩国产白浆在线观看| 特黄日韩免费一区二区三区| a级免费视频| 国产福利微拍精品一区二区| 中文字幕 欧美日韩| 五月婷婷亚洲综合| 国产精品播放| 真实国产乱子伦视频| 欧美精品xx| 9啪在线视频| 99热最新在线| 在线观看亚洲精品福利片| 国产成人毛片| 欧洲高清无码在线| 日本手机在线视频| 亚洲—日韩aV在线| 免费毛片a| 久久国产精品影院| 少妇极品熟妇人妻专区视频| 午夜a级毛片| 国产激情无码一区二区免费| 在线无码九区| 丁香六月综合网| 国产成人亚洲精品蜜芽影院| 国产精品自拍合集| 久久99国产乱子伦精品免| 久久综合成人| 国产在线观看第二页| 亚洲综合色婷婷| 911亚洲精品| 老司机午夜精品网站在线观看| 欧美黄网站免费观看| 日韩精品专区免费无码aⅴ| 秘书高跟黑色丝袜国产91在线| 亚洲IV视频免费在线光看| 日韩免费视频播播| 老司机久久精品视频| 一级高清毛片免费a级高清毛片| 亚洲中文无码av永久伊人| 都市激情亚洲综合久久| 久久精品亚洲中文字幕乱码| 天天视频在线91频| 免费国产高清精品一区在线| 亚洲天堂网在线视频| 伊人精品成人久久综合| 久久国产精品影院| 欧美成人午夜视频| 国产第一福利影院| 国产资源免费观看| 国产高清在线观看91精品| 国产毛片片精品天天看视频| 欧美啪啪网| 一本久道久久综合多人| 亚洲国产一区在线观看| 99偷拍视频精品一区二区| 男人天堂亚洲天堂| 亚洲侵犯无码网址在线观看| 在线观看网站国产| 欧美中日韩在线| 婷婷色丁香综合激情| 亚洲日韩国产精品综合在线观看| 亚洲an第二区国产精品| 白丝美女办公室高潮喷水视频| 99久视频| 91精品最新国内在线播放|