摘 要:針對6DoF姿態(tài)估計需要收集與標(biāo)注大量數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)提出一種小數(shù)據(jù)集下面向目標(biāo)6DoF姿態(tài)與尺寸估計的全卷積神經(jīng)網(wǎng)絡(luò)模型以降低人工操作成本。首先采用注意力機制與特征金字塔相結(jié)合的方式通過區(qū)域建議網(wǎng)絡(luò)提取感興趣區(qū)域,將該區(qū)域輸入并行融合全卷積網(wǎng)絡(luò)獲得掩膜圖;其次通過增加跳躍連接豐富每個卷積后的特征信息,將其融合并通過分類獲得預(yù)測標(biāo)準(zhǔn)化坐標(biāo)空間圖;最后將得到的掩膜圖與標(biāo)準(zhǔn)化坐標(biāo)空間圖通過三維點云配準(zhǔn)獲得目標(biāo)的6DoF姿態(tài)與尺寸。實驗表明,該方法在小數(shù)據(jù)集下較PVN3D方法精度提升約2.6%,較GPVPose方法精度提升約1%。
關(guān)鍵詞:6DoF姿態(tài)估計;注意力機制;全卷積神經(jīng)網(wǎng)絡(luò);三維點云
中圖分類號:TP391 文獻標(biāo)志碼:A
文章編號:1001-3695(2023)03-049-0938-05
doi:10.19734/j.issn.1001-3695.2022.06.0319
Full convolution neural network model for 6DoF attitude and size estimation
Liu Zeyanga,Jia Dia,b
(a.School of Electronic amp; Information Engineering,b.School of Electrical Appliances amp; Control Engineering,Liaoning Technical University,Huludao Liaoning 125100,China)
Abstract:In order to reduce the cost of manual operation,this paper proposed a fully convolutional neural network model for 6DoF pose and size estimation of targets with small data sets for 6DoF pose and size estimation that required collecting and labeling a large amount of data to train neural networks.Firstly,
it combined the attention mechanism with the feature pyramid to extract the region of interest through the region suggestion network,and the region was input into the parallel fusion full convolution network to obtain the mask map.Secondly,
it enriched the feature information after each convolution by adding jump connections,which were fused and classified to obtain the predicted normalization coordinate space map.Finally,it obtained the 6DoF pose and size of the target by 3D point cloud registration between the obtained mask image and the normalization coordinate space image.Experiments show that compared with PVN3D method,this method improves the accuracy by about 2.6% and GPVPose method by about 1% in small data sets.
Key words:6DoF attitude estimation;attention mechanism;full convolutional neural network;3D point cloud
0 引言
6D目標(biāo)姿態(tài)與尺寸估計是諸多重要應(yīng)用的基礎(chǔ),如機器人抓取與操控、自動導(dǎo)航、增強現(xiàn)實等,主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)方法兩類。傳統(tǒng)方法采用SIFT等算法建立目標(biāo)圖像與目標(biāo)模型間的對應(yīng)關(guān)系,以此實現(xiàn)目標(biāo)的姿態(tài)估計,但這類算法由于需要人為設(shè)計特征描述子提取圖像特征,所以在復(fù)雜場景中存在魯棒性不高的問題;基于深度學(xué)習(xí)的方法通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型自動學(xué)習(xí)圖像中的特征表示,將RGB圖像作為輸入并輸出圖像中的對象姿態(tài),這類方法的優(yōu)點是特征表達更為豐富,泛化性更強。例如,Tekin等人[1]提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)可以直接預(yù)測對象3D邊界框頂點在2D圖像中的投影位置,使用PnP算法求解對象的6D姿態(tài)。Zakharov等人[2]提出一種基于深度學(xué)習(xí)的三維目標(biāo)檢測和6D位姿估計方法,估計輸入RGB圖像和三維模型之間的2D-3D的映射關(guān)系,得到對應(yīng)關(guān)系后,通PnP(perspective-n-point,投影n點法)和RANSAC(random sample consensus,隨機抽樣一致算法)計算6D位姿。Hu等人[3]引入了一個基于分割的6D位姿估計框架,其中檢測目標(biāo)上每個可見部分以2D關(guān)鍵點位置的形式提供了局部位姿預(yù)測。然后,使用預(yù)測的置信度來將這些候選姿態(tài)組合成一組穩(wěn)健的3D-2D對應(yīng),從而獲得可靠的姿態(tài)估計。Hu等人[4]引入了一個深層的網(wǎng)絡(luò)架構(gòu),直接從訓(xùn)練中回歸6D姿態(tài)。它將每個候選關(guān)鍵3D點作為輸入,并考慮到每組關(guān)鍵點的順序是不相關(guān)的,而每一個3D關(guān)鍵點的順序是固定的。因此可以與現(xiàn)有的3D關(guān)鍵點提取網(wǎng)絡(luò)結(jié)合使用,從而產(chǎn)生6D位姿估計框架。Wu等人[5]提出一種端到端的神經(jīng)網(wǎng)絡(luò),通過在Mask R-CNN中添加特定的頭部網(wǎng)絡(luò)結(jié)構(gòu)來預(yù)測剛體的旋轉(zhuǎn)和平移。
然而,上述方法在姿態(tài)估計中需要預(yù)先提供精準(zhǔn)的三維模型及其尺寸。為了避免上述模型構(gòu)建的問題,一些學(xué)者提出無須采用精準(zhǔn)三維模型進行目標(biāo)姿態(tài)估計的方法。Mousavian等人[6]使用卷積神經(jīng)網(wǎng)絡(luò)回歸相對穩(wěn)定的3D對象屬性,將這些對象屬性與二維對象邊界框提供的幾何約束相結(jié)合,生成完整的3D邊界框。Qi等人[7]直接對原始點云進行操作,并采用成熟的2D對象檢測器和3D深度學(xué)習(xí)進行對象定位。Deng等人[8]直接將2.5D視覺外觀與3D物體關(guān)聯(lián),通過三維對象檢測系統(tǒng)預(yù)測物體在室內(nèi)場景中的三維位置、物理尺寸和方向。Simonelli等人[9]提出了一種從單個RGB圖像中進行單目三維目標(biāo)檢測的方法,該方法使用了一種新的三維檢測損失函數(shù)和一種新的三維包圍盒置信度得分。這個三維檢測損失函數(shù)具有雙重優(yōu)點,即存在復(fù)雜的參數(shù)交互損失時簡化訓(xùn)練動力,并避免平衡獨立回歸項的問題。其解決方案通過隔離參數(shù)組對給定損失的貢獻來克服這些問題。
由于以上這些方法對三維邊界框的估計依賴于視點,并不能對目標(biāo)在三維空間中的精準(zhǔn)方向進行編碼,所以上述方法無法滿足同時預(yù)測未知目標(biāo)尺寸和姿態(tài)的要求。Wang等人[10]針對上述兩類方法的不足,通過引入標(biāo)準(zhǔn)化對象坐標(biāo)空間(NOCS)訓(xùn)練基于區(qū)域的神經(jīng)網(wǎng)絡(luò),較好地完成了從像素到標(biāo)準(zhǔn)化坐標(biāo)表示及對象相關(guān)信息(如類別標(biāo)簽和掩膜圖)。將這些預(yù)測結(jié)果與深度圖相結(jié)合,共同估計雜亂場景中多個對象的6D姿態(tài)和尺寸。然而這種方法在構(gòu)建全卷積網(wǎng)絡(luò)時,忽略了卷積操作會損失圖像特征的問題,在小數(shù)據(jù)集下可能發(fā)生嚴(yán)重的像素分類錯誤,導(dǎo)致部分對象未被檢測到。
為了解決上述問題,本文在全卷積網(wǎng)絡(luò)中通過引入He等人[11]提出的跳躍連接和Ding等人[12]提出的非對稱卷積塊,保留卷積后的特征信息來提高目標(biāo)姿態(tài)估計所需數(shù)據(jù)源的構(gòu)建質(zhì)量。通過引入提出的注意力機制[13]來獲得較強語義信息的多尺度特征表示。在整體結(jié)構(gòu)上,采用兩個全卷積網(wǎng)絡(luò)模型共享RGB圖像特征,通過配準(zhǔn)得到圖像中目標(biāo)的三維位置、方向與大小。本文主要工作如下:
a)提出注意力特征融合方法(CBAM-FPN),能夠提取細節(jié)信息更為豐富的特征圖,提高目標(biāo)檢測準(zhǔn)確率。
b)構(gòu)建了一種跳躍連接全卷積網(wǎng)絡(luò)架構(gòu)(Sc-FCN),建立用于求解6D姿態(tài)的三維點云數(shù)據(jù)。
c)提出一種并行融合全卷積網(wǎng)絡(luò)結(jié)構(gòu)(P-FCN),能夠更好地利用圖像特征信息進行預(yù)測,用于構(gòu)建高質(zhì)量掩膜圖。
1 方法
本文提出的全卷積神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。主干網(wǎng)絡(luò)采用ResNet50提取RGB圖像不同尺度下的特征信息,并通過CBAM-FPN提取小尺度下的細節(jié)信息,獲得含有較強語義信息及高分辨率特征圖后,采用區(qū)域生成網(wǎng)絡(luò)(RPN)提取特征圖中的感興趣區(qū)域(RoIS),通過池化操作統(tǒng)一尺寸并通過以下兩條路徑處理:a)采用P-FCN獲得目標(biāo)的掩膜圖(mask map),將相機內(nèi)參、深度圖與掩膜圖通過反向投影(back project)求出目標(biāo)的三維點云;b)采用Sc-FCN直接預(yù)測目標(biāo)的標(biāo)準(zhǔn)化坐標(biāo)空間圖(NCS map)。通過ICP算法將兩個點云數(shù)據(jù)變換到相同坐標(biāo)系下,求解目標(biāo)的旋轉(zhuǎn)和平移向量,以此實現(xiàn)魯棒的剛體6D姿態(tài)估計。
2.2 實驗環(huán)境與設(shè)置
實驗采用Keras人工神經(jīng)網(wǎng)絡(luò)庫與TensorFlow框架實現(xiàn),顯卡選用NVIDIA Tesla K80。將批量大小設(shè)置為2,初始學(xué)習(xí)率為0.001,優(yōu)化器使用SGD優(yōu)化,動量設(shè)置為0.9,動量衰減參數(shù)為1×10-4。采用COCO數(shù)據(jù)集上2D實例分割任務(wù)的訓(xùn)練權(quán)重初始化ResNet50主干網(wǎng)絡(luò)、RPN(區(qū)域生成網(wǎng)絡(luò))和CBAM-FPN。對于Sc-FCN和P-FCN頭部結(jié)構(gòu)采用文獻[15]的方法進行初始化。
2.3 實驗結(jié)果
本文在小數(shù)據(jù)集上預(yù)測mask map與常用方法進行了對比,如表1所示。本文方法在性能上優(yōu)于常用方法。由表1可知,雖然該方法在某一種類別與其他方法稍遜,但是在整體的評價指標(biāo)上來看,此方法優(yōu)于前兩種方法10個百分點左右。
表2為本文方法與NOCS方法在小數(shù)據(jù)集上預(yù)測NCS map的對比,使用跳躍連接全卷積網(wǎng)絡(luò)可以明顯提高預(yù)測NCS map的準(zhǔn)確率。在準(zhǔn)確率上較NOCS的傳統(tǒng)全卷積神經(jīng)網(wǎng)絡(luò)方法高出15%。
結(jié)合注意力特征金字塔后得到的目標(biāo)檢測模型精度mAP為79.2%,與其他算法對比結(jié)果如表3所示。對比結(jié)果顯示,結(jié)合注意力機制可以有效提升目標(biāo)檢測準(zhǔn)確率。
為了體現(xiàn)CBAM注意力機制的優(yōu)勢,將CBAM與其他注意力機制進行了對比實驗。對比結(jié)果如表4所示,不使用任何注意力機制的情況下參數(shù)量最少同時錯誤率也最高。使用注意力機制后,兩種注意力機制的參數(shù)量一致,但CBAM的錯誤率降低了0.5個百分點左右。
除了與現(xiàn)有方法對比,本文還使用基線算法(MASK R-CNN+ICP)客觀地比較6D姿態(tài)估計性能。從CAMERA數(shù)據(jù)集中抽取10k張圖像(小數(shù)據(jù)集)進行訓(xùn)練,在REAL275上進行測試。對比結(jié)果如表5所示。
實驗結(jié)果表明,本文方法(CPS6D)可以在小數(shù)據(jù)集下準(zhǔn)確地提取用于估計目標(biāo)6D姿態(tài)的形狀、可見性等關(guān)鍵信息,相對于其他方法在6D姿態(tài)估計中取得了最好的效果。與PVN3D方法相比,雖然在指標(biāo)為(10°,5 cm)時精度降低0.5%,但是在指標(biāo)為(5°,5 cm)、(5°,10 cm)、(10°,10 cm)上精度分別提高了1.9%、1.1%、0.1%。與GPV-Pose相比,在指標(biāo)(5°,10 cm)上精度降低0.9%,但在其余三個指標(biāo)上分別提升0.4%、1.1%、0.5%,可以彌補前者下降的缺陷。
2.4 定性研究
本文提供了可視化結(jié)果,圖5為本文模型在小數(shù)據(jù)集上進行6D姿態(tài)估計的定性結(jié)果,圖中紅色包圍框表示物體大小,三色坐標(biāo)軸表示物體6D姿態(tài)。可以看出,本文方法可以在更小的訓(xùn)練集下對于場景中的小物體實現(xiàn)魯棒性的6D姿態(tài)估計,測試圖像中包括了場景變化、視點變化以及遮擋等困難的情況。結(jié)果表明,該模型在小數(shù)據(jù)集訓(xùn)練下取得了很好的效果。圖6、7為本文方法在小數(shù)據(jù)集上的姿態(tài)估計過程。本文方法豐富了mask map、NCS map的邊緣以及整體信息。說明跳躍連接全卷積網(wǎng)絡(luò)和并行融合全卷積網(wǎng)絡(luò)在小數(shù)據(jù)集下對于提高物體的6D姿態(tài)估計準(zhǔn)確率發(fā)揮著重要的作用。
2.5 消融實驗
為驗證本文方法的有效性,分別采用文中各章節(jié)方法單獨進行實驗,包括注意力特征金字塔、跳躍連接全卷積網(wǎng)絡(luò)和并行融合全卷積網(wǎng)絡(luò)。消融實驗結(jié)果如表6所示。
表6中,與傳統(tǒng)特征金字塔相比,采用CBAM-FPN構(gòu)建不同尺度的特征圖進行目標(biāo)檢測和6D姿態(tài)估計的精度更高。CBAM-FPN在評估指標(biāo)上相較于NOCS提升約1.8%。此外,通過使用跳躍連接全卷積網(wǎng)絡(luò)和并行融合全卷積網(wǎng)絡(luò)進行6D姿態(tài)估計的結(jié)果更加準(zhǔn)確,表明SC-FCN和P-FCN可以在卷積過程中更加有效地保留更多的圖像特征信息。SC-FCN與NOCS相比,在評估指標(biāo)為(5°,5 cm)、(5°,10 cm)、(15°,5 cm)、(15°,5 cm)上分別提升1.7%、2.4%、5.6%、5.9%。實驗結(jié)果表明,通過本文給出的方法共同作用下,網(wǎng)絡(luò)模型可以在小數(shù)據(jù)集下更好地完成對圖像中物體的6D姿態(tài)估計任務(wù)。
3 結(jié)束語
本文提出在小數(shù)據(jù)集下基于注意力機制的特征融合金字塔網(wǎng)絡(luò)結(jié)構(gòu),通過跳躍連接全卷積網(wǎng)絡(luò)結(jié)構(gòu)和并行融合全卷積網(wǎng)絡(luò)結(jié)構(gòu)分別預(yù)測圖像中單個對象的標(biāo)準(zhǔn)化空間坐標(biāo)圖及掩膜圖,在測試階段使用掩膜圖和深度圖通過反向投影構(gòu)建三維點云數(shù)據(jù)。采用ICP點云配準(zhǔn)點云解決大小、平移、旋轉(zhuǎn)這個7維剛性變換的問題。在真實場景小數(shù)據(jù)集上的實驗表明,采用注意力特征金字塔夠提取細節(jié)信息更為豐富的特征圖。通過跳躍連接全卷積網(wǎng)絡(luò)和并行融合卷積網(wǎng)絡(luò)生成的標(biāo)準(zhǔn)化坐標(biāo)空間圖和掩膜圖更加精準(zhǔn),減少點云配準(zhǔn)時出現(xiàn)的誤差。消融實驗驗證了本文方法和模型的有效性。
該方法在構(gòu)建的三維點云數(shù)據(jù)在6D姿態(tài)估計的個別指標(biāo)上提升不明顯,如對某個類別預(yù)測的標(biāo)準(zhǔn)化坐標(biāo)空間圖的邊緣信息上存在誤差,將在未來的工作中進一步完善。
參考文獻:
[1]Tekin B,Sinha S N,F(xiàn)ua P,et al.Real-time seamless single shot 6D object pose prediction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:292-301.
[2]Zakharov S,Shugurov I,Ilic S.DPOD:6D pose object detector and refiner[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1941-1950.
[3]Hu Yinlin,Hugonot J,F(xiàn)ua P,et al.Segmentation-driven 6D object pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3380-3389.
[4]Hu Yinlin,F(xiàn)ua P,Wang Wei,et al.Single-stage 6D object pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:2927-2936.
[5]Wu Di,Zhuang ZhaoYong,Xiang Canqun,et al.6DVNet:end-to-end 6-DoF vehicle pose estimation from monocular RGB images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2019:1238-1247.
[6]Mousavian A,Anguelov D,F(xiàn)lynn J,et al.3D bounding box estimation using deep learning and geometry[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:5632-5640.
[7]Qi C R,Liu Wei,Wu Chenxia,et al.Frustum PointNets for 3D object detection from RGB-D data[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:918-927.
[8]Deng Zhuo,Latecki L J.Amodal detection of 3D objects:inferring 3D bounding boxes from 2D ones in RGB-Depth images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017:398-406.
[9]Simonelli A,Bulò S R,Porzi L,et al.Disentangling monocular 3D object detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1991-1999.
[10]Wang He,Sridhar S,Huang Jingwei,et al.Normalized object coordinate space for category-level 6D object pose and size estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2019:2637-2646.
[11]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep Residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[12]Ding Xiaohan,Guo Yuchen,Ding Guiguang,et al.ACNet:strengthening the kernel skeletons for powerful CNN via asymmetric convolution blocks[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1911-1920.
[13]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:3-19.
[14]Chang A X,F(xiàn)unkhouse T R,Guibas L,et al.ShapeNet:an information-rich 3D model repository[EB/OL].(2015-12-09).http://doi.org/10.48550/arxiv.1512.03012.
[15]He Kaiming,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2980-2988.
[16]Silberman N,Hoiem D,Kohli P,et al.Indoor segmentation and support inference from RGBD images[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2012:746-760.
[17]Song Shuran,Lichtenberg S P,Xiao Jianxiong,et al.SUN RGB-D:a RGB-D scene understanding benchmark suite[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:567-576.
[18]Li Yi,Wang Gu,Ji Xiangyang,et al.DeepIM:deep iterative matching for 6D pose estimation[C]//Proc of European Conference on Computer Vision.Berlin:Springer:695-711.
[19]趙鵬飛,謝林柏,彭力.融合注意力機制的深層次小目標(biāo)檢測算法[J].計算機科學(xué)與探索,2022,16(4):927-937.(Zhao Pengfei,Xie Linbai,Peng Li.A deeps mall target detection algorithm integrating attention mechanism[J].Computer Science and Exploration,2022,16(4):927-937.)
[20]Ren Shaoqing,He Kaiming,Girshick R B,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[21]Dai Jifeng,Li Yi,He Kaiming,et al.R-FCN:object detection via region-based fully convolutional networks[C]//Proc of the 30th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2016:379-387.
[22]Liu Wei,Anguelov D,Erhan D.SSD:single shot multi box detector[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:21-37.
[23]Fu C Y,Liu Wei,Ranga A,et al.DSSD:deconvolutional single shot detector[EB/OL].(2017-01-23).http://doi.org/10.48550/arxiv.1701.06659.
[24]Jeong J,Park H,Kwak N.Enhancement of SSD by concatenating feature maps for object detection[C]//Proc of British Machine Vision Conference.2017:523-533
[25]Hu Jie,Li Shen,Albanie S.Squeeze-and-excitation networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.
[26]Xiang Yu,Schmidt T,Narayanan V,et al.PoseCNN:a convolutional neural network for 6D object pose estimation in cluttered scenes[EB/OL].(2018-05-26).http://doi.org/10.48550/arxiv.1711.00199.
[27]Peng Sida,Liu Yuan,Huang Qixing,et al.PVNet:pixel-wise voting network for 6DoF pose estimation[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4556-4565.
[28]He Yisheng,Sun Wei,Huang Haibin,et al.PVN3D:a deep point-wise 3D keypoints voting network for 6DoF pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11629-11638.
[29]Di Yan,Zhang Ruida,Lou Zhiqiang,et al.GPV-Pose:category-level object pose estimation via geometry-guided point-wise voting[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2022:6771-6781.
收稿日期:2022-06-29;修回日期:2022-08-08 基金項目:國家自然科學(xué)基金資助項目(61601213);遼寧省教育廳資助項目(LJ2020FWL004,2019-ZD-0038)
作者簡介:劉澤洋(1995-),男,內(nèi)蒙古赤峰人,碩士研究生,主要研究方向為剛體的6D姿態(tài)估計;賈迪(1982-),男(通信作者),遼寧葫蘆島人,教授,博士,主要研究方向為立體匹配與三維重建、攝影測量、視覺空間定位和視覺機械臂作業(yè)(lntu_lzy@163.com).