楊毅++鐘嫻++喬飛++王生進(jìn)++丁文浩



摘 要:媒體與認(rèn)知是電子系在課程改革中提出的一門全新的核心必修課程。文章闡述如何探索并建立一種智能感知技術(shù)及相應(yīng)的教學(xué)方法,說(shuō)明設(shè)計(jì)開發(fā)一套以三維重建技術(shù)為基礎(chǔ)的智能感知教學(xué)內(nèi)容及教學(xué)手段的過(guò)程,目標(biāo)是培養(yǎng)學(xué)生的創(chuàng)新性思維,培養(yǎng)智能感知學(xué)科的人才。
關(guān)鍵詞:媒體認(rèn)知;智能感知;三維重建; RealSense平臺(tái)
1 背 景
隨著電子信息技術(shù)日新月異,電子信息教學(xué)領(lǐng)域也面臨著全新的挑戰(zhàn),需要培養(yǎng)具有全方位視野和超強(qiáng)能力的新一代工程師及領(lǐng)導(dǎo)者。本著這一目標(biāo),清華大學(xué)電子系自2008年開始著手進(jìn)行課程改革,通過(guò)改革課程體系將原有課程重新整合,從學(xué)科范式的角度整理出電子工程本科教育的知識(shí)體系結(jié)構(gòu),從而梳理出新的本科課程體系,形成了電子信息領(lǐng)域?qū)W科地圖。
媒體與認(rèn)知是清華大學(xué)電子信息學(xué)科在課程體系改革過(guò)程中提出的一門重要的必修課程[1-2]。我們結(jié)合清華大學(xué)電子工程系在該領(lǐng)域研究的基礎(chǔ)、優(yōu)勢(shì)和創(chuàng)新性成果,有針對(duì)性地將已有科研成果轉(zhuǎn)化為教學(xué)內(nèi)容,通過(guò)建設(shè)一套完整、全面的涵蓋人機(jī)感知交互、媒體信息處理、虛擬現(xiàn)實(shí)及信號(hào)處理領(lǐng)域的探索前沿型實(shí)驗(yàn)教學(xué)平臺(tái),培養(yǎng)學(xué)生的智能感知技術(shù)開發(fā)能力;同時(shí),采用集體創(chuàng)新培養(yǎng)和個(gè)人研究探索相結(jié)合的方式,最終達(dá)到理工與人文、技術(shù)與藝術(shù)、感知與思考的高度融合,使學(xué)生成為具有國(guó)際一流水平的、兼具科研創(chuàng)新能力和未來(lái)探索精神的領(lǐng)軍型人才。
在2017年開設(shè)的媒體與認(rèn)知課程內(nèi)容中,我們參考國(guó)內(nèi)外諸多科研院所及名企與智能感知技術(shù)相關(guān)的項(xiàng)目?jī)?nèi)容,結(jié)合本系在該領(lǐng)域研究的基礎(chǔ)優(yōu)勢(shì)和創(chuàng)新性成果,建設(shè)了一套基于智能感知的物體三維重建項(xiàng)目。通過(guò)對(duì)該項(xiàng)目的學(xué)習(xí)和研究研發(fā),學(xué)生能夠獲得智能感知技術(shù)的基礎(chǔ)理論知識(shí)和開發(fā)能力,力爭(zhēng)成為具有國(guó)際領(lǐng)先水平的智能感知技術(shù)專業(yè)人才。
2 基于智能感知的物體三維重建項(xiàng)目
物體三維重建是計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)動(dòng)畫、計(jì)算機(jī)視覺(jué)、醫(yī)學(xué)圖像處理、虛擬現(xiàn)實(shí)、機(jī)器人定位等領(lǐng)域的核心技術(shù),近年來(lái)隨著計(jì)算機(jī)硬件的快速發(fā)展,包括CPU主頻的提高、GPU及GPU陣列的快速迭代,計(jì)算量已經(jīng)不再是瓶頸,因此三維重建技術(shù)也開始被重視。
在許多三維重建的技術(shù)應(yīng)用中,機(jī)器人感知與定位中的建圖部分具有一定的代表性,主要原理是利用相機(jī)每一個(gè)位姿下的圖片恢復(fù)出物體或場(chǎng)景的三維形狀。目前,主流的三維重建系統(tǒng)包括Kinect Fusion[3]、Elastic Fusion[4]、Kinitinuous[5]、 BundleFusion[6]等,主要使用GPU加速實(shí)現(xiàn)較好的效果。
我們提出的基于智能感知的物體三維重建項(xiàng)目主要包括兩個(gè)部分:RGBD重建基線系統(tǒng)及其增強(qiáng)系統(tǒng)。
2.1 RGB-D重建基線系統(tǒng)
RGB-D重建基線系統(tǒng)中包含基本的三維重建功能以及實(shí)時(shí)功能,但由于硬件條件所限,不能很好地進(jìn)行實(shí)時(shí)點(diǎn)云查看,通常用于離線數(shù)據(jù)集的方式重建,方法是先啟動(dòng)掃描程序,利用RGB-D相機(jī)掃描一系列的RGB 圖片與深度圖并保存,然后啟動(dòng)重建系統(tǒng)完成重建。
1)系統(tǒng)架構(gòu)。
RGB-D重建系統(tǒng)工作流程圖如圖1所示。整個(gè)系統(tǒng)分為前端和后端兩部分,前端負(fù)責(zé)將RGBD圖像生成點(diǎn)云并利用圖2所示的 PNP(perspective-n-point)算法估計(jì)出相鄰兩幀之間的剛體變換矩陣,從而得到當(dāng)前這一幀相對(duì)于上一幀的位姿變換,當(dāng)此位姿變換滿足預(yù)設(shè)的閾值,將這一幀定義為關(guān)鍵幀。對(duì)于數(shù)據(jù)集版本,則在得到所有關(guān)鍵幀后進(jìn)行圖優(yōu)化且提取優(yōu)化后的相機(jī)位姿,最后將所有的點(diǎn)云進(jìn)行拼接。
2)位姿計(jì)算方法。
由于計(jì)算量較大,我們?cè)谑褂肞NP算法時(shí)并未針對(duì)整幅圖片直接操作,而是首先進(jìn)行特征提取與匹配,其中特征提取選用ORB(oriented fAST and rotated brief)方法,具有尺度和旋轉(zhuǎn)不變性,此外在得到相鄰兩個(gè)關(guān)鍵幀的匹配點(diǎn)之后需要進(jìn)行篩選,降低PNP算法的重投影誤差。
3)后端圖優(yōu)化。
在得到一系列關(guān)鍵幀后,需要對(duì)其拼接,但相關(guān)信息只有相鄰兩幀之間的位姿變化,因此需要進(jìn)行局部?jī)?yōu)化。傳統(tǒng)方式是采用拓展卡爾曼濾波,但場(chǎng)景變化會(huì)引起狀態(tài)變量的長(zhǎng)度變化,因此我們采用圖優(yōu)化方式。方法是將相機(jī)位姿作為圖的定點(diǎn),將兩幀之間的變換作為邊,從而建立一個(gè)稀疏圖,進(jìn)而定義能量函數(shù)為各個(gè)邊之間的投影誤差,優(yōu)化的目的是使得這個(gè)誤差函數(shù)最小,具體采用第三方庫(kù)實(shí)現(xiàn)。
4)系統(tǒng)效果。
本系統(tǒng)的采集設(shè)備是realsense F200[7],實(shí)際設(shè)備的最大有效距離為1.2 m。 將realsense設(shè)備作為前端掃描設(shè)備掃描玩偶,對(duì)得到的數(shù)據(jù)采用RGB-D重建系統(tǒng)進(jìn)行離線重建,得到圖3所示的效果。
2.2 RGB-D重建增強(qiáng)系統(tǒng)
除了上述基線系統(tǒng),我們的RGB-D重建增強(qiáng)系統(tǒng)解決實(shí)時(shí)性的問(wèn)題,構(gòu)建一種基于稀疏特征的用于導(dǎo)航和定位的機(jī)器人定位系統(tǒng)ORB-SLAM2[8],是目前 SLAM(simultaneous localization and mapping)領(lǐng)域效果最好的系統(tǒng)架構(gòu),并在此基礎(chǔ)上增加稠密點(diǎn)云的拼接與實(shí)時(shí)設(shè)備的讀取功能,目的是實(shí)現(xiàn)魯棒的重建效果,其工作流程如圖4所示。
1)回環(huán)檢測(cè)。
三維重建問(wèn)題的一個(gè)難點(diǎn)是當(dāng)在整個(gè)環(huán)境中環(huán)顧一周再次回到出發(fā)點(diǎn)時(shí),誤差累積和相機(jī)畸變問(wèn)題會(huì)導(dǎo)致物體分層,即兩次掃描的結(jié)果不能拼接。解決這個(gè)問(wèn)題的方法是當(dāng)回到起始點(diǎn)時(shí)能夠檢測(cè)出這個(gè)回環(huán)(loop)并以此修正所有的關(guān)鍵幀,平均累計(jì)誤差。目前主要解決方案是使用詞袋模型(bag of word),首先用K-means算法分割出一些訓(xùn)練好的子模型,利用這些模型進(jìn)行關(guān)鍵幀之間的匹配,找到相似度大的幀,定義為存在回環(huán)。
2)重定位。endprint
重定位指的是在丟掉相機(jī)的位置之后能夠快速找回,我們使用orbslam2 自帶的重定位(re-localization)功能與所有關(guān)鍵幀匹配,看能否找到合適的位置繼續(xù)跟蹤,主要方法是通過(guò)計(jì)算當(dāng)前幀的 BOW 向量,在關(guān)鍵幀詞典數(shù)據(jù)庫(kù)中選取若干關(guān)鍵幀作為候選。
3)局部?jī)?yōu)化。
由于增加了實(shí)時(shí)顯示的功能,因此需要在一定時(shí)間內(nèi)對(duì)重復(fù)出現(xiàn)的一個(gè)區(qū)域內(nèi)的內(nèi)容進(jìn)行局部?jī)?yōu)化。局部?jī)?yōu)化的內(nèi)容包括刪除該局部區(qū)域內(nèi)冗余的點(diǎn)和關(guān)鍵幀,并通過(guò)本地約束調(diào)整(local bundle adjustment)功能實(shí)現(xiàn)位姿調(diào)整。
4) 系統(tǒng)效果。
本系統(tǒng)的采集設(shè)備也是realsense F200,基于realsense設(shè)備利用RGB-D重建增強(qiáng)系統(tǒng)實(shí)時(shí)掃描玩偶,得到圖5所示的效果。與圖4相比可以看出,在實(shí)時(shí)系統(tǒng)下的三維重建效果依然良好。
3 結(jié) 語(yǔ)
本文主要介紹了媒體與認(rèn)知課程中的感知技術(shù)教學(xué)項(xiàng)目“基于智能感知的物體三維重建項(xiàng)目”,在現(xiàn)有開發(fā)平臺(tái)的基礎(chǔ)上,構(gòu)建了RGB-D重建基線系統(tǒng)及RGB-D重建增強(qiáng)系統(tǒng)并對(duì)其進(jìn)行比較,使學(xué)生掌握目前主流的三維重建核心技術(shù)。下一步,我們將在該項(xiàng)目平臺(tái)中引入其他RGB-D傳感器,以進(jìn)行更加深入的研究探索。
參考文獻(xiàn):
[1] 清華大學(xué)電子工程系[EB/OL]. [2017-06-01]. http://www.ee.tsinghua.edu.cn/publish/ee/3684/index.html.
[2] 楊毅, 徐淑正, 喬飛, 等. 媒體認(rèn)知實(shí)驗(yàn)教學(xué)改革研究與探索[J]. 計(jì)算機(jī)教育, 2015(9): 107-109.
[3] Whelan T, Leutenegger S, Salas-Moreno R F, et al. ElasticFusion: Dense SLAM without a pose graph[EB/OL]. [2017-06-01]. http://www.roboticsproceedings.org/rss11/p01.pdf.
[4] Whelan T, Kaess M, Johannsson H, et al. Real-time large-scale dense RGB-D SLAM with volumetric fusion[J]. The International Journal of Robotics Research, 2015, 34(4-5): 598-626.
[5] Mur-Artal R, Montiel J M M, Tardos J D. ORB-SLAM: A versatile and accurate monocular SLAM system[J]. IEEE Transactions on Robotics, 2015, 31(5): 1147-1163.
[6] Dai A, Nie?ner M, Zollh?fer M, et al. BundleFusion: Real-time globally consistent 3D reconstruction using online surface re-integration[EB/OL]. (2017-02-07)[2017-06-01]. https://arxiv.org/abs/1604.01093.
[7] Intel Corporation. Intel? RealSense? Technology[EB/OL]. [2017-06-01]. http://www.intel.com/content/www/us/en/architecture-and-technology/realsense-overview.html.
[8] ORB-SLAM[EB/OL]. [2017-06-01]. http://webdiis.unizar.es/~raulmur/orbslam/.
(編輯:宋文婷)endprint