王海菲,賈金原,謝 寧
?
復(fù)雜室內(nèi)圖像的滅點(diǎn)檢測(cè)與箱體重建方法*
王海菲,賈金原,謝寧+
同濟(jì)大學(xué)軟件學(xué)院,上海201804
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(05)-0678-10
http://www.ceaj.org Tel: +86-10-89056056
* The National Natural Science Foundation of China under Grant No. 61272276 (國(guó)家自然科學(xué)基金); the Key Projects in the National Science & Technology Pillar Program During the Twelfth Five-Year Plan Period of China under Grant No. 2012BAC11B00-04-03(國(guó)家”十二五”計(jì)劃重大科技支撐項(xiàng)目); the Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No. 20130072110035 (高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金); the Key Scientific and Technological Projects of Jilin Province under Grant No. 20140204088GX (吉林省重點(diǎn)科技攻關(guān)課題); the Young Scholar Plan of Tongji University under Grant No. 2014KJ074 (同濟(jì)大學(xué)青年優(yōu)秀人才培養(yǎng)行動(dòng)計(jì)劃).
Received 2015-11,Accepted 2016-01.
CNKI網(wǎng)絡(luò)優(yōu)先出版: 2016-01-04, http://www.cnki.net/kcms/detail/11.5602.TP.20160104.0953.006.htm l+ Corresponding author: E-mail: ningxie@tongji.edu.cn
WANG Haifei, JIA Jinyuan, XIE Ning. Vanishing point detection and scene reconstruction of cluttered room. Journal of Frontiersof Computer Science and Technology, 2016, 10(5): 678-687.
摘要:近年來,隨著家居虛擬展示應(yīng)用的推廣,針對(duì)圖像的室內(nèi)場(chǎng)景建模技術(shù)成為研究和應(yīng)用的熱點(diǎn)。在圖像理解的基礎(chǔ)上,針對(duì)單張復(fù)雜室內(nèi)圖像提出了一套箱體建模方法。首先進(jìn)行代表房間主軸方向的滅點(diǎn)檢測(cè),并通過分析影響滅點(diǎn)檢測(cè)的因素,對(duì)滅點(diǎn)檢測(cè)算法提出相應(yīng)的改進(jìn),從而顯著改善算法的執(zhí)行效率和準(zhǔn)確性。然后對(duì)圖像的場(chǎng)景布局信息進(jìn)行自動(dòng)還原,并通過加入布局優(yōu)化步驟,提高布局還原結(jié)果的準(zhǔn)確率。最后利用滅點(diǎn)得到相機(jī)的內(nèi)、外部參數(shù),并以此為基礎(chǔ)實(shí)現(xiàn)圖像到三維模型的轉(zhuǎn)換。實(shí)驗(yàn)表明,單張復(fù)雜室內(nèi)圖像的箱體重建方法能夠快速地對(duì)圖像場(chǎng)景進(jìn)行分析,并恢復(fù)場(chǎng)景的箱體布局,滿足虛擬重建的需要。
關(guān)鍵詞:家居虛擬展示;圖像理解;滅點(diǎn)檢測(cè);三維重建;室內(nèi)場(chǎng)景箱體建模
隨著互聯(lián)網(wǎng)3D大數(shù)據(jù)的蓬勃發(fā)展,家居虛擬展示跨越了時(shí)空的局限,可以幫助用戶直觀、快速、全面地實(shí)現(xiàn)室內(nèi)設(shè)計(jì)方案的展示,因而被家居行業(yè)廣泛使用[1-2]。現(xiàn)有的家居虛擬展示技術(shù)多采用單純的3D技術(shù),雖然操作靈活,交互簡(jiǎn)單,但場(chǎng)景的真實(shí)性表現(xiàn)差強(qiáng)人意,且三維家居模型的制作過程耗時(shí),需要大量繁瑣的人工操作。
近年來,基于圖像的家居虛擬設(shè)計(jì)方法不斷涌現(xiàn),在一定程度上克服了純3D技術(shù)渲染速度慢,模型制作復(fù)雜等缺點(diǎn),且素材豐富,獲取容易。然而圖像往往缺少一些關(guān)鍵的場(chǎng)景信息,如場(chǎng)景的深度信息、空間結(jié)構(gòu)信息等,因此如何從圖像中還原三維場(chǎng)景信息成為關(guān)鍵。目前由于數(shù)據(jù)采集的局限性,現(xiàn)有的特定室內(nèi)場(chǎng)景多僅存單幅圖像,且圖像中包含豐富的物品,物品之間的相互遮擋會(huì)造成場(chǎng)景信息恢復(fù)困難。因此,針對(duì)單張復(fù)雜室內(nèi)圖像的場(chǎng)景三維信息還原與重建為本文的研究重點(diǎn)。
針對(duì)單張復(fù)雜室內(nèi)圖像的場(chǎng)景建模問題,本文在基于單張圖像的場(chǎng)景三維重建的基礎(chǔ)上,得到了一種速度更快,準(zhǔn)確性更高的基于圖像理解的場(chǎng)景重建方法。在進(jìn)行圖像重建之前,通過對(duì)復(fù)雜室內(nèi)圖像的分析,發(fā)現(xiàn)大多數(shù)場(chǎng)景中存在共同的特點(diǎn),且這些特點(diǎn)對(duì)推測(cè)室內(nèi)場(chǎng)景布局起到重要的作用:(1)房間及其內(nèi)部物品均可以用立方體模型粗略表示(如圖1所示,黃線代表房間模型,綠線為物品模型);(2)房間存在許多平行于墻面的平面[3]。

Fig.1 An illustration of cuboid proxy in indoor image圖1 家居圖像中存在的立方體模型
本文基于滅點(diǎn)的場(chǎng)景重建方法(vanishing point based scene reconstruction,VPSR)可分為三步:首先,通過對(duì)圖像中物體輪廓的分析,得到代表場(chǎng)景特征的滅點(diǎn)信息。其次,根據(jù)滅點(diǎn)信息,推測(cè)出符合圖像內(nèi)容的場(chǎng)景布局信息。最后,將二維圖像場(chǎng)景還原到三維真實(shí)空間中。
本文的主要貢獻(xiàn)包括:
(1)分析影響滅點(diǎn)檢測(cè)算法的因素,并通過更改圖像邊緣檢測(cè)方法和滅點(diǎn)選擇策略,明顯提高了滅點(diǎn)檢測(cè)算法的效率和準(zhǔn)確性。
(2)提出房間箱體模型優(yōu)化算法,在得到最終的場(chǎng)景布局信息之前,根據(jù)物品的立方體模型對(duì)房間的最優(yōu)模型做進(jìn)一步優(yōu)化。
(3)將提出的場(chǎng)景重建方法運(yùn)用到家居虛擬展示的應(yīng)用中,用戶只需上傳圖像即可,具有簡(jiǎn)單、方便等特點(diǎn)。
(1)基于多張圖像的場(chǎng)景三維重建
圖像的場(chǎng)景重建在計(jì)算機(jī)圖形學(xué)領(lǐng)域中一直都是研究熱點(diǎn)。在場(chǎng)景的三維重建中,通過獲取多張場(chǎng)景圖像可以得到全面的場(chǎng)景信息,從而進(jìn)行準(zhǔn)確的場(chǎng)景三維重建[4]。其難點(diǎn)在于如何處理從不同圖像中提取出的特征,將這些特征聯(lián)合并推測(cè)出場(chǎng)景信息。除此之外,還可通過特殊格式的場(chǎng)景圖像(如全景圖像、魚眼圖像)對(duì)場(chǎng)景進(jìn)行重建[5-6]。
(2)基于單張圖像的場(chǎng)景三維重建
相對(duì)于多張圖像的場(chǎng)景重建,單張圖像的場(chǎng)景三維重建更加困難,其難點(diǎn)主要源于圖像處理中的不適定問題:深度信息缺失和物體間的相互遮擋。單張圖像無法確定三維重建所需要的精確相機(jī)參數(shù),并且無法提供物體被遮擋部分的信息,因此針對(duì)單張圖像進(jìn)行精細(xì)的三維場(chǎng)景重建并不現(xiàn)實(shí)。
現(xiàn)有的針對(duì)單張圖像的建模方法在進(jìn)行相機(jī)校準(zhǔn)步驟時(shí),主要依賴于滅點(diǎn)的檢測(cè)、用戶的深度標(biāo)注或物體的對(duì)稱性等方式[7-10]。在計(jì)算相機(jī)參數(shù)的過程中,引入簡(jiǎn)單幾何圖元可以對(duì)相機(jī)校準(zhǔn)起到明顯的幫助作用,并獲得一種基于代理的三維重建[3,11-13]。TIP(tour into the picture)[14]就是一種經(jīng)典的基于箱體模型的圖像三維重建方法。它在相機(jī)參數(shù)計(jì)算過程中主要運(yùn)用蜘蛛網(wǎng)格來確認(rèn)場(chǎng)景中的透視關(guān)系,并通過蜘蛛網(wǎng)格中的關(guān)鍵點(diǎn)來構(gòu)建三維場(chǎng)景。但TIP在重建過程中所需的場(chǎng)景關(guān)鍵信息都是由人手工給出的,并且對(duì)輸入的圖像要求很高。
給定一張包含豐富物品內(nèi)容的室內(nèi)家居圖像,若想讓計(jì)算機(jī)自動(dòng)地獲取場(chǎng)景的關(guān)鍵信息是十分困難的。然而,人們卻可以從圖像中很快獲取房間的布局信息。這主要是由于人對(duì)圖像內(nèi)容的理解不僅局限于其中可見的物品,如床、沙發(fā)、墻等,通過這些物品信息可以推測(cè)出整個(gè)場(chǎng)景的空間結(jié)構(gòu)。如果讓計(jì)算機(jī)也進(jìn)行相同的檢測(cè),需要先讓計(jì)算機(jī)理解圖像。
(3)圖像理解
通過圖像中的特征信息來合理地解釋輸入圖像,并進(jìn)行圖像參數(shù)化的過程稱為圖像理解。目前,有許多與本文相關(guān)的工作都采用圖像理解的方法進(jìn)行圖像的參數(shù)化,進(jìn)而自動(dòng)地還原出圖像的場(chǎng)景信息。Make3D[15]中,通過針對(duì)輸入圖像的超級(jí)像素的分析得到圖像場(chǎng)景的方向和深度信息,從而推測(cè)出場(chǎng)景的結(jié)構(gòu)信息。Hoiem等人[16]通過分析顏色、紋理、位置和視角,提出了針對(duì)圖像區(qū)域進(jìn)行分類標(biāo)記的方法。在獲取圖像的區(qū)域標(biāo)記后可以得到場(chǎng)景結(jié)構(gòu)信息,但該方法不能進(jìn)行遮擋情況下的場(chǎng)景深度估計(jì)。Hedau等人[3,13]將箱體模型和Hoiem的區(qū)域分類方法相結(jié)合,針對(duì)室內(nèi)圖像生成與之相符的房間模型。類似的還有Lee等人在文獻(xiàn)[12]中提出的方法,該方法將物品與房間之間的體積限制加入到房間模型的推測(cè)過程中,從而獲得更為精確的場(chǎng)景結(jié)構(gòu)。
單張圖像的家居虛擬展示在算法速度、分析準(zhǔn)確度、場(chǎng)景普適度上都有比較高的要求,目前的圖像分析及重建方法還無法完全滿足這些要求。現(xiàn)有方法在算法效率和結(jié)果準(zhǔn)確性方面還存在提升的空間,因此本文著力于對(duì)滅點(diǎn)檢測(cè)算法的效率和場(chǎng)景布局還原的結(jié)果進(jìn)行研究,并提出了一套行之有效的箱體重建方法,具體流程見圖2。

Fig.2 Workflow of vanishing points based scene reconstruction of single image圖2 單張圖像基于滅點(diǎn)的場(chǎng)景重建算法流程圖
為了從單張圖像中提取出房間的布局信息,并生成與其符合的箱體模型,需要一種快速、準(zhǔn)確的圖像場(chǎng)景參數(shù)化方式。在相機(jī)類型未知的情況下,可以假設(shè)所有圖像都是由針孔攝像機(jī)拍攝的,從而極大地簡(jiǎn)化了圖像參數(shù)化問題。人造的真實(shí)空間中存在許多的平行線和正交線,并且這些平行線在二維圖像中的投影將相交于一點(diǎn),該點(diǎn)稱為滅點(diǎn)。二維圖像平面上的滅點(diǎn),在三維空間中代表這些平行線的方向,即代表房間三維主軸的方向。滅點(diǎn)所處的平面在圖像中會(huì)表現(xiàn)為一條直線,該直線就稱為滅線。如圖3所示,圖像的物體可以用立方體模型來代替,立方體的邊緣用藍(lán)色實(shí)線表示。二維圖像中,通過立方體平行邊緣的延長(zhǎng)線(黃色虛線)將相交于滅點(diǎn),并確定滅線(綠色虛線表示)。因此,對(duì)于人造場(chǎng)景圖像的理解和推測(cè)過程可以簡(jiǎn)化為滅點(diǎn)檢測(cè)的過程。

Fig.3 Relationship between vanishing points and vanishing lines for a cubiod圖3 立方體在圖像中與滅點(diǎn)和滅線的關(guān)系
滅點(diǎn)檢測(cè)算法首先要進(jìn)行圖像內(nèi)投影直線的檢測(cè),之后根據(jù)投影線的結(jié)果判斷代表房間主軸方向的滅點(diǎn)在圖像平面中的坐標(biāo),最后以是否與滅點(diǎn)共線為標(biāo)準(zhǔn)將投影線分類。與所有檢測(cè)出的滅點(diǎn)都不共線的一類直線稱為冗余直線。由此可見,滅點(diǎn)檢測(cè)算法主要依賴于直線檢測(cè)的結(jié)果,且應(yīng)盡量減少檢測(cè)出的冗余直線數(shù)量。
3.1投影線檢測(cè)
已知室內(nèi)場(chǎng)景圖像中包含許多種類的家居物品,如沙發(fā)、桌子、椅子等,且這些物品的擺放符合假設(shè)。因此,通過這些家居物品的輪廓線可以提取出多條平行于房間方向的直線,而這些直線將作為計(jì)算滅點(diǎn)的主要依據(jù)。由此可知,圖像邊緣檢測(cè)結(jié)果直接影響圖像中投影線的檢測(cè),間接影響滅點(diǎn)檢測(cè)算法的效率和準(zhǔn)確性。
Hedau等人[3]的滅點(diǎn)檢測(cè)算法中使用Canny算子進(jìn)行邊緣檢測(cè),常見的方法還有Sobel算子、Prew itt算子、LOG算子等。這些算法都是通過比較灰度圖像的像素梯度方向來確定邊緣,容易受噪聲的影響,從而導(dǎo)致檢測(cè)出過多的冗余直線。冗余直線對(duì)滅點(diǎn)的影響將會(huì)體現(xiàn)在兩個(gè)方面:(1)滅點(diǎn)計(jì)算的耗時(shí)隨著冗余直線的數(shù)量成指數(shù)增長(zhǎng);(2)冗余直線過多將會(huì)導(dǎo)致錯(cuò)誤的滅點(diǎn)結(jié)果。因此,Hedau等人[3]在圖像輸入之前需要對(duì)圖像尺寸進(jìn)行調(diào)整,使圖像中的主要輪廓信息得以凸顯,但依然無法有效減少冗余直線的數(shù)量。
本文采用基于結(jié)構(gòu)化的邊緣檢測(cè)算法[17]取代Canny邊緣檢測(cè),針對(duì)每個(gè)圖像塊中的結(jié)構(gòu)化特點(diǎn),通過結(jié)構(gòu)化森林得到一個(gè)準(zhǔn)確、快速的邊緣檢測(cè)器。該算法將RGB值和梯度值作為特征輸入,輸出一幅擁有強(qiáng)度值的邊緣圖像。強(qiáng)度值為0到1之間的任意數(shù)值,數(shù)值越高代表該邊緣越重要。結(jié)構(gòu)化的邊緣檢測(cè)算法[17]可以有效減少檢測(cè)到冗余直線的數(shù)量,無需調(diào)整輸入圖像的尺寸,可以在短時(shí)間內(nèi)處理分辨率很高的圖像,又無須忽略細(xì)節(jié)信息。邊緣檢測(cè)結(jié)果中的邊緣強(qiáng)度值可以作為滅點(diǎn)選取的重要因素,運(yùn)用到滅點(diǎn)投票的計(jì)算中。
3.2滅點(diǎn)投票策略
在已知代表邊緣重要性的強(qiáng)度值的前提下,本文對(duì)原有的滅點(diǎn)投票策略[3]進(jìn)行了改進(jìn),將直線的強(qiáng)度值引入到投票計(jì)算公式中,更加明顯地區(qū)分好的和壞的候選點(diǎn)。對(duì)一條直線來說,它的重要性與其長(zhǎng)度和強(qiáng)度成正比,與直線和候選點(diǎn)的夾角成反比。在投票過程中,直線越重要投出的票數(shù)就越高。本文使用L(l,i)表示一條直線,其中l(wèi)為直線的長(zhǎng)度,i為直線的強(qiáng)度值。使用公式r(L,p)定義一條直線L對(duì)候選點(diǎn)p的投票分?jǐn)?shù):

其中,α指候選點(diǎn)p與線段L中點(diǎn)的夾角(如圖4所示);σ為魯棒性閾值,設(shè)定為0.1;wj(j=1,2,3)為權(quán)重,設(shè)定w1= 0.4,w2= w3= 0.3。

Fig.4 An illustration of angle between a candidate point p and a line segment L圖4 滅點(diǎn)候選點(diǎn)p與線段L的角度關(guān)系示意圖
3.3滅點(diǎn)檢測(cè)算法
本文采用的滅點(diǎn)算法是運(yùn)用滅點(diǎn)投票策略對(duì)被檢測(cè)到的投影線的交點(diǎn)進(jìn)行選取,最終得到3個(gè)滅點(diǎn),分別代表真實(shí)空間中3個(gè)相互正交的方向,即X軸、Y軸和Z軸。為了提高算法效率,滅點(diǎn)的選擇采用貪心策略取代RANSAC(random sample consensus)算法[7],直接選取擁有票數(shù)最高的候選點(diǎn)為第一滅點(diǎn),并將于第一滅點(diǎn)共線的投影線歸為一類。之后,根據(jù)第一滅點(diǎn)的結(jié)果對(duì)所有候選點(diǎn)進(jìn)行再次篩選,從而得到第二、三滅點(diǎn)與其對(duì)應(yīng)的投影線集合,具體的算法過程如下:
步驟1讀入直線數(shù)據(jù)l,利用式(1)對(duì)所有直線兩兩相交得到的交點(diǎn)進(jìn)行投票。
步驟2選擇當(dāng)前擁有最大票數(shù)的候選點(diǎn)作為第一滅點(diǎn)V1,并將屬于V1的直線歸為集合L1。
步驟3對(duì)剩余的候選點(diǎn)進(jìn)行篩選。
(1)計(jì)算剩余候選點(diǎn)到圖像中心的距離d,根據(jù)d的長(zhǎng)度決定閾值T。當(dāng)候選點(diǎn)之間的距離小于閾值T時(shí),將其中一個(gè)候選點(diǎn)移除。
(2)選取剩余候選點(diǎn)與V1進(jìn)行正交性檢測(cè),即任意兩個(gè)候選點(diǎn)與V1之間形成的三角形的垂心能否在圖像范圍內(nèi),如不能則移除這組候選點(diǎn)。
步驟4再次使用式(1)對(duì)候選點(diǎn)進(jìn)行投票,擁有票數(shù)最高的兩個(gè)點(diǎn)作為第二滅點(diǎn)V2和第三滅點(diǎn)V3,并將屬于V2和V3的直線歸為集合L2和L3。
在獲得代表場(chǎng)景方向的滅點(diǎn)信息后,進(jìn)行場(chǎng)景布局信息的還原,分3個(gè)步驟進(jìn)行:
(1)根據(jù)滅點(diǎn)信息生成固定數(shù)量的候選場(chǎng)景模型,并選擇出與圖像最為相符的模型作為初級(jí)場(chǎng)景模型。
(2)對(duì)圖像進(jìn)行特征提取,分析并推測(cè)出圖像內(nèi)潛在物品的立方體模型。
(3)根據(jù)場(chǎng)景模型和物品模型之間的關(guān)系,對(duì)場(chǎng)景模型進(jìn)行優(yōu)化,從而得到最終的三維場(chǎng)景布局。
4.1房間箱體模型的生成
本文使用箱體模型代替真實(shí)的場(chǎng)景模型,從而獲得場(chǎng)景的粗略估計(jì)。在生成房間箱體模型的過程中,最為核心的問題就是如何在遮擋的情況下確定箱體模型頂點(diǎn)在圖像上的投影點(diǎn)的位置。圖像中至多擁有箱體模型的5個(gè)可見面,分別為頂面、地面、后墻、左墻和右墻,且每個(gè)可見面在圖像中的投影都將看作一個(gè)多邊形。

Fig.5 An illustration of box projection and how to generate layout from vanishing points圖5 箱體模型投影示意圖
已知箱體模型的頂點(diǎn),在圖像平面上對(duì)應(yīng)的投影點(diǎn)與代表房間主軸方向的滅點(diǎn)之間存在嚴(yán)格的幾何約束。圖5(a)為箱體模型的投影示意圖,在三維空間中箱體模型的4個(gè)頂點(diǎn)用A、B、C、D表示,其對(duì)應(yīng)二維圖像中的投影點(diǎn)分別為a、b、c、d。代表場(chǎng)景主軸方向的3個(gè)滅點(diǎn)記為Vi(i = 1,2,3)。在滅點(diǎn)已知的條件下,可知在圖像平面中:
(1)線段ab和cd應(yīng)與滅點(diǎn)V1共線;
(2)線段ad和bc應(yīng)與滅點(diǎn)V2共線;
(3)滅點(diǎn)V3在圖像四邊形區(qū)域abcd中。
為生成場(chǎng)景模型,選取兩個(gè)距離圖像較遠(yuǎn)的滅點(diǎn)V1和V2,從兩個(gè)滅點(diǎn)向圖像發(fā)射固定數(shù)量的射線,文中取10。圖5(b)中,紅色和綠色線分別代表從兩個(gè)不同滅點(diǎn)發(fā)出的射線,并最終在圖像中相交,投影點(diǎn)a、b、c、d將從這些交點(diǎn)中選擇。四邊形區(qū)域abcd代表了后墻的范圍,剩余的墻面將由滅點(diǎn)V3與投影點(diǎn)的連線構(gòu)成。
在生成候選點(diǎn)集的過程中,存在兩種發(fā)射射線方式:(1)依照?qǐng)D像邊緣設(shè)定固定間隔值,再由滅點(diǎn)向圖像發(fā)射射線;(2)根據(jù)圖像中已有的投影線,使由滅點(diǎn)出發(fā)的射線經(jīng)過這些投影線。本文工作采用的是前者,其主要優(yōu)勢(shì)在于可以生成數(shù)量固定,候選點(diǎn)分布均勻的候選模型集合,使算法保持穩(wěn)定性,不易受到噪音影響。但這也意味著,很難從生成的候選點(diǎn)集中直接得到準(zhǔn)確的投影點(diǎn)位置。因此,根據(jù)該步驟得到箱體模型為初級(jí)場(chǎng)景模型。投影點(diǎn)的選擇將使用Structured-SVM[18]訓(xùn)練出的參數(shù)自動(dòng)地進(jìn)行。
4.2房間內(nèi)物品箱體模型的生成
從上文可知,得到的初級(jí)場(chǎng)景模型并不能保證一定符合圖像場(chǎng)景,因此需要對(duì)得到的場(chǎng)景模型做進(jìn)一步的優(yōu)化。如果能從圖像中提取出一些較為重要的物品模型,并考慮場(chǎng)景內(nèi)房間布局和物品布局的體積關(guān)系,即物體模型必?cái)[放在場(chǎng)景模型內(nèi)部,從而推測(cè)出更為合理的場(chǎng)景模型。
從單張圖片中提取出物體的三維模型是非常困難的,但本文通過圖像特征來搜尋圖像中的物品,并使用立方體模型來粗略表示物品,從而達(dá)到推測(cè)場(chǎng)景空間布局的目的。
本文使用兩種方法提取圖像中的特征: Hoiem等人[16]的圖像區(qū)域分類器和Lee等人[12]的線段掃描算法。Hoiem等人[16]的分類器可以將圖像分為不同的特征區(qū)域,從而幫助人們提取出場(chǎng)景內(nèi)的關(guān)鍵投影線。首先,將圖像分割成若干像素塊[19],每個(gè)像素塊粗略代表類似的可見物品。結(jié)合像素塊和場(chǎng)景模型,可以將圖像內(nèi)的像素歸類到不同墻面中。結(jié)果如圖6(c)所示,其中粉色的像素代表圖像中潛在的物品。Lee等人[12]的算法通過圖像中檢測(cè)到的滅點(diǎn)與投影線推測(cè)出平行于三維空間主軸的平面。已知某個(gè)滅點(diǎn)和一條與其共線的投影線段,該線段的端點(diǎn)沿著它與另一滅點(diǎn)的連線方向移動(dòng)。在移動(dòng)因另一條直線阻擋而停止后,將得到兩個(gè)新的端點(diǎn),并與原端點(diǎn)組成一個(gè)平面。結(jié)果如圖6(d)所示,其中3種顏色分別表示平行于不同主軸方向的平面。

Fig.6 Generation workflow of cubiod proxy for indoor funiture圖6 物體模型生成圖流程
在得到兩種圖像特征后,通過對(duì)圖像特征數(shù)據(jù)的推測(cè)可以自動(dòng)檢測(cè)出圖像中較為重要的物品,如椅子、桌子、柜子等。首先,通過平面特征的分析找到圖像中物品的立方體模型。對(duì)平面特征中屬于兩種不同方向的平面進(jìn)行成對(duì)的檢測(cè),取兩個(gè)平面上的3個(gè)角點(diǎn),則可以判定是否這兩個(gè)平面能確定一個(gè)立方體的平面投影。對(duì)于可以組成立方體的每組平面,找到其最為合適的3個(gè)角點(diǎn),并生成相應(yīng)的立方體模型。之后,將得到的立方體模型與圖像的幾何特征相結(jié)合,從而得到篩選后的物體模型。對(duì)于每個(gè)立方體模型,計(jì)算其圖像投影內(nèi)所包含的潛在物體像素與投影內(nèi)像素的比率,并將比率較低的立方體模型移除。
在得到場(chǎng)景布局后,為生成對(duì)應(yīng)的三維模型,需要進(jìn)行圖像到三維模型的轉(zhuǎn)換,其關(guān)鍵步驟是計(jì)算圖像上的點(diǎn)對(duì)應(yīng)的三維空間坐標(biāo)。根據(jù)房間主軸方向和滅點(diǎn)的相關(guān)性,重新對(duì)相機(jī)的標(biāo)記矩陣和旋轉(zhuǎn)矩陣進(jìn)行推導(dǎo),并根據(jù)箱體模型的特點(diǎn)設(shè)定:在世界坐標(biāo)系下,底面和頂面平行于平面X=0,左墻和右墻平行于平面Y=0,后墻平行于平面Z=0,且相機(jī)到底面的高度為1。
假定空間中存在一點(diǎn)P,在世界坐標(biāo)系下的齊次坐標(biāo)記為Pw= (Xw,Yw,Zw,1)T,在圖像平面上對(duì)應(yīng)的投影點(diǎn)的齊次坐標(biāo)記為pi= (xi,yi,1)T。相機(jī)模型如圖7所示,C為投影中心,投影中心到圖像平面的垂線稱為攝像機(jī)的主軸Z,其交點(diǎn)為主心c= (xc,yc,1)T,投影中心C到主心c的距離為焦距f。由針孔模型可知三維空間坐標(biāo)到圖像坐標(biāo)的變換為:
pi=K[R|t]Pw(2)
其中,矩陣K為相機(jī)的標(biāo)定矩陣;R和t分別為世界坐標(biāo)系到相機(jī)坐標(biāo)系的旋轉(zhuǎn)矩陣和平移向量。

Fig.7 Transformation model between world coordinate and camera coordinate圖7 世界坐標(biāo)系與相機(jī)坐標(biāo)系的轉(zhuǎn)換模型
(1)相機(jī)標(biāo)定矩陣K
假定攝像機(jī)和像素都是理想狀態(tài),那么標(biāo)定矩陣K可以直接由代表3組正交方向的滅點(diǎn)計(jì)算得到。Vj(j = 1,2,3)代表3個(gè)相互正交滅點(diǎn),其在圖像平面的坐標(biāo)記為vj= (xvj,yvj,1)T,在相機(jī)坐標(biāo)系下的坐標(biāo)記為Vj= (Xvj,Yvj,f)T,其中Xvj= xvj-xc,Yvj= yvj- yc。可知,主心p即為以滅點(diǎn)Vj(j = 1,2,3)為頂點(diǎn)的三角形的垂心,焦距f滿足關(guān)系XvjXvk+ YvjYvk+ f2= 0。
(2)旋轉(zhuǎn)矩陣R
已知滅點(diǎn)Vj(j = 1,2,3)代表世界坐標(biāo)系中3個(gè)方向的無窮遠(yuǎn)點(diǎn),且這3個(gè)方向分別為世界坐標(biāo)系中3個(gè)主軸的方向。記V為滅點(diǎn)方向在世界坐標(biāo)系下的單位向量,V'為滅點(diǎn)方向在相機(jī)坐標(biāo)系下的單位向量,R為從世界坐標(biāo)系到相機(jī)坐標(biāo)系變換的旋轉(zhuǎn)矩陣,則V'= RV,其中V為單位矩陣。由此可得R= V',其中V'= (V'1,V'2,V'3),V'j的計(jì)算公式為:

為驗(yàn)證方法的有效性,本文對(duì)上述理論與算法進(jìn)行性能測(cè)試。分別從Hedau等人[3]的圖像數(shù)據(jù)庫和部分互聯(lián)網(wǎng)圖像中(總計(jì)共500張),選擇分辨率不同,場(chǎng)景不同的圖像進(jìn)行測(cè)試,部分實(shí)驗(yàn)結(jié)果見圖8。實(shí)驗(yàn)中計(jì)算機(jī)配置為: Intel Core Q9400處理器,4 GB內(nèi)存,NVIDIA GeForce GTX 460顯卡及64位W indows7系統(tǒng)。
在同等條件下,針對(duì)不同分辨率的圖像,對(duì)改進(jìn)后的滅點(diǎn)檢測(cè)算法與Hedau等人[3]的滅點(diǎn)檢測(cè)算法進(jìn)行測(cè)試,并對(duì)兩種算法在時(shí)間和冗余直線的數(shù)量上進(jìn)行比較。
如圖9所示,隨著分辨率的增加,本文的滅點(diǎn)檢測(cè)算法在時(shí)間消耗上遠(yuǎn)遠(yuǎn)少于Hedau等人[3]的算法。圖10結(jié)果說明,結(jié)構(gòu)化的邊緣檢測(cè)算法有效減少了檢測(cè)到的冗余直線的數(shù)量。實(shí)驗(yàn)結(jié)果表明,經(jīng)過改進(jìn)的滅點(diǎn)檢測(cè)不但可以快速處理分辨率很高的圖像,而且避免了由于冗余直線數(shù)量過多導(dǎo)致錯(cuò)誤滅點(diǎn)檢測(cè)結(jié)果的最壞情況。
如表1所示,在像素錯(cuò)誤率上本文算法結(jié)果低于Hedau等人[3]的算法,但正確率依然不高。出現(xiàn)錯(cuò)誤的原因主要在于選取了錯(cuò)誤的局部最優(yōu)箱體模型,或由于物品模型不準(zhǔn)確影響房間模型優(yōu)化結(jié)果。通過圖8所示的場(chǎng)景布局還原結(jié)果可以看出,本文算法可以基本還原出圖像場(chǎng)景結(jié)果,并找到圖像內(nèi)物品的模型。

Table 1 Pixel error comparison between two algorithms表1 算法像素錯(cuò)誤率的比較
本文將結(jié)構(gòu)化的邊緣檢測(cè)方法引入到滅點(diǎn)檢測(cè)算法中,有效減少了冗余直線的數(shù)量,極大提高了滅點(diǎn)計(jì)算的效率和準(zhǔn)確性。本文在還原場(chǎng)景布局的過程中,加入了模型優(yōu)化的步驟,從而顯著改善了圖像布局還原的結(jié)果。

Fig.8 Results of indoor scene layout restoration圖8 場(chǎng)景布局還原的部分實(shí)驗(yàn)結(jié)果

Fig.9 Average computing time of vanishing points detection圖9 滅點(diǎn)檢測(cè)算法平均耗時(shí)

Fig.10 Number of redundant lines of line segments detection圖10 投影線檢測(cè)到的冗余直線的數(shù)量
實(shí)驗(yàn)過程顯示,場(chǎng)景還原的結(jié)果還不夠準(zhǔn)確,在未來研究中考慮將家居環(huán)境的語義分割引入到場(chǎng)景還原過程中以提高算法的運(yùn)行結(jié)果。由于重建出來的場(chǎng)景真實(shí)度不高,將改進(jìn)紋理的提取與映射方法。并且為實(shí)現(xiàn)圖像的家居虛擬編輯與設(shè)計(jì),將針對(duì)圖像物品的立方體重建進(jìn)行研究。
References:
[1] Zhang Bo, Xie Ning, Xu Hao, et al. Web3D CID: Web3D collaborative interior design based on transparent adaptation[C]//Proceedings of the 13th ACM SIGGRAPH International Conference on Virtual-Reality Continuum and its Applications in Industry, Shenzhen, China, Nov 30-Dec 2, 2014. New York, USA:ACM, 2014: 113-121.
[2] Houzz. Desgin home online[EB/OL]. [2015-08-03] http:// www.houzz.com.
[3] Hedau V, Hoiem D, Forsyth D. Recovering the spatial layout of cluttered rooms[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision, Kyoto, Japan, 2009. Piscataway, USA: IEEE, 2009: 1849-1856.
[4] Bao S Y, Furlan A, Li Feifei, et al. Understanding the 3D layout of a cluttered room from multiple images[C]//Proceedings of the 2014 IEEE Winter Conference on Applications of Computer Vision, Steamboat Springs, USA, Mar 24-26, 2014. Piscataway, USA: IEEE, 2014: 690-697.
[5] Yang Hao, Zhang Hui. Indoor structure understanding from single 360 cylindrical panoram ic image[C]//Proceedings of the 2013 International Conference on Computer-Aided Design and Computer Graphics, Guangzhou, China, Nov 16-18, 2013. Piscataway, USA: IEEE, 2013: 421-422.
[6] Jia Hanchao, Li Shigang. Estimating the structure of rooms from a single fisheye image[C]//Proceedings of the 2013 2nd IAPR Asian Conference on Pattern Recognition, Naha, Japan, Nov 5-8, 2013. Piscataway, USA: IEEE, 2013: 818-822. [7] Rother C. A new approach to vanishing point detection in architectural environments[J]. Image and Vision Computing, 2002, 20(9): 647-655.
[8] Zhang Jian, Kan Chen, Schw ing A G, et al. Estimating the 3D layout of indoor scenes and its clutter from depth sensors[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision, Sydney, Australia, 2013. Piscataway, USA: IEEE, 2013: 1273-1280.
[9] Gupta A, Efros A A, Hebert M. Blocks world revisited: image understanding using qualitative geometry and mechanics[C]//LNCS 6314: Proceedings of the 11th European Conference on Computer Vision, Heraklion, Greece, Sep 5-11, 2010. Berlin, Heidelberg: Springer, 2010: 482-496.
[10] Chen Tao, Zhu Zhe, Sham ir A, et al. 3-Sweep: extracting editable objects from a single photo[J]. ACM Transactions on Graphics, 2013, 32(6): 195.
[11] Gupta A, Hebert M, Kanade T, et al. Estimating spatial layout of rooms using volumetric reasoning about objects and surfaces[C]//Advances in Neural Information Processing Systems 23: Proceedings of the 24th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, Dec 6-9, 2010: 1288-1296.
[12] Lee D C, Hebert M, Kanade T. Geometric reasoning for single image structure recovery[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition, M iami, USA, Jun 20-25, 2009. Piscataway, USA: IEEE, 2009: 2136-2143.
[13] Hedau V, Hoiem D, Forsyth D. Thinking inside the box: using appearance models and context based on room geometry [C]//LNCS 6316: Proceedings of the 11th European Conference on Computer Vision, Heraklion, Greece, Sep 5-11, 2010. Berlin, Heidelberg: Springer, 2010: 224-237.
[14] Kang H W, Pyo S H,Anjyo K, et al. Tour into the picture using a vanishing line and its extension to panoramic images[J]. Computer Graphics Forum, 2001, 20(3): 132-141.
[15] Saxena A, Sun M, Ng A Y. Make3D: learning 3D scene structure from a single still image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824-840.
[16] Hoiem D, Efros A A, Hebert M. Recovering surface layout from an image[J]. International Journal of Computer Vision, 2007, 75(1): 151-172.
[17] Dollár P, Zitnick C L. Structured forests for fast edge detection[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision, Sydney, Australia, Dec 1-8, 2013. Piscataway, USA: IEEE, 2013: 1841-1848.
[18] Tsochantaridis I, Joachims T, Hofmann T, et al. Large margin methods for structured and interdependent output variables[J]. Journal of Machine Learning Research, 2005, 6: 1453-1484.
[19] Felzenszwalb P F, Huttenlocher D P. Efficient graph-based image segmentation[J]. International Journal of Computer Vision, 2004, 59(2): 167-181.

WANG Haifei was born in 1992. He is an M.S. candidate at Tongji University. His research interest is image-based virtual house.
王海菲(1992—),男,山東掖縣人,同濟(jì)大學(xué)軟件學(xué)院碩士研究生,主要研究領(lǐng)域?yàn)榛趩螐垐D像的虛擬家居。

JIA Jinyuan was born in 1963. He received the Ph.D. degree from Hong Kong University of Science & Technology in 2004. Now he is a professor and Ph.D. supervisor at Tongji University, and the senior member of CCF. His research interests include Web graphics, virtual reality and 3D game engine, etc.
賈金原(1963—),男,山東樂陵人,2004年于香港科技大學(xué)獲得博士學(xué)位,現(xiàn)為同濟(jì)大學(xué)軟件學(xué)院教授、博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究領(lǐng)域?yàn)閃eb Graphics,虛擬現(xiàn)實(shí),游戲引擎等。發(fā)表過多篇SCI論文,承擔(dān)的主要科研項(xiàng)目有國(guó)家“十二五”計(jì)劃重大科技支撐項(xiàng)目子課題,國(guó)家自然科學(xué)基金面上項(xiàng)目等。

XIE Ning was born in 1983. He received the Ph.D. degree from Tokyo Institute of Technology in 2012. Now he is an assistant professor at Tongji University, and the member of CCF. His research interests include machine learning and application, digital media technology, computer image and graphics processing, etc.
謝寧(1983—),男,吉林長(zhǎng)春人,2012年于東京工業(yè)大學(xué)獲得博士學(xué)位,現(xiàn)為同濟(jì)大學(xué)軟件學(xué)院助理教授,CCF會(huì)員,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)及應(yīng)用,數(shù)字媒體技術(shù),圖形圖像處理等。
Vanishing Point Detection and Scene Reconstruction of Cluttered Room?
WANG Haifei, JIA Jinyuan, XIE Ning+
School of Software Engineering, Tongji University, Shanghai 201804, China
Key words:virtual house; image understanding; vanishing points detection; 3D reconstruction; box modeling of indoor scene
Abstract:Recently, the 3D reconstruction of indoor scene becomes a hot spot of research, as the popular of virtual house. Based on image understanding, this paper proposes an image-based box modeling method of 3D indoor scene reconstruction. Firstly, the vanishing points of indoor scene image are detected to represent the main axis of the room. With the analysis of algorithm?s influence factors, this paper improves the vanishing points detection algorithm to ensure efficiency and accuracy. Then, this paper recovers automatically the scene spatial layout information w ith the layout reasoning steps which significantly improve the result. Finally, the calculation of camera parameters is performed by using vanishing point, so the conversion from image scene to 3D model is implemented. The experiments demonstrate that the proposed method can quickly analyze the indoor scene images and detect the 3D layout for virtual scene reconstruction.
doi:10.3778/j.issn.1673-9418.1512046 E-mail: fcst@vip.163.com
文獻(xiàn)標(biāo)志碼:A
中圖分類號(hào):TP391.9