姚拓中 左文輝 宋加濤 應宏微
結合物體先驗和空域約束的室內空域布局推理
姚拓中1左文輝2宋加濤1應宏微1
對結構化室內場景的空域布局結構進行估計是計算機視覺領域的研究熱點之一.然而,對于內部堆放了眾多雜亂物體的室內場景,現有的大多數方法容易受到各種物體遮擋的影響而無法對這一類場景的布局結構進行準確推理.為此,本文方法充分考慮了房間和物體之間的幾何和語義關聯性,參數化地對房間和內部物體的三維體積分別進行描述,并且提出利用多種高層圖像語義來獲取物體的先驗信息.此外,還在此基礎上加入了空域排他性和空域位置等多種空域約束,進而在改進室內場景空域布局估計的同時為物體的識別和定位提供關鍵信息.本文方法不僅具有較低的求解復雜度,而且通過試驗表明相比于現有的經典方法在雜亂的室內場景中能夠取得更為魯棒的空域布局推理結果.
空域布局推理,物體先驗,空域約束,組合優化
室內場景的三維空域布局推理在計算機視覺的諸多領域均具有非常重要的價值,例如機器人的自主導航以及自動物體識別和安放等.人類通常通過空域推理能力對室內場景中存在的各個平面和物體的尺寸和位置等信息進行理解,例如,能夠識別桌子和沙發等家具并對其結構進行描繪,或者發現沙發的某部分遮擋了床并且兩者之間存在一定的間距等.然而,使計算機具備人類具有的上述空域布局理解能力對于計算機視覺而言是一個具有挑戰性的工作.
迄今為止,已有不少基于參數化場景空間的方法用于從諸如“曼哈頓世界”(Manhattan world)[1]等受約束的室內場景中恢復出相應的三維結構模型[2?3].這些基于單幅圖像的方法通常采用諸如消失點估計[4?5]以及幾何結構預測[6?7]等經典解決思路.然而,上述方法只關注室內場景的三個主方向估計,并沒有嘗試提取房間結構以及物體尺寸等更為詳細的三維描述信息,因而僅能用于沒有雜亂物體堆放的空房間.相比之下,由于物體遮擋造成的房間形狀結構模糊化更具挑戰性.
目前,已有一部分工作嘗試了從單幅圖像中對雜亂堆放了眾多物體的場景進行三維結構恢復.受路徑規劃應用的啟發,Nabbe等使用基于圖像的外觀模型將室外場景標注成地平面、垂直地面區域以及天空區域三個大類[8],但其并沒有在室內場景中進行相關試驗.Micusik等在對比試驗中采用類似的場景幾何和語義標注方法[9]對場景的布局結構進行描述,被應用到室內場景中并取得了一定的效果[10].此外,還有一些方法致力于推理場景的深度[11?12]和幾何語義屬性[13].不過,此類方法在雜亂的室內場景中往往僅能實現較為粗略的空域布局推理結果,無法準確勾勒出房間的空間結構.
最近幾年的一些研究采用不同的參數化表示法對物體和房間之間的上下文關系進行建模并取得了良好的效果.Gupta等根據“積木世界”概念對室內外場景進行解析,并在基于立方體表示的房間地圖基礎上對位于其中的物體三維結構進行估計[14];Lee等同樣利用了積木世界中的約束規則來將物體建模成與墻壁和地板對應的軸相平行的立方體[3,15];Hedau等從圖像中恢復雜亂堆放物體的標注并且使用簡單的先驗信息獲取物體在三維場景中的空域位置[2,16];Wang等提出的類似方法則不需要雜亂場景的人工標注[17].然而,上述方法均將房間和物體的空域結構分開進行分析,沒有考慮到兩者之間存在密切的幾何和語義關聯性,進而影響了最終結果的魯棒性.值得注意的是,目前已有一小部分工作開始致力于對室內場景中房間和物體的空域布局實現同步推理并取得了一定的成效[18?19],但是上述方法主要通過構建復雜的圖模型進行參數求解,由于假設空間巨大造成算法的復雜度過大,進而影響了算法的效率和可靠性.
相比于將場景中的物體以積木分塊形式進行建模實現場景空域布局定性推理的方法[14?15],本文采用更為簡化的參數化模型,即在立方體表示法的基礎上同時對房間的空域結構及其內部物體的分布進行聯合推理,基本流程如圖1所示.
1)本文算法提取房間內的直線段并估計相互正交的三個主消失點,上述消失點定義了房間中各個平面(例如不同朝向的墻壁、天花板和地板等)的主方向并為房間內部的地板,墻面以及天花板等提供了空域約束.
2)結合上述幾何信息和多種高層圖像語義分別生成房間和物體的初始結構假設(均用立方體表示).
3)在房間和物體結構假設的基礎上,生成一系列候選的場景配置假設(房間假設+物體假設).
4)由于并非所有房間和物體的結構假設都滿足場景配置假設的約束,為此本文使用簡單的三維空域推理對上述約束進行強化,并對每個“房間–物體”假設對以及“物體–物體”假設對進行空域兼容性測試并挑選出滿足要求的場景配置.
5)在最終的場景配置假設推理中,為了有效減少場景配置假設搜索的計算復雜度,本文利用基于經典的組合優化法來采樣出最優的場景配置.

圖1 本文算法的基本流程Fig.1 The fl owchart of our algorithm
與文獻[2]類似,本文通過兩個步驟生成房間的結構假設.1)使用基于幾何的方法對三個相互正交的主消失點進行估計以獲取盒子的朝向信息,如圖2所示.其中,直線段到消失點的角距離定義為該直線段與其中點到該消失點連線之間的夾角,如圖2(a)所示.2)通過對與消失點方向相一致的直線段對進行采樣,獲取具有朝向一致性的墻面對應的參數化表達和尺度信息.為了選擇最優的房間結構假設,采用結構化學習對每個候選的房間結構假設進行評估,進而得到對應的置信度估計.

圖2 角距離和直線段組的定義Fig.2 The de fi nitions of the angle distance and straight line groups
本文用立方體結構對每個房間進行建模,并且絕大多數室內平面的朝向均與該立方體的三個主方向相一致.目前,已有不少方法可實現對圖像中相互正交的消失點集進行估計.例如Hedau等提出的經典方法[2],使用基于指數方式的投票策略得到直線段和消失點之間角距離微分的評分,并通過基于隨機一致性采樣(Random sample consensus,RANSAC)的搜索策略對所有的主消失點根據可靠性進行排序.其中,候選的消失點為所有檢測得到的直線段兩兩相交得到的交點,而消失點集則從上述交點中選取.基于指數方式的投票策略好處在于可以使得消失點的投票空間具有多峰的特性,從而有助于將最優消失點與其他候選的消失點進行有效區分.在本文中,長度超過30個像素的直線段將被保留用于消失點的估計.當確定最優的主消失點后,圖像中提取的每條直線段將根據朝向被分別分配給相應的消失點,從而構成不同的直線段組.在圖2(b)中,歸屬于不同消失點的直線段被賦予不同的顏色,而投票值低于設定閾值的直線段則被賦予藍綠色.
基于立方體結構表述的房間朝向信息對于其各個角的投影施加了嚴格的幾何約束,如圖3所示.在圖像平面中,最多可以看到房間結構假設的5個平面,分別對應于3個墻面、1個天花板和1個地板.房間結構假設中處于正面視點的四個角被分別定義為A、B、C 和D,它們在二維圖像中對應于a、b、c和d.三個相互正交的消失點分別為V P1、V P2和V P3,它們滿足以下三個條件:1)線段ab和cd與消失點V P1共線;2)線段ad和dc與消失點V P2共線;3)消失點V P3位于矩形abcd的內部.

圖3 基于立方體描述的房間結構假設Fig.3 The cubic based room hypothesis
為了生成候選的房間結構假設集,選取距離圖像中心最遠的兩個消失點V P1和V P2,并通過設置一定的采樣間隔從上述V P1和V P2朝著V P3分別生成一定數量的直線段對.上述歸屬于V P1和V P2的直線段相交形成了房間結構假設中處于正面視點的四個角a、b、c和d,而其余的可通過上述4個角到V P3的連線生成.當房間結構假設中可見的平面數目少于5個時,房間結構假設中的四個角將位于圖像外部.
如圖3所示,從V P1和V P1分別發射出10條射線以在圖像平面中生成候選的房間結構假設集.圖4給出了部分候選的房間結構假設,每個房間假設由分別從V P1和V P2發射的兩條藍色直線段所構成,進而生成描述房間三維結構的立方體所對應的4個角和4條邊,而立方體剩余的邊則通過與V P3進行連接得到.

圖4 候選的房間結構假設集Fig.4 Candidate room hypothesis set
本文根據與訓練集中人工標注的房間三維結構進行對比,實現對房間結構假設進行排序.假設室內訓練圖像集由n幅圖像構成,{x1,x2,···,xn}∈X,它們相應的房間結構假設{y1,y2,···,yn}∈Y,目的是學習映射關系f:X,Y→R,使其能夠賦予每個候選的房間結構假設相應的置信度評分.在這里,每個房間結構假設均被參數化為由五個平面構成的空間結構y={S1,S2,···,S5}.映射關系函數f需滿足:輸入圖像xi對應的房間結構假設yi與真實假設y越接近,f(xi,y)的值越高,反之f(xi,y)的值下降.那么,房間結構假設的最優估計y?可通過下式求解

式(1)是一個典型的結構化回歸求解問題,其輸出為一個立方體結構的房間結構假設.為了對其進行求解,可采用文獻[20]方法中的結構化學習框架,通過利用訓練集對輸入空間中不同輸出之間的關系進行建模,通過經典的二次規劃算法進行求解.其中,f(x,y)=wTF(x,y),可利用式(2)對權重w進行學習:

其中,yi為人工標注的Ground truth房間結構假設,ξi為松弛變量,D(yi,y)=D1(yi,y)+D2(yi,y)+D3(yi,y)為描述不同房間結構假設之間差異的代價函數.懲罰了某一房間結構假設中的某個平面Sj缺失而在另一房間結構假設中出現的情況;D2(yi,y)度量了兩個房間結構假設之間的平面中心cj的位置偏移;D3(yi,y)為兩個房間結構假設之間各個平面之間的像素誤差之和,度量了房間結構假設之間的重合度.其中A(·)為平面的面積,當滿足A(Sij)>0,A(Sj)=0或者滿足A(Sij)=0,A(Sj)>0時,δ(Sij,Sj)=1,否則δ(Sij,Sj)=0.
F(xi,y)為從房間結構假設y中提取的特征向量,可通過與主消失點方向一致的直線段組進行計算得到.在本文中,F(xi,y)由基于幾何的低層特征Fg和基于語義的高層特征Fs兩部分組成.對于每個平面Sj,基于幾何的直線段組非加權性特征fl定義如式(3)所示.其中,Lj為位于Sj中的直線段集,Rj為位于Sj中與兩個消失點V P1和V P2朝向一致的直線段集,|l|表示直線段l的長度.最終,Fg={fl(S1),fl(S2),fl(S3),fl(S4),fl(S5)}.

當房間結構假設中的每個平面通過消失點V P1和V P2進行參數化后,每個平面中的絕大多數直線段根據朝向將歸屬于上述兩類消失點.然而,位于物體上的部分直線段并不滿足上述情況,例如圖2(b)中位于沙發的部分藍色直線段應對應于水平消失點,但是其朝向卻顯然與水平方向并不一致.為此,本文同樣將直線段未落入物體區域中的置信度估計p(li)作為權重來計算直線段組,其可通過高層圖像語義推理得到.最終,基于語義的直線段組加權性特征fs定義如式(4)所示.其中,Fs={fs(S1),fs(S2),fs(S3),fs(S4),fs(S5)}.

在雜亂的房間里通常堆放著桌子、椅子、沙發等物體,它們的存在模糊了房間各個平面的邊界.而且,使用的某些用于確定房間結構假設的特征往往會位于上述物體中,從而對房間結構假設的準確推理造成困難.如果能夠得到上述物體所在的準確位置估計,將有助于對先前預測得到的房間結構假設進行優化.同樣,一個較為準確的房間結構假設同樣將對房間中各個平面和物體實現更為準確的定位.
為了對物體的位置進行估計,本文采用兩種經典算法生成高層圖像語義特征.1)場景的表面布局估計(Surface layout estimation,SLE)[9];2)基于全體前景和背景假設排序的物體識別模型(Object recognition model,ORM)[21].
在SLE中,對算法[9]進行相應的改進以適用本文的應用.將平面的類別分為地板(Floor)、左側墻面(Left wall)、中側墻面(Front wall)、右側墻面(Right wall)、天花板(Ceiling)和物體(Object)六大類.在提取房間結構假設的特征時,將分割塊中每種平面類別的面積百分比以及彼此之間的重合度作為主要特征進行學習,目的是提高沒有物體放置時不同房間平面之間的區分度.在ORM中,在多尺度分割的基礎上利用上述特征對六種平面類別進行學習,實現對房間中雜亂堆放物體的檢測和定位.圖5給出了通過挖掘不同高層圖像語義得到的物體位置估計結果.在圖5(a)中,不同的平面類別通過不同的顏色表示,紅色、藍色、黃色分別表示左側墻面、中間墻面、右側墻面,綠色和紫色分別表示地板和物體.在圖5(b)中,高亮度區域為物體區域的定位結果.

圖5 基于不同高層圖像語義的物體位置估計Fig.5 Di ff erent high-level image semantic based object localization
對于基于語義的直線段組特征而言,將直線段上各個像素不屬于平面類別Object對應的置信度作為p(li),對式(5)進行計算.其中,p(li)通過SLE和ORM方法分別得到的置信度加權獲得.與文獻[2]不同,不通過遞歸的方式直接篩選出最優的房間結構假設,而是賦予每一個候選的房間結構假設相應的置信度估計,用于最優場景配置假設的篩選.
本文將物體進行基于立方體的參數化,從而較好地描述其在房間中占據的空間大小,并采用一種較為簡單的方法生成物體結構假設.在已知三個相互正交的消失點V P1、V P2和V P3的基礎上,通過文獻[5]方法估計相機的內參矩陣K 以及對應于房間的旋轉矩陣R.
假設三維坐標系的零點位于相機的光心,x軸、y軸和z軸的朝向分別與房間的寬度、高度以及深度方向一致.那么,坐標系中的點以及與其圖像平面上對應點之間的關系可通過如下投影關系描述.為了生成物體結構假設,假設相機高度hc為一個隨機值.在物體結構假設中,每個位于地板上的角點需滿足+hc=0,其中n=(0,1,0)為地板平面的法線.利用上述約束可以確定物體結構假設的參考角點,其他的角點可根據物體的三維尺寸推算.上述角點在圖像上的投影可通過式(5)得到

這里通過對不同的相機高度和物體三維尺寸進行采樣,生成候選的物體結構假設,其平面與垂直墻壁平行,底部與地板平面重合.對于相機高度而言,地板平面的大小范圍通過水平線以及連接兩個水平消失點的消失線界定,可利用上述約束限制生成的物體結構假設數量.最終通過上述方法在每幅圖像中生成100個物體假設,如圖6中不同顏色的立方體所示.

其中,w1和w2為歸一化權重,v()為ORM輸出的物體置信度.

圖6 候選物體結構假設的生成Fig.6 Candidate object hypothesis generation
在獲得房間和物體結構的初始假設后,本文對室內場景的配置空間進行搜索,選擇與基于圖像信息估計得到的局部場景幾何最為匹配且最滿足物理世界空域約束的配置.為此,采用了以下三種空域和語義相結合的場景配置約束條件,如圖7所示:1)空域排他性約束.假設物體是彼此無法重合的固體,那么不同物體占據的空間具有排他性,即兩個物體占據的空間不能相交;2)空域位置約束.每個物體的所有部分必須處于房間之內,不能位于墻壁之外;3)語義約束.房間假設和物體假設均需要滿足一定的置信度約束,例如基于式(2)得到的房間假設置信度f(xi,y)或基于式(5)得到的物體假設置信度scr(ˉc)低于設定的閾值時,將該場景配置假設丟棄.
評價房間假設和物體假設的組合是否滿足以上三個場景配置約束是最關鍵的一個環節,目的是丟棄部分不符合實際的場景配置.在單幅圖像中進行場景的三維結構推理困難的一個原因是無法獲取房間的尺度信息.為了測試“房間–物體”假設對以及“物體–物體”假設對的空域兼容性,假設所有物體均位于地板之上,其確定了房間和物體結構假設的尺度模糊程度并允許對它們的三維空域位置進行推理.

圖7 場景配置約束描述Fig.7 Scene con fi guration constraint

與房間結構假設的置信度估計方式類似,通過如下最小化方式實現場景配置的最優估計y?=argmaxyf(x,y,w).本文將評分函數定義為:.其中,g(x,y)為圖像x中場景配置y對應的特征向量,l(y)用于對違反空域約束的房間和物體結構假設進行懲罰.這里同樣使用結構化SVM技術來對權重向量w進行學習


其中,yi為人工標注的Ground truth場景配置,ξi為松弛變量.代價函數δ(yi,y)定義了整幅圖像中具有正確標注的像素比例.例如,被標注為左側墻壁的像素實際屬于正面墻壁或者被標注為物體的像素實際屬于地板等情況均會被判斷為錯誤標注的像素.特征向量g(x,y)度量了特征信息對場景配置y中各個平面的匹配程度.這里首先通過SLE方法獲取地板、左側墻面、中間墻面、右側墻面、天花板和物體六種平面類別的標注,接著分別統計正確描述各個平面屬性的像素比例,并用一個6維的特征向量表示g(x,y).式(7)中的懲罰項l(y)=度量了空域約束被違反的程度.l(yr,yo)度量了房間的墻壁和物體之間的空域重合度,懲罰了物體結構假設位于房間結構假設空間之外的配置,與位于房間之外的體積大小成正比.度量了兩個物體i和j的空域重合度,與兩者投影到地板上的重合體積大小成正比.
通過求解式(7)尋找最優評分對應的場景配置y?需要遍歷全部可能的場景配置n×2m,具有很高的計算復雜度.目前,組合優化技術在基于計算機視覺的物體識別等領域已經得到了廣泛應用[22?24],能夠從大規模候選集中根據特定的需求實現高效采樣.本文采用經典的光束搜索法(Beam search)[25]以避免對全部場景配置進行評估.光束搜索法的具體流程如下:在搜索樹的第一層中,對僅具有一個房間結構假設(無物體結構假設)的場景配置進行評分.在剩余的層中,物體結構假設作為子節點被加入到基于場景配置的父節點中并對其進行評分.那么,具有最高評分的那個頂層節點將被加入到搜索樹中作為子節點,其中dl即為第l層的光束寬度.本文建立具有l=4層的搜索樹,每層的光束寬度為dl={50,5,2,1},光束搜索法將遍歷所有的層或者直到沒有與現有的場景配置相兼容的假設被加入為止.最后,搜索樹中具有最優評分的節點即為求解得到的最優場景配置.
本文從LabelMe圖像集[26]中挑選了308幅室內圖像,其中204幅組成了訓練集,并人工標注了Ground truth立方體空域布局,以及基于多邊形邊界的地板、墻面和天花板、平面幾何描述和前景物體的位置等信息,剩余的104幅組成了測試集.
圖8通過定性的方式給出了不同室內場景空域布局的評價結果.其中,各圖第1列上面為原始圖像,下面為通過圖像的幾何信息得到的直線段提取結果;第2列上面和下面分別為通過SLE以及ORM 得到的物體位置估計;第3列上面為僅通過圖像幾何信息得到的具有最高置信度的初始房間結構假設,下面為本文提出的結合物體結構假設信息推理得到的最終房間結構假設結果,其中的黃色立方體為估計得到的物體結構假設.
從圖8可以看到,當房間結構假設僅通過空域幾何信息進行估計時,基于置信度排序得到的結果容易導致不同程度的估計誤差,例如,圖8(a)中沒有找到兩個相鄰墻面之間正確的垂直分割線;圖8(f)中由于床的存在使得兩個相鄰墻面底部的邊界線距離實際的地板有較大的距離;圖8(j)中同樣由于桌椅的遮擋使得一側墻面底部的邊界線錯誤地定位在了桌椅與地板的交界線上.當利用高層圖像語義對房間中雜亂堆放物體的位置進行估計時,可以看到兩種不同的高層圖像語義對于物體的定位具有各自的貢獻,例如在圖8(e)中通過SLE得到的物體位置要比ORM得到結果更為準確,后者錯誤地將大片地板區域也判別為了物體,而在圖8(c)中當背景相對簡單時則是ORM取得了更為準確的物體定位結果,而基于SLE得到的物體區域則錯誤地包含了部分墻壁.通過將上述兩種高層圖像語義進行合理結合后,不難發現本文算法估計得到的物體結構假設通常能夠更為魯棒地描述房間中實際的物體擺放位置以及它們的真實尺寸,而上述物體結構假設同樣對最終的房間結構假設的選擇起到了進一步的優化作用,例如,圖8(a)、圖8(k)和圖8(m)等,在結合了物體位置和尺寸信息以后得到了更為接近實際描述的房間結構假設估計結果.可見,基于高層圖像語義的物體先驗和多元化空域約束對于房間結構假設推理的改進作用是顯著的.
為了對房間結構假設的結果進行定量評價,將本文方法(A4)分別與三種經典的室內場景空域布局推理方法(Hedau等的方法(A1)[2]、Lee等的方法(A2)[3]和Schwing等的方法(A3)[18])進行比較.表1利用文獻[2]中定義的像素誤差(Pixel error)和角誤差(Corner error)給出上述三種方法的定量評價結果.其中,像素誤差為立方體各個平面上與Ground truth標注不同的像素百分比,角誤差為房間結構假設中各角所在位置與Ground truth標注之間的均方根(Root mean square,RMS)誤差.
從表1可以看到,本文方法在低層的圖像幾何信息基礎上,合理加權了多種高層圖像語義特征,取得了顯著的改進.其中,與A1方法相比,像素誤差和角誤差分別降低了4.3%和1.3%,與較新的方法A3相比具有更低的誤差,進一步證明了本文方法的優勢.

圖8 室內場景的空域布局推理結果Fig.8 Spatial layout estimation of indoor scenes

表1 房間結構假設誤差Table 1 Room hypothesis error
圖9給出了上述三種房間結構假設估計方法之間的定性比較.其中,各圖第1列為原始圖像,第2~5列分別為A1、A2、A3和A4方法得到的房間結構假設結果對比.通過對比我們不難發現,A2的結果最不穩定,A3和A4的結果比A1更好一些.A3和A4相比,性能上較為相似,例如第4行、第8行和第12行場景對應的結果.不過在更多具有較強物體遮擋或者空間結構模糊的場景中,例如第2行、第7行、第9行和第10行,本文方法A4可以得到較為準確的房間空域結構描述,而A3方法勾勒的立方體與真實的房間空域結構具有更大的偏差.
為了對本文應用的兩種高層圖像語義在物體結構假設推理中起到的作用進行評價,將SLE算法(B1)、ORM算法(B2)與本文提出的兩者線性加權的方法(B3)進行比較.圖10給出了上述方法以像素誤差和物體識別率(Detection rate)為度量的定量評價.從圖10中可以看到,在像素誤差方面,盡管B2比B1具有更高的像素誤差,但是通過合理的線性加權,本文方法B3取得了最低的像素誤差,與B1和B2相比分別下降了4.1%和13.5%.在物體識別率方面,B3同樣取得了最高的識別精度,與B1和B2相比分別提高了6.8%和2.9%,進一步驗證了本文線性加權方式的合理性.

圖9 不同房間結構假設估計方法的比較Fig.9 Comparisons of di ff erent room hypothesis approaches

圖10 不同高層圖像語義在物體結構假設中的像素誤差和物體識別率Fig.10 The pixel error and object recognition rate of di ff erent high-level image semantics in object structure hypothesis
本文提出一種簡單快速的方法以實現對雜亂堆放了各種物體的室內場景的空域布局進行推理.為了參數化地對房間和物體的三維體積進行描述,提出在算法中加入空域排他性和空域位置等幾何約束,將多種高層圖像語義加入到算法框架中,改進房間和物體的結構假設估計,最終通過基于組合優化的結構化學習策略實現快速的最優場景配置假設篩選.實驗證明,與現有的多種經典方法相比,本文算法在雜亂的室內場景中能夠獲得更為準確的房間和物體空域結構描述.
1 Coughlan J M,Yuille A L.Manhattan world:compass direction from a single image by Bayesian inference.In:Proceedings of the 7th IEEE International Conference on Computer Vision.Kerkyra,Greece:IEEE,1999.941?947
2 Hedau V,Hoiem D,Forsyth D.Recovering the spatial layout of cluttered rooms.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto,Japan:IEEE,2009.1849?1856
3 Lee D C,Hebert M,Kanade T.Geometric reasoning for single image structure recovery.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA:IEEE,2009.2136?2143
4 Koˇseck′a J,Zhang W.Video compass.In:Proceedings of the 7th European Conference on Computer Vision.Copenhagen,Denmark:Springer,2002.476?490
5 Rother C.A new approach to vanishing point detection in architectural environments.Image and Vision Computing,2002,20(9?10):647?655
6 Barinova O,Konushin V,Yakubenko A,Lee K,Lim H,Konushin A.Fast automatic single-view 3-D reconstruction of urban scenes.In:Proceedings of the 10th European Conference on Computer Vision.Marseille,France:Springer,2008.100?113
7 Yu S X,Zhang H,Malik J.Inferring spatial layout from a single image via depth-ordered grouping.In:Proceedings of the 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Anchorage,AK,USA:IEEE,2008.1?7
8 Nabbe B,Hoiem D,Efros A A A,Hebert M.Opportunistic use of vision to push back the path-planning horizon.In:Proceedings of the 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems.Beijing,China:IEEE,2006.2388?2393
9 Hoiem D,Efros A A,Hebert M.Recovering surface layout from an image.International Journal of Computer Vision,2007,75(1):151?172
10 Micusik B,Wildenauer H,Kosecka J.Detection and matching of rectilinear structures.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK,USA,2008.1?7
11 Saxena A,Schulte J,Ng A Y.Depth estimation using monocular and stereo cues.In:Proceedings of the 20th International Joint Conference on Arti fi cial Intelligence.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,2007.2197?2203
12 Liu B Y,Gould S,Koller D.Single image depth estimation from predicted semantic labels.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.1253?1260
13 Liu M M,Salzmann M,He X M.Discrete-continuous depth estimation from a single image.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.716?723
14 Gupta A,Efros A A,Hebert M.Blocks world revisited:image understanding using qualitative geometry and mechanics.In:Proceedings of the 11th European Conference on Computer Vision.Heraklion,Crete,Greece:Springer,2010.482?496
15 Lee D C,Gupta A,Hebert M,Kanade T.Estimating spatial layout of rooms using volumetric reasoning about objects and surfaces.In:Proceedings of the 2010 Advances in Neural Information Processing Systems 23.Vancouver,British Columbia,Canada:Curran Associates,Inc.,2010.1288?1296
16 Hedau V,Hoiem D,Forsyth D.Thinking inside the box:using appearance models and context based on room geometry.In:Proceedings of the 11th European Conference on Computer Vision.Heraklion,Crete,Greece:Springer,2010.224?237
17 Wang H Y,Gould S,Koller D.Discriminative learning with latent variables for cluttered indoor scene understanding.In:Proceedings of the 11th European Conference on Computer Vision.Heraklion,Crete,Greece:Springer,2010.497?510
18 Schwing A G,Fidler S,Pollefeys M,Urtasun R.Box in the box:joint 3D layout and object reasoning from single images.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,VIC,Australia:IEEE,2013.353?360
19 Choi W,Chao Y W,Pantofaru C,Savarese S.Understanding indoor scenes using 3D geometric phrases.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.33?40
20 Tsochantaridis I,Joachims T,Hofmann T,Altun Y.Large margin methods for structured and interdependent output variables.The Journal of Machine Learning Research,2005,6:1453?1484
21 Li F X,Carreira J,Sminchisescu C.Object recognition as ranking holistic fi gure-ground hypotheses.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.1712?1719
22 Lampert C H,Blaschko M B,Hofmann T.Efficient subwindow search:a branch and bound framework for object localization.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(12):2129?2142
23 Russakovsky O,Ng A Y.A Steiner tree approach to efficient object detection.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.1070?1077
24 Vijayanarasimhan S,Grauman K.Efficient region search for object detection.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2011.1401?1408
25 Russell S,Norvig P.Arti fi cial Intelligence:A Modern Approach(3rd edition).New Jersey:Pearson,2009.
26 Russell B C,Torralba A,Murphy K P,Freeman W T.LabelMe:a database and web-based tool for image annotation.International Journal of Computer Vision,2008,77(1?3):157?173

姚拓中 寧波工程學院電信學院講師.2011年獲得浙江大學博士學位.主要研究方向為計算機視覺,機器學習.本文通信作者.E-mail:thomasyao@zju.edu.cn
(YAO Tuo-Zhong Lecturer at the SchoolofElectronic and Information Engineering,Ningbo University of Technology.He received his Ph.D.degree from Zhejiang University in 2011.His research interest covers computer vision and machine learning.Corresponding author of this paper.)

左文輝 浙江大學信息與電子工程學院博士研究生.2007年獲得浙江大學學士學位.主要研究方向為計算機視覺,機器學習.E-mail:wenhuizuo@126.com
(ZUO Wen-Hui Ph.D.candidate at the College of Information Science and Electronic Engineering,Zhejiang University.He received his bachelor degree from Zhejiang University in 2007.His research interest covers computer vision and machine learning.)

宋加濤 寧波工程學院電信學院教授.2003年獲得浙江大學博士學位.主要研究方向為圖像處理,模式識別.
E-mail:sjt6612@163.com
(SONG Jia-Tao Professor at the SchoolofElectronic and Information Engineering,Ningbo University of Technology.He received his Ph.D.degree from Zhejiang University in 2003.His research interest covers image processing and pattern recognition.)

應宏微 寧波工程學院電信學院講師.2004年獲得浙江工業大學碩士學位.主要研究方向為圖像處理,視頻壓縮.
E-mail:yinghongwei@163.com
(YING Hong-Wei Lecturerat the School of Electronic and Information Engineering,Ningbo University of Technology.He received his master degree from Zhejiang University of Technology in 2004.His research interest covers image processing and video compressing.)
Estimating Spatial Layout of Cluttered Rooms by Using Object Prior and Spatial Constraints
YAO Tuo-Zhong1ZUO Wen-Hui2SONG Jia-Tao1YING Hong-Wei1
Estimating spatial layout of a structural indoor scene is one of the research hotspots in computer vision.However,most of the current solutions cannot work robustly in a cluttered room due to occlusion of di ff erent objects inside.In this paper,a new algorithm which integrates geometric and semantic relations between room and objects is proposed to recover the spatial layout of a cluttered room.This algorithm parametrically represents the 3D volume of both room and objects and uses multiple high-level image semantics to obtain object priors.Furthermore,several spatial constraints such as spatial exclusion and containment are used which simultaneously optimize spatial layout estimation of the room and provide signi fi cant information for object recognition and localization.One advantage of the algorithm is its low computational complexity,and experimental results also demonstrate that it can work more robustly in cluttered rooms than several classic algorithms.
Spatial layout estimation,object prior,spatial constraint,combinational optimization
January 21,2016;accepted July 28,2016
姚拓中,左文輝,宋加濤,應宏微.結合物體先驗和空域約束的室內空域布局推理.自動化學報,2017,43(8):1402?1411
Yao Tuo-Zhong,Zuo Wen-Hui,Song Jia-Tao,Ying Hong-Wei.Estimating spatial layout of cluttered rooms by using object prior and spatial constraints.Acta Automatica Sinica,2017,43(8):1402?1411
2016-01-21 錄用日期2016-07-28
浙江省自然科學基金(LQ15F020004),浙江省公益類技術研究項目(2016C33255),寧波市自然科學基金(2015A610132,2013A610113)資助
Supported by Zhejiang Provincial Natural Science Foundation(LQ15F020004),Zhejiang Provincial Public Welfare Technology Research Project(2016C33255),and Ningbo Natural Science Foundation(2015A610132,2013A610113)
本文責任編委賈云得
Recommended by Associate Editor JIA Yun-De
1.寧波工程學院電信學院寧波 315016 2.浙江大學信息與電子工程學院杭州310027
1.School of Electronic and Information Engineering,Ningbo University of Technology,Ningbo 315016 2.College of Information Science and Electronic Engineering,Zhejiang University,Hangzhou 310027
DOI10.16383/j.aas.2017.c160043