饒佳莉 繆 君
(1、航空工業江西洪都航空工業集團有限責任公司,江西 南昌330000 2、南昌航空大學,江西 南昌330063)
基于圖像的房間布局估計是計算機視覺研究領域的基本問題之一,其在室內導航,場景重建/渲染和增強現實等方面有廣泛的用處[1-2]。
單幅圖像估計房間布局的目標是描繪室內場景的2D 矩形表示。傳統的布局估計算法主要利用圖像紋理或邊緣等信息進行滅點檢測,并使用結構化的支持向量機或條件隨機場等算法生成房間的布局估計。近年來,隨著用于語義分割的深度卷積神經網絡(CNN)的快速發展[3-4],研究人員開始使用CNN 進行房間布局估計。Mallyal 等[5]首先訓練一個全卷積網絡(FCN)模型,產生信息性邊緣圖取代手工設計的低級圖像特征提取。然后將預測的邊緣圖用于對消失線進行采樣,以進行布局假設的生成和排名。Dasgupta 等[6]使用FCN 學習語義表面標簽,例如左墻、前墻、右墻、天花板和地面。然后,使用連接的組件和孔填充技術來完善FCN 的每像素原始預測,然后使用經典的消失點/線采樣方法來生成房間布局。但是,盡管結果有所改善,但這些方法仍使用CNN 來生成一組新的“低級”功能,并且未能充分利用CNN 的端到端學習能力。
本文的框架是一個CNN 網絡,如圖1 所示,它使用2D 關鍵點來描繪房間布局結構。網絡的輸入是單張RGB 圖像,輸出是一組特定順序的2D 關鍵點,并帶有關聯的房間類型。關鍵點估計的基礎網絡結構來源于語義分割算法。該網絡對Badrinarayanan 等人提出的SegNet 架構進行了修改。SegNet 框架由編碼器和解碼器子網組成。編碼器將輸入圖像映射到較低分辨率的特征圖,然后解碼器的作用是將低分辨率編碼的特征圖上采樣為完整圖像。
為了將這種方法推廣到多種房間類型,一些研究者使用單圖像3D 解釋器網絡,為每個布局類別訓練一個網絡。但是,為了最大化效率,我們可以增加輸出層中的通道數,以匹配所有11 種房間類型的總共48 個關鍵點,如圖2 所示。并且還添加了一個專門的層,該層連接圖像分類層,以進行房間類型預測。
訓練示例表示為(I,y,t),其中y 代表輸入圖像I 的房間類型為t 的k 個關鍵點的真實坐標。在訓練階段,歐式損失被作為代價函數布局關鍵點熱圖回歸,并將交叉熵損失用于房間類型預測。給定關鍵點熱圖回歸器φ(從解碼器子網輸出)和房間類型分類器ψ(從全連接層輸出),式(1)表示了損失函數:

損失函數中的第一項將預測的熱圖與針對每個關鍵點分別綜合的真實熱圖進行比較。每個關鍵點熱圖的Ground Truth是一個以真實關鍵點位置為中心的2D 高斯,標準偏差為5 個像素。損失函數中的第二項是全連接層相對于正確的房間類型類別標簽產生高置信度值。
本文的算法在Hedau[7]數據集和LSUN 房間布局數據集[8]上進行了測試。網絡輸入為分辨率為320×320 的RGB 圖像,輸出為分辨率為40×40 的房間布局重點熱圖,并帶有相應的房間類型類標簽。我們使用通過時間的反向傳播(BPTT)算法訓練批大小為20 隨機最速下降次數、回合率(dropout)為0.5、動量為0.9、權重衰減為0.0005 的模型。初始學習率為0.00001,在周期(epoch)150 和200 時分別降低5 倍。所有變量都使用相同的方案,總共有225 個批次(epoch)。每個卷積層之后使用批處理歸一化和ReLU 激活函數來改進訓練過程。(圖3)

圖1 網絡結構

圖2 布局類型1-11

圖3 布局估計實驗結果
本文展示了一種簡單直接的方法,將房間布局估算作為關鍵點本地化問題。該網絡架構及其擴展可以進行端到端的訓練,以執行準確而有效的房間布局估算。所提出的方法在大量工作中表現良好,它們使用了幾何啟發的多步處理管道。將來希望采用門控機制以允許傳入信號改變循環單元的狀態,并將網絡擴展為用于構建房間布局圖的順序數據。