沈振一, 孫韶媛, 趙海濤
(1. 東華大學 a. 信息科學與技術學院; b. 數字化紡織服裝技術教育部工程研究中心, 上海 201620;2. 華東理工大學 信息科學與工程學院, 上海 200237)
基于PP-MRF模型的單目車載紅外圖像三維重建
沈振一1a, 1b, 孫韶媛1a, 1b, 趙海濤2
(1. 東華大學 a. 信息科學與技術學院; b. 數字化紡織服裝技術教育部工程研究中心, 上海 201620;2. 華東理工大學 信息科學與工程學院, 上海 200237)
針對車載紅外圖像的特點,提出了一種使用超像素分割和面板參數馬爾科夫隨機場(PP-MRF)相結合的單目車載紅外圖像三維重建方法.該方法首先通過超像素分割得到在紋理和亮度上相近的一系列小的區域,即超像素,然后訓練PP-MRF模型,使它能對待測試圖像的各個超像素進行面板參數的分析和深度估計.通過實驗證明了該方法能夠有效地對單目車載紅外圖像做出深度估計及三維重建.
圖像處理; 三維重建; 車載紅外圖像; 面板參數馬爾科夫隨機場(PP-MRF); 深度估計
隨著車載紅外輔助駕駛系統在民用領域的普及,車載紅外圖像處理的研究越來越被人們所關注,其中紅外圖像的深度估計已經成為近年來的研究熱點.車載紅外圖像三維重建的研究,建立在紅外圖像深度估計研究的基礎上,其作為車載紅外圖像研究的一個全新領域具有重大的意義.
近年來,雙目可見光的三維重建工作逐漸趨向成熟,其中以belief propagation算法[1]為基礎進行三維重建,在目前的立體視覺領域中應用非常廣泛.但是相對而言,單目圖像的三維重建工作發展較晚,其中最具代表性的是shape-from-shading[2]和shape-from-texture[3]兩類方法,但是這些算法在表面紋理與色彩變化不明顯時,三維重建效果較差.文獻[4-6]提出的基于面板參數馬爾科夫隨機場模型(PP-MRF)的單目圖像三維重建在正確率、效果方面都比其他算法有明顯的提高.
在紅外圖像的深度估計方面,已有的基于主成分分析與BP神經網絡的紅外深度估計算法[7]和基于支持向量機的紅外圖像深度估計算法[8],只是對像素點和周圍一定范圍的像素點之間進行特征提取,沒有考慮到實際面板之間的構成關系,所以無法對紅外圖像進行正確的三維重建.
鑒于PP-MRF模型在可見光領域的三維重建的成功應用,將此模型應用于車載紅外圖像,并針對車載紅外圖像的特點做出改進,使其更加注重于對道路和天空等較大面板結構特性的分析和把握,能夠更好地對車載紅外圖像進行三維重建.本文針對車載紅外圖像三維重建,首先對紅外圖像進行超像素分割和特征提取,并對基于PP-MRF模型的三維重建方法進行改進,使它適用于車載紅外圖像的三維重建,再通過樣本集訓練得到圖像模型參數,最后對待測試的車載紅外圖像進行面板結構分析和三維重建.算法流程如圖1所示.

圖1 算法流程框圖Fig.1 The algorithm flow chart
1.1超像素分割
超像素是指具有相似紋理、顏色、亮度等特征的相鄰像素構成的圖像塊.相比可見光圖像,紅外圖像缺少豐富的紋理和色彩信息,但是相對而言其包含著較為明顯的邊緣特征.基于這些特點,超像素分割能夠在紅外圖像上分割出很多小面板類,并且較好地保持圖像邊界,分割速度較快,非常適合后續面板參數的估計.
文獻[9]提出了基于圖論的超像素分割方法,文獻[10]提出了基于熵率的超像素分割方法.本文采用基于圖論的超像素分割以及最小生成樹的思想,目的是使同一區域內的元素盡可能相似,不同區域的元素盡可能不相似.該算法把圖像中的每個像素點看作一個頂點,頂點和頂點之間存在著一條邊e,每條邊上含有對應的權值w(e),所有頂點的集合為V,將V分割成很多小區域C,這樣把區域C中的任意像素點E作為頂點,每個區域都可以看作一個樹形結構.
對于子集C?V的內部差異,就是該區域的最小生成樹(MST)上的最大權值.內部差異計算如式(1)所示.

(1)
兩部分子集C1, C2?V之間的差異為連接這兩部分的最小權值邊.外部差異計算如式(2)所示.
(2)
如果C1和C2區域之間的外部差異大于C1和C2的任意一個內部差異,則C1和C2為不同的部分,否則就認定為同一個部分,判斷算法如式(3)所示.
(3)
1.2特征提取
對于每個超像素而言,需要計算一系列的特征值來捕捉每個超像素所蘊含的視覺特征,同時需要對圖像閉合曲線邊界和折疊處進行檢測.本文使用Law’s掩膜對圖像進行多尺度的特征提取,其特征如圖2所示.

圖2 Law’s掩膜Fig.2 Law’s mask
圖2中前9個是Law’s特征掩膜,后6個是不同方向的邊緣檢測器,兩兩之間相隔30°.另外還需要統計超像素的形狀和位置特征.Law’s特征和超像素本身的形狀和位置特征相結合,構成整個超像素的特征向量.
在超像素特征提取時,使用Law’s掩膜的卷積輸出結果為Fn(x, y), n=1, 2, …, 15.定義每個超像素塊上的紋理能量如式(4)所示.
(4)
其中,當k=2, 4時的Ei(n)分別代表了超像素紋理的能量和峰度特性,因此每個超像素有15×2=30個特征.采用Law’s掩膜對超像素在3個尺度上進行卷積處理,并分別在每個尺度上進行特征提取.在每個尺度上同時對周圍相鄰接的其他4個最大的超像素也進行提取,這樣可以很好地包括超像素本身的特征以及和周圍超像素之間的關系.最后加上形狀和位置特征14個.所以整個特征維數為15×2×3×(4+1)+14=464維.
由上述可知,提取的特征不僅包含了圖像的局部特征與全局特征,還包括了超像素之間的閉合曲線與折線的特征.
2.1面板參數α

圖3 面板參數α與di距離示意圖Fig.3 The illustration of plane parameter αand distance di
2.2PP-MRF模型
在建立模型時,不僅需要考慮包含圖像的局部特征,同時需要兼顧面板之間的鄰接、共面、共線等關系.面板參數的定義如式(5)所示.
(5)
其中:αi和αj為超像素i和j的面板參數;Xi={xi,si:si=1, 2, …,Si}為超像素中所有點的特征向量,Si為超像素i中包含的像素點個數,xi, si為超像素i中的第si個像素的特征;Ri={Ri,si:si=1, 2, …,Si}和Rj={Rj,sj:sj=1, 2, …,Sj}為從攝像頭中心到超像素i和j上每一個像素點的單位向量的集合;vi從局部特征來描述面板參數的可信度;yij為2個超像素邊緣上所有點是閉合曲線邊界的概率;θ為需要整定的參數,其參數值與面板所在的行數相關.其中,f1(·)對面板參數α與像素的局部特征xi, si之間關系進行建模,f2(·)主要在超像素i, j之間存在閉合曲線邊界的情況時,由于閉合曲線的存在會對面板參數的值產生影響,此時需要對面板之間的關系進行建模.f2(·)的定義如式(6)所示.
(6)
通過選用不同的函數h(·)和在不同超像素之間的像素對{si,sj}來分別對鄰接性、共面性和共線性這些重要的結構關系進行描述和捕捉.面板間的結構關系如圖4所示.
(1) 鄰接性結構.在超像素i,j連接的邊界上分別選取si和sj,如圖4(a)所示,那么式(7)可以很好地對鄰接性給出概率模型.
hsi, sj(αi, αj, yij, Ri, Rj)=
(7)
(2) 共面性結構.在相鄰接的超像素上選取像素對s″i和s″j,如圖4(b)所示,如果相鄰接的超像素之間確實存在共面關系,那么在理論上面板參數αi與αj的值相等.共面性的關系函數如式(8)所示.
(8)
如果兩個超像素共面,那么在hs″i, s″j(·)=hs″i(·)hs″j(·)的條件下hs″i, s″j(·)的理論值為1.
(3) 共線性結構.超像素的共線性也是需要考慮的重要問題,如圖4(c)所示,如果在圖像平面上2個超像素共線,那么在實際的3D模型中,它們共線的概率就非常高.共線性關系函數如式(9)所示.
hsj(αi, αj, yij, Rj, sj)=
(9)
如果兩個面板共線的概率越大,那么在hsi, sj(·)=hsi(·)hsj(·)的條件下hsi, sj(·)的理論值越趨近1.可以利用項hsi, sj(·)找出圖像平面中2個超像素之間存在的所有長直線.


(a) 鄰接 (b) 共面 (c) 共線圖4 面板間的結構關系Fig.4 The relationship between planes
3.1車載紅外圖像的PP-MRF模型三維重建改進

(10)
水平線的概率如式(11)所示.
(11)
其中:k為斜率;u∈[0, 1]為比例系數,其與長直線中心點所處的位置相關.根據先驗知識,水平線出現在圖像整個高度的1/3~1/2處的概率較大.設共有N條長直線,則最終水平線l由式(12)確定,即最大概率所對應的那條直線為水平線.
p(l)=max(p(li))i∈1, 2,…, N
(12)
擁有水平線的超像素面板若在上方即為天空,否則即為道路.在進行車載紅外圖像三維重建時,再結合相應的深度信息,就可以確定道路和天空的相對位置和三維結構特性.道路在結構上近似于水平的展開,而天空的深度為無窮遠.

Sj=maxSt∈δ(i)
αi=αj
(13)
通過上述改進,增強了面板之間的相互依賴關系,便于在三維重建時更好地把握全局的三維效果,使得三維重建算法有更強的魯棒性,適應于車載紅外圖像多變的道路場景.
3.2PP-MRF模型訓練
由式(5)可知,θ為待學習參數,由于在圖像的不同行上θ的含義是不一樣的,比如在行數比較低時,參數θ所在行上的像素是道路的可能性比較大,在行數比較高時θ所在行上的像素是遠處的天空和樹木的概率比較大,所以將θ細分為10種不同的參數值.θr∈464(r=1, 2, …, 10),每種參數分類都代表了圖像中對應行的情況.
本文使用多條件學習(MCL)[11-12],把整個復雜的學習問題拆分成一系列的條件概率問題,簡化了學習的復雜性.將參數θ的估計轉為線性極小化的問題.所使用的訓練圖像和對應的深度圖像來自康奈爾大學計算機學院的官方網站, 400幅訓練圖像的分辨率為2 272像素×1 704像素,對應的深度圖像為55像素×305像素×4像素.第一維度是圖像的x軸坐標,第二維度是y軸坐標,第三維度是透視的深度,第四維度為真實的距離坐標,坐標單位為m.
4.1算法步驟總結
本文的算法步驟總結如下:
(1) 獲取訓練圖像和對應的深度圖及攝像頭參數;
(2) 對訓練圖像進行超像素分割;
(3) 從對應的深度圖中計算相應的面板參數;
(4) 將超像素進行特征提取,提取出一個464維的特征向量,使用對應的特征向量和面板參數作為輸入參數進行訓練,整定PP-MRF的模型參數θ;
(5) 對于測試圖像,同樣進行超像素分割,利用PP-MRF對超像素做面板參數估計與結構分析.在結構分析的基礎上尋找水平線,找出道路和天空對應的超像素,確定道路平面和天空的相對位置;
(6) 對于較小超像素的面板參數做出修正.由面板參數計算每個面板上的像素深度值,最后再結合結構信息進行三維重建.
4.2超像素分割和圖像結構的分析
根據上述基本原理,在對原圖像進行超像素分割后,根據訓練好的車載紅外PP-MRF模型,對面板的鄰接性、共線性、共面性結構進行分析,以及面板參數和對應面板上每一像素點進行深度估計.根據以上分析結果對車載紅外圖像進行三維重建.對分割后的每一部分超像素賦予一種隨機色彩,以便于觀察.紅外圖像的超像素分割效果及對比如圖5所示.

(a) 測試圖像

(b) 本文使用圖論的超像素分割

(c) 熵率的超像素分割圖5 超像素分割結果Fig.5 The result of superpixel segmentation
從圖5可以看出,基于熵率的超像素分割容易產生非常小的超像素區域.由于需要對超像素進行面板參數分析,細小的超像素區域不利于面板參數的估計.根據以上實驗結果可知,基于圖論的超像素分割算法更加適用于車載紅外圖像的分割.
長直線一般意味著圖像含有較大的面板,把圖像中的長直線找到并且標示出來,便于對圖像結構的判斷.超像素中長直線標示與水平線的確定結果如圖6所示.

(a) 長直線

(b) 水平線圖6 長直線及水平線標示Fig.6 The long straight line and horizontal line
4.3面板的深度估計和三維重建

(a) 測試圖像

(b) 本文深度估計圖

(c) 理想情況的深度效果圖7 深度估計結果Fig.7 The results of depth estimation
本文算法和基于支持向量機(SVM)算法在車載紅外圖像深度估計上的結果比較如圖8所示.由圖8可知,本文所使用的基于PP-MRF模型的深度估計算法,在對大面板的深度估計上有很大的優勢,面與面之間的深度值相對連續,而SVM算法直接對像素和深度之間的關系進行學習,從而導致最后估計的深度值不連續而無法進行三維重建,而且在道路和天空方面的深度估計結果上,相比較而言本文算法的結果更加正確.車載紅外圖像的三維重建效果如圖9所示.

(a) 測試圖像

(b) 本文算法

(c) SVM算法圖8 深度估計結果比較Fig.8 Comparison of depth estimation

(a) 測試圖像

(c) 三維重建視角2圖9 車載紅外圖像三維重建結果Fig.9 The three-dimensional reconstruction results of vehicular infrared images
本文借鑒可見光中的三維重建技術,提出了一種基于超像素分割與PP-MRF模型相結合的車載紅外圖像三維重建技術.利用超像素分割的過分割特性,將紅外圖像分成一系列的面板,然后再利用改進的車載紅外PP-MRF模型估計每個面板的參數、深度信息和相應的結構特性.由于實驗條件的限制,本文在使用多條件學習時所選用的訓練樣本是由可見光圖像在YUV顏色空間里的Y通道的亮度值與對應的深度圖所構成,所以訓練得到的PP-MRF模型在局部特征估計面板參數的準確性會有所降低.實驗結果表明,此方法在車載紅外圖像的三維重建方面能比較正確地對道路和天空等進行重建,但是重建的精細度尚有待提高,后續將對車載紅外圖像的三維重建做進一步的深入研究.
[1] KLAUS A, SORMANN M, KARNER K. Segment-based stereo matching using belief propagation and a self-adapting dissimilarity measure[C]//International Conference on Pattern Recognition. 2006:15-18.
[2] MLKI A, WATANABE M, WILES C. Geotensity: Combining motion and lighting for 3d surface reconstruction[J]. International Journal of Computer Vision, 2002,48(2): 75-90.
[3] PAYET N, TODOROVIC S. Scene shape from textures of objects[C] //The 24th IEEE Conference on Computer Vision and Pattern Recognition. 2011: 20-25.
[4] SAXENA A, SUN M, ANDREW Y N. Learning 3-D scene structure from a single still image[C]// IEEE 11th International Conference. 2007: 1-8.
[5] SAXENA A, SUN M, ANDREW Y N. Make 3D: Learning 3-D scene structure from a single still image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 820-840.
[6] SAXENA A, CHUNG S H, ANDREW Y N. Learning depth from single monocular images[C]//Neural Information Processing Systems. 2005: 1-8.
[7] 孫韶媛, 李琳娜, 趙海濤.采用KPCA和BP神經網絡的單目車載紅外圖像深度估計[J].紅外與激光工程,2013, 42(9): 2348- 2352.
[8] 席林, 孫韶媛, 李琳娜, 等.基于SVM 模型的單目紅外圖像深度估計[J].激光與紅外, 2012, 42(11): 1311-1315.
[9] FELZENSZWALB P F, HUTTENLOCHER D P. Efficient graph-based image segmentation[J]. International Journal of Computer Vision,2004,59(2): 167-181.
[10] LIU M Y, TUZEL O, RAMALINGAM S, et al.Entropy rate superpixel segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recogniction 2011: 2097-2104.
[11] PAUL C, WANG X R, MCCALLUM A. Multi-conditional learning for joint probability models with latent variables[C]// In NIPS Workshop Advances Structured Learning Text and Speech Processing. 2006:192-201.
[12] MCCALLUM A, PAUL C, DRUCK G, et al. Multi-conditional learning: Generative/ discriminative training for clustering and classification[C]//National Conference on Artificial Intelligence.2006:433-439.
Three-Dimensional Reconstruction from Monocular Vehicular Infrared Images Based on PP-MRF Model
SHENZhen-yi1a,1b,SUNShao-yuan1a,1b,ZHAOHai-tao2
(a. College of Information Science and Technology; b. Engineering Research Center of Digitized Textile & Fashion Technology, Ministry of Education, 1. Donghua University, Shanghai 201620, China; 2. School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China)
A three-dimensional reconstruction method of monocular vehicular infrared image, which combines super pixels segmentation and the plane parameter-Markov Random Field ( PP-MRF ) model, is proposed based on the characteristics of the vehicular infrared image. Firstly, the image is segmented into a series of small areas where the texture and brightness are similar, i.e. super-pixels. Then the PP-MRF model is trained, which can analyze the plane parameters and estimate the depth of each super-pixel of the testing image. The experimental results show that the proposed method can estimate the depth value of monocular vehicular infrared images and rebuild the 3D scene properly.
image processing; three-dimensional reconstruction; vehicular infrared image; plane parameter-Markov Random Field(PP-MRF); depth estimation
1671-0444(2015)03-0341-07
2014-11-26
國家自然科學基金資助項目(61072090,61205017,61375007)
沈振一(1990—),男,浙江嘉興人,碩士研究生,研究方向為紅外圖像處理、機器學習.E-mail: szy1900@qq.com
孫韶媛(聯系人),女,副教授,E-mail:shysun@dhu.edu.cn
TN 219
A