交通場景的多視覺特征圖像分割方法

2015-12-22 11:35:58鄧燕子盧朝陽

西安電子科技大學學報 2015年6期

關鍵詞：分類特征方法

鄧燕子,盧朝陽,李靜

(西安電子科技大學綜合業務網理論及關鍵技術國家重點實驗室,陜西西安 710071)

交通場景的多視覺特征圖像分割方法

鄧燕子,盧朝陽,李靜

(西安電子科技大學綜合業務網理論及關鍵技術國家重點實驗室,陜西西安 710071)

針對場景分割中基于像素分類計算較為復雜,使用特征類別較少難以提高分類精度的缺點,提出一種新的基于超像素多種視覺特征來學習場景幾何結構類別的模型.首先,在圖像超像素基礎上進行多視覺特征提取;然后,利用這些特征對超像素進行分類,再計算相鄰超像素視覺特征的差異,推斷相鄰超像素類別的一致性;最后,用初始分類和一致性分類結果構造基于馬爾科夫隨機場模型的能量函數,使用基于圖割的優化方法確定超像素的類別.實驗結果表明,該方法對特征的選擇以及分類優化算法能夠有效提高分類的精度,對交通場景能夠實現較好的分割效果.

場景分割算法;超像素;多視覺特征提取;隨機森林回歸;馬爾科夫隨機場

交通場景理解是實現圖像檢索、智能監控、智能路障檢測和無人車導航等應用的關鍵技術之一,交通場景圖像分割是將圖像中的物體分割出來并判斷其種類,也稱為圖像解析[1].與普通的圖像分割[2]不同,場景分割算法的目的是將圖像轉化為有利于目標表達更抽象的表現形式,簡化場景的表示方式,使高層的場景理解和分析變得容易.交通場景分割的困難在于自然環境的光照不均勻、場景結構不均勻和內容復雜多變等因素.文中研究場景的空間結構分割方法,即將圖像標記成不同的幾何結構類別.文獻[3]最早對自然場景圖像的空間幾何結構進行闡述,通常將其分為天空、地面和地面上的各類垂直物[3];對交通場景空間幾何結構的分割也是將圖像分成天空、地面和垂直物,重建圖像的表面布局.

近年來,學者們提出了很多場景分割算法.傳統方法一般是基于像素的[4-6],用分類器逐像素進行分類后,使用馬爾科夫隨機場（Markov Random Field,MRF)或條件隨機場（Conditional Random Field,CRF)將所有類別組合在一起;該方法的缺點是需要對每類進行訓練,對每個像素進行分類是比較復雜和耗時的過程,無法做到實時.目前比較流行的是基于超像素的方法[3,7-9].超像素是圖像中具有相同視覺特性的連續區域,使用超像素特征對其進行分類,可以解決逐像素進行操作造成運算復雜的缺點,不僅能夠提高分割算法的計算效率,且能夠提供較好的空間結構支持[1].

選擇正確的特征來表示超像素能夠提高分類精度,筆者主要的思想是基于超像素的表面特征來學習這些幾何結構類別的模型;創新點是提出適用于交通場景分割的多視覺特征提取表示方法以及基于MRF模型的分類結果優化方法.首先,在圖像的超像素基礎上進行多視覺特征提取;然后,利用這些特征對超像素進行分類,并利用相鄰超像素視覺特征的差異計算相鄰超像素類別的一致性;最后,用初始分類和一致性分類結果構造MRF模型的能量函數,使用圖割的優化方法確定超像素的類別,實現場景空間結構分割.實驗結果表明,筆者提出的方法對交通場景的空間幾何結構能進行較好的分割.

1 超像素的多視覺特征提取

使用超像素來表示圖像,可通過對超像素進行分類實現場景的分割.超像素分割是一種過分割方法,能夠將圖像劃分成連續均勻的小塊區域.用超像素表示圖像的優點很多,如圖像超像素數量遠遠小于像素個數,可極大減少分類的計算量,但圖像中像邊緣和物體輪廓等這些重要特性仍能較好地保留.文中采用文獻[10]的方法進行超像素分割,若使用這種方法參數設置的不當,則很難捕獲真實的物體邊界,分的過粗會丟失小的物體,分的過細許多超像素的特征則難以區分.具體參數的設置:σ=0.8,K=100,M=100,一幅800×600大小的交通場景圖像通常分割出大約500個超像素.圖1是圖像進行超像素分割后的結果.

圖像中不同物體具有不同的視覺特性,常用于描述物體的視覺特征有顏色、紋理、位置和形狀等.由于交通場景具有復雜性,包含的物體種類很多,一些較大的物體如天空、建筑物、樹木等沒有固定的形狀,而較小的物體如行人和車輛等,形狀比較固定,但顏色和紋理等都各不相同[11].為實現對超像素的正確分類,需要用多種特征來表示超像素.在采用顏色、紋理和位置形狀的基礎上,為更好地描述交通場景各類物體的幾何結構,加入了結構信息特征.目前很多場景理解方法[12-13]通過結構信息對物體進行分類.結構信息可通過一些光照不變性特征來描述,如尺度不變特征轉換（Scale-Invariant Feature Transform,SIFT)[14]和方向梯度直方圖（Histogram of Oriented Gradient,HOG)特征[15].

這里兩種結構信息特征都采用稠密的提取方式,對圖像的每個點根據周圍的鄰域信息計算特征向量,超像素的特征向量是其中所有像素特征向量的均值,得到超像素的SIFT特性向量為128維,HOG特性向量為31維.表1列出了用于描述超像素的視覺特征,包含顏色（C1～C4)、紋理（T1,T2)、結構信息（S1,S2)和位置形狀（L1～L5)這4類特征,最終構成211維的特征描述符.超像素的特征向量fs=[C1,…,C4,T1,T2,S1,S2,L1,…,L5]∈R211.

表1 描述超像素的視覺特征

2 超像素分類

在得到圖像所有的超像素并提取多視覺特征后,利用超像素的特征對其進行分類,得到每個超像素的幾何結構類別.傳統的分類方法通常給分類器輸入正負樣本,輸出是代表某一類別的離散值,比如常見的0和1二值輸出.由于實驗中采用所有訓練圖像的超像素多視覺特征作為訓練樣本,采用傳統方法既無法保證每幅測試圖像的超像素都能被正確分類,也無法保證所有測試圖像的分類結果都有穩定的正確率.為此,文中訓練了隨機森林回歸器[16],其優點是效率較高且能夠輸出連續的標簽值,代表和真實值的接近程度;之后,使用這些“軟標簽”作為待優化的能量函數的數據項,將超像素分成天空、地面和垂直物3類,因此,需要訓練3個回歸器,用于估計超像素屬于這3種類別的程度,所有的訓練過程都使用相同的特征.訓練方法以“天空”類別為例,將所有訓練圖像的超像素特征分成兩類,屬于天空的特征集合Fsky和非天空的特征集合Fnonsky,并賦予標簽值1和-1,訓練得到回歸器Hsky.測試時輸入超像素特征fs,對應的輸出值是介于-1到 1之間的實數,Hsky（fs)∈[-1,1].用同樣的訓練方法得到另外兩個回歸器Hvertical和Hground.

圖1 交通場景的超像素分割

利用超像素的多視覺特征進行分類,只考慮了超像素本身的屬性,忽略了它們之間的關系.在進行超像素分割時,一些相同屬性類別的物體會被分成多個超像素.這些相鄰的同類超像素的特征具有相似性,而相鄰的不同類別的超像素之間特征差異很大.如圖1所示,街道上相鄰的超像素看上去一樣,而街道和兩邊墻壁相鄰的超像素看上去差別很大.當初始分類結果不能判斷超像素的類別時,希望能通過相鄰的超像素之間的關系來確定其類別,因此,需要訓練分類器來推斷相鄰超像素類別的一致性.這里設計了相鄰超像素的對比特征來訓練這種一致性分類器.對比特征定義為相鄰超像素視覺特征的差異,設兩個相鄰超像素si和sj的視覺特征分別為和,g表示對比特征,對比特征.由于視覺特征包含4類不同特征,需要采用不同方法計算差異.采用文獻[3]中的計算方法,對顏色均值、LM濾波器響應、SIFT和HOG特征,計算兩個特征向量x1和x2的絕對差值,即

其中,h1和h2代表兩個直方圖,h1i和h2i分別是向量h1和h2中的元素,n是h1和h2向量中元素的個數.

計算兩個超像素特征差異后得到一個188維的向量,用其訓練一致性分類器Hsame,訓練方法和前面所用的隨機森林回歸器相同.對訓練集的所有圖像,統計所有相鄰的超像素對,并計算對比特征.超像素對屬同一類時的對比特征為正樣本,屬不同類別時的特征為負樣本,標簽分別為1和-1.一致性分類器輸出也是連續值Hsame（g（si,sj))∈[-1,1],代表相鄰的超像素是否一致的程度.

得到初始分類和一致性分類結果后,希望用其計算超像素最終的分類結果,為此,文中提出了基于MRF能量函數最小化的分類結果優化方法.將分類問題表示成能量函數的最小化,在像素級類別標記問題中應用非常廣泛.通常給定一組像素和標簽集合,找到這些像素最佳的標簽,使設計的能量函數值最小.能量函數一般包含數據項和平滑項,分別是標簽變量的一元和二元函數,數據項體現真實值和觀測值的一致程度,平滑項體現圖像的局部空間內平滑特性[17].

對超像素進行分類時采用MRF能量函數最小化方法,對一幅輸入圖像,設超像素集合Sp={sk},類別標簽的集合L={G,V,S},G、V、S分別表示標簽“地面”、“垂直物”、“天空”,目的是為每個超像素找到最佳標簽,使MRF能量函數最小,函數定義為

其中,N是所有相鄰超像素對的集合,系數λ≥0用于調節數據項和平滑項的比重,數據項函數Ds（·)表示將超像素si標記為某個類別的代價,平滑項函數Vsi,sj（·)表示將相鄰超像素對標記為兩個類別時的代價.這里采用potts模型[18]作為平滑項代價函數,平滑項函數的定義為

其中,權值K是非負常數,其取值和兩個超像素的特征相關,函數T（·)中的條件表達式為真時,函數值為1;反之,其值為0.相鄰的超像素取不同標簽時得到不同的代價值,能夠起到保持邊緣的作用[18].由于平滑項是非凸函數,能量函數的優化求解比較困難,文中使用圖割算法[19]對能量函數最小化問題進行求解.通過初始分類和一致性分類,可得到每個超像素屬于3個類別的程度值,以及相鄰超像素對屬于同一類別的程度值,將它們分別作為能量函數的數據項和平滑項的權值.上述分類結果取值范圍都是[-1,1],圖割算法中的數據項和平滑項都需要是正數,需要把這些數值變為正值,具體設置為

整個能量函數構造完成后,采用a-expansion算法[19]對最小化問題進行求解,得到超像素最終的分類標簽.

當所施加外應力值介于最后一級荷載和長期強度值之間時，將巖石試樣根據常規三軸壓縮時，計算出強度參數C和φ值代入α和k的函數中，然后代入式(4)中，得

整個分類及優化算法的步驟如下:

（1)輸入圖像進行過分割得到超像素塊,提取它的多視覺特征,并同時計算相鄰超像素對的對比特征.

（2)將多視覺特征輸入到3種屬性（地面、垂直物和天空)分類器,得到初始分類結果;利用對比特征計算出一致性分類結果.

（3)構建圖模型,所有超像素為普通節點,3個類別為頂點;利用相鄰的超像素之間的連接以及所有超像素到3個頂點的連接,構成邊集合;所有相鄰的超像素對構成圖的鄰域結構.

（4)將初始分類結果作為數據項,一致性分類結果作為平滑項的權值,并代入能量函數.

（5)執行基于a-expansion的圖割算法.

（6)輸出所有超像素的類別標簽.

3 實驗及分析

文中算法在Hoiem[3]提供的數據庫上進行實驗,計算機的配置為Intel E7400/2G RAM,MatlabR2012a,在混合編程情況下完成.Hoiem 3-類幾何上下文（3-class GC)數據庫中每幅圖像的超像素都標記了真值,從中挑選空間結構比較完整的100幅交通場景圖像作為實驗數據,其中,訓練圖像60幅,測試圖像40幅.實驗部分將和現有的基于區域分割方法進行比較,為了說明加入特征的有效性,將這兩種情況下訓練出來的分類器的性能進行對比.評價方法采用受試者工作特征（Receiver Operation Characteristics,ROC)曲線法,3種屬性分類器的ROC曲線如圖2所示.

圖2 不同特征訓練的3種屬性分類器ROC曲線

對3種分類器分別比較不同特征的ROC曲線,可以看到,“天空”分類器在兩種情況下的性能沒有明顯變化,而“地面”和“垂直物”分類器在使用結構信息特征后性能均得到提升.這是因為大部分圖像天空區域較均勻,結構信息并不豐富,而不同環境下地面和垂直物區域圖像的內容比較復雜,含有較多的紋理結構信息.說明筆者對特征的選擇對場景的分類是有效的.

將文中提出的分類優化方法與文獻[3]的方法進行比較,評價方法與文獻[3]相同,使用混淆矩陣和正確率,其中,正確率定義為測試圖像正確分類的像素占所有像素的百分比.圖3所示是文中方法和文獻[3]方法分類結果的混淆矩陣,從圖3中可以看出,文中方法對3類幾何結構分類的效果比文獻[3]的都有提升.

為了驗證文中方法對普通室外場景分割的有效性,將方法在3-class GC數據庫[3]上的總體分類正確率與文獻[3,7]進行對比,比較結果如表2所示.可以看到,文中方法在分類精度上優于文獻[3,7]的方法.

圖3 文中方法和文獻[3]方法分類的混淆矩陣

表2 文中方法和文獻[3,7]方法正確率的對比

文中方法的部分實驗結果如圖4所示.天空、地面和垂直物3種類別分別用黑、白、灰3種顏色標記.從圖4中可以看出,文中方法的分類結果和真實值非常接近,但有些細節部分出現錯誤,如樹枝中間的天空標記成了垂直物,天空區域中的電線等較細的結構沒有標記成垂直物.對圖像交通場景中細微物體的處理應該是下一步需要改進的地方.從圖4可以看到,文中采用的圖像空間結構比較完整,即3種幾何類別在圖像中所占比例較均勻.而實驗發現若場景結構比較復雜,如圖像大部分路面被車輛遮擋時,分類效果較差.因此,文中方法對這種空間結構較完整的圖像分割效果較好.

圖4 文中方法分割的結果

4 結束語

筆者提出一種新的交通場景空間幾何結構分割方法,輸入圖像在分割出的超像素基礎上提取多視覺特征,包括顏色、紋理、結構信息和位置形狀這4類特征,用特征訓練3種幾何結構分類器對超像素進行初始分類;再計算相鄰超像素的對比特征,用于訓練一致性分類器來推斷相鄰超像素之間的關系;最后,用初始分類和一致性分類結果構造基于MRF模型的能量函數,使用圖割的優化方法確定超像素的類別.實驗結果表明,筆者對特征的選擇以及提出的分類優化方法能夠有效提高分類的精度,能夠有效用于空間結構較完整的交通場景圖像分割.

[1]Tighe J,Lazebnik S.Superparsing:Scalable Nonparametric Image Parsing with Superpixels[J].International Journal ofComputer Vision,2013,101(2):329-349.

[2] 王衛衛,楊塨鵬,呂暢,等.一種新的水平集圖像分割模型[J].西安電子科技大學學報,2013,40(6):39-45. Wang Weiwei,Yang Gongpeng,LüChang,et al.New Image Segmentation Model Based on the Level Set Method[J]. Journal of Xidian University,2013,40(6):39-45.

[3]Hoiem D,Efros A A,Hebert M.Recovering Surface Layout from an Image[J].International Journal of Computer Vision,2007,75(1):151-172.

[4]LadickyL’,Russell C,Kohli P,et al.Inference Methods for CRFs with Co-occurrence Statistics[J].International Journal of Computer Vision,2013,103(2):213-225.

[5]Shotton J,Johnson M,Cipolla R.Semantic Texton Forests for Image Categorization and Segmentation[C]//Proceedings of 26th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2008:1-8.

[6]He X,Zemel R S,Carreira-Perpindn MA.Multiscale Conditional Random Fields for Image Labeling[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society,2004:Ⅱ-695-702.

[7]Gould S,Fulton R,Koller D.Decomposing a Scene into Geometric and Semantically Consistent Regions[C]// Proceedings of the IEEE Conference on Computer Vision.Piscataway:IEEE,2009:1-8.

[8]Galleguillos C,McFee B,Belongie S,et al.Multi-class Object Localization by Combining Local Contextual Interactions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2010:113-120.

[9]Socher R,Lin C C,Manning C D,et al.Parsing Natural Scenes and Natural Language with Recursive Neural Networks [C]//Proceedings of the 28th International Conference on Machine Learning.New York:ACM,2011:129-136.

[10]Felzenszwalb P F,Huttenlocher D P.Efficient Graph-based Image Segmentation[J].International Journal of Computer Vision,2004,59(2):167-181.

[11]Tighe J,Lazebnik S.Finding Things:Image Parsing with Regions and Per-exemplar Detectors[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington:IEEE Computer Society,2013:3001-3008. [12]Geiger A,Lauer M,Wojek C,et al.3D Traffic Scene Understanding from Movable Platforms[J].Pattern Analysis and Machine Intelligence,2014,36(5):1012-1025.

[13]Zhao P,Fang T,Xiao J X,et al.Rectilinear Parsing of Architecture in Urban Environment[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2010:342-349.

[14]Lowe D G.Distinctive Image Features from Scale-invariant Key Points[J].International Journal of Computer Vision,2004,60(2):91-110.

[15]Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society,2005:886-893.

[16]Moosmann F,Triggs B,Jurie F.Fast Discriminative Visual Codebooks Using Randomized Clustering Forests[C]// Advances in Neural Information Processing Systems.Canada:NIPS,2007:985-992.

[17]Wang C,Komodakis N,Paragios N.Markov Random Field Modeling,Inference&Learning in Computer Vision& Image Understanding:a Survey[J].Computer Vision and Image Understanding,2013,117(11):1610-1627.

[18]Gridchyn I,Kolmogorov V.Potts Model,Parametric Max-flow and k-sub-modular Functions[C]//Proceedings of the IEEE Conference on Computer Vision.Piscataway:IEEE,2013:2320-2327.

[19]Boykov Y,Veksler O,Zabih R.Fast Approximate Energy Minimization via Graph Cuts[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(11):1222-1239.

（編輯:齊淑娟)

Segmentation of the image with multi-visual features for a traffic scene

DENG Yanzi,LU Zhaoyang,LI Jing
(State Key Lab.of Integrated Service Networks,Xidian Univ.,Xi’an 710071,China)

Scene segmentations based on the pixel classifying calculation are complicated,and they use insufficient features,thus resulting in a low accuracy,so a new model is proposed to overcome these shortcomings,which is to learn these geometric classes based on multi-visual features of super-pixels.First,various features are extracted from the super-pixels of an input image.These features are used for classifying the super-pixels.Then the difference between the adjacent super-pixels is calculated to predict their consistency.The initial classification result and the consistency are synthesized to the Markov Random Field energy function,which is then minimized based on the graph-cuts algorithm to get the final labels of the super-pixels.Experimental results prove the effectiveness of the multi-visual features and the optimization method proposed,with superior performance achieved for traffic scenes.

scene segmentation algorithm;super-pixels;multi-visual feature extraction;random forest regression;Markov random fields

TP391

1001-2400（2015)06-0011-06

10.3969/j.issn.1001-2400.2015.06.003

2014-11-24

時間:2015-03-13

中央高校基本科研業務費專項資金資助項目（K50510010007)

鄧燕子（1983-),女,西安電子科技大學博士研究生,E-mail:dyzamour@163.com.

http://www.cnki.net/kcms/detail/61.1076.TN.20150313.1719.003.html