基于紋理基元塊識別與合并的圖像語義分割

2015-02-20 08:15:55邱運春

計算機工程 2015年3期

關鍵詞：語義特征

楊雪,范勇,高琳,邱運春

(西南科技大學計算機科學與技術學院,四川綿陽621010)

基于紋理基元塊識別與合并的圖像語義分割

楊雪,范勇,高琳,邱運春

(西南科技大學計算機科學與技術學院,四川綿陽621010)

針對當前像素級別的圖像語義分割算法難以利用全局形狀特征,導致分割對象輪廓模糊,造成錯誤識別的問題,提出一種區域級別的基于紋理基元塊識別與合并的圖像語義分割算法。該算法采用紋理基元等特征,考慮到相鄰像素點間的相互關系,保留物體間的棱角和邊緣信息,分割出輪廓清晰的對象。在MSRC圖片庫上進行實驗,結果表明,該算法能對多種語義對象進行分割和識別,具有運行速度快、識別率高和分割效果好等優點。

紋理基元;特征字典;k-d樹最近鄰搜索;k-means算法;識別;合并;語義分割

1 概述

圖像語義分割是基于內容的圖像壓縮、圖像檢索［1］等多媒體應用領域中的關鍵技術［2-3］,把圖像分割和圖像的識別與理解結合起來,對輸入圖像進行語義分割的研究非常活躍,也是當前國內外圖像處理領域的研究前沿。但是當圖像中同時存在多類不同形狀和大小的對象時,如何有效地獲取不同語義對象之間的邊緣信息,依然是個具有挑戰性的問題［1］。

圖像語義分割是指將圖像分割成具有一定語義含義的分割塊,并對每個分割塊進行相應的語義標識。一種緊湊的形貌特征表示能夠提高分割與識別的性能,為此,紋理基元(texton)常常被用于對象的特征表達［4］,并被證明在物體分類中是有效的［5］。紋理基元這個術語是文獻［6］首先提出的,是人類視覺感官描述的最小單元,有點類似于音色中的音位。

目前,像素級別的圖像語義分割算法［7］,一般是基于紋理基元映射圖進行像素點特征向量的學習和預測,由于通過預測每個像素點特征向量的語義類別來對圖像進行分割,從而使得標識出的物體輪廓特征丟失得比較明顯。為此,本文提出一種新的紋理基元映射方法,得到基于區域級別的紋理基元塊映射圖,通過對紋理基元塊的識別與合并完成圖像的語義分割。

2 算法簡介

本文的語義分割基本思路是,訓練部分采用支持向量機(Support Vector Machine,SVM)學習對象的顏色特征模型;測試部分對待測圖片集的每個像素提取17維紋理基元特征向量,再利用本文提出的方法構建待測圖片的紋理基元塊映射圖,最后采用SVM分類器識別各個紋理基元塊,標記并合并相鄰同類的分割塊,完成圖像的語義分割和對象識別。本文算法流程如圖1所示。

圖1 算法流程

3 紋理基元特征表示

圖像的特征總是融合在圖像的顏色、紋理、布局和未知的上下文信息中,一個完整全面的圖像特征往往需要圖像多個方面的信息來共同描述,因此,在圖像特征提取中不能僅考慮單個方面的信息。對圖像某方面的信息來說,通常單個像素點所包含的信息會受到相鄰點的影響,在提取像素點單方面信息時,需要結合圖像的上下文信息。本文用到的紋理基元特征是由高斯、高斯-拉普拉斯、高斯偏導組成的一組濾波器產生的17維向量［7］,將分別涵蓋圖像的顏色、紋理和上下文各方面的信息。

下面將描述本文的濾波過程:

其中,6σ取不大于其值的整數。

Gaussians濾波器由式(1)計算所得。濾波時y方向的卷積結果作為x方向的輸入,x方向的卷積結果作為高斯濾波器的濾波結果。

LoG(Laplacian of Gaussians)濾波器由式(3)和式(1)計算所得,分別用filterA和filterB表示。由filterA的y方向卷積結果作為filterB的x方向輸入,再由filterA的x方向卷積結果作為filterB為y方向的輸入,將這2個卷積結果相加,作為LoG濾波器的濾波結果。

DoG(Derivative of Gaussian)濾波器由式(2)和式(1)計算所得,同樣分別用filterA和filterB來表示。由filterA的y方向卷積結果作為filterB的x方向輸入,得到第一個DoG濾波器的濾波結果。再交換filterA和filterB,重復上述卷積過程,將結果作為相同σ下的第2個DoG濾波器的濾波結果。

3個高斯濾波器(σ分別取0.7,1.4和2.8)分別與輸入圖像Lab顏色空間的3個顏色通道相卷積,這樣就得到了9個濾波器響應圖像。

4個LoG濾波器(σ分別取0.7,1.4,2.8和5.6)則僅僅與輸入圖像的Lab顏色空間的L通道進行卷積,由此得到了4個濾波器響應圖像。

4個DoG濾波器分為x軸方向的和y軸方向的2組(平滑尺度σ分別取1.4和2.8),每組有2個濾波器。另外,這4個DoG濾波器也僅與輸入圖像的Lab顏色空間的L通道進行卷積,最后得到了4個濾波器響應圖像。

經由上述3種濾波器的作用之后,輸入圖像的每個像素有一個17維的濾波器響應數據,即是一個17維的紋理基元特征向量。

4 紋理基元塊映射方法

本文算法的核心在于如何利用像素點的17維紋理基元特征向量通過k-means算法和k-d樹最近鄰搜索算法構建紋理基元塊的映射分割圖。

以所有測試圖像的每個像素點的17維紋理基元特征向量作為k-means算法的數據樣本輸入x。以最終輸出的k′個聚類中心創建特征字典,并建立k-d樹［8］,對測試集中的每個像素點進行最近鄰搜索,即將所有像素點分成了k′類。至此,每張測試圖片完成了初始分割,得到了對應的紋理基元塊映射圖。

針對K-means算法只能在已知分類數k的情況下進行聚類的問題,本文提出以較大的k值作為初始聚類中心個數,在更新聚類中心μ時,舍棄無樣本點的中心,以此來自動減小k值。

由于k-means算法對初始聚類中心比較敏

感［9］,因此本文提出輪次聚類方法。具體的操作是以聚類結果中的聚類中心μ′再次作為k-means算法的數據樣本輸入x′,以中心個數k′為再一輪的初始聚類中心個數,進行第二輪聚類。重復該步驟,直到第n輪聚類或中心個數k′小于閾值θ。

算法的具體步驟如下:

(1)數據樣本輸入是{x(1),x(2),…,x(m)},x(i)∈所有測試圖片像素點的17維紋理基元特征向量集。

(2)隨機選取k個聚類中心點為μ1,μ2,…,μk。

(3)重復以下1)～3)過程直到收斂:

1)計算每個點x(i)到聚類中心μj的距離,并聚類到離該點最近的聚類中去:

2)調整聚類中心的個數k:

若αj≤1,則舍棄聚類中心j,k′=k-1。

3)計算每個聚類中所有點的坐標平均值,并將這個平均值作為新的聚類中心。

(4)以{x′(1),x′(2),…,x′(m)},x′(i)∈{μ1,μ2,…,μk}為數據樣本輸入,重復步驟(2)、步驟(3)。

(5)重復步驟(4),直至第n輪聚類或中心個數k′小于閾值θ。

5 紋理基元塊識別與合并

上一節利用紋理基元特征向量構造了測試圖片的紋理基元塊映射圖,在識別每個塊之前需要先訓練對象的特征模型。

在訓練部分,本文采用基于HSV空間的20色非均勻顏色量化算法［10］提取顏色特征。針對每種對象類別,利用人工標識圖計算原圖對象區域的20維顏色直方圖,與對應的類別標注共同構成數據集。本文采用支持向量機(Support Vector Machine, SVM)訓練該數據集,產生顏色特征模型。

在測試部分,也采用文獻［10］的算法提取每個紋理基元塊的顏色特征,結合顏色特征模型采用SVM預測算法對紋理基元塊進行語義預測和標識,最后同類標識且相鄰的塊被合并為一類,從而得到最終的語義分割圖片。

6 實驗結果與分析

本文使用了MSRC(Microsoft Research Center)圖片庫進行語義的學習和訓練。MSRC由劍橋大學計算機視覺科研小組提供,是圖像語義分割研究中常用的典型數據庫,其中包含建筑物、草地、樹、牛、羊等對象。每種對象由若干張原圖和人工標識圖對應組成,如圖2所示,不同顏色代表不同的對象類別,黑色表示空類,在訓練和測試過程中忽略黑色標識的區域。

圖2 原圖和人工標識圖

在實驗中,將該圖片庫隨機分成訓練集和測試集,各集占總圖片數的比例分別為40%和60%。最后,算法的分割效果和評估則都以人工標識圖為目標和參照。

6.1 本文實驗結果

通過大量實驗得出輪次n的經驗值為4或5,閾值θ可以稍大于待測圖像中的對象類別數,一般可設置在5～20之間。下面以圖2為例來說明本文的語義分割過程。從圖3可以看到每一輪聚類后構建的紋理基元塊映射圖,用k表示某一輪的初始聚類中心數,k′表示該輪聚類結束后的中心數,則: (a)k=400,k′=385;(b)k=385,k′=47;(c)k=47,k′=33;(d)k=33,k′=9。

圖3 輪次聚類的中間過程示例

在圖3的紋理基元塊映射圖中,每種顏色代表一個字典索引,不表示任何類別含義。由于k′個聚類中心是由所有測試圖片的像素點共同計算出的,在單獨一張紋理基元塊映射圖中,不一定包含k′種分割塊。可以看出,k′值越大,紋理基元塊就越小越多,當經過n輪聚類后k′達到合適值時,就可以將圖片大致分割成所希望的分割結果,并且基本能體現出對象的輪廓和形狀。如圖4中的最后一張圖所示,水的部分已經被完整地分割出來了,牛和草地則分別被分割成一些大大小小的塊。下一步便是如何識別這些塊的類別,圖4展示了特征模型的獲取以及紋理基元塊利用特征模型進行識別與合并,得到最終的語義分割圖的過程。

圖4 塊識別與合并過程

6.2 對比實驗結果

本文將與同樣使用該圖片庫進行實驗的系統TextonBoost作對比,TextonBoos系統是一個在像素點級別對圖像語義進行訓練和預測的系統,存在標識語義物體邊緣模糊、對象粘連和一定的誤識別等缺點。下面,從定性和定量2個方面對TextonBoost系統和本文算法的實驗結果進行比較分析。

首先,從定性角度來驗證本文提出的基于紋理基元塊識別與合并的方法能夠分割出輪廓清晰的物體,并正確識別出對象的類別。圖5是實驗結果對比圖,每組圖片的第1列是原圖,第2列是人工標識圖,第3列是TextonBoost系統的結果圖,第4列是本文算法的結果圖。

圖5 對比實驗結果

從圖5可以看出,本文提出的算法能較準確地分割和識別對象。因為濾波器組全面提取了圖像的紋理顏色特征,并在提取過程中充分考慮到了每個像素點與相鄰像素點的相互關系,很好地保留了對物體間的明確區分有著重要作用的棱角和邊緣信息,所以能較好地分割出對象與對象之間的界限。通過對比可以明顯地發現,TextonBoost系統標識出的物體明顯丟失了輪廓特征,且在類別分割方面,把第1組圖中的鳥誤識別成了水和草地,把第3組圖片中的所有區域都識別成了書,而第4組中則漏識別了左邊的小牛,在第8組圖片中將水的部分誤識別成了天空,同樣存在部分誤識別的還有第5組和第9組,而本文算法能很準確地標識出各個對象的類別,并且對象的邊緣很明晰,不存在粘連問題。

本文從分割精度、識別率以及耗時3個方面來做量化對比。

為了客觀地比較,以人工標識圖的分割區域為基準來對比算法的分割精度F［11］,F=2PR/(P+R)。其中,P表示算法分割區域與人工分割對象共有像素點數占人工分割對象總像素數的百分比;R表示算法分割區域與人工分割對象共有像素點數占算法分割區域總像素數的百分比,只有P與R同時取得較大值時,才能獲得較高的精度［12］。圖6為TextonBoost系統和本文算法對圖5中圖像的精度比較結果。需要指出的是,此處F值是針對圖像中的主要對象計算的,依次為鳥、羊、書、牛、貓、路、鳥、牛、自行車、板凳。可以看出,本文算法的F值明顯較高。

圖6 圖5中分割結果的精度對比

本文采用文獻［13］提出的識別率計算方法作為評價標準,即正確識別樣本與總樣本之商,結果如圖7所示。相比較TextonBoost系統,本文算法對于圖7中的前10類物體都取得了更高的識別率。其中,牛和羊2類物體的準確率提高最為顯著,分別提高了33.2%和39.9%,而飛機類的識別率降低了23.2%,這是因為SVM訓練時選擇的是顏色特征,牛羊與草地等的顏色特征相差較大,而圖片集中的飛機顏色偏白,與天空顏色接近所致,增強特征描述可以改善該問題。

圖7 識別率對比

TextonBoost系統和本文算法在相同的訓練集和測試集下的耗時對比如表1所示。

表1 運行時間的比較s

7 結束語

本文提出一種基于紋理基元塊識別與合并的語義分割算法,在計算紋理基元塊時改進k_means算法,給出輪次聚類方法,使其能自適應地減少聚類中心數量。算法利用紋理基元特征將圖片中的對象預分割成了由若干塊組成的輪廓明顯的區域,再根據顏色特征模型識別塊類型并合并相同類型的塊,最終得到語義分割結果圖。在MSRC圖片庫上的實驗表明,本文提出的算法速度快,能有效準確地分割識別出圖片中的對象,且具有很好的邊緣輪廓效果。此外,由于紋理基元塊是根據特征模型進行識別的,下一步工作將融合提取多種對象特征,增強特征模型,以擴展本文算法的適用范圍。

［1]Johnson M A,Hall H.Semantic Segmentation and Image Search［EB/OL］.(2010-11-04).http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.169.536.

［2]Acharyya M,Kundu M K.Image Segmentation Using Wavelet Packet Frames and Neuro-fuzzy Tools［J］.International Journal of Computational Cognition,2007, 5(4):27-43.

［3]Wang Song,Kubota T,Siskind J,et al.Salient Closed Boundary Extraction with Ratio Contour［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(4):546-561.

［4]Malik J,Belongie S,Leung T,et al.Contour and Texture Analysis for Image Segmentation［J］.International Journal of Computer Vision Computer Vision,2001, 43(1):7-27.

［5]Varma M,ZissermanA.AStatisticalApproachto TextureClassificationfromSingleImages［J］.InternationalJournalofComputerVision,2005, 62(1/2):61-81.

［6]Julesz B.Textons,the Elements of Texture Perception, and Their Interactions［J］.Nature,1981,290(5802): 91-97.

［7]Shotton J,Winn J,Rother C,et al.TextonBoost:Joint Appearance,Shape and Context Modeling for Multiclass Object Recognition and Segmentation［C］//Proceedings of European Conference on Computer Vision.［S.l.］: IEEE Press,2006:1-15.

［8]王碧,霍紅衛.基于KD樹的多維數據分布方法［J］.計算機工程,2003,29(3):105-107.

［9]袁方,周志勇.初始聚類中心優化的k-means算法［J］.計算機工程,2007,33(5):224-227.

［10]邱兆文,張田文.一種新的圖像顏色特征提取方法［J］.哈爾濱工業大學學報,2004,36(12): 1699-1701.

［11]Sharon A,MeiravG,RonenB,etal.Image Segmentation by Probabilistic Bottom-up Aggregation andCueIntegration［C］//ProceedingsofIEEE ConferenceonComputerVisionandPattern Recognition.Washington D.C.,USA:IEEE Computer Society,2007:1-8.

［12]劉戰杰,馬儒寧,鄒國平,等.一種新的基于區域生長的彩色圖像分割算法［J］.山東大學學報:理學版, 2010,45(7):76-80.

［13]Shtton J,Winn J,Rother C,et al.Textonboost for Image Understanding:MulticlassObjectRecognitionand Segmentation by Jointly Modeling Texture,Layout,and Context［J］.International Journal of Computer Vision, 2009,81(1):2-23.

編輯顧逸斐

Image Semantic Segmentation Based on Texture Element Block Recognition and Merging

YANG Xue,FAN Yong,GAO Lin,QIU Yunchun
(College of Computer Science&Technology,Southwest University of Science&Technology,Mianyang 621010,China)

Aiming at the problem that the current image semantic segmentation algorithm at pixel level is difficult to use global shape features,leading the fuzzy contour of object and some wrong recognitions.This paper presents a new regional level image semantic segmentation algorithm based on texture element block recognition and merging.This algorithm uses the texture element feature to segment objects with a clear outline,which fully considers the relationship between adjacent pixels and keeps corners and edge information between objects.Experiments conducted on the MSRC database show that this method can segment and recognize a variety of semantic.Besides,it has the advantages of high efficiency,high recognition rate and good segmentation effect.

texture element;feature dictionary;k-d tree nearest neighbor search;k-means algorithm;recognition; merging;semantic segmentaion

楊雪,范勇,高琳,等.基于紋理基元塊識別與合并的圖像語義分割［J］.計算機工程, 2015,41(3):253-257.

英文引用格式:Yang Xue,Fan Yong,Gao Lin,et al.Image Semantic Segmentation Based on Texture Element Block Recognition and Merging［J］.Computer Engineering,2015,41(3):253-257.

1000-3428(2015)03-0253-05

:TP391.41

10.3969/j.issn.1000-3428.2015.03.047

四川省教育廳科技基金資助項目(12zd1005);西南科技大學網絡融合實驗室開放基金資助項目(12zxwk09)。

楊雪(1989-),女,碩士研究生,主研方向:計算機視覺;范勇,教授、博士;高琳,講師、博士;邱運春,碩士研究生。

2014-04-16

:2014-05-08E-mail:766134800@qq.com