王 彤 楊秋菊
1(蘇州高博軟件技術職業學院信息與軟件學院 江蘇 蘇州 215163)2(西南石油大學應用技術學院 四川 南充 637001)
場景解析也稱為語義圖像分割,它將圖像劃分為語義區域或對象,如山、天空、建筑等,近年來受到了廣泛關注[1]。場景解析結合了檢測、分割和多標簽識別這三個傳統問題[2],將預定義標簽集中的對象類標簽分配給輸入圖像中的每個像素(或超像素)是一個熱門的研究領域。
目前,各種場景解析方法被相繼提出,大致可分為三類。第一類是參數化方法,其使用自動上下文技術以學習圖像中感興趣類別的緊湊參數模型[3]。此方法可以學習參數分類器以識別物體(如建筑物或天空)。該類方法中,已有幾種深度學習技術應用于語義分割,如文獻[4]提出了基于卷積神經網絡(CNN)的參數化場景解析算法,其中CNN旨在學習強大的特征和分類器以區分局部視覺細微差別。
第二類是非參數化方法,其目標是通過將圖像的部分與標記圖像的大數據集中的相似部分進行匹配來標記輸入圖像[5],其中類別分類器學習通常由馬爾可夫隨機場代替,一元勢能通過最近鄰檢索來計算。
在非參數場景解析方法中,基于在圖像中的不同像素之間編碼的關系(依賴性),可分為三種類型。第一種類型包含對每個像素獨立地進行分類來解決像素標記問題的方法。文獻[6]提出的場景解析方法使用包含完全注釋圖像的大數據集為輸入圖像選擇最近鄰居的子集,使用SIFT流算法在查詢圖像和每個最近鄰居之間建立密集的對應關系[7],然后使用在像素上定義的馬爾可夫隨機場(Markov Random Field,MRF)將注釋從檢索的子集傳送到輸入圖像。但此類方法的計算成本高且效率低,導致其無法在應用程序中運用。第二種類型基于成對MRF或條件隨機場(Conditional Random Field,CRF)模型[8],其圖中的節點表示與像素相關聯的語義標簽,并創建電勢以定義系統的能量,促使外觀相似的相鄰像素采用相同的語義標簽。但此類方法對復雜成對術語的學習和推理成本較高,且具有局部性。第三種類型是像素被分組為片段(或超像素),并且為每個組分配單個標簽[9]。文獻[10]提出了一種稱為Superparsing的高效非參數圖像解析方法,將MRF應用于超像素而不是像素,然后基于超像素相似性將標簽從一組相鄰圖像轉移到輸入圖像。文獻[11]提出了一種使用混合模型和多個CRF的基于本體的語義圖像分割,將圖像分割問題簡化為分類任務問題,其中具有CRF模型的基于片段的分類器生成大規模區域,然后利用區域的特征來訓練基于區域的分類器,為每個視覺特征分別將圖像區域分類為合適的標簽。
第三類是非參數模型與參數模型集成方法,如文獻[12]提出了一種準參數(混合)方法,其集成了基于KNN的非參數方法和基于CNN的參數方法;文獻[13]開發了一種新的自動非參數圖像解析框架,以利用參數和非參數方法的優勢。
雖然參數化方法在場景解析方面取得了巨大成功,但其在訓練時間方面存在一定的局限性,且在添加新的訓練數據集時需要重新訓練模型。相比之下,對于非參數方法,當擴展語義類別標簽的詞匯時,不需要做特殊的調整。
為此,遵循非參數方法,本文提出了一種結合多類特征融合(Multi Feature Fusion,MFF)與ICM目標函數優化的圖像語義分割方法,主要創新如下:
(1) 現有大多數方法從訓練數據集中為查詢測試圖像檢索一些類似圖像的成本較高且效率低。故提出一種新的基于全局一致性誤差的幾何檢索策略,用于從包含完全分割和注釋圖像的數據庫中選擇最近鄰居,快速將區域圖或輸入圖像的分割與數據集中每個圖像的區域圖匹配。
(2) 現有方法中對復雜成對術語的學習和推理成本較高,而本文方法采用一種新的基于能量最小化(Energy minimization,EM)的方法,即多特征融合語義分割模型(EM-MFF),將多類型特征融合到能量或目標函數,并根據全局適應度函數為每個區域分配類別標簽,同時限制參數數量,可集成場景中的對象的更多信息,降低推理成本。
(3) 現有的語義分割模型一般需要大型數據集來訓練高精度分類器,工作量大,而本文模型專用于以有限數量可用圖像為特征的小數據集,采用微軟研究劍橋數據集(MSRC-21)和斯坦福背景數據集(SBD)進行實驗論證,結果表明了該方法的可行性和準確性。
本文方法主要將圖像I分解為一個未知的幾何區域數K,然后通過迭代優化一個多特征的能量函數以識別圖像類別(即樹、建筑物、山峰等),進而評估所提方案的質量。該系統框架如圖1所示,包括四個步驟:區域生成創建一組區域,用于給定的輸入圖像;幾何檢索集通過基于全局一致性誤差(Global Consistency Error,GCE)測量的新匹配方案從整個數據集中選擇圖像的子集;區域特征為每個區域提取不同類型的特征,包括顏色、紋理和圖像位置;圖像標記通過使用能量最小化方案為每個區域分配對象類標簽。

圖1 系統框架
可見,給定輸入圖像(a),通過使用GCEBFM算法生成其區域集(b),然后利用GCE標準從完整數據集中檢索相似圖像(c),為輸入圖像提取不同的特征(f)和檢索到的圖像(d),結合基于標記的分割語料庫(e),使用基于ICM的能量最小化將單個類別標簽分配給每個區域(g)。
區域生成即由基于GCE的新預分割算法生成一組段(區域),該算法通過組合由標準K均值算法生成的多個和最終弱分割圖來獲得最終精細分割。將GCE算法應用于12個不同的顏色空間,以確保分割集合的可變性。
由于使用由過度分割產生的預定義超像素,提供的邊界與真實區域邊界不一致,且在大多數情況下,對象被分割成許多區域,以致無法進行精確分解圖像。為此,使用GCE算法生成大區域,允許每個區域導出全局屬性,降低整個模型的復雜性和內存需求。
本文方法使用與查詢圖像類似的圖像子集而不是使用整個數據集,更適用于標簽任務。為了找到相對較小且有趣的圖像集,使用GCE查找區域圖與輸入圖像的分割之間的匹配,以及數據集中每個圖像的區域圖。

(1)
式中:|r|表示像素集合r的基數;表示差異的代數運算符。結合LRE能夠使所有局部細化都處于同一方向,而每個像素pi需要計算兩次,則可得到全局一致性誤差為:
(2)
式中:GCE*∈[0,1],GCE*=0表示分段RI和RM之間的最大相似度,GCE*=1表示兩個分段之間不匹配。
根據GCE值將查詢圖像按升序排列,并對整個數據集T的所有圖像進行排名。以此消除具有較高GCE值的無用圖像,并且可以從整個數據集T中選擇圖像子集M作為檢索集。
為了執行標記過程,需要提取每個區域不同的特征來定義該區域,所提方法提取顏色、紋理、位置這三類特征。
1) 顏色。顏色特征是用于描述圖像整體或其部分表面屬性的特征,通常來說,顏色特征的提取是基于像素點的,而統計是基于全局或者部分,因此具有旋轉和平移不變性,這導致顏色特征無法完全展現關鍵點的顏色分布。
本文方法采用對立顏色空間SIFT描述子[15](Opponent Color SIFT,OCSIFT),以保證獲得特征的稠密性和局部性,以及具備幾何與色彩不變的雙重性能。OCSIFT由原始RGB的三個通道組成,其通道O3為亮度,通道O1和O2為顏色。
(3)
由于O1和O2中存在減法,當三個通道的值相同時其值為0。OCSIFT使用SIFT算子描述對立顏色空間的全部通道,且對立顏色空間SIFT的性能優于其他顏色空間的SIFT。
2) 紋理。為了量化圖像中不同區域的感知紋理,文獻[16]提出原始LBP算法,通過編碼中心點的像素值與其相鄰的像素值之間的差異以表示圖像中包含的微觀模式的統計量。由于LBP算法獲取存有光照變化和隨機噪聲的圖像特征效果不太理想,為此LDP算法被提出并予以應用[17]。
LDP算法通過將中心像素點與8個Kirsch掩模作卷積運算,獲得相應的邊緣響應值,再將絕對值稍大的前k個邊緣響應值的二進制位設為1,剩下8-k個值設為0。該算法具體計算方法為:
(4)
式中:mk為第k個最大的邊緣響應值,計算中一般令k=3。
3) 位置。位置特征用來描述像素點在圖像中所處于的坐標信息,由于其坐標形式龐大的特點,一般的K-means聚類算法無法適用。
本文方法采用基于格論的CBL(C1usterbase on lattice)聚類方法[18],可在不增加空間復雜度的條件下有效提高聚類精度。將圖像的寬和高進行m和n等分,把圖像分割成m+n個格子,處于同個格子的像素點就是同一聚類。令Iw和Ih分別表示圖像的長與寬,(i,j)表示圖像中任意像素點,該點在x和y方向上的聚類(i,f)cluster_x和(i,f)cluster_y分別為:
(5)
(6)
如此,可以得到一個二維的聚類中心。實驗取m=n=12,并使用一維值(i,f)cluster表示二維的聚類中心:
(i,f)cluster=(i,f)cluster_x×m+(i,f)cluster_y
(7)
1) 結合多特征的語義分割模型。在提取用于描述區域的特征描述符并給出可用的標記分割語料庫之后,通過優化全局適應度函數,測量所生成的解的質量,將單個類標簽分配給每個區域。

(8)

2) 能量函數的優化。將提出的多特征語義分割模型表述為包含非線性多目標函數的全局優化問題。為了達到該能量函數的最小值,可以利用基于不同優化算法的近似方法找到最佳解決方案,如遺傳算法、模擬退火算法等,但計算時間長。
為了避免上述問題,采用了迭代條件模式(Iterative Conditional Mode,ICM)方法,即高斯-塞德爾松弛,其中像素一次更新一個,能夠快速收斂[19]。ICM算法的核心是設定一個觀測圖像y,及像素點s鄰域?s中全部點的當前預測x?s,之后統計像素點s處的標記概率:
P(Xs=xs|y,XS/s=xS/s)=P(ys|xs)P(Xs=xs|X?s=x?s)
(9)
式中:xS/s為圖像中除了像素s外其余像素點的標記。
基于ICM的EM-MFF偽代碼如算法1所示。
算法1基于ICM的EM語義分割模型算法
輸入:待標記圖像I、k圖像集{Γk}(k≤K)、k個語義分段集{Sk}(k≤K)。
1.將圖像I分割為不同的相干區域RI
2.使用類標簽集合ε({Sk}k≤K)中的隨機元素為每個區域ri∈RI分配類別標簽
3.whilep 4.for每個區域ri∈RI執行 5.根據類標簽集合ε中的均勻分布,繪制新的標簽y 6.對每一個像素點s,通過最大化P(ys|xs)來初始化x 7.s≤S,通過最大化式(9)更新xs 12.end if 13.end for 14.s←s+1,p←p+1 15.end while 為了評估模型的性能,本文將其與不同的非參數方法進行了比較,并在兩個具有挑戰性的語義分割數據集(微軟劍橋研究院數據集和斯坦福背景數據集)上進行了測試。 1) 微軟劍橋研究院數據集(MSRC-21)是目前種類最多且標注最完善的圖像語義分割數據庫之一。它包含了591幅彩色圖像,并對23個對象類(建筑、草、樹、牛等)進行了相應的地面真值標記。在23個對象類中,只有21個類是常用的。未使用的標簽是(void=0,horse=5,mountain=8),因為其背景或訓練樣本太少。 MSRC-21數據集如圖2所示,其第一行為原始圖像,第二行為原始圖像對應的手工標注圖像,使用不同的顏色代表不同的目標,第三行顯示了顏色標簽的類別含義,其中黑色代表空類。 圖2 MSRC-21語義分割數據集 2) 斯坦福背景數據集(SBD)包含一組從現有公共數據集導入的室外場景圖像,如圖3所示。該數據集中的每個圖像都至少包含一個前景對象。數據集按像素進行注釋(水平位置、像素語義類、像素幾何類和圖像區域),以評估語義場景理解的方法。 圖3 場景標注 從兩個層次對EM-MFF模型進行性能對比分析,即全局每像素精度(Global Pixel Accuracy,GPA)和每類平均準確度(Average Class Accuracy,ACA)。其中全局每像素精度表示正確標記的像素的總比例,其算式為: (10) 式中:v(·)為指標函數;n為輸入圖像中的像素數;yi為算法預測的像素i的標簽;li為像素i的地面真實標簽。 每類平均準確度表示每個類別中正確標記的像素的平均比例,其算式為: (11) 式中:|C|為輸入圖像中的類數;nb為數據集中的圖像數;∧為邏輯運算符號。 1) 本文模型在MSRC-21數據集中的實驗結果分析。為了在MSRC-21數據集上驗證所提模型,采用留一法的評估策略。即對于每幅圖像,將其用作查詢圖像,并根據數據集中的其余圖像對區域進行分類。 為了保證基準測試結果的完整性,本文算法的權值參數(α1、α2和α3)通過使用局部線性搜索過程的可行范圍參數值([1,2])與固定步長為10來進行整體優化。經過反復驗證發現,α1=1.83、α2=1.53和α3=1.44是模型中產生最佳性能的可靠超參數。 本文模型屬于非參數方法,將其與文獻[10]提出的超解析模型與文獻[11]提出的CRFTree模型,以及與參數方法中周期性CNN[4]與自動上下文[3]模型進行相應的性能對比分析。 如表1所示,EM-MFF的性能優于非參數超解析方法,其GPA和ACA得分分別為0.73和0.62。此外,與目前最新的參數化方法相比,本文方法可提供良好的結果,且模型訓練簡單、成本低。與非參數方法相比,參數場景解析方法在準確性方面優勢不明顯,且需要大量的模型訓練,對于開放數據集不太實用。 表1 本文模型在MSRC-21數據集上的GPA和ACA得分 表2顯示了從MSRC-21數據集得到的實驗結果。可以看出,對于草地、飛機、羊和書等類別的準確性得到了更好的結果,其精度高于80%。但是,對于17.4%的椅子類別,其準確性較低,該類別經常與鳥類混淆,因為這兩個類別在顏色和紋理上具有相似性。 表2 對MSRC-21類數據集的分割精度(%) 此外,將本文模型與超解析、周期性CNN、自動上下文和CRFTree(FL)做對比,在MSRC-21數據集上的分類準確度如表3所示,各模型定性比較如圖4所示。 表3 五種方法在MSRC-21數據集上的分類準確度(%) 圖4 在MSRC-21上EM-MFF和其他算法的圖像分割結果示例 圖5顯示了本文方法生成的MSRC-21示例結果。 圖5 EM-MFF模型在MSRC-21數據集上獲得的示例結果 檢索集的大小也會影響模型準確度,因此通過改變K值以驗證模型效果,如圖6所示。測試結果表明當K=197(數據集的1/3)時,本文模型的準確度最佳。 圖6 MSRC-21數據集的檢索集大小K值變化的影響 2) 本文模型在SBD數據集中的實驗結果分析。在SBD數據集上驗證了本文模型,并采用了相同的評估策略,即留一法,但對于整個數據集,使用了與MSRC-21數據集的訓練集上固定的參數相同的值。本文模型的GPA和ACA得分如表4所示。本文模型的GPA值為0.61,ACA值為0.57,不同方法下仍然具有競爭力。但與在MSRC-21數據集中的值相比,效果不是很好,這是因為SBD數據集包含一個前景類,其引用了不同類型的對象,大大增加了類內的可變性。 表4 本文模型在SBD數據集上的GPA和ACA得分 表5顯示了本文模型在SBD數據集中的精度值。可以看出對于天空和草地類,在類別準確性方面會產生更好的結果,其值高于80%。相反,對于山地級別,其精度較低。 表5 SBD數據集分割的分割精度(%) 此外,將本文模型與超解析、自動上下文、周期性CNN和CRFTree(FL)的對比,在SBD數據集上的分類準確度如表6所示。 表6 五種方法在SBD數據集上的分類準確度(%) 為了測試迭代優化過程的收斂性,通過用不同的迭代次數的優化算法評估了所提出的模型,MSRC-21數據集上的GPA和ACA漸近結果如圖7所示。可以看出Tmax=100時模型性能最佳。 圖7 不同最大迭代次數下,EM-MFF模型的績效指標變化 所提出模型的計算復雜度取決于兩個因素:數據集中的圖像數量和使用的標準數量(組合為全局能量函數)。在MSRC-21數據集上,對于Intel 64處理器內核i7-4800MQ,2.7 GHz,8 GB RAM內存和在Linux上運行240×240的圖像的非優化代碼,執行時間平均需要5~6 min。更準確地說,標記過程需要0.14 s,幾何檢索步驟需要0.32 s。然而,所提模型的計算時間主要由205 s的區域生成代碼和171 s的特征提取所占用的時間。前者可以通過并行化實現而減少,而通過僅執行一次提取,然后將提取的特征存儲在數據結構中,可以加速后者。所提模型與其他四種模型的分割時間對比如表7所示。 表7 計算時間對比結果 續表7 為解決圖像語義分割的問題,本文提出了一種新穎且易實現的結合多類特征融合與ICM目標函數優化的圖像語義分割方法。通過使用基于稱為全局一致性誤差的幾何檢索策略,從包含完全分割和帶注釋的圖像的數據庫中選擇了最近的鄰居。此外,EM-MFF模型的成本函數有效地結合了不同全局非參數語義似然能量項,并將多類特征融合到能量或目標函數中,以集成有關場景中可能存在的對象的更多信息。在MSRC-21和SBD數據集上對該方法性能進行了實驗,結果表明其具備可行性和較高的分類準確度,且多特征融合可以顯著改善場景解析的最終結果。此外,本文方法無需大數據集來訓練高精度分類器,節約訓練成本。 本文方法僅考慮了顏色、紋理和位置這三種特征,未來工作將結合更多的特征,在不同的幾何和語義抽象級別進一步提高分類準確性,以增加所提方法的普適性。

2 實 驗
2.1 數據集


2.2 評估指標
2.3 實驗結果










2.4 計算時間


3 結 語