彭 橦, 何 坤, 周激流
(1.四川大學電子信息學院, 成都 610065; 2.四川大學計算機學院, 成都 610065)
前景提取是從圖像中分離出觀察者感興趣的語義對象.它是機器視覺、模式識別和對象跟蹤的重要環節,被廣泛應用于各個領域[1-2].研究者根據圖像底層特征(邊緣或者區域亮度/顏色分布等)提出了許多方法,如水平集[3]、Grabcut[4]等.由于圖像內容的復雜性和特征的多樣性,使得前景提取缺乏統一框架.
前景提取結果不僅依賴于算法本身,還依賴于圖像特征.目前,用于前景提取的特征可大致分為“學習特征”和“人為特征”,其中“學習特征”主要是利用深度學習方法(如卷積神經網絡[5]等)從訓練集中自動提取可執行具體任務的不同尺度特征.其小尺度特征主要來源于低層網絡,大尺度特征常常表示為高層網絡參數.基于“學習特征”的前景提取算法[6]能有效提取圖像特定前景(訓練集中任意對象),但對新的前景(未參與訓練),由于缺乏訓練樣本導致前景提取效果較差甚至失效[7].此外,“學習特征”的魯棒性依賴于訓練集容量[8],小樣本學習的特征對擾動較敏感,反之,具有較好的穩定性.
針對新的前景,研究者常常采用“人為特征”從圖像中提取前景.“人為特征”是指圖像的低層特征,如像素相似性[9]、邊緣[3]、區域顏色分布[10]等.從像素對亮度/顏色相似性出發,魔術棒[11]和隨機游走[12]算法利用像素相似性建立前景提取能量泛函,通過計算能量泛函的最優值可有效提取卡通圖像的前景.但紋理惡化了圖像像素的相似性,使得對自然圖像前景提取效果較差.圖像前景形狀的幾何屬性(周長和面積)是有限的,即任意前景具有封閉的輪廓曲線.研究者從前景幾何屬性出發,結合初始曲線運用演化理論提出了基于活動輪廓的前景提取模型,該模型在曲線內、外力共同作用下,驅使初始曲線演化并停留在前景輪廓處.曲線內力是指曲線的自身屬性——曲率;外力常表示為圖像特征:邊緣[3]或前、背景亮度/顏色分布均值差異[13].由于邊緣刻畫了圖像鄰域像素的變化,所以該特征敏感于鄰域大小(分析尺度),為了去除邊緣尺度對前景提取的負面影響,將圖像多尺度分解和活動輪廓相結合構建了圖像多尺度前景提取框架[14],該框架利用從細到粗尺度邊緣特征約束曲線演化,從適當尺度中提取圖像前景.圖像區域顏色的非一致性分布縮小了前、背景亮度/顏色分布均值差異,使得前景提取質量下降.為了去除顏色非一致性分布對均值的影響,運用前、背景區域顏色的分段逼近函數代替均值[15],在一定程度上提高了前景提取效果,但計算成本較高.為了改善計算效率,圖像前、背景像素顏色被看作一個或者多個總體的隨機樣本,運用統計理論設計了前、背景顏色分布模型,如直方圖[16]和高斯混合模型[4],聯合圖像邊緣建立了前景提取圖模型,將前景提取轉化為圖割問題.該模型綜合考慮了圖像邊緣和區域顏色分布對前景提取的貢獻,提高了前景提取質量.
前景提取是在圖像整體認知基礎上將感興趣對象分離出來.“人為特征”僅僅描述了圖像局部像素的變化或者統計特性,忽略了整體視覺效應.本文分析了圖像亮度的視覺感知效應,結合水平集方法提出了一種基于亮度感知的前景提取模型.該模型由圖像視覺感知和水平集方法兩部分組成,其中圖像視覺感知是從像素對的亮度視覺相關性出發,建立了圖像像素集合的二元關系矩陣,聯合區域內像素亮度的視覺相似性和區域間的差異性,設計圖像亮度感知能量泛函,并運用瑞利熵求解能量泛函最優值.其解向量表示了亮度視覺的特征向量,主要描述了圖像視覺區域及其對象輪廓信息.水平集方法部分主要是結合曲線曲率和圖像亮度視覺的特征向量共同驅使初始曲線演化至前景輪廓.該模型將圖像視覺特征和水平集方法結合建立了基于亮度視覺效應的前景提取框架,有利于從圖像的整體認知基礎上提取前景.相對于傳統算法,由于該算法利用了圖像整體視覺效應彌補了“人工特征”局部性的不足,提高了圖像前景提取質量.
人們觀察一幅圖像時,首先分析空間近鄰像素的亮度/顏色相似性;其次結合區域內像素相關性和區域間像素的差異性,形成圖像視覺區域;最后根據前景的區域組成,從圖像視覺區域中提取前景.本文模擬了人類視覺的前景提取過程,對N個像素的圖像u,聯合亮度視覺感知和水平集方法,設計了基于亮度感知的前景提取能量泛函,最小化泛函可得前景蒙板.該模型可表示為

(1)
該能量泛函由兩項構成,第一項C(R(u),v)表示圖像亮度視覺區域能量泛函,其中R(u)表示圖像空間近鄰像素的亮度相似性,向量v描述了圖像視覺區域;第二項S(v,φ)表征運用水平集方法從視覺區域提取前景蒙板,其中φ為水平集函數,φ≥0表示背景,反之為前景.
人們觀察一幅圖像時,根據像素的視覺相似性,結合區域像素的內聚性和區域間像素差異性,形成視覺區域.人眼對圖像像素的相似性分析依賴于像素間的空間近鄰性和亮度差異,如兩像素距離較大,則視覺上它們的視覺相似性較低;反之較大.同理,若鄰域像素的亮度差異較小,則視覺相似性較高.像素i,j的亮度相似性ωi,j可表示為
(2)
式中,F和X分別表示像素的亮度值和空間位置;σF和σX表示人眼視覺的亮度敏感性和感受野大小.
圖像上任意像素對的視覺相似性可表示為二元關系矩陣如下.
(3)
假設圖像u的論域Ω由A、B兩個視覺區域構成,圖像像素所屬的區域記為向量v,其中vi<0表示像素i位于A區域;vi>0則表示位于B區域.根據圖像像素集合的二元關系,結合視覺區域內像素的內聚性和區域間的差異性,圖像視覺區域可表示為下列能量泛函的最小值.
(4)

為計算圖像視覺區域能量泛函,設di=∑jωi,j,D=diag{di},則式(4)可進一步表示為
(5)
運用瑞利熵求解得
(D-R)v=λDv
(6)

(7)

(8)
視覺區域向量主要描述了圖像視覺區域及其前景輪廓信息,結合初始曲線利用曲線內部能量Eint(φ)和視覺區域能量Eext(v,φ)的共同驅動下,使得曲線逐步逼近前景輪廓.視覺區域的前景提取可表示為下列能量泛函的最小值.
S(v,φ)=μEint(φ)+Eext(v,φ)
(9)
曲線內部能量函數Eint(φ)表示為
(10)
圖像前景形狀的周長和面積是有限的,其外部能量函數Eext(v,φ)常常表示封閉曲線的周長L(φ)和區域面積A(φ),其測度可分別表示為
(11)

Eext(v,φ)=βL(φ)+γA(φ)=
(12)
式中,β和γ分別為曲線長度和區域面積測度的權重.
結合曲線內部能量函數和外部能量函數,視覺區域的前景提取能量泛函為
(13)
利用變分法求解上式能量泛函的極小化問題,可得
(14)
引入一個人工時間變量Δt,根據梯度下降法進行迭代計算,φ可通過以下方式更新

(15)
m為迭代次數.
圖像視覺感知敏感于區域內像素亮度的視覺相似性和區域間的差異性.因此,從像素對的亮度視覺相關性出發,結合區域內以及區域間像素亮度的視覺相似性,求解能量泛函的最優解.該解向量除表示了亮度視覺的特征向量外,還描述了圖像視覺區域及其對象輪廓信息.利用水平集方法,結合曲線曲率和圖像亮度視覺的特征向量共同驅使初始曲線演化至前景輪廓,提取前景蒙版,以便獲取前景.其算法流程如圖1所示.

圖1 算法流程Fig.1 Algorithm flow
為衡量算法分割結果和人工分割之間的區域對應程度[18],實驗中常采用交并比(IOU)[19]和F測度[20]進行測評.IOU具體定義為
(16)
式中,FS表示實際提取結果;FG表示人工分割結果.
F測度定義為

(17)
P為準確率;R為召回率,具體定義如下
(18)
由式(1)可見,圖像整體視覺效應影響著前景提取效果,其選取受視覺區域v的影響,而視覺區域v又同時受亮度敏感性σF和感受野大小σX的影響.以下分別討論單一變量對前景提取效果的影響,其測評分數見表1,部分前景提取結果如圖2所示.實驗結果表明,感受野大小σX決定圖像的平滑程度,亮度敏感性σF則影響前景輪廓的亮度感知程度.隨著感受野大小σX的增大,圖像的平滑程度加劇,特征變模糊,而隨著亮度敏感性σF的增大,亮度感知程度下降,前景輪廓變不明顯.但是,若感受野大小σX以及亮度敏感性σF過小,則前景提取結果容易受到前背景中紋理信息的影響,不利于曲線演化提取前景.根據實驗結果分析,在盡可能保留圖像中的細節以及利于曲線演化的前提下,本文選取σX=0.6和σF=0.5作為參數進行實驗.

表1 不同參數的前景提取測評分數Tab.1 Assessment scores of foreground extraction with different parameters

圖2 感受野大小和亮度敏感性對前景提取的影響Fig.2 The influence of receptive field σX and brightness sensitivity σF on foreground extraction
為驗證本文算法的有效性,將本文算法分別與水平集方法[21]、多尺度分割模型[14]、deep Grabcut[6]以及First Click Attention Network (FCA-Net)[22-23]方法相比較.傳統水平集方法主要是根據圖像中前、背景邊緣像素的梯度跳變,利用給定初始封閉曲線演變實現前景提取;多尺度分割模型則依據不同尺度的特征變量提取前景;而deep Grabcut方法和FCA-Net方法均是采用卷積神經網絡作為分割框架,通過對網絡模型的訓練獲取圖像高層次特征參數,實現前景提取.不同的是,FCA-Net方法采取多次人工交互的方式對分割后結果進一步改善.針對不同自然場景圖像,以上5種方法的前景提取結果如圖3所示.根據算法提取結果,將其與人工分割結果相比對,其測評分數見表2.

表2 不同算法對自然場景圖像的前景提取測評分數
由實驗結果分析,對于自然場景圖像如圖3(a)和(b),近似于卡通圖像,前、背景具有明顯差異,且所含紋理較少,其局部特征可近似于全局效應.但圖3(a)中前景存在較多拐點,圖3(b)前景與背景之間存在顏色相似性.相對于水平集方法和多尺度分割模型,本文算法利用全局亮度信息作為特征,受顏色相似性影響較小,能夠有效分割出眾多拐點,使得邊緣細節保留較為完整,提取前景目標較為準確.但與deep Grabcut方法等深度學習方法相比較,本文算法對分割結果沒有明顯的提升.對于自然場景圖像如圖3(c)和(d),前景邊緣輪廓較復雜,且前景存在較多紋理,但背景所含紋理較少.由于本文算法建立在全局像素間的相關性上而非局部,充分考慮到整體視覺效應以及亮度相似性對前景提取的影響,在一定程度上有效地降低了紋理以及弱邊緣對前景提取的影響,其收斂效果較好.水平集方法和多尺度分割模型受紋理影響容易收斂于局部區域,導致分割效果相對較差,deep Grabcut方法則受訓練樣本的約束,對未經訓練過的圖像前景提取效果較差甚至失效.FCA-Net方法采取人工交互的分割方式,在一定程度上減少了訓練樣本對分割結果的影響.但其分割效果取決于所選擇像素點的位置,在分割過程中容易丟失部分細節信息.

圖3 不同算法對自然場景圖像的前景提取結果
對于存在較多紋理和弱邊緣的復雜自然場景圖像如圖3(e)和(f),前背景均存在較多紋理,且像素分布差異不平衡,目標整體性在提取時容易受到破壞.相對于水平集方法、多尺度分割模型以及deep Grabcut方法,本文算法仍能獲得較好的分割結果,對圖像過分割以及欠分割有一定程度的改善效果,較好的保留圖像邊緣信息,其提取結果的測評分數明顯更高.但由于本文算法僅利用全局亮度信息作為特征,選取的圖像特征較為單一,對于如圖3(f)背景中具有強邊緣的自然場景圖像提取效果不佳.因此,相對于FCA-Net方法,文本算法仍有一定的提升空間.
本文提出了基于亮度感知的前景提取模型,該模型從全局像素相關性出發,一方面結合圖像區域內像素亮度的視覺相似性和區域間的差異性,設計亮度感知能量泛函,求解表征亮度視覺的特征向量,該向量主要描述了圖像視覺區域及其對象輪廓信息.另一方面,利用水平集方法能夠較好的提取出目標前景蒙版,進一步提高了提取性能.該模型能較好的分割出目標對象,且對細節的表達能力較強,分割準確度較高.但該模型僅選取亮度信息構建視覺區域,未考慮圖像其它特征,其分割效果仍有一定的提升空間.因此,本文下一步工作是結合圖像顏色、紋理等信息構建感知模型,進一步提高前景提取效果.