信息熵約束下的視頻目標分割

2018-11-23 00:57:04丁飛飛楊文元

計算機應用 2018年10期

丁飛飛,楊文元

(1.福建省粒計算及其應用重點實驗室(閩南師范大學),福建漳州 363000;2.數據科學與智能應用福建省高等學校重點實驗室,福建漳州 363000)(*通信作者電子郵箱yangwy@mnnu.edu.cn)

0 引言

視頻目標分割是把前景物體從視頻背景中分離出來[1],是計算機視覺研究中的一個重要內容,在視頻檢索編輯、目標跟蹤、安防監控、智能交通等領域有著廣泛的運用[2]。另一方面,視頻目標分割也是其他計算機視覺如目標識別、跟蹤、分類以及更高層次的語義分割理解等研究內容的基礎。因此,對視頻目標有效且高精度分割的研究就顯得尤為重要。

由于應用的場景以及選取的分割目標不同,對視頻目標分割并不存在標準化的評價方法[3]。根據分割任務,有基于運動信息的關鍵點軌跡跟蹤[4]和基于聚類的無監督方法[1],也有基于光流對幀間標注信息傳播的半監督方法[5],以及基于交互式分割的監督方法[6-7]。無監督的方法由用戶自動輸入視頻,無需手工標記以及任何先驗性信息就可自動處理大量的視頻,并且它和應用更相關。半監督的方法則需要用戶在某些幀間標注[8],然后向后續的幀傳播這些標注信息,相對來說有更高的分割精度。而監督的方法更適合于特定的場景,且能夠取得最高的分割精度,但計算的時間代價往往比較高。此外,這些視頻分割方法多基于分析運動和外觀信息并且假設運動的一致性。

然而,在處理視頻目標分割過程中,由于不知道有關物體表觀、尺度、位置等任何信息,再加上大多數視頻目標多為無規則運動,目標外觀隨時發生變化,實際的應用環境也多為復雜的場景,這使得視頻分割任務充滿挑戰[9]。目前有不少學者都在研究目標跟蹤分割過程中的遮擋和形變等問題,他們通過構建圖模型,并融合顏色信息、位置信息、時空圖信息,從而實現對目標的有效跟蹤分割，在處理目標形變、遮擋、快速運動和背景干擾等問題時具有較高的穩定性和魯棒性。

在上述背景下,為了能夠有效且更高精度地分割視頻運動目標,本文提出一種信息熵約束下的視頻分割方法。由于基于圖論的視頻分割方法遵循預定的目標模型并且可以把目標分割任務看成是像素標記的優化問題[10],而信息熵又能夠度量樣本純度，因此：本文方法首先通過光流來模糊估計運動邊界并根據文獻[11]方法得到第一階段的分割結果;然后綜合分析外觀信息建立外觀高斯模型,在模型中引入信息熵約束,使得模型能夠對復雜場景更加魯棒;其次,信息熵最小化與整個能量函數模型最小化具有一致的目標,能夠使前景和背景估計更加精確;最后通過最小化能量模型來獲得相鄰頂點精確的標簽分配,從而得到有效以及更加精確的目標分割效果。

1 相關工作

基于圖論的分割算法在圖像分割領域得到了廣泛的應用,它是一種基于能量最小化求解最優分割結果的交互式算法,其結果通常為全局最優解[10]。近年來,有許多學者把圖論的分割算法運用到視頻運動目標的分割,這些基于圖論的視頻分割方法都遵循相似的目標模型。

2001年，文獻[12]中首先提出了能量優化算法Graph cut,算法中定義包含區域項和邊界項的能量函數,通過最小化能量函數來實現前景背景分割;為了利用顏色信息和邊界信息,2004年文獻[13]中在Graph cut算法基礎上提出Grab cut算法,通過少量的用戶交互,不斷地進行分割估計和模型參數學習,最終實現了較好的分割;2011年文獻[4]中對顏色信息和邊界信息進行精細化分析,通過結合運動信息和靜態圖像特征信息找出所有幀可能的目標區域,然后對這些可能區域評分排序,從而產生一系列關鍵視頻段,同時在這些關鍵視頻段中構建顏色外觀和先驗位置模型,最終通過能量函數最小化實現全自動的分割;2012年文獻[8]中把超像素引入到視頻目標分割,提出概率運動擴散傳播標注信息的方法,通過對超像素增加標簽一致性約束,在能量函數上增加由時間平滑項和空間平滑項兩部分組成的互勢函數,然后最小化能量函數來得到較高的分割精度;為更加魯棒地處理快速運動、遮擋變形等視頻分割挑戰,2013年文獻[11]中通過積分交叉算法得到視頻目標內部像素點,同時在目標內部像素點構成的內外圖中學習顏色外觀和先驗位置模型參數,最終實現全自動地視頻目標分割;2017年，文獻[9]在文獻[11]的基礎上,利用元胞自動機的思想對超像素水平的先驗前景圖細化,然后在細化的先驗前景圖上學習顏色外觀和先驗位置模型參數,最終最小化能量函數得到更高的分割精度。本文在上述文獻的基礎上,從信息熵的角度對先驗前景圖細化,并同文獻[8]一樣把超像素引入到視頻目標分割,然后綜合分析時空信息、位置信息和細化的外觀信息,通過Grab cut迭代分割得到更加精確的分割結果。

2 信息熵約束下的視頻分割方法

本文方法和大多數無監督方法一樣,并不需要假設運動的一致性,只要前景物體與周圍存在顯著的運動差異,就可以通過計算光流來模糊估計運動物體的邊界。本文方法包括兩個階段:1)計算光流得到前景目標的模糊運動邊界;2)在目標模型中引入信息熵約束項來獲得更加精確的前景背景像素標記。在第一個階段,本文方法基于經典光流法[15]和文獻[11]算法得到運動目標的內部像素點,從而得到前景運動目標的運動邊界。在這個階段,由于目標物體快速移動以及受遮擋等因素的影響,使得光流估計并不準確,無法得到精確的分割結果。第二個階段,基于簡單線性疊加聚類(Simple Linear Iterative Clustering, SLIC)算法[16]獲得均勻的運動和表現后以超像素作為基本分割單元,然后基于圖論分割的模型,構建類似文獻[21]和文獻[22]的能量函數。在構建外觀高斯模型過程中引入信息熵約束,使得模型能夠對復雜場景更加魯棒;其次最小化信息熵與整個能量模型最小化具有一致的目標,通過最小化信息熵能夠更加精確地評估像素點標記是背景還是前景。

2.1 計算光流確定運動邊界

(1)

(2)

(3)

式(3)表明像素p(i,j)與周圍存在不同運動方向和速度,若變化差異大,那它很可能是運動邊界。圖1(a)～(c)顯示了第一階段通過計算光流得到運動邊界的過程。

2.2 基于超像素點定義時空圖

通常情況下,由文獻[15]計算光流得到的運動邊界并不完全覆蓋整個物體,為此,需要利用文獻[11]算法,結合點在多邊形內部原理得到運動目標內部精確的像素點。具體做法為:針對給定的視頻幀,首先讓目標區域內的每個像素點每間隔45°向8個方向引出射線,計算每條射線與運動邊界的交點數目,若交點數目為奇數,則判斷該點在運動邊界內部,否則判斷該點在運動邊界外部;然后統計每個像素點引出的射線與運動邊界交點偶數和奇數的數目,通過投票來決定該像素點是否是運動目標內部的像素點,若像素點引出的射線奇數交點數目多于偶數交點數目,那就認為該像素點為內部像素點;最后對所有視頻幀都運用上述算法,得到內部像素點圖如圖1(d)所示。

在定義能量函數過程中,先把視頻序列看成是超像素水平的時空圖(G),圖的頂點s對應超像素點,圖的邊對應超像素的鄰接關系,其包含時間上和空間上的鄰接關系,兩頂點之間邊的權重對應超像素點分割時的代價,ωij定義[9]為:

(4)

其中:δ2設置為0.1；fi和fj分別對應CIB LAB顏色空間上相鄰超像素點的平均值。

圖1 兩個階段的分割過程Fig. 1 Two stages of segmentation process

2.3 引入信息熵約束實現目標精確分割

根據第一階段得到的分割結果和前面定義的時空圖,利用超像素作為基本分割單元。為評估每一個超像素標記的準確性,定義如下能量函數:

E(L)=ΓA+l1ΓP+l2ΓS+l3ΓT+l4ΓD

(5)

其中:ΓA為外觀模型項，是對超像素屬于前景或背景的一種概率估計;第二項ΓP是為精確標記前景目標位置而建立的位置模型項;ΓS和ΓT分別是在時空圖邊集上定義的空間平滑項和時間平滑項，讓分割在時空上變得更加平滑;ΓD是本文方法為獲得更加精細的外觀模型而定義的信息熵約束項;l1～l4分別為各項的權重系數,設置l1=1.5,l2=2 000,l3=1 000。

(6)

其中:λ1設置為0.000 1；第一個參數項exp()表示超像素在時間上的權重；第二個參數項表示超像素點通過內部像素點計算出的屬于前景的比例。估計完前景和背景模型后,外觀模型項ΓA為超像素取相應標記時的負對數,可表示為:

(7)

外觀模型融合了整個視頻序列的信息,因此它能夠比單單使用光流得到更精確的分割。然而當前景和背景顏色相似時,對超像素標記的準確性就會下降,則運動目標分割容易受到干擾,而內部像素點能夠近似表明前景目標的位置。式(5)中ΓP項就是通過累加所有內部像素點而建立的位置模型項,得到的位置模型如圖1(g)所示。根據運動信息,算法通過幀間內部像素點的傳播來得到更精確的位置先驗,定義位置更新公式[9]為:

(8)

(9)

(10)

式(5)中：ΓS和ΓT分別為空間平滑項和時間平滑項,ΓS是定義在同一幀中空間上相鄰超像素的邊對應的權重,ΓT是定義在相鄰兩幀中通過光流連接的相鄰超像素的邊對應的權重,根據文獻[11]定義ΓS和ΓT:

(11)

(12)

式(5)中最后一項ΓD為分析外觀信息建立外觀高斯模型時引入的信息熵約束項,得到的更精細外觀模型如圖1(f)所示。熵是度量樣本集合純度最常用的一種指標,信息熵越小,樣本純度越高；信息熵越大,對樣本判斷的不確定性就會變大[14]。根據熵的定義,類似地定義ΓD:

(13)

時空圖上定義的能量函數融合了位置信息、時空圖信息以及更精細的外觀信息,通過對各模型項求解可確定時空圖上各邊初始分割時的代價,然后利用GrabCut算法[13]進行迭代估計得到所有超像素點精確的標記,從而完成對視頻目標精確分割,分割結果如圖1(h)所示。

3 實驗與分析

為了驗證本文方法在復雜環境場景下能夠有效地分割運動目標并且具有較高的魯棒性,在DAVIS數據集上(480p)[3]做了定性定量分析實驗。DAVIS數據集[3]包含了50個高分辨率的視頻序列以及手工標注的標準分割,涵蓋了一系列復雜環境場景和視頻分割挑戰。實驗時選取4個具有代表性的視頻序列(480p)：Video1(blackswan)背景中的水時刻發生變化；Video2(hike)前景背景顏色相似,光照條件也發生變化；Video3(bmx-bumps)視頻目標快速運動；Video4(breakdance-flare)前景目標動作特征復雜,外觀發生變化。實驗結果如圖2所示。實驗環境為:Intel i7-3770 @ 3.40 GHz,8 GB內存,Windows 7環境下使用Matlab 2014a實現。

為了定量評價本文方法的分割結果與DAVIS數據集[3]提供的標準之間的相似性,采用歸一化相關系數(Normalized Cross-correlation, NC)來度量分割效果。根據文獻[20],度量公式定義為:

(14)

其中：G為數據集提供的標準,G′為本文算法的分割結果,它們的大小均為P×Q。NC取值為0～1,其值越接近1,表示G與G′之間越相似,其評價結果如表1所示。

表1 在DAVIS數據集上的定量分析結果Tab. 1 Quantitative evaluation video segmentation results on DAVIS dataset

從圖2可以看出,本文法在一些復雜場景下能夠取得比較高的分割精度,表1中的數據也顯示了本文方法與標準之間的相似度比較高。如在目標發生快速運動(Video3)以及外觀產生變化(Video4)時都能對目標進行有效的分割，這與表1中Video3和Video4的數據也吻合；而在其他視頻序列，如在Video1背景(水)發生快速變換和Video2光照條件發生變化時，本文方法能得到更加精確的分割結果。圖示四個視頻序列多幀的分割結果也表明本文方法具有比較高的穩定性和魯棒性。

文獻[4]和文獻[23]都定義了能量函數模型,然而文獻[4]的能量函數模型中并未考慮時空圖信息,文獻[23]在能量函數中增加了先驗顯著性檢測,在一些數據集中能夠取得比較好的效果,但并未對外觀模型信息作精細化分析。為了進一步驗證算法的分割精度和魯棒性,本文結合文獻[4]和文獻[23]給出的實驗結果,在標準數據集SegTrack[17]上做了定性定量對比實驗。SegTrack[17]標準數據集包含6個不同的視頻序列并涵蓋了多種不同的場景,能夠較為全面地衡量算法在不同場景下的分割能力。和大多無監督方法一樣,實驗中選取前5個視頻序列,實驗結果如圖3所示。從圖3可以明顯看出:本文方法在一些幀中能夠取得比較高的分割精度,如在快速運動的目標(Cheetah)中;文獻[4]有不同程度丟失目標的情況,而文獻[23]在前景目標(Monkey)動作特征復雜的情況下,分割效果不佳。在其他視頻序列,如Girl,雖然本文方法在腳的一部分有丟失,但在其他身體部位的分割卻非常精確。

為了更加客觀地評價本文方法的有效性,根據文獻[3]所述的兩類主要視頻分割評測標準:區域相似度和輪廓精確度,進行了定量分析實驗。直觀上區域相似度度量標注錯誤像素的數量,而輪廓精確度度量分割邊界的準確率。由于SegTrack數據集[17]內的視頻序列分辨率較低,因此選取每個視頻序列的平均每幀錯誤分割的像素點個數來量化[18]評測本文方法。實驗對比結果如表2所示,計算公式[19]如下:

error=XOR(F,GT)/N

(15)

其中：F為算法分割的結果；GT為數據集中提供的標準分割結果；N為視頻序列幀的數量。

計算方式如下:根據文獻[4,23]給出的分割結果以及SegTrack數據集[17]給出的標準,利用式(15)進行求解。由于文獻[23]給出的結果是灰度圖像,因此先對圖像作二值化預處理,這和文獻[23]給出的實驗結果略有不同。

從表2可以看出,本文方法在處理快速運動的目標(Cheetah)和前景目標(Monkey)動作特征復雜的場景下都有不錯的表現,這和圖3定性分析的結果吻合。在其他視頻序列,如Girl,本文方法雖然錯誤分割的像素點個數相對比較多,但從圖3也能看出,除了腳的一部分發生丟失,在其他部位的分割效果都比較好。針對Girl視頻序列錯誤分割的像素點個數相對比較多的情況,其產生原因可能是由于目標外觀發生變化,劃分超像素時產生過分割。

圖2 本文方法在DAVIS數據集視頻序列的分割結果Fig. 2 Segmentation results obtained by the proposed method to video sequences from dataset DAVIS

圖3 本文方法與其他方法在SegTrack數據集上的定性比較結果Fig. 3 Qualitative comparison of the proposed method with other methods on dataset SegTrack

表2 在SegTrack數據集[17]上定量比較結果Tab. 2 Quantitative results and comparison with other methods on dataset SegTrack[17]

4 結語

本文提出信息熵約束下的圖論視頻分割方法,綜合分析了運動信息、外觀信息、位置信息、時空圖信息。首先把目標分割任務看成是像素標記的優化問題,在分析外觀信息時引入信息熵約束項,從而增強目標模型對背景噪聲和復雜環境的魯棒性;然后通過最小化能量模型來獲得更精確的分割效果。實驗結果也測試了本文方法的有效性和魯棒性,然而在目標外觀發生變化或遮擋的情況下,相對于對比算法,本文方法分割精度并不是很高。后續工作將著重分析該視頻場景以及進一步考慮在劃分超像素時如何避免過分割的問題。