李雪君,張開華,宋慧慧
(江蘇省大數據分析技術重點實驗室(南京信息工程大學), 南京 210044)
融合時空多特征表示的無監督視頻分割算法
李雪君,張開華*,宋慧慧
(江蘇省大數據分析技術重點實驗室(南京信息工程大學), 南京 210044)
針對視頻分割的難點在于分割目標的無規則運動、快速變換的背景、目標外觀的任意變化與形變等, 提出了一種基于時空多特征表示的無監督視頻分割算法,通過融合像素級、超像素級以及顯著性三類特征設計由細粒度到粗粒度的穩健特征表示。首先,采用超像素分割對視頻序列進行處理以提高運算效率,并設計圖割算法進行快速求解;其次,利用光流法對相鄰幀信息進行匹配,并通過K-D樹算法實現最近鄰搜索以引入各超像素的非局部時空顏色特征,從而增強分割的魯棒性;然后,對采用超像素計算得到的分割結果,設計混合高斯模型進行完善;最后,引入圖像的顯著性特征,協同超像素分割與混合高斯模型的分割結果,設計投票獲得更加準確的視頻分割結果。實驗結果表明,所提算法是一種穩健且有效的分割算法,其結果優于當前大部分無監督視頻分割算法及部分半監督視頻分割算法。
超像素分割;K-D樹;混合高斯模型;圖割算法;光流法
視頻分割也稱運動分割,是指按一定的度量標準把圖像序列分割成多個時空一致的區域,從而從視頻序列中分離出有意義的目標。圖像與視頻的分割作為圖像處理中非常重要的低層處理技術是圖像分析的基礎,為高層應用提供重要的數據形式,例如:車輛識別、牌照識別、醫學影像分析、人臉識別、目標檢測跟蹤和識別等。在所有這些應用中,分割通常是為了進一步對圖像視頻進行分析識別,其準確性直接影響后續任務的有效性。由于視頻數據量大且存在較多的冗余信息, 同時視頻內容復雜多變且有噪聲及光照的變化等因素的干擾,容易造成目標分割的失敗,導致目前存在的目標分割算法的準確率普遍不高, 因此,研究并實現一種準確的目標分割算法具有十分重要的意義。
視頻分割不同于圖像分割的最主要之處在于運動信息的引入。根據是否需要人工參與指導,視頻分割可以分為無監督視頻分割[1-2]和半監督視頻分割[3-5]。根據所利用信息的不同,可以分為基于時間信息的視頻分割[6-8]、基于空間信息的視頻分割[9]以及聯合時空信息的視頻分割[10-11]等。本文提出一種基于融合多特征表觀模型的無監督視頻分割算法,分割過程中無需用戶提供圖像的先驗信息,僅利用視頻序列的顏色、位置等低層物理特性以及運動特征進行信息處理,自動地將目標與背景分割開來。分割過程中設計多層次圖模型,利用超像素分割降低計算復雜度,并進一步設計高斯混合模型并融合顯著性特征對分割結果進行細化。從實驗結果來看,這種分割算法有良好的穩健性,其分割準確度高于大部分有代表性的視頻目標分割算法。
本文所提算法的具體實現流程如圖1所示。在具體算法實施之前,首先需要對輸入的視頻序列作預處理以降低計算復雜度,并初始化圖模型的輸入信息。

圖1 算法流程Fig. 1 Flow chart of the proposed method
光流法[12]通常被用于視頻分割,它與運動檢測以及運動估計緊密相關,利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關性來尋找上一幀跟當前幀之間存在的對應關系,從而計算出相鄰幀之間物體的運動信息。由于目標位置、大小及運動方向的不確定性,光流法很難得到一個準確的目標位置;特別是對于快速運動的目標,光流法所得到的計算結果往往會有著較大的偏差。然而對于無監督視頻分割,由于用戶沒有提供任何有效的先驗信息,為了取得充分的初始化輸入信息,利用光流法來判斷運動目標的大致位置依然是當前最有效的方法之一。因此本文采取光流結合內外映射圖[2]的方法獲取分割目標的初始化位置。
為了降低運算復雜度,對于輸入的視頻序列,對所有幀首先利用Turbopixel算法[13]進行超像素分割。超像素是指由圖像中具有相似的顏色、紋理、亮度等屬性的相鄰像素點構成的集合。超像素分割是計算機視覺領域常用的預處理手段,即利用像素之間的相似性對圖像的各像素點進行聚類,可以有效降低圖像數據的維度,進而降低圖像處理的復雜度。
綜合光流得出的大致運動目標范圍和超像素分割結果,對分割得到的每個超像素進行初始化賦值:對于判定為前景范圍的超像素,將其標記值賦為1,同樣,對于判定為背景范圍的超像素,其標記值賦為0,于是,可以得到初始化的前景與背景超像素的輸入信息作為圖模型的初始化輸入。雖然利用光流法估計的超像素前后景標記可能存在較大的誤差,但是可以保證運動目標基本涵蓋于所判定的前景范圍之中。在接下來的算法中,各超像素的特征值信息提取將作進一步優化。
對輸入的視頻序列,本文提出的分割算法主要分為3個部分:超像素等級的視頻分割、像素等級的視頻分割和利用顯著性特征對分割結果進行完善。
超像素分割部分著重研究了聯合時空信息的特征值的選取。首先利用光流判斷出運動目標的大致位置,初始化每個超像素的前后景標記,對于每個超像素,分別選取其顏色特征和位置特征,構成描述該超像素的特征向量。顏色特征的選取上,采用了RGB(Red, Green, Blue)和HSV(Hue, Saturation, Value)兩種顏色特征量,并對其進行非局部特征值重構,利用K-D樹搜索獲取目標超像素所在幀之前多幀內的多個最近鄰超像素,并按比例重構目標超像素的特征向量值,以此提高特征量的魯棒性。利用重構后的特征值表示各超像素,并以此建立圖模型,利用圖割算法[14]獲得超像素等級的分割結果。
像素等級的分割部分主要運用已有的超像素分割結果作為輸入,訓練混合高斯模型的各個參數,并利用訓練完成的混合高斯模型重新對輸入視頻圖像進行分割,得到新的像素等級的目標分割結果,利用像素點分割較為細致的特點彌補超像素分割邊界粗糙的不足。
顯著性特征的引入使得超像素分割的結果和像素點分割的結果聯合使用提供了可能。利用顯著性特征映射圖得到一個魯棒的分割結果,再通過投票的方式選取最終的分割結果,三選二的方案有效去除了像素點分割所產生的噪點,且運算效率極高。
近年來,不少學者對視頻分割算法作出了一些全局性的優化改進,不少方案也考慮了非局部圖像信息,即將非鄰接區域的超像素特征納入考慮范圍,但大部分方案僅僅考慮了空間上的全局信息,而沒有將時間的全局性信息也作為優化條件[15]。本算法所提出的超像素特征值選取方案同時考慮了時間、空間的全局性信息,利用長期的信息傳遞對所提取的特征值進行處理,以提高分割的魯棒性。
對輸入視頻序列中的第t幀,選取該幀之前的F幀(t≤5時,F=t-1;t>5時,F=5)及當前幀內的所有超像素構成數據集S,每個超像素表示為一個8維特征向量,分別為顏色特征量R、G、B、H、S、V和位置特征量x、y。對于該幀中的第n個超像素,利用K-D樹算法[16],在數據集S內進行最近鄰搜索,尋找出與該超像素最近似的F個超像素,并利用搜尋得到的最近鄰超像素對遠距離范圍的超像素特征進行優化,以增強原來超像素特征的魯棒性。

(1)
權重ωi與搜索得到的最近鄰超像素與目標超像素的顏色特征值的相似度相關,定義為:
(2)
其中Δd表示兩顏色特征向量之間的歐幾里得距離。
聯合時空超像素特征選取的過程中,每一幀中的每個超像素都將作為目標超像素在該幀之前的F幀內作K-D樹搜索,即計算該超像素特征值與之前F幀內所有超像素的歐氏距離,并找出其中距離最近的F個最近鄰超像素,其算法復雜度為O(n2)。
圖割算法近年來在圖像分割領域得到了廣泛的應用,它是一種基于能量最小化求解最優分割結果的交互式算法,其結果通常為全局最優解。因此在得到各超像素點的優化顏色特征向量之后,本文選擇對視頻序列建立一個圖模型,并利用圖割算法進行求解。
圖割算法的能量函數由一元勢函數和互勢函數兩部分組成:
(3)

互勢函數V由時間平滑項和空間平滑項構成,其中時間平滑項定義為:

(4)

空間平滑項定義為:

(5)

互勢函數中,用于表示各超像素顏色特征值的特征向量均為聯合時空信息更新后的顏色特征值,位置特征則用各超像素的中心點坐標表示。由于代表示各超像素的顏色特征值較一般情況來說維度更高(六維),且利用了多幀的信息進行重構,因而以其代表各超像素進行計算有效提升了算法的魯棒性,降低了噪點對分割的影響。
在第2章中,本文利用超像素對輸入視頻序列進行了建模,并利用圖割算法求得了目標分割的結果。超像素有效降低了運算復雜度,但同時也注意到,僅僅利用超像素進行視頻目標分割仍然存在一些問題,特別是在分割目標的邊緣部分,超像素塊使目標邊界的選取產生了較大的誤差。
為了進一步提升分割的準確度,考慮引入混合高斯模型對分割結果進行像素級別的優化。本算法將第3章中所得的超像素級的分割結果作為先驗條件輸入模型,并對輸入圖像的顏色和位置特征分別建立混合高斯模型。對于輸入圖像的顏色特征,利用每個像素點的RGB顏色值構建特征向量,并使用10個分量的高斯混合模型對整體圖片進行建模。而對于位置特征,則利用每個像素點的坐標位置以及已有的先驗輸入信息分別對前景和背景部分進行建模,其中前景部分選取一個高斯分量,背景部分選取4個高斯分量。最后利用期望最大化算法對模型進行求解,得到每個像素點分別屬于前景和背景的概率值。選取其中屬于前景概率遠大于背景的像素點,即可得到一個新的像素點級別的分割結果。
利用混合高斯模型求得的分割結果如圖2(b)所示。不難發現,利用混合高斯模型對目標進行分割,可以有效改善目標邊緣的分割性能。但是由于混合高斯模型完全基于像素點進行運算,分割結果也不可避免地產生了較多的噪點,因此還需進一步對其進行完善。

圖2 對SegTrack中girl第20幀利用投票方式 獲得的最終分割結果的過程Fig. 2 Process of obtaining final segmentation results by voting for the 20th frame of video girl in SegTrack set
顯著區域是圖像中最能引起用戶興趣,并且最能表現圖像內容的區域。圖像顯著性特征提取是一種模仿人類的視覺觀察過程來提取人眼感興趣區域的技術,即通過圖像的某些底層特征近似地判斷圖像中顯著區域的過程。此處本文選用文獻[17]的顯著性檢測算法,得出每幀圖片的顯著性計算結果,如圖2(c)所示。
在之前的算法中,已經分別得到了基于超像素的分割結果、基于混合高斯模型的分割結果和基于顯著性特征的分割結果,即對于每個像素點,都已有了前景/背景的判別結果。最后,本算法將三者結合,并利用投票的方式融合得到最終的分割結果,其中,混合高斯模型的分割結果可以完善超像素分割結果的邊緣,而利用顯著性特征的分割結果又能夠消除混合高斯模型產生的噪點,從而達到了優勢互補的目的。
為了驗證本文提出的視頻分割算法分割的有效性,在SegTrack測試集上對該算法作出評測。SegTrack測試集是一個常用的用于視頻目標分割評測的數據集。該數據集由6個極具挑戰性的視頻序列(birdfall、cheetah、girl、monkey、parachute、penguin)組成,因penguin針對多目標,本文算法無法使用; 每個視頻序列包含21~71幀不等的圖片,涵蓋了模糊、遮擋、無規則形變、快速運動的目標與復雜背景等多種易對分割結果產生不利影響的情形; 與此同時,該數據集也為其中的每一幀圖片提供了準確的人工標注的分割目標結果,便于與算法分割結果比較。
圖3分別展示了本文所提算法在測試集序列girl、cheetah、monkey和parachute中得到的分割結果。

圖3 本文算法算法對girl,cheetah,monkey,parachute序列的分割結果Fig. 3 Segmentation results obtained by the proposed algorithm to girl,cheetah,monkey,parachute
由圖3可以看出,SegTrack數據集所包含的輸入視頻序列,其分辨率普遍較低。在girl序列中,目標小女孩的手部、腳部以及視頻背景均出現了明顯的模糊情況,這極大地增加了分割的難度。而在cheetah數據集中,所需分割的運動目標與背景色調基本一致,且相對整個視頻畫面來說目標所占比例極小,這會導致大部分分割算法特別是沒有提供人工標注的無監督視頻分割算法無法判定目標位置,或在分割過程中丟失目標。monkey序列中目標運動速度極快,且有著大幅度且無規律的復雜形變。parachute序列則需要應對光線條件差背景復雜等情況。
由所給出的分割結果可以看出,本文所提出的分割算法在大部分情況下取得了不錯的分割效果(所展示結果為第一幀到最后一幀等間隔選取的6張圖片的分割結果),尤其是在目標邊緣位置上,由于像素等級分割結果的引入,彌補了超像素分割邊界粗糙的不足,使邊緣的分割結果更接近于實際值;由monkey序列可以明顯看出,雖然形變復雜且無規律,本文的分割結果基本完全擬合了目標邊緣,分割過程中部分遺漏的目標部分也能在后續幀的分割運算中及時完善,達到較理想的分割結果。
另一個表現較突出的序列cheetah從另一個方面展現了本算法的優勢。從圖中不難看出,在初始幾幀中,本方法的分割結果并不準確,由于目標與背景極其相似,且沒有初始信息的輸入,視頻初始的幾幀分割遺漏了大部分目標范圍;但在接下來的分割過程中,本算法分割效果不斷優化,在視頻的后半部分中,分割結果基本完整覆蓋了運動目標的全部范圍。這是因為雖然沒有初始值的輸入,在后續分割過程中本算法不斷引入非局部特征信息,隨著信息量的增加,分割的效果也在不斷提升。這也顯示了本文所提出的無監督分割方案與其他監督學習方案相比的優勢,監督學習分割在第一幀往往會提供人工標注的分割結果作為初始化信息,這往往使其在最初的分割過程中取得極佳的分割結果,但隨著幀數的增加,初始輸入信息逐步弱化,分割的結果也往往隨時間的增加而變差。
為了進一步評測本文所提算法的有效性,對該算法進行量化評測,并與當下主要的一些分割算法作出對比。對于視頻分割算法的評測,針對不同的數據集,通常采用的評測指標主要分為兩類:平均誤分割的像素點數(pixel errors)和重疊率(Intersection Over Union, IOU)。對于視頻分辨率較高的數據集,每一幀圖像所包含的像素點較多,較小的偏差都會導致極大的像素誤差產生,因此使用平均誤分割的像素點數來評測該類數據集往往會得到極大的數據值,無法有效判斷實際的分割效果,因而對于這類數據集,通常選取重疊率作為評測指標。相反,對于分辨率較低的數據集,由于像素點數較少,對于近似但不同的分割結果,其重疊率在數值上將極為接近,同樣無法有效評測,此時選用平均誤分割的像素點數則會更加直觀且準確地反映出分割的效果。
對于SegTrack數據集,該數據集內的所含的視頻分辨率普遍較低,同時該數據庫也為其中所含視頻的每一幀均提供了一個像素點等級的準確人工標注目標范圍,因而本文中選取每個序列的平均每幀誤分割的像素點個數(average pixel errors per frame)來直觀地評測所提出的分割算法有效性。表1顯示了本文的分割評測結果以及當前一些有效的視頻目標分割算法的分割評測結果(包括監督學習算法和無監督學習算法)。
其中,對比的文獻[3,18-20]均為監督學習算法。監督學習算法在第一幀提供了準確的人工標注目標范圍作為初始化輸入,并利用所提供的目標范圍結合光流推算出下一幀的目標大致位置,并利用所給的前后景位置、顏色等特征信息對圖片進行建模,從而求得準確的分割結果。與單純利用光流等運動特征進行目標位置判斷的無監督分割方案相比,監督分割的方法往往能取得更好的分割結果。但是,實際運用中,監督分割算法初始化標注的準確度往往會對分割結果產生較大的影響,同時,對每一個輸入視頻的首幀進行標注處理也較為麻煩,與完全無需人工標注處理的無監督分割算法相比,監督分割算法的實用性較差。

表1 幾種算法在SegTrack數據集上的分割評測結果Tab. 1 Segmentation results of several algorithms on SegTrack dataset
注:加粗為所有方案中最好的分割結果,下劃線為排名第二的分割結果。
從實驗結果來看,本文所提出視頻分割算法的效果優于大部分無監督學習算法,在沒有首幀標注的情況下取得了與監督學習算法近似的分割結果(值得注意的是,監督分割算法由于首幀給定,在視頻的初始幾幀中往往能取得極好的分割結果)。尤其是cheetah和monkey序列,雖然輸入視頻列的分割目標有著嚴重的模糊和形變,背景環境也較為復雜,本文所提算法依舊取得了較好的分割結果,其中cheetah序列在所有視頻目標算法中取得了最好的成績。與無監督視頻分割算法相比,本文算法在分割結果上有著明顯的優勢。與文獻[22]算法相比,本文算法在有視頻序列上均有著更優的評測結果,與文獻[2,15]算法相比,5個視頻序列中有4個取得了更好的成績,與文獻[1]算法相比在3個視頻序列上表現更好。
本文提出了一種基于融合多特征表示的無監督視頻分割算法,該算法利用超像素降低運算復雜度,利用非局部時空信息優化超像素特征值,并利用優化的特征信息對圖像進行分割;隨后利用已有的分割結果建立混合高斯模型,將利用超像素分割得到的視頻分割結果邊緣細化,最后引入顯著性特征,并利用投票的方式篩選出最終的分割結果。由實驗結果可知,該無監督視頻分割算法是一種穩健的分割算法,在目標模糊、部分遮擋和目標快速運動的情況下是極其有效的。
References)
[1] YONG J L, KIM J, GRAUMAN K. Key-segments for video object segmentation[C]// Proceedings of the 2011 International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2011:1995-2002.
[2] PAPAZOGLOU A, FERRARI V. Fast object segmentation in unconstrained video[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2013:1777-1784.
[3] WEN L, DU D, LEI Z, et al. JOTS: joint online tracking and segmentation[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015:2226-2234.
[4] BROX T, MALIK J. Object segmentation by long term analysis of point trajectories[C]// Proceedings of the 11th European Conference on Computer Vision. Berlin: Springer-Verlag, 2010: 282-295.
[5] NAGARAGA N S, SCHMIDT F R, BROX T. Video segmentation with just a few strokes[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015:3235-3243.
[6] 于躍龍, 盧煥章. 基于背景構造的視頻對象分割技術[J]. 計算機工程與科學, 2006, 28(1): 36-38.(YU Y L, LU H Z. Video object segmentation technology based on background construction[J]. Computer Engineering and Science, 2006, 28(1):36-38.)
[7] CULIBRK D, MARQUES O, SOCEK D, et al. Neural network approach to background modeling for video object segmentation[J]. IEEE Transactions on Neural Networks, 2007, 18(6):1614-1627.
[8] 紀騰飛,王世剛,周茜,等. 基于動靜背景下的視頻對象自適應提取算法[J].吉林大學學報(信息科學版), 2007, 25(1):73-77.( JI T F, WANG S G, ZHOU Q, et al. Adaptive algorithm of video object segmentation under moving and static background[J]. Journal of Jilin University (Information Science Edition), 2007, 25(1):73-77.)
[9] 馬麗紅, 張宇, 鄧健平. 基于形態開閉濾波二值標記和紋理特征合并的分水嶺算法[J]. 中國圖象圖形學報, 2003, 8(1):80-86.(MA L H, ZHANG Y, DENG J P. A target segmentation algorithm based on opening closing binary marker on watersheds and texture merging[J]. Journal of Image and Graphics, 2003, 8(1):80-86.)
[10] CHOI J G, LEE S W, KIM S D. Spatio-temporal video segmentation using a joint similarity measure[J]. IEEE Transactions on Circuits and Systems for Video Technology, 1997, 7(2): 279-286.
[11] 黃波, 楊勇, 王橋,等. 一種基于時空聯合的視頻分割算法[J]. 電子學報, 2001, 29(11):1491-1494.(HUANG B, YANG Y,WANG Q, et al. Video segmentation based on spatio-temporal information[J]. Acta Electronica Sinica, 2001, 29(11):1491-1494.)
[12] 維基百科. 光流法[EB/OL].[2017- 05- 01].http://zh.wikipedia.org/wiki/%E5%85%89%E6%B5%81%E6%B3%95.(Wikipedia. Optical Flow Method[EB/OL].[2017- 05- 01].http://zh.wikipedia.org/wiki/%E5%85%89%E6%B5%81%E6%B3%95.
[13] LEVINSHTEIN A, STERE A, KUTULAKOS K N, et al. TurboPixels: fast superpixels using geometric flows[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12):2290-2297.
[14] BOYKOV Y, VEKSLER O, ZABIH R. Fast approximate energy minimization via graph cuts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(11): 1222-1239.
[15] LI F, KIM T, HUMAYUN A, et al. Video segmentation by tracking many figure-ground segments[C]// Proceedings of the 2014 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2014:2192-2199.
[16] VEDALDI A, FULKERSON B. Vlfeat: an open and portable library of computer vision algorithms[C]// Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM, 2010:1469-1472.
[17] GOFERMAN S, ZELINKMANOR L, TAL A. Context-aware saliency detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012, 34(10):1915-1926.
[18] TSAI D, FLAGG M, NAKAZAWA A, et al. Motion coherent tracking using multi-label MRF optimization[J]. International Journal of Computer Vision, 2012, 100(2): 190-202.
[19] CAIZ, WEN L, LEI Z, et al. Robust deformable and occluded object tracking with dynamic graph[J]. IEEE Transactions on Image Processing, 2014, 23(12): 5497.
[20] JAIN S D, GRAUMAN K. Supervoxel-consistent foreground propagation in video[C]// Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014:656-671.
[21] OCHS P, BROX T. Higher order motion models and spectral clustering[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012:614-621.
This work is partially supported by the National Natural Science Foundation of China (61402233, 41501377), the Natural Science Foundation of Jiangsu Province (BK20151529,BK20150906).
LIXuejun, born in 1993, M. S. candidate. Her research interests include video segmentation.
ZHANGKaihua, born in 1983, Ph. D., professor. His research interests include object tracking, level set based image segmentation.
SONGHuihui, born in 1986, Ph. D., professor. Her research interests include remote sensing image processing.
Unsupervisedvideosegmentationbyfusingmultiplespatio-temporalfeaturerepresentations
LI Xuejun, ZHANG Kaihua*, SONG Huihui
(JiangsuKeyLaboratoryofBigDataAnalysisTechnology(NanjingUniversityofInformationScienceandTechnology),NanjingJiangsu210044,China)
Due to random movement of the segmented target, rapid change of background, arbitrary variation and shape deformation of object appearance, in this paper, a new unsupervised video segmentation algorithm based on multiple spatial-temporal feature representations was presented. By combination of salient features and other features obtained from pixels and superpixels, a coarse-to-fine-grained robust feature representation was designed to represent each frame in a video sequence. Firstly, a set of superpixels was generated to represent foreground and background in order to improve computational efficiency and get segmentation results by graph-cut algorithm. Then, the optical flow method was used to propagate information between adjacent frames, and the appearance of each superpixel was updated by its non-local sptatial-temporal features generated by nearest neighbor searching method with efficient K-Dimensional tree (K-D tree) algorithm, so as to improve robustness of segmentation. After that, for segmentation results generated in superpixel-level, a new Gaussian mixture model based on pixels was constructed to achieve pixel-level refinement. Finally, the significant feature of image was introduced, as well as segmentation results generated by graph-cut and Gaussian mixture model, to obtain more accurate segmentation results by voting scheme. The experimental results show that the proposed algorithm is a robust and effective segmentation algorithm, which is superior to most unsupervised video segmentation algorithms and some semi-supervised video segmentation algorithms.
superpixel segmentation; K-Dimensional tree (K-D tree); Gaussian Mixture Model (GMM); graph-cut algorithm; optical flow method
2017- 05- 16;
2017- 05- 31。
國家自然科學基金資助項目(61402233, 41501377);江蘇省自然科學基金資助項目(BK20151529,BK20150906)。
李雪君(1993—),女,江蘇南京人,碩士研究生,主要研究方向:視頻分割; 張開華(1983—),男,山東日照人,教授,博士,CCF會員,主要研究方向:目標跟蹤、水平集圖像分割; 宋慧慧(1986—),女,山東聊城人,教授,博士,主要研究方向:遙感影像處理。
1001- 9081(2017)11- 3134- 05
10.11772/j.issn.1001- 9081.2017.11.3134
(*通信作者電子郵箱zhkhua@gmail.com)
TP312
A