李春華 郝娜娜 劉玉坤
摘要:針對經(jīng)典視頻顯著目標提取模型沒有充分利用時域顯著性線索,易受背景噪聲干擾,提取的顯著目標不完整等問題,提出了一種在時空對比度指導(dǎo)下的視頻顯著目標提取模型。首先,自適應(yīng)融合RGB顏色空間對比度和運動對比度,確定顯著目標的先驗信息;然后,利用當前幀的前景提取項和鄰近幀位置約束項組成能量函數(shù),指導(dǎo)時空顯著性線索融合;最后,通過超像素級平滑優(yōu)化處理,提取完整的視頻顯著目標。實驗結(jié)果表明,模型在Visal,SegTrack V2和DAVIS數(shù)據(jù)集上進行測試,MAE值分別達到了0.030,0.024和0.032,F(xiàn)-measure值分別達到了0.772,0.781和0.812,具有良好的準確性和魯棒性。因此,所提算法能夠有效檢測出視頻中的顯著目標,可為監(jiān)控系統(tǒng)以及目標跟蹤提供理論參考與方法依據(jù)。
關(guān)鍵詞:信息處理技術(shù)其他學(xué)科;能量函數(shù);自適應(yīng)融合;降級優(yōu)化;時空先驗
中圖分類號:TN958.98文獻標識碼:Adoi:10.7535/hbkd.2022yx02004
Abstract:The classical video salient object extraction model does not make full use of time-domain saliency cues,and is susceptible to the background noise interference.The extracted salient objects are incomplete.This paper proposed a video salient object extraction model under the guidance of spatio-temporal contrast.Firstly,adaptive fusion of RGB color space contrast and motion contrast was used to determine the prior information of prominent targets.Then,the energy function was composed of the foreground extraction item of the current frame and the position constraint item of the adjacent frames,which was used to guide the spatio-temporal saliency cue fusion.Finally,the complete video salient target was extracted by super-pixel smoothing optimization.The experimental results show that the model is tested on Visal,SegTrack V2 and DAVIS data sets.The MAE values in Visal,SegTrack V2 and DAVIS data sets are 0.030,0.024 and 0.032,respectively,and the F-measure values are 0.772,0.781 and 0.812,respectively,with good accuracy and robustness.This algorithm can effectively detect the visible targets in the video,thus providing theoretical reference and method basis for the monitoring system and target tracking.
Keywords:other discipline of information processing technology;energy function;adaptive fusion;degradation optimization;spatio-temporal prior
人類視覺系統(tǒng)能夠在復(fù)雜場景中迅速鎖定關(guān)注目標,顯著性檢測技術(shù)可以模仿人類這一視覺機能,檢測圖像中被關(guān)注的區(qū)域。作為圖像壓縮[1-2]、圖像分割[3]和目標識別檢測[4]等應(yīng)用的重要處理環(huán)節(jié),顯著性檢測技術(shù)廣泛應(yīng)用于監(jiān)控系統(tǒng)[5]、行為檢測[6]和目標跟蹤[7]等技術(shù)領(lǐng)域。近年來,綜合利用時間和空間維度的視覺目標檢測已成為視頻顯著目標檢測的研究熱點。視頻目標運動模式的多樣性、視頻場景的多變性、相機運動等因素增加了視頻顯著性檢測的難度,因此視頻顯著目標的準確檢測具有較大的挑戰(zhàn)性。
河北科技大學(xué)學(xué)報2022年第2期李春華,等:時空對比度引導(dǎo)的視頻顯著目標提取模型視頻顯著性檢測算法可分為3類:基于空間算法、基于時間算法和基于時空算法。基于空間算法直接將圖像顯著性檢測方法應(yīng)用于視頻顯著目標的提取。Itti[8]、背景先驗[9]、深度特征[10]、中心先驗[11]和貝葉斯推理[12]等方法,雖然在圖像檢測中具有較好的性能,但是直接用于視頻檢測時卻無法有效處理目標遮擋、運動模糊、時間抖動等問題?;跁r間算法包括幀差法、背景差分法和光流法。幀差法[13]通過對相鄰幀中對應(yīng)像素進行差分處理,檢測運動對象的邊緣信息,提取的目標通常不完整。背景差分法[14]對背景進行建模,利用輸入視頻幀與背景之間的差異獲知運動區(qū)域。背景建模的精度直接影響運動目標檢測的準確性。光流法[15-16]通過估計像素的運動場,將具有相似運動矢量的像素歸并為顯著性目標。光流法不依賴于場景的任何先驗信息,具有廣泛的適應(yīng)性,但其計算復(fù)雜度較高,如果沒有高性能硬件的輔助,很難保證實時完成檢測任務(wù)?;跁r空算法通過將運動信息與空間域的低層特征相融合,得到顯著性圖。文獻[17]借助中心環(huán)繞對比度將運動特征集成到Itti模型框架中。LIU等[18]利用自適應(yīng)融合運動直方圖和空間顯著性提取視頻的顯著目標。文獻[19]和文獻[20]采用動態(tài)加權(quán)的方式綜合時間和空間線索,確定顯著目標。
雖然大量視頻檢測模型逐步改善了視頻顯著目標的提取效果,但其準確性和魯棒性仍不盡如人意。因此本文提出了一種基于時空對比度指導(dǎo)的視頻顯著目標提取模型,以提高視頻顯著目標檢測的準確性。
1算法描述
經(jīng)典顯著運動目標檢測算法對顯著目標的局部運動、運動場變化不明顯或在有遮擋的情況下處理效果不理想。針對以上問題,本文提出的視頻顯著目標檢測模型將顏色對比度和運動對比度作為先驗條件,構(gòu)造外觀模型和動態(tài)位置模型,保證視頻序列的一致性,減弱顯著目標由局部運動或遮擋情況所帶來的影響。算法框架圖如圖1所示。首先,自適應(yīng)融合RGB顏色空間對比度和運動對比度,形成顯著目標的時空先驗信息;然后,利用當前幀的前景提取項和鄰近幀位置約束項組成能量函數(shù),優(yōu)化時空顯著性線索融合;最后,通過超像素級平滑處理,提取完整的視頻顯著目標。
1.1基于對比度的先驗信息
在視頻播放過程中,不連續(xù)視頻幀的顏色差異和相鄰幀間的運動變化都能夠吸引觀眾的注意。因此,本文所提模型把顏色變化和位置變化作為視頻顯著性檢測的重要線索,在RGB顏色空間內(nèi)計算幀內(nèi)全局顏色對比度,利用光流法[21]計算目標的運動速度,進而轉(zhuǎn)化為運動對比度,最后將運動對比度和全局顏色對比度自適應(yīng)融合為先驗顯著性圖。
1.1.1運動對比度
為了克服像素級上計算光流的復(fù)雜性和時間成本高的問題,運用超像素分割技術(shù)[22]將視頻幀序列I={I1,I2,…,Ik,…}中的各幀劃分為超像素集Pk={Pk1,Pk2,…},通過光流法計算各幀超像素的光流矢量?;诔袼毓烙嫻饬鲌觯梢詼p少計算負擔。由于運動梯度比運動顯著線索更可靠[23],本文通過將運動梯度與顏色梯度相結(jié)合生成時空梯度,指導(dǎo)低水平對比度的計算。時空梯度Mk的表達式為
2 實驗結(jié)果與分析
將本文算法在Visal[23],SegTrack V2[27]和DAVIS[28]公共視頻數(shù)據(jù)集上進行測試,并與經(jīng)典的10種視頻顯著性檢測算法進行比對,其中包含8種傳統(tǒng)算法和2種深度學(xué)習模型,包括RWRV[29](隨機游走)、MST[30](最小成樹)、GF[23](梯度流)、SGSP[31](超像素級)、SAG[24](測地線時空先驗)、STBP[32](SIFT流的時空背景先驗)、SFLR[25](低秩相干時空融合)、SGAF[33](時空一致性)、SCOM[34](深度時空約束優(yōu)化模型)、DLVS[35](全卷積網(wǎng)絡(luò)訓(xùn)練模型)。
2.1 主觀結(jié)果對比
ViSal數(shù)據(jù)集包含17個具有挑戰(zhàn)性的視頻序列:背景高度雜亂的hores等;快速運動的car等;慢速運動的boat等;前景背景顏色差異小的motorbike等;移動攝像機的gokart等。這些視頻的長度從30幀到100幀不等。
由圖5可知,由于RWRV算法簡單地將時間顯著性作為隨機游走器重新分布估計時空顯著性,得到顯著目標的粗略位置信息,不能精確地提取目標。SGSP和STBP模型在超像素基礎(chǔ)上加入運動場的因素,檢測效果有所提升,但是當前景目標與背景顏色接近時,例如圖5 中g(shù)okart視頻,不能精準地突出顯著性邊緣。MST算法與以上3種方法相比,能夠更加精準地定位檢測目標,但抑制背景噪聲的能力一般,例如圖5的horse視頻。本文模型、GF,SAG,SGAF,SFLR和深度學(xué)習方法SCOM,DLVS都是利用光流結(jié)合空間特征表現(xiàn)視頻序列的顯著性,但在減弱噪聲影響方面本文算法優(yōu)于GF,SAG和SCOM算法;圖5的horse 2視頻中的遠處目標時,SFLR,SGAF和DLVS當作背景處理,只有本文模型能夠完整的檢測出顯著目標,證明該模型在抑制背景噪聲和目標邊緣細節(jié)特征方面均優(yōu)于其他算法,始終最接近真值圖。
SegTrack V2數(shù)據(jù)集包括14個視頻序列,其中大部分視頻序列的時間周期都非常短(不超過100幀),背景雜亂且變化不大,每一幀都通過前景微妙的局部變化表現(xiàn)目標運動,并且目標的顏色接近背景顏色,使得目標的顯著性難以被檢測。
由圖6可知,對于快速運動的cheetah視頻序列出現(xiàn)模糊現(xiàn)象,本文算法在目標完整性和抑制背景的能力上優(yōu)于其他算法。處理只有胳膊和腿局部運動的girl視頻序列,其他算法檢測結(jié)果大致分為2類:一是頭部附近帶有背景噪聲(MST,STBP),不能清晰檢測小女孩的輪廓(RWRV,SGSP);二是將小女孩的手部作為背景抑制,對目標的完整性造成影響。本文所提算法能夠較好地抑制復(fù)雜背景影響,完整地檢測顯著區(qū)域,整體檢測性能優(yōu)于其他算法。
DAVIS數(shù)據(jù)集包含50個高分辨率的視頻,該數(shù)據(jù)集中的場景包含大量遮擋(bus等)、外觀變化(mallard-fly等)和形狀扭曲(breakdance-flare等),使得顯著目標的提取面臨挑戰(zhàn)。
由圖7可知,當處理背景復(fù)雜且與前景顏色接近的視頻時,本文算法抑制噪聲能力優(yōu)于其他算法;當處理外觀不明顯的視頻時,本文算法、SCOM和SFLR表現(xiàn)出相似的檢測能力;但是當處理顯著目標出現(xiàn)部分被遮擋的情況時,本文算法通過預(yù)測下一幀的運動梯度和當前幀的顯著外觀模型調(diào)整檢測結(jié)果,使得其最接近地面真值圖,實驗結(jié)果再次驗證了對復(fù)雜場景、運動模糊等具有挑戰(zhàn)性的的情況,本文算法模型能夠更加準確地檢測出顯著目標。
雖然所提算法能夠完整地檢測出大部分顯著目標,但是當視頻中出現(xiàn)顯著目標的陰影或者視頻亮度發(fā)生明顯變化時,檢測結(jié)果則不盡如人意。圖8為本文算法的部分失敗案例,原因在于當視頻中出現(xiàn)目標物陰影或亮度發(fā)生明顯變化時,很難實現(xiàn)亮度恒定,陰影部分的顯著值高于閾值,在基于對比度的先驗信息中直接被認定為前景對象,導(dǎo)致檢測結(jié)果不準確,魯棒性降低。
2.2 客觀結(jié)果對比
為了更客觀地評估本文算法,采用標準的PR曲線、平均絕對誤差(MAE)以及F-measure(Fβ)和S-measure(Sm)值定量分析算法的性能。
在Visal,SegTrack V2和DAVIS數(shù)據(jù)集上分別選用6段復(fù)雜的視頻進行實驗分析,得到平均PR曲線、MAE值圖和Fβ和Sm客觀評價指標如圖9所示。由圖9 a)可以看出,本文算法的PR曲線略高于DLVS,SGAF,SFLR等算法,說明在相同召回率的情況下,本文算法的準確率高于其他算法,提取的顯著目標更加準確。[HJ2.3mm]隨著召回率的增加,分割閾值逐漸減小,使得更多區(qū)域被判斷為顯著區(qū)域,所以各個算法對應(yīng)的準確率下降。由圖9 b)算法顯著圖與真值圖的像素級直接比較的結(jié)果可以看出,本文算法的平均絕對誤差更小,與真值圖更接近,表明在視頻數(shù)據(jù)復(fù)雜度變高時,本文算法檢測結(jié)果具有更高的準確性。圖9 c)為Fβ和Sm客觀評價指標數(shù)據(jù),從圖中可以看出在數(shù)據(jù)集SegTrack V2和DAVIS中,本文算法的數(shù)據(jù)分別略遜于DLVS,SCOM算法,這是因為經(jīng)過全卷積網(wǎng)絡(luò)訓(xùn)練的DLVS模型對于運動變化明顯的顯著對象更敏感,能夠較好地考慮區(qū)域與對象結(jié)構(gòu)的相似性,而在運動緩慢、遮擋或者顯著目標變形的情況下,DLVS算法的性能下降;SOCOM算法通過背景勢、前景勢以及平滑勢的統(tǒng)一處理,使其在背景復(fù)雜的場景中更穩(wěn)定地檢測目標,但其顯著目標的細節(jié)檢測沒有通過約束優(yōu)化處理。因此,通過圖9的結(jié)果可以得出本文算法具有更加穩(wěn)定的準確性和魯棒性,驗證了本文算法的優(yōu)越性。該算法是通過多種技術(shù)的融合,引入時域線索而有效提取視頻圖像的顯著目標,雖然在提取精準性方面有所提高,但是多種技術(shù)的融合增加了視頻檢測的復(fù)雜性,通過算法運行時間反映算法效率,時間對比結(jié)果如表1所示,從平均運行時間上可以明顯看出,所提算法耗時最長,是以犧牲檢測效率保證了模型更加穩(wěn)定的準確性和魯棒性。
3 結(jié) 論
本文提出了基于時空對比度的視頻顯著目標提取模型,有效改善了提取視頻顯著目標不完整的問題,提高了檢測準確性。首先,自適應(yīng)融合RGB顏色空間對比度和運動對比度,確定了顯著目標的先驗信息;然后,將基于對比度融合后的時空先驗估計作為線索指導(dǎo)能量函數(shù)中外觀模型和運動模型的形成,并在優(yōu)化過程中去除視頻中確定的背景區(qū)域;最后,通過超像素級平滑處理,提取了完整的視頻顯著目標。本文算法采用多次降噪優(yōu)化篩選,具有良好的完整性、準確性和魯棒性。實驗結(jié)果表明,所提算法對視頻復(fù)雜場景中快速運動、遮擋和局部運動的顯著目標,表現(xiàn)出相對穩(wěn)定的檢測性能,為監(jiān)控系統(tǒng)鎖定視頻顯著對象和目標跟蹤提供了理論基礎(chǔ)和方法依據(jù)。但是,本文算法對于視頻中出現(xiàn)目標陰影和視頻亮度發(fā)生明顯變化的情況,檢測效果不夠理想,未來將繼續(xù)研究如何提高帶有陰影視頻的顯著目標檢測結(jié)果的準確性。
參考文獻/References:
[1] ZHENG B W,ZHANG J P,SUN G L,et al.Fully learnable model for task-driven image compressed sensing[J].Sensors,2021,21(14):4662.DOI:org/10.3390/S21144662.
[2] 劉向增,范立佳,徐雪靈,等.星載JPEG-LS圖像壓縮質(zhì)量評價研究[J].微電子學(xué)與計算機,2021,38(9):45-53.
LIU Xiangzeng,F(xiàn)AN Lijia,XU Xueling,et al.Research on quality evaluation of spaceborne JPEG-LS image compression algorithm[J].Microelectronics & Computer,2021,38(9):45-53.
[3] WANG K,WU K,WANG C L,et al.Identification of NOx hotspots from oversampled TROPOMI NO2 column based on image segmentation method[J].Science of the Total Environment,2022,803.DOI:10.1016/J.scitotenv.2021.150007.
[4] 薛培林,吳愿,殷國棟,等.基于信息融合的城市自主車輛實時目標識別[J].機械工程學(xué)報,2020,56(12):165-173.
XUE Peilin,WU Yuan,YIN Guodong,et al.Real-time target recognition for urban autonomous vehicles based on information fusion[J].Journal of Mechanical Engineering,2020,56(12):165-173.
[5] SULTAN S,JENSEN C D.Metadata based need-to-know view in large-scale video surveillance systems[J].Computers & Security,2021,111.DOI:10.1016/j.cose.2021.102452.
[6] LAHOULI I,KARAKASIS E,HAELTERMAN R,et al.Hot spot method for pedestrian detection using saliency maps,discrete Chebyshev moments and support vector machine[J].IET Image Processing,2018,12(7):1284-1291.
[7] LI SN,QIN Z,SONG H B.A temporal-spatial method for group detection,locating and tracking[J].IEEE Access,2016,4:4484-4494.
[8] ITTI L,DHAVALE N,PIGHIN F.Realistic avatar eye and head animation using a neurobiological model of visual attention[C]//Optical Science and Technology,SPIE's 48th Annual Meeting.San Diego,California,United States:[s.n.],2003.DOI:10.1117/12.512618.
[9] LI CY,YUAN Y C,CAI W D,et al.Robust saliency detection via regularized random walks ranking[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston,MA,USA:IEEE,2015:2710-2717.
[10]CONG R M,LEI J J,ZHANG C Q,et al.Saliency detection for stereoscopic images based on depth confidence analysis and multiple cues fusion[J].IEEE Signal Processing Letters,2016,23(6):819-823.
[11]ZHU C B,LI G,WANG W M,et al.An innovative salient object detection using center-dark channel prior[C]// 2017 IEEE International Conference on Computer Vision Workshops (ICCVW).Venice,Italy:IEEE,2017:1509-1515.
[12]LI X H,LU H C,ZHANG L H,et al.Saliency detection via dense and sparse reconstruction[C]//2013 IEEE International Conference on Computer Vision.Sydney,NSW,Australia:IEEE,2013:2976-2983.
[13]MECH R,WOLLBORN M.A noise robust method for segmentation of moving objects in video sequences[C]//1997 IEEE International Conference on Acoustics,Speech,and Signal Processing.Munich,Germany:IEEE,1997:2657-2660.
[14]BOUWMANS T,BAF F E,VACHON B.Background modeling using mixture of Gaussians for foreground detection-a survey[J].Recent Patents on Computer Science,2008,1(3):219-237.
[15]HORN B K P,SCHUNCK B G.Determining optical flow[J].Artificial Intelligence,1981,17(1/2/3):185-203.
[16]TSUI K C,LIU J M.Evolutionary diffusion optimization(I):Description of the algorithm[C]//Proceedings of the 2002 Congress on Evolutionary Computation CEC'02(Cat.No.02TH8600).Honolulu,HI,USA:IEEE,2002:169-174.
[17]SCHLKOPF B,PLATT J,HOFMANN T.Graph-based visual saliency[C]//Advances in Neural Information Processing Systems 19:Proceedings of the 2006 Conference.[S.l.]:MIT Press,2007:545-552.
[18]LIU Z,ZHANG X,LUO S H,et al.Superpixel-based spatiotemporal saliency detection[J].IEEE Transactions on Circuits and Systems for Video Technology,2014,24(9):1522-1540.
[19]AHSAN S M M,NAFEW A N M,AMIT R H.A saliency based approach for foreground extraction from a video[C]//2017 3rd International Conference on Electrical Information and Communication Technology (EICT).Khulna,Bangladesh:IEEE,2017:1-6.
[20]ZHANG J H,CHEN J B,WANG Q C,et al.Spatiotemporal saliency detection based on maximum consistency superpixels merging for video analysis[J].IEEE Transactions on Industrial Informatics,2020,16(1):606-614.
[21]BROX T,MALIK J.Large displacement optical flow:Descriptor matching in variational motion estimation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(3):500-513.
[22]SHEN J B,DU Y F,WANG W G,et al.Lazy random walks for superpixel segmentation[J].IEEE Transactions on Image Processing,2014,23(4):1451-1462.
[23]WANG W G,SHEN J B,SHAO L.Consistent video saliency using local gradient flow optimization and global refinement[J].IEEE Transactions on Image Processing,2015,24(11):4185-4196.
[24]WANG W G,SHEN J B,YANG R G,et al.Saliency-aware video object segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(1):20-33.
[25]CHEN C,LI S,WANG Y G,et al.Video saliency detection via spatial-temporal fusion and low-rank coherency diffusion[J].IEEE Transactions on Image Processing,2017,26(7):3156-3170.
[26]ZENG Z N,CHAN T H,JIA K,et al.Finding correspondence from [JP2]multiple images via sparse and low-rank decomposition[C]// Computer[JP] Vision-ECCV 2012.Berlin Heidelberg:Springer-Verlag Berlin Heidelberg,2012:325-339.
[27]PERAZZI F,PONT-TUSET J,MCWILLIAMS B,et al.A benchmark dataset and evaluation methodology for video object segmentation[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA:IEEE,2016:724-732.
[28]LI F X,KIM T,HUMAYUN A,et al.Video segmentation by tracking many figure-ground segments[C]//2013 IEEE International Conference on Computer Vision.Sydney,NSW,Australia:IEEE,2013:2192-2199.
[29]KIM H,KIM Y,SIM J Y,et al.Spatiotemporal saliency detection for video sequences based on random walk with restart[J].IEEE Transactions on Image Processing,2015,24(8):2552-2564.
[30]TU W C,HE S F,YANG Q X,et al.Real-time salient object detection with a minimum spanning tree[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA:IEEE,2016:2334-2342.
[31]LIU Z,LI J H,YE L W,et al.Saliency detection for unconstrained videos using superpixel-level graph and spatiotemporal propagation[J].IEEE Transactions on Circuits and Systems for Video Technology,2017,27(12):2527-2542.
[32]XI T,ZHAO W,WANG H,et al.Salient object detection with spatiotemporal background priors for video[J].IEEE Transactions on Image Processing,2017,26(7):3425-3436.
[33]GUO Y C,LI Z,LIU Y,et al.Video object extraction based on spatiotemporal consistency saliency detection[J].IEEE Access,2018,6:35171-35181.
[34]CHEN Y H,ZOU W B,TANG Y,et al.SCOM:Spatiotemporal constrained optimization for salient object detection[J].IEEE Transactions on Image Processing,2018,27(7):3345-3357.
[35]WANG W G,SHEN J B,SHAO L.Video salient object detection via fully convolutional networks[J].IEEE Transactions on Image Processing,2018,27(1):38-49