關 爽,殷海兵
(中國計量學院 信息工程學院,浙江 杭州 310018)
基于三維變換域頻譜差的視頻顯著性檢測算法
關 爽,殷海兵
(中國計量學院 信息工程學院,浙江 杭州 310018)
顯著性區域檢測是計算機視覺的重要課題,對視頻質量評價和感知視頻編碼算法優化也至關重要。大多顯著性檢測算法不能權衡準確率和復雜度,限制了它們在視頻預處理和實時處理中的應用。提出了一種基于三維變換域頻譜差(3DTDSD)的快速視頻顯著性檢測算法,分別以關鍵幀及其前一幀為中心建立一定數量圖像幀的滑動窗,得到兩組3D視頻體,用傅里葉變換將兩組視頻變換到三維頻域,兩組三維數據之間的差值經過反變換得到顯著性圖,最后通過連通分析、閾值判斷等得到顯著區域。頻域算法具有運算速度快的特點,實驗對比和算法復雜度分析證明了該算法的有效性和快速性。
視頻;顯著性;三維變換;3D視頻體
近年來顯著性檢測已受到廣泛關注,它旨在發現人眼較為關注的區域、過濾掉不重要區域。顯著性檢測源于人類視覺系統,人眼總是關注圖像或視頻的特定區域,這是人類視覺系統的固有屬性。顯著性區域表示人眼關注位置,是評價感知視頻質量的關鍵因素。采用這種HVS特性并將它應用在視頻質量評價中可以極大地提升視頻質量,并有助于感知視頻編碼算法優化[1]。由于顯著性檢測對許多視覺應用提供了一個快速預處理過程,所以它也是計算機視覺的一個重要課題。
已有圖像顯著性檢測方法大多基于HVS特性,Itti和Koch[2]設計了一個模擬人類視覺搜索過程的模型,檢測靜態圖像顯著性區域,它也被擴展到視覺識別工作中。Hou和Zhang[3]提出了一種快速傅里葉譜殘差的方法,該算法分析了原始信號與平滑圖像在log譜上的差異,將差異值轉化為空間域信號,最終得到圖像的顯著性圖。
不同于單幅圖像,視頻具有很強的空時域相關性,視頻顯著性在于檢測出不同于背景的顯著運動區域。目前典型的視頻顯著性檢測算法主要有:文獻[4]在圖像顯著性檢測的基礎上加入運動信息,從亮度、顏色、方向和運動出發研究顯著性;文獻[5]使用稀疏光流估計幀間的運動信息,采用隨機一致性算法檢測不同物體的運動信息;文獻[6]將視頻體內X-T或Y-T平面看作二維矩陣S,分解成低秩部分和稀疏部分,并利用RPCA將其最小化,根據檢測得到的X-T與Y-T平面的顯著性結果,合并成最終的視頻顯著性圖;文獻[7]在幀序列構成的3D視頻體空間內,利用譜殘余的方法在X-T與Y-T平面分別計算顯著性,通過自適應閾值判斷,將X-T與Y-T的二值化表示合并成幀序列的顯著性圖。
視頻由三維數據構成,包含大量信息,并帶有場景切換和不同程度的背景運動等,所以對于視頻來說,顯著性檢測算法越精確其復雜度也越高,快速的算法又不能保證檢測準確率,因此,高效的視頻顯著性區域檢測仍是一個難題。
雖然上述模型取得了不錯的結果,但它們作為視頻預處理方法不夠快速有效。本文權衡準確率和復雜度,旨在找到一種準確快速的視頻顯著性檢測方法。文獻[3]的譜殘差方法雖然快速,但它只考慮到圖像空間域相關性,對于時域相關性強、場景復雜的視頻序列并不適用;同時受到文獻[7]在時間軸上組建視頻體的啟發,本文將結合視頻空時域相關性在三維頻域研究顯著性算法。
對于視頻序列的顯著性,除了空域相關性,還要考慮到視頻序列時域相關性以及視覺暫留效應的影響,本文通過建立時域滑動窗,在三維變換頻域研究視頻序列的顯著性。
人眼的感興趣點在一定的時間內保持不變[8]。計算關鍵測試幀(即當前測試幀,下文簡稱關鍵幀)t的顯著性時,考慮到t之前的時間區間,認為t的前幾幀與當前幀有很大相關性。文獻[9]對關鍵測試幀t之后的時間區域做了研究,根據鄰近重建幀的PSNR值得出結論:t幀和t之后時間區間內的幀與有很高的相關性。

圖1 滑動窗示例
實驗發現滑動窗的滑動步長也是一個影響顯著性檢測精確度和效率的關鍵參數。為了確定滑動窗的步長,假設A是整個21幀滑動窗中第N幀(N=1,2,…,21)的saliency圖,B是該幀作為關鍵幀測試取得的saliency圖,B-A表示兩者之間的誤差,以圖2為例。經過大量測試統計可以發現從6~16幀之間,B-A的數量級都在10-16上,關鍵幀的前后各5幀內顯著性檢測絲毫不受影響,所以這11幀數據在變換后直接作為相應各幀的saliency圖,最終確定滑動窗步長n=11幀,當第11幀作為關鍵幀時可以得到6~16幀的saliency圖,接著滑動窗向后滑動11幀,到第22幀作為關鍵幀再得到17~27幀的saliency圖,參見圖1。
經過上述分析,確定了滑動窗長度和滑動步長,具體算法流程介紹如下,假設測試序列的寬度為W,高度為H。
1)選取時域3D視頻體
選取關鍵測試幀t及其前后各10幀數據Data1(大小為W×H×21),同時取其前一幀t-1和其前后10幀數據Data2(大小為W×H×21),這些數據作為待處理的3D視頻體[7]。
2)三維變換
對取得的數據Data1,Data2分別做n維傅里葉變換得到三維頻譜μ(x,y,z)和ν(x,y,z)
μ(x,y,z)=FFTN(Data1(x,y,z))
由于理論水平未能達到實際應用的要求,大多數科研人員只能借助國外編寫的一些仿真軟件(如Adams、RecurDyn等軟件)來解決設計、分析中的問題,而軟件的使用需要具備一定的理論基礎,欲達到熟練、深入的應用程度,則需要較高的理論水平。另外,借助仿真軟件并不能解決所有實際應用中的問題,有時需要自行編寫程序,如將程序寫入不能安裝大型軟件的微芯片,這種情況對理論的要求更高。再者,從自主知識產權、國家科研知識儲備以及教育系統學科建設等角度來看,掌握及傳授此部分理論知識是必須的。
(1)
ν(x,y,z)=FFTN(Data2(x,y,z))
(2)
3)計算頻譜差得顯著性圖
在變換域內計算兩組三維數據的差值并做反變換,濾波后得顯著性圖。
(3)
Smap(x,y,z)=G*ξ(x,y,z)
(4)
式中:IFFTN表示n維逆傅里葉變換;ξ(x,y,z)是反變換之后得到三維視頻體數據;G為三維高斯濾波器;Smap(x,y,z)表示滑動窗內21幀顯著性圖,這里選取關鍵幀及其前后各5幀(總共11幀)作為顯著性圖。
4)提取顯著性區域


(5)


5)窗口時域滑動
做完上述檢測后,滑動窗沿著視頻播放方向順延11幀,得到下一個21幀3D視頻體繼續檢測,算法流程圖如圖3所示。
本文采用CRCNS數據庫進行大量測試,數據庫有100個測試序列涵蓋各種類別的場景,包括室內場景、戶外場景、電視片段和視頻游戲等,該數據庫標定了人眼的追蹤位置。

圖2 選取不同關鍵幀時saliency差異(截圖)

圖3 算法流程圖
3DTDSD算法的檢測結果見圖4,由于頁面限制,文章只給出beverly08測試序列第144~148幀。由圖可知,顯著區域和數據庫標定的人眼追蹤位置基本一致,表明檢測到的區域有效。
圖5是幾種視頻顯著性檢測方法的對比,從圖中可以看出CIOFM模型[3]由于塊分割的原因,只能檢測出顯著物體的一個大致輪廓,并且會受到背景信息的干擾;SR模型[4]雖然對圖像顯著性檢測有很好的效果,但是由于沒有考慮時域特征,不適用于視頻顯著性檢測;PFT模型應用相鄰圖像相位信息檢測顯著性,基本能檢測到顯著的運動物體,但是當視頻背景較復雜時,其檢測準確性會降低。通過比較可看出本文3DTDSD算法模型準確性較高。

圖4 3DTDSD算法檢測到的顯著性圖及顯著性區域

圖5 視頻顯著性模型對比
表1給出了每種模型的計算復雜度對比。從CRCNS數據庫的100個測試序列中,選取10個不同場景的序列進行測試,這里均用每種算法處理一幀視頻圖像的平均時間表示。由于本文3DTDSD算法可以一次性檢測11幀視頻連續幀的顯著性區域,算法快速有效,并且通過幾種模型復雜度的對比,可看出3DTDSD算法計算效率較高。
綜合實驗結果,3DTDSD算法提高了檢測準確性,并且計算復雜度也明顯降低,尤其對于復雜的視頻內容。

表1 不同視頻顯著檢測模型的計算復雜度對比
本文提出一種基于三維變換域頻譜差(3DTDSD)的快速視頻顯著性檢測算法,分別以關鍵幀及其前一幀為中心建立滑動窗得到兩組3D視頻體,根據傅里葉變換將兩組視頻體變換到三維頻域,兩組三維數據之間的差值經過反變換得到顯著性圖,最后通過連通分析、閾值判斷等得到顯著區域。該算法快速有效,兩組視頻體經過一次變換能得到11幀圖像的顯著性圖。實驗結果表明,本文算法提高了檢測結果的準確性,并且計算復雜度也明顯降低。
相對于人類視覺系統,本文算法也有一定的局限性,本算法適用于檢測視頻的運動區域,當視頻序列中沒有運動物體或場景有很大幅度晃動時,檢測準確率就會有所降低,為此筆者也會繼續研究,尋找解決方法。同時,視頻顯著性的應用十分廣泛,筆者也將進一步研究顯著性在視頻質量評價中的應用。
[1]LU Zhongkang,LIN Weisi,YANG Xiaokang,et al.Modeling visual attention’s modulatory aftereffects on visual sensitivity and quality evaluation[J].IEEE Trans.Image Process,2005,14(11):1928-1942.
[2]ITTI L,KOCH C,NIEBUR E,et al.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans.Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[3]HOU Xiaodi,ZHANG Liqing.Saliency detection:a spectral residual approach[C]//Proc.Computer Vision and Pattern Recognition,CVPR 2007.New York:IEEE Press,2007:1-8.
[4]ITTI L,DHAVALE N P,PIGIN F.Realistic avatar eye and head animation using a neurobiological model of visual attention[C]//Proc.48th Annual International Symposium on Optical Science and Technology.USA:SPIE Press,2003:64-78.
[5]ZHAI Y,SHAH M.Visual attention detection in video sequences using spatiotemporal cues[C]//Proc.14th Annual ACM International Conference on Multimedia.New York,USA:ACM Press,2006:815-824.
[6]XUE Yawen,GUO Xiaojie,CAO Xiaochun.Motion saliency detection using low-rank and sparse decomposition[C]//Proc.IEEE International Conference on Acoustics,Speechand Signal Processing,ICASSP,2012.Canada:IEEE Press,2012:1485-1488.
[7]CUI X,LIU Q,METAXAS D N.Temporal spectral residual:fast motion saliencydetection[C]//Proc.17th ACM international conference on Multimedia.[S.l.]: ACM Press,2009:617-620.
[8]ALEXANDRE N,OLIVIER L M,PATRICK L C,et al.Considering temporal variations of spatial visual distortion in video quality assessment [J].IEEE Journal of Selected Topics in Signal Processing,2009,3(2):253-264.
[9]譚晶晶,殷海兵.基于視頻質量評價的時域失真測量[J].電視技術,2013,37(8):86-89.
Video Saliency Detection Algorithm Based on 3D Transform Domain Spectral Difference
GUAN Shuang,YIN Haibing
(CollegeofInformationEngineering,ChinaJiliangUniversity,Hangzhou310018,China)
Saliency region is very important for video quality assessment and the optimization of perception video coding algorithm,it is also an important issue in computer vision.However,the accuracy and complexity of most algorithmes are not uniform well, which limites their application in the video preprocessing and real-time processing.In this paper,a fast video saliency detection algorithm based on 3D transform domain spectral difference (3DTDSD)is proposed.Firstly,it takes the keyframe and its previous frame as the center,establishe a sliding window to get two sets of 3D video cube.Secondly,with a Fourier transform,the cubes are transformed into three-dimensional frequency domain.Thirdly,the difference between the two sets of three-dimensional data after inverse transform can get the saliency map.Finally,through the connectivity analysis and threshold judgement get the saliency region.The experimental results show that the algorithm improve the accuracy of the test results,and computational complexity is also significantly reduced.
video;saliency;3D transform;3D video cube
國家科技支撐計劃項目(2013BAH54F04)
TN919.81
A
10.16280/j.videoe.2015.05.007
2014-08-28
【本文獻信息】關爽,殷海兵.基于三維變換域頻譜差的視頻顯著性檢測算法[J].電視技術,2015,39(5).
關 爽(1989— ),女,碩士生,主研視頻編碼算法優化;
殷海兵(1974— ),教授,碩士生導師,主要研究方向為高清視頻編碼芯片算法定制和VLSI結構設計。
責任編輯:時 雯