摘要:基于傳統算法,提出了一種新的用來檢測融解變換的系統。該算法改進了像素點密度幀差、給出了像素均差、像素相似度的特征,并且提出了將融解漸變分為超短漸變、長漸變和短漸變的分類檢測方法。改進后的像素點密度幀差降低了全局噪聲,像素均差、像素相似度在融解漸變的檢測中表現出了良好的特性。實驗證明,分類檢測的思想,分離了原本容易混淆的超短漸變與切變、閃光,提高了檢測的召回率和精度。
關鍵詞:視頻檢索; 鏡頭邊界檢測; 融解; 漸變
中圖分類號:TP391.3文獻標志碼:A
文章編號:1001-3695(2008)06-1762-03
0引言
鏡頭是組成視頻的基本單元,也是對視頻內容進行深入分析和檢索的基礎,因此,研究鏡頭的邊界檢測具有重要的現實意義[1]。
在過去的十幾年,對鏡頭邊界進行檢測的方法層出不窮。但,由于沒有采用統一的檢測視頻,所得到的性能指標沒有公信力,從而無法客觀評價算法性能的優缺點。自從2001年,NIST發起TRECVID項目,鏡頭邊界檢測就一直是子任務之一。TRCVID為所有參與者提供大量的視頻作為實驗數據,以該數據作為統一的測試數據為進一步的分析提供了依據。到目前為止,切變檢測在某種程度上已經做得比較完備了,但漸變檢測還是沒有找到非常有效的解決方式。
融解(dissolve,DIS)的檢測一直是鏡頭邊界檢測中的難點。本文改進了基于像素匹配的幀差計算方法,嘗試提出了兩種新的特征;像素均差與相似度。特別地,按照漸變持續的幀數,對DIS漸變提出了一種新的分類方法,即分為超短漸變(3幀)、短漸變(4~8幀)和長漸變(9幀以上)。在實際的DIS邊界檢測中超短漸變占到短漸變的絕大部分,如TRECVID2005的檢測數據。這些超短漸變很容易被混淆到切變中,不但降低切變的精度也降低漸變的召回率。所以單獨對超短漸變進行檢測對于提高DIS的檢測的性能是非常必要的。
1檢測方法
目前國內外提出了很多算法,如像素比較法、直方圖比較法、邊緣檢測法、基于視頻分割模型的編輯方法[1~7]等。這些方法都能檢測切變,但都只對某些類型的漸變有效果。對于各種方法的比較可以參考文獻[8,9]。
1.1直方圖比較法
該方法是目前比較流行的一種方法,它丟失了像素間的位置信息,抗噪聲能力比像素比較法強。但總是存在直方圖發生漏檢的可能性。對它的一個改進是分塊直方圖[6]。但是這種分塊往往是人為規定每一塊的權重,沒有很好的適應性,對于局部的運動非常敏感。后來又有人提出了間隔幀差直方圖法,對于運動很劇烈的情況會造成很長一段序列都被判斷成漸變,造成虛檢測。本文提出的直方圖的方法,綜合利用分塊直方圖和直方圖。在一般直方圖檢測的基礎上,將一幀圖像分為上下兩個部分,有效去掉了下部字幕造成的影響。使得檢測的精度大大提高。
1.2雙閾值比較法
Zhang等人提出了用得比較廣的雙閾值比較法[7]。該法設置了兩個閾值T1、T2 (T1<T2),當特征差值σ>T2時,認為鏡頭發生切變;當T1<σ<T2時,認為存在鏡頭漸變。雙閾值比較法的難點是閾值的確定。本算法對于這個問題采取了三個措施:
a)利用當前幀前一個窗口的特征差的平均值作為活動閾值。
b)不滿足a)時設置一個較低閾值,漸變檢測中允許連續兩幀發生這樣的情況。
c)當特征差的累加和超過一個固定閾值時就進入后續處理,進一步提高精度。
2鏡頭邊界檢測算法體系結構
先解碼視頻流得到Y、U、V的值,然后提取出檢測算法所需要的特征值。圖1給出了算法的體系結構圖。
3特征的提取
3.1像素點密度幀差PWD(pixel wise difference)
像素點匹配幀差計算方法如下,設Dk,k+1為相鄰兩幀各個對應像素點間密度的絕對差值:
4DIS變換的檢測算法
4.1超短DIS變換的檢測
在視頻編輯過程中,超短DIS的比重正逐漸增加。通常情況下超短DIS會與突變(cut)混淆在一起,這里用一個專門的模塊來檢測它。算法描述如下:
a)設置窗口寬度為3;
b)初始化mean為相鄰兩幀前一個窗口和后一個窗口的特征差平均值;
c)若同時滿足:
(a)PDD(k) ={前后窗口PDD最大值} ;
(b)PDD(k)、PDD(k+1)中最大值小于最小值的x倍;
(c)PDD(k)、PDD(k+1)中的最小值大于mean的y倍,則進入d);
d)對于像素點匹配幀差、灰度直方圖相應的重復a)~c);
e)進入到后續處理。
對于持續長度只有一幀的閃光,它的相鄰幀差特性與超短DIS類似。因此,算法中加入了去閃光的過程。
在實際的視頻信息中,經常出現利用閃光來達到增強視覺效果的目的, 基于閃光和鏡頭切換的特點,采用Zhang的方法來消除閃光對檢測系統的影響[10]。
4.2長DIS變換的檢測
對于長漸變的檢測,使用改進的雙閾值法與模型法相結合的方法。通過研究發現,漸變開始時的閾值不應該用固定閾值,而應該使用自適應的閾值。假設發生大于漸變的起始閾值情況為1;小于這個值,但是同時大于一個更小的閾值的情況為0。理想情況下,發生漸變時視頻幀間差應該為1111。由于存在運動等干擾,認為如下情況也是漸變:1011、1001、1010。
考慮到字幕會對漸變,特別是長漸變的檢測造成干擾,所以增加了去掉字幕影響的步驟。因為字幕通常出現在屏幕的下方1/4處,提出了如下算法:取一幀圖像的上3/4部分,再進行比較。
以上對于雙閾值法的改進是檢測的第一步,但對于相機運動或者物體的移動都沒有辦法克服。通過DIS模型進行第二步檢測,目的是去掉運動,提高精度。
理想DIS的基于幀的密度變化曲線應該具有拋物線的形狀[11],如圖2所示。基于這個理論,使用像素均差PMD進行檢測。同樣,考慮到干擾的可能性,采取了抗干擾的措施。
非理想的情況下,如圖3所示,允許毛刺的比率小于20%。通過這個措施,在保證召回率不受大的影響的情況下提高了精度。
4.3短DIS變換的檢測
對于短漸變,它們有一個共同的特點,即變化比較劇烈。因此得到以下算法:當漸變的變化超過某一閾值時開始累加變化的值,當該值超過一個閾值時認為發生了漸變。通過實驗,證明了該算法的確可以提高召回率,但對短漸變很容易與運動混在一起的情況效果不大。好在實際情況下,兩幀DIS和長DIS占據了漸變中的絕大部分,所以對其他漸變用一般的雙閾值所得到的結果也是可以接受的。
5實驗結果與分析
實驗數據選取的是TRECVID2005和TRECVID2006的部分數據,時間長度為2 h,共有1 089個切變,643個漸變。這是國際通用的檢測數據,結果具備公信力。與一般的視頻數據相比,TRECVID的視頻結構復雜、涵蓋面廣、物體運動和相機移動等非常多。
由表1可見,邊緣算法對DIS的檢測效果并不好。Truong等人的DIS算法是目前已知的最好檢測結果之一,而且他們所采用的測試數據也是兩個小時。通過比較,可以看出,本算法具有更高的精度。可見,對于DIS進行分類檢測的思想對于精度的提高是有效的。考慮到實驗采用的檢測數據難度較高,這樣的一個檢測結果是可以接受的。
6結束語
實驗證明了上述算法的有效性和適應性。但由于視頻本身的復雜性,該算法還存在一定的誤檢和漏檢, 誤檢主要來源于鏡頭的大幅度晃動、鏡頭快速水平掃過不同的場景等情況;漏檢來自于漸變前后兩個鏡頭的顏色(灰度等)差別極其微小的情況。為了提高算法的檢測效果,可以加入其他的特征比如運動特征、邊緣變化特征以及特殊視頻的領域知識等以增強算法的檢測性能。
參考文獻:
[1]HANJALIC A. Shot-boundary detection: unraveled and resolved? [J].IEEE Trans on Circuits and Systems for Video Technology,2002,12(2):
90-105.
[2]ZHANG H J,LOW C Y, SMOLIAR S W, et al.Video parsing , retrieval and browsing : an integrated and content-based solution[C]//Proc of the 3rd ACM International Conference on Multimedia.New York:ACM Press,1995:15-24.
[3]SONG S M H,KWON T H. On detection of gradual scene changes for parsing of video data[J].SPIE,1997,33(12):404-409.
[4]KIKUKAWA T, KARAFUTO S. Development of an automatic summary editing system for the audio visual resources[J].Trans of the Institute of Electronics , Information and Communication Engineers,1992,J752A(2):204-212.
[5]LIU Qian-lei,YANG Lu-xi,ZOU Cai-rong.Twi-difference algorithm and pixel matching twi-difference algorithm[J].Journal of Image and Graphics,2003,8(2):161-168.
[6]NAGASAKA A, TANAKA Y. Automatic vi-deo indexing and full vi-deo search for object appearances[C]//Proc of the 2nd Working Conference on Visual Database Systems. Amsterdam,North-Holland:[s.n.] , 1992:113-127.
[7]ZHANG H J,KANKANHALLI A,SMOLIAR S W. Automatic partitioning of full-motion video[J].ACM Multimedia System,1993,1(1):10-28.
[8]LIENHART R.Comparison of automatic shot boundary detection algorithms[C]//Proc of Storage and Retrieval for Still Image and Video Databases VII .1999:290-301.
[9]LIENHART R R. Transition detection in videos: a survey and practitioners guide[J].International Journal of Image and Graphics (IJIG),2001,1(3):469-486.
[10]ZHANG Dong,QI Wei,ZHANG Hong-jiang.A new shot boundary detection algorithm[C]//Proc of the 2nd IEEE Pacific-Rim Confe-rence on Multimedia. London,VK:Springer-Verlag, 2001:63-70.
[11]MENG Jian-hao,HUAN Yu-jen,CHANG Shih-fu. Scene change detection in a MPEG-compressed video sequence[C]//Proc ofDigital Video Compression Algorithms and Tecchnol. 1995:14-15.
[12]TRUONG B T,DORAI C,VENKATESH S. New enhancements to cut,fade,and dissolve detection processes in video segmentation[C]//Proc of the 8th ACM Conference on Multimedia.2000:219-227.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文