摘 要:在分析已有基于信息論的鏡頭檢測算法的基礎上,針對其在鏡頭漸變尤其是在鏡頭融合的檢測上的不足,提出了一種新的鏡頭算法。該算法以信息論為基礎,結合運動信息對鏡頭變換進行檢測。試驗結果表明,該算法有著良好的鏡頭變換檢測能力。
關鍵詞:鏡頭檢測; 鏡頭融合; 信息論; 運動信息
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2007)06-0181-03
基于內容的視頻檢索是根據視頻的內容和上下文關系,對大規模視頻數據庫中的視頻信息進行檢索。它充分利用視頻中的各種信息(包括顏色、紋理、形狀、運動矢量、亮度等),實現自動或半自動的視頻檢索[1]。在基于內容的視頻檢索中,一般要進行的第一個步驟就是講視頻序列分割為基本的鏡頭和場景,即進行鏡頭檢測和場景檢測。鏡頭檢測的任務是將視頻序列按照時間和空間的變化分割成一個個基本的鏡頭。
鏡頭邊界可分為突變和漸變兩種。突變是將兩個鏡頭直接連接在一起實現的,在兩個鏡頭之間沒有使用任何的視頻邊界特效;而在漸變中,鏡頭之間采用了多種鏡頭編輯方法,鏡頭與鏡頭間的連接和過渡更加自然、緊密、美觀。漸變又可以細分成淡入淡出(Fade)、融合(Dissolve)、旋轉(Spin)、翻轉(Wipe)等。一般而言,對于漸變邊界的檢測難度要大于對突變邊界的檢測,這也是鏡頭檢測中的關鍵點。
關于鏡頭邊界檢測,目前已經提出了許多的算法。從面對的視頻數據,可以大略把這些算法分為兩類:①在未壓縮的視頻數據中進行檢測;②直接對壓縮視頻進行鏡頭檢測[2-4]。從使用特征出發,算法也可以分為兩類:①利用視頻數據的底層顏色特征進行檢測,使用得比較多的是直方圖特征和像素點的顏色比較[5-9];②使用視頻數據中比較高層的信息進行檢測,有的利用視頻壓縮中的運動預測方法,如根據視頻中的運動信息[10]、視頻中幀圖像的邊緣信息[11-12]進行分析等。
信息論是運用概率論與數理統計的方法研究信息、信息熵、通信系統、數據傳輸、密碼學、數據壓縮等問題的應用數學學科。鏡頭的變化本質上就是信息的變化,因此,研究人員也采用了信息論的觀點來進行鏡頭邊界檢測[13-14]。基于信息論的觀點來進行鏡頭檢測的方法相對其他算法直觀高效,在鏡頭檢測中取得了不俗的成績,但是在漸變鏡頭中出現頻率非常高的鏡頭融合顯得力不從心。因此,筆者在這方面進行了一些嘗試,在信息論的基礎上,提出了一種能夠比較好地檢測多種鏡頭變換的檢測算法。
1 信息論在鏡頭檢測中的應用及問題
信息科學是以信息為主要研究對象,以信息的運動規律和應用方法為主要研究內容,以計算機等技術為主要研究工具,以擴展人類的信息功能為主要目標的一門新興的綜合性學科。就本體論意義而言,信息是標志事物存在及其關系的屬性。但這樣的描述難以將信息定量化。因此香農就從認識論意義而言定義信息,即信息是認識主體接收到的、可以消除對事物認識不確定性的新內容和新知識。根據這一點給出了信息量的數學形式。
在文獻[14]中,提出了一種基于信息論的鏡頭檢測方法。在這種方法中,通過分析互信息的變化來檢測鏡頭突變,通過分析聯合熵的變化來檢測鏡頭漸變。本文提出的算法在相當程度上也是受到該方法的啟發。該算法直接將信息論方法運用到鏡頭檢測中,相對于其他算法,檢測效果較好且簡單易于實現;但在實驗中發現,它對漸變鏡頭中出現頻率非常高的鏡頭融合顯得檢測能力有限。基于此引入了運動信息,嘗試將其與信息論的方法結合起來進行鏡頭檢測。
2 結合信息論和運動信息的鏡頭檢測算法
文獻[14]通過直接統計幀與幀同一位置像素點灰度值的變化來獲取幀間的互信息和聯合熵。在實際的視頻序列中,由于幀圖像中對象或攝像機的運動,往往會造成這樣一種現象出現:即使是在同一鏡頭中相鄰幀,在同一個位置上的像素點灰度值也并沒有什么必然的聯系。如果幀圖像中對象的視覺特征或運動比較復雜,這種現象會更加明顯。因此通過直接統計幀與幀同一位置像素點灰度值的變化來獲取幀間的互信息和聯合熵很容易導致對圖像變化或噪聲過于敏感。這樣會使合適閾值的選取很困難,有時甚至毫無規律可言,必然出現誤檢率的急劇增加,也會給后面的進一步分析帶來很多麻煩。
為了解決這一問題,一個很容易想到的辦法就是對于幀上的像素點,為其在另一幀上找到一個合適的像素點,通過統計這些像素點對的灰度值變化信息來獲取幀間的互信息和聯合熵。但是怎樣去尋找這樣一個合適的像素點呢?一般來說,這樣的像素點應該能夠反映出兩幀之間的一些相關性,而且最好是能夠反映出幀圖像中對象的變化情況。運動是對象的一個很重要的屬性,這時就可以利用運動預測算法,利用其來尋找相應的像素點。在本文中筆者選擇了ChunHo Cheung等人在2005年提出的交叉菱形—六邊形搜索法[15],利用它來尋找合適匹配像素單位。
經過運動補償處理后,剔除了大部分噪聲和運動的影響,所得到的JE和MI值能更好地反映出幀與幀的信息相關性。這就給后面的鏡頭檢測提供了更好的數據支持。
文獻[14]認為,當發生了鏡頭漸變時,JE曲線會呈現連續單調下降或上升時且有著比較大的斜率。但在試驗中發現,并不是在所有的鏡頭漸變過程中JE值均會單調下降。一般來說,在淡入淡出時,JE值會呈現單調上升或下降曲線。但在更多的時候,鏡頭的漸變不會這么簡單,在鏡頭編輯中用得非常多的融合,它是將兩個鏡頭逐漸地連接在一起,在融合的過程中,前一個鏡頭的畫面會與后續鏡頭的畫面同時出現,前一鏡頭的畫面逐漸減弱,后一畫面逐漸增強,直到前一鏡頭的畫面全部消失,后一鏡頭的畫面增強到正常狀態。在這個過程中,雖然前一鏡頭畫面的JE值在減小,但是后續鏡頭畫面的JE值卻在增大,在有些融合的過程中,JE值不會呈現單調的上升或下降狀態,而是一個類似鋸齒狀的谷形曲線。因此,為了獲得對漸變鏡頭更好的檢測效果,有必要對JE值作進一步處理。在這里使用了取均值方法,JE分析值取為以當前幀所在區間的JE平均值。取均值前后的JE曲線如圖1所示。
圖1 取均值后前后融合時的JE曲線(war)
另外,在有的融合過程中,如果前后兩個鏡頭的內容相近,或融合的過程比較長,這會導致JE的曲線非常平緩。如果進行分析的話,就不得不減小斜率閾值,但是斜率閾值的減小將會導致誤檢率的迅速增高,有時達到不能容忍的地步。在這種情況下,單純地依靠式JE值來進行判斷,已經不能滿足使用需求。
在初期,筆者考慮使用MI值來輔助檢測漸變,但是在上面兩種情況中,MI曲線也比較平緩,難以成為輔助條件。這時筆者想到了在算法初期使用的運動預測方法,考慮把運動預測得到的信息加入到鏡頭漸變檢測中來。在鏡頭融合的過程中,前后兩個鏡頭的變化是一個此消彼長的過程,而且是通過逐步變化實現的。在這個過程中,由于后一鏡頭中的內容是逐步顯現出來的,在連續兩幀之間數據的變化不會很大,會使得在運動預測中相關的像素點塊對之間的亮度偏移會集中在一個取值比較小的區間。這直接導致亮度偏移量處在這一區間的匹配塊對數量明顯增加,如圖2中125幀、500幀、650幀處(當取塊平均亮度差為(3.5,4.5)區間時,以視頻war為例)。于是可以利用這一特征來進行鏡頭漸變檢測。
可避免地會造成誤檢測。因此,有必要將其與其他特征結合起來共同進行檢測。
在實驗中又發現,在融合區域,JE的平均值Ht,t+1曲線會呈單調上升或者下降,但是幅度一般很小。在這里只需簡單地判斷Ht,t+1曲線是否存在連續單調上升或下降,一般當連續值大于5,就認為這里可能發生了鏡頭漸變。
于是可以將運動預測信息和平均聯合熵值的單調狀態結合起來共同檢測鏡頭漸變尤其是其中的鏡頭融合。當同時滿足這兩個特征時,就認為這里發生了鏡頭融合。
3 試驗結果及展望
試驗所用的數據來自于影片。其中包含了各種復雜的鏡頭變換和攝像機運動。視頻數據為YUV420格式,幀圖像大小為352×240的彩色圖像。在實驗中,算法只對其中的Y分量進行了分析。
為了量化算法的檢測效果,定義了檢中率Recall和查準率Precision兩個指標:
從試驗結果可以看出,該算法在鏡頭檢測上有著較高的檢中率和查準率,其分別達到了93.1%和85.8%。但在試驗中也發現,當融合的兩個鏡頭視覺內容相似且融合緩慢,或者融合的兩個鏡頭內對象均處于高速運動中,這時就容易發生漏檢。因此在今后的工作中,應當把注意力主要放在漸變鏡頭融合的漏檢問題上。根據筆者的分析,這應當與運動預測部分有一定的關系,因為本文所選用的運動預測信息實際上并沒有完全擺脫視頻壓縮中運動預測的范疇,不是完全地從對象層來分析運動信息,這就造成了在融合過程中運動信息沒有起到足夠的支撐作用。尋求一種更好的獲取運動信息的方法,將是下一步關注的問題。
本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。