摘要基于內容的視頻檢索技術是當前視頻檢索研究的熱點,鏡頭分割是視頻檢索關鍵技術之一。本文提出一種采用直方圖差和邊緣變化率兩個特征相結合的鏡頭分割算法,算法思路清晰、計算量小。實驗證明,該算法對鏡頭的突變和漸變均達到了較高的檢全率和檢準率。
關鍵詞視頻檢索鏡頭分割直方圖邊緣提取
中圖分類號:TB89文獻標識碼:A
隨著多媒體技術的日趨成熟,圖像和視頻已經是人們喜聞樂見的一種交流方式。因特網的迅速發展,網上數字視頻的增加,使得如何在海量視頻中快速準確地檢索出所需要的資料顯得至關重要。目前比較成熟的檢索方式是基于關鍵詞的檢索方式,這種文本標引技術對于視頻數據的管理、存儲、查詢等操作存在相當大的局限性,如描述能力有限、需要手工標注、浪費人力物力,而且主觀性強,同時丟掉了視頻的許多高級語義信息,已經遠遠不能滿足視頻檢索的需求。因此,人們提出了基于內容的視頻檢索技術(Content-Based video Retrieval, CBVR)。基于內容的視頻檢索技術提供了對大量的視頻檢索和管理的途徑,成為當前研究的熱點問題。
基于內容的視頻檢索技術是直接對視頻中的各種特征,包括顏色、紋理、邊緣、形狀、運動矢量、亮度等進行分析,抽取語義特征,利用這些特征建立索引,可以實現自動和半自動的視頻檢索。
1 視頻鏡頭分割
視頻數據是由多個場景構成的,每個場景由多個鏡頭構成,每個鏡頭又由多個幀組成。幀是視頻數據的最小單位,即每一幅靜態畫面。基于內容的視頻檢索技術,是一種從幀中獲得各種特征信息,逐步建立視頻內容的一種自底向上的分析方法。首先對視頻進行不同的鏡頭分隔,然后從每個鏡頭中提出一個或幾個關鍵幀代表一個鏡頭,再把關鍵幀或鏡頭組織成情節,最后進行視頻聚類,創建視頻索引,供用戶進行視頻檢索。
把視頻分割成不同的鏡頭是視頻檢索技術關鍵性的第一步,目前已有許多學者對視頻分割進行相關研究并提出了許多有價值的算法。視頻鏡頭分割算法的正確性和有效性直接影響關鍵幀提取、視頻摘要,影響視頻檢索的正確性。鏡頭分割算法主要分為兩類,非壓縮域鏡頭分割和壓縮域鏡頭分割。非壓縮域鏡頭分割算法的研究已經比較成熟,針對不同的應用提出了許多算法。壓縮域的鏡頭分割算法是今后研究的一個趨勢。
根據對視頻數據不同的編輯手法,我們可以把鏡頭分為兩大類:突變和漸變。突變是指一個鏡頭直接轉換到下一個鏡頭,中間沒有延遲。漸變是指一個鏡頭慢慢地過渡到另一個鏡頭,中間有一些時間和空間上的處理,常用的有淡入、淡出和溶解。鏡頭發生變化的時候,視頻數據會出現一系列的變化,同一鏡頭中的連續幀之間一些特征差別比較小,不同鏡頭的幀之間的某些特征差別會比較大,通過查找較大變化的幀間差,來檢測鏡頭的邊界,實現鏡頭分割。雖然鏡頭分割的研究有了很大的進展,但對鏡頭檢測算法中,突變檢測的準確率是90%,而漸變檢測的準確率只要70%~80%。豍本文提出了一種綜合多種視頻特征進行視頻分割方法,對突變和漸變都達到了較高的檢全率和檢準率。
2 特征提取
2.1 直方圖差特征提取
彩色直方圖能夠從整體上來體現視頻幀序列的特征。通過比較連續幀之間的直方圖特征來判斷鏡頭邊界的方法,已經被廣泛使用。在視頻序列中相鄰兩幀的直方圖差由下面公式得到:
minminmin
是當前的幀與前面的幀之間的直方圖差。是一幀中所有象素的總個數。是彩色模板中的紅、綠、藍三個顏色分量。是第幀中紅色分量值為的象素數。實驗證明的值在[0,1]之間變化豎豏。
2.2 基于邊緣特征的算法
對連續的視頻數據幀提取邊緣特征,發現在鏡頭發生變化時,總有新邊緣出現或舊邊緣消失。把消失的舊邊緣稱為“出邊緣”,把出現的新邊緣稱為“入邊緣”。可以通過計算入邊緣和出邊緣的象素數,檢測和區分鏡頭的變化。相鄰兩個視頻數據幀的邊緣變化率由下面公式得出:
max
其中是當前的幀與前面的幀之間的邊緣變化率。是第幀的入邊緣總象素數,是第幀的出邊緣總象素數,是第幀的邊緣象素總數。邊緣用Canny算子豐提取。
對于一段視頻流中有兩幀連續圖像和,用邊緣變換識別法來鑒別這兩幀是否屬于不同的鏡頭,主要有以下幾個步驟:
(1) 首先,對這連續兩幀圖像進行邊緣提取,得到二值圖像和。
(2) 對和進行邊緣加寬。即對邊緣上各象素點用半徑為r的圓形代替,得到加寬后的二值圖像和。
(3) 計算邊緣變換率。
檢測過程中發現,鏡頭發生突變、漸變和溶解時,ECR時間序列會表現出色4種不同的特征。突變時,ECR時間序列會出現一個較大的峰值;淡入變化時,“入邊緣” 占優勢;淡出變化時,“出邊緣”占優勢;溶解變化時,ECR時間序列會出現比較明顯的持續的高值。
3 算法設計及實現
算法執行過程中采用雙閾值分割方法,通過學習得到兩個閾值a,b。首先檢測連續兩個相鄰數據幀直方圖差HI,如果HI的值超過較大的一個閾值a,認為出現鏡頭突變。如果直方圖差HI低于較小的一個閾值b,認為在同一個鏡頭內部,沒有出現新鏡頭。如果HI在a,b之間,認為有可能存在鏡頭漸變。針對有可能存在漸變的位置再通過邊緣變化率來判斷是否存在鏡頭漸變。算法流程圖如圖1。
根據上述算法設計思想,用matlab對算法進行仿真,對新聞、體育、電影等7組視頻進行鏡頭分割。實驗數據如表1所示,檢全率達到89.3%,檢準率為80.3%。
實驗結果表明,采用直方圖和邊緣變化率兩種特征相結合,對視頻中鏡頭進行檢測,檢全率相對只用一種特征的方法有所提高。同時,本算法對大部分的鏡頭突變采用直方圖差進行分割,在對其余部分進行邊緣變化率提取。算法的計算量相對只采用一種特征的進行鏡頭分割的方法不會大太多,而檢全率和檢準率都有提高。