王艷 陳姝君
摘要:通過對新聞視頻中主持人鏡頭的分析,提出基于模板色矩的主持人鏡頭檢測算法。實驗表明,該方法能較準確地檢測出主持人鏡頭,具有一定的魯棒性。
關鍵詞:主持人鏡頭檢測;主持人模板;色矩1引言
由于主持人鏡頭是新聞視頻中的重要結構特征,因此,主持人鏡頭的檢測始終是新聞視頻分析的一個重要方面。許多研究者對這個問題進行過研究和探索,比如:利用模板匹配來進行檢測[1];利用主持人鏡頭會在整個視頻段中反復出現,并以此作為檢測的依據[2]等等。這些方法效果大都不錯,但算法都比較復雜,計算量較大。
2主持人模板的提取與色矩的計算
新聞視頻中的主持入鏡頭,是一類具有鮮明特征的鏡頭,其一般形式為一個或兩個主持人,在固定的演播室背景前進行新聞報道,主持人鏡頭實例如圖1。通過觀察可以發現,主持人的位置以及字幕、臺標和節目標志的出現位置,都有嚴格的規定,由此可以建立了主持人鏡頭的空間結構模型2。圖中,區域A-D分別代表主持人、臺標、字幕和節目標志所出現的區域。從簡化算法和降低計算復雜性方面考慮,本文根據主持人鏡頭的背景不變性進行檢測[3]。從不變的背景出發,通過色矩計算和模板匹配來進行主持人鏡頭的檢測。
本文的主持人鏡頭檢測方法如下:提取到主持人幀模板,計算如圖3各子塊的色矩作為模板色矩,通過計算關鍵幀各子塊的色矩向量與模板色矩向量的歐式距離,進行匹配,從而判定關鍵幀是不是主持人幀,從而判定關鍵幀所在鏡頭是不是主持人鏡頭。在音頻特性上,第一個主持人鏡頭出現之前會有一段音樂過渡,并且從音樂向語音的過渡中間,有一個較長的靜音片段。由于音視頻具有同步性,檢測到靜音幀后的第一或第二幀的圖像必定是主持人幀,從中可以提取到主持人幀的模板。
色矩是由Stricker和Orengo提出的一種簡單而有效的顏色特征[4]。它的數學基礎是圖像中任何的色彩分布均可以用它的矩來表示。由于顏色分布信息主要集中在低階矩中,這里僅用色彩的一階矩(mean,均值)、二階矩(variance,方差)就足以表達圖像的顏色分布,其數學表達式為:
其中,pij表示圖像中第j個像素的第i個分量,這里在HSI顏色空間進行計算。
3主持人鏡頭的算法
主持人鏡頭具體算法步驟如下:
Step1.根據音視頻的同步性,先是一段音樂,檢測到靜音幀后的第一或第二幀的圖像必定是主持人幀,提取主持人幀的模板。
Step2.計算主持人幀模板的各子塊色矩作為模板色矩。
Step3.計算各關鍵幀的各子塊色矩,與主持人幀模板的模板色矩進行匹配,確定關鍵幀是否是主持人幀,從而確定關鍵幀所在鏡頭是否是主持人鏡頭。
4實驗結果
實驗采用中央一臺長達30分鐘的8個新聞聯播進行主持人鏡頭檢測,共檢測出72個主持人鏡頭,無誤檢,無漏檢,查準率和查全率都達到了100%。
[參考文獻]
[1]王潤生.圖像理解.長沙:國防科技大學出版社,1995.
[2]馬宇飛,等.新聞視頻中的口播幀檢測方法的研究.軟件學報.2001(3)27-31.
[3]徐峻,等.新聞視頻中主持人鏡頭識別方法的研究.計算機工程.2002:Vol 28 NO.3.
[4]Stricker M,Orengo M.Similarity of color images.SPIE Storage and Retrieval for Image and Video Databases III,Feb.1995,2185:381-392.