葛 菲,史 萍
(中國傳媒大學 信息工程學院,北京 100024)
對于電視節目中的廣告,商家需要知道其投放的廣告是否正常播放,而國家為了嚴格控制廣告的播放時間需要知道廣告在一天中所占比例,普通電視觀眾為了觀看或收藏完整的節目視頻,希望將其中的廣告部分去除。因此,對電視節目的廣告進行自動檢測成為不同用戶的共同追求。筆者在分析廣告特有的視頻特征的基礎上,提出了一種以鏡頭為檢測單位,利用統計分析的方法實現廣告視頻段落自動分割的方法。實驗證明,該算法有較高的正確率。
廣告視頻有區別于其他類型視頻的特征,如聲畫合一,圖像顏色鮮艷,鏡頭切換快,運動較多,對象繁雜,關鍵幀極難抽取,廣告段與電視節目之間音頻變化較大等。為將廣告片段從視頻節目中分離出來,可以檢測廣告片段中特有的特征,也可綜合利用切變檢測、靜止場景檢測、相似幀檢測、黑屏檢測和文字檢測等將廣告片段與正常節目區分開來。依據廣告特有的視頻特征,本系統分為以下幾個模塊實現廣告段落的分割,如圖1所示。

面對數據量巨大的廣告視頻,準確的鏡頭邊界檢測算法至關重要。目前已有的鏡頭邊界檢測算法有:直方圖特征值法、邊緣(輪廓)特征值法、運動特征值法等[1]。Yu等人采用信息熵確定幀間直方圖差的自適應閾值,對候選的漸變采用了熵閾值法來檢測分析[2]。但是針對廣告視頻的鏡頭邊界檢測來說其難點主要有以下幾方面:首先,與其他視頻相比,廣告段落鏡頭切換節奏快,而且涵蓋淡入淡出、切變等方式;其次,視頻中包含了大量的閃光處理,特別在廣告拍攝中更是常用的手法。按照一般的檢測算法,閃光出現時都會被認為是切變。對此,Zhang Dong等人提出通過建立切變模型和閃光模型來進行識別[3],如圖2所示。

由圖2可以看出,切變模型和閃光模型的視頻幀特征值都出現了較大的變化,但不同的是切變模型變化后視頻幀特征值穩定在另一個水平上,而閃光模型變化后,視頻幀特征值經過一幀或幾幀之后又回到原來的水平。本文以幀間直方圖差和幀間直方圖平均強度差為特征,采用雙閾值幀間差檢測算法進行鏡頭邊界檢測。雙閾值檢測算法流程如圖3所示。

定義抽取的特征為:


為了進一步討論如何判定該幀是切變模型還是閃光模型,定義參數如下:H1為當前幀和前一幀之間的強度差;H2為當前幀的后續n幀和前n幀之間的強度差,取 n=3~5。
在理想的模型下,很容易看出R=H2/H1在閃光模型中等于0,對應切變模型中的為1。因為具體的視頻與理想模型之間的差異,引入閾值T1=0.5。
為實現自適應閾值,本系統使用僅包含部分幀的基于時間軸的滑動窗W1來決定閾值的選取。考慮到在廣告中一個鏡頭可能持續不到1 s,以及閃光的持續實際上一般不會超過10幀,定義滑動窗口大小n=11,此處的幀為偶數幀或奇數幀,Tb與Ts的選取建立在對滑動窗口內幀間差的歸一化,可將幀間直方圖差的噪聲看成是高斯分布噪聲,那么令σ為幀與幀間差序列的標準方差,μ為差序列的均值。由高斯分布的特性可知:Tb=μ+ασ。 由實驗結果得知,當 α=5時,非鏡頭幀間差落在[0,μ+ασ]范圍外的概率為0。所以,計算Tb時的 α=3~5,計算 Ts時的 α=2~3。
一般的電視節目大致是由一系列的正片、片頭、片尾和廣告簡單連接而成,而且部分廣告段落是與片頭和片尾緊密相連的,片頭片尾部分包含大量的字幕信息,因此可以利用字幕特性確定片頭和片尾片段。此外,在電視劇、新聞、綜藝等節目播出時,在屏幕的左下角或右下角都會出現標志該節目名稱的字幕區域。因此,字幕段落的出現往往表示一個廣告段落的結束和新的電視節目的開始,或者一個電視節目的結束和新的廣告段落的開始,它可以作為廣告段落分割的邊界。
本文選擇經Sobel邊緣檢測[4]圖像的總邊緣像素點作為字幕檢測的特征值,具體實現流程如圖4所示。

其中

判決條件如下:

式中:Gx′和 Gx′′分別為 Z2和 Z8在水平方向的一階偏導,Gy′和 Gy′′分別為Z4和Z8在垂直方向的一階偏導。 滿足式(5)和式(6)或式(5)和式(7),則當前像素點屬于水平邊緣部分或者垂直邊緣部分,即該像素點屬于邊緣像素點。最后對屬于邊緣部分的像素點進行統計累加,得到值A,即為字幕特征值。
對于片頭片尾字幕片段的檢測來說,主要有以下幾方面難點:首先廣告中紋理條紋較多造成圖像邊緣點增加;其次,廣告片段中也可能出現字幕片段。經過試驗觀察,字幕占據的區域文字排列較緊密。根據這一特性,可用字幕的塊密度[5]來判定該幀是否為字幕幀,這樣可避免因不必要的紋理及條紋而造成圖像邊緣點的增加。另外廣告中字幕片段持續時間遠小于電視劇中字幕片段的持續時間,因此可設定一個持續幀數閾值Fth來判斷是否為電視劇中的字幕片段。
對于特定區域節目標志的字幕檢測來說,由于一般節目都附帶當前正在播出節目的節目標志,而這些節目標志往往放置在電視節目的左下角或右下角,所以這里對這2個敏感區域進行研究。如圖5所示,以352×288的視頻圖像為例,將左下角和右下角區域設為敏感區域,并根據統計經驗設定該區域的寬高值,單位為像素。

根據上述片頭片尾字幕檢測的算法,分別計算兩區域的字幕像素數。由于節目標志僅為左下角或右下角中的一側,所以將檢測出的字幕像素數多的一側作為節目標志出現區域。對分解出的鏡頭進行分析,當鏡頭中的每一幀的字幕像素數大于某一閾值th1時,判定該幀為字幕幀,當字幕幀比率Ratio超過另一個閾值th2時,則判定該鏡頭為字幕鏡頭,進而判定該鏡頭為非廣告鏡頭。
其中,Ratio=鏡頭中字幕幀數/整個鏡頭總幀數。
與視頻特征類似,音頻特征[6]的提取用于表征音頻信息。音頻信號具有短時性,即在一段短時間隔里音頻信號可以保持相對穩定的特征。實驗證明,廣告視頻段落的短時能量均值要比其他視頻的短時能量均值要高,所以短時能量均值也成為廣告視頻段落分割的一個重要特征。


筆者介紹的視頻廣告段落的檢測方法以“判斷-統計-分組-修正”這4個步驟為核心,如圖6所示?!芭袛唷本褪且袛嗍欠穹弦欢ǖ呐袥Q條件;“統計”就是統計有多少鏡頭滿足條件;“分組”就是將相同條件的鏡頭分成一組進而實現鏡頭的分類,最終分為字幕鏡頭(即非廣告鏡頭)、非字幕的廣告鏡頭和非字幕的非廣告鏡頭;“修正”就是將不滿足條件的鏡頭進行修正。

現有的廣告視頻檢測方法,一般是從廣告具有的圖像特征來進行識別。這種方法因為僅僅利用了圖像特征,因此存在檢測錯誤或檢測不全的問題。針對現有技術的不足,筆者提出了同時利用廣告視頻具有的圖像和音頻特征綜合進行檢測的方法。首先標志鏡頭類型,由分割出的鏡頭強度來初步判斷是否為廣告鏡頭,當鏡頭幀數小于某個閾值時,則初步判斷其為廣告鏡頭,反之為非廣告鏡頭。針對非廣告中字幕鏡頭、廣告中非字幕鏡頭和非廣告鏡頭這三種情況,對其做如下的判決與修正(見表1),進而檢測出廣告段落。

表1 電視廣告段落分割算法中的判決/修正表
試驗發現,這種統計分析的方法仍然存在問題,其中的某些廣告段落可能因為閾值選擇而出現一個段落被分割成多個廣告片段的情況。同時發現一普遍規律:每次插播的廣告時間一般不超過5 min。為了彌補上述問題,可以將標記為廣告的廣告段落從頭到尾搜索一遍,從第一個廣告段落的起始時間算起,將后續段落與第一個廣告段落的時間差小于5 min的段落合并為一個廣告段落,而超過5 min的段落作為下一廣告段落的起始點。
對中央電視臺播出的部分節目進行試驗,經過計算統計,電視廣告部分被正確地檢測出來,檢測結果如表2所示。

表2 中央臺某播出視頻節目廣告段落檢測結果
從試驗數據可以看出廣告段落檢測存在漏檢和誤檢的情況,原因如下:
1)閾值的選取是廣告段落檢測算法的關鍵。本文選取的閾值是經過對大量視頻節目特征進行分析統計得到的值,雖然在大部分情況下能夠正確檢測,但仍會出現漏檢和誤檢的情況,因此對閾值的選擇還需要進一步優化。
2)廣告段落檢測算法是在提取節目視頻的音視頻特征基礎上進行的,通過鏡頭邊界檢測得到鏡頭強度,通過字幕檢測得到視頻的字幕特征,通過比較平均短時能量均值,來區分廣告和一般視頻。由于電視廣告視頻圖像復雜多變,目前還做不到完全準確,所以廣告段落檢測時存在誤檢和漏檢的情況。
筆者提出了基于內容的電視廣告段落分割算法,首先對視頻節目進行音頻和視頻特征分析,提取視音頻特征作為廣告段落分割算法的分析特征,最終根據統計分析的方法,利用“判斷-統計-分組-修正”的核心思想,最終分割出廣告段落。后續將對閾值的選取及特征提取的精準度等進行優化,以達到更好的實用效果。
[1]XIN Ru,ZHANG Xiaotong,LI Hanzhang,et al.An area optimized directdigitalfrequency synthesizerbased on improved hybrid CORDIC algorithm[C]//IEEE 3rd International Workshop on Signal Design and Its Application in Communication.[S.l.]:IEEE Press,2007:243-246.
[2]VOLDER J E.The CORDIC trigonometric computing technique[J].IEEE Trans.Electronic Computer,1959,8(3):330-334.
[3]WANG S,PIURI V,WARTZLANDER E E.Hybrid CORDIC algorithms[J].IEEE Trans.Computer,1997,46(11):1202-1207.
[4]WANG Han,ZHENG Yousi,LIN Xiaokang.A parallel double-step CORDIC algorithm for digital down converter[C]//Proc.the 2009 Seventh Communication Networks and Services Research Conference.Washington DC,USA:IEEE Press,2009:257-261.
[5]吳芝路,楊水旺,任廣輝.基于MVR CORDIC算法的DDC設計與實現[J].電視技術,2007,31(1):27-30.