何日升,智 敏
(內蒙古師范大學 計算機與信息工程學院,內蒙古 呼和浩特 010022)
隨著體育事業的發展,網球這項運動被越來越多的人所喜愛,而廣告在日常生活中扮演著重要的角色,贊助商會在網球比賽期間插播一些廣告。在網球視頻中,廣告自動定位算法及其應用的發展主要有以下幾個方面的應用:(1)對網球感興趣的人可以在視頻節目里快速地定位廣告并去除廣告,從而提高網球視頻的存儲效率;(2)對于從事網球視頻研究的人員來說,去除廣告的摻雜有助于提高網球視頻中對象的識別精確性;(3)對于廣告感興趣的人可以利用視頻廣告定位快速獲得廣告片段,從而可以節省其分析廣告制作技巧的時間。由于網球視頻內容的復雜性以及所插入廣告的制作方式和表現手法的多樣性,很少有人對網球視頻中如何定位廣告進行研究。以前的體育視頻研究通常集中在采用某個特定媒體的標記進行廣告定位,但媒體標記的復雜性和不確定性,給廣告定位帶來了麻煩。普通視頻中廣告的定位方法有鏡頭突變頻率法[1]、廣告特征事先存儲法[2]、魯棒的視頻廣告檢測技術[3]和散列函數改進算法[4]等,但是這些算法計算量大且對于網球視頻檢索結果不理想。本文分析了網球視頻中的語義信息,提出了利用幀切換時間差法進行網球視頻廣告定位。該方法在一定程度上減小了運算量,廣告的定位效果也相當理想。
視頻由一系列的幀按照時間的順序拼接而成,幀的信息也反映了視頻的信息。對于網球視頻,有些幀其內容大部分都是描述比賽場地的,稱為場地幀,其他的稱為非場地幀。場地幀最容易出現且出現次數最多,因為整個網球視頻基本上是一個關注網球比賽的過程,而網球比賽是不可能離開場地的。整個網球比賽視頻有以下列特征:(1)從場地幀開始,經過非場地幀又回到場地幀,多次重復這樣的做法;(2)場地幀到場地幀(中間含有非場地幀但不是廣告)的切換時間非常短且遠小于1.5 min,通常為幾秒到十幾秒。這是因為網球視頻是一個比賽的過程,不可能花更多的時間對某個球員或者觀眾進行描述,會快速回到比賽場地上。
幀的切換一般是指幀按時間的順序一幀一幀連續地切換,但本文描述的幀切換是指幀經過一系列與該幀無關的幀再到與該幀相似的幀的切換,具體是指場地幀經過非場地幀再到場地幀的切換。幀切換時間差是指前后兩個場地幀在網球比賽視頻中具體時間點的時間之差,也就是這兩個場地幀切換的時間間隔。由于場地幀到場地幀之間的切換頻率高且切換時間非常短,如果有商業廣告插入,那么在廣告之前的場地幀到播放廣告之后的場地幀的切換時間就會顯得更長。值得注意的是,這個切換時間遠大于平常場地幀到場地幀的切換時間。廣告是在網球比賽球員休息時播放的,并且這個休息時間也有明文限定。不妨設球員休息的最短時間為一個閾值,通過比較這個閾值和場地幀到下一個場地幀的切換時間間隔來判定是否有廣告的存在。
由于網球比賽場地的多樣性和幀中內容的多樣性,從眾多的幀中找出場地幀有一定的難度。場地幀的識別關系到廣告的定位結果,為了提高場地幀的識別速度和精確性,先進行粗識別再進行二次識別。
從上文的網球視頻語義分析來看,場地幀基本上是對球場進行描述,而球場類別有限且場地顏色單一,主顏色是指在某個幀所有顏色中出現次數最多的顏色,基于這個特點可選取主顏色作為幀的顏色特征。
HSV空間是一種符合人類視覺感知的顏色空間,它把色彩分為色調 H(Hue)、飽和度 S(Saturation)和亮度 V(Value)三種屬性。考慮到場地幀的顏色特性和計算量的大小,選取HSV空間中的H值作為場地幀的顏色特征。場地幀是出現次數最多的幀,那么場地幀對應的主顏色在所有主顏色中出現次數最多。利用這個特點,把視頻中所有幀的主顏色按顏色種類進行分類,統計各種主顏色出現的次數,把出現次數最多的主顏色所對應的幀全部查找出來(這種方法在數據庫中利用SQL語句很容易實現),這樣就得到了所有場地幀。
由于顏色特征不是場地幀的唯一特征,因此通過主顏色找出的這些幀中會含有非場地幀。為了提高廣告的定位精確度,要對通過主顏色找出的幀進行二次識別。
由于場地幀中的場地具有顏色單一、分布集中等區域性,而能量、熵、對比度、反差分矩是最常用的紋理特征,因此可以選取能量、熵、對比度、反差分矩作為場地幀紋理特征。能量又稱為角二階矩,是圖像灰度分布均勻性和紋理粗細的一個度量,粗紋理含有較多的能量,細紋理含有較少的能量。熵是圖像所具有的信息量的度量,若圖像沒有任何紋理,熵值接近為零;若圖像充滿細紋理,則圖像的熵值最大。對比度描述圖像的清晰度和紋理的強弱,值越大,表明紋理效果越明顯;值越小,表明紋理效果越不明顯。反差分矩反映圖像紋理的同質性,度量圖像紋理局部變化的多少,其值大則說明圖像紋理的不同區域間缺少變化,局部非常均勻。由于場地幀之間的變化非常小,可以把粗識別后幀的能量、熵、對比度、反差分矩的特征值進行降低等級量化,再利用分類的思想把這些紋理特征值進行分類,把出現次數最多且能量、熵、對比度、反差分矩每一個特征值都對應相同的幀提取出來,這些幀就是場地幀。
近一化的思想是:為了處理問題方便,常常把非常相似的多個物體看作為同一個物體然后對其進行處理操作。在網球比賽視頻當中,由于場地幀基本上是形容球場的,相互之間差別非常小,可以把這些幀視為同一個幀進行處理,這種方法稱為場地幀的近一化。找到了場地幀,要對場地幀進行近一化,可以為每一個幀設一個標記位(tag),把所有已經找到的場地幀的標記位記為1。為了便于說明下文廣告定位算法,其他幀的標記位記為0,則所有tag=1的幀表示是近一化后的場地幀。
按照國際慣例,網球比賽中球員的最短休息時間為1.5 min,網球視頻中的商業廣告是在球員休息的時間內播放的。通過上文的語義分析可知,平常的場地幀之間切換(不含有廣告)時間非常短,而球員的休息時間是有限制的,可設這個球員最短的休息時間為一個閾值。從場地幀到場地幀的切換時間如果大于1.5 min,那么這段含有廣告。 當 tag的序列為“…1,1,1,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,1,1,1…”時,按順序依次判斷兩個 1(連續的0前后的兩個1,如上面的粗體的1)之間的時間差是否大于1.5 min,如果是,那么這一段含有廣告。算法思想如下:
(1)在 tag序列中,設 X為第一次出現序列“1,0”中 1出現的位置,Y為第一次出現序列 “0,1”中1出現的位置,WAY為Y、X的時間差;
(2)計算 WAY的值,如果 WAY≥1.5 min,則分別記錄 X、Y的值(X、Y之間為廣告);
(3)X取下一次出現序列“1,0”中 1出現的位置,Y取下一次出現序列“0,1”中1出現的位置,重復步驟(2)~(4)直到 tag序列結束。
本文設計了一個基于Java+MySQL的廣告位置檢索系統,圖1所示為對比賽時間為60 min的網球視頻進行檢索的結果顯示界面。單擊“打開”按鈕把視頻導入到檢索系統中,再單擊“廣告檢索”按鈕,就把視頻中的廣告檢索出來并顯示在界面上。單擊“播放”就可以播放所檢索出來的相應廣告片段。
對4場網球比賽視頻進行實驗,廣告檢索結果如表1所示。從表1可以計算出誤檢率和漏檢率均為5.4%,檢索效果比較理想。如果把3個漏檢的廣告定位到原比賽視頻來看,會發現這3個廣告是在網球比賽之前或者比賽結束之后播放的。對于表1中的誤檢數,其中有兩個是由于在開賽后對某個球員和觀眾過多地進行描述引起的,另外一個是網球運動員意外受傷所導致的誤檢。出現這些誤差也是本文方法的不足,需要結合其他方法進行改進。基于語義的網球視頻廣告定位方法從底層出發研究了網球視頻幀之間的相關性,并根據網球比賽中球員休息所特有的時間特征來實現的。由于紋理特征的提取比顏色提取算法復雜,本文先用顏色特征對場地幀進行粗識別,再用紋理進行二次識別,時間上要比鏡頭突變頻率法、廣告特征事先存儲法省時。使用基于視頻語義的幀切換時間差法,除了能檢索網球視頻中的廣告,還可以檢索如羽毛球、乒乓球等其他比賽視頻中的廣告。


表1 實驗結果
[1]Hua Xiansheng,Lu Lie,Zhang Hongjiang.Robust learning-based TV commercial detection.Multimedia and ExPo,2005.ICME 2005.IEEE International Conference,2005.
[2]LIENHART R,KUHMUNCH R,EFFELSBERG C,et al.On the detection and recognition of television commercials[C].Proceedings of IEEE International Conference,1997:509-516.
[3]張亮.魯棒的視頻廣告檢測技術研究[D].北京:北京交通大學,2007.
[4]解德勝.視頻廣告檢測算法研究[D].重慶:西南大學,2009.