施陳博,王貴錦,林行剛
(清華大學 電子工程系,北京 100084)
足球作為第一大球類運動廣為世人喜愛,錄像機越來越多地用于足球比賽視頻錄制,以便日后觀看和回顧。自動錄制比賽時常常要預先設定將近3倍于比賽視頻大小的存儲空間,以確保所錄制比賽的完整性。為節省存儲空間,在錄制節目的時候自動檢測比賽開始和結束的準確時刻,對視頻內容的分類、足球比賽視頻的標定、回顧等后期處理工作很有意義。
目前,通過對開場和終場哨音等一些特殊音頻的分析進行開場和終場檢測的算法已被提出[1-2]。但是這種方法在音頻噪聲較大的情況下很難提取出關鍵特征,并且不是所有比賽都會有這樣的特征。在基于圖像分析的基礎上,文獻[3]利用檢測比賽過程中的顯示時間Logo來確定比賽實際時刻的算法。這種方法對Logo的檢測準確率要求較高,由于不同的Logo形狀顏色區別很大,并且有一部分比賽在開始和結束時不顯示比賽時間,因此檢測結果誤差較大,并且檢測算法也很難適用于大部分比賽。
由于足球比賽具有相似的場地特征,因此其算法可彌補現有算法的不足。基于足球比賽中鏡頭的檢測和分類,提出用中層特征來檢測比賽的繼續和中斷,并結合多維高斯分布的聯合概率模型,高效準確地檢測出比賽的開始和結束。本算法基于對比賽場地的分析,對與足球比賽場地相似的體育比賽來說,只要改變相應的鏡頭定義和分類方法,就可以擴展到其他比賽開始和結束的檢測。
廣播足球比賽開始的時間常常與節目單預告的時間有較大的差別。例如世界杯決賽由于之前有閉幕式,實際比賽時間會推遲一段時間,而另一些比賽進行轉播的時候比賽已經開始了。基于音頻特征的算法不能很好地處理這些問題,而且并不是所有比賽開始時都具有特定的場地特征,比如中圈橢圓、運動員站位等,每幀處理的復雜度太大。綜上,應選擇以鏡頭為單位的檢測算法。
對比賽開始和結束檢測的完整框圖如圖1所示。對輸入視頻先進行鏡頭的檢測和分類,然后進行特征提取,通過一組弱分類器,分別檢測出可能的比賽開始和結束時刻,接著通過對得到的開始和結束時刻集合進行最大似然估計,最終選取最優組合得到準確的比賽開始和結束的檢測結果。

圖1 足球比賽開始和結束檢測框圖
將中間檢測出可能的比賽開始和結束的時刻稱作比賽的繼續和中斷時刻[4]。為保證檢測到的比賽完整性,盡量保證檢測的比賽開始時刻稍早于實際比賽開始時刻,而檢測的比賽結束時刻適當晚于實際比賽結束時刻。
鏡頭(shot)是視頻分析中常用的單位,是指用同一攝像機連續進行拍攝的一段視頻。在足球比賽視頻中,對視頻圖像的語義層分析大部分都是基于鏡頭的檢測。在現有的文獻中,根據圖像中主顏色像素分布的統計[5],將足球比賽中的鏡頭分為4類,如圖2所示。

長鏡頭為對足球場地全局的視圖,中鏡頭為對足球場地某特定區域的拍攝,特寫鏡頭為對足球場地內運動員或裁判的特寫;場外鏡頭為對足球場地以外的拍攝。
使用文獻[6]中的算法,能夠較好地區分長鏡頭、中鏡頭和特寫鏡頭,改善鏡頭檢測和分類效果。與一般的廣告鏡頭相比,長鏡頭是足球比賽中最主要的特征。一般非比賽視頻中不會長時間和高頻率地出現長鏡頭。通過對大量足球比賽視頻的統計可知,比賽中第1個長鏡頭的出現和比賽開始的平均時間差在30 s以內,因此將比賽的第1個長鏡頭作為檢測比賽開始的標志是合理的。在檢測比賽結束時,將沒有長時間或高頻率長鏡頭的出現作為主要特征之一。中鏡頭和特寫鏡頭的檢測能夠消除比賽過程中由于球員受傷等引起的比賽短暫中斷造成的誤檢,對提高比賽結束時刻檢測的精度也很有幫助。
以每一個長鏡頭為窗口的開始,在一段相對長且長度固定的時間內統計各類鏡頭的數目和長度(見圖3)。
圖 3 中,W1,W2,W3,…為檢測窗口,窗口的起始位置為長鏡頭,每個窗口的長度固定為T(實驗中取T=5 min)。分別統計足球比賽和非足球視頻中長鏡頭出現的頻率和長度,提取出如下能夠較好區分不同窗口的弱分類特征:F1為最后一個長鏡頭和窗口末端的時間長度,F2為該窗口中的長鏡頭總數,F3為該窗口中長鏡頭總的時間長度,F4為相鄰兩個長鏡頭之間的時間長度,F5為中鏡頭和特寫鏡頭的總數。其中,F1是為了準確定位比賽中斷的時刻,F2和F3是比賽進行中區別于其他電視節目的分類特征,F4和F5的作用是增加足球比賽進程檢測的可靠性。

通過不同的分類器將長鏡頭分為3類比賽鏡頭:中斷鏡頭、繼續鏡頭和非關鍵鏡頭。中斷鏡頭指比賽發生中斷時所在的鏡頭。繼續鏡頭是指比賽從中斷到繼續進行所在的鏡頭。其余鏡頭統稱為非關鍵鏡頭。非關鍵鏡頭短時間內只存在于比賽過程中,因此對比賽起始和終止檢測有用的主要為前兩種鏡頭。由于比賽繼續和中斷在時間軸上必然是依次交錯的,因此根據前一個有效鏡頭的類別,可以確定當前所要檢測的鏡頭是繼續鏡頭還是中斷鏡頭。對這兩類鏡頭的檢測,采用上述特征的弱分類器的不同組成來實現對不同比賽鏡頭的檢測。具體的分類器實現如圖4所示,其余鏡頭都作為非關鍵鏡頭,不再進行分析和處理。

圖4 繼續鏡頭和中斷鏡頭分類器流程
經過不同的比賽鏡頭分類器分類,可以檢測所有可能的比賽繼續和中斷的長鏡頭。為了盡量保證檢測到的比賽的完整性,根據當前長鏡頭前后一定范圍內的鏡頭種類和數目進行細微調整:在檢測到的繼續鏡頭之前2~3個鏡頭中,如果出現中鏡頭和特寫,則繼續鏡頭位置適當前移;在檢測到的中斷鏡頭之后3~5個鏡頭中出現中鏡頭和特寫,則中斷鏡頭位置適當后移。這樣能得到更合理的比賽開始或者終止的時刻。
如圖5所示,通過特征提取和對比賽繼續中斷的檢測,得到比賽繼續和中斷的時刻序列L2。實際足球比賽在時域上存在一定的規律(L1),目的是要在L2中找到與真實比賽L1的最大似然估計,獲得最為接近的時刻組合,L3就是最佳匹配結果。

檢測到比賽開始的時刻集合為 S={s1,s2, …,sn},檢測到比賽結束的時刻集合為 E={e1,e2,…,em}。 為簡化問題,這里暫不考慮加時賽的影響。在集合S和E中各取2個點 si,sj和 ek,el,組合成有序序列。每個檢測到的時刻可以認為是獨立的,而相鄰時刻的間隔需要滿足實際比賽模型的約束。因此每組抽取的數據,通過聯合概率分布來描述對實際比賽模型的估計。對于選取的每一組數據 X=(si,sj,ek,el),對模型的似然估計概率為

式中:pf,ps分別為所在時刻組合在上、下半場的概率,pm為其組合中場休息時間的概率。pm在不同錄制的足球比賽視頻中差別較大,所以在直播情況下,pm同樣是高斯分布,聯合概率中需要考慮pm的影響,而在一些剪輯過的比賽錄像中,pm在(0,t)之間均勻分布。將所有對模型得到的估計和預先統計的門限概率相比較后取最大值,得到對模型的最大似然估計,來確定視頻中是否為完整的比賽,同時也給出完整比賽的開始和結束時刻

式中:pth為統計得到的概率閾值;tfs,tfe,tss,tse為檢測結果。
對50場比賽的上下半場的時間進行了統計。經過一次3階的平滑后,得到對比賽長度的統計結果:前半場的峰值時間在46 min,而后半場的峰值時間在48 min,如圖6所示。
利用高斯分布擬合統計結果。由于時間在峰值的兩側是不等同的,足球比賽規則是上下半場的時間為45 min,但一般的比賽要大于45 min,因此采用雙邊高斯函數來描述上下半場長度分布



式中:σf1,σf2,σs1,σs2分別為各邊對應的方差。
試驗中使用9場完整的足球比賽和30段包含部分足球比賽和無比賽的視頻作為測試的數據集。為了證明該算法的穩健性,在選取的9場完整比賽中包含多種不同的場地和環境。比賽來源如表1所示。
實現文獻[6]中的算法進行的鏡頭檢測和分類,可以得到95%以上的檢測率和5%以下的誤檢率。因為本文算法基于聯合概率分布,這樣的鏡頭檢測率不影響對比賽關鍵時刻的檢測率。首先對數據集上進行是否包含完整足球比賽的檢測,誤檢率為0%,檢測準確率為100%。結果說明了算法能夠很好地區分完整的比賽視頻。對這9場完整比賽的檢測結果誤差如圖7所示。
由圖7可以看到,比賽開始時刻的檢測誤差基本小于0,比賽結束時刻的檢測誤差基本大于0。檢測誤差最大約為2 500幀(約80 s)。誤差的絕對均值最大值為749幀(約25 s)。下半場結束檢測誤差最大,原因是在比賽終場時會有較多的回放和特寫等鏡頭,使準確的比賽結束點檢測受到影響。視頻數據中還包含轉播時比賽已經開始的2場比賽,本文算法的結果令人滿意。

提出了一種檢測足球比賽視頻開始和結束的算法。通過對鏡頭準確的檢測和分類,從中提取出比賽繼續或是中斷的時刻,再利用多維高斯分布檢測出比賽的開始和結束。算法在現有的測試集上獲得了100%的檢測率,并且檢測時刻誤差均值小于30 s。由于該算法基于視頻鏡頭分析,可擴展應用到對其他類型的體育視頻分析中,也容易達到實時效果,特別是在實時比賽的錄制和分析中具有實用意義。但是對于一般的足球集錦,本文方法還具有一定的局限性,在以后的工作中可以改進。
致謝:在此感謝Sony(中國)研究院對本研究的支持。
[1]RADHAKRISHNAN R,DIVAKARAN A,OTSUKA I.Sports program boundary detection[C]//Proc.ICME 2006.Toronto: IEEE Press,2006:1621-1624.
[2] TJONDRONEGORO D.The power of play-break for automatic detection and browsing of self-consumable sport video highlights[C]//Proc.MIR′04, 2004.New York:[s.n.],2004: 267-274.
[3] LI Yiqun, WAN Kongwah, YAN Xin, et.al.Video clock time recognition based on temporal periodic pattern change of the digit characters[C]//Proc.IEEE ICASSP 2006.Toulouse, France: IEEE Press, 2006: 653-656.
[4] AHMT E,MURAT T.Generic play-break event detection for summarization and hierarchical sports video analysis[C]//Proc.Multimedia and Expo, 2003.Baltimore, MD, USA:IEEE Press,2003, 1:169-172.
[5] AHMT E,MURAT T.Robust dominant color region detection and color-based applications for sports video[C]//Proc.ICIP,2003.Barcelona, Spain: IEEE Press, 2003: 21-24.
[6] HAN Bo, HU Yichuan, WANG Guijin, et al.Enhanced sports video shot boundary detection based on middle level features and a unified model[J].IEEE Trans.Consumer Electronics, 2007, 53(3):1168-1176.
施陳博,博士生,主研模式識別和人工智能;
王貴錦,副教授,主研視頻處理與通信;
林行剛,教授,主研圖像/視頻處理與分析、視覺信息壓縮編碼及應用和模式識別。