張赟
(浙江傳媒學院浙江廣播電視技術研究所,浙江杭州310018)
新聞視頻單元高效切分方法的研究與實現
張赟
(浙江傳媒學院浙江廣播電視技術研究所,浙江杭州310018)
提出了一個基于口播檢測的高效新聞視頻單元切分方法。該方法首先檢測出新聞視頻的鏡頭邊界;然后從每個鏡頭中提取出關鍵幀,并計算出關鍵幀的直方圖和SIFT特征;最后通過關鍵幀聚類獲取新聞視頻中的所有口播鏡頭,并以此為依據將新聞視頻分割成多個語義單元。基于以上方法,開發了用于新聞視頻單元切分的軟件系統。該系統能夠準確、高效地實現新聞單元的自動切分,有效地減輕視頻切分時的工作強度,滿足新媒體時代節目快速制作的要求。
新聞單元切分;口播檢測;直方圖;聚類
在傳統媒體時代,人們大多通過電視收看視頻節目,此時用戶只能被動地接收視頻信息,無法自主選擇感興趣的節目。隨著新媒體時代的到來,用戶獲取信息的渠道更加廣泛,能夠通過智能數字電視、IPTV等方式自主點播喜愛的電視節目。此外,智能手機、平板電腦等移動設備的發展和普及讓用戶能夠隨時隨地觀看感興趣的視頻。在新媒體時代,每時每刻都會產生大量的新視頻,此時需要快速處理這些視頻并及時發布到網絡平臺上。如今,不斷擴展的應用如視頻檢索、瀏覽、標注等要求新的技術和工具對視頻進行高效處理,以上視頻應用大多要求根據語義將視頻切分成多個片段,然而當前視頻切分主要依靠人工勞動,該方式費時、成本高且易產生錯誤,無法滿足節目快速制作和發布的要求。對計算機而言,視頻的結構復雜,且數據量大(尤其是高清視頻),很難自動將視頻切分成有語義的片段。一般說來,計算機更易處理內容有規律的視頻,例如新聞節目,因為其結構性較強,且內容具有規律性。新聞大多是“口播鏡頭+新聞故事鏡頭”的結構,即每個新聞單元總是以主持人口播鏡頭為開始標志,并以下次主持人口播鏡頭的出現為結束標志?;谝陨戏治?,新聞視頻的自動切分具有技術可行性,因此,本文將研究基于主持人口播鏡頭檢測的新聞視頻單元自動切分技術,并將其應用于實際的視頻節目制作。
1.1 算法總體設計
本文提出的新聞單元切分算法分為以下4個步驟:
1)鏡頭檢測。采用基于投影函數的方法[1]快速檢測出新聞中的鏡頭邊界,并將視頻幀聚類成鏡頭。
2)鏡頭聚類。利用鏡頭檢測的結果,首先從每個鏡頭中挑選出最能代表鏡頭特征的關鍵幀,并提取出其中的直方圖和SIFT特征,然后對所有鏡頭的關鍵幀進行聚類。
3)口播鏡頭檢測。根據口播鏡頭的統計特征,分析鏡頭聚類的結果,檢測出所有口播鏡頭。
4)新聞單元切分。根據檢測出的口播鏡頭,確定新聞單元的邊界,實現新聞單元的自動切分。
新聞視頻的基本結構圖如圖1所示。

圖1 新聞視頻的基本結構圖
1.2 鏡頭聚類
本文采用基于投影函數的方法[1]高效、準確地生成新聞視頻的鏡頭,然后通過鏡頭聚類自動識別出主持人口播鏡頭。本節首先對鏡頭聚類的方法進行分析。如圖2所示,第一行是4張不同時段主持人口播鏡頭中的圖像幀,第二行是4張不同新聞故事鏡頭中的圖像幀。此時可以發現:盡管主持人鏡頭中會發生不同主持人的切換,但是其背景圖像的特征基本相似,而對于不同的新聞故事鏡頭,其圖像內容的變化非常大。因此,基于以上分析可以預測鏡頭聚類能夠將多次且交替出現的主持人口播鏡頭聚類到一起(如圖3所示),而其余新聞故事鏡頭由于相互之間的差別較大,一般不太可能聚類到一起。

圖2 新聞單元切分各步驟的示意圖

圖3 不同時段主持人口播鏡頭和新聞故事鏡頭中的圖像幀(截圖)
下面給出鏡頭聚類的算法描述。首先采用基于解壓的鏡頭獲?。?]所提出的方法從鏡頭中提取出關鍵幀。為了更好的魯棒性和準確性,本文采用基于顏色量化的直方圖[3]以及改進的SIFT特征點[4]來表示關鍵幀的特征,此時的鏡頭聚類就是其對應關鍵幀的聚類。然后定義鏡頭間的距離,如式(1)所示,不同鏡頭間的距離是其對應關鍵幀的直方圖距離和SIFT特征匹配度的加權和。

式中:Dhist(i,j)表示鏡頭i和j對應關鍵幀的直方圖距離,表示鏡頭i和j之間SIFT特征的匹配度,mi,j表示鏡頭i和j對應關鍵幀上匹配的SIFT特征點的個數,λ用于表示直方圖距離與SIFT特征匹配在鏡頭相似性度量中所占的比重(本文在所有實驗中設為0.2)。
根據式(1),計算出每對鏡頭之間的距離D(i,j),再由式(2)計算出每對鏡頭間的相似度S(i,j),其中σ是閾值。當距離小于等于σ時,鏡頭間的相似度定義為鏡頭間距離的倒數;當距離大于σ時,其相似度為負無窮,此時表示鏡頭i和j完全不相似。

計算出相似性矩陣Sn×n(n表示鏡頭總數)后,本文采用基于相似性傳播(Affinity Propagation,AP)[5]的方法進行鏡頭聚類。與其他聚類方法相比,如K-均值聚類[6]等,AP聚類更具靈活性,無需預先指定初始的聚類數目。通過大量實驗發現,經過AP聚類,所有主持人鏡頭所對應的標簽都一致,從而能夠聚集到一起,而其他鏡頭通常很難聚類到一起。在計算過程中,由于視頻鏡頭的數量與視頻幀相比大大減少,因此能夠高效地計算出相似性矩陣Sn×n和AP聚類的結果。
主持人口播鏡頭聚類的算法描述為:
輸入為相似性矩陣Sn×n。
輸出為所有鏡頭的標簽Ln。
初始化an×n=0,rn×n=0。
重復:

直到收斂或達到最大迭代次數:
Li=argmaxk{r(i,k)+a(i,k)}。
一般說來,本文提出的新聞單元自動切分算法適用于主持人口播鏡頭的前、背景圖像相對穩定、變化不大的新聞視頻。然而,當前的新聞演播室通常包含大屏幕、電視墻等設備,此時主持人背后的場景通常不是靜止的,而是動態變化的。如圖4所示,主持人背景右側是一個不斷變化的大屏幕,此時容易發生鏡頭聚類的錯誤,例如遺漏部分主持人鏡頭。針對以上問題,本文提出了基于重要性區域檢測的特征匹配方法。首先將主持人鏡頭中畫面變化不大的部分用半透明矩形框進行標記,然后在鏡頭聚類時只在該區域進行特征匹配。大量實驗結果表明,本文提出的方法能夠處理口播鏡頭中部分背景動態變化的新聞視頻,有效提高了新聞單元切分的穩定性和準確性。

圖4 基于重要性區域檢測的鏡頭聚類(截圖)
1.3 口播鏡頭檢測
由新聞視頻結構的分析可知,主持人鏡頭通常是多次且交替出現,因此,本文根據聚類結果中所包含的鏡頭數目和鏡頭之間的距離來判定屬于主持人口播鏡頭的聚類??诓ョR頭的判定函數為

式中:Num(i)表示第i個聚類中包含的鏡頭數目;Sum_ of_Dist(i)表示第i個聚類中所有相鄰鏡頭間的距離之和(例如,第1、2個鏡頭之間隔了2個鏡頭,第2、3個鏡頭之間隔了3個鏡頭,則這3個鏡頭間距離之和為5)。當N(i)取最大值時,可以判定第i個聚類中的所有鏡頭均為主持人口播鏡頭。
一般說來,視頻切分系統通常需要批處理大量數據,如某一頻道幾個月以來固定時段的新聞視頻。由大量實驗可知,同一頻道在一段時期內的新聞節目編排方式基本類似,例如一般總是在一段固定時長的片頭過后首次出現主持人,然后開始新聞播報。針對這一特征,本文的算法可以進一步改進。在鏡頭檢測的基礎上,首先根據口播鏡頭固定出現時間直接定位第一個主持人鏡頭,然后以該鏡頭特征為模板計算出該鏡頭與所有其他鏡頭之間的距離D(i,i0)(i0是第一個主持人鏡頭對應的序號)。如式(4)所示,當距離小于等于閾值Δ時,鏡頭i的標簽Li為1,則表示該鏡頭為主持人口播;當距離大于閾值Δ,則表示該鏡頭不屬于主持人口播。

1.4 新聞單元切分
由于新聞視頻具有“口播鏡頭+新聞故事鏡頭”的結構特征,檢測出口播鏡頭后,本文將一次口播鏡頭的開始到下一次口播鏡頭開始之間的片段作為一個新聞單元。如圖2所示,圖中的矩形塊表示口播鏡頭,此時新聞視頻被自動切分成4個單元?;谝陨纤惴ǎ疚拈_發了軟件系統,實現準確、高效的視頻單元切分。用戶首先從數據庫中載入待切分的新聞視頻,然后直接點擊切分圖標就能快速得到新聞單元切分的結果。圖5是新聞單元切分軟件的系統界面,原圖為彩色圖片,其中第一幅圖表示從數據庫讀入的當前待切分的視頻列表。第二幅圖是軟件主界面,其左側是視頻內容的瀏覽窗口,右側是切分后各新聞單元的關鍵幀圖標,當用戶點擊右側圖標時,能夠點播對應單元的新聞內容。主界面下方以彩條方式直觀地展示了新聞單元切分的結果,從左到右按時間順序進行排列,其中綠色部分是主持人口播鏡頭,可以明顯看出口播鏡頭是交替且多次出現的。本文設計的基于彩條的圖形交互工具,讓用戶能夠方便、直觀地觀察到視頻切分的結果,并且能夠在彩條上以拖動鼠標的方式方便、快速地瀏覽感興趣的新聞內容。

圖5 新聞單元切分軟件的系統界面(截圖)
圖6給出了更多新聞視頻單元切分的結果??梢钥闯?,本文提出的方法能夠準確切分中央、省、市、縣等多級電視臺的新聞節目,如新聞聯播、杭州新聞、明珠新聞、桐鄉新聞等。
本文的實驗環境如下:Intel i5-3470 3.4 GHz、16 Gbyte RAM、NVIDIA Geforce GTX 650。對于一個長度為30 min、大小為600×480、碼率為1 Mbit/s的視頻,本文提出的方法僅需32 s就能準確計算出切分結果。表1給出了4種不同新聞視頻自動切分的算法性能,可以看出,本文的方法具有高效性和準確性(切分的誤差主要來自于鏡頭的漸變)。此外,本文的方法能夠實現新聞視頻的批量切分。用戶只需簡單交互就能快速地實現大量視頻的自動切分,且切分結果比人工方式具有更高的精度。

圖6 更多新聞單元切分的結果(截圖)

表1 新聞單元切分的算法性能
本文提出了一個基于主持人口播檢測的高效方法實現新聞單元自動切分。首先采用基于投影函數的方法檢測出新聞視頻的鏡頭邊界;然后利用基于相似性傳播的方法進行鏡頭聚類,并通過分析聚類結果的統計特征提取出所有的主持人口播鏡頭;最后根據檢測出的口播鏡頭實現新聞單元自動切分。基于以上方法,本文開發了軟件系統實現新聞視頻自動切分,該系統極大地提高了新聞視頻切分的效率和質量,大大減輕了人工勞動強度。本文開發的軟件系統已經在浙江廣電集團、杭州電視臺等單位進行了實際應用,具有廣泛的應用前景。
今后,筆者將繼續深入研究新聞視頻單元切分,考慮新聞中的廣告檢測。此外,進一步研究適用于其他類型視頻的高效切分方法,如體育視頻、紀錄片、綜藝節目等,此時將有更多難題有待研究,如視頻特征表示、關鍵幀提取、相似性度量等。
[1]凌堅,練益群.新聞單元的自動快速分割方法[J].電視技術,2009,33(7):59-63.
[2]謝毓湘,欒悉道,吳玲達,等.一種基于解壓的鏡頭探測方法[J].系統工程與電子技術,2003,25(8):1028-1031.
[3]CHENG M M,ZHANG G X,MITRA N J,et al.Global contrast based salient region detection[C]//Proc.IEEE International Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2011: 409-416.
[4]唐紅梅,張恒,高金雍,等.一種改進的基于SIFT特征的快速匹配算法[J].電視技術,2013,37(15):25-32.
[5] FREY B J,DUECK D.Clustering by passing messages between data points[J].Science,2007,315(5814):972-976.
[6]惠鵬飛,苗鳳娟,陶佰睿,等.基于K-均值聚類和分水嶺算法的PCB彩色圖像分割[J].電視技術,2013,37(13):32-34.
Research and Imp lementation of Efficient Segmentation for News Videos
ZHANG Yun
(Zhejiang Institute of Radio and TV Technology,Zhejiang University of Media and Communications,Hangzhou 310018,China)
An efficientmethod is proposed to segmentnews videos based on anchorperson detection.Firstly,the shotboundary ofa news video is detected.Then,the keyframe ofeach shot is extracted,and their histogram and SIFT features are calculated.Finally,all anchorperson shots by clustering the keyframes are retrieved,and the news video is segmented into several semantic fragments.Based on themethod above,a software system is developed,which can automatically segmentnews videos accurately and efficiently.This system can greatly reduce users'labor in news video segmentation,and meet the requirement of fast production in new media times.
segment news videos;anchorperson detection;histogram;clustering
TP391
A
??健男
2014-04-07
【本文獻信息】張赟.新聞視頻單元高效切分方法的研究與實現[J].電視技術,2014,38(23).
浙江省自然科學基金項目(LY14F020050)