張 赟, 沈兵虎, 練益群
(浙江傳媒學院 浙江廣播電視技術(shù)研究所,浙江 杭州 310018)
媒資管理系統(tǒng)中新聞節(jié)目高效檢索的研究
張赟, 沈兵虎, 練益群
(浙江傳媒學院 浙江廣播電視技術(shù)研究所,浙江 杭州 310018)
摘要:提出了一種基于多特征融合的新聞節(jié)目高效檢索方法。該方法充分利用媒資管理系統(tǒng)中新聞視頻的文字描述和關鍵幀的圖像特征,能夠?qū)崿F(xiàn)視頻節(jié)目快速、準確的檢索,提升新聞檢索的性能。將文字描述、人臉和場景圖像作為搜索項,通過Fisherfaces和LBP算子相結(jié)合的人臉識別算法,以及基于重要性加權(quán)的局部直方圖匹配算法,實現(xiàn)樣例圖像與關鍵幀的匹配。實驗結(jié)果表明,該方法能夠提升媒資管理系統(tǒng)中新聞節(jié)目檢索的準確度和效率,滿足新媒體時代節(jié)目快速制作和發(fā)布的要求。
關鍵詞:媒資管理系統(tǒng);多特征;人臉識別;關鍵幀;新媒體
電視臺是以內(nèi)容生產(chǎn)為主的機構(gòu),以浙江廣電集團為例,每年生產(chǎn)的節(jié)目總時長約為1萬小時,其中,新聞類節(jié)目約占20%。如何高效地管理和利用電視臺內(nèi)海量優(yōu)質(zhì)的新聞資訊已經(jīng)成為當前重要的研究課題。近年來,國內(nèi)大多數(shù)電視臺開始利用媒資管理系統(tǒng)[1](以下簡稱“媒資系統(tǒng)”)實現(xiàn)海量視頻節(jié)目的數(shù)字化保存,其主要目標是便于媒體信息的再利用、檢索和共享,并逐步實現(xiàn)傳統(tǒng)媒體向新媒體的融合。當前,媒資系統(tǒng)主要采用基于文本的內(nèi)容組織和檢索方式[2]。該方法實現(xiàn)簡單,效率較高,其檢索性能主要取決于編目內(nèi)容的詳盡程度。然而,在新媒體平臺上,新聞節(jié)目大多以粗編目為主,其內(nèi)容描述比較簡單,因此難以通過文字描述檢索到節(jié)目的具體內(nèi)容。例如,如果沒有把領導人的名字列入內(nèi)容描述,就無法檢索到某領導人曾經(jīng)參加過會議的重要鏡頭。此外,如果內(nèi)容描述過于復雜,會增加編目的時間和成本,也會造成檢索結(jié)果過多和準確性的降低。
為了解決基于文字檢索方法的不足,近年來許多學者研究了大量基于特征匹配的檢索方式。張志偉[3]提出了基于人臉識別的媒資視頻檢索技術(shù)。王瑤[4]等人提出了基于多尺度訓練庫與多特征融合的人臉識別。然而以上方法僅解決了人臉識別的關鍵問題,沒有能夠很好地與媒資系統(tǒng)相結(jié)合,且效率不高,難以實用。史云靜[5]等人提出了基于HSV空間的直方圖相似性度量方法檢索目標圖像,利用局部二值模式作為檢索特征,然而該方法僅考慮顏色這一底層的特征,難以檢索具有語義的內(nèi)容,如人物、場景等。
在傳統(tǒng)的媒資系統(tǒng)中,新聞節(jié)目大多具有固定的結(jié)構(gòu)(主持人口播+新聞故事),能夠根據(jù)故事單元分割成多個片段,其中節(jié)目層和片段層包含了表示其重要信息的關鍵幀圖像。“一圖勝千言”,關鍵幀圖像包含了大量信息,如人物、場景、重要標識等。因此,通過對關鍵幀圖像的分析和匹配,能夠獲取文字描述以外更豐富的信息,是文字描述的有效補充。為了提升當前媒資系統(tǒng)的檢索性能,本文針對新聞節(jié)目提出了基于多特征融合的高效檢索方法。
1多特征融合的新聞檢索

圖1 新聞節(jié)目檢索系統(tǒng)流程圖
1.1人臉檢測
在新聞節(jié)目中,人物是非常重要的線索,如重要領導人、名人、主持人等,這些人物通常會出現(xiàn)在媒資系統(tǒng)的關鍵幀中。在媒資系統(tǒng)中,新聞視頻大多以低碼保存,分辨率和清晰度不高,且人臉姿勢和方向多變,這些都增加了人臉檢測的難度。首先針對新聞視頻的人物特征,建立人臉檢測分類器。本文采用基于不變特征量的Adaboost算法[6],通過多個級聯(lián)的基于Haar特征的弱分類器構(gòu)建出強分類器,實現(xiàn)人臉的準確、實時檢測。如圖2所示,首先從媒資系統(tǒng)中采集包含人臉的樣本圖像,其中正樣本5 000個,負樣本5 000個,然后采通過Haar特征訓練得到新聞節(jié)目中的人臉分類器,其中級聯(lián)分類器共22層,每層最低正確率為99.5%,錯誤接受率為50%。最后將待檢測的圖像進行灰度化和直方圖均衡化處理,利用訓練得到的人臉分類器進行多尺度的人臉檢測。

圖2 人臉檢測的流程圖
圖3給出了部分人臉檢測的結(jié)果。可以看出,在非正臉和包含多張人臉的復雜場景下,也能取得較好的檢測效果。大量實驗結(jié)果表明,人臉檢測的準確率大于95%。為了更好地實現(xiàn)人臉識別,在包含多張人臉的圖像中,根據(jù)檢測區(qū)域的大小和位置,選取尺寸最大且位置顯著的人臉作為當前的檢測結(jié)果。

圖3 人臉檢測的結(jié)果
1.2人臉識別
為了實現(xiàn)新聞中重要人物的識別,如領導人、名人、主持人等,建立重要人臉特征庫。如圖4如示,對每個待識別的人物,首先從新聞圖片中選取3~6個包含其人臉的圖像,然后檢測出人臉區(qū)域,并歸一化成大小為50×50的圖像塊,最后根據(jù)人物的類別賦予對應的標簽。Fisherfaces[7]和LBP[8]是當前廣泛使用的人臉識別算法。Fisherfaces結(jié)合了Fisher線性判別和PCA,將高維空間的樣本投影到低維空間,然后采用Fisher線性判別得到人臉的最佳分類特征集合。該方法要求每個人至少8~10張樣本圖像作為訓練集才能達到較好的識別率,然而在新聞節(jié)目中很難為每個人物找到大量不同角度的圖像進行人臉特征訓練。為了在樣本數(shù)量少的情況下實現(xiàn)人臉識別,引入局部二值模式(LBP)算子實現(xiàn)少量樣本甚至單樣本的人臉特征訓練和識別。為了提高人臉識別的準確性和穩(wěn)定性,提出了Fisherfaces和LBP相結(jié)合的算法實現(xiàn)人臉特征的訓練和識別。各算法準確率比較如表1所示。

圖4 人臉識別訓練庫

表1 人臉識別的準確率比較 %
分別采用Fisherfaces和LBP算子對每個人的人臉樣本數(shù)據(jù)進行訓練,得到人臉識別模型Model_F和Model_L。給定一個檢測到的樣本人臉,其識別結(jié)果為兩者的加權(quán)平均,如式(1)所示。為了確定a的值,本文選取了200個人臉數(shù)據(jù)進行訓練,通過最小二乘的方法擬合出a的權(quán)值為0.39,即LBP對人臉識別的權(quán)重略大。實驗表明,在檢索樣本少的情況下,LBP算法能夠起到更大的作用。
Model(I)=a×Model_F(I)+(1-a)×Model_L
綜上所述,落葉松林降雨再分配過程中水化學特性與降雨相比,pH值、Mg2+含量在各分配過程中下降;Ca2+、Mn2+含量升高;Zn2+含量在穿透雨及坡面徑流中下降,其它過程升高;Fe2+含量在穿透雨及樹干徑流中下降,其它過程升高;含量在穿透雨中升高,其它過程下降。
(1)
1.3圖像特征匹配
一般說來,新聞節(jié)目中經(jīng)常會出現(xiàn)標志性的背景畫面,如會議、演播室、外景、采訪等。為了實現(xiàn)新聞節(jié)目中基于場景畫面的準確檢索,提出一種基于顏色直方圖和紋理特征相結(jié)合的圖像檢索方法。與傳統(tǒng)的基于全局直方圖匹配的算法不同,本文提出了基于重要性加權(quán)的局部直方圖匹配的方法,能夠避免顏色相似但空間分布差異較大的情況。重要性加權(quán)的局部直方圖匹配算法描述(偽代碼)如下:
輸入:樣例圖像S,目標圖像T;
輸出:相似度Dh(0-1);
初始化:
Diff_sum= 0
i= 0;N=100
重復:
if(min(HDist(Si+Δt,Ti))>AvgHDist)
Diff_sum+=λ;
i++;
直到:i=N
Dh=Diff_sum/N
首先將源圖像S和目標圖像T均勻劃分為10×10的方格,然后對每個方格內(nèi)的圖像與S對應位置的八鄰域方格分別計算直方圖距離,并取最小值作為該方格的局部直方圖距離,如圖5所示,再將T中每個方格的直方圖距離與所有方格的平均直方圖距離相比較,若大于其閾值,則進行計數(shù)。為了體現(xiàn)圖像不同位置的重要性,進行加權(quán)計數(shù),對于最外部兩圈方格,λ=0.5,其余位置的方格λ=1.0。最后,若計數(shù)值小于方塊總數(shù)的45%,則說明相似。樣例圖像S和目標圖像T平均直方圖距離的計算,如式(2)所示
(2)

圖5 基于重要性加權(quán)的局部直方圖匹配示意圖
為了進一步提升基于直方圖匹配的檢索的性能,采用分塊LBP算法提取樣本圖像S和目標圖像T的紋理特征。并通過χ2距離度量兩個紋理之間的距離De(i),具體細節(jié)請見文獻[9]。為了融合直方圖和紋理特征,需要對特征量進行歸一化,表1中的算法已經(jīng)對直方圖距離Dh進行了歸一化。對于紋理特征距離,首先計算出樣本圖像S與所有待匹配的關鍵幀Ki(i=1,2,…,N)之間紋理相似性距離De(i) (i=1,2,…,N)的均值E和標準差σ,然后對所有距離進行歸一化,如式(3)所示
(3)
最后通過對所有特征距離進行加權(quán)處理得到總的特征距離D(i) (i=1,2,…,N),如式(4)如示
D(i)=αDh(i)+(1-α)De(i)
(4)
為了讓顏色特征在圖像檢索中占據(jù)更大的權(quán)重,設置α為0.68。最后對特征距離D(i)按照從小到大進行排序,并將排序前50的檢索結(jié)果返回。
2實驗結(jié)果及分析
本文以浙江傳媒學院的媒資管理系統(tǒng)中近兩年的地方電視臺新聞編目數(shù)據(jù)為基礎,開發(fā)了如圖6所示的軟件系統(tǒng),用戶能夠以關鍵詞、樣例圖像作為輸入,根據(jù)人臉、顏色、紋理等多特征融合,從媒資數(shù)據(jù)庫中方便、快速地搜索出感興趣的新聞內(nèi)容。

圖6 新聞檢索系統(tǒng)軟件主界面(截圖)
采用查準率和查全率來測試檢索系統(tǒng)的性能。針對人臉特征和圖像特征分別選取200個樣例圖像進行測試,將新聞節(jié)目的起始時間作為過濾條件,統(tǒng)計時間區(qū)間內(nèi)所有符合要求的節(jié)目數(shù)量。從而計算出對應的查準率和查全率。表2給出了基于人臉特征和圖像特征的所有樣例圖像的查準率和查全率的平均值。統(tǒng)計數(shù)據(jù)表明,本文提出的檢索方法具有較高的準確率和查全率。
表2人臉特征和圖像特征檢索的準確率和查全率%

比較項人臉特征圖像特征準確率9591查全率9290
圖7、8給出了基于人臉特征的檢索結(jié)果,其中左側(cè)是樣例圖像,右側(cè)列出了與樣例圖像相匹配節(jié)目的關鍵幀。如圖7所示,由于在編目中通常不會著錄主持人姓名,此時只能以樣例圖像為輸入進行搜索。本文的方法對于這類比較規(guī)范的人臉圖像能夠達到99%以上的準確率。圖8以地方領導人圖像為輸入進行檢索,從檢索結(jié)果可以看出,本文的方法能夠準確檢索出領導在不同姿勢和背景下的關鍵幀圖像,具有一定的準確性和自適應性。在編目系統(tǒng)中若某領導的姓名已經(jīng)著錄,基于樣例圖像的檢索可以進一步過濾文字檢索的結(jié)果,得到該領導出鏡的所有新聞場景。

圖7 基于人臉識別的主持人搜索結(jié)果(截圖)

圖8 基于人臉識別的地方領導人搜索結(jié)果(截圖)
圖9、10給出了基于直方圖和紋理特征的檢索結(jié)果。其中圖9的樣例圖像是某個固定背景的會議場景。可以看出本文的方法能夠檢索出拍攝角度發(fā)生變化時的場景,具有一定的穩(wěn)定性。圖10的樣例圖像是有關農(nóng)田的場景,通過直方圖和紋理相結(jié)合的方式,能夠檢索出與樣例圖像相似的天空和農(nóng)田場景。實驗表明本文的方法優(yōu)于全局直方圖的方式,能夠綜合考慮顏色和空間信息。

圖9 基于顏色特征匹配的搜索結(jié)果(截圖)

圖10 基于顏色和紋理特征匹配的搜索結(jié)果(截圖)
3小結(jié)
結(jié)合現(xiàn)有媒資系統(tǒng),提出了基于文字、人臉、圖像等多種特征相結(jié)合的新聞節(jié)目檢索方法。實驗結(jié)果表明,本文的方法具有準確性和實用性,能夠顯著提高媒資系統(tǒng)的檢索性能,適應新媒體發(fā)展的需要。主要局限性在于提出的方法主要適用于新聞,今后將進一步研究更具一般性的特征用于更多類型節(jié)目的檢索,如綜藝,電視劇等,采用基于多核加速和GPU的特征匹配算法來進一步提高海量視頻節(jié)目的檢索速度。
參考文獻:
[1]侯佳佳. 媒體資產(chǎn)管理系統(tǒng)中編目和關鍵幀提取的研究與實現(xiàn)[D]. 北京:北京郵電大學, 2012.
[2]楊強, 馬森. 基于語義的新聞視頻檢索系統(tǒng)設計[J]. 電視技術(shù), 2010, 34(4): 90-92.
[3]張志偉. 基于人臉識別的媒資視頻檢索技術(shù)的研究與實踐[D]. 北京:北京郵電大學, 2013.
[4]王瑤, 王正勇, 何小海, 等. 基于多尺度訓練庫與多特征融合的人臉識別[J]. 電視技術(shù), 2015, 39(1):121-126.
[5]史云靜, 鄭海波, 韓小萱, 等. HSV下的基于圖像內(nèi)容的監(jiān)控視頻檢索方法[J]. 電視技術(shù), 2015, 39(4): 16-20.
[6]VIOLA P A ,MICHAEL J. Rapid object detection using a boosted cascade of simple features[C]//Proc. CVPR 2001.[S.l.]:IEEE Press,2001:511-518.
[7]BELHUMEUR P, KRIEGMAN D. Eigenfaces vs. fisherfaces: recognition using class specific linear projection[J]. IEEE transactions on pattern analysis and machine intelligence,1997,19(7):711-720.
[8]AHONEN T, PIETIKAINEN M. Face recognition with local binary patterns[C]//Proc. European Conference on Computer Vision. Berlin,Germany:Springer,2004:469-481.
[9]殷珍珍. 基于顏色和紋理特征的圖像檢索算法研究[D]. 鄭州:河南工業(yè)大學, 2013.
張赟(1984— ),助理研究員,主要研究視頻、圖像編輯與處理,計算機視覺;
沈兵虎(1953— )研究員,主要研究廣播電視技術(shù)、媒資管理;
練益群(1955— )女,教授,主要研究廣播電視技術(shù)、媒資管理。
責任編輯:時雯
Research on efficient retrieval of news videos in media asset management system
ZHANG Yun, SHEN Binghu, LIAN Yiqun
(InstituteofZhejiangRadioandTVTechnology,ZhejiangUniversityofMediaandCommunications,Hangzhou310018,China)
Abstract:In this paper, an efficient news retrieval method is proposed based on multiple features, which makes full use of word description and features of keyframes in MAM (Media Asset Management System), achieves fast and accurate retrieval, and improves the performance of news retrieval in MAM. We take the text description and images which contain important faces and scenes as input for video retrieval, and then match the input image with keyframes in MAM by applying the algorithm for face recognition based on Fisherfaces and LBP operators, and the local histogram match algorithm based on the weighted importance. Experimental results show that the proposed method can enhance the accuracy and efficiency of news retrieval in MAM, and meet the requirements for rapid production and release in new media age.
Key words:media asset management system;multiple features;face recognition;keyframes;new media
中圖分類號:TP391
文獻標志碼:B
DOI:10.16280/j.videoe.2016.02.017
基金項目:浙江省自然科學基金項目(LY14F020050);浙江省公益技術(shù)應用研究計劃項目(2014C33091);浙江廣播電視技術(shù)研究所2015年度科研項目(2015004)
作者簡介:
收稿日期:2015-08-05
文獻引用格式:張赟, 沈兵虎, 練益群.媒資管理系統(tǒng)中新聞節(jié)目高效檢索的研究[J].電視技術(shù),2016,40(2):88-92.
ZHANG Y, SHEN B H, LIAN Y Q.Research on efficient retrieval of news videos in media asset management system[J].Video engineering,2016,40(2):88-92.