陳 翰, 霍 華
(河南科技大學 電子信息工程學院,河南 洛陽 471003)
網絡新聞視頻自動分類與主題跟蹤技術
陳 翰, 霍 華
(河南科技大學 電子信息工程學院,河南 洛陽 471003)
新聞視頻的自動分類和主題跟蹤是網絡環境下多媒體技術的一個難題。文章從分析新聞視頻的關鍵語義入手,提出了一種基于分層條件隨機場的視頻自動分類方法,通過融合文本和視覺底層特征實現新聞視頻自動分類,然后利用增量k-means方法實現同主題視頻跟蹤,對優酷網上7種典型類型的新聞視頻進行了實驗,驗證了該方法的有效性。
新聞視頻;語義分析;主題檢測與跟蹤;條件隨機場
隨著多媒體技術和網絡技術的發展,新聞視頻的制作和傳播也變得越來越容易,已經成為人們獲取信息的重要途徑。新聞視頻作為一種重要的信息媒體,在國家政治、經濟、文化及生活等領域發揮著重要作用。除了電視臺提供的專業新聞節目,YouTube、優酷等視頻網站以及手機等智能終端的使用,使人們能夠隨時隨地分享個人用戶提供的新聞視頻。新聞視頻具有非結構化和信息量巨大等特點,因此如何從海量視頻數據中找到感興趣的信息,并對相同主題的視頻進行跟蹤和研究是一項非常困難又有意義的工作。
在網絡環境下,獲取新聞視頻信息的主要途徑有2種,一種是通過網站推薦,另一種是自動搜索。網站推薦需要網絡編輯對相關視頻進行手動標注和分類,然后根據上傳時間、類型、關注度等對用戶進行推薦。自動搜索是根據用戶提供的關鍵信息,在海量數據庫檢索用戶感興趣的視頻,常用方法有基于文本和內容的檢索方法[1]。
文本是一種常用的高層語義表示形式,利用文本進行新聞視頻檢索,需要事先進行人工標注,工作量巨大,不同人員對視頻的理解差異較大,因此很難準確表達視頻語義。基于內容的檢索方法利用視頻的底層特征進行視頻語義表示,仍然存在著底層特征多樣化、查詢實例難以確定、與實際語義理解差異大等缺點。
面對海量網絡新聞視頻數據,如果能根據視頻內容進行分類和標注,實現視頻自動上傳,將大大減少網絡編輯的工作量。如果對同一主題的新聞事件進行檢測,將新來的視頻歸入不同的事件簇,不但提高了對信息的組織和管理效率,還有利于用戶對相關事件的發展歷程及未來趨勢進行研究和分析。本文從新聞視頻的關鍵語義提取和分析入手,提出了基于條件隨機場的新聞視頻自動分類方法和基于增量k-means的新聞主題跟蹤方法,以實現新聞視頻的語義提取、自動分類、自動推薦和知識挖掘等。
新聞視頻是典型的非結構化的數據,在物理上可以看成是特定制式下的幀序列。如果通過處理所有的幀來分析視頻,其計算量非常巨大,不利于快速理解視頻語義內容。因此,可以利用視頻幀之間的冗余性,對視頻幀序列進行劃分,以形成語義內容的結構單元。新聞視頻結構特征分析是進行新聞語義檢測的基礎和前提,新聞視頻的結構特征按照從細到粗的順序可以劃分為幀、鏡頭、場景和視頻[2]。其中,幀是為了保持視頻連貫的靜止圖像,各幀之間具有較大的冗余性。鏡頭是攝像機的一次基本操作單元,缺乏高層語義信息。場景是一系列鏡頭的組合,描述了故事高層語義的情節或事件,是視頻的基本語義概念。視頻是一個語義內容的完整描述,能夠表現新聞故事的所有內容和特征。對于新聞視頻結構的研究,常用的方法有基于閾值的鏡頭探測、基于顏色特征的關鍵幀提取、基于聚類的場景檢測、基于模板的播音員鏡頭探測等。
目前,國內外主要是利用視頻的結構分析及底層視覺特征進行視頻內容分析與檢索,研究內容主要集中在場景分割、字幕探測、關鍵幀提取、底層視覺特征提取與理解等技術[2-3]。單純地利用視頻結構和底層視覺特征很難全面描述視頻的語義內容,更不能滿足語義層次的檢索和分類要求,因此,研究人員又轉向綜合利用語音、字幕及圖像等多模態融合分析的方法進行視頻語義理解。例如,文獻[2]提出了一種融合視頻特征的新聞報道語義表示方法,利用報道特征的語義類進行事件檢測和聚類。文獻[4]提出了一種基于本體的視頻內容分析和概念識別方法,并用于視頻等多媒體內容的檢索。文獻[5]通過事先定義的語義概念集合設計了一種基于概念驅動的視頻檢索方法,將查詢內容與模態之間的關系分解為更易于計算的查詢內容與概念以及概念與模態之間的語義關系。美國國家標準技術研究所(NIST)組織的視頻檢索國際評測TRECVID也致力于視頻的語義提取、基于內容的檢索等研究,其中,TRECVID2005的主題是新聞視頻的特征提取和檢索。MPEG-4和 MPEG-7也提供了視頻和圖像語義描述的概念。
新聞的關鍵要素是時間、地點、人物和事件,這些是構成完整新聞視頻單元的基礎,也是理解新聞事件的關鍵。在新聞視頻自動分類和主題跟蹤時,可以將視頻底層特征所包含的語義內容對應到其關鍵要素中,這樣更有利于對視頻的理解和分析。新聞視頻單元的關鍵語義表示為:{Time,Location,Character,Event,Scene}。其中,Time表示新聞事件發生的時間;Location表示事件發生的地點;Character表示新聞事件涉及的人物和組織等;Event表示新聞事件的關鍵描述;Scene表示新聞視頻中出現的場景。假設這5個語義類相互獨立,每個語義類用不同詞語空間中的詞語列表和場景的底層視覺特征來表示。
(1)進行視頻的結構化處理,探測新聞視頻包含的鏡頭和關鍵幀,定位圖像字幕位置,分離視頻中的音頻流。
(2)通過提取圖像的底層特征(顏色直方圖、紋理、邊緣、形狀等),識別字幕和語音,抽取視頻關鍵語義的詞語列表,建立視頻關鍵語義類。
(3)根據新聞視頻的關鍵語義要素,進行網絡新聞視頻的自動分類、相同主題視頻的聚類和跟蹤、新聞事件發展趨勢和內在聯系的知識挖掘等。新聞語義分析的總體框架如圖1所示。

圖1 新聞視頻語義分析框架
新聞視頻的圖像、聲音、文本等特征對分類性能的影響差異很大,總體來說,圖像處理復雜費時,圖像理解的難度很大,音頻特征的分類效果很不理想,文本分類技術取得了很多研究成果,具備了實用水平。目前多特征融合分類方法通常采用統一模式處理不同模態特征[6],因而分類準確率和可靠性不能達到用戶要求。針對多模態異構數據對分類性能的影響,文獻[7]提出了以視覺和文本特征為主的視頻語義分析框架。本文新聞視頻的關鍵語義充分考慮了以上問題,將視頻數據抽象為更利于分類的圖像和文本特征,采用基于條件隨機場的融合策略進行視頻自動分類。
條件隨機場(CRF)是一個用于標注和切分序列數據的無向圖模型,對給出的觀察序列定義一個條件對數線性概率分布。CRF是一種判別式模型,與隱馬爾可夫隨機場等模型相比,可以減少數據概率分布的假設。另外,CRF可以選擇上文相關特征,以序列化形式進行全局參數優化和解碼,解決了其他判別式模型難以避免的標記偏置問題。CRF常用于文本標注等多種應用場景,2003年被文獻[8]引入自然圖像分類等計算機視覺應用中。隨后,文獻[9]利用樹狀判別式隨機場進行原始網絡視頻分類。文獻[10]利用基于多分叉融合策略的多概念判別式隨機場(MDRF)進行新聞視頻語義提取。
好的特征是進行分類識別的關鍵,新聞視頻關鍵語義主要包含文本和圖像特征。文本特征包含于關鍵語義的前4項,主要是通過字幕和語音識別得到的時間、地點、人物和事件的關鍵詞和文本描述。視覺特征主要是關鍵幀的顏色直方圖、顏色矩、邊緣和SIFT特征。
將隱條件隨機場[11]和判別式隨機場模型[8]進行擴展,形成分層CRF模型來融合這2種類型的特征進行視頻分類。分層條件隨機場模型由觀察層、隱狀態層和真實標簽層組成。假定X={X1,X2,…,Xm}為視頻關鍵語義的觀察集,Xi為一個局部觀察值;L={L1,L2,…,Ln}為視頻類型的真實標簽集合,Lj為標簽可能的取值變量;H={H1,H2,…,Hm}為隱狀態層,它的元素與觀察層中的元素一一對應。對于觀察序列X,視頻類型的條件概率可以表示為:

其中,Z(X)為歸一化函數;E(L,H,X)為隨機場的能量函數;α、β、γ為分層 CRF的參數;f1、f2和f3為依賴于不同層上變量的特征函數,其數值由各特征的概率分布模型決定。
對于給定的新聞視頻和訓練得到的模型參數α、β、γ,在真實標簽層上的模型推斷為:

新聞視頻的主題檢測和跟蹤是指在沒有人工干預的情況下,從新聞視頻的多模態高維特征中發現其隱含的低維語義主題,并對相同主題的新聞視頻進行聚類和關聯,為分析新聞事件的過程及趨勢等知識挖掘任務提供有益的幫助。有多種方法在新聞主題跟蹤中被嘗試,如k均值法、決策樹方法、HMM方法等。
文獻[12]提出了一種基于多翼Harmoniums模型的新聞視頻語義主題挖掘方法,通過隱含主題與觀測輸入數據間的雙向依存關系,擴展和改善了先前的基于2層的隨機場模型。
由于網絡數據總是處于動態增長過程中,新聞事件的聚類數量也不能事先確定,故采用增量k-means方法進行新聞視頻主題聚類。2個視頻的相似度可以表示為:

其中,S表示新聞事件A和B之間的相似度;wk為各語義類的權重;Sk(A,B)表示第k個語義類之間的相似度。
在聚類過程中,選擇單個事件到同主題聚類集合的平均距離來度量。增量k-means方法首先確定聚類的初始簇,其次根據隸屬度函數對新事件判斷是否合并到已有聚類還是用作新聚類的種子,然后用迭代算法更新并改進聚類結果。
本文算法采用VC2008和OpenCV2.0實現。利用優酷網[13]的新聞資訊進行實驗,視頻數量為551個,總時長約10.5h,類型包括時政、財經、科技、社會、軍事、體育及娛樂等7大類,見表1所列。視頻選擇時,在現有網站分類基礎上又進行了人工干預,還通過關聯推薦——“大家都在看”來擴展同類數據。隨機選擇每一類數據的50%作為訓練樣本,剩余的作為測試樣本。實驗數據中,5條“神州九號發射”和8條“敘利亞局勢”分別作為軍事、科技類視頻進行同主題跟蹤實驗。

表1 實驗用到的新聞視頻信息
衡量網絡視頻自動分類和主題跟蹤效果的參數都是查全率和查準率。在視頻分類方面,將本文分層CRF方法和常用的SVM分類方法進行了對比實驗,其結果見表2所列。對“神州九號發射”相關視頻主題跟蹤的查全率和查準率達到100%,“敘利亞局勢”相關視頻正確識別出7條,且準確聚類為同一主題。實驗結果表明,本文分層CRF方法充分融合了視頻的文本和視覺特征,其分類性能優于SVM等常規方法,能夠實現網絡新聞視頻的自動分類和主題跟蹤。

表2 網絡新聞視頻分類結果 %
針對日益增長的網絡新聞視頻,本文根據視頻的關鍵語義分析,提出了基于分層條件隨機場的自動分類方法,并利用k-means方法進行主題跟蹤,為網絡新聞視頻信息的高效管理和利用提供了有效工具,能夠實現視頻的自動分類上傳、按主題查找等功能。本文方法在大量實際數據上進行了驗證,表現出較好的分類性能和跟蹤效果。本文只對幾種典型的視頻類型進行了實驗,未來需要在大數據集上對更多的網絡視頻類型進行研究,同時還需要分析和優化模型參數,以實現更好的分類效果。下一步還準備利用機器學習方法進行新聞視頻語義挖掘,實現突發事件預警、熱點事件趨勢預測等。
[1]魏 維,游 靜,劉鳳玉,等.語義視頻檢索綜述[J].計算機科學,2006,33(2):1-7.
[2]凌 堅.新聞視頻主題識別和跟蹤的研究[D].杭州:浙江大學,2007.
[3]曹建榮,蔡安妮.基于支持向量機的視頻關鍵幀語義提取[J].北京郵電大學學報,2006,29(2):123-126.
[4]Carbonaro A.Ontology-based video retrieval in a semanticbased learning environment[J].Journal of E-Learning and Knowledge Society,2008,4(3):203-212.
[5]Wei X Y,Jiang Y G,Ngo C W.Concept-driven multi-modality fusion for video search[J].IEEE Transactions on Circuits and Systems for Video Technology,2011,21(1):62-73.
[6]Lin W H,Hauptmann A.News video classification using SVM-based multimodal classifiers and combination strategies[C]//Proceedings of 10th ACM International Conference on Multimedia.Juan-les-Pins,France:ACM,2002:323-326.
[7]Karray H,Ammar A,Alimi A.A semantic and personalized framework for news video retrieval based on textual and visual transcripts[J].Journal of Decision Systems,2011,20(4):467-490.
[8]Kumar S,Hebert M.Discriminative random fields:a discriminative framework for contextual interaction in classification[C]//Ninth IEEE International Conference on Computer Vision,Vol 2,2003:1150-1157.
[9]Wang Z S,Zhao M,Song Y,et al.YouTubeCat:Learning to categorize wild web videos[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR),June 2010:879-886.
[10]Hauptmann A G,Chen M Y,Christel M,et al.A multipronged approach to improving semantic extraction of news video[J].Journal of Signal Processing Systems,2010,58(3):373-385.
[11]Quattoni A,Wang S,Morency L,et al.Hidden-state conditional random fields[J].IEEE Transactions on Pattern A-nalysis and Machine Intelligence,2007,29 (10):1848-1852.
[12]徐新文,李國輝,付暢儉.基于MWH模型的新聞視頻語義挖掘[J].計算機工程,2009,35(17):219-222.
Automatic categorization and topic tracking techniques for Web news videos
CHEN Han, HUO Hua
(School of Electronic Information Engineering,Henan University of Science and Technology,Luoyang 471003,China)
Automatic categorization and topic tracking of Web news videos are a challenging task.Critical semantic elements are extracted for news videos analysis.An automatic news video classification method based on hierarchical conditional random field is proposed to fuse multimode features of text and vision.Then an incrementalk-means clustering method is designed to track the videos with the same topic.Extensive experiments on seven most frequent categories in Youku Website show the effectiveness of the proposed method for categorizing and tracking Web news videos.
news video;semantic analysis;topic detection and tracking;conditional random field
TP391.4
A
1003-5060(2012)11-1488-04
10.3969/j.issn.1003-5060.2012.11.012
2012-09-08
河南省國際合作計劃資助項目(104300510063)
陳 翰(1987-),男,河南無極人,河南科技大學碩士生;
霍 華(1968-),男,河南蘭考人,博士,河南科技大學副教授,碩士生導師.
(責任編輯 呂 杰)