文丨劉 宇
(東莞廣播電視臺,廣東東莞 523000)
隨著現代化網絡信息技術的快速發展,在網絡信息系統的積極輔助下,人們可以通過各種方式來獲取新聞視頻,而且獲取的時間之快、數量之大是有目共睹的。這些新聞視頻有多種語種,來自多個網站以及多個電臺,雖然,在這樣優越的傳媒條件的輔助下,人們的信息更加通達和快捷,但是,人們所搜尋的新聞結果卻總是含有太多的雜亂信息、大量的重復信息擾亂了人們的視線,在這樣混亂的局面下,人們幾乎不能迅速查明整個新聞事件的因果聯系和其中重要的信息,隱含在事件之外的真實情報也會被忽略,但是如果以事件專題的形式對新聞故事加以分析、組織和管理是解決這個問題的最佳方法。
在對新聞故事進行聚積分類以后,就形成了同一個新聞故事的聚類,然而這些聚積的故事卻沒有順序可言,人們無法從中理出頭緒,要想把所有的故事以專題的形式編制出來,就要對其進行規劃形成有秩序的線索化的東西,就必須對故事之間的彼此依賴關系加以分析。
首先,故事的類似程度的衡量。通常情況下,一個新聞故事中,由于內容不同,它們的重要程度就有所不同。一般情況下,對一個事件會由兩個新聞故事進行報道,在報道中難免會出現類似的電視畫面,這類內容是相對比較重要的,而其他描述性的詞匯因為數目過大,對事件的描述的方法也不盡相同和所側重的角度不同等原因會導致所用詞匯也會有所不同,這種內容就不具備較高的重要性,所以,要對一個故事單元中不同內容的不同特征進行處理,就能夠更加準確地表達故事單元中的語意。
故事之間的相似程度可以從視覺和文本兩個方面進行區分,也就是視覺相似度與文本相似度,參照這些其特征的重要程度給予不同的權重系數,來判斷兩個故事之間的相似程度。
那么如何生成新聞視頻事件專題結構,是一個值得思考的問題,一般來說,由于新聞報道來路多種多樣,不可避免地在一個事件的新聞中產生很多的重復與冗余的信息,所以,要對故事的冗余程度進行評價,因為他為事件的發展提供了指導。
當下時代,大多數的新聞視頻都是以一個故事為中心展開敘述的,對于新聞故事的研究大多數都集中在故事單元的分割技術,這當中關系到新聞鏡頭分割等內容,對于新聞事件的探究多數集中在以文本為主的媒體中,探究的主要目標是根據話題來查詢組織和利用新聞信息。
根據客戶的需要,客戶需要的是對新聞視頻進行跟蹤并調查,他們通過先進的現代技術來獲取演播稿件,這些技術包括:Automatic speech recognition自動語音識別技術和machine translation,MT 機器翻譯技術,獲得演播稿件后,再利用文本信息的話題識別與跟蹤技術來實現新聞視頻基于事件的組織。
當今時代,由于圖像處理技術不斷向前更新,很多研究都針對于故事單元的相似特征展開的,這種研究在視頻信息的基礎上結合其他方面的信息,利用新聞視頻編輯中視覺的重復性來達到目標的。在這一過程中,達到了對故事單元之間的關系的分析,與傳統的對文本進行探究的技術相比較,這一分析方法利用了更多種類的媒體特征,特別是視覺特征的應用,這一特征非常靠近實際應用中的各種可能的情況,大多數對新聞視頻的故事單元的關聯性分析都從以下任務著手。
故事單元的分割是故事單元關聯分析的基礎,要注意認識和辨別新聞視頻中報道的類似事件的故事單元。在這一過程中,故事單元是根據新聞事件進行分類聚積的,但是,由于新聞視頻從多種渠道得來的,就會具有多種視覺上的變化,或者語言上的不一致,以及新聞事件所關注重點變化所導致的目的差異,但是,以視覺與文本為基礎的保守的分類與聚積方法很難完成任務,達到目標。
通過以上的分析,我們可以看出,新聞視頻中的故事單元關聯分析技術融入了文本探究中的事件探測技術與跟蹤技術,以及現代化網絡信息結構與內容分析技術的優勢,而且與客戶的真實需求非常相投。所以,新聞視頻中的故事單元關聯分析技術已經成為全世界新聞視頻研究領域中的炙手可熱的話題。
首先,以文本相似程度為研究對象的關聯分析法。新聞視頻故事單元關聯分析同文本的研究類似,所以,最開始的一部分研究任務是得到新聞視頻中的文本資料,是通過自動語音識別技術來獲取的,再對文本資源的故事單元分割以及相似程度進行分析,無論是在對故事進行分割的階段還是在對故事之間的聯系進行分析的階段,這種關聯分析法都僅僅利用了文本資源信息,把文本資源中的每個字句與新聞視頻中的音頻進行對比,進行核查,可以采用下面的方法對文本進行處理。
第一,從每一個故事單元的文本信息資源中提出對應的詞語,或者詞語組合;第二,抓住每個故事單元的關鍵詞向量,例如:對一般的時間名詞、地點名詞等名詞組合的獲取進行分析。
這種以文本為基礎的新聞視頻故事單元關聯分析法是對TDT技術最為直接的應用,它指出了故事單元關聯分析的最根本的任務和過程,但是這一類方法在實際的研究和應用中存在很大的局限性。例如:如果新聞視頻中含有很多種不同的語言,由于沒有合適的語音識別系統也沒有配備相應的機器翻譯工具,這樣從音頻軌跡上得到的文本信息就不會很清晰,甚至無法收獲有價值的文本信息。
本文說明了基于故事的新聞視頻事件專題分析方法,第一要將新聞報道中的視覺特征與文本特征配合起來,將對一個事件的新聞故事集合起來,然后分析這個事件所含有的故事之間的相似性,形成故事之間彼此依存的關系,再根據這種關系產生新聞事件專題結構,這樣才能把事件的來龍去脈呈現在觀眾面前。
[1]文軍,吳玲達,曾璞,等.新聞視頻中基于 “場景詞匯”的故事單元相似度分析[J].國防科技大學學報,2009(3l).
[2]劉華詠.基于音視頻特征和文字信息自動分段新聞故事[J].系統仿真學報,2004,16(11):2608—2610.
[3]張春林,張鵬林,胡瑞敏.新聞視頻中基于主持人識別的新聞故事探測[J].計算機工程,2003,29(14):20-26.
[4]Allan J.Topic detection and tracking:event—based information retrieval[M].Norvell,MA,USA:Kluwer Academic Publishers,2002.
[5]賈自艷,何清,張海俊,等.一種基于動態進化模型的事件探測和追蹤算法[J].計算機研究與發展,2004,41(17).
[6]李保利,俞士汶.話題識別與跟蹤研究[J].計算機工程與應用,2003(17):7-10.
[7]于滿泉,駱衛華,許洪波,等.話題識別與跟蹤中的層次化話題識別技術研究口[J].計算機研究與發展,2006.