關莉莉
吉林電視臺,吉林 長春 130021
?
關于新聞視頻主題識別與跟蹤的研究
關莉莉
吉林電視臺,吉林 長春 130021
伴隨著通信技術和多媒體的飛速發展,人們能夠用于表達、傳遞和存儲信息的手段也越來越多,與此同時人們每天需要接觸的信息數量也正呈爆炸式增長,因此在新聞領域當中研究關于自動識別、分析以及檢測追蹤新聞視頻的方式方法具有極其重要的現實意義。本文將以此為基礎,簡要探究關于新聞視頻主題的識別與跟蹤。
新聞視頻主題;識別;跟蹤
通常情況下,一套完整的新聞節目是由若干個新聞單元組合而成,因此人們在分析新聞視頻內容之前,首先需要做的就是按照新聞數據之間的關聯程度,將完成的新聞節目還原成若干新聞單元的初始形式;之后將新聞視頻新聞報道基于語義特征進行切分。而本文則主要探究的是以自然語言和文本形式為主的新聞視頻報道,并在此基礎上著重圍繞新聞視頻主題的識別與跟蹤進行簡要分析論述。
美國國防高級研究計劃署最早提出了識別和跟蹤主題這一概念,也就是說徹底拋棄傳統的人工干預操作,完全使用自動化模式用于對新聞數據流及其主題進行合理判斷[1]。最初識別和跟蹤主題的目的主要適用于尋找主體之間的一致性,利用系統對兩件事之間的界進行自動判斷,故而區分出出現的新事件以及再現的舊事件。后期隨著科學技術的不斷發展進步,識別和跟蹤主題也得到了深入細化,被分為了如表1所示的五個任務。

表1 識別和跟蹤主題的五大任務
所謂切分新聞報道具體來說就是指將從同一個信息源當中獲得的語言信息流分割成為若干個不同的新聞報道。由于新聞專線當中的文本信息流,從本質上來說就是呈現出單個報道形式,因此只有在處理來自廣播、電視等傳統媒體音頻數據的過程當中才會涉及切分新聞報道[2]。通常情況下,若干條不同的新聞報道組合在一起構成一段完整的新聞節目,但是通過觀察可知,幾乎沒有任何新聞節目會用分隔標記用以區分不同的報道。好比說人們常常能夠在某一篇報道當中發現商業廣告的存在等等。而需要被切分的語料或數據,有可能是音頻記錄,也有可能是利用語音識別功能后將音頻記錄轉化形成的文字記錄。
所謂的識別新事件,其根本目標就于能夠發現以往從未出現過或是從未被討論過的新聞主題,有可能是地震、海嘯,有可能是發射導彈、衛星,也有可能是某個八卦娛樂新聞等等。通常情況下此類新聞主題還兼具用于識別主題系統的測試功能,這主要是由于識別新聞主題系統的重要基礎就是對每一個新聞報道當中是否討論新話題進行判斷。現階段人們習慣使用向量或分布概率的形式用以識別新事件。具體來說就是指在概括每一篇新聞報道時都會借助于向量或分布概率形式,其最終形成的集合表示新聞主題的所有特征,而一旦出現新報道,將會比較以往報道的所有特征集合與現在新聞報道的特征集合,并且將其作為判斷新主題是否參與討論的重要依據[3]。也有部分研究人員認為利用單純的比較文本相似性方法很難完成調整參數、提高系統性能的任務,因此還需要尋找其他方法。
識別新聞視頻主題指的就是通過對新聞視頻進行深度識別,最終將主題內容歸攏到與之相對應的主題庫當中,結合實際情況可以適當建立全新的新聞主題。從本質上看,識別新聞視頻主題幾乎和無指導的聚類研究一模一樣,即面對新聞視頻的主題數量、出現時間等系統無法進行預測,只能有限的向前看。通常意義上的聚類等同于將全局信息也就是整個新聞數據集合進行聚類,但識別視頻新聞主題時則是使用增量方法完成聚類。這也正意味著,只能向前看到有限的文本、報道才能進入最終的決策環節。作為一種增量式的聚類,人們習慣于將識別新聞視頻主題分成兩個階段:第一個階段為識別新事件是否出現;第二個階段為對于新聞視頻中出現的主題歸攏至相應的主題庫當中。顯而易見,在第一個階段當中,就是識別新事件的發生。識別新聞視頻主題其實也是將識別新事件進行自然的擴展[4]。但是,二者之間存在明顯的區別,即在第一個階段當中系統只負責在新聞視頻當中識別出主題,若這一任務無法得到有效落實將會引發嚴重的后果;而在第二個階段當中需要將新聞視頻中的主題進行識別并且歸入到主題庫當中,即使無法在視頻當中識別出主題也并不會引發嚴重后果。
跟蹤新聞視頻主題具體來說就是在給出某一主題當中的一個或幾個新聞報道視頻,之后將輸入進的相關新聞報道與新聞視頻主題進行有機整合。在此過程中首先需要給出一組樣本報道,通過訓練最終得到一個主題模型,然后在后續跟蹤報道的新聞視頻當中識別出所有與目標主題有關的新聞視頻。由此我們可以看出,跟蹤新聞視頻主題與通過查詢例子和過濾信息的相關研究有著異曲同工之妙但是在目前跟蹤新聞視頻主題當中之后很少的已知訓練正例,并且與新聞主題有關的新聞視頻通常會集中出現在某一段特定的時間段。值得注意的是,在跟蹤新聞視頻主題的過程當中訓練使用的視頻數量,測試語料、使用語言質量等均會對追蹤任務產生不同程度的影響。隨著科學技術水平的不斷提高,跟蹤新聞視頻主題的系統也得到了相應的發展,即使在某些特定領域當中也可以得以運用。相信再經過幾年的發展,跟蹤新聞視頻主題的正確率將會得到進一步提升。
總而言之,本文通過從切分新聞報道、識別新事件、識別新聞視頻主題以及追蹤新聞視頻主題等幾個方面進行簡要分析,幫助人們對新聞視頻主題的識別追蹤產生一個大致的了解,但是由于當前在相關方面的研究少之又少,因此本文還有許多不足之處,還需得到進一步的完善和研究。
[1]吳玲達,文軍,陳丹雯,袁志民.新聞視頻主題識別與跟蹤技術研究綜述[J].計算機科學,2015,06:5-10.
[2]文軍,吳玲達,曾璞,欒悉道.關于新聞視頻主題識別與跟蹤分析研究[J].軟件學報,2016,11:2971-2984.
[3]朱旭東.關于新聞視頻主題識別與跟蹤的研究[D].西安電子科技大學,2015.
[4]王衛威.新聞視頻中識別與跟蹤主題的技術研究[D].國防科學技術大學,2015.
TP
A