吳 綱
(遼寧省廣播電視及信息網(wǎng)絡視聽節(jié)目監(jiān)測臺,遼寧 沈陽 110000)
隨著移動互聯(lián)網(wǎng)的蓬勃發(fā)展,碎片化式新聞內(nèi)容傳播更符合當下市場發(fā)展的需求。電視新聞節(jié)目逐漸開始采用“分段”的傳播方式,即將一個完整的新聞視頻依據(jù)內(nèi)容進行拆分,從而形成短小、完整的新聞片段。
本文結合傳統(tǒng)方法和前沿的人工智能研究成果,創(chuàng)新性地提出了一種特征聚合新聞拆條的辦法,設計并實現(xiàn)了面向電視新聞節(jié)目的智能拆條軟件系統(tǒng),具有小樣本、無需標注、識別速度快、準確率高的優(yōu)點,快速智能地把一個長視頻,按照新聞內(nèi)容分成一個一個獨立的新聞。系統(tǒng)通過機器學習系統(tǒng),對特定的視頻進行學習之后,就可以對同類型的視頻進行自動拆條,大大提高了工作效率,有效地提高了新聞的傳播速度。
(1)轉(zhuǎn)場識別:是在收錄素材遷移的環(huán)節(jié)進行,通過底層識別庫自動抽取素材轉(zhuǎn)場幀來輔助快速定位片段切點,節(jié)省了拆條時 seek素材的時間,尤其對新聞類節(jié)目的拆條效率有很大提升。拆條客戶端在執(zhí)行拆條素材審核時,會根據(jù)數(shù)據(jù)庫中記錄的素材信息,自動加載素材對應的轉(zhuǎn)場幀,用戶可直接對轉(zhuǎn)場幀進行操作。對于收錄素材的邊采邊編,刷新素材的同時也實現(xiàn)了轉(zhuǎn)場幀的刷新加載。
(2)人臉識別技術:主要應用于新聞主持人畫面的精確定位,為后續(xù)智能處理區(qū)分主持人畫面和其他畫面提供基礎數(shù)據(jù)。
(3)字幕識別技術:節(jié)目畫面中往往已經(jīng)有編輯好的標題,可以直接用于拆條后素材片段的標題。使用字幕識別技術,拆條系統(tǒng)只需要框選需要識別的標題畫面,系統(tǒng)會自動將畫面識別成標題文字,簡單快捷。
(4)畫面識別技術:通過畫面識別技術,智能處理分析可以準確定位識別素材屬于哪檔節(jié)目,準確定位節(jié)目的開始位置。
(5)語音識別技術:語音識別模塊通過對指定音頻通道的音頻基帶信號進行解析,按照語音斷句記錄每個識別語句的起始時碼、結束時碼和識別的文本,識別結果會在物理素材的同目錄下生成一個和物理素材同名的txt文檔。拆條系統(tǒng)將此識別結果封裝成字幕文件,并和素材的其他數(shù)據(jù)信息一同存入數(shù)據(jù)庫的素材信息表中。
標準的內(nèi)容包括主持人標注和 OCR標注:
(1)主持人標注:需要人工標注視頻中的主持人人臉,用來幫助圖像算法關鍵幀,進而切割視頻。
(2)OCR標注:用來畫出新聞視頻中常出現(xiàn)的標題版位置和大小,以確定新聞標題。
系統(tǒng)建設初期就需要標注一遍,并且每次新聞人員流動和頻道改版都需要重新維護,一個省級的新聞監(jiān)管中心往往有大約 30個左右的地方臺,長期維護成本高昂。
基于圖像的方法(轉(zhuǎn)場識別、人臉識別)在視頻端點處往往會出現(xiàn)誤判,導致切割不準,嚴重依賴人工編審修正過程。
隨著視頻普遍高清化,原始視頻文件也變得越來越大,傳統(tǒng)拆條系統(tǒng)的性能不足以滿足高速處理的需求,為了確保新聞能第一時間在新媒體渠道上發(fā)布,往往依賴人工手段解決,費時費力。
地方性的新聞內(nèi)容口音現(xiàn)象是普遍現(xiàn)象,通用的語音識別引擎需要大量數(shù)據(jù)訓練(>1,000小時)后才能有較好的效果。而實際中一年也僅能產(chǎn)生大約200小時不到的數(shù)據(jù),語音識別引擎字幕翻譯效果很差,進一步給內(nèi)容監(jiān)管造成了很大的困難。
首先獲取需要進行拆條的原始視頻文件,然后經(jīng)過粗拆階段以及細拆階段拆分為多個新聞片段,同時提供人工變身模塊用于對系統(tǒng)拆分結果進行修訂。

圖1 基于特征聚合的新聞拆條流程
基于主持人識別、聲紋識別和音頻分段技術,快速確定主持人和新聞內(nèi)容的大致分段。
(1)對于收集到的原始視頻,首先通過預處理提取音視頻信息。
(2)利用主持人在新聞節(jié)目中出鏡率高的特點,先通過聲紋識別、主持人臉識別技術快速明確節(jié)目主持人。
(3)結合人臉識別和音頻端點檢測技術,根據(jù)主持人播報的時間對視頻進行粗拆。
大部分新聞節(jié)目都會有新聞介紹,所以我們把主持人集中播報的第一段粗粒度視頻單獨提出來作為新聞開場單獨進行后續(xù)分析。
通過綜合運用語音識別、 OCR識別和 NLU技術,實現(xiàn)對大段內(nèi)容的精細化拆分,并生成每段新聞的標題。
最終新聞識別率可達 99%,分割誤差在1 s內(nèi)。得到的短新聞送給人工編審模塊,以方便用戶發(fā)布修正,并做部分數(shù)據(jù)回流。
粗拆出來的視頻是相當不精確的,除了起止時間不夠準外,經(jīng)常含有多條新聞內(nèi)容,所以有必要進行進一步的拆分。
(1)我們先把所有的視頻送到語音識別引擎中進行語音識別,采用清華大學基于 CRF-CTC[1]技術的新一代語音識別引擎,在小樣本集上表現(xiàn)優(yōu)異,非常適合這個場景。
(2)粗粒度的片段通過語音識別引擎可以生成字幕文本。新聞開場可以生成新聞摘要,供后面的NLU分析做參考。
(3)同時粗粒度片段進行關鍵幀的OCR識別,獲得標題板文本。
(4)把得到的標題版文本,字幕文本和新聞摘要送入新聞綜合拆分系統(tǒng)。
三種輸入數(shù)據(jù)有以下特點:
(1)文本字幕:不夠精確,并且有大量無意義的采訪人字幕。
(2)OCR識別:無關背景干擾,無關的內(nèi)容(采訪人信息),采訪字幕等。
(3)新聞摘要:總結性好,但粒度太大。
新聞綜合拆分系統(tǒng)的工作原理如下:
(1)首先對數(shù)據(jù)進行一些預處理,去除標題版文本中和字幕文本的冗余信息。
(2)然后對文本字幕進行語義分割,分段的結果通過和標題版文本進行差分比對去除字幕內(nèi)容,得到備選標題和權重,再對新聞摘要進行學習,調(diào)整備選標題權重,得到最終標題;對于無明顯標題的小新聞,通過文本摘要生成一個標題。
(3)確定了文本內(nèi)容分段后,根據(jù)文本起止的時間,對視頻的切割點進行修正,得到細拆的新聞片段。
(4)新聞片段和標題一起構成短新聞存到知識庫,配合人工編審模塊提供人工修正;人工修正的結果回流到語義拆分系統(tǒng)的 NLU模塊進行模型修正,以提升拆分準確率。
表1是各種方法各個數(shù)據(jù)集上的 F值橫向?qū)Ρ龋梢钥吹教卣骶酆系姆椒ㄟh優(yōu)于傳統(tǒng)辦法或者端到端方法。遷移性強,數(shù)據(jù)要求低。

表1 拆條準確率對比表
通過特征聚合技術的新聞拆條,能夠在新聞快速生產(chǎn)過程中非常迅速地實現(xiàn)對新聞的拆條,并同時對新聞標題字進行識別,大大提高了工作效率。