999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征聚合的新聞拆條

2021-01-07 08:36:30
數(shù)字通信世界 2020年12期
關鍵詞:文本

吳 綱

(遼寧省廣播電視及信息網(wǎng)絡視聽節(jié)目監(jiān)測臺,遼寧 沈陽 110000)

0 引言

隨著移動互聯(lián)網(wǎng)的蓬勃發(fā)展,碎片化式新聞內(nèi)容傳播更符合當下市場發(fā)展的需求。電視新聞節(jié)目逐漸開始采用“分段”的傳播方式,即將一個完整的新聞視頻依據(jù)內(nèi)容進行拆分,從而形成短小、完整的新聞片段。

本文結合傳統(tǒng)方法和前沿的人工智能研究成果,創(chuàng)新性地提出了一種特征聚合新聞拆條的辦法,設計并實現(xiàn)了面向電視新聞節(jié)目的智能拆條軟件系統(tǒng),具有小樣本、無需標注、識別速度快、準確率高的優(yōu)點,快速智能地把一個長視頻,按照新聞內(nèi)容分成一個一個獨立的新聞。系統(tǒng)通過機器學習系統(tǒng),對特定的視頻進行學習之后,就可以對同類型的視頻進行自動拆條,大大提高了工作效率,有效地提高了新聞的傳播速度。

1 新聞拆條常用技術

(1)轉(zhuǎn)場識別:是在收錄素材遷移的環(huán)節(jié)進行,通過底層識別庫自動抽取素材轉(zhuǎn)場幀來輔助快速定位片段切點,節(jié)省了拆條時 seek素材的時間,尤其對新聞類節(jié)目的拆條效率有很大提升。拆條客戶端在執(zhí)行拆條素材審核時,會根據(jù)數(shù)據(jù)庫中記錄的素材信息,自動加載素材對應的轉(zhuǎn)場幀,用戶可直接對轉(zhuǎn)場幀進行操作。對于收錄素材的邊采邊編,刷新素材的同時也實現(xiàn)了轉(zhuǎn)場幀的刷新加載。

(2)人臉識別技術:主要應用于新聞主持人畫面的精確定位,為后續(xù)智能處理區(qū)分主持人畫面和其他畫面提供基礎數(shù)據(jù)。

(3)字幕識別技術:節(jié)目畫面中往往已經(jīng)有編輯好的標題,可以直接用于拆條后素材片段的標題。使用字幕識別技術,拆條系統(tǒng)只需要框選需要識別的標題畫面,系統(tǒng)會自動將畫面識別成標題文字,簡單快捷。

(4)畫面識別技術:通過畫面識別技術,智能處理分析可以準確定位識別素材屬于哪檔節(jié)目,準確定位節(jié)目的開始位置。

(5)語音識別技術:語音識別模塊通過對指定音頻通道的音頻基帶信號進行解析,按照語音斷句記錄每個識別語句的起始時碼、結束時碼和識別的文本,識別結果會在物理素材的同目錄下生成一個和物理素材同名的txt文檔。拆條系統(tǒng)將此識別結果封裝成字幕文件,并和素材的其他數(shù)據(jù)信息一同存入數(shù)據(jù)庫的素材信息表中。

2 傳統(tǒng)拆條系統(tǒng)問題

2.1 標注繁瑣

標準的內(nèi)容包括主持人標注和 OCR標注:

(1)主持人標注:需要人工標注視頻中的主持人人臉,用來幫助圖像算法關鍵幀,進而切割視頻。

(2)OCR標注:用來畫出新聞視頻中常出現(xiàn)的標題版位置和大小,以確定新聞標題。

系統(tǒng)建設初期就需要標注一遍,并且每次新聞人員流動和頻道改版都需要重新維護,一個省級的新聞監(jiān)管中心往往有大約 30個左右的地方臺,長期維護成本高昂。

2.2 切割不準

基于圖像的方法(轉(zhuǎn)場識別、人臉識別)在視頻端點處往往會出現(xiàn)誤判,導致切割不準,嚴重依賴人工編審修正過程。

2.3 計算速度慢

隨著視頻普遍高清化,原始視頻文件也變得越來越大,傳統(tǒng)拆條系統(tǒng)的性能不足以滿足高速處理的需求,為了確保新聞能第一時間在新媒體渠道上發(fā)布,往往依賴人工手段解決,費時費力。

2.4 語音識別效果差

地方性的新聞內(nèi)容口音現(xiàn)象是普遍現(xiàn)象,通用的語音識別引擎需要大量數(shù)據(jù)訓練(>1,000小時)后才能有較好的效果。而實際中一年也僅能產(chǎn)生大約200小時不到的數(shù)據(jù),語音識別引擎字幕翻譯效果很差,進一步給內(nèi)容監(jiān)管造成了很大的困難。

3 特征聚合新聞拆條原理

首先獲取需要進行拆條的原始視頻文件,然后經(jīng)過粗拆階段以及細拆階段拆分為多個新聞片段,同時提供人工變身模塊用于對系統(tǒng)拆分結果進行修訂。

圖1 基于特征聚合的新聞拆條流程

3.1 粗拆階段

基于主持人識別、聲紋識別和音頻分段技術,快速確定主持人和新聞內(nèi)容的大致分段。

(1)對于收集到的原始視頻,首先通過預處理提取音視頻信息。

(2)利用主持人在新聞節(jié)目中出鏡率高的特點,先通過聲紋識別、主持人臉識別技術快速明確節(jié)目主持人。

(3)結合人臉識別和音頻端點檢測技術,根據(jù)主持人播報的時間對視頻進行粗拆。

大部分新聞節(jié)目都會有新聞介紹,所以我們把主持人集中播報的第一段粗粒度視頻單獨提出來作為新聞開場單獨進行后續(xù)分析。

3.2 細拆階段

通過綜合運用語音識別、 OCR識別和 NLU技術,實現(xiàn)對大段內(nèi)容的精細化拆分,并生成每段新聞的標題。

最終新聞識別率可達 99%,分割誤差在1 s內(nèi)。得到的短新聞送給人工編審模塊,以方便用戶發(fā)布修正,并做部分數(shù)據(jù)回流。

粗拆出來的視頻是相當不精確的,除了起止時間不夠準外,經(jīng)常含有多條新聞內(nèi)容,所以有必要進行進一步的拆分。

(1)我們先把所有的視頻送到語音識別引擎中進行語音識別,采用清華大學基于 CRF-CTC[1]技術的新一代語音識別引擎,在小樣本集上表現(xiàn)優(yōu)異,非常適合這個場景。

(2)粗粒度的片段通過語音識別引擎可以生成字幕文本。新聞開場可以生成新聞摘要,供后面的NLU分析做參考。

(3)同時粗粒度片段進行關鍵幀的OCR識別,獲得標題板文本。

(4)把得到的標題版文本,字幕文本和新聞摘要送入新聞綜合拆分系統(tǒng)。

3.3 綜合拆分系統(tǒng)

三種輸入數(shù)據(jù)有以下特點:

(1)文本字幕:不夠精確,并且有大量無意義的采訪人字幕。

(2)OCR識別:無關背景干擾,無關的內(nèi)容(采訪人信息),采訪字幕等。

(3)新聞摘要:總結性好,但粒度太大。

新聞綜合拆分系統(tǒng)的工作原理如下:

(1)首先對數(shù)據(jù)進行一些預處理,去除標題版文本中和字幕文本的冗余信息。

(2)然后對文本字幕進行語義分割,分段的結果通過和標題版文本進行差分比對去除字幕內(nèi)容,得到備選標題和權重,再對新聞摘要進行學習,調(diào)整備選標題權重,得到最終標題;對于無明顯標題的小新聞,通過文本摘要生成一個標題。

(3)確定了文本內(nèi)容分段后,根據(jù)文本起止的時間,對視頻的切割點進行修正,得到細拆的新聞片段。

(4)新聞片段和標題一起構成短新聞存到知識庫,配合人工編審模塊提供人工修正;人工修正的結果回流到語義拆分系統(tǒng)的 NLU模塊進行模型修正,以提升拆分準確率。

表1是各種方法各個數(shù)據(jù)集上的 F值橫向?qū)Ρ龋梢钥吹教卣骶酆系姆椒ㄟh優(yōu)于傳統(tǒng)辦法或者端到端方法。遷移性強,數(shù)據(jù)要求低。

表1 拆條準確率對比表

4 結束語

通過特征聚合技術的新聞拆條,能夠在新聞快速生產(chǎn)過程中非常迅速地實現(xiàn)對新聞的拆條,并同時對新聞標題字進行識別,大大提高了工作效率。

猜你喜歡
文本
文本聯(lián)讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發(fā)還是從文本出發(fā)
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 国产精品久久久免费视频| 国产自无码视频在线观看| 中国精品久久| 国产麻豆aⅴ精品无码| 成人免费一区二区三区| 国产美女无遮挡免费视频| 亚洲av日韩综合一区尤物| 国产成人精品日本亚洲77美色| 日韩黄色在线| 国产va在线| 久久狠狠色噜噜狠狠狠狠97视色| 国产国模一区二区三区四区| 成AV人片一区二区三区久久| 国产经典免费播放视频| 精品国产香蕉在线播出| 97精品伊人久久大香线蕉| 精品福利视频网| 永久在线播放| 亚洲成a人片77777在线播放| 免费av一区二区三区在线| 国产91全国探花系列在线播放| 91欧洲国产日韩在线人成| 亚洲精品第一页不卡| 久久久精品国产亚洲AV日韩| 国产黄在线免费观看| 国产欧美精品专区一区二区| 福利视频久久| 国产精品99在线观看| 午夜一区二区三区| 欧美精品高清| 欧美成在线视频| 激情网址在线观看| 精品久久久无码专区中文字幕| 伊人AV天堂| 久久永久精品免费视频| 国产精品jizz在线观看软件| 亚洲区第一页| 中文成人在线| 青青草一区二区免费精品| 亚洲成人动漫在线观看 | 日韩色图在线观看| 狠狠ⅴ日韩v欧美v天堂| 午夜视频免费试看| 国产乱子伦手机在线| 亚洲无码精品在线播放| 亚洲综合精品香蕉久久网| 久无码久无码av无码| 精品国产香蕉在线播出| 午夜国产大片免费观看| 园内精品自拍视频在线播放| 在线免费看片a| 日韩黄色在线| 91九色国产porny| 依依成人精品无v国产| 国产精品永久在线| 亚洲无线视频| 黄色网址手机国内免费在线观看| 精品中文字幕一区在线| 五月激情婷婷综合| 大香网伊人久久综合网2020| 欧美日韩国产精品va| 小说区 亚洲 自拍 另类| 色视频国产| 国产v精品成人免费视频71pao| 日韩欧美中文字幕一本| 国产不卡一级毛片视频| 亚洲综合香蕉| 国产主播喷水| 在线精品视频成人网| 久久永久精品免费视频| 青青草原国产精品啪啪视频| 欧美在线一级片| 亚洲精品制服丝袜二区| 91精品国产自产在线老师啪l| 国产亚洲精品自在线| 国产精品一区二区不卡的视频| 亚洲男人的天堂在线观看| 无码福利视频| 中文成人在线| 国产福利拍拍拍| 在线看国产精品| 欧美一级99在线观看国产|