999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談全媒體內容庫的內容挖掘與可視化

2018-08-17 07:27:42郭海程大川
中國傳媒科技 2018年7期
關鍵詞:提取

文/郭海 程大川

1.全媒體內容服務的新需求

全媒體內容庫是融合媒體平臺的重要組成部分,通過全媒體內容庫可實現跨媒體的內容資源管理,整合全臺在線全媒體內容資源。通過構建全媒體內容庫,還可以實現全臺內容的統一檢索、統一共享和快速調用,真正激活臺內現有的媒資及各種業務系統內的媒體內容資源,為全媒體融合生產、全媒體指揮策劃和內容運營提供內容支撐。當前,廣電融合媒體平臺建設如火如荼,在新的技術平臺和業務架構下,媒體內容管理的對象、流程,以及提供內容服務的方式也隨之變化。

用戶需要提供更加豐富的內容發現手段,不僅僅是分類查找、全文搜索。在用戶有明確目的查找內容的時候,要能使用戶隨時隨地通過各種搜索手段獲得準確的內容。在用戶沒有明確目標的時候,達到“想你所想”的內容響應,在服務形式上化被動為主動,將內容與用戶需求相結合,為用戶提供精準、貼合的內容分析服務。

原有內容再造,是傳統媒體在內容上的核心競爭力,[1]全媒體內容庫需要為用戶提供更多的內容可視化分析工具,讓用戶通過內容可視化工具,更多維度的去理解內容庫中的內容,讓內容的分析、內容挖掘更加簡單、易用、直觀,讓用戶進行交互式、可視化的內容探索。

2.內容可視化技術研究與應用

全媒體內容庫以大數據、人工智能等先進技術為支撐,進行媒體內容服務的創新,通過對全媒體內容進行標簽提取,基于內容標簽進行內容的深度分析、計算,實現對內容庫媒體內容的挖掘,包括索引、關鍵詞提取、自動摘要、分類、聚類、情感分析、關聯計算等,對得到的分析計算結果進行解釋和表示。最終,通過內容可視化的方式為用戶提供更友好、更準確的內容服務。

2.1 全媒體內容的特征提取及計算

全媒體內容庫中的內容種類包括文本、圖片、音頻、視音頻等,全媒體內容包含多種維度的描述內容的特征,對于這些特征的提取,是分析、挖掘全媒體內容的基礎。

2.1.1 文本特征提取

全媒體內容庫通過自然語言處理技術,實現對文本內容的分析,包括詞性分析、關鍵詞提取、自動摘要、情感分析等,從而提取文本的相關特征。

2.1.2 圖像特征提取

通過人工智能圖像技術,將內容庫中的圖像內容自動生成相應的文字描述,描述的特征范圍涵蓋場景描述、物體分類、人物、地標、熱詞等,可以提取對不同維度、不同層次的圖片內的語義特征信息。[2]抽取相關的特征向量后,形成代表該圖像的多維特征向量,通過向量計算,在特征向量空間中比較、分析各圖像特征向量之間的距離或相似關系,完成對圖像內容相關分析計算,從而讓系統獲得高層次的對圖像的理解。

2.1.3 視頻特征提取

通過人工智能的視頻處理技術,對內容庫中的視頻進行智能分析,分析的視頻內容包括視頻內的語音、文字、人臉、物體、場景等多種維度內容,提取描述視頻內容的特征信息。特征內容包括視頻的分類、人物、語音識別文字、物體、字幕、標題、彈幕文字內容等。

2.1.4 音頻特征提取

通過人工智能技術,對內容庫中的音頻進行智能分析。音頻挖掘通常有兩種方式:將音頻中的語音識別成文字,再對文字信息進行特征提取;從音頻中提取音樂特征,例如音調、旋律,以及說話人的聲紋特征,提取人物等。通過分析獲得的音頻特征,進行音頻內容的相關內容分析計算。

2.2 基于標簽的內容分析

所謂標簽,既上述媒體內容的特征,通過一些標簽描述、代表某一內容,這個內容可以是全媒體內容庫中的任何內容,包括互聯網匯聚、通聯稿件、報題、選題、報道等。對比傳統“分類”的概念,一個內容往往只屬于幾個固定的分類,但可以擁有許多個不同維度的內容描述標簽。同時,“分類”的定義相對固定,數量有限,而標簽則是數量無上限擴展,自由添加,并且標簽具有時效性。全媒體內容庫中的內容大爆炸給標簽帶來了用武之地,通過內容標簽可以對全媒體內容庫中的海量內容進行多維度的管理。

通過標簽進行內容分析,讓系統、用戶可以更多維度、更深地理解內容,抽取全媒體內容的具有表意性、顯著性的特征、特點,形成描述該全媒體內容的標簽。

可以解決使用者對海量全媒體內容的“發現”的需求。內容庫中,海量的全媒體內容,使用者要想快速、方便的找到自己需要的內容,通過內容標簽是最方便、可靠地方式。對于全媒體內容庫的使用者,標簽能夠有效地進行內容整理、組織和管理。

標簽有助于用戶挖掘全媒體內容庫中的內容價值,通過人工智能技術挖掘得到不同維度的內容標簽,使用戶進行探索式內容挖掘成為可能,用戶可以從不同角度通過可視化的方式,觀察內容庫中的內容,發掘更深度的內容價值。

2.3 多種媒體內容的可視化應用

對于全媒體內容庫中的內容可視化,處理的數據類型涵蓋文本、多維、視音頻、時空數據等,采用的顯示方法包括標準的2D/3D圖表顯示、圖像化顯示、列表顯示、地圖顯示等。

多維數據可視化分析的目標是發現多維數據分布規律,尋求不同維度之間的邏輯關系,通常采用的顯示方法包括曲線圖、折線圖、散點圖、餅圖、柱狀圖、雷達圖、熱力圖等圖表顯示方法。

文本內容的可視化,常用的可視化技術是標簽云,[3]它直接抽取文本中的關鍵詞并將其按照一定的順序和規律整齊美觀地呈現在屏幕上。關鍵詞在文本中有分布的差異,有的出現的頻率高,有的出現的頻率低,有的重要性高,有的重要性低,可以利用字體的大小和顏色的醒目度反映文本中各個關鍵字的差異,越是重要、出現頻率高的關鍵詞可以采用較大、顏色較醒目的字體。

2.4 探索式可視化的內容分析

可視化的自助式內容探索工具,輔助用戶通過可視化的方式分析、挖掘內容,產出對內容生產有價值的洞察。整個內容挖掘“可視化”的過程,用戶根據需求簡單進行拖拽式、交互式操作即可完成,多種展示形式,秒級響應。讓用戶能夠以最直觀的方式發現一些內容背后潛在的相關性。

(1)內容分布分析工具,通過內容的屬性、標簽等,用戶可以通過工具自助地進行內容分析、統計,提供多種可視化組件,使用戶以最直觀的方式了解內容庫中的內容。

(2)熱點內容挖掘工具,通過可視化工具可以直觀地發現當前熱點,再通過熱點進行下鉆,分析、挖掘與熱點相關的內容。可以通過選擇不同領域,包括時政、經濟、體育、民生、影視等,更加專注地挖掘熱點內容。

(3)主通過對海量內容的智能挖掘關聯,自動聚合生成事件專題、人物專題、自定義專題等。通過可視化的對內容聚類分析結果的呈現,幫助用戶挖掘潛在的內容,為選題決策、內容生產提供智能支持。

(4)詞云分析工具,以所選范圍內的內容相關的標簽數據為分析基礎,以詞云的方式對標簽數據進行展示,用最直觀的方式為業務人員展示輿情關鍵詞、新聞關鍵詞、評論關鍵詞等。

(5)情感分析工具,通過對評論、輿情內容的智能分析,利用先進的深度學習技術,實現內容的精準挖掘,針對媒體領域特點進行情感正負面判斷,提取與用戶相關的高價值信息。[4]

3.全媒體內容庫構建的核心模塊

全媒體內容庫致力于打造出大容量、多種類、可學習、可交互的智能化內容管理引擎,通過全媒體內容服務平臺,可以充分吸收多種渠道海量匯聚的內容,經過內容整理后,實現內容的精準查詢、關聯檢索、可視化分析等。同時,還可以根據對自有內容的數據挖掘,通過建模,自動形成主題事件庫、知識庫等面向業務的輔助決策、輔助生產、輔助發布的內容池。核心模塊包括以下幾方面。

3.1 內容處理引擎

針對不同類型、不同來源的內容,處理引擎對內容進行自動化處理,進行結構化,內容處理引擎能力包括:

內容篩選:通過分析內容元數據、文本信息,以及系統配置信息,設置內容的重要級別、保密級別。

內容過濾:內容的重復過濾、垃圾信息過濾、廣告過濾,同時對視音頻素材也需要具有過濾功能,對重復上傳的視音頻避免重復入庫。

內容審核:基于敏感詞及特征庫,過濾檢測內容的文本、圖片及視頻。自動過濾匯聚素材中的敏感內容,并將包含敏感詞的素材放入待發布區,由人工二次處理。

字幕檢測與識別:從視頻中檢測到是否有字幕。字幕識別,對有字幕的視頻把字幕轉換成文字。

人臉檢測:檢測是否是某個特定人的臉,檢測是否含有人臉。

視頻標簽提取:識別視頻中的場景、人物、風景、建筑、生活物品等,支持不同維度層次的圖像語義信息提取,豐富內容標簽。

多格式轉換:可將多種音視圖文素材轉換為標準的制作格式、碼率,供電視新聞生產網或新媒體調用。

3.2 內容挖掘引擎

通過人工智能技術對入庫的海量內容的屬性、文本、標簽等進行內容挖掘,包括分類、聚類、自動關聯、實體名提取、情感分析、標簽提取等。

分類:通過分析內容元數據、文本信息、內容標簽,以及分類配置信息,自動將入庫內容進行分類。

聚類:根據編目信息、自動提取的標簽信息,支持文件屬性自動辨別分類,元數據分析分類,元數據自動關聯,話題內容相似性聚類,可通過自動聚類技術自動聚焦一段時間內網上熱點信息,可自定義需進行自動聚類運算的素材來源和類別。

自動關聯:新聞稿件相關內容自動關聯,自動關聯相關、相似的多媒體素材,形成新聞素材集合,便于編輯制作人員有針對性地挑選采用,可自定義需進行自動關聯的來源,可靈活配置自動關聯分析靈敏度。

實體名提取,對內容進行領域內的實體名提取,包括欄目名、節目名、主演、主持、導演等領域內實體名;

情感分析,針對輿情、評論,進行情感分析。

標簽提取:通過分析內容的元數據及文本信息,自動提取內容的關鍵詞,形成內容的標簽。

3.3 可視化渲染引擎

通過靈活使用HTML5技術,適配不同的展現模式,同時運用CSS3的動畫特性,結合媒體內容的自身特點,以更生動、更友好的形式,實時呈現隱藏在龐雜媒體內容背后的規律、聯系。

總結

以全媒體內容為基礎的媒體融合業務,對內容保存和使用需求不再只是以素材和節目為核心,也不再以人工編目和結構化的數據保存為主要手段,而是擴展到面向全媒體業務,涵蓋素材、節目、電視稿件、兩微內容、H5頁面等多種內容形態,同時,對內容的編目也以自動化的數據提取、智能編目、非結構化的原始數據保存為主要手段,重視對原始內容數據的持續挖掘。[5]

以大數據、人工智能技術為基礎,重新梳理媒體內容服務的各個環節。基于標簽的內容分析挖掘,充分發揮內容的最大價值,最終實現全臺內容包括媒資、制作,以及電視媒體、廣播媒體、新媒體等多種業務體系內容的統一檢索和使用,實現為融合媒體各種業務的內容支撐。

猜你喜歡
提取
射擊痕跡的尋找和提取
法制博覽(2016年12期)2016-12-28 18:50:33
植物基因組DNA提取
濱州市沾化冬棗核中活性多糖的提取
綠色科技(2016年20期)2016-12-27 18:10:47
茶色素生物活性及制備技術研究進展
木犀草素提取工藝的研究概況
現場勘查中物證的提取及應用
淺談涂料墻面上汗液手印的顯現和提取
土壤樣品中農藥殘留前處理方法的研究進展
中學生開展DNA“細”提取的實踐初探
淺析城市老街巷景觀本土設計元素的提取與置換
主站蜘蛛池模板: 亚洲精品午夜天堂网页| 九九九国产| 自慰网址在线观看| 亚洲精品波多野结衣| 啪啪永久免费av| 国产成人免费高清AⅤ| 国产人成在线视频| 午夜福利免费视频| 精品国产香蕉在线播出| 91欧美在线| 色婷婷啪啪| 欧美国产精品不卡在线观看| 亚洲日韩精品综合在线一区二区| 亚洲天堂精品在线| 91国内在线视频| 免费一级无码在线网站| 亚洲第一视频网| 九色综合伊人久久富二代| 一本久道热中字伊人| 无码视频国产精品一区二区| 99久久免费精品特色大片| 亚洲人妖在线| 香蕉综合在线视频91| 国产91精品久久| 国产亚洲精品自在久久不卡 | 国产乱子伦无码精品小说| 大陆精大陆国产国语精品1024| 老色鬼欧美精品| 亚洲天堂2014| 国产精品久久久免费视频| 日韩精品成人在线| 久久动漫精品| 欧美日韩在线亚洲国产人| 国产成人精品亚洲77美色| 国产精品熟女亚洲AV麻豆| 国产精品9| 精品久久久久久久久久久| 中文字幕 日韩 欧美| 亚洲精品天堂在线观看| 亚洲不卡无码av中文字幕| 精品福利一区二区免费视频| 久久婷婷综合色一区二区| 亚洲黄网视频| 午夜啪啪网| 国产激情第一页| 中文字幕精品一区二区三区视频| 91精品aⅴ无码中文字字幕蜜桃| 亚洲中文字幕日产无码2021| 毛片网站免费在线观看| 国产免费久久精品99re丫丫一| 操国产美女| 亚洲色图欧美一区| 毛片免费网址| 国产精品自拍合集| 香蕉视频国产精品人| 亚洲人成网站色7799在线播放| 99热6这里只有精品| 91久久国产综合精品女同我| 国产农村精品一级毛片视频| 91国内在线观看| 亚洲黄色激情网站| 精品无码视频在线观看| 99re热精品视频国产免费| 亚洲免费毛片| 精品少妇人妻无码久久| 国产福利影院在线观看| 国产主播一区二区三区| 久久综合伊人77777| 亚洲资源站av无码网址| 在线观看欧美国产| 国产福利免费在线观看| 无码人妻免费| 国内精品久久久久鸭| 伊人久久婷婷| 色综合天天视频在线观看| 九九九国产| 日韩激情成人| 91色在线观看| 欧美精品在线看| 欧美区一区二区三| 亚洲成年人片| 波多野结衣亚洲一区|