楊宏民 國家廣播電視總局五七三臺
如今,媒體融合已成為趨勢,媒體融合平臺的搭建為媒體內容管理和服務提供了新的渠道和思路,而全媒體內容庫是其關鍵部分,有利于全媒體資源的統籌管理。全媒體內容庫的作用主要體現在全媒體信息的共享、檢索和調用方面,使平臺所有媒體資源獲得更深層次的開發利用,還能對全媒體運營、策劃以及生產等起到有力支撐作用。如今,各類新媒體發展迅速,網絡環境更加復雜,如何幫助用戶獲取有價值的媒體內容,優化媒體內容服務流程,搭建行業可視化模型庫成為需要解決的問題。面對龐大的全媒體內容,用戶僅依靠傳統分類、搜索等功能很難得到有用信息,需要借助更加智能化的工具提高檢索效率,挖掘價值內容。要依據用戶需求,提供精準服務,在確定用戶目標的情況下應借助搜索工具幫助其快速、準確的得到目標內容,若用戶對自身需求也不確定時,應體現全媒體內容智能服務特點,主動智能分析客戶需求,幫助客戶逐步明確并得到所需內容。全媒體內容庫的開發利用要兼具數據分析和可視化功能,特別是諸多可視化分析工具的應用,實現了更加便利、直觀、高效的內容庫分析功能,優化了用戶體驗。
從多媒體類型上劃分全媒體內容有視頻、音頻、圖像以及文本等形式,對于不同的內容對象其特征往往需要從多個角度分析,如何準確的提取出內容特征是了解和利用全媒體內容的關鍵。
1.文本特征提取
對于多媒體中的文本信息來說,其特征主要為詞性、詞義、關鍵詞以及包含的情感等,為了更準確、快速的提取文本特征,這里需要用到自然語言處理技術。
2.圖像特征提取
對于圖像來說,既包含圖片中文本信息的提取,又包含圖像特有的背景、人物、物體等信息的特征描述,將人工智能應用于內容庫中圖像特征分析,可對圖像特征以文字的形式予以描述。為了挖掘圖像的更深層的特征,更好理解圖像表達的內容,應從不同維度生成圖像相關的不同特征向量,并通過特征向量的對比、分析以及計算,可準確把握圖像內容。
3.音頻特征提取
在全媒體內容庫中,音頻媒體的分析處理也需要借助人工智能技術,為了獲取音頻特征,可有兩條途徑:一是進行音頻語音的智能識別,并將其轉化為文本形式,然后再利用文本特征提取方法挖掘音頻內容,該方法局限于人類語言內容的音頻;二是從聲樂特征的角度進行分析,提取音頻中所包含的聲紋特征、音調、音色等。音頻特征提取之后的分析計算有助于音頻媒體中內容的把握。
4.視頻特征提取
對視頻來說,可以概括為以上三類媒體類別的綜合體,需借助智能處理技術意義分析,所包含內容層次更多如場景、人物、聲音以及文字等。為獲取視頻特征,需要對視頻中出現的所有信息進行分類識別,可采用分幀處理或者單獨提取音頻和文本的方式處理,視頻特征的分析計算也是必須的。
由于全媒體內容特征數量龐大,若對特征信息準確分類和快速提取,需要利用好“標簽”的概念,對于多媒體內容的特征以標簽的形式進行描述,可描述的內容不固定可以是選題、報道等。標簽與分類不屬同一概念,以某個全媒體內容來說,所屬分類的維度有限,通常只能簡單分為幾類,相對來說比較固定,而對于標簽來說,則不存在數量限制,可從各個維度進行表述并自由添加。鑒于標簽的特征,面對日益龐大的全媒體內容,可將標簽用于內容管理中去,通過多維度管理更能提高多媒體數據利用效率。要針對多媒體內容進行特征分析,選取有代表性的、明顯的內容特點并將其設定為標簽,多重維度的標簽有助于媒體內容的準確定義以及海量內容的有效挖掘。內容標簽的設置大大提高了目標內容的快速提取,對全媒體內容挖掘帶來極大便利,而且標簽的作用還體現在多媒體內容的管理方面,可以更加高效的進行組織和整理。面對未知的全媒體內容,若要發掘其中有價值的內容,在人工智能技術支持下,標簽為客戶提供了探索發現的鑰匙。借助于內容標簽,全媒體內容特征更直觀的展現在用戶面前,更易發現用戶所需求的內容,這體現了標簽的使用價值。
為了將全媒體內容庫中的不同媒體形式的內容進行可視化展示,常用方法有:2D/3D 圖表、數據列表、地圖分布、數據模型等,當采用多維數據分析時,若要達到可視化效果則要求掌握信息不同維度數據間的內在聯系,并對其分布情況以曲線圖、柱狀圖或者雷達圖等形式表達出來。這里著重對標簽云技術進行分析,其主要用于文本媒體內容的可視化應用。其整體形式就是預先對某文本信息所包含的關鍵詞進行提取,然后將其以特定順序進行排列,最終呈現在我們面前。還要對這些關鍵詞予以區別,區分標準主要是出現頻次和重要程度,并對關鍵詞的字體大小、顏色進行調整,給予高頻次和高重要性的標簽更加醒目的標記。
探索工具的應用對于發掘全媒體中有價值內容有很好的輔助效果,而且工具的應用降低了內容挖掘的難度,只需掌握簡單的操作方法,就能更直接的發掘全媒體內容潛在的關聯,發現更多內容價值。下面對各類探索分析工具進行介紹:
1.內容分布分析工具,能夠利用全媒體內容的標簽和屬性等信息自動完成相關內容的分布分析工作,并具有可視化功能設計,方便使用者對內容分布有更清晰的認識;2.熱點內容挖掘工具,對于各類社會熱點問題,工具可在熱點的基礎上深入發掘其他相關信息,并且還具有領域分類功能,可依據客戶對時政、體育、娛樂等不同喜好有選擇性的挖掘熱點信息;3.內容關聯性挖掘工具,能夠在大量媒體信息中心發現其潛在的關聯并以不同專題的形式將其融合成,如人物專題。利用可視化功能對內容關聯性挖掘結果進行直觀展示,有利于提高選題、決策等有效性;4.詞云分析工具,主要用于標簽數據的可視化展示,幫助使用者更好掌握各關鍵詞間的聯系,提高標簽數據的利用價值;5.情感分析工具,主要針對的是網絡推文的評論信息及其他輿情相關信息,在智能識別技術支持下可更精確的發掘媒體內容中所表達的情感信息,并進行智能判斷,實現更高價值的應用;6.數據分析與仿真工具,通過對多維數據交互關聯分析,利用統一的關系/空間/時間/統計等數據分析模式,同時嵌入各種自定義業務仿真計算模型,支持對閾值模型/評估模型/預測模型等,再利用大量分析算法,還可擴充開發新的分析模型,適應行業業務需求。
處理引擎所具備的處理功能有:1.內容篩選,就是在信息數據分析的基礎上對全媒體內容的保密性和重要性進行分級處理;2.內容過濾,出于減少重復、垃圾、廣告等信息的考慮,對無價值信息進行過濾,還要檢測上傳視音頻的重復性,避免相同文件二次入庫;3.內容審核,主要是對上傳多媒體文件進行敏感信息監測,將帶有敏感因素的內容自動過濾掉,也可交于人工審核;4.識別并轉換字幕,當在視頻素材中包含字幕時,應將其自動轉換為文本形式;5.人臉檢測功能,既是可以智能檢測圖像、視頻等中的人臉部分,還能自動識別人的信息;6.標簽提取功能,主要是能夠智能識別多媒體文件中包含的人物、背景、物品等信息,設置不同的標簽內容;7.格式轉換功能,就是能夠將全媒體內容庫中的素材按照需求進行格式的轉換,方便特定單位使用。
內容挖掘所具備功能主要有:1.分類,主要是根據內容中所包含的信息、數據、標簽等按照不同分類進行劃分;2.聚類,指的是可根據數據內容的相似性自動進行聚焦,這期間涉及到內容信息、標簽、屬性等信息的提取,并且是經由自動聚類技術實現的,聚類過程是可控的,可對目標范圍進行約束;3.自動關聯,可有目的的使信息素材自行集合,素材間存在相似、相關等關系,通過信息的自動關聯可方便使用者挑選和使用,而且還可通過調節關聯分析靈敏度達到用戶需求的目的;4.實體名提取,主要是全媒體內容中存在的如節目名、演員名、歌手名等進行提取;5.情感分析,主要就是對網絡輿情中存在的代表個人所表述的情感的分析;6.提取標簽,就是根據內容中所包含的數據、文本等挖掘具有特征代表性的詞語并將其設置為標簽。
為了提高可視化效果,利用好HTML5及CSS3 編程開發工具,使展現在用戶面前的畫面更加形象和生動,還能更好表達其潛在的規律及聯系,給予用戶更加優質的全媒體內容可視化體驗,提高可視化實用效果。
綜上所述,媒體融合發展使得龐大的多媒體資源的價值挖掘和可視化應用成為目前所面臨的主要問題,對不同種類多媒體素材進行特征提取,可幫助人們掌握網絡輿情。通過對內容設置標簽,有利于發掘內容潛在聯系。全媒體內容庫的建設有助于平臺媒體資源的有效整合和管理,提高信息檢索和分析效率,對媒體融合發展提供支持。