張營軍 劉曉亮 鄭觀衛
摘要:面對地級市媒體融合的發展戰略,文章簡要分析淄博市融媒體中心新媒體業務的發展現狀,通過引入智能AI技術和大數據技術帶來創新發展的機遇,詳細描述采用圖像識別、語音識別、光學字符識別、自然語義處理等技術構建的智能標簽系統的設計思路、應用場景及關鍵技術,為地級市媒體融合的建設發展提供新思路和應用價值。
關鍵詞:人工智能;大數據;智能標簽;應用;設計思路;關鍵技術
中圖分類號:G206 文獻標識碼:A 文章編號:1004-9436(2022)12-00-03
0 引言
隨著網絡硬件和IT技術的飛躍發展,整個社會的信息化程度迅速提高,廣電行業傳統的生產方式也逐步被新技術影響,成為發展的重要動力。
淄博市廣播電視臺在長期發展過程中累積的海量資料庫將成為未來媒體融合發展中的重要戰略資源和核心競爭力,傳統的媒資素材管理、人工編目工作將制約標簽檢索、內容制作進而影響分發效率。淄博市廣播電視臺將利用IT技術、大數據技術、AI技術,逐步升級建設一套具有智能標簽、智能編目能力的媒資管理業務系統,并與節目生產、審核及發布緊密結合,進一步朝數字智能的方向發展,提升媒資使用效率[1]。
1 新媒體業務在淄博市融媒體中心的發展現狀
淄博市融媒體中心作為全國早期建設的地市級融媒體中心,率先掛牌探索發展路徑,明確自身定位,厘清發展方向,加快推進速度,取得顯著成效。
淄博市融媒體中心建設聚焦高質量發展要求,通過新媒體業務有效增加創新創作的積極性并有效促進融合流程再造,成為媒體融合發展的重要抓手。同時提升了引導群眾服務群眾的能力,在提升媒體公信力、影響力等方面發揮了重要作用。
目前淄博市融媒體中心新媒體業務在發展中存在的人才不足與技術劣勢等問題,淄博市融媒體中心依托政策支持,通過優化組織架構、加強內部培訓、提升薪酬待遇等方法培養了一批新媒體人才,并逐步建設一個新媒體業務團隊,促進業務長期可持續發展。
作為地級市融媒體中心,淄博市融媒體中心認識到媒體融合發展繞不開媒體技術的融合。面對新媒體技術劣勢的問題,淄博市融媒體中心技術手段依然較為傳統,還沒有充分發揮新媒體平臺的特點和互動性。為此淄博市廣播電視臺將利用5G、大數據、云計算、人工智能等信息技術革命成果,加強新技術在新聞傳播領域的應用,讓新技術更好地為淄博當地媒體融合產品服務,提升融媒體中心的影響力與競爭力。
2 人工智能及大數據技術為淄博市媒體融合帶來新的發展機遇
近年來智能AI和大數據技術快速發展,已廣泛應用于新聞采編、內容發布、數據采集、評估反饋等環節。淄博市融媒體中心面對大量復雜、無序的非結構化數據,其來源廣泛,不僅有本地的音視頻及圖文,還包括大量互聯網內容和社交媒體內容。淄博市融媒體中心應有效利用這些紛雜龐大的數據做好新媒體業務、做好媒體融合產品,實現服務本地群眾,滿足其精神文化需求的根本目標。
利用人工智能和大數據技術,淄博市融媒體中心未來可以通過合理的算力,在智能標簽、智能識別、智能推薦等領域創新發展。隨著硬件性能提升和深度學習算法的突破,逐漸具備規模化服務內容生產、分析評估并提升用戶體驗、提升傳播效率的能力[2]。
3 智能標簽系統在淄博市融媒體中心新媒體傳播中的應用策略
3.1 輔助新媒體業務個性化選題的智能生產
傳統媒資系統大量使用人工編輯為音視頻資源提供編目信息,經觀察發現,無論是完整視頻或是片段視頻均無法適應新媒體時代內容的生產速度。
利用智能標簽系統,將為媒資系統提供智能化的編目能力,解決視頻結構化長期以來嚴重依賴人工編輯的問題,將優秀的編輯人才傳送到新媒體業務中。
智能標簽系統對音視頻內容進行結構化預處理,自動建立標簽體系,實現對海量內容快速標簽檢索、編目、專題搭建、內容集納等工作。
3.2 促進后臺數據庫的科學分析
通過智能標簽系統,可實現精準推薦、智能運營等工作,同時在實際業務中積累多維度數據,與標簽體系關聯,提供強大的基礎數據支撐,更科學地優化運營機制,突破同質化瓶頸,提升核心競爭力。
3.3 提升新媒體業務的受眾體驗
隨著互聯網技術的飛速發展,保證內容安全和開展內容審核工作方面都面臨著全新的巨大挑戰,如內容數據量大、來源多樣、敏感點越來越多、時效要求高、主體責任重等。在傳統的節目審核機制之外,新媒體業務可有效通過智能標簽系統為內容安全提供高效的技術支持,用主流價值導向提升新媒體業務的受眾體驗,營造風清氣正的網絡空間。
3.4 提升新媒體業務的傳播效率
智能標簽系統經過動態數據反饋,利用有效算力進行深度學習,構建多模態的標簽體系,為內容生產提供強大的基礎能力。同時賦能知識圖譜,對新媒體傳播具有正相關的促進作用。
4 智能標簽系統的設計思路
利用深度學習的訓練,通過智能識別基礎能力,構建智能標簽系統。在實踐中,標簽被劃分為視頻圖像類標簽、音頻類標簽和文本類標簽,標簽可在視頻和圖片中提取,還可以利用語音識別、光學文字識別和自然語義處理在文本中提取。
視頻圖像類標簽中包含四個子類:人物標簽、地區標簽、場景標簽、事件標簽。
音頻類標簽中包含:人物標簽、地區標簽、正面/負面標簽、場景標簽。
文本標簽中包括:人物標簽、地標標簽、地區標簽、組織機構、正面/負面標簽。
自動語音識別(ASR):應用語音識別技術將視頻中的聲音轉換成文本,并通過關鍵字、分詞技術、相關性分析對文本內容進行標簽提取。
人臉識別:人臉識別技術為媒資內容添加人物標簽,并精確標記視頻中人臉出現的具體時間和相對坐標。人物標簽可分為兩個子類:正面人物和負面人物。人物面部正面、側面、抬頭、低頭、近景、中遠景、人物面部有少量遮擋、有年齡跨度均可識別。通過智能標簽系統,可實現根據人物姓名快速檢索,遇到負面人物可直接檢索下線。
光學字符識別(OCR):可識別字幕、以文字形式出現的新聞標題等,識別結果經過數據清洗后,將作為自然語義分析的輸入、輸出多種類型標簽。
地理地標識別:通過圖像識別技術和自然語義處理技術識別分析并為內容定義地理標簽,如媒資內容中出現了“鳥巢”,那么系統就對該素材標記“鳥巢”的地理標簽。
場景自動識別:通過圖像識別技術處理并識別視頻中出現的場景,如室內、戶外、雨雪、城市風光、夜景、旅行等。當識別到這些場景時為素材自動標記相應的標簽。
經過智能標簽系統定義的所有標簽,經過數據預處理后,通過知識圖譜進行關聯數據并存儲,同時利用算法對標簽數據進行聚類、聯想或分析推理,進一步強化基礎能力。
在使用智能標簽系統進行檢索時,機器自動提取的標簽才能產生巨大價值,也是智能標簽系統的設計目標。
5 智能標簽系統的關鍵技術
5.1 人物智能識別技術解析
通過算法自動聚類的方式,輔以少量人工,將數據集的噪聲剔除干凈。通過GAN和眼鏡3D合成的方法彌補數據集關于某些特定類型數據的缺失。
采用Landmark的算法,標定人臉上的關鍵點,可通過標記面部的100個特征點,識別人臉基本屬性,如年齡、性別、標簽、是否帶眼睛等。根據這些屬性特征匹配人物樣本庫中的政治人物、敏感人物、文體明星、社會名人等,并利用該方法進行人臉檢測,檢測一張圖像中最顯著的多張人臉,并分別標記出其在圖像中的位置。
另外,還可以采用一種多任務深度學習方法,該算法可以聯合預測和識別單張圖像中的多種屬性信息,包括人臉數、年齡、性別、是否戴眼鏡等多重屬性,而無須提前對面部關鍵部位進行標記。前期的共享特征提取自然探索了多個屬性識別任務的相關性,可以更加有效地進行特征表達,后期根據特定類型的特征學習來進行多個屬性的預測,根據屬性的劃分使用各自對應的損失函數,整個特征學習的卷積網絡架構更簡單。相比于其他與人臉檢測結合的屬性分類方法,采用的算法框架更簡潔緊湊,將多個屬性分類的復雜網絡在學習階段進行共享和融合,屬性分類能有效利用特征學習階段的共享權值,使學習效率和速度更快。并且只通過一個網絡就可以同時考慮到屬性相關性與屬性特異性,突出屬性的劃分,有效訓練人臉屬性分類模型[3]。
人臉檢測部分采用一種二階段的人臉檢測框架,對線束人臉檢測和位置標記同時進行學習,主要可以完成人臉和非人臉的分離以及人臉位置的定位任務。
5.2 場景及實體智能識別技術解析
采用基于改進Faster R-CNN模型來監測視頻中形狀比較規則且位置變化較多的標識;采用基于可變形卷積的物體檢測技術來檢測視頻中具有多樣性的物體,以及具有易形變性的旗幟、標語等物體;采用基于各向異性膨脹網絡的人物檢測技術來檢測和識別圖片中復雜場景下的特定人臉;采用基于殘差遷移網絡的不良場景檢測技術來識別圖片中的特定場景。
高質量的數據標注對于提高模型準確率至關重要,但成本也非常高。使用半自動的數據清洗來降低標注成本,同時提升標注效率。先用模型排除掉置信度高的數據,然后人工標注部分置信度低的數據,重新訓練模型,再進行數據迭代。
無監督訓練方法可以在沒有標注的數據上得到預訓練模型。通過無監督學習,在海量的業務數據上,不斷迭代預訓練模型,從中得出有用的特征。某些特殊的業務,可以獲取的數據量非常少,就可以用半監督學習的方式,借助少量標注訓練出可以滿足業務需求的模型。
采用深度多實例排序的弱監督算法框架進行特定事件識別;采用基于貝葉斯多核學習的多線索融合方法融合圖片與視頻的判別結果來分析視頻的內容意義。
以特定事件識別為例詳細說明如下。
本模塊將采用基于深度多實例排序的弱監督算法框架進行特定事件識別。首先對視頻進行鏡頭分割,將包含不同事件的鏡頭分割開,然后對每一片段進行特定異常事件識別。具體而言,該算法采用了多示例學習(Multiple instance learning,MIL)方法來構建算法框架,并提出了包括稀疏和平滑約束的MIL排序損失來進行模型訓練,同時使用MIL的思路構建訓練集合,在利用三維卷積結合全連接的網絡來獲取異常事件評分,最后采用提出的MIL排序損失來訓練模型。
對特定場景、特定事件、特定著裝等關鍵內容,也采用深度學習算法,根據視頻、圖像信息的特定特點進行識別。
5.3 OCR識別技術解析
OCR檢測模型結合了通用的圖像分割和目標檢測相關技術,借鑒了諸多主流的文字檢測算法,包括EAST,CRAFT,TestSnake等,可以預測多角度、多種形態的文字。用弱監督的方式訓練文字檢測模型,結合人工標注和合成樣本,降低標注成本。文字識別的框架借鑒了標準的CRNN模型,也就是“CNN+RNN+CTC”。同時融合了多種最新算法,包括Attention、ASTER、FAN等,這些技術的運用能夠提升識別的準確率。文字識別模型的訓練也采用了大量的合成數據,通過多樣化的合成數據,可以在不借助人工標注的情況下,訓練出高魯棒性的模型。
5.4 自然語義處理技術解析(NLP)
通過深度學習算法,利用神經網絡對輸入的文本信息進行情感分析、情緒解析和分類,衡量信息的正負面、觀點傾向等,自然語義處理可以處理復雜的、有一定理解深度的文本。
利用自然語義可以更精準地提取標簽,同時理解操作者查詢檢索目的,從而快速準確地返回目標數據。
按照業務方向進行相應的建模和算法服務如下。
實體識別模型:針對結構、人物、地點等實體的自動識別。
情感正負面模型:量化分析文本中表達的情感正負面。
文檔摘要模型:根據字數限制,長文本進行摘要和提煉。
機器翻譯模型:針對廣播電視領域資訊和報告深度優化的機器翻譯模型。
6 應用場景
通過智能識別技術方法提取標簽,并輔以人工校驗,匯總后提供給用戶檢索或作為前端功能使用。
對于人物標簽、對象標簽、場景標簽、事件標簽、機構標簽須進行人工校驗和修訂才能呈現較好的實際效果。
7 結語
文章綜合闡述了淄博市融媒體中心新媒體業務的發展現狀和人工智能大數據領域的探索與實踐,同時將人工智能技術應用于智能標簽系統,服務于內容的生產及傳播。實踐證明,人工智能大數據技術將在新媒體傳播領域產生全方位影響,面對地級市媒體融合發展的挑戰與機遇,淄博市廣播電視臺利用智能AI技術、大數據技術、IT技術逐步升級建設一套具有智能標簽、智能編目能力的媒資管理業務系統,并在全媒體智能標簽領域取得了突破性進展,為地級市媒體融合深入建設發展提供了新思路和技術保障。
參考文獻:
[1] 羅萬麗.人工智能時代新媒體傳播趨勢探析[J].新聞采編,2018(3):57-59.
[2] 喻國明,曲慧.網絡新媒體導論[M].北京:人民郵電出版社,2021:212-216.
[3] 劉雪梅,楊晨熙.人工智能在新媒體傳播中的應用趨勢[J].當代傳播,2017(5):83-85.
作者簡介:張營軍(1968—),男,山東淄博人,本科,高級工程師,研究方向:廣播電視技術、計算機與網絡安全。
劉曉亮(1968—),男,山東淄博人,本科,高級工程師,研究方向:廣播電視技術與工程設計、計算機與網絡。
鄭觀衛(1976—),男,山東淄博人,本科,工程師,研究方向:計算機與廣播電視技術。