譚榮皓
(作者單位:甘孜州廣播電視臺)
國家廣播電視總局在“十四五”規劃中提到:建立人工智能技術開發服務平臺,為人工智能算法訓練、智能工具、服務優化、測試評估、服務認證等提供支撐服務,推進人工智能在內容生產、傳播分發、終端呈現等環節的全面應用。甘孜州廣播電視臺建設經歷了從模擬到數字,從模塊建設到全網一體化智慧建設的過程,目前,已經建成“貢嘎云”州縣融媒本地化部署的技術平臺,實現了媒體數字化目標。推進媒體深度融合,原有的業務范圍更廣,需要生產和發布的內容更多,迫切需要借助先進的人工智能技術為前臺各種應用工具提供智能化、多樣化、便捷化的服務,以便提升臺內的節目生產、審核、發布效率。
構建一套滿足使用需求的智能媒體服務平臺,為甘孜州廣播電視臺提供完善的智能處理能力,完成對視頻、音頻、圖片、文字等類型的內容資源進行智能處理,包括人臉識別、場景識別、文字識別(optical character recognition,OCR)、語音識別、圖片識別、內容分類、標簽提取、主題識別與智能藏漢翻譯等,系統建成后具備較為全面的智能處理能力,能夠隨著業務需求變化進行智能服務擴展。
智能媒體服務平臺從功能設計、應用交互、業務流程設計各方面按照全媒體業務需求進行,以互聯網思維、全媒體思維進行業務適配,將廣播業務、電視業務、新媒體業務等對媒體內容的需求進行整合,既適配傳統媒體生產、審核、發布,又能適配面向互聯網的媒體服務需求。
通過智能媒體服務平臺的建設,搭建起“自用+租戶”的運營模式,在滿足甘孜州廣播電視臺對智能媒體服務的基礎上,為平級企事業單位、下級縣級融媒體中心單位等提供一些智能的媒體處理功能,提供基礎資源、平臺服務能力、應用工具等租賃服務,為單位持續地創收增效。
基礎平臺充分采用甘孜州廣播電視臺原有的私有云平臺資源、虛擬化計算資源、圖形渲染資源、存儲資源,部分輕量級人工智能服務直接對接公有云平臺,如語音合成服務、藏漢翻譯服務。系統總體設計如圖1所示。

圖1 智能媒體服務系統總體設計
通過智能媒體服務平臺提供的各種智能引擎,將甘孜州廣播電視臺私有云現有的各類數字媒體資產結構化處理,包括媒資元數據、語音數據、圖片數據、視頻數據、標簽數據、OCR數據等,打造智能媒體服務平臺的智能數據中心。智能媒體服務平臺提供了包括語音識別、人臉識別、場景識別等多種智能化服務,為前端的應用提供具體的智能化輔助[1]。
智能媒體服務平臺和原有“貢嘎云”融媒體平臺、圣潔甘孜新媒體應用程序(Application,App)發布平臺、互聯網視頻生產平臺、傳統音視頻生產(非編網)、媒資網、文稿系統等業務系統對接,為原有業務系統的應用智慧賦能。智能媒體服務平臺主要提供語音智能服務、圖片智能服務、視頻智能服務、語言文字處理、內容智能審核這幾大類服務,并把以上的智能服務和現有的業務工具對接,解放更多的生產力,賦予現有應用工具更多的智能處理能力。
人臉識別模塊能快速識別視頻中的人臉信息并快速定位出視頻中的人物所在幀畫面,以及人臉所在區域。可調用自定義的甘孜州本地人物庫或調用已經創建的視頻公共人物庫進行人臉識別。
語音識別模塊能快速識別視頻中的聲音并轉化成文字,支持自定義關鍵詞并定位出關鍵詞所在視頻的時間點。
場景識別模塊基于深度學習方案,能夠設定視頻截幀間隔,自動識別截幀畫面內的各種預設場景,并定位場景標簽所在的視頻位置;涵蓋人物、風景、人造物、建筑、動植物、食物等多個大類,包含日常生活的各個信息維度。
OCR識別模塊能對視頻圖像文件進行分析處理,獲取文字及版面信息,可用于視頻內的自定義關鍵詞的提取。
基于連續亮度灰度直方圖的相似度比較算法來轉場識別素材的鏡頭信息,形成一系列的鏡頭信息和鏡頭封面,并且提供鏡頭信息的合并、拆分以及形成新的片段。
智能翻譯模塊集成應用深度神經網絡、高級機器學習、大數據智能等人工智能技術,大規模采集并構建藏語(含詞匯、短語等)庫,建立數據驅動、以自然語言理解為核心的認知計算模型,構建甘孜州廣播電視臺藏漢互譯系統。
基于對視頻內容進行深度學習和理解,輸出場景識別信息、人物識別信息,并利用語音識別以及自然語音處理技術,智能生成多元素視頻標簽,用于視頻的管理和檢索應用。
甘孜州廣播電視臺利用智能媒體服務平臺提供的人工智能能力,具體賦能到各項業務系統中的應用工具,設計如下:
非編系統能夠通過智能媒體服務平臺提供的語音合成引擎將文字轉化為自然流暢的人聲,把非編系統時間線上的字幕自動生成音頻文件[2]。根據節目類型的不同,可預先定義好音色、語速、音量、合成音頻采樣率等,定制完成多種不同類型的人聲,提升臺里某些講解類、資訊類、廣告類節目的生產效率。
媒資管理系統能夠通過智能媒體服務平臺提供的語音轉寫引擎對內容庫中已有的音頻文件、視頻文件進行識別,將音頻內容轉寫為文本信息,輔助人工進行快速檢索,提升內容的檢出率,并支持在檢索選項欄錄入語音進行內容檢索[3]。
非編系統能夠通過智能媒體服務平臺提供的語音轉寫引擎對時間線上的視頻進行智能分析,并自動輸出帶有時間戳的字幕。為了提升字幕整理速度,充分利用聲紋技術,根據聲紋特征,自動將采訪者和被采訪者說的內容分開。
非編系統能夠通過智能媒體服務平臺提供的人臉識別引擎對時間線上的視頻進行智能拆條,根據人臉自動定位。該功能可將相同的人物條目進行分段合并處理,并以人工進行鏡頭批注,只需要極少的人力對拆條后的素材進行微調即可,減少了大量的人工拆條的工作,這樣既提升了效率,也節約了人力成本。
媒資系統通過智能媒體服務平臺提供的人臉識別引擎對內容庫中的視頻、圖片進行人物標簽管理,自動對人臉特征庫中的人物信息進行標簽標注處理,在檢索時支持人名和圖片兩種方式,凡是包含該人臉的素材都會出現在檢索結果中[4]。若該人臉在敏感人物庫中,會在檢索結果中進行高亮提示。
在新媒體發布平臺中,能夠對入庫的視頻、圖片進行敏感人物識別,增強新媒體發布內容的安全性。
非編系統、媒資系統均能通過智能媒體服務平臺提供的其他智能識別引擎,基于對視頻內容進行深度學習和理解,輸出場景識別信息、OCR識別信息、地標信息等,智能生成多元素視頻標簽,用于視頻的管理和檢索應用。
在新媒體發布平臺中,對新媒體內容庫進行結構化處理,基于對視頻的場景分類、人物識別、OCR文字識別、地標識別等分析,形成層次化的分類標簽,支撐新媒體發布平臺根據觀看用戶的愛好進行推薦。
新媒體發布平臺和媒資系統均能通過智能媒體服務平臺提供的內容審核引擎,對上傳的圖片、視頻進行內容安全檢測,包括色情、低俗內容檢測;涉恐涉政識別;Logo識別,對含有旗幟、臺標、水印、商標的內容進行檢測;垃圾廣告識別,對含有廣告信息的內容進行識別;不良場景識別,對涉及毒品、賭博、畫中畫的內容進行識別;風險人物識別,對敏感人物進行識別。對待發布內容進行安全審核,可以提升發布安全性。
文稿系統能夠通過智能媒體服務平臺提供的智能翻譯引擎,實現漢語到藏語的翻譯。首先,自動將視頻的字幕或語音提取成文字,并按時間點分割成一段段的文字,形成列表;其次,將漢語文字結果列表,自動翻譯成藏語列表,并包含人工的角色和標簽信息,工作人員能夠對照漢語文字,調整翻譯的藏語結果。提供專有名詞、短語片段、句子級的翻譯糾正功能。在后期人工配音時,點擊某段,能夠自動跳轉到視頻的對應位置(可提前1秒或10幀),對視頻重新進行藏語配音,并細調語音和視頻對應的位置,提升藏語譯制節目的生產效率。
通過集成各種人工智能引擎技術,打造了甘孜州廣播電視臺的智能媒體服務中臺,硬件資源由原有私有云提供,節省了投入。甘孜州原有業務系統的媒資、非編網、新媒體發布平臺均能對接。智能媒體服務平臺能夠從人物、語音、場景、地標等多維度自動添加標簽,支持快速檢索,提升了各個業務系統的素材使用率。通過人工智能技術進行自動拆條、語音合成、藏漢翻譯,使得臺內節目生產的質量和效率得到顯著提高,同時也節約了大量人力成本。通過內容智能審核服務,讓內容中可能存在的黃、暴、恐安全隱患無處可藏,提高內容安全鑒別效率和準確度。未來,還將繼續拓展智能媒體服務平臺的人工智能能力,并在此基礎上,賦能現有業務工具,創建更多用應用場景。