高雅萍,安 鈞
(浙江廣播電視集團,浙江 杭州 310005)
對于手握海量音視圖文資源的廣播電視行業(yè),如何高效且最大化地挖掘資源價值,一直是值得探索的一個課題。國家廣播電視總局通過制定相關編目規(guī)范,以確保編目數據的規(guī)范性和通用性。目前,廣播電視行業(yè)普遍采用人工的方式進行媒資編目,存在較多問題,比如編目成本高,編目質量完全依靠編目人員自身素質,對于熱點信息無法做到實時編輯,滯后性較強[1]。隨著大數據、云計算、人工智能等技術陸續(xù)普及并賦能廣大傳統行業(yè),深圳、浙江、湖南、北京等地電視臺紛紛建設智能媒資系統,利用先進的人工智能(Artificial Intelligence,AI)技術,深入挖掘資源信息,讓媒資煥發(fā)青春。本文以浙江廣播電視集團(以下簡稱浙江廣電)智能媒資為例,分析智能技術與人工編目深度融合的流程設計與實踐成果,以期為媒資智能編目研究提供思路和參考案例。
目前,智能技術在媒資系統中的應用,主要是對音視圖文進行智能識別,自動分析和提取關鍵信息,并以此為基礎,對節(jié)目進行智能層級切分(分為節(jié)目層、片段層、場景層、鏡頭層),形成可用標簽。
在節(jié)目生產過程中,有價值的信息通常集中在人物、場景地點、語音以及畫面中出現的文字等。浙江廣電智能媒資通過人臉識別、語音識別、文字識別(Optical Character Recognition,OCR)等智能技術,將視頻內容轉換成文本,提取智能標簽。通過建立人物庫、機構庫、事件庫、敏感庫等多維度庫,對各庫數據進行歸一化處理。
1.1.1 人臉識別
人臉識別是基于人的臉部特征信息進行身份識別的一種技術。識別前,需要先建立人物庫,存儲待識別人物的人臉圖片、姓名以及人物信息,通過對圖片進行人臉特征提取,將人臉圖像轉換成特征向量值,并與人物庫信息進行關聯,以便在識別時進行人物信息輸出。浙江廣電智能媒資采用逐幀識別的方式,對每一幀畫面進行人臉定位和特征提取,遍歷、比對人物庫中的人臉特征值,計算出人臉相似度,通過設置閾值來判定人物。若遍歷人物庫后仍無法匹配上,系統會記錄為未知人物,若后續(xù)該人物增加到人物庫中,系統會自動更新所有識別到該人物的素材,避免重復識別占用計算資源。該技術在系統中的應用包括人臉檢索、人臉定位以及敏感人物提示[2]。在實際使用中,人臉識別準確率整體較高,但對于表情夸張的人臉信息,也存在誤識別的情況。
1.1.2 字幕識別
字幕識別技術對視頻幀進行分析處理以獲取文字信息,可支持對中英文、數字、標點符號等多內容識別。系統根據視頻中字幕的變化提取視頻關鍵幀圖片,通過對圖片的全幅定位(也可以指定區(qū)域)進行文字提取,精準獲取文字及時碼信息,同時關聯敏感庫,對敏感信息進行標紅提示。在實際使用中,字幕識別還存在著信息重復的問題,造成信息冗余,還需要優(yōu)化改進。
1.1.3 語音識別
語音識別技術是讓機器通過識別和理解把語音信號轉變?yōu)橄鄳奈谋?,主要包括特征提取、信號建模和模型訓練。特征提取主要是從語音信號中提取相關參數來識別主要信息,信號建模主要用的是模式匹配法;模型訓練主要是基于聲學模型訓練方法和人工神經元網絡模型法,獲得最佳匹配,提高聲學模型的準確率[3]。浙江廣電智能媒資系統在將語音轉換成文字及對應時碼的同時,關聯敏感庫,對敏感信息進行標紅提示。在實際使用中,語音識別對新聞類節(jié)目的識別率較高,而對于方言、戲曲、外語類節(jié)目,以及背景音干擾較大的節(jié)目,識別效果相對較差。
1.1.4 自然語言處理
自然語言處理(Natural Language Processing,NLP)技術旨在幫助機器理解和分析人類語言。浙江廣電智能媒資對音視頻節(jié)目進行智能識別后,對提取的文字內容進行分析,獲取到人物、關鍵詞、新聞摘要、機構、地點等智能標簽。自然語言處理與系統知識圖庫關聯,通過對標簽、機構、地點等知識庫的管理,提高標簽提取的有效性和準確率。NLP標簽提取效果如圖1 所示。在實際使用中,自然語言處理對新聞類節(jié)目的標簽提取效果較好,對綜藝和晚會節(jié)目效果相對較差,而對于空鏡類素材,則無法獲取到有效信息。

圖1 NLP 標簽提取效果
對新聞成片進行智能層級切分,是浙江廣電智能媒資的核心功能之一。系統采用基于場景分類的切分技術,結合人臉、字幕、語音識別結果,通過搜索視頻鏡頭的邊界幀,將視頻切分成一個個鏡頭,并獲取相關場景及鏡頭信息,再通過場景相關度聚合為場景層,最后結合新聞摘要和演播室場景的提取聚合為片段層,形成類似傳統編目節(jié)目層-片段層-場景層-鏡頭層的四層編目結構。每個層級都有不同的標簽提取,為用戶檢索和人工編目提供參考[4]。新聞節(jié)目智能切分效果如圖2 所示。

圖2 新聞節(jié)目智能切分效果
智能技術的發(fā)展,為提高傳統廣播電視音像資料編目效率提供了可能,但仍存在一些問題。一是目前的智能技術仍有待提升,比如本文前面提到的人臉誤識別、語音優(yōu)化、內容去重等,需要人工進行審校和優(yōu)化;二是部分信息仍存在主觀性,智能提取的標簽無法完全覆蓋原有的編目規(guī)范要求。因此,只有將智能編目與人工編目進行深度融合,以智能輔助人工,以人工優(yōu)化智能,才能探索出一套符合自身特色的編目邏輯。
基于策略的編目流程設計可在不同條件下對智能編目和人工編目進行多種組合。傳統的編目流程主要包括編目、一審、二審以及終審等環(huán)節(jié),各電視臺根據自身業(yè)務實際進行適當的增改。浙江廣電集團在符合編目規(guī)范的基礎上,結合自身特點,針對不同類型的資源,通過策略來控制智能和人工編目的調用。比如,對新聞類節(jié)目采用智能切分+人工編目的策略,對其他類型的音視頻資源則采用智能識別+人工編目的策略。隨著智能識別能力的不斷優(yōu)化,對于部分新聞單條和素材已經不再進行人工編目,智能識別提取的標簽就能滿足用戶日常使用需要[5]。
系統對節(jié)目進行智能切分時,會產生上百個場景層和鏡頭層,如果全部進行人工審校,人工編目的工作量不減反增。對此,結合實際編目場景,系統將編目區(qū)域分成了智能展示區(qū)和人工編目區(qū)。對于智能切分的片段層,系統自動將其挑選入人工編目區(qū),而場景和鏡頭層則需要人工挑選。人工編目時,通過校準層級的入出點,系統會將結果反饋到融合推理引擎中進行模型更新,而對智能標簽的增改則會反饋到標簽庫中進行優(yōu)化。智能編目和人工編目結合的流程如圖3 所示。

圖3 智能編目和人工編目相結合的流程
隨著智能技術的不斷迭代發(fā)展,智能識別的準確性越來越高,適用性越來越強。近年來,互聯網公司更是致力于研究針對特定領域探索處理復雜場景的通用智能技術。盡管在廣電媒資領域,智能編目仍無法覆蓋實際編目所需,但作為輔助技術,其已經為人工編目減輕了很大的壓力。同時,敏感庫和人物庫的設置,可實現對已編目資源人物和敏感標簽的自動更新,彌補人工編目完成后無法及時更新最新信息的不足。
浙江廣電智能媒資自2021 年12 月上線以來,新入庫資源13 萬余條,其中約10 萬條資源采用智能+人工的方式進行編目,約3 萬條資源則直接采用智能編目,不再進行人工編目。在智能變革的趨勢下,隨著傳統編目的智能化實踐逐步深入,對于編目的深層次經驗和探索變得尤為重要,簡單的人工智能疊加無法滿足用戶的智能化預期,相信隨著智能編目和人工編目的深度融合,廣電媒資管理將更加科學化,同時也將強有力地提升我國文化建設水平,實現文化大繁榮和大發(fā)展。