韓文琳



摘要:媒體資產管理系統是廣播電視聲像檔案進行數字化存儲的載體。當人工智能與數字媒體資產管理系統融合,勢必產生新型的智能化媒體資產管理系統。這不僅能大幅度提高生產效率,還會喚醒沉睡在存儲深處的檔案內容,讓媒體數據更加有溫度、可感知。本文詳細描述圖像識別、語音識別等技術在聲像檔案管理中的應用。
關鍵詞:聲像檔案,媒資,人工智能,圖像識別,語音識別。
廣播電視聲像檔案是各級廣播電視臺宣傳活動的真實記錄,是城市記憶的重要組成部分。近年來,伴隨著媒體融合發展,廣播電視聲像檔案數量倍增,存儲載體也由傳統的磁帶庫發展為現代的媒體資產管理系統(簡稱媒資系統)。媒資系統主要是對各種類型的視頻資料、音頻資料、文字、圖片等媒體資料的數字化存儲、編目管理、檢索查詢等進行全面管理的系統。2019年5月,國家廣電總局頒布了《廣播電視人工智能應用白皮書(2018)》,進一步規范引導人工智能在廣電行業的應用,推動人工智能與廣播電視行業的融合發展走上快車道。
1媒資業務流程
媒資系統是指使用國家相關標準和規范,完成對媒體數字化視音頻文件的文字描述和存儲。在業務方面主要有兩個方向,一是入庫保存方向,包含上載、編目、審核、近線歸檔、發布;二是查找輸出方向,包含檢索、下載申請、審批、導出。通常在媒資系統中還會加入一些以把控媒體文件質量和提高編目效率為目的功能,例如自動技審、轉碼等。入庫流程如下圖所示:
檢索下載流程如下圖所示:
2人工智能
人工智能(ArtificialIntelligence),英文縮寫為AI。它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。在當前媒體行業中普遍開始接觸和應用的AI技術包含:圖像識別、人臉識別、語音識別、聲紋識別等技術。
圖像識別,是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。
人臉識別,是基于人的臉部特征信息進行身份識別的一種生物識別技術。用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進而對檢測到的人臉進行臉部識別的一系列相關技術,通常也叫作人像識別、面部識別。人臉識別是當前媒體行業中應用較多的一種AI技術。
語音識別,是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的一項技術,在當前媒體行業中應用也非常頻繁。
聲紋識別,是生物識別技術的一種,聲紋識別可以把聲信號轉換成電信號,再用計算機進行識別,在媒體行業中通常應用于檢索和對比。
3人工智能在媒資系統的應用
長春廣播電視臺于2016年開始建立現代媒資系統,擬對建臺以來的海量珍貴音像資料進行數字化存儲和管理。現有的音視頻資料具有種類多、數量大、增長快的特點,目前已完成數字化磁帶上載10萬本,包含自制文藝、專題、新聞、晚會、臺史資料、素材、電視劇等多個品類。不可否認,傳統媒體資產管理系統(簡稱媒資)對數字化視音頻內容進行規定格式的文字化描述,盡管便于用戶對視音頻資料進行檢索使用,但不能滿足當前融合媒體發展的需要。人工智能應用于廣播電視聲像檔案管理,必將在效率提升、規范管理、提高內容活躍度等方面起到巨大作用。
3.1圖像識別的應用
圖像識別的應用主要應用于媒資媒體內容的內容識別上,例如視音頻文件的字幕識別、暴恐畫面等的識別。在媒資系統中,對上載入庫的視音頻內容都會經過處理描述,在傳統的流程方式中,處理手段較少,例如自動技審僅檢測該視頻中是否有錯誤畫面,這些錯誤畫面如花幀、黑場、彩條等。當圖像識別技術引入后,在檢測環節將會有更多的內容被處理,包括:
畫面中使用到的字幕將轉換為文字,作為媒資視音頻文件的自動編目數據;
畫面中出現的暴恐、黃色鏡頭,將以時間點的方式為人工復核提供準確的鏡頭呈現,以提示后續處理將著重考慮畫面是否合法可用;
通過圖像識別技術與原自動技審技術的疊加,增強審核檢測節點對視音頻文件的描述,對視音頻入庫的質量提供了保障。完成圖像識別技術的融合后,媒資入庫流程將出現的變化如下:
通過圖像識別后的流程與傳統媒資流程雖然差別不是很大,但對內容入庫的質量提供了更好的保證。
3.2人臉識別的應用
人臉識別在媒資系統中的應用主要體現在兩個方面:一是視音頻素材入庫后的人臉信息提取,主要用來做鏡頭層自動提取后的輔助自動編目;二是對敏感人物識別后的自動標記,以控制內容發布后的可見范圍。
加入人臉識別功能后,一方面在編目節點可以填充自動提取的鏡頭信息,另一方面可以輔助編目人員在編目過程中設置內容的可見范圍。例如某些政治敏感人物是否能對其檢索開發,或是開發的范圍有多大,以及內容在視音頻編目規范中的密級設置等都可以提供參考。
通過人臉識別發布后的內容,用戶可以有多種檢索方式來查詢內容,例如文字搜索、以圖搜圖等形式,同時還可以為今后內容運營提供數據支撐,為運營者提供內容推薦。
3.3語音識別的應用
語音識別最大的應用方面是將視音頻內容的語音識別成時間線文字。時間線文字定義為在該視音頻文件內的相對時間上出現的語音轉化后的文字。通過語音識別后的視音頻內容,可以附帶所有文件中的語音文字。在現代媒資管理中,有了語音識別的輔助后,將大大地提高新聞類、專題類的編目效率。轉換后的時間線文字如下圖:
完成語音識別后的視音頻素材,在媒資編目中將提高編目效率,能快速將視音頻文件中的內容體現到“片段層”編目的內容中去。其入庫流程變化為:
3.4聲紋識別的應用
聲紋識別在媒資中的應用主要體現在檢索階段。對于媒資中的海量素材,除了提供全文檢索、高級檢索的文字檢索方式外,還會提供以圖搜圖(關鍵字檢索)和聲紋檢索方式。聲紋檢索的應用場景將是用戶面對檢索界面“哼唱”或應用移動設備“播放”片段旋律,從而通過聲紋識別,將“合唱”和“播放”的旋律識別到媒資系統中,同時在通過聲紋檢索將識別后相近的內容呈現給檢索用戶。聲紋檢索是媒資檢索手段的擴充,是提高用戶查詢內容的重要手段。
聲紋檢索下載的流程通常為:
自動技審、圖像識別、人臉識別、語音識別保證了內容入庫的質量,提高了媒資系統在編目中的效率,不僅縮短了人工編目的時間,同時極大豐富了編目內容,在提高效率的同時還使對視音頻文件的描述更加詳細。
聲紋識別豐富了媒資系統的檢索手段,讓用戶能更快、更便捷地找到自己想要的內容。
在媒資系統,特別是視音頻媒資系統中,通過圖像識別、人臉識別、語音識別和聲紋識別等AI技術,不僅可以對媒資系統入庫的內容進行質量方面的把控,同時還可以極大地提高媒資系統的運轉效率,讓媒資系統能更好地服務于為節目生產和播出。毫無疑問,在未來的廣播電視聲像檔案管理中,利用人工智能和大數據技術會使其保存的內容更加活躍、更有溫度。
長春廣播電視臺將結合“智慧長春”建設,努力在“存量數字化、增量電子化、利用網絡化”方面下功夫,不斷提升聲像檔案工作現代化水平,對內積極服務于采編播生產部門,對外提高與省廣電音像資料館、省圖書館、市圖書館、市城建檔案館、長影集團等單位的數據交互能力,更大限度地展現其獨特的歷史價值、重要的文藝欣賞和收藏價值,讓廣播電視臺的歷史更完整、現實更豐富、未來更輝煌。
參考文獻:
[1]廣播電視人工智能應用白皮書(2018)
[2]廣播電視行業應用大數據技術白皮書(2018)
[3]廣播電視音像資料編目規范第1部分電視資料
[4]廣播電視音像資料編目規范第2部分音頻
[5]倪明昊,單文火.人工智能時代新型媒資管理系統的構建思路及技術實現.廣播與電視技術,2019(3).
[6]唐百慧,曹三省.人工智能在廣播電視行業中的應用研究.廣播電視信息,2018(8).