王洪艷,孟祥利,談鶴然
(1.滄州廣播電視臺,河北 滄州 061000;2.日照廣播電視臺,山東 日照 276826;3.遼寧廣播電視集團(遼寧廣播電視臺),遼寧 沈陽 110820)
5G時代,人工智能、大數據、物聯網等新一代信息技術與千行百業的融合進一步深入,以人工智能為代表的重大關鍵技術正向創新驅動、應用深化、規范發展新階段邁進。《廣播電視和網絡視聽“十四五”科技發展規劃》回顧了“十三五”期間廣播電視和網絡視聽發展成果,人工智能技術與廣播電視領域的融合不斷深化,在廣播電視內容生產、分發傳輸、監測監管等方面都有融合應用,如智能處理、智能識別、智能分析、智能生成以及智能傳輸等。本文以5G時代AI智能剪輯平臺的建設與應用為探討重點,為人工智能助力廣播電視和網絡視聽內容制作提供參考。
5G(第五代移動通信技術)商用三年多以來,網絡設施加速覆蓋。截至2022年9月末,我國5G基站總數達222萬個,相關融合創新應用也在不斷深化,以5G、人工智能為代表的新一代信息技術在重點行業和典型場景的應用持續深化。2022年,中國信息通信研究院發布《人工智能白皮書(2022年)》,指出,自2016年起,先后有四十多個國家將人工智能發展上升為國家戰略,我國“十四五”規劃綱要明確提出大力發展人工智能產業,陸續批復北京、上海、深圳等十五個國家新一代人工智能創新發展試驗區[1]。人工智能向創新驅動、應用深化、規范發展新階段發展,在算法方面,超大規模預訓練模型成為重要方向;在基礎算力方面,單點算力不斷提升,并向算力定制化、多元化方向發展;在數據層面,數據服務向精細化和定制化發展。
5G時代,人工智能與廣播電視的融合持續深化,在超高清制播、融媒體演播、內容生產、智能主播以及監測監管等領域有深入的應用。如《廣播電視和網絡視聽“十四五”科技發展規劃》提出“加快媒體深度融合,建設智慧廣電新平臺”發展目標。5G時代,人工智能在廣播電視領域有更加全面的應用,也推動了智慧廣電建設。例如,AI推薦算法優化技術,能優化廣播電視和網絡視聽的智能推薦算法;智能數據標簽與結構化技術,應用于廣播電視和網絡視聽內容、用戶數據標簽的自動化識別、命名,可提升廣播電視行業大數據資源的質量。AI字幕、AI無障礙播報、虛擬主播以及人物檔案數字化等技術推進制播體系技術升級與智慧制播的發展。人工智能在語音識別、多模態語音識別、降噪、斷句等關鍵技術的突破,使AI字幕能夠更廣泛地應用到直播類與非直播類節目制作中[2]。AI無障礙播報中使用人工智能情感分析、語義分析、手語動作驅動及表情驅動等技術,能夠為廣播電視節目提供手語、表情、唇語等多種表達方式[3]。虛擬主播技術發展迅速,目前已被廣泛應用于新聞、綜藝、體育、財經及氣象等廣播電視節目中,以短視頻主播、數字網紅、直播帶貨等虛擬形象為主。以2022年兩會為例,央視網推出《兩會C+時刻》節目,運用實時面部+動作捕捉、實時渲染、深度學習等人工智能技術,實現虛擬數字人小C與真人互動。人工智能與廣播電視制作剪輯的結合,進一步提升了廣播電視節目制作剪輯效率。依托5G高速率、低時延、大連接特點,AI智能剪輯平臺的運行更加流暢,能夠更好地為廣播電視節目服務。
5G時代,視頻剪輯的發展面臨新的形勢。4K/8K、3D、VR/AR/MR、高幀率(HFR)、高動態范圍(HDR)、廣色域(WCG)視頻迅速發展,視頻剪輯難度隨之提升[4]。5G時代,媒體融合的深度與廣度進一步拓展,在此背景下產生龐大的視頻資源。視頻素材分散、重復性工作耗時費力,僅依靠傳統剪輯軟件與人工剪輯,很難在短時間內完成剪輯工作,造成視頻資源浪費、優質資源埋沒、剪輯時長增加以及人工成本增加等問題[5]。人工智能技術在智能識別、智能分析、智能生成及智能決策等方面的發展,能夠有效提升視頻剪輯的效率與質量,通過視頻標簽、視頻指紋、圖像搜索及內容審核等應用,提升廣播電視與網絡視聽節目的智能化剪輯能力,促進廣播電視和網絡視聽行業高質量、創新性發展。
AI智能剪輯平臺系統框架主要分為四大部分,包括媒資管理、視頻內容理解、視頻內容檢索以及視頻內容生成,如圖1所示。媒資管理模塊包括電影、電視、短視頻及廣告等多種媒介資源,滿足融媒體時代多樣化的視頻剪輯要求。在視頻內容理解層面,從視頻數據幀、鏡頭和場景三個層次進行視頻理解與解析,結合不同層次的特點,通過圖像、語音、文字以及視頻切片完成跨模態視頻內容識別。在視頻內容檢索層面,通過跨模態檢索實現自然語言、語音或者圖像的視頻檢索模式,實現關鍵詞、自然語句、視頻幀及視頻鏡頭等多粒度內容快速檢索。在視頻內容生成層面,能夠實現依據創作劇本的視頻內容生成、學習剪輯師或頂流短視頻的剪輯方法[6]。

圖1 AI智能剪輯平臺系統框架圖
AI智能剪輯平臺的技術框架主要分為CDL數據庫、智能語義分析以及智能剪輯三大板塊,如圖2所示。CDL數據庫負責大量視頻的存儲,智能語義分析包括特征提取、語義分類兩個方面,智能剪輯流程包括采集視頻圖像、特征提取、關鍵幀提取以及生成視頻。

圖2 AI智能剪輯平臺技術框架
AI智能剪輯平臺的功能模塊包括業務系統、視頻分析及基礎資源三大模塊,如圖3所示。業務系統中主要有新聞網、制作網、媒資庫等,視頻分析包括智能審核、智能識別及智能編輯等功能,基礎資源包括主機、存儲、網絡及數據庫等模塊。智能審核功能能夠實現對視頻聲音、圖像、文字的涉黃、涉暴、涉政識別和定位。智能識別功能中,人臉識別與語音識別是基于大數據深度學習方案,實現視頻人物人臉及語音的識別。文字識別、物體識別能夠幫助剪輯工作者快速定位文字與物體在視頻中的位置。幀標簽識別能夠自動識別截圖畫面標簽,完成物體、場景、動物等萬種標簽的自動識別工作。智能編輯實現精彩錦集、智能拆條、視頻分類、智能封面、數字水印及片頭片尾等功能。以精彩集錦為例,通過AI智能剪輯平臺,能夠實現視頻關鍵點的智能識別分析,并自動生成體育賽事、游戲活動等精彩集錦。以智能封面為例,AI智能剪輯平臺通過視頻內容理解與海量用戶行為數據分析,能夠智能化地選出最優關鍵幀和關鍵片段作為視頻封面。

圖3 AI智能剪輯平臺功能模塊
AI智能剪輯平臺在廣播電視與網絡視聽領域有廣泛的應用,如央視網推出的原創融媒體節目《春晚進行時》應用索貝AI智能剪輯,AI智能剪輯系統能夠獲取6路攝像機畫面并通過人臉識別、畫面清晰度識別、景別識別等功能進行智能化剪輯,推動了互動綜藝類節目全自動、實時、智能輸出成片的發展。又如湖南衛視《我是歌手》節目通過5G高新視頻AI智能剪輯平臺完成節目的剪輯工作,有效解決了節目云錄制、直播視頻實時采集、實時監控、1080P視頻回傳等關鍵性問題,配備大眾評審團臉部識別系統,提供定制表情AI識別功能。5G高新視頻AI智能剪輯平臺完成《我是歌手》節目九期云錄制,處理時長超過3 821 h,切圖識別超過560萬張,生成拆條視頻超過38萬段,精選視頻超過15萬段,為節目后期制作提供了豐富的視頻資源。2021年,首屆廣播電視和網絡視聽人工智能應用創新大賽中,智能剪輯類獎項有17個,其中一等獎有三個,包括智能語音轉寫系統、5G高新視頻AI智能剪輯平臺以及基于深度學習框架的智能視頻內容生產平臺。人工智能與剪輯技術的結合,能夠有效提升廣播電視與網絡視聽節目的制作效率,推動廣播電視高質量、創新性發展。
5G時代,人工智能、大數據、云計算等技術與廣播電視的融合更為緊密。基于人工智能技術的AI智能剪輯平臺能夠有效提升剪輯效率,降低剪輯成本,提高視頻資源的利用效率,推動廣播電視從業人員創作出更多優質作品,滿足受眾日益多樣化、大眾化、個性化的視聽需求。