徐進苗,郭國輝,王春輝,尚健廷
(中國電子科技集團公司第三研究所,北京 100016)
近年來,語音識別、場景識別等依托智能引擎的應用技術在音視頻領域得到廣泛的應用。高質量的長、短視頻節目在社交平臺、視頻網站等傳播渠道的吸粉程度最高。社交平臺和視頻網站等傳播渠道不受頻道、時間限制,對內容的需求是海量的,傳統的節目制作模式已經無法支撐[1]。如何利用智能化技術提高內容生產效率,媒體行業也在不斷地進行探討。
由于社交平臺和視頻網站等傳播渠道對內容多樣性、海量性的要求,媒體行業的內容生產機構在內容制作流程中需要投入大量人力、物力。其中,風格迥異的視頻節目模板是節目制作流程的重要環節,也是設計成分最高的環節[2]。例如,人為地對諸多不同的視頻節目內容、風格、背景、時長等進行觀察和分析,然后進行模板制作。這種人工制作模板的方式,在應對單一的或少量的節目生產時,基本能夠滿足節目內容生產需求,但在應對當前多個不同社交平臺、視頻網站的不同視頻節目時,就會顯得力不從心,且誤差明顯、效率一般,不能滿足視頻節目內容生產高質量、高效性的要求,也不能滿足視頻節目內容發布及時性的要求。
對此,可以利用語音識別、場景識別、語義理解等智能化技術提供的能力,應用于視頻模板制作場景,構建視覺信息智能化提取應用技術、視頻劇本智能語義理解應用技術、視頻畫面優質信息理解及重構應用技術,從而形成視頻模板智能生成系統[3]。視頻模板智能生成系統能夠對不同內容、不同風格的視頻信息進行學習和理解,自動重構出不同內容、不同風格的視頻制作模板樣式,為視頻節目編輯包裝提供模板應用支撐,滿足多樣性、復雜性的節目制作需求,同時滿足內容發布及時性的要求。
視頻模板智能生成,首先要對視頻節目進行智能識別與分析理解,同時也需要對視頻劇本進行智能語義理解,其次進行綜合性優質信息分析與提煉,梳理出視頻信息風格與特點,最后重構出通用化的視頻節目制作模板[4]。與之對應,這里主要涉及基于視覺信息智能化提取技術、視頻劇本智能語義理解技術以及視頻畫面優質信息理解及重構技術。
面對當下社交平臺、視頻網站的視頻節目豐富多樣的環境,各式各樣的視頻制作模板需求越來越高。傳統人工制作多樣化模板時,需要理解分析大量視頻資源,通過提取時長、畫幅、風格等生產要素,然后人工制作模板。面對多樣化的視頻節目需求,人工制作模板生產過程效率較低,質量標準也參差不齊,而人工智能(Artificial Intelligence,AI)技術的出現和發展,使視覺信息智能化提取工程化和規范化變得可以實現。
視覺信息智能化提取是利用人臉識別、物體識別、場景識別以及智能化標簽提取等技術,對視頻節目的名稱、編目、來源以及節目里的人物、場景等重要信息進行綜合分析處理,實現視頻節目模板生產要素識別、歸納、提取及結構化管理[5]。結構化管理的生產要素可以支持AI 視覺信息智能化標簽篩選檢索,方便對視頻中的生產要素進行定位和調整,優化生產要素信息提取的準確性。具體提取層面,主要涉及畫面構成重要信息識別與標記、視頻生產要素提取。
(1)畫面構成重要信息識別與標記,基于場景識別、OCR 識別、語音識別、智能標簽等AI 技術,構建畫面構成重要信息識別與標記應用引擎,對視頻節目的畫面進行理解與區分,對視頻內容構成信息進行識別與定位,包括畫面的LOGO 區域、畫面的背景區域、畫面的視頻播放區域、字幕區域、視頻場景切換時間點、背景音樂等信息,以及畫面構成基礎信息進行有效的識別,并將重要信息進行標記,記錄視頻中生產要素的獲取時間點與位置,為視頻生產要素的提取提供基礎支撐。
(2)視頻生產要素提取,基于智能摳像、字幕替換、渲染模型等技術,面向標記完成的視頻模板要素,進行拆解與提取,包括但不限于背景音樂提取、背景圖片提取、視頻畫面疊加圖片提取、視頻播放時間點標記信息提取、視頻轉場時間點提取以及視頻字幕位置信息提取等,為后續視頻模板重構提供基礎支撐。
視頻節目中的畫面、音頻以及字幕等內容,都存在大量的有效信息。在視頻節目生產過程中,節目特效、轉場也與視頻傳達的信息緊密相關,而音頻的內容完全是視頻傳達信息構成的具象化體現。因此,對視頻中的音頻信息進行識別與深度分析,有利于生產制作人員對節目內容及邏輯結構的理解[6]。然而,目前生產制作人員只能依賴個人經驗對音頻內容及字幕進行深度理解,從而復制應用。受人員和時間的限制,這種模式只能生產少量優質模板,無法批量產出大量優質的視頻模板,不能高效輔助媒體內容的快速生產制作。
針對以上問題,可以采用語音識別技術、機器翻譯技術、自然語言理解技術,構建視頻劇本智能語義理解應用引擎,實現對視頻內容中音頻信息的識別、糾正、理解以及轉化。通過自然語言的深度理解,完成對視頻內在故事線、劇本的邏輯理解與拆解,有利于對視頻模板的轉場時間點、視頻模板分配時間線位置、視頻模板播放時長等視頻模板生產要素的精準化輸出。
利用語音識別技術,對視頻素材中的音頻內容進行識別,將其轉化為文字,可以為下一步對音頻內容的語義理解做好準備。如有外文,可利用機器翻譯技術,進行統一文字規范,能夠基于中文內容進行語義理解。然后利用自然語言理解技術,通過分詞、詞性標注、句法分析、文本相似度等處理,對文本內容進行語義分析與理解,并與對應的視頻畫面關聯,間接分析出視頻類型、風格等特點。例如,通過分析語音內容,可得到此視頻素材畫面風格屬于具體哪一類視頻,視頻具有什么樣的風格特點,視頻畫面中有哪些信息需要保留、有哪些冗余信息需要去除,有利于視頻畫面生產要素的精準提取和視頻模板輸出。
視頻制作模板的智能生產,需要對大量視頻節目信息進行分析和理解,對視頻中的生產要素進行分析和理解,然后進行去冗存精,才可以重新構造出預期的視頻制作模板,并對模板進行結構化管理,便于模板查找和調用。
在基于視覺信息智能化提取結果、視頻劇本智能語義理解結果基礎之上,可以利用AI 技術,構建視頻畫面要素優質信息理解及重構生成應用引擎,把視頻畫面和語音內容相互結合進行綜合分析與理解,對視頻內容進行畫面分析、多元語義理解,歸納出視頻畫面特征和風格。基于節目制作生產系統的時間線邏輯,結合視頻內容中提取的模板構成要素以及在視頻內容中識別到的關鍵要素時間點信息,進行模板劇本的構建。按照模板劇本調用時間線工程,匹配視頻模板生產要素,形成視頻模板工程時間線文件,重構輸出視頻畫面,形成面向社交平臺或視頻網站的視頻制作模板。批量化生成后的模板自動保存到模板庫中進行統一管理,便于視頻生產系統直接調用。
視頻模板在智能節目生成中的應用架構設計,如圖1 所示,主要包含基礎支撐層、數據要素層、能力供給層及能力生成層。

圖1 視頻模板應用架構
基礎資源層包含計算資源、存儲資源及網絡資源等,為上層技術引擎和應用業務提供基礎環境支撐。本次應用設計能夠適應在公有云、私有云、傳統機架式服務器等不同基礎環境的部署與運行,保障技術層面先進性的同時,也有利于新舊計算資源的充分綜合利用。
數據要素層對元數據、實體數據關聯關系及數據庫集等數據進行分類、定義,為視頻模板智能化生成提供充足的數據資源,主要包括數據分析要素和實體數據要素。數據分析要素包括畫面使用度、畫面共性度、畫面背景、視頻元素及視頻動作等。實體數據要素包括人臉數據庫、場景數據類型庫、動作類型庫、字幕類型庫、語音類型庫及視頻素材庫等不同的數據資源。
能力供給層為視頻模板智能生成業務應用提供能力供給支撐,包括視覺信息智能化提取、視頻劇本智能語義理解、視頻畫面優質信息理解及重構。視覺信息智能化提取主要是對視頻畫面處理、視頻畫面構成重要信息識別與標記以及視頻生產要素提取。視頻劇本智能語義理解主要進行視頻語音轉化處理、視頻內容語義理解以及劇本要素信息提取。視頻畫面優質信息理解及重構是在視覺信息智能化提取、視頻劇本智能語義理解的基礎上,進行綜合性的視頻畫面結構理解,提取視頻畫面生產要素,進行視頻畫面重構,并進行視頻模板的管理。
能力生成層是體現業務能力的應用,包括視頻模板生成、模板編輯及系統管理等應用,主要是合成輸出多頻率元素、多頻率模塊以及同款對應風格的制作模板。
整個應用設計提供規范化、開放式接口,便于信息資源管理系統的接入,快速調用圖片、短視頻、網絡媒體視頻等媒體資源,以及生產系統的接入,能夠調用智能化生成的視頻節目模板。
在應用流程設計方面,充分考慮信息制作業務流程需求,并與現有技術相互結合,進行整體規劃設計,以提高信息制作整體生產能力和效率,為行業用戶提供快速高效的視頻生產能力支撐。設計的應用流程如圖2 所示。

圖2 應用流程
視覺信息智能化節目模板重構可與信息資源管理系統對接,調用不同的多媒體成品節目,進行不同視頻畫面生產要素的提取與分析,然后根據生產要素進行畫面重構,渲染輸出生成不同風格、不同樣式的制作模板,供生產系統進行模板調用,全流程下在必要時可進行人工調整。
本文圍繞視頻模板智能生產技術的應用設計,通過對視覺信息智能化提取技術、視頻劇本智能語義理解技術、視頻畫面要素優質信息理解及重構技術等三個方面的智能技術應用分析,可以預知,人工智能技術在視頻模板制作方面的應用是可行的,但人工智能技術受限于材料學習與訓練,并不能完全按照制作人員的期望或要求去生產模板。這就需要不斷地對智能模型或算法進行進化訓練,提升視頻畫面智能識別的準確率和模板重構轉化率,迭代提高制作模板生成質量,才可以逐步向視頻制作人員的預期效果靠攏。
智能化視頻模板重構的創新應用,不僅能夠提升內容創作人員的生產效率,也可以為內容創作者提供更多的創意參考。未來,更高質量、高效率、高智能化地輔助創作者進行制作模板的輸出,也有很大的發展空間,也是智能技術一個重要的應用研究方向。只有通過不斷的理論探索與操作實踐,才能穩步推進智能化技術在媒體行業不同業務層面的創新應用。