劉 超
(吉林廣播電視臺,吉林 長春 130033)
廣播電視節目也稱廣電節目,指電視臺和廣播電臺所播出內容的基本組織與播出形式。從時間段角度來看,廣播電視節目是一個多層次的系統,按時間段劃分,表現內容的方式是線性結構傳播的方式,根據節目的時間長短順序來播放節目。廣播電視臺主要播送音頻,而電視臺主要播送視頻節目。近幾年,網絡、科學技術發展迅速,也為廣播電視臺的音視頻節目制作提供了技術幫助。
深度學習的英文是Deep Learning,簡稱DL,是機器學習(Machine Learning,ML)領域一個新的研究方向??梢赃@樣理解:深度學習融入機器學習,也就是人們所說的人工只智能(Artificial Intelligence,AI)。人工智能的范圍較大,其本質可以通過深度學習表現出來。當前,深度學習的主要訓練模式就是識別音頻、視頻、圖片等[1-2]。在現實生活中,深度學習已經被應用在媒體處理等方面,也取得了一定的成就。
智能剪輯是通過豐富的剪輯手法,自動讓視頻呈現不同風格,一般用于照片、錄音、視頻等的剪輯,以去掉不需要的、留下精彩的部分。細分智能剪輯,其過程可以分為四個步驟:視頻采集、特征提取、關鍵幀提取以及視頻生成,即根據數據庫的主題,提取視頻片段的特征,對視頻片段的關鍵幀進行提取,通過將相關片段進行拼接,最終生成視頻[3-4]。
音頻信號具有時序性、語義性等特征,計算機不能直接對音頻信號進行處理,但是可以通過對信號進行評估和預測,實現對音頻的處理加工。
2.1.1 語音識別
很早之前,人工智能技術就應用在語音識別領域,主要應用在音頻識別和自動朗讀等方面。應用深度學習模型,可以準確地識別出目標音視。例如,不同地區方言不同,利用深度學習模型可以準確識別方言、合成方言等,也可以區別音頻中的音調、音色等物理指標,并學會對其進行判斷[5]。
2.1.2 說話人識別與合成
說話人識別與合成的應用廣泛,可以在很多方面加以應用。當前,深度學習的重點研究領域為通過計算機建模判別音頻信號,以此來分辨聲音的來源。例如,各種聲音一同發聲時比較混亂,此時可以通過深度學習來辨別聲音,根據聲音的獨有特色,自動識別出某個特殊人物的講話或者有特點的背景聲音等[6]。這些操作可以提升廣播電視臺在音頻制作方面的效率,再配以快編、媒體資產編目等模塊,使得音頻信號的處理實現智能化、自動化。
2.1.3 語義識別
在音頻節目制作中,語義識別是一個具有挑戰性的項目,在節目制作中是難度較大的部分,在音頻制作生產中有非常重要的作用。語義識別是人類等高級動物所特有的,需要大腦參與,是一項較智能的活動,其大致過程如下:通過深度學習模型對音頻信號的內容、來源等進行掌握,對音頻信號進行整體的把握,理解音頻信號,并對音頻信號的內容進行想象、推理。眾所周知,信號相對音頻來說較為抽象,因為其沒有畫面性,人們根本不能通過肉眼的觀察來了解人物的情緒、心理活動等。但事物都具有兩面性,也正是因為信號較抽象,也就使得其傳遞出的語義較為豐富,人們便可通過音調、語調節奏等對音頻進行區分,也可以通過音頻來判斷人的需求、情緒、喜好。根據相關實驗可知,深度學習模型是具有時序處理的能力的,當前已經應用在語義識別、預測、合成等方面[7-8]。
深度學習技術已經在音視頻中廣泛應用,但由于音頻信號較抽象,因此在視頻制作中,深度學習技術的應用更加廣泛[9]。目前,在視頻制作過程中,視頻內容的合成主要使用計算機來完成。國外對這方面的研究較早,有很多研究成果值得借鑒學習。在我國,深度學習技術的應用也逐漸廣泛。隨著媒體融合越來越深入,無論是新興的自媒體,還是傳統的廣電節目制作等領域也都將人工智能技術融入其中,不斷提高制作效率、產品質量。
2.2.1 場景與人物識別
場景與人物識別在廣播電視節目制作和生產中非常重要。最早的場景與人物識別工作是由記者、編輯人員來完成的,由于識別量大,所以需要花費相關工作人員很多時間。現在,工作人員可以借助成熟的深度學習技術來進行視頻的智能處理,使整個過程自動化。應用計算機,可以自動地對視頻中的畫面和人物進行打點、分割,對周圍環境、特殊鏡頭等的捕捉也可以實現自動化。智能化的操作,很大程度上提高了節目的制作效率,減輕了工作人員的壓力,可以使工作人員有更多時間和精力去研究剪輯、創作等。
2.2.2 字幕識別與處理
字幕識別與處理是廣播電視節目制作中,制作人比較關注的一個步驟。由于技術水平優先,一般情況下,字母與視頻素材往往是重疊的,如果要去掉字母,就需要使用圖像處理工具,或者使用馬賽克等將字母遮掉。這樣處理給工作人員帶來巨大的壓力,而且處理后視頻的質量也會大不如前。利用深度學習技術,可以解決這一問題,在對畫面質量不產生影響的前提下,可以自動識別字母與視頻,將字母提取出來,還可以在去掉字母之后增強視頻效果。這些智能化的技術對電視廣播節目制作意義重大。
2.2.3 自動合成
在廣播電視制作中,自動合成具有重要作用。隨科學技術的發展,深度學習模型應用越來越廣泛,目前已經實現了根據節目的主題、素材、類型等,智能化地合成節目的音頻、視頻、字幕及特效等,自動變換音頻的節奏、鏡頭等,還可以根據預設情境自動渲染氣氛。這種自動合成水平不亞于廣播電視制播人員的水平,可以稱得上有專業水準。
廣播電視的后期制作需要投入大量的人力、物力,而需要耗費人力、物力最多的要數視頻剪輯過程,后期人員需要認真觀看視頻的內容,選出有代表性的片段。隨著人工智能技術的不斷發展,智能剪輯技術已經能夠自動預測摘要片段,而且準確性高。后期制作時,利用人工進行視頻剪輯效率較低,而且花費的時間較長,智能化剪輯的使用可以大大提高剪輯效率,節約剪輯需要花費的成本。由于智能化剪輯的種種優點,人們開始逐漸重視并深入研究它。當前國內外的觀點較多,其中有關智能視頻摘要算法的成果顯著,應用范圍廣泛。根據輸出內容的形式進行分類,智能視頻摘要算法可分為動態和靜態兩種。動態摘要算法的定義是,將從視頻中抽取的精彩片段以串聯組合的形式生成摘要視頻并向用戶展示;靜態視頻摘要的定義是,向用戶展示在視頻中抽取的關鍵幀。目前,各大網站門戶與短視頻生成平臺已經應用智能視頻摘要技術,如生成視頻讓用戶快速預覽頻、生成新聞片段發布等。智能視頻摘要算法助力廣電制作人員提升工作效率,幫助后期剪輯快速且高質量完成。在廣播電視行業與人工智能融合發展的形勢下,探究人工智能在廣播電視后期制作中的應用尤為重要,利于后期制作的發展。
與圖片不同,視頻幀之間具有相關性。有專家學者提出一種基于監督學習的動態視頻摘要技術,該方法使用長短期記憶(Long Short-term Memory,LSTM)網絡預測視頻結構,對視頻幀間的可變范圍時間相關性進行建模,輸出具有代表性的片段和時空相關性緊密的片段,如圖1的 vsLSTM網絡結構所示。

圖1 vsLSTM網絡結構圖
有專家學者提出了基于無監督學習的深度摘要網絡(DSN)實現動態視頻摘要,視頻摘要轉化為順序決策過程,其結構如圖2所示。在頻率分布的確定上,DSN首先預測每幀被選擇的概率,其次通過系統解析,確定所選擇的視頻幀率,并以此為依據,選取關鍵幀,最終形成視頻片段。如此看來,如何提高DSN的解析水平,便成為廣大編輯工作者主要的研究課題,因此有必要建設一個端對端的學習框架平臺,從而使DSN生成的視頻摘要片段更具多樣性和代表性。MAHASSENI等人提出的無監督學習的動態視頻摘要方法,通過選擇最具代表輸入視頻的視頻幀動作為析出子集以生成片段,如圖3所示。這種方法學習一個摘要網絡時,不需要人值守監督,能夠縮短訓練視頻和摘要之間的距離,并且生成了一種新的對抗式網絡。這個新的網絡包括摘要器和鑒別器,在進行視頻摘要的時候使用的是自動編碼器長短期存儲網絡。在甄別原始視頻與摘要視頻時,使用的則是LSTM網絡。

圖2 DSN網絡結構

圖3 基于無監督學習的動態視頻摘要方法網絡結構圖
前文提到過,基于深度學習技術的動態視頻摘要片段生成的過程可以分為四個步驟:視頻采集、特征提取、關鍵幀提取以及視頻生成。這四步中的關鍵是有效的時序特征和語義特征提取方法。由于不同幀之間信息量不同,人們常常通過特征聚合的方法來進行優化。受限于傳統視頻摘要方法準確度不高的狀況,后來慢慢地被基于深度學習技術的視頻摘要算法替代,基于GAN網絡的動態視頻摘要算法性能較高,也常常用來替代部分人工參與視頻剪輯的過程,這些都是目前視頻摘要中性能較好的算法。
音視頻的優點有很多,如時間短、娛樂性強、內容豐富、制作簡單、傳播迅速等,但音視頻在快速發展的同時也暴露出了一些問題,只有妥善處理這些問題,靈活運用技術手段,才能創作出更優秀的音視頻,為用戶提供更好的體驗。當前,我國在各個領域都已應用深度學習關鍵技術,創造的商業價值非常大,廣播電視行業應該抓住機會,不斷創新,在廣播電視節目制作中充分利用深度學習關鍵技術,制作出更多人們喜愛的音視頻節目。