王美潔



摘 要:<正>隨著時代的發展,用戶對視頻畫質的要求不斷提高,但很多經典影視作品往往由于拍攝時間早、技術水平有限、后期保管不當等原因導致畫面質量較低,不免讓觀眾心生遺憾。因此,對低質量老片進行畫質提升有著重要意義,而且經典老劇具有普及度廣、重播率高、口碑良好以及成本低等優勢,進行老劇翻新可以用低廉的成本帶來巨大的流量。而利用大數據AI技術,可以代替傳統人工進行老舊視頻與老片的修復工作,不僅釋放了人工成本,更加提升了效率,造福觀眾。
一、修復老片的背景與意義
隨著時代的發展,人們對視頻畫質的要求不斷提高,4K、HDR等詞匯逐漸走入我們的生活中。硬件(電視盒子、智能電視、AR設備等)價格逐年下降,新出的電影電視劇也都采用這些先進的技術,大大提高了人們的娛樂生活質量。但是由于歷史原因,以前的拍攝設備不支持超高清,以及大量用戶上傳視頻(UGC)隨意性較強,市面上存在著大量的低質量視頻。因此,對低質量視頻進行畫質提升有著重要意義,特別是一些經典老劇具有普及度廣、重播率高、口碑良好以及成本低等優勢,進行老劇翻新可以用低廉的成本帶來巨大的流量。
眾所周知,以前的老電視劇和老電影大多為膠片拍攝,膠片只要一遇上高溫、高濕的環境,就會變質、褪色、發粘、顏色泛黃,不管是什么膠片只要放得久了,往往存在著灰塵、污垢、霉斑、掉色、圖像抖動、劃痕、閃爍、噪聲、變色、模糊等種種問題,十分影響觀看體驗,而且由于當時技術限制,老片往往存在分辨率較低的問題,對于當前藍光或4k的屏幕播放會造成嚴重的模糊現象。因此對老片進行重制變得十分重要。
目前市場上常見的老劇翻新方案分為:傳統人工翻新和AI機器翻新兩種方法。早期由于技術條件所限采用的人工翻新擁有很多的弊端,主要包括:人力成本高、耗時長、耗資巨大等。據統計,一個經驗豐富的電影修復人員一天只能修復200-300幀,而一部電影通常包含幾萬到幾十萬幀畫面,通常人工翻新一部電影大約需要耗時數月耗資數百萬。而利用大數據AI技術進行翻新只需要幾十個小時成本僅為服務器使用成本。因此,相比之下使用大數據AI機器翻新在人力資源和耗時方面都擁有巨大的優勢。
現利用大數據AI技術,針對老劇的噪聲大、模糊、顏色泛黃和分辨率低等特點分別建立視頻去噪、去模糊、智能調色和超分辨率四大模塊,證明能夠實現老劇的畫質增強。并將深度學習技術與視頻轉碼技術相結合,利用ffmpeg視頻轉碼工具搭建了一套全自動的老劇翻新轉碼系統。
二、大數據人工智能修復老片的主要模塊
現有低質量視頻大致存在分辨率低、畫面模糊、噪聲大、色彩暗淡等問題,針對這些問題,設計出了以下模塊:
(一)超分辨率
超分辨率是計算機視覺領域常見的low-level問題,隨著AI人工智能深度學習的興起,超分辨率效果也取得了很大的提升,在一些公開數據集上不斷刷新PSNR指標。現有的兩個問題,一是訓練數據不夠貼近實際,例如公共數據集大多是把高清圖像經過降低分辨率生成低清圖像,然后使用高清-低清圖像對來訓練模型,這樣就會造成模型不能較好的用于實際應用當中,因為實際生活中的低清圖像包羅萬象,是不能夠經過簡單的降低分辨率得到的。二是模型的評價指標不夠有效,經常會有PSNR值比較高的圖像實際視覺效果比較差的情況發生。
數據方面,我們依托大數據云片庫,一方面使用真實的低質量視頻,一方面使用數據擴充規則來建立最接近實用場景的訓練數據庫。算法方面有兩大類方法:單幀超分和多幀超分。
(1)單幀超分
顧名思義,單幀超分就是輸入一張低清圖片,輸出一張高清圖片,期間不借助任何別的信息作為額外輸入。SRCNN是這類方法的開山之作,網絡結構如下圖左,先對低清圖像做插值放大,然后通過三層卷積網絡擬合非線性映射,最后輸出高分辨率圖像結果,這是最最傳統的做法。由于先對圖像做放大導致網絡的輸入數據維度大大增加,從而導致網絡運行速度變慢。為了解決這個問題,espcn首次提出亞像素卷基層的概念,網絡結構如下圖右,圖像尺寸放大過程的插值函數被隱含地包含在前面的卷積層中,在輸出層將像素進行重新排列得到高分辨率圖。由于卷積運算都是在低分辨率圖像尺寸大小上進行,因此效率會較高。
(2)多幀超分
多幀超分是指將多個低清連續幀作為網絡輸入,輸出一幀高清圖片作為當前幀。其優勢主要是利用了更多的信息,包括前后幀的時間和空間關系信息,難點在于前后幀融合設計。vespcn采用espcn為基礎網絡,融合策略包括早融合、慢融合和3D卷積融合。
在早融合中,網絡輸入濾波器的時間深度與第一層中折疊所有時間信息的輸入幀數相匹配。在慢融合中,第一層合并的幀數小于輸入幀數。3D卷積融合是慢融合的權重共享形式,即慢融合中如果每個層的權重被強制共享它們的值,那么虛線之上的特性所需的操作可以被每個新幀重用。
EDVR 是CVPR 2019 Workshop NTIRE 2019 視頻恢復比賽中四個賽道的冠軍算法,其核心在于圖像對齊(PCD)模塊和時空信息融合(TSA)模塊,先對存在一定的抖動的相鄰幀進行對齊,后面做信息融合時引入注意力模型。
多幀超分確實在一些指標上的值會比單幀超分高一些,但是視覺效果并未帶來明顯改進,綜合考慮實際使用中對速度、穩定性以及泛化能力的要求,決定采用單幀超分。在兼顧超分效果的同時我們也關注模型的復雜程度和運行時間。對于網絡深度,雖然上述方法有些網絡設計很簡單,層數很低,但是在數據量級很大的情況下,很難使模型的輸出達到接近訓練集LR到HR的映射關系。為了使網絡結構深一些,我們采用resnet做為基本模塊,為了減少總體參數量,在各resnet模塊間加入級聯機制,借用espcn思想,使用亞像素卷積層作為輸出層。
Loss設計采用特征金字塔思想,使用一些中間層和最終輸出層的多項式和作為loss函數表達式。我們都知道,網絡的淺層包含較多的基本信息,包括紋理、線條等,網絡的高層包含較多的語義信息,采用特征金字塔的思想設計loss函數的優點就是能夠在實現圖像超分的同時對一些細節部分進行精細刻畫,充分學到LR圖像到HR圖像的整體和細節映射關系。超級分辨率效果圖如下:
(二)智能調色
為了解決老劇顏色泛黃問題,我們設計了視頻智能調色模塊。智能調色我們主要采用雙路GAN網絡,充分利用GAN在圖像生成方面的優勢,依托搜狐視頻的片庫資源,進行端到端的非監督訓練。與超分問題不同的是,智能調色很難找到訓練數據對,因此采用非監督訓練是一種比較有效的方式,而GAN網絡在非監督學習以及圖像生成方面都有著巨大的優勢。
首先我們把調色問題理解為圖像翻譯問題,即把一種風格的圖像翻譯成另一種風格的圖像。Cycle-GAN在風格遷移上已經做得很成功,我們充分借鑒其網絡設計(如下圖),大量采用循環一致性模塊,為每個環節設計循環模塊,大大降低GAN網絡訓練過程中不穩定情況的發生。某視頻修復后效果圖如下:
對于調色問題,還有一類方法就是所謂的“白盒模式”,即通過傳統方法或者深度學習的方法得到視頻應做的色彩參數變化,例如曝光度、亮度、對比度等,但是這種調整比較接近人工操作,無法發揮出數據內部信息的作用,所以我們未采用。
(三)去模糊
視頻的模糊種類多種多樣,此處要去除的主要是運動模糊。由于攝像機的抖動,或者畫面內物體的快速運動都會導致視頻的模糊,低清視頻多多少少都會存在一定的運動模糊。去模糊網絡結構參照GAN網絡來設計,生成器用于生成清晰圖像,鑒別器區分真實且清晰圖像與造假或模糊圖像。生成器結構仍然采用resnet作為基本模塊,鑒別器和loss函數未做過多改動,主要采用原始GAN網絡的鑒別器結構。效果圖如下:
(四)去噪
視頻噪聲來源主要是由兩方面引起,一是光照不均導致的背景噪聲,二是圖像在攝像機內數字化過程中產生的壓縮噪聲。
去噪網絡與超分網絡結構十分接近,去除了亞像素卷基層,保證網絡為單倍輸出。對于老劇去噪有兩個難點需要解決:(1)對不同類型的噪聲進行去噪;(2)對不同大小程度的噪聲進行去噪;針對這兩個難點,我們參考CBDnet設計了一個噪聲估計子網絡,視頻在進去噪網絡前先進噪聲估計網絡,將視頻和噪聲估計網絡的輸出同時輸入去噪網絡,從而得到魯棒的輸出。訓練數據我們一方面采用公共的真實噪聲數據集,一方面設計符合真實噪聲分布的數據擴充規則。效果圖如下:
從后兩幅對比圖可以看出,我們的算法可以實現盲去噪,即對于不同噪聲大小的圖都能很好的去除噪聲。
三、AI轉碼系統應用場景
用以上模塊模型與ffmpeg轉碼工具做結合,將每個基于深度學習的視頻畫面增強模塊編寫為ffmpeg轉碼濾鏡,根據實際需要采用不同的模塊組合,達到特定的效果。目前我們的視頻增強模塊主要用于以下兩個方面的應用場景:
(一)進行老劇翻新
一些經典老劇具有普及度廣、重播率高、口碑良好以及成本低等優勢。即使是在當今新劇泛濫的年代,一些如天龍八部、封神榜等經典老劇依然處于熱播榜的top10中,由此可見老劇翻新項目擁有著的巨大商業價值和潛力,用一句話來概括就是老劇翻新可以用低廉的成本帶來巨大的流量。
相對于傳統人工翻新方法,大數據AI翻新技術無論是在人力、物力、耗時、耗資等各個方面都擁有巨大的優勢。根據不同老劇的實際情況,可以采用上述模塊的不同組合達到最佳翻新效果。目前利用大數據AI老劇翻新技術已修復完成了《黑洞》、《風云》等600多部電影電視劇。
(二)提升至4K超高清
視頻硬件設備不斷升級,網絡寬帶降費提速,越來越多的用戶對低清視頻的容忍度也越來越低,為了不讓用戶因低清晰度而棄劇,對現存大量視頻提升至4K分辨率的需求也越來越大。采用我們的視頻超分辨率模塊可以實現將現有的視頻資源升級為4k分辨率,從而極大地擴充了4k視頻的資源。
目前4K超分技術已經修復提升了幾百部電影電視劇,修復后的4K超清視頻帶給用戶更極致的觀看體驗。
參考文獻:
[1]李國良,周煊赫.XuanYuan:AI原生數據庫系統[J/OL].軟件學報:1-15
[2]孫冰.從三毛、白娘子到小燕子、許三多:AI修復老片背后的新生意[J].中國經濟周刊,2019(14):74-76.
[3]吳學安. 老片修復不僅僅是懷念[N]. 金融時報,2015-02-06(009).
[4] [1]何金,黃海,李妍,周振亮.云計算環境下大數據視頻圖像的尺度空間融合算法[J].科學技術與工程,2018,18(08):243-248.
[5]冉啟武.基于視覺傳達的多幀視頻圖像鄰域跟蹤仿真[J].計算機仿真,2019,36(10):405-408.
[6]晏超. 多碼流網絡視頻服務系統優化研究[D].蘭州理工大學,2019.
[7]冉波.大數據下視頻智能分析系統的應用[J].通訊世界,2019,26(09):173-174.