深圳廣播電影電視集團 廣東 深圳 518026
廣電行業擁有大量的老舊媒體資源等珍貴的影視資料,比如1906年大地震前的舊金山影像、100多年前北京晚清的集市影像等,這些老舊影片不僅僅記錄了當時的真實景象,更記錄了當時的風土人情等珍貴信息,為了更好的將他們展示給大眾,近年來廣電行業一直在專注研究老舊影片的AI修復技術。
AI修復包含很多步驟,比如超分辨率、消除噪聲、增強對比度、智能著色等,目標是為了使老舊影片的視頻狀態恢復到原始甚至更優的狀態,因為特定時代的技術發展限制,相當大量的老舊影片是黑白影片,或者是色彩質量較低的低質彩色影片,為了更好的呈現效果,智能著色在AI修復技術中起到了相當重要的作用。
圖像超分辨率就是通過信號處理的方法,對圖像截止頻率之外的信號高頻成分來估計,提高圖像的空間分辨率。應用角度分為單圖的超分辨率和多圖的超分辨率兩種,相關技術大致包含定參數的線性濾波器技術、圖像邊緣結構技術、圖像重構約束技術、機器學習技術等,圖像超分辨率技術作為圖像的后處理技術,可改善圖像離散化,退化引起的分辨率下降,彌補原有分辨率不足的問題,發掘原圖像數據的多角度、多時相等潛力。目前已有相對成熟的相關技術,如上海交大提出的開源DAIN插幀技術,日本筑波大學和早稻田大學的兩位研究者合作提出的Deep-Remaster技術等。
本文重點研究Deep Remaster技術在視頻的智能修復過程中的應用,區別于遞歸模型處理視頻的方法,DeepRemaster是利用全卷積網絡來實現對老舊影像的修復。在這項技術中,利用單一框架以半交互的方式處理所有修復任務,該框架基于帶有注意力機制的時間卷積神經網絡,在視頻上訓練注意力機制(即source-reference),這種注意力允許模型處理任意數量的彩色參考圖像,在不需要分割的情況下給長視頻著色,同時保持時間一致性,與之前的方法相比,該方法的性能隨著視頻長度和彩色參考圖像數量的增長而增長,尤其適用于廣電行業。

在上圖模型中的輸入端輸入多張黑白圖像,經過時間卷積網絡和空間卷積網絡的預處理,綜合Source-Reference注意力機制與Self-Reference注意力機制的深度訓練后,與參考彩色圖像的空間卷積處理結果一起結合,即深度訓練結果結合任意數量的彩色圖像來生成最終的色度信道,這一網絡修復過程中,Source-Reference注意力機制允許模型再給視頻上色時,參考彩色圖像(Reference Images)中的相似區域,模型輸出部分就是輸入視頻重制后的版本。基于遞歸的卷積神經網絡,在傳播信息時,通常是逐幀傳播,不能進行并行處理,并形成依賴關系。因此,在參考彩色圖像時,圖像會反復重新開始,這樣時間上的相關性就會丟失。而基于Source-Reference注意力機制的卷積神經網絡在處理任何幀時能夠并行使用所有的參考信息。

對比以往的方法,Deep Remaster技術利用source-reference注意力機制,可以達到使用極少量參考圖像就能獲得高效、穩定、一致的數千幀圖圖像。如上圖可見,圖a)中的原始圖像失真度極高,經過以往的方法進行網絡修復效果不是特別顯著,圖像的噪點還是非常高,但通過Deep-Remaster技術修復后,無論從噪聲噪聲處理方面,還是從著色處理方面,DeepRemaster技術重制的圖像c)更貼近真實世界的色彩,同時也能更好的處理多種類型噪聲,對輸入圖像進行相當高程度的銳化,實現高保真的狀態。
DeepRemaster技術本身也是有瓶頸的,不能所有視頻都直接套用,對于動作劇烈,或者人臉較多的場景使用起來會出現畫面抖動或邊緣不平滑的現象,它更適用于那些畫面干凈或平移的場景,比如老北京街上的二胡表演視頻等。
對老舊影片修復除了視頻方面,還涉及到音頻方面的修復??梢圆捎肁E或PR里的去噪功能,系統需要先訓練學習一小段噪音波形,訓練完成后會自動將輸入音頻內的噪音部分消除,但因為去噪主要針對低頻聲音,處理完成的音頻整體效果比較單調,所以還要在去噪后加入混響,讓音頻聽起來更貼近生活,更自然。
在老舊影片的AI修復研究上,技術不斷革新,工程師們不斷探索,旨在將我們所“經過”的,未見過的世界重新展現在我們眼前,拉近我們與先輩的距離,更清晰的了解“現在”的來歷。