許倬維 池漫釗 蔡文康 羅金濤
摘 要 視頻超分辨率是指采用信號處理的方法通過對低分辨率視頻的退化圖像通過處理以獲得一幅或者多幅高分辨率復原圖像,該技術可以彌補硬件實現的局限并且成本低,在視頻、遙感等領域有著重要的應用前景。近幾年來,視頻超分辨率的方法被大量提出。其中,基于機器學習的視頻超分辨率方式以其強大的性能、可觀的輸出結果,成為視頻超分辨率之主流以及眾人才研究與發展的方向。在該文章中,作者通過介紹主流視頻超分辨率模型的提出背景,核心框架與工作貢獻,呈現近年來視頻超分辨率的主要發展情況。
關鍵詞 視頻超分辨率(VSR);模型框架;近況
1視頻超分辨率(VSR)介紹
視頻超分辨率(video super-resolution)技術是指結合了來自同一動態過程的多個低分辨率圖像序列的信息,通過信號處理的方式對低分辨率圖像進行加工處理,重新構建出具有高時空分辨率的圖像序列集,也就是重新構建出具有更高清晰度更多信息量的視頻。由于視頻是在時間域上一連串具備空間信息的圖像集合,因此,視頻超分辨率技術處理方法上分為了時間超分辨率和空間超分辨率。視頻的時間超分辨率技術是通過時間域一連串視頻幀畫面之間的相關性,恢復出丟失的細節信息,而視頻空間超分辨率則是通過對一幀畫面進行圖像超分辨率,直接得到具有更高分辨率的圖像序列集。因此,該技術可以彌補硬件實現的局限并且使用成本低,使用范圍廣,在視頻、遙感、生物醫學等領域有著重要的應用前景[1]。
2視頻超分辨率的實現方式
頻超分辨率技術實現的方式主要是通過以下三種:模型重建,插值運動幀補償以及機器學習。
2.1 模型重建
基于幀內模型重建的視頻超分辨率方法主要針對單幀圖像空域信息的提取,其算法基礎與圖像超分辨率是相同的,都是基于均衡及非均衡采樣定理的,目的是從低分辨率空間信息中預估高分辨率信息,從而分出了頻率域處理與空間域處理。頻域處理的模型基礎是傅里葉變換的性質,盡管在頻域內進行圖像插值的方法,設計復雜度低,運算成本可觀,操作易實現,但是其只能應用于全局平行移動與線性空間不變降質模型的局限,以及先驗知識有限的劣勢,使得不再成為研究主流??沼蛱幚矸绞较碌挠^測模型包括了全局和局部運動、光學模糊、幀內運動模糊、空間可變點擴散函數、非理想采樣等內容,具有很強的先驗約束能力, 現研究較多的是凸集投影(POCS)和最大后驗概率估計(MAP)方法[2]。
2.2 插值運動幀補償
通過插值運動補償的方法是基于視頻時域信息進行實現,通過運動補償算法將視頻信息中正在運動的物體插值到時域上正確的位置上,提高視頻幀率,彌補視頻采樣設備采樣幀率的限制,從而生成高質量的視頻。Zhongding Jiang采用了一種光流場方法來準確預估視頻幀之間的運動變化情況,同時提供了一個穩定有效的機制以檢測與剔除會影響超分辨率效果的錯誤視頻幀的匹配,從而實現視頻中連續幀的圖像調整與修正。該方法在應用于大量復雜動態視頻序列后,證明了有效性。
2.3 機器學習
近年來,主流的視頻超分辨率方法都是基于機器學習的,這類方法著重對先驗知識的模型識別,通過算法去學習識別指定類別,如實驗對象、場景、圖像,將識別所得的先驗知識應用于超分辨率中,從而得到比傳統超分辨率方法更好的結果。盡管如此,基于學習的視頻超分辨率無論是在理論依據或是在實踐技巧上,都是以模型重建與插值運動幀補償為指導方向的[3]。
3近年視頻超分辨率發展路程
基于機器學習的視頻超分辨率方法是近幾年來各大計算機視覺頂級會議的熱論話題,也是現階段發展速度最快的視頻超分辨率方式。視頻超分辨率的發展起步較晚,幾乎是在圖像超分辨率發展至成熟的今日才稍有成果。這也不難理解,視頻是圖像基于時間的大規模擴展,對信息量與信息間相關性的研究一定程度上需要能夠對一幀圖像進行深入了解。
2016年6月,Armin KappelerI等人于電氣和電子工程師協會(IEEE)的期刊上發表了基于卷積神經網絡的視頻超分辨率(VSRnet)模型,將計算機視覺中相對成熟的網絡結構與運動補償相結合,應用于視頻超分辨率處理上。但是,模型VSRnet運算速率并不可觀,并且不能實時處理,這很大程度上限制了模型的可塑性。
3.1 提取特征信息進行訓練
非常碰巧,同年9月,Jose Caballero的團隊就解決了如何快速進行超分辨率的問題。
Jose Caballero等人發現,在過往的超分辨率模型,諸如SRCNN,通常是將低分辨率(LR)圖像通過上采樣插值的方式,進行尺寸放大到高分辨率(HR)空間,之后在高分辨率空間上實施超分辨率(SR)操作,從而增加了計算成本;于是,該團隊提出了使用亞像素卷積神經網絡的實時單圖像與視頻超分辨率(ESPCN)模型。
ESPCN模型運用神經卷積網絡(CNN) 結構,突出于低分辨率圖像空間中提取出特征圖形,獲得與高分辨率相同尺寸的高分辨率圖像特征,并通過之后的高效亞像素卷積層的學習,將最終的低分辨率特征圖轉換為高分辨率圖像輸出。
ESPCN模型的優勢在于,只在最后一層對圖像尺寸做變換,前面的網絡結構在運算時輸入計算的是較小規模的低分辨率數據,從而降低了計算與存儲器的復雜度;同時,各網絡層學習目標是特征圖像而不是原始圖像,能夠使網絡學習到更好更復雜的低分辨率至高分辨率映射,從而具有更高的重建精度與額外增益[4]。
自此,提取圖像特征信息進行學習訓練幾乎成為主流超分辨率模型的必備選擇。
3.2 高效結合運動補償
ESPCN模型在超分辨率速率上擁有著極大的提升,但是該方法僅僅是對每一幀進行處理而沒有整合幀間關聯信息。
整合了ESPCN與VSRnet兩大模型后,Jose Caballero等人利用Max Jaderberg所提出的空間變換網絡具有反映圖像間映射關系這一能力,首次將空間變換網絡應用于幀間運動補償,于2017年出了結合運動補償的實時視頻超分辨率VESPCN模型,獲得了很可觀的輸出質量。
VESPCN模型的提出后,引起了計算機視覺界的熱烈討論。在經過一定實驗后,香港中文大學的Xin Tao及他的團隊得到了以下三個結論:①VESPCN模型在視頻幀的尺寸縮放靈活度還可以提高;②前向扭曲的運動補償方式并非最佳方式;③對齊多幀以構建準確對應關系與有效融合圖像細節的操作對高質量的輸出尤為重要,
最終,Xin Tao團隊提出了基于細節揭示的視頻超分辨率(DVSR)模型。在適當幀對齊的基礎上,DVSR模型通過亞像素運動關系恢復細節,得到視覺與數量上更加高質量的輸出結果。
DVSR模型將一系列低分辨率圖像作為輸入并產生一個高分辨率圖像,包括三個模塊:運動估計,運動補償和細節融合。運動估計模塊負責幀之間的運動場估計,這部分使用的正是前文的VESPCN模型;運動補償層利用通過運動估計所得的亞像素信息,完成實時運動補償與分辨率增強,并形成有效的幀對齊。細節融合網絡是帶跳躍連接形式的編碼器-解碼器模塊,著重于圖像細節的添加與訓練的加速[5]。
亞像素運動補償層的運用,可以同時實現運動補償與分辨率增強,值得一提的是,這在先前的工作中是分開獨立處理的。同時,該層無多余參數,反向傳播損失能夠在場中平穩流動,從而能夠有效地整合至神經網絡中,在不增加額外成本的同時,得到良好的輸出表現。
至此,運動補償所得的細節成果可以被高效地融入高分辨率輸出中。
3.3 幀循環處理
大部分主流視頻超分辨率方法都會結合運動信息,諸如:VESPCN, DVSR框架中加入的運動補償模塊,Zhaowen Wang等人提出的時間動態自學習模塊等。他們處理多幀接連處理的方法是通過卷積神經網絡與運動補償相結合,處理一批低分辨率幀以生成單個預估高分辨率幀并在整個視頻上以滑動窗口方式持續該操作。
Mehdi S. M. Sajjadi等人發現,該方法使得每個輸入幀會被多次處理,從而增加了計算成本; 同時,每個輸出幀是獨立地根據輸入幀進行估計的,這將大大限制了訓練模型會產生在時間上能夠趨于一致結果的能力。于是,他們提出了一個端到端可訓練的幀循環視頻超分辨率(FRVSR)框架,在促進時間上結果一致的同時,通過每個步驟只進行一次幀扭曲來降低運算成本。該模型被錄入2018年的cvpr文章中[6]。
模型包括了可訓練的光流估計網絡和超分辨率網絡。光流估計網絡負責通過相鄰的低分辨率輸入圖像的運動流,生成映射關系圖;超分辨率網絡則負責某一時間幀低分辨率圖像與其上一幀超分辨率圖像的融合,生成該時間幀上的超分辨率,并應用于下一幀中。
FRVSR框架通過參考大量的先前超分辨率輸出以有效幫助網絡進行下一幀的超分辨率輸出,不僅使每個輸入幀只被處理一次,同時所有輸出結果都趨于時間一致。同時,該訓練模型框架在較大的時間范圍內傳播信息,而無須增加計算量。
3.4 遞歸反投影以實現多路徑結合
超分辨率的發展形勢趨近于:新的模型都基于在已有模型的改進,這使得網絡主體框架的類型并沒有改變。Muhammad Haris的團隊經過總結,將已有的超分辨率網絡分為三類:①預定義增采樣:預定地將圖像增采樣至特定尺寸,一定程度上引入了噪聲;②單一增采樣:僅在最后一步進行增持采樣,可能無法學習到復雜的映射;③逐步采樣:在網絡層中間斷插入增采樣層,例如LapSRN框架,這會受低分辨率特征的限制; 并在這三類網絡以外,于2018年提出了使用迭代增減采樣的深度反投影超分辨率網絡(DBPN)。DBPN框架允許保留部分高分辨率內容,在龐大的訓練集下,獲得了較好的成果[7]。
該團隊清楚地知道,基于循環網絡(RNN)的視頻超分辨率,無論是否進行明確的幀對齊,多幀的同時處理會使得訓練成本大大提高。并且,構造出能夠對所有視頻幀中內容所包含的微妙或顯著運動變化進行精確觀察的循環網絡絕非易事。嘗試整合FRVSR模型的優勢之后,Muhammad Haris等人改進了原有模型,于2019年提出了循環反投影網絡(RBPN)。
RBPN的操作可分為三個階段:基于運動流的特征提取、整合多路徑細節信息的多重投影以及根據多重投影所得的高分辨率特征信息而進行的超分辨率重建。RBPN創新點在于,將單圖片超分辨率和多圖片超分辨率集成在一個統一的超分辨率框架中:單圖片超分辨率和多圖片超分辨率從不同路徑的資源中提取缺失的細節信息:單圖片超分辨率提取表示目標幀細節的各種特征圖、多圖片超分辨率從其他幀提供多組特征映射,并通過用于視頻超分辨率的循環神經網絡以時間順序迭代地更新這些不同的路徑源,最終通過反投影合并在單圖片超分辨率和多圖片超分辨率路徑中提取的細節,因而生成更佳的訓練效果[8]。
4結束語
現階段基于機器學習的視頻超分辨率主流框架是卷積神經網絡與循環神經網絡的結合。視頻超分辨率方法的研究是在單張圖像與多張圖像超分辨率方法的基礎上進行改進,使模型能夠提取空間與時間上的細節特征并進行融合。每個新的構架會利用優秀的舊框架進行延伸與改進而得,在未來有著極大的發展前景。
參考文獻
[1] Shi W,Caballero J ,Huszár,Ferenc,et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[J]. IEEE CVPR,2016,(1):1874–1883.
[2] Kappeler A,Yoo S, Dai Q, et al. Video Super-Resolution With Convolutional Neural Networks[J]. IEEE Transactions on Computational Imaging,2016,2(2):109-122.
[3] Tao X,Gao H,Liao R,et al. Detail-revealing Deep Video Super-resolution [J]. IEEE International Conference on Computer Vision(ICCV),2017,(1):4482-4490.
[4] Liu D,Wang Z,Fan Y,et al. Robust Video Super-Resolution with Learned Temporal Dynamics[C]. 2017 IEEE International Conference on Computer Vision (ICCV),IEEE,2017:1-7.
[5] Sajjadi M S M,Vemulapalli R,Brown M . Frame-Recurrent Video Super-Resolution[J]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2018,(1):6626–6634.
[6] 張曉玲,沈蘭蓀.超分辨率圖像復原技術的研究進展[J].測控技術,2005,24(5):1-5.
[7] 蘇衡,周杰,張志浩.超分辨率圖像重建方法綜述[J].自動化學報,2013,39(8):1202-1213.
[8] 王勇,鄭輝,胡德文.視頻的超分辨率增強技術綜述[J].計算機應用研究,2005,22(1):4-7.
作者簡介
許倬維,池漫釗,蔡文康,羅金濤均為深圳大學在讀本科生,多次獲得美國數學建模大賽獎項,跟隨導師王妙輝進行計算機視覺方面的研究學習。