摘 要:現有的許多視頻超分辨率(video super-resolution,VSR)工作都集中在如何有效地對齊相鄰幀以更好地融合相鄰幀信息,而很少在相鄰幀信息融合這一重要步驟上進行研究。針對該問題,提出了基于組反饋融合機制的視頻超分辯模型(GFFMVSR)。具體來說,在相鄰幀對齊后,將對齊視頻序列輸入第一重時間注意力模塊;然后,將序列分成幾個小組,各小組依次通過組內融合模塊實現初步融合,不同小組的融合結果經過第二重時間注意力模塊;各小組逐組輸入反饋融合模塊,利用反饋機制反饋融合不同組別的信息;最后將融合結果輸出重建。經驗證,該模型具有較強的信息融合能力,在客觀評價指標和主觀視覺效果上都優于現有的模型。
關鍵詞:視頻超分辨率; 時間注意力; 反饋機制; 分組融合
中圖分類號:TP391.41 文獻標志碼:A 文章編號:1001-3695(2022)11-048-3492-06
doi: 10.19734/j.issn.1001-3695.2022.03.0112
Video super-resolution model based on group feedback fusion mechanism
Zhang Qingwu1, Chi Xiaoyu2, Zhu Jian1, Chen Bingfeng1, Cai Ruichu1
(1. School of Computer Science amp; Technology, Guangdong University of Technology, Guangzhou 510006, China; 2. Qingdao Research Institute of Beihang University, Qingdao Shandong 266104, China)
Abstract:Many existing VSR works focus on how to effectively align adjacent frames to better fuse adjacent frame information, and little research has been done on the important step of adjacent frame information fusion. To solve this problem, this paper proposed a video super-resolution model based on group feedback fusion mechanism(GFFMVSR). Specifically, after adjacent frames were aligned, it input the aligned video sequences to the first temporal attention module. Then, it divided the sequence into several groups, and each group achieved preliminary fusion through the intra-group fusion module in turn, the fusion results of different groups went through a second temporal attention module. Next, each group input the feedback fusion module group by group, and used the feedback mechanism to feedback and fuse the information of different groups. Finally, it reconstructed the fusion result output. It verifies that the model has strong information fusion ability, and it is superior to the existing models in both objective evaluation indicators and subjective visual effects.
Key words:video super-resolution; temporal attention; feedback mechanism; group fusion
基金項目:國家重點研發計劃資助項目(2021ZD011150);國家自然科學基金優秀青年基金資助項目(6212200101);廣東省自然科學基金資助項目(2016A030310342);廣東省科技計劃資助項目(2016A040403078,2017B010110015,2017B010110007);廣州市珠江科技新星資助項目(201610010101);廣州市科技計劃資助項目(201604016075,202007040005);國家自然科學基金委員會面上項目(61976052);中國高等教育學會實驗室研究專項資助項目(21SYYB17)
作者簡介:張慶武(1995-),男,廣東茂名人,碩士,主要研究方向為深度學習、視頻超分辨率;遲小羽(1980-),男,北京人,高級工程師,碩導,博士,主要研究方向為機器學習、計算機視覺;朱鑒(1982-),男,湖南邵陽人,副教授,碩導,博士,主要研究方向為機器學習、計算機視覺;陳炳豐(1983-),男(通信作者),廣東汕頭人,博士,主要研究方向為計算機圖形學、高性能計算(chenbf@gdut.edu.cn);蔡瑞初(1983-),男,浙江溫州人,教授,博導,博士,主要研究方向為數據挖掘、高性能計算.
0 引言
超分辨率(super-resolution,SR)是指將相應的低分辨率(low-resolution,LR)圖像重建為高分辨率(high-resolution,HR)圖像的過程。根據輸入幀的數量,SR任務可以分為單圖像超分辨率(single-image super-resolution,SISR)和視頻超分辨率(video super-resolution,VSR)兩類。本文是關于VSR任務的研究。VSR在計算機視覺和圖像處理研究領域引起了極大的關注,具有廣泛的應用前景,如當監控錄像被放大以識別人或車牌時,或者當視頻被投影到高清晰度顯示器上以獲得視覺上的愉悅時,就需要它。
近年來,隨著深度學習的發展,基于深度學習的超分辨率算法在性能上有了極大的提高。第一個基于深度學習的SISR算法是由Dong等人[1]提出的SRCNN,它由三個卷積層組成,通過端到端的方式學習LR圖像到HR圖像的非線性映射,并展示了令人印象深刻的潛力。此后,許多深度學習方法被應用到SISR領域,例如,Kim等人[3]受到VGG[2]的啟發而提出的VDSR,采用更深層次的卷積網絡架構;Li等人[4]提出了一個通過反饋連接使用更多的上下文信息來糾正低級特征學習的網絡架SRFBN;盤展鴻等人[5]提出了一個應用殘差中的殘差(RIR)并結合使用空間、坐標注意力充分提取和復用特征的網絡架構FFAMSR。盡管這些網絡實現了最先進的性能,但高計算成本和內存占用限制了它們在移動設備上的應用。為了解決這個問題,一些輕量級網絡被提出來,如FALSR-A[6]、SMSR[7]。
在VSR領域,Huang等人[8]提出了一種名為BRCN的雙向循環卷積網絡,可以對跨多幀的長期時間信息進行建模,從而提升了VSR的質量。Caballero等人[9]提出了VESCPN,該網絡通過端到端的方式聯合訓練光流估計和時空網絡,從而實現了高效的VSR。Tao等人[10]提出了SPMC,通過設計的亞像素運動補償模塊同時實現了運動補償和上采樣。Kim等人[11]受3DCNN固有的時空學習能力啟發提出了3DSRNet,該網絡通過堆疊多個3D卷積層進行VSR并避免了直接的運動對齊。Jo等人[12]提出的DUF利用3DCNN來挖掘時空信息,并預測一個動態上采樣濾波器[13]進行隱式運動補償和上采樣,從而代替在像素層面進行的光流估計和對齊。Haris等人[14]提出的RBPN通過使用循環編解碼模塊來利用空間和時間信息。TDAN[15]和EDVR[16]將可變形卷積應用于VSR領域并提出了一種時間可變形對齊模塊,它們利用該模塊在特征層面實現運動對齊。
Hupé和Gilbert等人[17,18]發現,在人類認知理論中,連接皮層視覺區域的反饋連接可以將反映信號從高階區傳遞到低階區,從而被加以利用。Zamir等人[19]更是在前人的基礎上提出了一個適用于計算機視覺領域的反饋機制網絡。近年來,它已被應用到各種視覺任務[4,20,21]的網絡架構中,并表現出了不錯的結果。據筆者調查,反饋機制還沒有在VSR的研究領域中得到應用。得益于前人的啟發[4,18],既然反饋機制[19]允許網絡攜帶歷史信息來影響新輸入信息的學習,那么融合了部分相鄰幀信息的結果對其余相鄰幀的融合是否同樣具有影響?為此,本文提出了一個基于組反饋融合機制的視頻超分辨率模型(video super-resolution model based on group feedback fusion mechanism,GFFMVSR),本文反饋方案的原理是,具有部分相鄰幀信息的結果可以促進其余相鄰幀信息更好地融合。
本文主要貢獻點包括:a)提出了基于分組和反饋機制思想的視頻超分辨率模型,該模型能有效地融合對齊幀中的高層信息,提高了視頻重建的能力;b)在視頻超分領域內引入了組反饋機制,提供了一種新的相鄰幀信息融合方法以提高時空信息融合的性能;c)在模型內引入了雙重時間注意力,時間注意力模塊能捕捉隱藏在相鄰幀內的重要信息,使得網絡能恢復更清晰、細節更豐富的視頻幀。
1 方法論
1.1 網絡框架
如圖1所示,基于組反饋融合機制的視頻超分辨率模型主要由五個部分組成:特征提取與對齊模塊(feature extraction and alignment module,FEAM)、組內融合模塊(intra-group fusion module,IGFM)、雙重時間注意力模塊(dual temporal attention module,DTAM)、反饋融合模塊(feedback fusion module,FFM)和重建模塊(rebuild module,RM)。圖1中,藍色箭頭表示反饋融合,綠色箭頭表示全局殘差跳連接(見電子版)。該網絡模型的任務是根據輸入的2N+1幀視頻序列重建參考幀的高分辨率版本。把輸入視頻序列定義為{ILRr-N,…,ILRr,…,ILRr+N},輸出的參考幀超分辨率版本定義為ISRr,參考幀的真實高分辨率版本定義為IHRr,卷積操作定義為conv(s,n),反卷積操作定義為deconv(s,n),其中s是濾波器的大小,n是濾波器的數量。
特征提取與對齊模塊用于相鄰幀特征的提取和對齊,其操作如式(1)所示。
其中:fFEAM(·)代表特征提取與對齊操作;{Far-N,…,Far,…,Far+N}代表經過對齊后的相鄰幀特征序列。在FEAM,特征提取簡單地通過具有步進卷積運算的下采樣來實現,而對齊操作參考EDVR[22]中提出的基于多尺度可變形卷積的方法(即PCD對齊模塊)來實現,該部分建議讀者參考EDVR[22]的PCD對齊模塊的詳細信息。
經過對齊的相鄰幀隨后輸入時間注意力模塊1(TAM1),從而計算相鄰幀與參考幀的相似性,這將有利于組內信息的融合。其操作如式(2)所示。
其中:fTAM1(·)代表時間注意力模塊1的操作;{Fa′r-N,…,Fa′r,…,Fa′r+N}代表經過時間注意力計算的相鄰幀特征序列。
隨后將{Fa′r-N,…,Fa′r,…,Fa′r+N}分成N組,每組代表一種特定的幀速率。將各小組序列輸入一個參數共享的IGFM實現小組內的初步融合,得到融合后的特征序列,定義為{Fg1,Fg2,…,FgN}。
融合后的不同組別所蘊涵的信息不一樣。為了突出對重建結果有用的信息,在IGFM后插入了一個與時間注意力模塊1結構相同的時間注意力模塊2(TAM2),構成了雙重時間注意力模塊(DTAM),該時間注意力模塊將在1.3節中詳細闡述。經過TAM2后的特征序列定義為{Fg′1,Fg′2,…,Fg′N},其操作如式(3)所示。
其中:fTAM2(·)代表時間注意力模塊2的操作。
跨組別信息通過基于反饋機制的反饋融合模塊進一步整合。如圖2所示,圖1中紅色虛線框可以展開成T次迭代(T=N),t代表1~T中的某一次迭代。為了使FFM中的隱藏狀態攜帶輸出的概念,特別聯系每次迭代的損失,損失函數將在1.5節中詳細闡述。把序列{Fg′1,Fg′2,…,Fg′N}中的元素逐一輸入FFM模塊實現反饋融合。此外,Fg′1被視為初始隱藏狀態Fg′0。
圖2 反饋融合過程展開
Fig. 2 Feedback fusion process
FFM的第t次迭代輸入包括第t組特征Fg′t和來自前一次迭代的隱藏狀態Foutt-1。Foutt代表FFM的第t次輸出。其操作為
其中:fFFM(·)代表FFM的操作,并且反饋的真實過程如圖2所示。
把反饋融合的結果輸入重建模塊生成殘差圖像。如圖1所示,重建模塊使用deconv(k,m)將融合后的LR特征放大到HR特征,并使用conv(3,cout)生成網絡的殘差圖像。重建模塊的操作如式(5)所示。
最后,通過添加網絡產生的殘差圖和輸入參考幀的雙三次上采樣來生成參考幀的高分辨率版本ISRr,t。其操作如式(6)所示。
其中:fup(·)代表上采樣核的操作。上采樣核的選擇是任意的,這里使用的是雙三次上采樣核。在T次迭代后,總共將得到參考幀的T個SR版本(ISRr,1,ISRr,2,…,ISRr,T)。值得注意的是,隨著迭代次數的增加,重建的參考幀攜帶了越來越多的相鄰幀信息,同時也更接近真實的HR版本,因此選擇最后一次的重建結果作為最終的重建結果。
1.2 組內融合模塊(IGFM)
距離較遠的相鄰幀所隱含的有用信息可能較少。為了充分利用有用信息,剔除過多的無關特征并提高隨后的反饋效率,需要在反饋融合前進行初步的非反饋組內融合。對特征序列{Fa′r-N,…,Fa′r,…,Fa′r+N}進行分組。與之前的工作不一樣,基于到參考幀的時間距離,相鄰的2N幀被分成N組。原始序列被重新排列為{G1,…,Gn},n∈[1∶N],其中Gn={Fa′r-n,Fa′r,Fa′r+n}是由前一幀Fa′r-n、參考幀Fa′r和后一幀Fa′r+n組成的子序列,需要提醒的是,參考幀出現在每一組中(具體原因參考2.2節)。不同時間距離的相鄰幀的貢獻是不相等的,通過分組的方式可以根據參考幀的引導對不同時間距離的相鄰幀進行高效的信息提取和融合。值得注意的是,本文方法可以很容易地推廣到任意幀作為輸入。
對于每個組,組內融合模塊被部署用于每個組內的特征融合。如圖3所示,該模塊的前部分使用具有卷積核的3D卷積層來實現每個小組的時空特征融合;然后,通過在2D稠密塊中應用15個2D單元(unit)來深度整合每個組內的信息,最后產生分組特征序列{Fg1,Fg2,…,FgN}。稠密塊的每一單元依次由批量歸一化[23] (batch normalization,BN)、ReLU[24]、1×1卷積、BN、ReLU、3×3卷積組成。如在文獻[25]中所做的,每個2D單元將所有先前的特征圖級聯在一起作為輸入。最后通過一個1×1卷積層減少通道數。2D稠密塊的設計受到DUF[12]的啟發。為了提升效率,組內融合模塊的權重由每個組共享,并對數據流通道進行了有效的修改。該模塊的操作為
其中:fIGFM(·)表示卷積操作,代表組內融合模塊操作。
1.3 雙重時間注意力模塊(DTAM)
幀間時間關系在VSR相鄰幀融合中是至關重要的(由于遮擋、模糊區域和視差問題,不同的相鄰幀的信息量不同)。時間注意力可以更加聚焦于有利于后續重建的特征上,而非一視同仁。DTAM由兩個相同的時間注意力模塊(time attention module,TAM)構成,結構如圖4所示,分別命名為TAM1和TAM2。它們分別聚焦于分組融合前后特征序列時間信息的捕獲和權重計算,從而提高信息融合效果。
時間注意力的目標是在一個嵌入空間中計算特征序列的相似性。直觀地說,在一個嵌入空間中,應該更多地關注與參考特征更相似的特征信息。在TAM1中,對于每一幀特征,相似性距離h(即時間注意力圖Mi)可以計算為
其中:Far被視為參考特征;i∈[r-N,r+N];θ(Fai)和(Far)是兩個嵌入運算,可通過簡單的卷積濾波器來實現;sigmoid激活函數用于限制輸出在[0,1],穩定梯度反向傳播。請注意,時間注意力圖Mi的大小和特征圖的尺寸是相同的。每幀相鄰幀的注意力加權特征計算如下:
其中:⊙代表按位置元素的乘法。
同理,對于TAM2也是如此。值得注意的是,在TAM2中參考特征為Fg1。其時間注意力圖Mi和注意力加權特征的計算如式(10)(11)所示(此時i∈[1,N])。
1.4 反饋融合模塊(FFM)
FFM模塊如圖5所示。第t(t∈[1∶T])次迭代的FFM接收反饋信息Foutt-1以指導融合第t組特征圖Fg′t,然后將融合了更多信息的表示Foutt傳遞給下一次迭代和重構模塊,從而形成一個完整的反饋過程。為了實現FFM模塊的反饋融合功能,該模塊依次包含三個投影組,其中的信息通過密集的跳躍連接有效地跨層級流動。每個投影組主要包括上采樣和下采樣操作,該操作可將HR特征投影到一個LR特征上,從而達到不斷細化融合特征的效果。通過迭代執行FFM來有效地逐個融合特征序列{Fg′1,Fg′2,…,Fg′N}。迭代過程如圖2展開所示。
在FFM的前端,用conv(1,m)對Fg′t和Foutt-1進行級聯和壓縮,以通過反饋信息Foutt-1來指導融合輸入特征Fg′t,產生特征細化組的輸入特征LR0t。
LR0t=C0([Foutt-1,Fg′t])(12)
其中:C0(·)代表初始通道壓縮操作;[Foutt-1,Fg′t]代表對Foutt-1和Fg′t的級聯。定義Hgt和Lgt為第t次迭代時FFM中第g(g∈[1∶3])個投影組產生的HR和LR特征圖。Hgt可以通過以下方式獲得:
Hgt=decg([L0t,L1t,…,Lg-1t])(13)
其中:decg(·)表示在第g個投影組使用deconvg(k,m)進行上采樣操作。相應地,Lgt可由下式獲得:
Lgt=convg([H1t,H2t,…,Hgt])(14)
其中:convg(·)表示在第g個投影組使用convg(k,m)進行下采樣操作。為降低參數量和提高計算效率,本文在除了第一個投影組外的deconvg(k,m)和convg(k,m)之前添加了conv(1,m)進行通道壓縮操作。
為了充分利用來自每個投影組的有用信息,對投影組產生的LR特征進行特征融合(圖5中的紅色箭頭所示,見電子版),以產生FFM模塊的輸出:
其中:CFF(·)代表conv(1,m)的函數。
1.5 損失函數
本文選擇L1損失來優化所提出的網絡。雖然只使用重建序列(ISRr,1,ISRr,2,…,ISRr,T)中最后一次的結果當做最終結果,但在訓練時仍需要把中間結果與損失函數聯系起來,確保每次迭代FFM模塊都能最大限度地融合當前輸入特征圖的有用信息。網絡中的損失函數可以表示為
其中:θ表示本文網絡的參數;Wt是一個常數因子,代表了每次迭代時SR結果的貢獻值。將所有迭代的Wt設置為1,這意味著每次重建的SR結果都有相同的貢獻,從而使得每次迭代都能盡可能地去融合高級信息。
2 實驗結果和分析
2.1 實驗設置
a)數據集。采用Vimeo-90k[26]作為本文的訓練集,這是一個廣泛用于視頻超分辨率的訓練集,它包含約90k份7幀的視頻剪輯。本文從高分辨率的視頻剪輯中裁剪出空間分辨率為256×448的區域,與文獻[26,27]相似,通過應用標準差σ=1.6的高斯模糊核和4倍下采樣生成64×112的低分辨率視頻剪輯。在Vid4[28]和Vimeo-90k-T[26]兩個流行的基準數據集上評估了所提出的方法。這兩個基準數據集都具有各種運動和遮擋的場景,因此適用于評估本文方法的信息融合和高分辨率重建能力。
b)實現細節。除非另有說明,否則像大多數VSR方法[29,16,30]一樣,本文網絡以7個視頻幀作為輸入,即N=3。使用PReLU[31]作為每個子網絡中除最后一層之外的所有卷積和反卷積層之后的激活函數。將conv(k,m)和deconv(k,m)中的k設為6,以及 4個步伐和2個填充,m設為64。使用Adam[32]優化器進行優化,其中β1=0.9,β2=0.999。在訓練中不使用權重衰減,學習率最初設置為2×10-4,然后每8個epoches降低0.5倍,直到60個epoches結束。小批量的大小設置為2,訓練數據通過0.5的概率進行翻轉、旋轉以增強。所有實驗都是在配置Python 3.8、PyTorch 1.1和NVIDIA 2080TI的GPU服務器上進行。
2.2 消融實驗
1)分組實驗 首先用不同的方法來組織輸入的序列,一種Base方法(記做Base1)是簡單地沿著時間軸堆疊輸入序列,并一次性輸入IGFM和FFM模塊(中間不具有時間注意力模塊),此處的FFM模塊只執行一次,不具有反饋機制。另外,除了文中建議的分組方式{345,246,147},本文還嘗試了其他方法的分組{123,345,567}和{345,142,647}。如表1中所示,{345,246,147}的分組方法所獲得的PSNR最高,這暗示了在每組中添加參考幀將有助于模型提取參考幀中缺失的信息;{345,142,647}表現次優則可以歸因于距離參考幀不同時間步長的相鄰幀信息差異較大,這將不利于信息的分組學習。
2)各模塊實驗 為了驗證各模塊的作用,實驗中把分組實驗提到的{345,246,147}分組方式作為Base模型(記做Base2),分別在Base2模型上引入TAM1、TAM2、反饋融合機制(FFM′)。值得注意的是,分組后反饋融合機制的關閉是通過在時間維度級聯相鄰組別特征,然后只執行一次FFM模塊來實現。此外,整合了TAM1、TAM2、FFM′的完整模型記為GFFMVSR。設置放大的倍數為4,按照實驗設置進行實驗后,在Vid4測試集上的PSNR值如表2所示。
由表2第1~4行可見,引入TAM1和TAM2對Base2模型在PSNR值上分別有0.09 dB和0.08 dB的提升,同時引入兩個時間注意力構成雙重時間注意力模塊后,PSNR有0.13 dB的提升。由第1、5行可見,引入反饋融合機制,PSNR值有0.18 dB的提升。由最后一行可見,整合了雙重時間注意力和反饋機制的完整模型性能達到最大值,相比Base2模型高出了0.27 dB,這證實了本文模型的合理性。
2.3 對比現有先進模型
本節將本文方法與幾種最先進的VSR方法進行了比較,包括TOFlow[26]、DUF[12]、RBPN[14]、EDVR[16]、MuCAN[33]、文獻[34]、PFNL[35]和VSR-Transformer[36]。TOFlow和RBPN都使用光流在像素層面進行顯式運動估計。EDVR則采用對噪聲處理能力更強的隱式運動估計。DUF、MuCAN和PFNL則跳過了運動估計過程。最后一種專門使用最新的視覺transformer (ViT) [37]網絡來完成VSR任務。本文通過運行公開的代碼復現了大多數方法,并試圖重現原始論文中報告的結果。
a)Vid4數據集。表3顯示了關于Vid4的定量結果,其中的數據或者由本文實現,或者來自于原始論文。其中Y和RGB分別表示亮度和RGB通道,“-”意味著該數值無法取得。作為GFFMVSR的降級版本,GFFMVSR-S(只使用TAM1)在Y通道中實現了27.43/0.837 3的平均PSNR/SSIM值,在RGB通道中實現了25.93/0.818 6,優于其他所有方法。采用雙重時間注意力后,GFFMVSR-S變為GFFMVSR,在Y和RGB通道都獲得了更高的性能。定性結果如圖6所示,可以看到GFFMVSR比其他方法產生的邊緣更銳利,紋理更精細,這也驗證了本文方法的優越性。此外,為了比較時間一致性的性能,從Vid4數據集中的日歷序列中提取并可視化時間分布圖(圖7)。通過在多個連續的幀中相同位置取水平行的像素(圖7中的紅線,見電子版)并垂直堆疊它們來獲得時間輪廓。可以看出,GFFMVSR產生了最一致的結果,與其他方法相比,它具有更少的閃爍偽像,并且包含更均勻的線條細節。
b)Vimeo-90k-T數據集。Vimeo-90k-T包含了從Vimeo-90k中選取的大約7k個視頻片段作為測試集,涵蓋了大量的場景和大運動。PSNR/SSIM的定量結果如表4所示,其中也包括了大多數方法的參數數量,“-”意味著該數值無法取得。在PSNR和SSIM,本文方法遠遠超過了大多數最先進的方法,如TOFlow、DUF、RBPN和MuCAN。唯一的例外是EDVR-L,它的模型大小大約是本文方法的四倍,且EDVR涉及到一個需要大量數據和訓練時間的預訓練過程。盡管如此,本文方法在PSNR上的表現還是相當不錯的,在SSIM上略勝一籌。
3 結束語
本文針對存在于人類視覺系統中的反饋機制仍未在現有視頻超分辨率模型中得到充分應用的問題,提出了一種新的端到端可訓練的視頻超分辨率網絡,稱為GFFMVSR。通過將分組思想和反饋機制結合在一起應用到VSR任務中,有效地提高了相鄰幀信息的融合效果和目標幀重建質量。輸入序列被重組為具有不同幀速率的幾組子序列,分組允許以分層方式提取時空信息,之后是組內融合模塊對小組特征進行初步融合。而反饋融合機制通過模仿人類的認知學習過程,通過反饋信息高效學習并融合新輸入的內容。通過在模型的恰當位置應用時間注意力構成的雙重時間注意力模型更進一步促使模型專注于有用信息的融合,在幾個基準數據集上的大量實驗表明,本文提出的模型在定量和定性兩方面都優于現有的VSR方法。
參考文獻:
[1]Dong Chao,Loy C C,He Kaiming,et al. Learning a deep convolutional network for image super-resolution [C]// Proc of the 13th European Conference on Computer Vision. Cham: Springer,2014: 184-199.
[2]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10). https://arxiv.org/pdf/1409.1556.pdf.
[3]Kim J,Lee J K,Lee K M. Accurate image super-resolution using very deep convolutional networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2016: 1646-1654.
[4]Li Zhen,Yang Jinglei,Liu Zheng,et al. Feedback network for image super-resolution [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 3867-3876.
[5]盤展鴻,朱鑒,遲小羽,等. 基于特征融合和注意力機制的圖像超分辨率模型 [J]. 計算機應用研究,2022,39(3): 884-888. (Pan Zhanhong,Zhu Jian,Chi Xiaoyu,et al. Image super-resolution model based on feature fusion and attention mechanism [J]. Application Research of Computers, 2022,39(3): 884-888. )
[6]Chu Xiangxiang,Zhang Bo,Ma Hailong,et al. Fast,accurate and lightweight super-resolution with neural architecture search [C]// Proc of the 25th International Conference on Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 59-64.
[7]Wang Longguang,Dong Xiaoyu,Wang Yingqian,et al. Exploring sparsity in image super-resolution for efficient inference [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 4917-4926.
[8]Huang Yan,Wang Wei,Wang Liang. Bidirectional recurrent convolutional networks for multi-frame super-resolution [C]// Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press,2015: 235-243.
[9]Caballero J,Ledig C,Aitken A,et al. Real-time video super-resolution with spatio-temporal networks and motion compensation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 4778-4787.
[10]Tao Xin,Gao Hongyun,Liao Renjie,et al. Detail-revealing deep video super-resolution [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2017: 4472-4480.
[11]Kim S Y,Lim J,Na T,et al. 3DSRnet: video super-resolution using 3D convolutional neural networks [EB/OL]. (2019-07-20). https://arxiv.org/pdf/1812.09079.pdf.
[12]Jo Y,Oh S W,Kang J,et al. Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2018: 3224-3232.
[13]Jia Xu,De Brabandere B,Tuytelaars T,et al. Dynamic filter networks for predicting unobserved views [C]// Proc of the 1st Workshop on Action and Anticipation for Visual Learning. 2016.
[14]Haris M,Shakhnarovich G,Ukita N. Recurrent back-projection network for video super-resolution [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 3897-3906.
[15]Tian Yapeng,Zhang Yulun,Fu Yun,et al. TDAN: temporally-deformable alignment network for video super-resolution [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 3360-3369.
[16]Wang Xintao,Chan K C K,Yu Ke,et al. EDVR: video restoration with enhanced deformable convolutional networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019.
[17]Hupé J M,James A C,Payne B R,et al. Cortical feedback improves discrimination between figure and background by V1,V2 and V3 neurons [J]. Nature,1998,394(6695): 784-787.
[18]Gilbert C D,Sigman M. Brain states: top-down influences in sensory processing [J]. Neuron,2007,54(5): 677-696.
[19]Zamir A R,Wu Telin,Sun Lin,et al. Feedback networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017:1808-1817.
[20]Carreira J,Agrawal P,Fragkiadaki K,et al. Human pose estimation with iterative error feedback [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2016: 4733-4742.
[21]Sam D B,Babu R V. Top-down feedback for crowd counting convolutional neural network [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Pola Alto,CA: AAAI Press,2018:7323-7330.
[22]Wang Xintao,Chan K C K,Yu Ke,et al. EDVR: video restoration with enhanced deformable convolutional networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019.
[23]Ioffe S,Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// Proc of the 32nd International Conference on International Conference on Machine Learning. 2015: 448-456.
[24]Glorot X,Bordes A,Bengio Y. Deep sparse rectifier neural networks [C]// Proc of the 14th International Conference on Artificial Intelligence and Statistics. 2011: 315-323.
[25]Huang Gao,Liu Zhuang,Van Der Maaten L,et al. Densely connected convolutional networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 4700-4708.
[26]Xue Tianfan,Chen Baian,Wu Jiajun,et al. Video enhancement with task-oriented flow [J]. International Journal of Computer Vision,2019,127(8): 1106-1125.
[27]Jo Y,Oh S W,Kang J,et al. Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 3224-3232.
[28]Liu Ce,Sun Deqing. On Bayesian adaptive video super resolution [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2013,36(2): 346-360.
[29]Haris M,Shakhnarovich G,Ukita N. Recurrent back-projection network for video super-resolution [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 3897-3906.
[30]Yi Peng,Wang Zhongyuan,Jiang Kui,et al. Progressive fusion video super-resolution network via exploiting non-local spatio-temporal correlations [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 3106-3115.
[31]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification [C]// Proc of IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society,2015: 1026-1034.
[32]Kingma D P,Ba J. Adam: a method for stochastic optimization [EB/OL]. (2017-01-30). https://arxiv.org/pdf/1412.6980.pdf.
[33]Li Wenbo,Tao Xin,Guo Taian,et al. MuCAN: multi-correspondence aggregation network for video super-resolution [C]// Proc of the 16th European Conference on Computer Vision. Cham: Springer,2020: 335-351.
[34]Liu Ding,Wang Zhaowen,Fan Yuchen,et al. Learning temporal dynamics for video super-resolution: a deep learning approach [J]. IEEE Trans on Image Processing,2018,27(7): 3432-3445.
[35]Yi Peng,Wang Zhongyuan,Jiang Kui,et al. Progressive fusion video super-resolution network via exploiting non-local spatio-temporal correlations [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 3106-3115.
[36]Cao Jiezhang,Li Yawei,Zhang Kai,et al. Video super-resolution transformer [EB/OL]. (2021-06-12). https://arxiv.org/pdf/2106.06847.pdf.
[37]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16×16 words: transformers for image recognition at scale [EB/OL]. (2021-06-03). https://arxiv.org/pdf/2010.11929.pdf.