999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

單幅圖像超分辨重建的深度學習方法綜述

2021-11-26 07:21:32林青宇郭茂祖
計算機工程與應用 2021年22期
關鍵詞:深度方法模型

張 德,林青宇,郭茂祖

北京建筑大學 電氣與信息工程學院&建筑大數據智能處理方法研究北京市重點實驗室,北京100044

圖像超分辨重建(Super-Resolution,SR)是計算機視覺和圖像處理領域的重要研究方向之一。在不改善成像設備硬件條件的前提下,通過信號處理和軟件方法等提高圖像分辨率,即為SR技術。SR不僅有重要的學術研究價值,并且在很多場合有實際應用價值,例如醫學影像分析[1-2]、衛星遙感成像[3]和視頻安全監控[4]等方面。

單幅圖像超分辨重建(Single Image Super-Resolution,SISR)僅利用一幅低分辨率(Low Resolution,LR)圖像為輸入,重建具有豐富圖像細節和清晰紋理的高分辨率(High Resolution,HR)圖像,實用價值很高。早在20世紀60年代,SISR技術由Harris和Goodman提出,并通過圖像復原的方法來實現[5-6]。然后,Brown 和Wadaka 等使用長橢球波函數方法[7]和疊加正弦模板方法[8]等其他復原技術進行超分辨重建,但是實際應用效果并不好。

因此,研究學者們陸續提出各種SISR技術,主要包括基于插值的方法,如雙線性插值(Bilinear)、雙立方插值(Bicubic)[9]、曲率插值[10]和自適應圖像插值[11-13]等;基于重建的方法,如迭代反向投影法[14-16]、凸集投影法[17-19]和最大后驗概率法[20-22]等;基于樣例學習的方法,如鄰域嵌入法[23-25]、稀疏表示法[26-28]和回歸方法[29-31]等。但由于超分辨重建是一個難解的欠定問題,傳統方法難以重建圖像高頻細節信息[32-33]。

隨著機器學習在計算機視覺領域的發展,深度學習被廣泛應用到圖像超分辨重建任務中,并取得了很好的重建效果。如今,基于深度學習的SISR 方法已逐漸成為主流,圖1給出了SISR深度學習研究方法的發展時間軸線。從開始基于卷積神經網絡(Convolutional Neural Network,CNN)的算法,到后來使用不斷提出的新型網絡結構,包括深度殘差網絡(Deep Residual Network,ResNet)、遞歸神經網絡(Recursive Neural Network,RNN)、密集連接網絡(Densely Connected Convolutional Network,DenseNet)和生成對抗網絡(Generative Adversarial Network,GAN)等,都表現出不錯的性能,使重建生成的HR圖像更加逼真。

圖1 SISR深度學習主要方法的發展時間軸線Fig.1 Timeline of deep learning based SISR progress

近年來,已有研究學者對圖像超分辨重建算法進行了總結[46-49],包括基于傳統特征的方法和基于深度學習的方法。文獻[46-47]針對這兩大類方法都介紹得比較詳細。其中,史振威等[46]總結了近20 年來的主流算法,還介紹了在視頻超分辨、遙感圖像超分辨和復雜條件下超分辨算法的設計和應用。唐艷秋等[47]首先對傳統方法進行了完整的分類介紹,然后對深度學習方法從不同的網絡結構模型方面進行了分析和闡述。劉穎等[48]將超分辨技術根據輸入輸出分為多圖像超分辨、視頻超分辨和單幅圖像超分辨,然后重點介紹了SISR算法,對深度學習方法從有監督學習和無監督學習兩方面進行分類敘述,并選取了幾種典型的深度學習算法進行實驗和比較。南方哲等[49]主要進行了基于深度學習的SISR算法綜述,把超分辨深度學習模型分為基于插值預處理、基于原始圖像處理、基于分層特征和基于高頻細節四類進行介紹,然后選取了幾種來自不同類別的算法進行實驗和比較。

本文針對SISR的深度學習方法進行全面深入的分析和總結,重點闡述并總結了近年來主流的基于深度學習的圖像超分辨重建方法,并以圖形和表格的方式對典型的基礎網絡結構進行展示和比較。同時選取了多種不同的經典深度學習算法進行實驗復現和比較,并考慮時間的跨度,包括了近兩年內的算法。

本文首先介紹圖像超分辨相關基礎內容,包括問題設置概述和質量評價指標。然后,詳細闡述為解決單幅圖像超分辨問題和提高重建質量而采用的深度學習方法,包括網絡模型設計、損失函數和上采樣方式三方面,這也是SISR 深度學習技術必需的三個組成部分。而后,選取來自不同網絡模型的主要算法在標準數據集上進行實驗,給出不同算法之間更直觀的對比并進行討論。最后,對基于深度學習的SISR方法進行總結和展望。

1 圖像超分辨問題概述

圖像超分辨的目的是從LR 圖像中恢復出相應的HR圖像,而LR圖像通常是由HR圖像退化得到。用Ix表示LR圖像,Iy表示HR圖像,則退化過程如式(1)所示:

其中,D為退化函數,δ表示退化過程中的相關參數,如噪聲類型和縮放因子等。現實中,退化過程信息D和δ是未知的,僅有已知信息為低分辨率圖像Ix。圖形超分辨問題的目的為消除退化效果,恢復出高分辨率甚至真實場景圖像,即

其中,θ為超分辨模型F中的參數,表示重建得到的HR圖像。

現實中退化過程未知且復雜,影響因素眾多,難以確定實際問題中準確的圖像退化過程。因此大多數研究都是基于單個下采樣作為退化模型,常用下采樣操作為具有抗鋸齒的雙三次插值。也有一些研究將退化模型設置為如下形式:

其中,↓s表示縮放因子為s的下采樣運算,?是HR圖像Iy和卷積核算子k之間的卷積操作,變量n?表示具有標準差的加性高斯白噪音。與單一采用下采樣退化過程相比,式(3)的退化過程更接近于真實場景,并已被證實對SR更有效[50]。

至此,SR問題可以理解為:

2 圖像超分辨質量評價

通過超分辨技術生成的高分辨率圖像,與真實高分辨率圖像的逼真度越高,則認為圖像超分辨算法越好。一般來說,主要通過兩種客觀的量化指標進行評價,包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結構相似度(Structual Similarity,SSIM)。

PSNR 是一種最常用的圖像重構質量評價方式,其主要由MSE決定,PSNR定義如下:

其中,amax表示參考圖像中的最大像素值,MSE如式(6)所示:

考慮到人類的視覺系統是從所見場景中提取結構信息進行觀察,Wang 等[51]提出使用結構相似度(SSIM)評價生成圖像的質量。根據亮度(luminance)、對比度(contrast)和結構(structure)三方面相互獨立的比較,SSIM可用來衡量圖像之間的結構相似度。

另外,有時也經常用到主觀評價指標平均意見分數(Mean Opinion Score,MOS),給出圖像的主觀感受質量。由觀察人員給重建生成的圖像打分,分數范圍在1~5之間,5分為最高分。計算所有分數的平均分,即為MOS指標值。

3 基于深度學習的單幅圖像超分辨重建

近年來深度學習在單幅圖像超分辨重建(SISR)領域得到了廣泛的應用,并取得了很好的重建效果。各種基于深度學習的SISR 方法層出不窮,本文從網絡結構設計、損失函數和上采樣框架三方面進行闡述。表1對經典網絡模型從以上三方面進行總結。

表1 SISR深度學習主要方法簡述Table 1 Description of some typical deep learning based SISR methods

3.1 網絡結構設計

網絡結構設計是深度學習方法最重要的組成部分,并且結構的多樣性很強,難以準確地劃分類別。這里,從網絡結構設計的基本原理和策略出發,大概分為線性網絡、殘差網絡、遞歸網絡、密集連接、注意力機制和生成對抗網絡等幾個方面進行介紹和比較。其中,把早期應用于SISR的CNN模型歸類為線性網絡,模型較為簡單,但效果也優于傳統方法。隨著深度學習技術的不斷發展,網絡結構的深度和寬度不斷增加,感受野變大,可以帶來更強的特征學習能力,明顯提升超分辨重建效果。不過,更深的網絡結構增加了模型復雜度,導致網絡不易收斂、性能退化和過度擬合等現象。殘差學習網絡和遞歸網絡結構的出現可以幫助解決這些問題。而后出現的密集連接可以進一步減輕網絡梯度消失的問題。結合注意力機制的網絡模型能夠進一步提高圖像重建質量評價指標,而生成對抗網絡則有助于提升重建圖像的視覺感知質量。

3.1.1 線性網絡

SRCNN(Super-Resolution CNN)是第一個只使用卷積神經網絡來進行圖像超分辨重建的成功嘗試[39],是深度學習在圖像超分辨重建領域的開山之作,并激發了后續在這個方向上的研究。SRCNN 結構簡單明了,它只由卷積層組成,除最后一層外,每一層后面都有一個ReLU 作為激活函數。第一層為特征提取層,從輸入圖像中提取特征圖塊。第二層為非線性映射層,它將特征映射轉換為高維特征向量。最后一層重建特征圖片來作為最終的高分辨率圖像輸出。

而后Dong 等[53]進一步提出FSRCNN(Fast Super-Resolution CNN),其是對SRCNN 的改進(對比如圖2所示)。FSRCNN 雖然是4 個卷積層和1 個反卷積層的簡單網絡,但是其處理速度提升明顯,圖片質量也有所提升。其改進主要體現在:一是最后使用了一個反卷積層放大尺寸,從而不需要對圖像進行預處理。二是改變特征維數,使用更小的卷積核和更多的映射層,在映射前減少輸入特征的維數,從而提高計算效率。

圖2 SRCNN和FSRCNN網絡結構比較Fig.2 Comparison of SRCNN and FSRCNN structure

ESPCN(Efficient Sub-Pixel Convolutional Neural network)也是一種快速高效的超分辨方法[54]。ESPCN主要使用亞像素卷積(Sub-Pixel Convolution),作為重建生成的HR圖像中的一個子塊。這個變換實際上沒有卷積操作,圖像從LR 到HR 放大過程的插值函數被隱含在前面的卷積層中,只是在最后一層對圖像大小做變換,因此提高了算法的效率。

早期應用在圖像超分辨領域的線性網絡雖然模型相對簡單,但重建效果優于傳統方法,并起到開創性目的。

3.1.2 殘差網絡

與線性網絡的線層模型相比,殘差網絡使用殘差學習,在網絡設計中使用了跳過連接方式進行殘差單元中的直接映射[61],有效避免了梯度消失,同時可以加快訓練速度。因此殘差學習的應用可以使更深的網絡得到更好的訓練,從而使得圖像超分辨網絡模型設計變得非常深。同時殘差網絡能利用更多的上下文信息,學習能力和層次表征能力變得更強。因此,殘差網絡在圖像超分辨中應用廣泛。

Kim等[36]提出的VDSR(Very Deep Super-Resolution convolutional network)網絡模型有20個卷積層,相較于SRCNN等線性網絡層數更深。Kim等通過實驗證明層數越深,圖像重建效果越好,但對收斂速度也產生了很大影響。為了解決收斂速度問題,VDSR網絡模型采用全局殘差學習,即高分辨率圖像與低分辨率圖像進行殘差學習,同時提高學習速率,使得訓練過程更加穩定。因此殘差網絡可以使網絡模型較深的網絡得到更好的訓練,提升重建效果。Lim等[56]提出了用于圖像超分辨的改進殘差網絡模型EDSR(Enhanced Deep Super-Resolution network),利用改進殘差塊,搭建更深的網絡模型。EDSR主要將原始殘差塊中的批歸一化層(Batch Normalization,BN)去除,節省顯存空間,使更深的網絡有更好的可訓練性,可以擁有69個卷積層,重建效果明顯提升。

同時,許多多尺度殘差網絡也被提出。Li等[57]提出了多尺度殘差網絡模型(Multi-Scale Residual Network,MSRN)。MSRN使用多尺度殘差塊(Multi-Scale Residual Block,MSRB)來獲取不同尺度圖像特征,聯合3×3和5×5卷積核幫助網絡獲取多尺度的信息,并采用局部殘差學習法可以讓神經網絡更高效。將每個MSRB 的輸出組合起來進行全局特征融合,充分利用圖像中的特征信息。實驗證明盡管該模型在評價指標PSNR和SSIM方面比EDSR模型稍差,但是MSRN模型參數數量遠低于EDSR,訓練時間短,運行效率高。圖3 給出了EDSR 和MSRN 模型的改進殘差塊結構,并與He 等[61]提出的原始結構進行了比較。另外,應自爐等[62]使用多種程度的卷積核提取LR 層的特征信息,將每個卷積核下的殘差塊局部融合后再進行全局融合。這使得每層信息不會丟失,從而使得網絡梯度一直保持存在的狀態,不會發生梯度消失現象,同時重建效果較SRCNN 等線性網絡得到提升。不同于文獻[62],李現國等[63]提出的多尺度殘差網絡在殘差塊中用兩個3×3卷積核代替一個5×5的卷積核來提取特征,減少了模型參數,增加了網絡的非線性特性,并且使得圖像特征信息在每個維度下得到增加,從而獲得更豐富的圖像信息,達到更好的重建效果。

圖3 EDSR、MSRN和初始殘差網絡結構比較Fig.3 Comparison of EDSR,MSRN and original residual network structure

3.1.3 遞歸網絡

隨著網絡模型深度的增加,也會引入更多的參數。為了避免發生過擬合,通常會擴大訓練集,但過大的網絡模型不易存儲。因此將遞歸學習引入到圖像超分辨領域中。遞歸網絡為遞歸鏈接的卷積層或單元的網絡結構,從而在控制模型參數的情況下,提高圖像重建效果。

Kim 等[37]提出的DRCN(Deep Recursive Convolutional Network)多次應用疊加相同的卷積層。這種技術的一個優點是在增大網絡感受野的同時,對于更多的遞歸,可以有效地重復利用權重參數,并能夠優化隨機梯度下降算法,縮短訓練時間。用遞歸和跳躍連接的方式減低模型的訓練難度,從而達到更好的訓練效果。在此基礎上,Tai等[58]提出了DRRN(Deep Recursive Residual Network)網絡模型,和DRCN 僅使用全局殘差學習不同,DRRN 加入了多路徑方式的局部殘差學習,并在殘差塊中共享使用多個權重層。DRRN 運用局部多尺度和全局殘差學習的方式,在參數數量更少的情況下獲得更好的重建性能。而程德強等[64]提出的多通道遞歸殘差網絡針對單一通道的遞歸網絡可能會丟失部分特征信息的問題,提出多通道網絡,提高對細節信息的重建能力。

DRCN 和DRRN 使用的遞歸結構中重復運行的部分其實是以前饋的方式共享信息,即使使用了殘差連接,前面的層依然無法有效利用底層信息。因此,Li等[43]提出了基于反饋機制的網絡模型SRFBN(Super-Resolution Feedback Network),設計一個反饋塊(Feedback Block,FB)使得上一次反饋的輸出和整個網絡的輸入一起重新輸入到反饋模塊,不斷地回傳。這樣回傳的好處在于不會增加額外的參數并且加深網絡,同時使得前面的卷積層也可以學習到后面卷積層的信息,進而提升重建效果。該模型的反饋機制如圖4(c)所示,并在圖4 中與DRCN、DRRN模型的前饋方式進行了比較。

圖4 DRCN、DRRN的前饋方式和SRFBN的反饋機制比較Fig.4 Comparison of DRCN,DRRN feedforward methods and SRFBN feedback mechanism

3.1.4 密集連接

自從Huang等[65]提出基于密集塊的DenseNet以來,密集連接在視覺任務中變得越來越流行。密集連接不僅有助于減少梯度消失,增強信號傳播和鼓勵特征重用,而且通過采用較小的增長率(即密集塊中的信道數)和級聯后的壓縮信道,大大減少了參數數目。對于稠密塊中的每一層,所有前一層的特征映射被用作輸入,其自身的特征映射被用作所有后一層的輸入,從而緩解了深層網絡在訓練過程中梯度消失而難以優化的問題。因此該方法在超分辨領域應用豐富。這種設計的主要動機是結合網絡深度上可用的分層線索,以實現高度的靈活性和豐富的特征表示。

Tong等[39]提出了SRDenseNet(Super-Resolution Dense Net)模型,首先使用一個卷積層學習低層的特征,接著用多個密集塊(Dense Block)學習高層的特征。SRDenseNet通過密集連接的方式,無論是密集塊內還是全局網絡中,都可以很好地將低層信息與高層信息融合,同時減少參數數量。這樣的結構給整個網絡帶來了減輕梯度消失問題、加強特征傳播、支持特征復用的效果,從而提高了重建性能。相較于SRDenseNet,Zhang等[40]結合殘差結構進一步提出RDN(Residual Dense Network)網絡模型。RDN 網絡中的殘差稠密塊(Residual Dense Block,RDB)將局部殘差塊、密集連接層與局部特征進行融合,更好地保證了信息流的貫通。在全局網絡中,與SRDenseNet的全局稠密連接不同,RDN 使用了全局特征融合和全局殘差學習,這樣可以更好地結合殘差學習以及密集鏈接的優點,更充分地提取多層次的特征,使訓練穩定并加速訓練過程,共同提高網絡性能。圖5比較了ResNet、DenseNet和RDN的基礎塊結構。

圖5 ResNet、DenseNet和RDN塊結構比較Fig.5 Comparison of block structure of ResNet,DenseNet and RDN

王海勇等[66]提出了一種基于密集Inception 的單圖像超分辨率重建模型。該方法全局融合了簡化的密集網絡,核心模塊引入了Inception-ResNet-A 結構。因此該方法擁有較少網絡參數,加快訓練速度,同時得到了更好的重建效果。

3.1.5 注意力機制

在前面的網絡模式中,對于超分辨問題,所有空間位置和信道都有著相同的重要性(即權值相同)。在一些情況下,在給定的層中選擇性地處理部分特征可能更有幫助。注意力機制則可以賦予其這樣的靈活性。在結合注意力機制超分辨模型中可以挑出更重要的激活值,給予其更大的權重,從而提升重建效果。

Choi 等[59]提出了一種新的用于圖像超分辨率網絡的選擇單元,稱為SelNet。選擇單元充當卷積層之間的一扇門,只允許通過從特征圖中選定的值,在每個卷積層之后都有選擇單元,使得網絡可以自適應地選擇更有利于重建效果的響應值向下傳遞,提升重建效果。類似于VDSR,在SelNet 中也采用了殘差學習和梯度轉換(梯度裁剪的一種),從而降低訓練時間。

Zhang 等[41]在殘差網絡中加入通道注意力機制,提出RCAN(Residual Channel Attention Network)網絡模型進行圖像超分辨重建。該模型使用局部嵌套殘差結構(Residual in Residual)可以搭建更深的網絡,并通過通道之間的依賴關系選擇包含更多關鍵信息的通道,增強整個網絡的辨識學習能力。Dai等[42]使用基于協方差歸一化的二階通道注意力機制,提出SAN(Second-order Attention Network)網絡模型,通過高于一階的特征統計量來自適應地重新縮放特征,能夠更好地學習特征之間的關聯度。利用協方差歸一化的迭代方法來加快網絡的訓練速度,從而達到更優秀的網絡性能和重建效果。

李彬等[67]提出的雙重注意力機制的深度網絡由兩種注意力機制融合而成。相較于單一的注意力機制,通過融合通道注意力機制和空間注意力機制,可以有效獲取不同特征的權重值,使得網絡可以根據權重精準分配計算資源,在僅僅引入極少參數的同時有效提升超分辨率重建的質量。

3.1.6 生成對抗網絡

生成對抗網絡[68](Generative Adversarial Networks,GAN)采用了博弈論方法,模型由生成器和判別器兩部分組成。在圖像超分辨中,生成器負責生成重建圖像,判別器根據自身判定條件判別生成圖像與真實圖像的差距,用試圖欺騙判別器的方法來進一步恢復圖像。由于其特殊機制的存在,通過這種方式,往往可以生成視覺效果更好的高分辨率圖像。

Ledig 等[38]提出了超分辨生成對抗網絡(Super-Resolution Generative Adversarial Network,SRGAN),首次使用GAN進行了單幅圖像超分辨重建的嘗試。如圖6 所示,SRGAN 將低分辨率圖像輸入至生成器G 中進行圖像重建,由判別器D將生成圖像與真實圖像對抗訓練,最后輸出訓練后的圖像。相較于之前的算法,雖然SRGAN 在客觀評價指標(如PSNR)上相對較低,但是其無論在視覺效果,還是圖像細節等直觀方面,重建效果更加優秀,效果更好。這與其特殊的網絡結構以及將對抗損失和感知損失相結合的損失函數有關。受SRGAN 的啟發,Wang 等[60]又提出ESRGAN(Enhanced SRGAN)模型,并對SRGAN做出改進。ESRGAN的改進主要有以下方面:一是在生成器端去除BN和用殘差密集塊RRDB(Residual in Residual Dense Block),這樣有助于提高泛化能力,減少計算復雜度和內存使用。二是判別器端修改,使其判別不再是真偽絕對值,而是預測生成圖像與真實圖像的相對距離。三是對感知損失進行修改,可以更好地保持圖像亮度的一致性和恢復更好的細節紋理。

圖6 SRGAN基本結構示意圖Fig.6 Basic structure diagram for SRGAN

彭晏飛等[69]在SRGAN的基礎上,遷移了SVM中的Hinge 損失作為目標函數,又在原有的感知損失中加入了Charbonnier損失函數和TV正則項,使其具有更好的穩定性、魯棒性、抗噪性。同時保持重建圖像邊緣和細節清晰,去掉了殘差塊和判別器中不必要的BN層,并在生成器和判別器中使用譜歸一化來穩定模型訓練。而汪鑫耘等[70]在ESRGAN基礎上對激活函數、基礎網絡結構和損失函數進行優化。將激活函數改為LeakyReLU,用來避免某些神經元不激活數據現象。用RDB來代替RRDB,減少參數量的同時加深了網絡。采用雙層特征損失,并引入滲透指數PI 作為損失權重來改進損失函數。該方法在客觀評價指標和主觀視覺上較ESRGAN均有所提升。

3.2 損失函數

在圖像超分辨領域,損失函數用來度量生成的高分辨率圖像與真實圖像之間的差異。早期研究人員通常采用逐像素L2 損失,即均方誤差(Mean-Square Error,MSE)。但后來發現它并不能很精確地測量圖像的感知質量,因此采用其他損失函數(如內容損失[71]、生成損失[38]等)來更好地測量重構誤差。目前,在超分辨領域中,損失函數發揮著重要的作用。

3.2.1 像素損失

像素損失主要是度量兩個圖像之間的像素差異,主要包括L1 損失(平均絕對誤差)和L2 損失(均方誤差)。與L1損失相比,L2損失能抑制較大誤差的產生,但對較小的誤差往往具有更大的容錯性,因此常常導致結果過于平滑。

在實際應用中,L1 損失比L2 損失[56]表現出更好的性能,尤其是收斂性。由于PSNR的定義與像素差高度相關,并且最小化像素損失直接最大化PSNR,因此像素損失逐漸成為最廣泛使用的損失函數。然而,由于像素損失實際上并不考慮圖像質量(例如感知質量[71]、紋理[11]),往往結果缺乏高頻細節,感知效果不好的過度平滑的紋理[37-38,71]。

3.2.2 感知損失

感知損失是近年來提出的一個比較巧妙的思想。在圖像超分辨領域中,由于經常使用L1損失,會導致重建圖像較為平滑,丟失細節部分或高頻部分。因此感知損失被引入到超分辨領域中[50,72],從而更好地評價并提升的感知質量。

感知損失使用已經訓練好的圖像訓練網絡,其中ResNet[61]和VGG[73]是最常用的CNN 預訓練網絡,然后提取兩個圖像的特征,計算兩個圖像在特征空間上的歐氏距離。感知損失與像素損失相比,沒有迫使像素之間精確地匹配,而是在感知上與目標圖像類似。因此其在視覺上產生更佳的效果[38,58,71]。

3.2.3 紋理損失

由于重建圖像應該與目標圖像具有相同的紋理風格,并受Leon 等[74-75]的影響,紋理損失被引入到圖像超分辨領域中。圖像的紋理被視為不同特征通道之間的相關性。

紋理損失可使SR 模型創建更真實的紋理,并在視覺上產生更令人滿意的結果[44,76]。然而,確定圖塊大小以匹配紋理仍然是經驗性的問題。由于紋理統計信息是在不同紋理區域取平均值,過小的補丁會導致紋理區域出現偽影現象,而過大的補丁會導致整個圖像出現偽影現象。

3.2.4 對抗損失

在基于生成對抗網絡的超分辨領域中,通常超分辨模型為生成器,而判別器根據判斷條件來進行判別。而損失函數則通常在像素損失或感知損失的基礎上再結合對抗損失,從而通過判別器使得生成器生成的圖像能有更逼真的高分辨率圖片。在對抗損失計算方面,SRGAN[38]和EnhanceNet[76]等方法使用交叉熵損失函數。而后,Wang等[77]和Yuan等[78]使用最小二乘方法[79]進行損失計算,可以生成質量更高的圖像。RaGAN[80]和WGAN-GP[81]等變體GAN 模型使用新的距離度量方式改進生成對抗學習的性能,例如FID(Fréchet Inception Distance)和Wasserstein距離。

目前GAN的訓練過程還比較困難和不穩定。盡管已有一些關于如何穩定GAN 訓練的研究,但如何保證整合到超分辨模型中的GAN得到正確訓練并發揮積極作用仍是一個問題。

3.3 上采樣方法和模型框架

上采樣指從低分辨率(LR)圖像輸出高分辨率(HR)圖像的操作。在圖像超分辨深度網絡模型中,依據上采樣層的位置和上采樣操作的基本方式,大致分為4類模型框架,包括預定義上采樣模型框架、后端上采樣模型框架、漸進式上采樣模型框架和上下采樣迭代式模型框架。所使用的上采樣方法主要可分為兩大類,基于插值的上采樣方法和基于學習的上采樣方法。

3.3.1 上采樣方法

基于插值的上采樣方法指通過傳統的圖像插值操作進行圖像尺寸的放大。常用的插值方法主要有最近鄰插值、雙線性插值和雙立方插值。基于學習的上采樣方法指以端到端學習的方式進行上采樣,可以通過在網絡結構中加入轉置卷積層或者亞像素卷積層實現。表2給出了上采樣方法的分類和相應的描述。

表2 上采樣方法分類和簡單描述Table 2 Category and descirption of upsampling methods

傳統基于插值的上采樣方法原理比較簡單,也容易實現。其中,雙立方插值還經常應用在預定義上采樣模型框架中,但是也增加了模型的計算復雜度。另外,插值方法還會引起噪聲被放大等副作用,因此可以使用端到端學習的方式進行上采樣,以避免這些問題的發生。例如,轉置卷積應用在SRDenseNet[39]等多個超分辨網絡模型中,亞像素卷積應用在RDN[40]和SRGAN[38]等多種不同的網絡模型中。亞像素卷積比轉置卷積有更大的感受野,因此能夠提供更多的鄰域相關信息,重建圖像細節部分更真實。

3.3.2 模型框架

4種模型框架如圖7所示。圖7(a)給出了預定義上采樣框架示意圖,如圖可知,該框架是先使用傳統的插值方法將圖像尺寸放大到要求的倍數,然后再使用深度學習網絡模型重建圖像細節。該框架所使用的上采樣方法簡單,但深度神經網絡的很多操作都需要在高維空間進行,占用空間大,時間效率低。圖7(b)給出了后上采樣框架示意圖,如圖所示,上采樣層位于網絡結構末端。這樣,深度神經網絡的很多操作在低維空間進行,極大提高了訓練速度和算法效率。網絡可以自適應地學習上采樣過程,進行端到端可學習的上采樣。圖7(c)給出了逐步上采樣框架示意圖,基于該框架的深度網絡模型通過多次上采樣逐步獲得目標尺寸的超分辨圖像。這樣,學習難度降低,并且在不需要過多時間和空間成本的情況下,能夠滿足多尺度超分辨的需求。圖7(d)給出了迭代上下采樣框架示意圖,交替進行上采樣和下采樣操作,通過反向映射不斷地改進超分辨重建圖像的質量。最后,基于全部中間上采樣層得到的高分辨率特征圖,重建最終的超分辨圖像。

圖7 上采樣模型框架比較Fig.7 Comparison of upsampling frameworks

4 數據集及實驗分析

4.1 數據集介紹

目前,有很多公用數據集可用于基于深度學習的單幅圖像超分辨重建任務。這些數據集包含的圖像數量和圖像內容各不相同,可以綜合測試超分辨重建方法的性能。表3 列出了常用的數據集,并進行了簡單介紹。一些數據集已被劃分為固定的訓練集、驗證集和測試集,也有一些較大的數據集經常作為訓練集,如ImageNet[89]、DIV2K[87]和Flickr2K[88]等。研究人員也可以根據使用需求在數據集上自行劃分訓練集、驗證集和測試集,或者通過圖像旋轉等方式進行訓練集擴增,或者聯合多個數據集進行訓練。

表3 常用數據集介紹Table 3 Description of widely used datasets

4.2 典型方法實驗結果及分析

依據不同的網絡結構,本文選取8種較為典型的深度學習單幅圖像超分辨重建方法進行實驗,并與傳統的雙立方插值方法進行比較。這8 種方法包括屬于線性網絡結構的SRCNN[34]和FSRCNN[53],屬于殘差網絡結構的VDSR[36],屬于遞歸網絡結構的DRCN[37],屬于密集連接結構的RDN[40],使用注意力機制的SAN模型[42],基于生成對抗網絡學習的SRGAN[38]、USRGAN[90]。然后選取了4個常用的數據集,包括Set5、Set14、BSD100和Urban100,并采用4倍放大因子進行了測試。訓練數據集使用T91和DIV2K。

本文從Set14 和Urban100 各選取了1 張圖片,用于展示和比較不同算法的重建效果,如圖8 和圖9 所示。其中,GT(Ground Truth)表示從原圖像中截取的部分。表4 給出了這些方法在4 個常用數據集上的PSNR 和SSIM評價指標,實驗結果表現各有差異。

表4 不同方法在4個數據集上的PSNR/SSIM評價指標比較(×4)Table 4 Comparison of PSNR and SSIM for different methods on 4 datasets(×4)

圖8 Set14數據集的示例圖片實驗結果比較Fig.8 Results comparison of different methods for sample image from Set14 dataset

圖9 Urban100數據集的示例圖片實驗結果比較Fig.9 Results comparison of different methods for sample image from Urban100 dataset

由圖8 和圖9 可看出,主觀視覺特性較好的有RDN、SAN 和USRGAN 三種網絡模型,從表4 中可知,其相應的評價指標也較高。這幾種網絡模型是近幾年(2018年及以后)發表的,與前些年發表的方法相比,在超分辨重建質量和效果上確實有了很大的提升。SRGAN模型的PSNR和SSIM評價指標在表4中較低,甚至低于最開始的超分辨深度學習模型SRCNN。但是從主觀感知上看,觀察圖8 和圖9,SRGAN 的重建性能表現優于其他早期(2018 年之前)的方法。由此說明,GAN 網絡的生成對抗學習方式可以增強超分辨重建圖像的逼真程度,但也會引起圖像結構上的一些變形。因此,基于GAN 網絡的多種改進模型近年來不斷被提出,這也是目前深度學習在圖像超分辨領域的發展趨勢。

5 結束語

本文主要歸納和分析了近年來單幅圖像超分辨重建的深度學習方法。從早期的淺層模型SRCNN 開始,到越來越深的殘差網絡模型VDSR、遞歸網絡模型DRCN 和密集連接網絡模型RDN 等,并結合注意力機制,使得圖像超分辨重建質量不斷得到提高。質量評價客觀指標PSNR 和SSIM 從SRCNN 開始就優于傳統方法,并且重建圖像的主觀感受質量也比傳統方法高。研究學者們不斷把新出現的CNN網絡結構和設計策略應用在SISR 領域,并進行改進,以進一步提高PSNR 和SSIM指標值。但是重建圖像的主觀視覺感受質量卻沒有得到同步提升,不能達到理想的效果。

而基于GAN 網絡結構的SISR 方法,盡管PSNR 和SSIM 客觀質量評價值較低,卻可以生成主觀評價質量高的HR圖像,這是由于GAN網絡模型方便結合感知損失函數。因此,近兩年來,基于GAN 網絡的SISR 方法迅速發展,并在解決實際問題中得到了應用。隨著基于深度學習的SISR 技術越來越成熟和穩定,研究人員希望超分辨重建能夠在視覺高層任務中得到更多的應用。但目前仍存在一些問題,這也是未來的研究方向和發展趨勢:

(1)算法的效率。現有方法雖然可以重建生成較高質量的HR圖像,但是往往需要較長的時間,特別是在縮放因子較大(×8和×16)的情況下。同時,還需要占用很多的內存資源完成模型的訓練。為了能夠滿足實際應用的需求,需要在保證重建質量的前提下,進一步優化網絡結構,降低模型參數數量,對算法進行輕量化改進,提高時間效率。

(2)真實圖像超分辨。在真實的應用場景中,圖像退化模型經常是未知的,難以獲得匹配的LR-HR 圖像數據集進行訓練,直接進行盲超分辨效果也不夠好。因此,可結合指定任務情景下的先驗信息進行無監督的學習,這將是亟待發展的研究方向。

(3)重建結果評價。目前的重建結果評價指標仍然以PSNR 和SSIM 為主,作為客觀評價指標有時候不能準確評估圖像的重建逼真程度,與人眼視覺的主觀感知有差異。而常用的主觀評價MOS 不能很方便地被使用,現在也有一些研究人員提出了新的評價指標,但是沒有受到廣泛的認可。因此,急需進一步找到更合適的圖像超分辨重建評價指標體系。

(4)合適的損失函數。損失函數在整個算法模型中其實也占據著很重要的地位,而目前對于SR任務而言,尚無明確的最合適的損失函數。現在使用最多的是多種損失函數的加權組合,目的是增強重建圖像的主觀感知程度,實際上這是SR 的根本目標。損失函數決定了算法網絡模型學習的方向,而學習的目的是提高SR 的結果評價指數。因此,本文認為,可以將評價指標和損失函數結合進行選擇,這也是未來的一個研究趨勢。

猜你喜歡
深度方法模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产精品99一区不卡| 婷婷亚洲综合五月天在线| 91无码视频在线观看| 美女免费黄网站| 日韩亚洲高清一区二区| 在线国产三级| 亚洲成人黄色在线| 亚洲日本在线免费观看| 国产精品极品美女自在线网站| 亚洲中文字幕23页在线| 欧美一区中文字幕| 永久在线精品免费视频观看| 精品色综合| 欧美午夜在线播放| 中文字幕无码电影| 看国产毛片| 欧美一区日韩一区中文字幕页| 99r在线精品视频在线播放| 国产成人免费手机在线观看视频| 日本在线免费网站| 国产成人久久综合一区| 夜夜操天天摸| 久久美女精品| 真实国产乱子伦高清| 波多野结衣一区二区三区四区视频| 成人毛片免费观看| 美女免费黄网站| 亚洲综合久久成人AV| 国产电话自拍伊人| 国产流白浆视频| 欧美不卡视频在线观看| 国产精品爽爽va在线无码观看| 香蕉eeww99国产精选播放| 欧洲高清无码在线| 午夜无码一区二区三区在线app| 热热久久狠狠偷偷色男同| 91色在线视频| 一区二区日韩国产精久久| 欧美日韩91| 亚洲美女操| 亚洲黄色网站视频| 欧美性爱精品一区二区三区| 97人人做人人爽香蕉精品| 国产毛片片精品天天看视频| 国产一区二区免费播放| a毛片在线播放| 男人天堂亚洲天堂| 91精品专区国产盗摄| 久久久久亚洲AV成人人电影软件| 日韩A∨精品日韩精品无码| 亚洲一级毛片免费观看| 91免费在线看| 亚洲第一页在线观看| 国产精品夜夜嗨视频免费视频| 天堂岛国av无码免费无禁网站| 女人一级毛片| 国产三级精品三级在线观看| 国产小视频免费| 伊人中文网| 久久精品只有这里有| 欧美激情成人网| 国产成人亚洲无吗淙合青草| 久久精品无码中文字幕| 日韩欧美视频第一区在线观看 | 亚洲免费毛片| 青青操国产| 国产不卡在线看| 激情爆乳一区二区| 欧美 国产 人人视频| 久久久久亚洲av成人网人人软件| 中文字幕欧美日韩高清| 国产高潮视频在线观看| 亚洲欧美成人| 伊人久久婷婷五月综合97色 | 国产一区免费在线观看| 97se亚洲综合| jizz亚洲高清在线观看| 欧美成人a∨视频免费观看| 国产乱人免费视频| 国产精品999在线| 久久亚洲精少妇毛片午夜无码| 白浆免费视频国产精品视频|