夏 皓,呂宏峰,羅 軍,蔡 念
1.工業和信息化部電子第五研究所,廣州511370
2.廣東工業大學 信息工程學院,廣州510006
圖像超分辨率重建(Super-Resolution restoration,SR)是用低分辨率(Low Resolution,LR)圖像重建出對應的高分辨率(High Resolution,HR)圖像的過程。目前,圖像超分辨率技術已經成功應用于衛星遙感圖像[1]、醫學圖像[2]、生物特征識別[3]等計算機視覺和圖像處理領域。
傳統圖像SR算法主要基于插值或基于傳統機器學習實現超分辨率重建。基于插值的算法實現簡單且已廣泛應用,但是其高度依賴于小范圍的鄰域信息,重建圖像往往較為模糊,甚至產生振鈴現象,在放大倍數(如4倍、8倍)較大時尤為嚴重。基于傳統機器的算法假設任意自然圖像可以表示為字典元素的稀疏線性組合,通過對LR圖像塊字典和HR圖像塊字典的聯合訓練,學習LR圖像到HR圖像的映射。但是這類方法高度依賴于字典設計,且計算復雜、實時性不高。近些年,由于深度學習具有通過卷積操作在大量數據中進行特征自學習的優勢而得到了大量研究和應用,尤其是在圖像SR更是涌現了大量性能卓越的網絡模型,并在眾多領域得到了廣泛應用。
目前用于圖像超分辨率的深度學習模型根據網絡結構特點大致可以分為以下幾類。
全卷積網絡為沒有全連接層的卷積神經網絡,可以支持不同大小的輸入及全圖端到端的訓練。類全卷積網絡則是級聯卷積層和反卷積層的網絡。
香港中文大學的Dong等[4-5]充分考慮深度學習和傳統稀疏編碼之間的關系,在2014年首次將卷積神經網絡應用于單張圖像超分辨率重建,提出超分辨率卷積神經網絡(Super-Resolution Convolutional Neural Network,SRCNN)。盡管SRCNN重建的圖像比傳統算法清晰,且重建速度也有大幅度提升,但是SRCNN仍存在以下問題:(1)沒有考慮任何的自相似性;(2)僅適用單放大因子的情況,對于不同的放大因子,則需要重新訓練;(3)網絡學習一直是在高分辨率空間中進行,計算資源消耗較多,且訓練速度慢;(4)網絡層數較少,感受野較小且固定為13×13,難以利用上下文信息。
為了讓網絡能夠在低分辨率空間中進行學習,Dong等[6]和Shi等[7]直接采用原始低分辨率圖像進行網絡信息傳遞。即特征信息傳遞一直在低分辨率空間進行,這樣可以進行快速特征學習,大幅度地降低網絡計算量。他們研究指出,各自重建所需時間僅為SRCNN的1/5(Efficient Sub-Pixel Convolutional Neural Network,ESPCNN)和1/17(Fast Super-Resolution Convolutional Neural Network,FSRCNN)。
Dong等[6]首先通過在映射層的首部和尾部分別添加了一個收縮層和擴展層,使得LR圖像到HR圖像的映射一直被限制在低維特征空間。此外,他們考慮到非線性映射層中卷積核的數量和映射層層數對重建效果有巨大的影響,采用了更小卷積核和更多映射層。最后通過反卷積層重建出HR圖像。
Shi等[7]引入亞像素卷積層,提出了ESPCNN。ESPCNN輸入部分是原始低分辨率圖像,經過三個卷積層處理后得到r2張(r為放大倍數)與輸入圖像大小一樣的特征圖,再將這r2張特征圖中的每個像素重新排列,重建出一張高分辨率圖像。
考慮到一些網絡模型假定退化方式為雙三次退化,處理其他的退化模式則效果較差,Zhang等[8]提出維數擴展策略,將不同組合的模糊內核和噪聲水平引起的退化作為輸入進行訓練,實現了單個模型處理多種退化模式,大大提高了實用性。
雖然全卷積網絡與類全卷積網絡的網絡層數較少,訓練速度較快,能夠快速收斂。但這些網絡均為淺層網絡,有限的網絡容量難以學習復雜映射。此外,這些網絡采用級聯多層卷積層進行圖像SR,因此隨著網絡層數逐漸加深,不可避免地導致梯度爆炸問題。
一般來說,網絡越深越寬,其感受野越大,能利用的上下文信息就越多,學習能力及層次特征表征能力也越強。近年來,越來越多的研究學者在加深網絡的同時使用殘差結構來增強網絡的特征學習能力。
Kim等[9]借鑒了VGG-Net[10]網絡的架構,加深了網絡的深度并引入殘差學習,提出了一個級聯20層卷積層的殘差網絡VDSR。VDSR首先將LR圖像進行雙三次插值,然后進行殘差學習獲得殘差圖像,并與LR圖像進行疊加獲得HR圖像。VDSR具有以下優點:(1)擁有更多的網絡層數和更大的感受野。網絡層數由SRCNN的3層增加到了20層。感受野的大小由SRCNN的13×13變成了41×41,因此能利用更多的上下文信息來預測圖像細節。(2)首次將殘差學習應用于圖像SR,大大降低了網絡的計算量,加快了收斂速度,應用梯度裁剪有效地緩解了梯度爆炸問題。(3)將不同放大倍數的圖像混合在一起訓練,一個模型解決不同放大倍數下的超分辨率問題。雖然VDSR成功地證明了增加網絡深度能夠顯著提升重建的效果,但是當網絡深度過大時,其輸入的信息或梯度可能會消失,難以有效更新模型權重參數。
Lai等[11-12]提出一種基于拉普拉斯金字塔結構的網絡LapSRN。網絡首先通過級聯卷積層直接提取LR圖像特征信息,得到粗分辨率特征圖。再采用反卷積向上采樣,最后使用卷積層來預測子帶殘差上采樣圖像與真實HR圖像間的差異。該網絡具有以下優點:(1)網絡輸入部分是原始的LR圖像,無需雙三次插值進行預處理,降低了計算復雜度。(2)采用的Charbonnier損失函數可以有效解決L2損失所重建出的HR圖像過于平滑的問題。(3)通過漸進式重建的方式在多個分辨率下生成中間SR預測結果,有效促進資源感知。與VDSR相比,LapSRN重建出的HR圖像更加清晰。但該網絡在較大放大倍數(如8倍)時的細節重建效果仍然不佳。此外,LapSRN網絡參數較多,占用硬件資源較多。
Lim等[13]提出了EDSR,其網絡結構僅僅將用于圖像分類的殘差網絡[14](Residual Network,ResNet)中的每一個殘差單元內部批處理歸一化層和殘差單元外部激活函數ReLU移除。在訓練EDSR時,首先訓練低放大倍數的模型,然后用預訓練的低放大倍數模型訓練高放大倍數模型。這種預訓練策略不僅有效地減少了高放大倍數模型的訓練時間,加快了訓練速度還一定程度上提高了重建性能。然而,EDSR簡單地將殘差塊堆疊成鏈而加深網絡,不僅忽略了網絡中每個部分(卷積層或特征提取塊)的層次特征,還增加了網絡的計算量。
Feng等[15]設計了一種多尺度分形殘差網絡MSFRN,其包含多個多尺度分形殘差塊MSFRB,充分提取LR圖像的多尺度特征;利用多條路徑將淺層特征和所有多尺度分形殘差塊輸出的局部特征進行全局分層特征融合;最后通過亞像素卷積重建HR圖像。MSFRN通過多條路徑融合不同深度圖像的多尺度特征,充分提取圖像局部特征信息,實現不同路徑信息共享,可以提升網絡特征表達能力。在4倍的放大倍數下,MSFRN重建的HR圖像具有較清晰的紋理、較豐富的細節和較高結構相似性。
針對現有的SR方法沒有充分利用原始LR圖像的層次特征,導致重建效果較差的問題,Lan等[16]提出一個包含多個局部共享組的級聯殘差網絡CRN。CRN通過引入級聯連接機制,不僅促進特征的融合和梯度的傳播,還降低模型訓練難度。此外,他們還提出了另一個增強殘差網絡ERN。ERN采用雙全局路徑結構,結合非局部操作從原始LR圖像輸入中捕捉長距離空間特征信息。與現有的基于CNN的模型相比,結合非局部操作從原始LR圖像輸入中捕捉長距離空間特征信息。CRN和ERN擁有較淺的網絡深度,較少的模型參數,模型重建效果較好。
席志紅等[17]提出一種基于深層殘差網絡的加速圖像超分辨率重建方法DRSR。DRSR直接從LR圖像中提取到特征信息,使用多路徑模式的局部殘差學習和多權重遞歸學習,再通過亞像素卷積層獲得HR圖像。該網絡使用了多路徑模式的局部殘差結構,使所有的殘差單元能夠共享相同的輸入,不僅加快了網絡的收斂還提高了訓練速度。
基于殘差網絡的SR算法應用了殘差學習、梯度裁剪、參數共享等策略,可以解決深度網絡參數量大、不易收斂以及梯度爆炸等問題。但其大多是通過增加殘差塊數目即增加網絡深度來提升重建效果,而忽略了殘差塊本身的設計問題,往往制約了其性能的進一步提升及網絡設計的合理性。
深度網絡通常存在過擬合和模型過于復雜的問題,為了有效緩解這一問題,遞歸網絡應運而生。遞歸神經網絡(Recursive Neural Network,RNN)能夠對現有的參數進行學習,增加卷積神經網絡的感受野,而無需引入新的參數。
Kim等[18]將RNN應用于超分辨率重建并提出擁有16個遞歸層的DRCN。DRCN主要由嵌入網絡、推理網絡、重建網絡三個模塊組成。網絡通過從輸入到重建層的跳躍連接,保證了輸入LR圖像和輸出HR之間的信息共享,減少了網絡參數。網絡還結合了所有遞歸產生的特征圖,對遞歸結果進行監督,緩解梯度爆炸問題,降低網絡訓練難度。但是,DRCN可能會隨著遞歸次數的增加和模型復雜度的增加,導致遞歸監督的計算量大幅度增加。
Tai等[19]借鑒ResNet、VDSR和DRCN提出了遞歸殘差網絡DRRN。該網絡包含25個殘差單元一共52層,融入局部殘差學習、全局殘差學習和遞歸學習,不僅較好控制了模型的參數量,還降低了訓練難度。與只有20層的VDSR相比,DRRN擁有更多的網絡層數,計算量隨之大幅度增加,訓練速度變慢,但是重建效果并沒有明顯提升,PSNR均值僅提升約0.3 dB。
吳磊等[20]設計了一種多尺度遞歸網絡,該網絡級聯了多個由特征提取層、特征融合層、特征映射層組成的多尺度特征映射單元。網絡首先直接對原始低分辨率圖像進行特征提取,再進行特征融合,最后通過亞像素卷積完成高分辨率圖像重建。該網絡能夠較全面地提取LR圖像特征,充分恢復圖像的紋理信息。雖然該網絡結構是對SRCNN和ESPCN進行改進,但其視覺效果并沒有顯著提升,PSNR和SSIM的數值提升也較小。
Jiang等[21]提出了一種分層密集遞歸網絡HDRN。HDRN由多個分層密集殘差塊和一個全局融合模塊組成。每個分層密集殘差塊(HDB)內部采用交錯對角連接方式,將一維結構變成分層矩陣結構,不僅有助于特征融合和重用,同時可以減輕內存和計算負擔。HDB采用共享方式相互連接,實現多尺度HDB特征全局融合,再通過亞像素上采樣重建HR圖像。HDRN通過遞歸分層殘差塊,充分捕捉了LR圖像特征信息,紋理細節的重建效果較好,網絡深度較淺,計算資源消耗較少。
Lin等[22]提出了一種高效遞歸深度卷積網絡SCRSR,主要由下采樣子網和上采樣子網組成,每個子網包含幾個具有相同權重的SCR塊,降低了計算復雜度和內存消耗并擴大了感受野大小。與沒有下采樣層的其他網絡相比,SCRSR節省了大約49%內存消耗。為了能夠進一步減少網絡的參數,SCRSR采用了兩級遞歸學習機制,以增加深度而不增加任何權重參數。此外,還采用局部、半全局和全局殘差學習,使網絡能夠穩定高效地學習圖像細節信息,提高重建效果。
基于遞歸網絡的圖像超分辨率算法,采用了遞歸結構,在不引入新的參數前提下,可以反復地對已有參數進行學習。但隨著遞歸次數增加和模型復雜度提升,遞歸網絡的計算量也隨之增加。
生成對抗網絡(Generative Adversarial Network,GAN)[23-24]借鑒了博弈論的思想,網絡由生成器和判別器兩個部分組成。GAN網絡的生成器用來生成超分辨率圖像,當生成出超分辨率圖像足夠以假亂真,即判別器無法區分真實高分辨率圖像和網絡的超分辨率輸出圖像時,表明網絡生成的超分辨率圖像效果很好。
Ledig等[25]首次將GAN應用于圖像超分辨率領域,提出了SRGAN。其生成網絡主要由多個結構相同的殘差塊組成,每個殘差塊包含兩層卷積層,每層包含64個3×3大小的卷積核,再通過兩個亞像素卷積層進行上采樣實現HR圖像生成。判別網絡用于判斷輸入圖像是生成HR圖像還是真實HR圖像,其包含8個卷積層,卷積層的輸出通道數由64遞增到512,最后使用兩個全連接層和Sigmoid激活函數獲得樣本的分類概率。SRGAN采用了對抗訓練方式,生成的HR圖像紋理細節更加豐富逼真,更符合人類的視覺效果。但重建的HR圖像在PSNR和SSIM數值上并沒有顯著提升,PSNR均值與SRCNN相比甚至還降低了大約1 dB。此外SRGAN的網絡結構較為復雜,需要訓練兩個子網絡,因此訓練時間較長,且難以收斂。
Wang等[26]在SRGAN的基礎上刪除批處理歸一化層BN并合并密集塊,提出了ESRGAN。ESRGAN通過引入沒有BN層的殘差密集塊RRDB作為基本網絡構建單元,每個密集塊的輸入連接到相應塊的輸出,確保在每個密集塊上形成局部殘差學習。此外,ESRGAN還采用全局殘差連接進行全局殘差學習。為了能夠指導生成器恢復更豐富的紋理特征,ESRGAN使用了一種Relativistic GAN[27]的增強型判別器,即通過使用激活前的特征增強感知損失,提供強監督,使得重建HR圖像擁有更好的亮度和更逼真的紋理細節,并以最佳感知指數取得了PIRM2018-SR挑戰賽的第一名。
針對GAN直接應用于SR可能會出現輸入和輸出不匹配的情況,Gao等[28]提出了基于條件生成對抗網絡(cGAN)的圖像超分辨率網絡。其生成器采用對稱的編碼器-解碼器結構,應用跳躍式連接實現輸入和輸出之間低級信息的跨層傳輸。判別器是一個PatchGAN網絡,以減少訓練參數,使模型輕量化,容易訓練。為了保護低頻信息并恢復高頻信息,他們還設計了一種將對抗損失項和L1損失項相結合的生成損失函數,充分利用了對抗損失有助于高頻紋理細節恢復和L1損失項有利于學習LR輸入的整體結構的優勢。實驗結果表明,他們提出的網絡能夠同時保持低頻信息和恢復高頻信息,生成具有逼真紋理和較少過度平滑的HR圖像。但網絡輸入插值后的LR圖像,會大大增加網絡的計算量。此外,網絡的解碼器單元應用了dropout模塊,可能會造成重建信息的丟失。
考慮到不同分辨率的圖像可能攜帶不同特征信息,Ma等[29]構建了一個使用反投影和漸進式增長的網絡,即通過漸進尺度因子構建投影單元,將多個投影單元組合成一個投影塊,并在每個投影單元和投影塊之間使用密集連接。與之前的反饋網絡不同之處在于,該網絡使用逐漸增加的比例因子構建上下投影單元,使網絡可以學習到更豐富的特征信息。此外,他們采用了逐步訓練方式,從單層網絡結構開始,不斷添加新的層,這樣不僅可以保證訓練的穩定性還能大大提升訓練速度。
針對較大的放大倍數下紋理細節信息缺乏和視覺效果差的問題,彭晏飛等[30]在SRGAN模型的基礎上,使用SVM算法中的hinge損失作為目標函數,在生成網絡中使用Charbonnier損失函數代替L2損失,去解決使用L2損失重建圖像帶來的斑點偽影問題。此外,他們還去掉了殘差塊和判別器中的BN層,在生成器和判別器中使用譜歸一化(Spectral Normalization,SN)來減小計算量,使模型能夠穩定地訓練。判別器使用了ELU激活函數代替LeakyReLU激活函數。網絡重建出的圖像無論在視覺效果上還是在PSNR和SSIM數值上均取得了提升。但網絡仍采用雙三次插值圖像,使得網絡計算量增加,訓練速度減慢。
Zhou等[31]設計了一個具有23層編碼器-解碼器結構的多尺度特征映射網絡,通過多尺度特征映射模塊學習LR和HR特征之間的映射關系。該模塊利用編碼器中不同的卷積層提取LR圖像特征信息,再將其映射為HR圖像特征,最后通過解碼器的卷積層處理進一步增加重建HR圖像的信息量。與SRCNN中的單一卷積層相比,該網絡可以提高LR圖像信息的利用率。此外,他們提出了由MSE損失、感知損失和對抗損失組成的新型損失函數,可以更好地監督還原HR圖像的低頻內容、銳利邊緣和高頻紋理。
基于GAN的SR網絡相比于基于CNN的網絡能夠重建出更加接近人眼真實感知的HR圖像。但是,基于GAN的SR網絡有時未能捕捉到訓練數據的多樣性,導致輸入LR圖像和輸出HR圖像出現不匹配的情況。此外,GAN網絡在訓練時需要生成器和判別器同時工作,交替優化,因而學習速度較慢,且訓練難度很大,甚至難以收斂。
密集網絡[32]沒有采用加深網絡層數和加寬網絡結構的方式來提升網絡性能,而是從特征的角度進行考慮。
由于SR網絡大多只考慮了單一尺度下圖像空間的映射關系,Zhou等[33]提出了一個包含了密集卷積自編碼器塊的網絡,由幾個自編碼器單元和一個擠壓單元構成密集卷積自編碼器塊,通過成對的編碼和解碼層獲取不同分辨率下的特征信息,通過擠壓單元將當前密集卷積自編碼器塊和前一個密集卷積自編碼器塊中的特征結合起來,實現長時間特征重用。網絡融入了多空間尺度和多時間特征學習,能夠從不同時間范圍、不同空間分辨率中提取特征信息,建立多層次特征重用機制,學習LR和HR圖像之間的非線性映射。
針對很多SR深度網絡沒有利用不同通道信息的情況,Liu等[34]設計了一種使用多通道密集連接的殘差注意力網絡MCRAN,充分利用多通道之間的交互信息,使用多通道殘差注意力模塊合并多個不同通道的特征并應用注意力機制自適應調整通道特征。此外,MCRAN引入多源殘差組結構以構建更深層次網絡并簡化網絡訓練。與多種SR深度網絡相比,MCRAN更加關注通道信息,增強了特征學習能力。
考慮到不同的特征圖中包含不同特征信息,Ma等[35]提出了一個由幾個聚合模塊組成的密集判別網絡SRDDN。聚合模塊逐步地將提取節點和聚合節點合并為樹形結構,實現特征信息聚合。聚合節點中引入特征選擇的注意力機制,增強判別學習能力。SDRRN通過在LR空間中放大淺層特征,在樹結構中逐步聚合密集的分層特征,并通過全局殘差學習將它們與深層特征融合進行重構。這不僅提高了非線性和判別能力,還減小了模型尺寸。
Zhang等[36]提出了一種全局-局部可調密集超分辨率網絡GLADSR,主要由特征提取網絡、基礎網絡、提純網絡和重構網絡四部分組成。其中,基礎網絡和提純網絡具有相似的結構,均由嵌套密集組和可分離的金字塔上采樣模塊組成;每個嵌套密集組包含了多個全局-局部可調模塊,通過模塊中的局部選擇塊和全局引導塊,GLASR實現了對計算資源的合理分配,增加了網絡模型的容量。GLADSR還選用了可分離的金字塔上采樣模塊來代替常規的上采樣操作,大大減少了網絡參數,取得了較好的重建效果。
針對基于深度學習的SR算法在實際應用中通常面臨著計算資源和內存消耗嚴重的問題,Song等[37]提出了一種具有多個目標的高效殘差密集塊搜索算法ESRN。與很多SR深度網絡不同的是,ESRN引入池化來減少后續處理的計算量,同時將殘差密集塊中的局部殘差學習和全局特征融合相結合來減少池化帶來的信息丟失。為了進一步減少參數,ESRN引入了收縮殘差密集塊和組殘差密集塊,采用進化算法搜索SR的最佳網絡架構。
與Li等[38]并沒有盲目地增加網絡深度以提升圖像重建效果,而是通過挖掘圖像特征和學習不同上采樣因子之間的尺度間相關性,提出了由多尺度密集交叉塊、分層特征蒸餾塊和動態重建塊組成的多尺度密集交叉網絡MDCN。多尺度密集交叉塊通過集成雙路徑密集網絡和多尺度學習提取豐富的高頻細節;分層特征蒸餾塊引入維度變換和通道注意力機制,對通道的特征響應進行自適應地重新校準,以去除冗余的層次特征;動態重建塊則是最大程度地重用模型參數,通過動態激活相應的上采樣模塊,學習不同上采樣因子之間的尺度間關聯性。實驗結果表明,MDCN只需較少的參數和較少的運行時間便可取得較好的重建效果。
基于密集網絡的SR算法不僅有效地緩解了梯度消失的問題,還能夠通過密集連接使用少量卷積核就可以生成大量的特征,充分挖掘圖像特征信息,在一定程度上減少了參數量。但密集網絡采用反復的拼接(Concatenation)操作,將之前層的輸出與當前層的輸出拼接在一起,然后傳給下一層,每次拼接操作都會開辟新的內存來保存拼接后的特征,因此在訓練時十分消耗內存。
基于深度學習的圖像超分辨率方法多數假設用于生成LR圖像的模糊核已知的(例如,雙三次插值)。然而,在實際應用中,模糊核通常更加復雜且未知,因此這些深度網絡模型將受限于已知固定模糊核模式,從而導致SR重建性能較差。近年來,已有學者開始探索未知退化模式的盲圖像超分辨率深度網絡。
為解決盲圖像SR中由模糊核不匹配帶來的偽影問題(過度平滑或過度銳化),Gu等[39]提出了一種用于模糊核未知情況的模糊核估算法——迭代核校正(IKC)法。IKC法根據重建出的圖像迭代地校正估計的模糊核。當輸入的模糊核比真實的模糊核更平滑時,那么輸出的圖像將是模糊的,反之亦然。在此基礎上,提出采用空間特征變換(SFT)層處理多個模糊核的圖像超分辨率網絡SFTMD。IKC法通過迭代校正退化,可以逐漸產生無偽影的HR圖像。但由于IKC方法在測試時需要多次迭代,因此IKC法非常耗時。
考慮到由不同模糊核生成的LR圖像的SR過程本質上是不同的但又具有一定的相關性,Wang等[40]提出了一種深度網絡混合模型,將不同模糊核的SR任務聚類到幾個小組中。每組由具有相似模糊核的相關SR任務組成,通過混合模型中特定網絡組合進行處理。為了實現自動SR任務聚類和網絡選擇,他們通過編碼器網絡從輸入圖像推斷出潛在變量,再使用潛在變量對模糊核進行建模。為了監督聯合訓練混合模型和編碼器網絡,進一步推導出似然函數的下界,從而規避了混合模型直接優化的難點。
由于直接對不成對的真實LR-HR圖像學習不僅會在利用退化多樣性方面受到限制,而且可能過擬合到真實的LR退化模型而不能很好地重建HR圖像。為解決這個問題,Liu等[41]并沒有從不成對的真實LR-HR圖像或特定下采樣器中學習,而是通過考慮模糊、噪聲、下采樣甚至JPEG壓縮,從現實的參數退化模型中學習。與直接對HR圖像進行盲重建相比,他們提出的CBSR網絡采用級聯架構進行噪聲估計、模糊估計,可以從訓練數據中進行端到端地學習并提升模型的泛化能力。但正因為CBSR專注于從現實的參數退化模型中學習,所以很難處理其建模范圍之外的退化LR輸入。
采用退化估計方式重建HR圖像往往退化估計會很耗時且可能產生較大的估計誤差而導致重建失敗。為此,Wang等[42]假設同一圖像任意區域的退化是相同的而不同圖像的退化可能有所不同,基于該假設提出了一種無監督的退化表示學習機制他們提出的方法通過學習抽象表示來區分表示空間中的各種退化,而不是像素空間中的顯式估計,更容易區分不同退化。基于該學習機制建立了退化感知網絡DASR,該網絡結合了退化信息,能夠根據學習到的表征靈活適應不同的退化。
Kim等[43]提出了一種基于SR特征的自適應局部調節的盲SR網絡KOALAnet。KOALAnet由下采樣網絡和上采樣網絡兩個子網絡組成,其中下采樣網絡用于預測空間變化模糊核,上采樣網絡則是將預測的模糊核映射到特征核空間進行進一步的融合。在隨機各向異性的高斯退化環境下進行訓練后,KOALAnet能夠準確預測底層退化核并有效地利用此信息進行SR。
由于之前基于CNN的盲SR算法大多采用的是迭代優化的方式,這種方式通常需要消耗較多的計算資源,因此重建速度較慢。為解決該問題,Hui等[44]提出了一種用于多重退化SR的自適應調制網絡AMNet。AMNet由多層自適應調制層組成,通過模糊核預測器在整個盲目的SR模型中進行訓練,將深度強化學習融入到盲目的SR模型中,解決非差異性的優化問題。
盲圖像SR深度網絡拓展了深度學習在圖像SR領域中的應用,尤其是在重建具有復雜退化類型的真實世界圖像具有一定的優勢。但正是由于缺乏有效的SR先驗,其重建性能仍與真實HR圖像具有一定的差異性,尤其是在重建具有復雜紋理和精細細節的HR圖像時仍有待進一步提升。
由于圖像超分辨率技術能在一定程度上修正由成像設備或環境對圖像造成的損壞,圖像超分辨率重建技術已經被廣泛應用于衛星遙感圖像、醫學影像、視頻監控等領域。
衛星圖像的空間分辨率是衡量衛星遙感能力的一項主要指標,也是衡量一個國家航天遙感水平的重要標志,追求更高的分辨率已成為各國衛星的發展目標。
PSSR[45]通過反卷積對極化合成孔徑雷達(Polarimetric Synthetic Aperture Radar,PolSAR)圖像進行上采樣并采用了一個復雜的結構塊來容納PolSAR數據結構。
Zhang等[46]將跳躍式連接中的元素加法全部替換為加權的通道級聯,極大地促進了信息的流動。他們引入了高階注意力模塊來還原遙感圖像中丟失的細節信息。最后,他們還引入了頻率感知,實現了對分層特征的充分利用。
由于遙感數據的空間分布較為復雜,增加了重建的難度,因此DSSR[47]基于亞像素卷積的密集重采樣機制,重用了升頻器來對多級低維特征進行上采樣,能夠實現重建時多級先驗信息的融合。為了增強網絡的表示能力,網絡引入了寬特征注意力塊。
針對放大倍數較大時,高光譜圖像會出現紋理模糊和光譜失真的問題,Li等[48]通過將頻帶注意力機制引入到生成網絡中,再添加一些空間光譜約束來指導生成網絡的訓練,從而有效地緩解光譜失真和紋理模糊的問題。
CGAN[49]通過引入場景約束項來約束生成的特征,減少了場景變化帶來的風險。然后,頻譜歸一化被集成到鑒別器網絡中以穩定訓練過程,并采用內容保真度來使訓練過程穩定同時避免了梯度消失的問題。此外,邊緣增強模塊被設計為保留邊緣細節并抑制噪聲。
高分辨率的醫學圖像具有較高的像素密度,也就意味著可以提供更豐富的細節信息,這些細節信息往往在醫療診斷中能夠起到關鍵作用。
CSN[50]能夠將磁共振圖像中的分層特征分為傳遞不同信息的兩個分支,即殘差分支和密集分支。殘差分支能夠促進特征重用,而密集分支則有利于新特征的探索。
FAWDN[51]借鑒了RNN(Recurrent Neural Network)的反饋機制,能夠通過反饋連接將輸出圖像的信息發送到低級特征。為了減少密集塊中的特征冗余,引入了自適應加權密集塊來自適應地選擇信息特征。
SNSRGAN[52]通過引入輔助標簽信息來約束特征生成,從而保持病理不變性。此外,它還采用了光譜歸一化來控制判別網絡的性能。
SSSR[53]使用低分辨率PET圖像、高分辨率解剖磁共振圖像、空間信息(軸向和徑向坐標)以及CNN提取到的高維特征集作為輸入,使用配對的模擬數據集訓練,擺脫了需要成對的低分辨率和高分辨率圖像訓練的困擾。
Xia等[54]直接從原始低分辨率磁共振圖像獲取到特征信息,通過多個跳躍式連接單元實現信息傳遞。考慮到不同的單元對高分辨率磁共振圖像重建的貢獻度不同,他們采用多單元上采樣學習機制較好地完成了重建。
生物識別技術,通過計算機與光學、聲學、生物傳感器和生物統計學原理等高科技手段密切結合,利用人體固有的生理特性(如指紋、虹膜等)和行為特征(如筆跡、聲音、步態等)來進行個人身份的鑒定。
由于現有的基于GAN的SR方法大多著眼于重建圖像的視覺外觀上,而不是圖像中面部的細節信息。因此,He等[55]設計了一種靈活的堆疊GAN。該網絡能夠兼容不同的放大倍數,較好地完成面部細節圖像的重建。
MSRCAN[56]通過將通道注意力機制與人臉先驗信息結合起來,不僅增加了網絡特征的利用率還提升了人臉先驗的約束力。此外,采用了多尺度遞進訓練的方式,能夠同時處理不同的放大倍數。
RBPNet[57]首先將重建的高分辨率特征圖投影到原始的低分辨率特征空間,生成投影的低分辨率特征圖。再將投影的低分辨率特征圖減去原始特征圖,得到低分辨率殘差特征圖。最后,將低分辨率殘差特征圖映射到高分辨率特征空間。網絡通過迭代殘差學習,逐步學習重構人臉圖像與標準真實圖像之間的殘差,實現漸進殘差反投影。
蔣文杰等[58]將SRGAN與WGAN[59]結合,并引入Wasserstein散度,提出了一個基于GAN的人臉超分辨率網絡。網絡通過最大化Wasserstein散度,得到最優化標量函數T,不僅去掉了Lipschit-z約束同時還較好地保留Wasserstein距離的優良性質。
缺陷檢測是工業生產中一個重要環節,產品生產過程中,表面容易出現劃痕、凹陷等外觀缺陷。然而很多情況下,缺陷的尺寸很小,采集到的圖像分辨率低,檢測也就無法滿足高精度的要求。因此需要獲得高分辨率的工業圖像。
范明明等[60]通過將迭代反投影法與卷積神經網絡結合,在迭代過程中引入圖像序列間的互補信息,較好地完成了芯片圖像超分辨率重建。
Yuan等[61]通過將自適應頻譜分解、基于深度學習的超分辨率算法、相干性計算三者結合起來,提出了一種能夠自適應縮放的故障檢測方法。該方法不僅可以自適應地識別隨深度(或時間)變化的不同比例的故障,還提高了故障的連續性和分辨率。
針對電路板通常存在復雜度高,瑕疵尺寸小的問題,工業采集圖像分辨率低的問題,SRDDM[62]使用拉普拉斯金字塔網絡逐級重建,使用YOLO-v3算法提取特征。然后,使用K-Means聚類完成對特征圖的多尺度檢測。最后使用非極大值抑制完成定位瑕疵及分類。
Song等[63]提出了一種由兩個全卷積網絡組成的分層多尺度成像方法。第一個網絡為全局檢測網絡,用于在原始的低分辨率圖像中全局檢測亞波長缺陷。第二個網絡為局部超分辨率網絡,用于解析檢測到的亞波長的細節信息。
車牌在智能交通中發揮著重要作用,車牌的檢測與識別廣泛應用于停車場、高速公路收費站等監控系統中,為交通管理提供了極大的便利。在實際的監控視頻中,由于成像設備分辨率的限制以及車牌與成像設備的距離等因素的影響,得到的車牌圖像分辨率低,難以識別。因此,需要高分辨率的車牌圖像。
Lee等[64]首先假定車輛和車牌的檢測優先級為比字符更高,對車輛和車牌同時檢測。然后將檢測到的LR車牌圖像輸入到基于GAN的SR網絡中,經過重建得到HR車牌圖像。最后通過基于上下文信息處理分層對象信息的方法,實現了準確的車牌字符識別。
由于已有的SR方法主要關注自然圖像的重建,通常不適用于數字和字母。直接使用GAN生成的高分辨率圖像往往丟失車牌上的數字和字母的細節信息。因此,Bílková等[65]提出了一個基于GAN和OCR(Optical Character Recognition)的網絡,它能夠生成具有真實文本的高分辨率圖像,而不再依賴于真實高分辨率圖像訓練。
與已有的超分辨率算法聚焦于產生逼真的圖像不同,CSRGAN[66]聚焦于超分辨率圖像中字符的可識別性,而不是像素的重構。其采用了一種基于字符的損失函數,因此比已有的算法具有更高的字符識別精度。
GBPN[67]首先對投影過程中較大倍數的采樣層分解,通過逐級采樣完成迭代反投影。然后在每個逐級反投影單元中采用跳躍式連接融合逐級采樣的特征,實現了特征的反復利用。最后,根據逐級上投影單元產生的特征圖重建高分辨率圖像。
為了能夠更直觀地展示國內外基于深度學習的超分辨率算法的研究現狀,總結了近三年國內外基于深度學習的應用于不同領域的圖像超分辨率算法,如表1所示。

表1 近三年國內外基于深度學習的超分辨率應用研究一覽Table 1 Overview of research on deep-learning-based natural image SR in past three years
隨著深度學習技術的迅速發展,目前基于深度學習的圖像超分辨率方法已經代替了傳統的圖像超分辨率方法,漸漸地成為了主流。本文詳細介紹了近5年來基于深度學習的圖像超分辨重建算法,可以看出,隨著網絡層數的增加,以及網絡模型愈來愈復雜,超分辨率重建的效果越來越好。此外,為了進一步增強視覺的重建效果,研究學者們將生成對抗網絡應用到圖像超分辨率領域中。盡管基于深度學習的超分辨重建效果已經有了大幅度的提升,但還有很多方面值得進一步研究:
(1)圖像視覺效果的提升。雖然基于生成對抗網絡的模型能夠在一定程度上提升重建的視覺效果,但生成對抗網絡仍面臨訓練時收斂困難和不穩定的難題,重建出的高分辨率圖像中容易出現一些人為的痕跡和偽影。接下來需要研究的是如何引入一些圖像先驗或約束,從而使重建的圖像既有較好的視覺效果,同時也不產生一些偽影情況。
(2)評價指標的增添。目前在超分辨率重建領域中,最常用的評價指標是PSNR和SSIM。但是僅有這些評價指標是遠遠不夠的,將不能很好地對重建后的圖像進行有效評價[72]。一些研究學者已經選用了新的評價指標,如Ledig等[25]選用了MOS、Gao[28]選用了LS。因此,需要進一步探索更加準確的評價指標。
(3)網絡模型的設計。目前,很多SR算法選用的是深度網絡,通常會大大增加模型的參數和計算量。此外,SR算法卷積核的大小大多是根據經驗選擇,理論基礎較為薄弱。因此,可以引入自組織學習的理念,自動地選擇合適的網絡層數和卷積核大小來達到最佳的重建效果。
(4)實際場景中的超分辨重建。現有SR算法大多是采用固定的退化方式[73](如雙三次插值)對真實HR圖像處理,再將其縮小獲得LR圖像,然后通過算法重建出對應的HR圖像。然而實際場景的圖像超分辨率只有LR圖像而沒有對應的HR圖像,因此無法評估重建出的HR圖像的準確性。雖然已有一些盲超分辨重建算法,但距離實際應用還需要很長的時間,因此更具適用性的盲超分辨重建算法需要進一步研究。