李 彬,喻夏瓊,王 平,傅瑞罡,張 虹
(1.國防科技大學電子科學學院,湖南 長沙 410073;2.32021部隊,北京 100094; 3.中國船舶科學研究中心,江蘇 無錫 214000)
由于硬件設備限制和信息傳輸處理的實時性要求,人們獲取到的圖像數據往往為低分辨率LR(Low-Resolution)圖像,但在實際應用中,高分辨率HR(High-Resolution)圖像可以提供更多信息,幫助專業人士做出更準確的判斷,同時也具有更好的感知效果。單幅圖像超分辨率SISR(Single Image Super-Resolution)重建利用圖像中像素點與周圍像素點之間存在的內在聯系,學習自然數據中存在的隱式冗余,可以從單幅的LR圖像恢復出丟失的細節信息,從LR圖像得到HR圖像。目前,SISR技術被廣泛應用于諸多領域,如社會安全[1]、醫學成像[2]和軍事遙感[3]等。
現有的SISR算法大致分為3類:基于插值的算法、基于重建的算法和基于學習的算法[4]。基于插值的算法簡單,但是重建圖像會引入偽影和振鈴現象?;谥亟ǖ乃惴m然重建效果較好,但是算法執行效率低,對尺度縮放因子敏感?;趯W習的算法解決了對尺度縮放因子敏感的問題,在SISR領域得到了廣泛應用。由于SISR問題具有不適定性(存在多種可能解,即多幅HR圖像對應同一幅LR圖像),需要構建一定條件來約束重建圖像的解空間。
作為基于學習算法的一個分支,基于深度學習的SISR算法通過多層卷積神經網絡CNN(Convolutional Neural Network)建立輸入和輸出之間非線性端對端的映射關系。首個基于深度學習算法的SISR網絡模型SRCNN[5]構建了一個簡單淺層的CNN,得到的圖像重建效果相對其他SR重建算法有了顯著提升。近年來,諸多深度學習超分辨率SR重建網絡模型被提出,如ESPCN[6]、VDSR[7]、SRGAN[8]和RCAN[9]等,進一步提升了SISR重建效果。由于基于深度學習的SR重建算法通常是構建一個端對端的網絡模型,將LR圖像輸入到該特定網絡模型中,通過特征映射和尺度放大等方式優化網絡的損失函數,進而得到HR圖像,因而現有的SR重建網絡模型主要在尺度放大方式、模型結構組成和損失函數構建3個方面存在較大差異,本文針對這3個方面進行了詳細分析。
所謂圖像SR尺度放大,就是進行圖像上采樣,即在放大圖像的尺度的同時提升分辨率。在網絡構建中,上采樣的方法和時機不同,帶來的SR重建效果不同。
常見的圖像SR上采樣方法主要有3種:基于插值的圖像SR上采樣、基于反卷積的圖像SR上采樣和基于亞像素卷積的圖像SR上采樣。
基于插值的圖像SR上采樣在LR圖像的基礎上,使用合適的內插算法在原有像素點間插入新的像素點。常用的插值算法有最近鄰插值、雙線性插值和雙三次插值等?;诓逯档膱D像SR上采樣原理簡單,能夠實時高效地對LR圖像進行尺度放大,但插值放大后的圖像質量差,容易帶來鋸齒狀的失真,因而與基于反卷積和基于亞像素卷積的圖像SR上采樣方法相比,其應用相對較少。早期網絡模型也將插值放大結果作為網絡輸入,如SRCNN[4]、VDSR[6]等網絡模型的輸入就是插值放大后的圖像。
反卷積(Deconvolution),也稱轉置卷積,最早的反卷積概念出現在Zeiler等人[10]發表的論文中。它并不是正向卷積完全的逆過程,而是比較特殊的正向卷積,通過對補零操作后的圖像進行卷積,使輸出圖像的尺度放大,相當于使用一種分數步長的卷積方法對圖像進行上采樣,基本操作如圖1a所示。相對于基于插值的圖像SR上采樣方法,基于反卷積和基于亞像素卷積的圖像SR上采樣都屬于基于學習的上采樣,可以有效減少鋸齒狀失真。基于反卷積的圖像SR上采樣方法是目前SISR重建領域中最常用的方法,FSRCNN[11]、EDSR[12]等網絡結構中都采用基于反卷積的圖像SR上采樣進行尺度放大。

Figure 1 Principle of deconvolution and sub-pixel convolution圖1 反卷積和亞像素卷積實現原理
亞像素卷積(Sub-Pixel Convolution)[5]是一種像素洗牌的上采樣方法,雖然名稱為亞像素卷積,但并未進行卷積操作,實際是像素的一種重新排列。亞像素卷積要求輸入是r2(r指尺度放大的倍數)個通道的特征圖,通過一定的規則對所有像素進行重新排列,從而得到一幅尺度放大的圖像,具體操作如圖1b所示,實質上是一種反抽樣的思想。由于亞像素卷積操作中不涉及卷積計算,因而基于亞像素卷積的上采樣速度非??欤兄趯崿F實時上采樣。
根據上采樣時機的不同,SISR重建網絡可以采用預先上采樣、單次上采樣、漸進上采樣和迭代上采樣4種方式。
預先上采樣是通過預處理方式,使得輸入網絡的圖像為經插值放大的中分辨率MR(Middle-Resolution)圖像,該方法最早出現在SRCNN網絡中,通過簡單的CNN建立MR圖像與HR圖像之的映射關系。早期的SR網絡模型,如SRCNN、VDSR[6]、DRCN[13]和DRRN[14]等均采用預先上采樣的方式提高重建圖像的尺度。由于該方式在預處理階段對圖像進行上采樣,極大增加了網絡訓練過程中的計算量,特別是隨著網絡深度的逐步加深,進一步制約著網絡模型訓練的效率和重建圖像質量。因而隨著網絡模型的發展,預先上采樣的方式基本不再使用。
單次上采樣通常指在SISR網絡模型的最后一個模塊,通過反卷積或亞像素卷積的方法實現特征尺度放大,從而得到重建MR圖像。目前大部分的SISR網絡模型都采用單次上采樣,典型的有FSRCNN[13]、ESPCN[5]、EhanceNet[15]和IDN[16]等。單次上采樣解決了預先上采樣帶來的網絡計算量大的缺點,加快了網絡訓練速度,同時通過基于反卷積和基于亞像素卷積這2種基于學習的圖像SR上采樣方法,使得重建圖像效果更加逼真。
漸進上采樣最早出現在Lapsrn[17]網絡中,旨在解決大尺度上采樣時單次上采樣方法存在圖像失真和重建質量差的問題。漸進上采樣充分利用2倍上采樣的網絡結構解決4倍、8倍等大尺度上采樣的問題。目前Lapsrn網絡和EUSR[18]網絡均采用了漸進上采樣的方式。通過對2倍上采樣網絡結構堆疊,使各結構之間參數共享,不僅實現了較好的上采樣效果,同時也有效縮短了訓練時間。表1是ESUR網絡通過2種不同上采樣方法重建的圖像質量對比(表中數字加粗表示最優結果),PSNR和SSIM[19]是2種圖像質量評價指標,可以看到,在Set5和Set14數據集上的4倍上采樣結果中,與直接上采樣相比,漸進上采樣效果更優。

Table 1 Comparison of reconstruction effects of different upsampling methods onSet5 and Set14 datasets of ESUR network表1 ESUR網絡中不同上采樣方法在Set5和Set14數據集上重建效果對比
迭代上采樣的方法伴隨著迭代SR網絡的提出而得到應用,最早出現在DBPN[20]網絡中,目前在DBPN和SRFBN[21]網絡中得到了應用。迭代上采樣的方法使網絡能有效學習不同深度特征映射的上采樣特性,充分利用淺層和深層的不同特征映射重建上采樣圖像,由于在DBPN網絡和SRFBN網絡中展現的良好重建效果,迭代上采樣也成為近兩年SR領域的主流方法之一。
目前常見的SR重建網絡都將不同整數尺度因子的SISR重建作為研究任務,長期以來,任意尺度因子的SR重建網絡研究一直被忽略。Meta-SR[22]模型構建了任意尺度SISR的網絡結構,通過引入元學習[23]的思想構建元上采樣模塊,該模塊實際是通過一個全連接網絡預測上采樣卷積核參數,從而實現圖像任意尺度的SR重建,其基本原理圖如圖2所示。

Figure 2 Principle of arbitrary upsampling scale圖2 任意尺度上采樣原理
目前在SISR重建領域,根據網絡模型結構組成不同,基于深度學習的網絡模型可分為以下3種:基于CNN的網絡模型、基于CNN-RNN(Convolutional Neural Network-Recurrent Neural Network)的網絡模型和基于生成對抗網絡GAN(Generative Adversarial Networks)的網絡模型[24]。其中基于CNN的網絡模型是該領域應用最廣的模型。
基于CNN的SR網絡模型不同于一般任務的深度學習網絡模型,由于要實現圖像的尺度放大,SR網絡模型一般不使用池化層?;贑NN的網絡模型也可細分為直接連接模型、殘差連接模型、密集連接模型和注意力模型等模型結構。
SRCNN網絡是典型的直接連接結構,也是第1個用于SISR重建的CNN網絡結構,它包含了一個3層的淺層CNN,通過訓練一組LR和對應的HR圖像數據,尋找一個最優的模型F,將該模型應用于未訓練的測試數據X,精確預測X對應的SR圖像。SRCNN網絡的基本模塊包括特征提取、非線性映射和圖像重建,如圖3所示,其中特征提取采用9×9的卷積核,SRCNN通過1×1的卷積核完成非線性映射,最后經過5×5的卷積核完成圖像重建過程。通過使用大的卷積核使得淺層網絡也能獲得較大的感受野,因而僅僅只用3層卷積網絡就可以實現較好的SR重建效果。

Figure 3 Model of SRCNN network圖3 SRCNN網絡模型
FSRCNN[13]網絡在SRCNN的基礎上針對重建方法進行了改進,它主要包括5個模塊,分別是特征提取、收縮、映射、展開和反卷積。由于輸入是原始LR圖像,在重建層通過反卷積對輸入圖像進行尺度放大,因而相對于原始SRCNN網絡來說,該網絡降低了計算量,加快了模型訓練,同時通過使用更小的卷積核和更深的網絡結構提升了重建圖像質量,ESPCN網絡主要也是針對SRCNN的重建層進行了改進,網絡輸入為LR圖像,在重建層采用亞像素卷積層使得網絡訓練速度有了成倍的提高,適用于實時的視頻SR。
以上3個模型結構都是典型的直接連接的網絡模型,SRCNN網絡最主要的優點就是網絡結構非常簡單,使得模型實現以及調試非常容易,因而該網絡結構非常適用于深度SR重建領域的初學者掌握基本方法。但是,SRCNN網絡模型的缺點也非常致命,大的卷積核的使用和網絡輸入是插值放大后的圖像使得淺層的網絡就需要大量的參數計算,導致該網絡在增加深度和寬度時反而引起SR重建效果的下降。相對于SRCNN,FSRCNN和ESPCN減少了計算參數,同時也在一定程度上加深了網絡深度,使得重建效果和圖像重建質量有了較大提高,特別是ESPCN,簡單的結構組成和極高的重建速度使其特別適用于高速且重建精度要求不是很高的實時系統。直接連接的結構面臨的最大問題就是隨著網絡深度的加深,參數逐漸增加,網絡訓練的難度越來越大,導致網絡難以收斂,需要更有效的訓練方法,因而直接連接網絡模型目前的發展已經出現瓶頸。
殘差網絡建模是目前應用最廣泛的技術,在現有的深度模型中幾乎都有應用。殘差連接的成功應用有效提高了ResNet[25]網絡的深度,因而在圖像SR重建領域也引起了極大關注。由于原始LR圖像和輸出的HR圖像在很大程度上是相似的,也就是說LR圖像攜帶的低頻信息與HR圖像的低頻信息基本一致。殘差連接的應用使得原始的稠密矩陣學習轉化為稀疏矩陣學習,因而使得計算量大幅度降低。Kim等人[7]于2016年提出了第1個基于殘差連接的網絡模型VDSR,如圖4所示。該網絡模型通過在輸入和輸出之間引入殘差連接,使模型對HR圖和LR圖的殘差進行建模,加上梯度剪裁的應用,有效解決了網絡加深時無法訓練的問題,將網絡深度提高到20層,同時VDSR通過對不同尺度大小圖像進行混合訓練,使網絡可以實現單一模型的多尺度SR重建。RED30[26]利用卷積和反卷積構造編碼器與解碼器結構,卷積層充當特征提取器,它保留圖像中對象的主要組件,反卷積層用于恢復圖像內容的細節,通過直接相連對應的卷積和反卷積構建殘差結構,使網絡深度有效提高到30層。

Figure 4 Structural contrast diagram of VDSR、EDSR、DRRN圖4 VDSR、EDSR、DRRN網絡結構對比圖
EDSR[12]和DRRN[14]通過全局殘差降低網絡訓練的難度,通過局部殘差學習更加精細的圖像細節。有所不同的是,EDSR僅僅是將2個卷積核構建的模塊進行簡單的堆疊,如圖4b所示;而在DRRN網絡中,不僅通過多條殘差連接構建了局部信息共享,同時在內嵌殘差單元時引入遞歸循環,如圖4c所示,通過遞歸循環的構建從而在加深網絡的同時不帶來更多計算量,使得網絡模型在提高重建圖像質量的同時,加快了收斂速度。圖4所示為VDSR、EDSR和DRRN的結構對比圖。
Lapsrn首次使用融合的方法實現SISR重建。引入融合機制可以對不同頻段的像素信息采用不同的SR重建方法,進一步均衡圖像重建質量。Lapsrn網絡將原始LR圖像分解為高頻細節部分和低頻內容部分,對高低頻采用不同的處理方法后將圖像融合,得到最終的SR重建圖像。網絡模型中設置2個支路,分別是特征提取支路和圖像重建支路,特征提取支路實現高頻特征提取和尺度放大,重建支路將低頻尺度放大后與高頻特征融合獲得重建圖像。Lapsrn網絡通過對2倍尺度SR模塊遞歸實現高倍尺度的重建,提升了網絡訓練速度。
IDN在VDSR的基礎上,引入多個信息蒸餾單元(DBblocks)作為網絡的基本結構,其中,信息蒸餾單元包括一個增強單元和一個壓縮單元。增強單元結構如圖5a所示,包括2個3層的淺層CNN,通過獲取長短路徑的特征圖從而提升網絡的表達能力,壓縮單元通過1×1的卷積核壓縮增強單元提取的冗余特征。

Figure 5 Enhance unit of IDN network and channel attention mechanism of RCAN network圖5 IDN網絡結構增強單元 和RCAN網絡結構的通道注意力機制
殘差連接的優點是使網絡在前向傳播時,輸入信號可以從任意低層直接傳播到高層。由于包含了天然的恒等映射,一定程度上可以解決網絡退化問題[27]。在反向傳播時,誤差信號不經過任何中間權重矩陣變換,直接傳播到低層,該方法一定程度上緩解了梯度彌散問題,因而殘差連接使得原有的復雜矩陣的學習轉變為稀疏矩陣的學習,極大地降低了網絡學習難度。但是,VDSR網絡為了使該網絡能夠以訓練單一的模型實現多尺度的SR重建,因而采用插值放大的圖像作為輸入,這樣的方法使得網絡計算量大大增加,網絡深度受到限制;同時只引入單跳躍,使網絡信息流動提升不夠明顯,導致網絡收斂難度較大,網絡模型通過引入梯度剪裁的辦法使網絡能較好收斂,之后的EDSR等網絡就是針對這些問題進行了改進得到的。殘差連接由于結構較為簡單,SR重建質量也較好,因而能應用在大多數的SR重建場景中。
密集連接建模是受殘差連接的啟發,在保證網絡中層與層之間最大程度的信息傳輸的前提下,直接將所有層連接起來,使網絡中每一層輸入為之前卷積層輸出的總和,極大地增強了信息流動的能力,有效抑制了梯度爆炸和消失的問題。SRDesnet[28]將密集連接網絡結構引入圖像SR重建領域,將8個完全一致的稠密塊進行堆疊,每個稠密塊為密集連接的8個卷積層,如圖5b所示,每個稠密塊獲取的特征進行融合重建SR圖像。密集連接的成功應用使得圖像SR重建質量有了明顯提升。RDN[29]是在SRDesnet稠密塊的基礎上改進直接堆疊連接的稠密塊,通過在密集結構首尾引入殘差連接和1×1卷積進行特征降維,構建RDN基本單元RDB,同時RDN網絡充分利用每個RDB學習的分層特征,分層特征的充分利用使該網絡模型具有更強的特征表達能力。Meta-SR網絡模型是在RDN網絡的基礎上,針對上采樣方式進行改進,實現了任意尺度上采樣。
D-DBPN[20]是在密集連接的基礎上,通過構建多個迭代的上下投影單元實現淺層特征到深層特征的映射,同時通過密集連接使該迭代單元的輸入為淺層網絡和投影網絡塊的輸出特征堆疊結果,這樣一來,淺層的信息通過直接的恒等映射能迅速傳遞到深層網絡結構中,有助于緩解梯度問題。其基本結構如圖6所示,圖中[L1,…,Lt-1]表示對直接傳遞的特征進行拼接。在投影單元內構建了交替連接的上下采樣和殘差連接,同時反饋網絡將HR圖像的預測過程分解為多個步驟,使網絡具有迭代自糾錯的能力。

Figure 6 Up-down sampling projection unit of D-DBPN network圖6 D-DBPN網絡的上下采樣投影單元
前面提到的網絡模型在空間域和通道域對特征映射進行等價處理,但在實際視覺環境中一幅圖像中存在不同重要性的區域和通道[30],等價處理將造成極大的計算資源浪費。RCAN網絡構建了通道注意力結構,通過學習不同通道的重要性得到一個權重值,這相當于對信道間特征的相互關系進行建模,自適應調整每個信道特征,從而在有效強化有用特征通道的同時抑制無用特征通道,使計算資源得到更充分的利用。通道注意力機制如圖7所示,其基本原理相當于對不同通道特征進行重新加權分布。圖7中,HGP運算提取通道描述符,WD和WO為2個全連接網絡層的參數,f為非線性變換。同時,RCAN通過構建局部殘差和全局殘差,使其成為目前圖像SR重建領域內深度最深的網絡(可達1 000層),從而在現有的硬件條件下,RCAN在峰值信噪比PSNR指標上獲得了最佳結果。

Figure 7 Channel attention mechanism of RCAN network圖7 RCAN網絡的通道注意力機制
傳統的CNN網絡采用的是單路徑的前饋網絡,隨著網絡結構的加深會引入更多的參數,容易造成網絡規模過大,對硬件設備要求高,同時網絡訓練時易出現過擬合的問題。遞歸神經網絡就是充分利用參數共享機制,使其在不增加參數的情況下加深網絡的深度,降低網絡的復雜度,加快訓練速度。
DRCN[13]是第1個CNN-RNN結構的深度網絡,它通過循環使用同一個卷積層16次使網絡深度擴展到20層,因而相對于SRCNN網絡來說,DRCN卷積核的感受野也由原來的13×13擴展到41×41,從而網絡能夠學習到輸入圖像的更多細節特征,有效提升了圖像重建質量。參數共享機制增加了網絡深度但并未帶來更多的參數,因而能保持較快的訓練速度。但是,遞歸網絡的應用仍然無法避免較高的計算成本,同時會帶來固有的梯度消失和爆炸的問題,網絡構建的多重監督一定程度上減緩了梯度爆炸和消失問題,但該問題仍然是影響基于CNN-RNN的網絡模型重建的重要原因。由于傳統前向卷積網絡淺層卷積層特征對深層卷積層狀態影響較小,因而MemNet網絡[31]在DRCN的基礎上,通過添加門控單元構建記憶塊結構。該門控機制可以建立長期記憶,在每個記憶塊中,門控單元自適應地控制不同的卷積層在最終輸出中所占的權重,控制保留哪些門控單元,存儲哪些信息,因而可以自適應保留有用特征,其基本結構如圖8a所示。
SRFBN[21]以迭代反饋結構為基礎,構建遞歸神經網絡循環塊。SRFBN構建了反饋模塊并對反饋狀態進行遞歸傳遞,使得遞歸模塊輸入為LR特征及上一次反饋模塊的隱含層的輸出特征,從而充分利用原始LR圖像引導圖像重建過程,獲得更好的SR重建圖像。如圖8b所示為SRFBN網絡基本單元。3.1節中提到的DRRN網絡模型也利用循環網絡實現參數共享。

Figure 8 Elementary unit of MemNet network and SRFBN network圖8 MemNet和SRFBN網絡結構的基本單元
生成對抗網絡GAN(Generative Adversarial Network)[25]是一種生成模型,SISR的任務目標也是生成HR圖像,因而GAN非常適宜于解決SISR問題。引入對抗訓練能夠使網絡生成更加精細的紋理細節。生成器和鑒別器的協同訓練,使網絡不再拘泥于在像素域判斷生成圖像與實際高分辨率圖像的相似程度,同時更加注重在像素空間中的分布相似程度。Ledig等人[8]提出了第1個基于GAN的網絡SRGAN,其中生成器采用多個殘差結構完成特征映射,與3.1節中提到的基于殘差結構的CNN網絡非常相似。SRGAN網絡生成器使用亞像素卷積實現上采樣,鑒別器通過二分類網絡結構對生成圖像和HR圖像進行判別區分。生成器使生成的圖像盡可能混淆鑒別器的鑒別結果,鑒別器要盡可能地區分圖像真假,通過雙方博弈,生成對抗網絡結構,克服了3.1與3.2節中所提網絡模型重建圖像感知質量差的缺點,生成的圖像更加自然,感知更好。
ESRGAN[32]在SRGAN的基礎上進行網絡結構改進。在生成網絡中,ESRGAN在構建基礎網絡結構中移除SRGAN網絡中的BN塊,以降低重建圖像中產生的偽影,將網絡殘差塊的順序連接轉化為密集連接,以充分利用各分層提取的特征,使生成網絡能夠更好地重建圖像。在判別網絡中ESRGAN將標準判別器更換為相對平均判別器[33],使網絡可以學習更尖銳的邊緣和更細節的紋理。

Figure 9 Transformation principle of SR-WDST圖9 SR-WDST圖像變換原理
SR-WDST[34]充分利用基于感知損失和像素損失的網絡的優點,使用小波變換[35]提取基于像素損失模型和感知損失模型的低頻部分和高頻細節;通過風格變換轉換方式[36]將基于感知生成的高頻細節融合到基于像素的細節中,從而使高頻細節部分具有基于感知和基于像素的生成模型的雙重特點;對低頻細節部分通過VDSR進行再重建,以恢復更多像素細節部分;最后經過小波逆變換[37]融合獲得重建圖像,提高了重建圖像感知和失真的均衡[38]。其圖像變換過程如圖9所示。圖9中,LLP、LHP、HLP和HHP為基于GAN網絡生成圖像經小波分解得到的小波系數,其中LLP為低頻小波系數,LHP、HLP和HHP為高頻小波系數,LL0、LH0、HL0和HH0為基于CNN網絡生成圖像的分解系數,WDST指圖像風格變換,LSE為VDSR圖像,ISWT指小波逆變換。
基于GAN的網絡相對基于CNN的SR網絡獲得了更加接近真實感知的重建圖像,因此基于GAN的網絡更加適用于一些對觀感要求較高的任務。但是,由于更加注重像素分布特性,因而圖像整體像素的微調對圖像的真實感知不會有大的影響,而對于部分需要高精度的像素信息的任務(如遙感圖像超分辨用于軍事目標識別打擊),基于GAN的網絡模型明顯不適用。同時,基于GAN的網絡模型由于要協調生成器和鑒別器進行訓練,網絡計算復雜,學習速率慢,同時也對硬件具有較高的要求,因而訓練難度非常大。
上面提到的3種不同的網絡具有不同的特性,因而具有不同的性能和應用場景,其對比如表2所示。
SISR重建網絡的目的是找到一個最優的網絡映射函數F,對于一組LR圖像X和其對應的HR圖像Y,精確預測X對應的SR圖像F(X),使得F(X)通過最大似然估計越接近于Y,重建圖像質量越好。目前SISR領域常用的損失函數有基于像素的損失函數和基于感知的損失函數。
均方誤差MSE(Mean-Square Error)是最常用的損失函數,在GAN被應用于SR重建領域之前,大量的SR重建網絡中都使用MSE作為損失函數進行訓練,MSE只是最大似然估計的一種特殊情況,其基本表達式如式(1)所示:

Table 2 Advantages and disadvantages comparison of different network and applicable scenarios表2 不同網絡的優缺點和適用場景對比
(1)
其中,L(Θ)表示網絡需要優化的損失函數,N表示每個訓練批次中圖像的數目,Θ表示深度神經網絡的參數,F(Xi,Θ)為經網絡實現超分辨后的圖像,Yi表示對應的HR圖像。最小均方誤差的應用有效解決了SR重建圖像與目標HR圖像之間差值衡量問題,使得基于深度學習的圖像SR模型相對傳統基于學習的SR重建模型有了較大的提高。與MSE相同,平均絕對值誤差MAE(Mean-Absolute Error)也是最大似然估計的一種特殊情況。理論上基于L1的損失函數相對基于L2的損失函數具有更小的計算量,在EDSR網絡模型中引入MAE損失函數,網絡重建圖像的質量也有一定的提高。平均絕對值誤差(MAE)的基本表達式如式(2)所示:
(2)
其基本符號意義與式(1)中一致。一般來說,對回歸模型進行預測時,需要使模型在訓練數據上損失函數值最小,即經驗風險函數最小化。但是,如果只考慮經驗風險,容易造成過擬合,因此還需要考慮模型的泛化能力。常用方法便是在目標函數中引入正則項,文獻[17]在L1的基礎上提出了一個魯棒的損失函數,其表達式如式(3)所示:
(3)

不論是基于LMSE的損失函數還是基于LMAE的損失函數,本質上都是反映對應像素之間的誤差關系,忽略了像素與鄰域像素間存在的內在聯系,因而重建圖像質量存在邊緣模糊和振鈴現象。基于像素的損失函數對圖像的微小變化非常敏感,例如,圖像一個像素的移動造成的視覺影響非常小,人眼感知沒有差別,但是會造成評價值PSNR的顯著降低,因而其非常適合用于高精度要求的任務。
基于像素的損失函數是一種低水平的損失表示方式,導致圖像重建質量與人眼視覺感知差距比較大?;诟兄膿p失函數可以恢復更多的高頻信息,使重建圖像感觀質量更佳。目前SR網絡感知損失函數通常是內容損失函數、對抗損失函數和上下文損失函數[39]的組合形式。
內容損失函數包括特征重建損失函數和風格重建損失函數。特征重建損失函數在最小均方誤差或最小絕對值誤差的基礎上,通過預訓練的網絡結構提取SR圖像和HR圖像在不同網絡層所得的特征向量,最小化提取的特征向量之間的MSE或者MAE。Bruna等人[40]最早提出特征重建損失,通過預訓練的VGG19網絡分別提取重建SR圖像和HR圖像在特征空間中對應的特征映射并進行對比。事實證明,通過特征重建損失的應用使重建圖像在視覺上獲得了相對基于像素損失更令人信服的結果?;谔卣髦亟ǖ膿p失函數基本表達式如式(4)所示:

(4)

為了使重建SR圖像與HR圖像的顏色、紋理等保持一致,Gatys等人[41]提出了風格重建損失函數,該損失函數是在特征重建損失函數的基礎上,定義了一個Gram矩陣,如式(5)所示:

(5)

(6)
SRGAN網絡構建的損失函數中除了基礎的內容損失,還包括對抗損失。圖像其實是一種高維概率分布的樣本,基于GAN的網絡模型就是為使重建圖像具有與真實HR圖像盡可能一致的概率分布。在面對復雜的自然圖像分布時,構建包含對抗損失的目標函數進行對抗訓練能使重建圖像更加自然。對抗損失函數的基本形式如式(7)所示:
(7)
其中,DθD(GθG(X))表示生成圖像GθG(X)是真實的HR圖像的可能性,N表示一個批次內的圖像個數,θD和θG分別表示鑒別網絡和生成網絡的參數。SRGAN網絡最終的優化目標是一個最小最大化的問題,如式(8)所示:
EILR~PG(ILR)[1-logDθD(GθG(ILR))]
(8)
其中,Ptrain(IHR)表示標簽HR圖像分布,即抽樣的每個Ptrain(IHR)服從Ptrain(IHR)分布。PG(ILR)表示LR圖像分布,對抗訓練使得生成的SR圖像與真實的HR圖像高度相似,從而判別網絡難以分辨,最終獲得可以以假亂真的SR圖像。ESRGAN在SRGAN的基礎上,將判別網絡的判別器改為相對平均判別器, SRGAN的判別目標為輸入圖像是否是真,ESRGAN的判別目標為預測真實HR圖像比生成SR圖像更真實的概率。判別網絡如式(9)和式(10)所示:
D(Xr)=σ(C(real))→1,
D(Xf)=σ(C(fake))→0
(9)
DRa(Xr,Xf)=σ(C(real)-Ε[C(fake)])→1,
DRa(Xf,Xr)=σ(C(fake)-Ε[C(real)])→0
(10)
式(9)為SRGAN的判別網絡原理,式(10)為ESRGAN相對判別器原理。real表示真實HR圖像,fake表示生成SR圖像,C(real)表示鑒別網絡判斷結果,E[C(fake)]表示一個批次所有生成SR圖像經過鑒別網絡鑒別的結果的均值。其中σ表示Sigmoid函數,通過改進判別器幫助網絡學習更銳利的邊緣和細致的紋理特征。
內容損失函數配合對抗損失函數是GAN訓練的基本方法,GAN網絡重建的結果相對真實,更符合人眼感知。但是,GAN也存在缺陷,如非常難收斂,訓練難度大,重建結果影響因素多。為降低訓練難度并保證感知質量,Roey等人[39]提出了上下文損失函數,通過最小化真實圖像與重建圖像在特征空間中的統計分布來提升圖像重建質量。上下文損失函數通過最小化KL散度[42]實現特征統計分布的一致性。損失函數表達如式(11)所示:

(11)
(12)

本節主要對本文所提算法進行比較分析。通過在測試數據集上對PSNR、SSIM和NRQM[43]指標進行對比,比較各算法的有效性。常用的SR任務訓練數據集為DIV2K[44],它是NTIRE超分辨率比賽專用的訓練數據集,包括800幅訓練數據圖像、100幅驗證數據圖像和100幅測試數據圖像,均為2K的HR圖像,包含了自然界中豐富的圖像紋理細節,同時也包括對應不同尺度下采樣的LR圖像,非常適宜圖像SR任務。在實驗中,需要將數據集中的圖像進行對應裁剪,以適應不同SR網絡訓練。測試數據集為Set5、Set14和BSD100等基準數據集,它們分別包括5幅、14幅和100幅圖像對。為公平比較各算法的重建效果,本文選取了Set5、Set14和BSD100數據集作為測試數據集,對4倍尺度SR結果進行比較,基于像素損失函數重建方法的各網絡結果比較如表3所示。
表3展示了包括Bicubic和17個本文提到的基于深度學習的超分辨網絡。Bicubic指的是通過雙線性插值直接對圖像尺度進行放大,通過插值相鄰像素,學習隱含在其中的亞像素的值,從而獲得尺度放大后的圖像。通過對這18個網絡分析可以看到,基于深度學習的圖像SR網絡相對傳統SR模型在重建質量上取得了質的飛躍,同時近年來圖像SR重建領域網絡結構也呈現不斷加深的趨勢。殘差網絡結構構建使VDSR克服了SRCNN網絡無法通過加深網絡提高性能的問題,DRCN和DRRN通過構建遞歸循環,有效實現了參數共享機制,使得網絡加深的同時不引入過多的參數,提高重建圖像質量的同時保證了較快的訓練速度。ESPCN中的亞像素卷積層,有效解決了上采樣的速度與質量均衡的問題,使得實時視頻上采樣問題得到了解決。SRDesnet充分利用分層網絡提取的特征映射,保證了信息流的有效傳遞,為圖像重建提供了更多的參考信息。通道注意力機制的應用進一步提升了網絡自適應通道處理能力,通過構建殘差結構和通道注意力機制,RCAN結構深度可以達到1 000層,同時也獲得了最好的圖像重建效果。表3中加粗的數據表示現有模型中最佳的SR重建效果。Meta-SR[22]實現了任意尺度SR,使得圖像SR應用更加廣泛。

Table 3 Comparison of SISR models based on pixel loss function表3 基于像素損失函數的SISR深度模型的比較
基于像素損失函數始終無法避免的問題是重建圖像丟失過多的高頻信息,邊緣平滑,與人眼視覺感知仍存在較大差距。感知損失函數的應用一定程度上提高了圖像人眼視覺感知的質量。表4展示了基于感知損失函數與基于像素損失函數網絡在Set14數據集上4倍尺度SR結果的比較(加粗數據表示每項評測指標最佳值)。其中L2表示MSE函數,L1表示MAE損失函數,LC表示感知損失中的內容損失函數,LGAN表示對抗損失函數,LCX表示上下文損失函數。為了更好地比較分析,對基于像素損失函數和基于感知損失函數的重建圖像進行可視化結果比較,如圖10所示。

Table 4 Comparison of SISR models with different loss functions表4 不同類型損失函數SISR深度模型的比較

Figure 10 Visualized reconstruction results of different networks on Set14圖10 不同重建網絡在Set14數據集上重建結果可視化
通過表4可以看到,在PSNR評價指標上,相對EDSR等基于像素的損失函數網絡,基于感知損失函數網絡在PSNR值有所降低。但是,通過圖10對比可以發現,基于感知損失函數的網絡重建圖像邊緣更加清晰、紋理更加豐富,也更符合人眼感知,引入上下文損失和對抗損失的CX網絡模型在NRQM指標上取得了最好的效果,SR-WDST以基于感知和基于像素損失函數的網絡為基礎,在視覺感知和像素精確度之間取得了較好的均衡,圖像重建效果更接近感知失真界。
SISR技術目前已經在安防、醫療等領域內得到重要的應用,是計算機視覺領域的一個重點研究方向。盡管目前深度學習技術在SISR重建任務中取得較大成功,但仍然暴露出許多亟待解決的問題??偟膩碚f,作者認為未來深度神經網絡在SISR重建任務中的發展趨勢體現在以下幾個方面:
(1)構建輕量有效和高精度2類重建網絡。網絡模型可分為2個主要發展方向,分別是輕量有效的網絡和高精度的重建。不同的應用場景對SR重建效果有著不同的要求,對于對重建速度要求高的應用場景,諸如娛樂視頻網站、生活照片修復等場景,輕量有效的網絡滿足該場景對重建速度的要求,同時注意力機制、殘差連接、特征融合的應用也可以使輕量有效的網絡具有更好的特征表達能力,實現較好的重建效果。而對于一些軍事應用場景,諸如敵情偵查、安全搜救等領域,相對于重建速度,重建的精度要求更加嚴格,因而作者認為輕量有效的網絡和高精度的重建網絡都是SR模型發展的重要方向。
(2)設計更加科學合理的損失函數。隨著感知損失函數的提出,SISR重建任務中恢復了更多的高頻紋理細節,但同時帶來了PSNR評價指標的下降。因此,低失真和高感知是一個相對矛盾的問題。未來SISR重建任務要求結合人眼視覺感知系統,提出更加符合人眼感知的損失函數;自注意力機制目前在超分辨重建模型中展現了良好的性能,因而其技術也可以用于基于GAN的網絡[45,46],同時結合任務需要,在低失真和高感知之間取得均衡?,F有網絡ESRGAN和SR-WDST已經在此方面做出了探索。
(3)構建多任務的SR網絡?,F有的SR網絡通常為單任務的網絡框架,是以數據驅動的網絡。實際上,SR重建也可以有效提升圖像目標識別、語義分割的效果,因而構建包含SR重建任務的多任務網絡也是未來的一個趨勢。