基于學習的圖像超分辨率技術回顧與展望

2022-09-19 11:41:26李瑩華

西安郵電大學學報 2022年2期

李瑩華，劉悅，劉穎

(1.西安郵電大學圖像與信息處理研究所，陜西西安 710121;2.西安郵電大學電子信息現場勘驗應用技術公安部重點實驗室，陜西西安 710121;3. 西安郵電大學陜西省無線通信與信息處理技術國際合作研究中心，陜西西安 710121)

圖像超分辨率(Super-Resolution,SR)重建技術是通過硬件或軟件的方法提高原有圖像的分辨率，將一幅或多幅低分辨率圖像重構為高分辨率圖像的過程。硬件方法耗費成本較高、時間較長，通常采用能夠克服固有器件分辨率限制的軟件方法。從一幅低分辨率圖像獲取更多的細節信息較為困難，而利用超分辨率重建技術可以獲取更多的細節信息，因此SR技術在公共安全[1-5]、衛星成像[6-7]、醫學診斷[8-10]和航空航天[11]等領域應用廣泛。

低分辨率(Low Resolution,LR)圖像中的已知變量遠遠多于高分辨率(High Resolution,HR)圖像中的未知變量，因此SR是一個高度不適定問題，且其在重建約束下的解不是唯一的，通過正則化方法可解決這個不適定問題。傳統的圖像超分辨率重建技術主要分為基于插值的方法[12-14]、基于重建的方法[15-17]以及基于學習的方法[18-21]?；诓逯档姆椒ò徑逯捣ā㈦p線性插值法和雙三次插值法，其恢復的單圖像超分辨率(Single Image Super-Resolution,SISR)往往過于平滑，并且具有環狀和鋸齒狀的偽影?；谥亟ǖ姆椒ㄓ型辜队胺?、貝葉斯分析法、迭代反投影法[22]、最大后驗概率估計法和正規劃法等，其需要復雜的先驗知識約束解，但放大因子較大時，重建耗時長且生成的圖像模糊?；跈C器學習的方法有鄰域嵌入法[23]、稀疏表示法[24]、錨定鄰域回歸法[25]和支持向量回歸方法[26]等，通過外部訓練庫學習低分與高分圖像之間的映射關系獲取LR-HR圖像塊的先驗信息?；谏疃葘W習的超分重建具有計算效率高、處理數據能力強的優勢，且其映射關系效率高于傳統的SISR方法。

對傳統超分辨率重建方法的優點及其局限性進行總結，通過回顧幾種經典的基于學習的超分辨率方法，分析對比不同超分辨率方法的特點以及在各種數據集上的實驗結果，并對圖像超分辨率重建技術未來的發展趨勢進行展望。

1 傳統的超分辨率方法

基于插值的方法通常有最近鄰插值法、雙線性插值法和雙三次插值法(Bicubic)等3類。最鄰近插值法的核心思想是找出距離輸出像素點最近的點，該點的像素值的灰度值就是輸出點的像素值的灰度值，即變換后像素灰度值等于離該點最近的輸入像素的灰度值。雙線性插值法的中心思想是通過中心像素點旁邊4個相鄰點的像素，分別在水平和垂直兩個方向上進行線性內插得到最終待插值點的像素值。雙線性插值算法僅僅考慮到4個直接臨近點的灰度的影響，考慮的影響因素太小。雙三次插值方法計算量較大，但效果相對較好，其需要合適的插值基函數擬合數據。常用插值基函數數學表達式[12]為

(1)

基于插值的方法通常提供過于平滑的重建圖像，部分細節失去，留下了振鈴效應即輸出圖像灰度劇烈變化處產生的震蕩，以及高頻信息丟失。

基于重建的方法要求圖像具有較好的先驗知識，不適用于放大倍數較大的圖像重建[27]，即其在邊緣保持和人為影響抑制方面有明顯的效果，但高頻細節無法有效重建。尤其是，LR圖像的放大倍數越大，SR性能往往越差。

基于機器學習的方法可分為分類算法和聚類算法等不同的種類[28-29]。分類算法中的鄰近算法(K-Nearest Neighbor,KNN)算法理論簡單，新數據可以直接加入數據集而不必進行重新訓練，對于樣本容量大的數據集，其計算量較大，樣本不均衡時，預測偏差較大?；诰垲惖姆椒▽⒂柧殬颖痉纸獬梢粋€個子集，對每一類圖像塊使用不同的匹配算法提高圖像超分辨率的性能。雖然算法速度很快，但是分解參數的數目若不合適可能返回較差的結果。

2 基于學習的超分辨率方法

基于學習的超分辨率方法可分為基于傳統機器學習和基于深度學習的方法。基于傳統機器學習的超分辨率方法包括鄰域嵌入法、錨定鄰域回歸法和稀疏表示法，稀疏表示法同時也是一種基于實例的方法[30-31]。基于深度學習的超分辨率方法有基于深度卷積神經網絡、基于深度遞歸網絡、基于殘差網絡、基于監督分類以及基于生成對抗網絡等方法?；谏疃葘W習的方法是目前研究的熱點，應用更加廣泛，且部分經典的基于深度學習的方法應用了稀疏表示法的內容。下面將詳細介紹基于稀疏表示的圖像超分辨率方法和基于深度學習的超分辨率方法。

2.1 基于稀疏表示的圖像超分辨率方法

假設x為高分辨率圖像X的圖像塊，則其低分辨率樣本或者提取特征y的稀疏表示[32-34]為

y?Lx=LDα

(2)

式中：L為一個投影矩陣；D為超完備字典；x=Dα表示對于未知稀疏系數α是欠定的。

單圖像SR問題要求給定低分辨率圖像，能夠恢復出同一場景的高分辨率圖像。為了解決這一不適定問題，基于稀疏表示的圖像超分辨率方法對兩個約束進行了建模：1)重建約束。要求恢復的圖片塊應與圖像觀測模型的輸入一致；2)稀疏先驗。假設高分辨率圖像塊可以在過完備字典中稀疏表示，且可以從低分辨率圖像中恢復其稀疏表示。

重建約束的表達式為

Y=VHX

(3)

式中：V為下采樣算子；H為模糊濾波器。觀察到的低分辨率圖像Y是由高分辨率圖像X經過模糊和下采樣得到。

稀疏先驗表達式為

x≈DHα

(4)

式中，DH為高分辨率圖像塊訓練得到的字典。高分辨率圖像X的圖像塊x可以表示為字典DH中的稀疏線性組合。

稀疏表示的局部模型為

(5)

式中：F為線性特征提取算子；DL為低分辨率圖像塊訓練得到的字典；ε為任意小常數。

全局重建的約束增強為

(6)

式中：X0為前一節的稀疏表示方法生成的高分辨率圖像；c為誤差系數。

基于稀疏表示的圖像超分辨率方法是根據式(4)先找到每個局部圖像塊的稀疏表示，然后使用此局部稀疏表示的結果，通過式(3)進一步正則化和細化整個圖像，并由式(5)恢復丟失的高頻信號，以獲得局部細節。最后，利用式(6)移除可能的偽影，使圖像更加一致和自然。

盡管超分問題是不適定的，使得精確恢復不可能實現，但是稀疏表示在正則化逆問題方面證明了其有效性和魯棒性。基于稀疏表示的圖像超分辨率方法通過對高分辨率超完備字典和低分辨率超完備字典進行聯合訓練以保證其稀疏表示系數的一致性，使得局部和全局的相鄰圖像塊之間的兼容性均得到了加強。該方法還可避免過擬合或者欠擬合，并利用梯度下降法求解提高計算效率，但其局限性在于直接對大型采樣圖像塊數據庫進行稀疏編碼太耗時。

2.2 基于深度卷積神經網絡的超分辨率方法

基于深度卷積神經網絡的超分辨率方法[35-38]重建的超分辨率圖像效果好于以往傳統的超分辨率方法，并且通過改進卷積神經網絡可以進一步提升重建質量。

2.2.1 基于深度卷積網絡的超分辨率方法

基于深度卷積網絡的超分辨率[39](Super-Resolution Convolutional Neural Network,SRCNN)方法通過學習低/高分辨率圖片的端到端映射，并將映射表示為一個深度卷積神經網絡，結合空間鄰域內的預測，生成最終的高分辨率圖像。SRCNN結構如圖1所示，給定低分辨率圖像Y，第一卷積層提取一組特征圖，第二層將提取的特征非線性映射到高分辨率圖像塊表示，最后一層結合空間鄰域內的預測，產生最終的高分辨率圖像。

圖1 SRCNN結構

映射的學習步驟具體如下。

步驟1圖像塊提取和表示。從低分辨率圖像Y中提取重疊圖像塊，并將每個圖像塊表示為高維向量。高維向量包括一組特征圖，其數量等于向量的維數。

步驟2非線性映射。將每個高維向量非線性映射到另一個高維向量上，每個映射向量在概念上都是高分辨率圖像塊的表示，這些矢量構成了另一組特征圖。

步驟3重建。聚集上述高分辨率逐片表示，以生成最終的高分辨率圖像，該圖像預計與原始圖片X相似。

基于SRCNN方法與基于稀疏編碼的方法(Sparse Coding-based method,SC)、錨定鄰域回歸法(Anchored Neighbourhood Regression,ANR)、調整的錨定鄰域回歸法(Adjusted Anchored Neighbourhood Regression,A+)以及核嶺回歸(Kernel Ridge Regression,KRR)相比，可以在保持較快速度的前提下得到最高的峰值信噪比[31](Peak Signal to Noise Ratio,PSNR)。

SRCNN是一種端到端的過程，并且除了優化之外沒有預處理/后處理，實現圖像重建的速度更快，且在訓練過程中所有參數可以一起進行優化，收斂速度更快，同時具有良好的質量，易于訪問大量的數據。此外，SRCNN結構具有簡單性和魯棒性的優點，因此可以得到很清晰的邊緣。通過增大卷積核的大小、加大網絡深度和增加訓練集的數量，可以進一步提升網絡性能。但是，SRCNN很難設置適當的學習速率保證收斂，即使收斂，網絡也可能陷入一個糟糕的局部最小值。若不當地增加深度，還會導致圖像分類的精度飽和或退化。

2.2.2 基于超深度卷積網絡的超分辨率方法

基于超深度卷積網絡(Very Deep Convolutional Networks,VDSR)的超分辨率方法[40]使用超深的網絡提高重建質量，并通過殘差學習[41-42]以及極高的學習率優化深度網絡，解決更深的網絡難以收斂的問題，最后通過梯度裁剪保證訓練的穩定性。

VDSR網絡將卷積層(Convolution,Conv)與非線性層(Rectified Linear Unit,ReLU)組成的一對層重復級聯，每個卷積層使用64個濾波器，并在卷積之前填充零，以此保證所有特征圖，包括輸出圖像的大小相同。該網絡將低分辨率插值(Interpolated Low Resolution,ILR)圖像作為輸入，通過各個層預測圖像的細節并添加至ILR圖像，最終預測出高分辨率的輸出圖像。除第一層和最后一層外，其他層都是相同類型，即64個大小為3×3×64的濾波器，并在64個通道的3×3空間區域上操作。第一層對輸入圖像進行操作，最后一層用于圖像重建，由一個大小為3×3×64的濾波器組成。VDSR的網絡結構如圖2所示，圖中R為層數。

圖2 VDSR網絡結構

較深的網絡比較淺的網絡具有更好的性能[40]?；赩DSR的超分辨率方法在單個網絡中的表現與針對每個規模訓練的多個網絡的方法同樣好，且可以有效減少多網絡方法的模型容量，并能正確預測出接近圖像邊界的像素，收斂速度也較高。

2.2.3 基于稀疏先驗的超分辨率方法

基于稀疏先驗的超分辨率方法結合稀疏編碼和深度網絡的優點，提出了一種新的圖像SR模型，即基于稀疏編碼的網絡(Sparse Coding based Network,SCN)模型。該模型除了產生良好的SR結果外，其包含稀疏編碼形式的領域知識還可以提高訓練速度和模型緊湊性。

基于稀疏編碼的網絡模型包括圖像塊提取層Q、用于稀疏編碼的學習迭代收縮閾值算法[43-44](Learned Iterative Shrinkage and Thresholding Algorithm,LISTA) 子網絡、HR圖像塊恢復層E和圖像塊組合層G，如圖3(a)所示，其中虛線框表示k個遞歸階段，W與S表示線性權重。圖3(b)為一個具有可調整閾值的神經元，分解為兩個線性縮放層和一個單位閾值神經元。將圖3(a)和圖3(b)進行級聯，即將單位閾值神經元和相鄰的線性層合并在一起，得到重新組織的SCN，如圖3(c)所示。在該網絡中，輸入圖像Iy首先通過卷積層，由該層提取每個左后補片的特征，然后每個LR圖像塊y被饋送到具有有限數量k個遞歸級的LISTA網絡中和具有激活函數hT的非線性神經元層，以獲得其稀疏碼α，T為收縮閾值。稀疏碼α與下一個線性層中的HR字典Ex相乘，重建HR圖像塊x。在最后一層G中，將恢復的圖像塊都放回HR圖像Ix中的相應位置，并使用濾波器為來自不同圖像塊的重疊恢復分配適當的權重，將其加權平均值作為Ix中的最終預測。

圖3 SCN模型、神經元及重新組織的SCN模型

(7)

式中：i為數據索引；j為ISCN索引，ISCN為SCN模型使用參數集Θ預測的HR圖像；I↑s為以尺度因子s對I進行雙三次插值圖像。該多尺度目標函數充分利用了所有尺度的監督信息，所有層參數{Θj}都可以通過反向傳播從端到端進行優化。

圖4 多尺度目標SCN的訓練級聯

SCN將傳統稀疏編碼[45-46]模型所代表的領域知識與深度學習的關鍵成分相結合，設計了一個基于稀疏編碼的網絡，使得訓練更加高效和有效，同時減少了模型的規模。該級聯網絡擁有更好的靈活性縮放因子和更強的魯棒性。CSCN模型結構在提高性能時對模型容量和訓練數據的依賴更少，且更利于大的比例因子[47]。

2.3 基于深度遞歸網絡的超分辨率方法

深度遞歸網絡(Deeply-Recursive Convolutional Network,DRCN)超分辨率方法[48]進一步增加了遞歸的深度，即16個遞歸，并證明了深的遞歸可以顯著提高超分辨率的性能。

DRCN模型由嵌入、推理和重建網絡等3個子網組成。嵌入網絡將給定的圖像表示為一組特征映射，推理網絡在其隱藏層C內部表示特征映射，重建網絡將特征映射(多通道)轉換回原始圖像空間(1或3通道)。遞歸最終應用的特征為高分辨率圖像。當卷積濾波器大于1×1時，接收域會隨著每次遞歸而擴大。DRCN結構如圖5所示。

圖5 DRCN網絡模型

推理網絡是解決超分辨率問題的主要組成部分，分析一個大的圖像區域是由單一遞歸層完成的，具體結構如圖6所示。圖中左邊為遞歸層，右邊是其展開結構，相同的濾波器W被遞歸地應用于特征映射。每個子網都有一個隱藏層，只有推理網絡是遞歸的，因此，在子網中使用3×3×p×p的濾波器，p為神經元。對于嵌入網絡，因為圖像梯度比原始強度的超分辨率信息更豐富，因此使用3×3濾波器。對于推理網，3×3卷積意味著隱藏的狀態只傳遞給相鄰的像素，而重建網絡將直接鄰域也考慮在內。

圖6 推理網絡

雖然深的遞歸可以提高超分性能，但是當增加網絡的深度且不使用池化層時，就會增加更多的參數，容易導致過擬合或模型難以存儲和重現等問題，且會產生消失和爆炸梯度兩個嚴重的問題，訓練深度遞歸網絡難度加大。但是，在網絡中擴展遞歸監督與跳過連接，可以減輕網絡訓練的難度并且可以進一步增加遞歸的深度。具有遞歸監督和跳過連接的模型監督所有遞歸，并且只要在遞歸過程中使用輸入圖像，就會將其直接送入重建網絡。該模型使用相同的重建網絡預測所有遞歸的HR圖像，通過跳過連接保存了在遞歸期間存儲輸入信號的網絡容量。在該模型中，重建網絡每一層都輸出1個預測，共輸出R個預測，并且在訓練期間同時監督所有預測，最終輸出使用所有R個中間預測計算。測試時，所有預測均取平均值，在訓練過程中自動學習最佳權重。具有遞歸監督和跳過連接的模型如圖7所示。

圖7 具有遞歸監督和跳過連接的模型

DRCN可以在有效利用更大上下文的同時，更充分地重用權重參數，使用遞歸監督和跳過連接緩解了沿反向傳播路徑消失/爆炸梯度的對抗效應。跳過連接節省了遞歸過程中存儲輸入信號的網絡容量，同時在目標預測時可以使用輸入圖像的精確副本。

2.4 增強深度殘差網絡的超分辨率方法

增強深度殘差網絡的超分辨率方法通過從傳統的殘差網絡構建塊[50](Residual,ResNet)中刪除不必要的模塊進行優化，進一步提高了圖像的性能。

不同殘差網絡[49]的構建塊如圖8所示，分別為原始殘差網絡塊、深度殘差網絡(Deep ResNet,SRResNet)塊與增強深度殘差網絡塊。增強深度殘差網絡塊移除了批量歸一化層，消除了網絡的范圍靈活性，節省了40%內存使用量，并且由于批處理歸一化層(Batch Normalization,BN)消耗的內存量較大，所以移除了批量歸一化層后，圖形處理器(Graphics Processing Unit,GPU)內存使用也充分減少。因此，該網絡塊可以在有限的計算資源下建立一個比傳統ResNet結構性能更好更大的模型。

圖8 不同殘差網絡的構建塊

增強的深度超分辨率網絡[51](Enhanced Deep Super-Resolution network，EDSR)，即單尺度模型，由增強深度殘差網絡塊構建。在單尺度模型中，設置殘差塊層數B=32，特征通道數F=256，比例因子為0.1對模型進行擴展，具體架構如圖9所示。

圖9 單尺度模型架構

多尺度深度超分辨率網絡(Multi-scale Deep Super-Resolution network,MDSR)，即多尺度模型，架構如圖10所示。

圖10 多尺度模型架構

該架構引入了特定尺度的處理模塊處理多尺度下的超分辨率。網絡前端的預處理模塊由兩個帶有5×5內核的殘塊組成，可以減少不同尺度輸入圖像的方差。在多尺度模型的最后，并行定位特定尺度上采樣模塊進行多尺度重構，上采樣模塊的架構與單比例模型類似。相比于單尺度模型，多尺度模型只有320萬參數，但其性能與單尺度模型相當。此外，多尺度模型在深度上是可擴展的，大約是單尺度模型的5倍，但由于殘差塊比特定尺度的部分更輕，所以只需要2.5倍的參數，并且可以減少模型大小和訓練時間。

EDSR實現了性能的進一步提升。MDSR不僅可以在一個模型中重建不同放大因子的高分辨率圖像，還可以減少模型大小和訓練時間。EDSR和MDSR的結構更簡單，模型更緊湊，重建的HR圖像中的紋理和邊緣細節更好[51]。

2.5 基于監督分類的超分辨率方法

使用字典訓練實現超分辨率的方法基本是基于HR與 LR系數不變性原理，但實際上，高分辨率和低分辨率圖像塊的系數并不嚴格相等，因此可以通過獨立訓練HR和LR字典提高重建質量，再加入監督分類[52-53]保證更好的結果。

基于監督分類和獨立字典訓練的超分辨率方法首先提取了圖像的方差、梯度特征以及梯度場的角度等3種幾何特征，并將其應用到基于決策樹的分類算法中。經過決策樹后，各種圖像塊被分為不同的類別，以此獲得相應的子集，然后使用基于稀疏表示的超完備字典設計算法[54](K-SVD)對其進行獨立訓練，以獲得相應的字典。最后，基于最小二乘法計算HR和LR訓練結果之間的映射矩陣，以確保良好和合理的重建結果。

分類決策樹通過方差τ、梯度特征γ和梯度場的角度θ等3種類型的幾何特征，將圖像塊分為平滑圖像塊、主導方向圖像塊和隨機圖像塊等3類。平滑圖像塊中的像素差異很小或沒有差異，因此方差τ小于其他兩個圖像塊，將其作為決策樹的第一個特征。設恒定閾值方差為τ*，若τ≤τ*，則為平滑圖像塊，否則為其他圖像塊。主導方向圖像塊和隨機圖像塊的顯著區別是圖像塊是否有特定的紋理方向，采用對梯度場分解的思想提取圖像塊內部的紋理方向進行判斷。在梯度場上執行奇異值分解，分解后獲得矩陣V與矩陣S，矩陣V的第一列v1和第二列v2分別表示優勢方向和次優勢方向，矩陣S中的奇異值σ1和σ2分別表示相應的能量值，由此得出梯度特征的表達式為

(8)

由式(8)可知，兩個奇異值之間的差值越大，梯度特征γ越大，該圖像塊屬于主導圖像塊的概率越大。否則，此圖像塊更有可能是隨機圖像塊。設恒定閾值特征為γ*，若γ≦γ*，為隨機圖像塊，否則為主導圖像塊。之后將梯度場旋轉90°，可以獲得圖像塊的主導方向。因此，利用水平方向和主方向之間的角度θ可以進一步分類主導圖像塊。分類決策樹具體分類方式如圖11所示。

圖11 分類決策樹分類方式

完成分類后，使用K-SVD方程[54]分別對獨立字典DL和DH進行訓練，公式為

(9)

(10)

式中：DL,k和AL,k分別表示第k訓練集訓練的LR字典和系數矩陣；DH,k與AH,k分別表示第k訓練集訓練的HR字典和系數矩陣；αL,k,i和αH,k,i分別表示低分辨率圖像塊xL,k,i和高分辨率圖像塊xH,k,i的系數，i=1,2,…,N；Ω表示稀疏約束，是一個整數常量。

訓練完成后學習多個映射函數，再進行重建與優化。通過監督分類和獨立字典訓練得到超分圖像的峰值信噪比與結構相似性(Structural Similarity,SSIM)值更大，即重建結果更好。

2.6 基于生成對抗網絡的超分辨率方法

基于生成對抗網絡的超分辨率(Super-Resolution using a Generative Adversarial Network，SRGAN)方法[55-58]提出了一種利用生成對抗網絡對低分辨率單一圖像進行超分辨率的網絡結構。對HR圖片進行下采樣得到LR圖片，將其作為輸入訓練生成器，使之生成對應的HR圖片。

訓練生成網絡是對網絡參數θG進行優化，優化公式為

(11)

式中：θG={W1:L;b1:L}表示L層深度網絡的權重和偏差；GθG為前饋神經網絡；通過優化SR獲得感知損失函數l，其是內容損失和對抗損失分量的加權和；IL,n和IH,n為訓練圖像，n=1,…,N。

生成器網絡的主要組成部分是相同布局的殘差塊。該殘差塊結構采用區塊布局，具有2個卷積層、較小的3×3內核和64個特征圖，批處理歸一化層與參數化ReLU作為激活函數，通過兩個訓練過的亞像素卷積層提高輸入圖像的分辨率并生成超分辨率圖像IS。

鑒別器網絡使用Leaky ReLU激活，且在整個網絡中不使用最大池，其包含8個卷積層和512個核，并帶有數量不斷增加的3×3 濾波核。每當特征數增加一倍時，采用跨步卷積降低圖像分辨率，得到512個特征圖，再通過2個密集層(dense)和1個Sigmoid激活函數獲得樣本分類的概率。鑒別器的功能為從生成的SR樣本中區分真實的HR圖像。SRGAN生成器與鑒別器網絡架構如圖12所示。IL為低分辨率輸入圖像，IH為IL對應的高分辨率圖像。在訓練中，通過對IH應用高斯濾波器，然后使用降采樣因子進行降采樣操作獲得IL。

通過平均主觀意見分(Mean Opinion Score,MOS)測試，證實SRGAN具有良好的感知性能，其MOS分數更接近于原始的高分辨率圖像。

圖12 SRGAN生成器和鑒別器網絡架構

3 幾種經典方法的性能對比

3.1 性能評價指標

圖像SR重建評價指標[61-62]可分為主觀評價指與客觀評價指標。主觀評價指標是指以人眼為主體對圖像進行主觀定性評價。通常由平均主觀得分或差異平均主觀得分表示，即人眼對未失真圖像和失真圖像的評價得分之間的差異，由人們根據預先確定的標準和評價尺度直接觀察，通過統計平均得到相應的圖像評分等級。主觀評價方法雖然符合實際情況，但是具有難以準確衡量、主觀性明顯、過程繁瑣、耗時、勞動密集、工作量大和成本低等缺點，使用極其不方便?？陀^評價指標包括均方誤差、PSNR、SSIM和平均結構相似性等。其中，PSNR與SSIM使用最為廣泛。PSNR計算復雜度較低，但由于其不考慮人眼的視覺識別與感知特性，所以評價結果往往不同于人們的主觀感受。SSIM通過感知結構信息來評價失真，雖然更接近人眼，但因為其僅在亮度、對比度以及結構對兩幅圖像的相似性進行評估，并不完全滿足人類高度非線性的視覺系統。因此，一般采用兩者組合作為圖像SR的評價指標。

3.2 數據集

在圖像超分辨率重建中，需要使用數據集對模型進行訓練，之后再需要一定數量的圖像對訓練好的模型進行測試。Set5[63]、Set14[64]、BSD100[65]、BSD300[66]、ImageNet[67]、Urban100[68]和DIV2K[69]等7種常用的典型數據集的數量、格式以及用途對比如表1所示。

表1 7種數據集的數量、格式以及用途對比

3.3 性能對比

Bicubic[15]、SRCNN[39]、VDSR[40]、CSCN[47]、DRCN[48]、EDSR[51]和SRGAN[55]等7種方法在Set5[63]、Set5[63]、BSD100[65]和Urban100[68]等4種測試數據集上的PSNR與SSIM對比分別如表2與表3所示。SSIM一般在[0,1]之間，越接近1，該圖像的失真度越小。PSNR越大，則圖像越趨于無劣化。方法在數據集上的PSNR與SSIM越大，證明該方法的重建效果越好。

表2 7種方法在4個測試數據集上的SSIM對比

表3 7種方法在4個測試數據集上的PSNR /dB對比

由表2與表3中數據可以看出，EDSR方法恢復的圖像失真度最低，且其PSNR最大，所以EDSR方法重建的圖像效果最好。

由于PSNR并不能完全表示人眼的視覺感知特性，且為了更直觀地比較不同方法的優越性，選取T91訓練數據集作為神經網絡的訓練數據庫，在I7處理器、16G內存和Matlab 2020環境/pycharm python=3.6的pytorch環境下進行SR實驗。7種方法重建的高分辨率圖像如圖13所示。由圖13可以看出，Bicubic效果最差，而VDSR、CSCN和EDSR都取得了不錯的視覺效果。綜合主觀與客觀性能的比較，EDSR方法最優，在應用中推薦使用該方法完成超分辨率重建。

圖13 不同方法重建圖像效果

4 結論與展望

詳細介紹了幾種目前取得較好效果的超分辨率重建方法，闡述了基于學習的超分辨率重建技術的優點及其局限性，并對其性能進行對比。使用插值的方法雖然方法簡單快速，易于實現，但隨著放大系數的增加，容易產生過度平滑的邊緣，結果很差?；谥亟ǖ姆椒ú粫a生明顯的偽影，但往往會模糊細節，最終得到不自然的結果?；谏窠浘W絡的方法，理論上，網絡結構越深效果越好，然而在實際應用中，可能存在訓練困難、收斂困難等問題，還應該關注該機制是否能夠有效地幫助圖像的超分辨率重建，以及如何將兩者結合起來。此外，圖像細節的丟失也是一個大問題。通過設計特征提取和表達模式更好地獲取LR/HR特征之間的非線性關系，以及設計深度神經網絡的層次結構并提高優化效率等都是這類技術面臨的主要問題。基于殘差網絡、深度遞歸網絡的超分辨率方法重建的高分辨率圖像質量都得到很大的提升，但這些網絡一般會隨著網絡的加深而產生梯度消失或爆炸的現象。生成對抗網絡是目前最先進的能夠生成不同類別的高保真自然圖像，其缺點是可能會產生梯度消失的現象，收斂性也是一個具有挑戰的問題。當生成器將各種不同的輸入映射到相同的輸出時，還會發生模式崩塌的情況，推測可以通過擴展GAN的結構以及引入其他領域的知識提升模型的性能。

基于以上方法的總結，判斷未來超分辨率方法的發展趨勢有以下5個方面。

1)充分利用上下文信息。較小的圖像塊包含的信息不足以恢復圖像細節，而充分的上下文信息可以為超分辨率重建這個不適定問題提供更多的約束，由此更加正確地推斷高頻細節信息。例如，通過結合注意機制，利用上下文信息產生更加真實的細節信息。

2)完善網絡結構?，F有的網絡已經在PSNR上取得很好的效果，但網絡參數巨多、運行時間較長、收斂困難，可能會出現欠擬合或過擬合的現象，解決此類問題是目前超分辨率重建技術未來研究的挑戰。因此，未來可以進一步研究如何簡化深層模型加快SISR過程。

3)面向實際場景應用?，F有的超分辨率網絡結構只能針對某一個學習率或某一確定的放大倍數實現高分辨率圖像的重建，并不能針對系統對某一領域的所有圖片進行實現，而超分辨率重建技術在很多領域都有廣泛的需求，未來的SR重建技術需面向更多的實際場景，如醫學、公共安全等領域。

4)提出更合理的損失函數。現有損失函數不能完全表示人眼的實際感知，即使其值得到了大幅度的提升，并不意味著重建效果更好。SR重建技術一般通過比較PSNR與SSIM值判斷其網絡性能是否更好，但PSNR與SSIM的值并不能完全準確的表征重建圖像的質量。因此需提出更合理的評價指標，保證其與人眼的感官保持高度一致。通過研究真實LR圖像的退化模型并結合真實的人眼感知改進損失函數，使重建結果將更接近原始圖像。

5)提出更具有創新性的模型或方法。通過提出新的模型或方法為超分辨率重建技術提供新的思路與角度以此推進SR技術的發展。目前網絡結構日趨復雜，如何減少模型大小，加快預測時間并高效地學習數據表征仍然是一個研究課題。因此，通過提出一些輕量級的網絡架構可以對 HR重建有很大幫助。