鄭 璐 王保云 楊 昆 孔 艷 張祝鴻 張玲莉
(1.云南師范大學信息學院 昆明 650500)(2.云南師范大學信息學院數據科學實驗室 昆明 650500)
在這個信息大爆炸的時代,人類通過各種各樣的信息感知世界,其中圖像是人類獲取信息、表達信息和傳遞信息的重要手段[1]。近年來,利用某些技術手段對低質量圖像進行超分辨率重建引起了研究者的廣泛關注。超分辨率圖像重建(Super Resolution,SR)是指利用相關的圖像處理和算法模型,從觀測到的低分辨率圖像中重建高分辨率圖像的技術[2]。高分辨率圖像包含了更多的紋理特征和細節信息,因此在監控設備、衛星圖像和醫學影像領域都有重要的應用價值。
傳統的超分辨率重建算法通常分為基于重建的方法和基于學習的(非深度學習)方法。Stark等人提出的凸集投影[3]使用迭代投影得到高分辨率圖像的估計;隨后,Irani和Peleg提出了迭代反投影的方法,成為超分辨率圖像重建中非常有代表性的方法[4];最大后驗概率法是Schultz和Stevenson提出的一種典型的概率方法[5],最終保持圖像的局部特征平滑和邊緣信息,獲得了比較好的效果;Nguyen等提出的正則化方法[6],利用恒定正則化算子和最優正則化參數構造圖像模糊參數、正則化參數以及高分辨率圖像的最小能量函數,從而形成規則的超分辨率重建模型。傳統的基于學習的方法主要涉及機器學習領域,通常采用機器學習技術來局部估計輸出圖像的高分辨率細節信息。基于實例的方法是一種早期的基于學習的超分辨率圖像重建方法[7],在4倍放大因子的條件下,獲得了較高的圖像質量;Chang等首次提出了一種基于鄰域嵌入的超分辨率圖像重建方法;Karl和Nguyen等利用支持向量回歸實現了超分辨率圖像重建[8];Yang等提出了利用稀疏表示來實現超分辨率[9],對每一個測試補丁,用線性規劃的方法得到這個超完整字典下測試補丁的稀疏表示。最后,通過加權系數對高分辨率圖像進行重建。
隨著深度學習的迅速發展,一些研究者將注意力轉移到了深度學習領域,嘗試構建深度學習網絡模型來處理超分辨率圖像重建問題。本文通過卷積神經網絡、殘差網絡、遞歸神經網絡、密集卷積網絡、生成對抗網絡五種不同的深度網絡模型,對基于深度學習的超分辨率方法進行分析概括,并對不同方法獲得的超分辨率圖像質量的評價結果進行闡述。最后比較各個模型方法的實驗結果和定量評價指標,提出超分辨率研究領域問題和進一步的研究方向。
深度學習是機器學習的一個分支,在過去十年左右的時間里發展飛速,引起了國內外研究者的廣泛關注。目前,深度學習已成功應用于計算機視覺、語音識別、記憶網絡、自然語言處理等研究領域[10]。
超分辨率卷積神經網絡(Super-Resolution Convolutional Neural Network,SRCNN)是深度學習用在超分辨率重建領域的一項前沿性研究。它的網絡結構非常簡單,首先,利用雙三次插值對圖像進行預處理,將低分辨率圖像放大到目標尺寸。然后輸入低分辨率圖像,通過三層卷積網絡擬合非線性映射,輸出高分辨率圖像結果。SRCNN的網絡結構如圖1所示,第一層,圖像塊提取和特征表示;第二層,是特征的非線性映射;第三層,最終的重建[11]。

圖1 SRCNN網絡模型
SRCNN在ILR和IHR之間建立了端到端(end-to-end)映射的SR模型,相較于傳統的超分辨率算法在相同的數據結構上以及放大相同倍數的情況下,在峰值信噪比(PSNR)和運算速度上都有了一定程度的提升。
VDSR(Very Deep Convolutional Networks)是基于SRCNN的改進網絡。其最大特點是具有多層性,最終效果精度高,訓練速度比較快。究其原因是因為作者發現輸入的低分辨率圖像和輸出的高分辨率圖像非常相似,即低分辨率圖像攜帶的低頻信息和高分辨率信息具有很強的相似性[12],所以只需要學習高分辨率圖像和低分辨率圖像之間的高頻殘差部分即可。因此,在提高網絡深度的基礎上,將殘差網絡引入到重建模型中,可以提高網絡性能和最終重建結果的準確性。
如圖2所示,插值后得到的目標尺寸的低分辨率圖像作為VDSR網絡的輸入,再將圖像和網絡學習到的殘差相加,得到最終的網絡輸出[13]。VDSR具有以下優點:深化了網絡結構,擴大了感受野,充分利用分布在超大圖像區域的上下文信息,避免圖像信息的丟失,重建圖像細節;對殘差圖像進行建模,學習高分辨率和低分辨率圖像之間的差異,提高學習速度,同時采用極高的學習速率,加快收斂速度;VDSR還應用了自適應梯度裁剪,使用可調節的梯度來最大限度地提高速度,同時抑制梯度爆炸[14]。VDSR將不同倍數的圖像混合在一起訓練,解決了不同倍數的超分辨率問題[15]。

圖2 VDSR網絡模型
DRCN(Deeply-Recursive Convolutional Network for Image Super-Resolution)第一次將已有的遞歸神經網絡結構應用在超分辨率問題上,同時利用殘差網絡的思想,加深了網絡結構,增加了網絡感受野,提升了性能。其網絡結構如圖3所示分為三個模塊:第一個相當于特征提取的嵌入網絡,第二個相當于特征非線性映射的推斷網絡,第三個相當于重建網絡,即從特征圖像恢復最后的重建結果[16]。其中,Inferencenet work網絡是一種遞歸神經網絡,通過它可以使數據反復循環。其中,H1到Hd是D個共享參數的卷積層,通過同一重構網絡對D個卷積層的每一層結果進行處理,并在重構網絡中添加輸入圖像,獲得D個重建結果輸出。

圖3 DRCN網絡模型
DRCN最大的特點在于多次應用相同的卷積層,重復執行多次遞歸而不會增加參數數量。在這個過程中,該方法加入了遞歸監督,為了解決梯度和最優遞歸的問題,監督所有遞歸,減輕了梯度消失或爆炸的影響。
DenseNet是一個具有密集連接的卷積神經網絡。網絡各層的輸入是所有前一層的輸出,該層學習到的圖像特征作為輸入直接傳輸到該層后面的所有層。如圖4是DenseNet的一個密連接塊,塊體結構如下:BN-RELU-Conv。

圖4 DenseNet網絡結構
DenseNet在密連接塊后將每個層的特性輸入到所有層中,這樣所有層都是串聯的,而不是像殘差網絡一樣簡單相加。這種結構可以緩解整個網絡中梯度消失的問題,具有增強特征傳播、支持特征重用、減少參數個數等優點。SRDenseNet結構分為四部分,首先用一個卷積層學習低階圖像特征,然后用幾個密連接塊學習高階圖像特征,接著用幾個反卷積層學習上采樣的濾波參數,最后用一個卷積層生成高分辨率圖像輸出。SRDenseNet在超分辨率的深層網絡中引入密集跳躍連接,通過密集跳躍連接在不同級別上的特征融合,進一步提高圖像超分辨率的重建性能。
生成對抗網絡(Generative Adversarial Network,GAN)由Goodfellow等提出,它啟發自博弈論中的二人零和博弈[20]。GAN具有強大的圖片生成能力,使其在圖片合成、圖像修補、超分辨率、草稿圖復原等方面都有廣泛的應用[17]。Ledig等首次將生成對抗網絡(Generative Adversarial Network,GAN)應用到超分辨率圖像重建中,提出了基于生成對抗網絡的超分辨率(Super-Resolution using a Generative Adversarial Network,SRGAN)算法[18],該算法將低分辨率圖片樣本輸入到生成器網絡訓練學習,來生成高分辨率圖片,再用判別器網絡辨別其輸入的高分辨率圖片是來自原始真實的高分辨率圖片還是生成的高分辨率圖片,當判別器無法辨別出圖片的真偽時,說明生成器網絡生成了高質量的高分辨率圖片。實驗結果表明相比以往的深度學習方法生成的圖片效果在視覺上更逼真。之前的基于深度學習的超分辨率方法雖然能夠獲得很高的峰值信噪比,但恢復出來的圖像通常會丟失高頻細節,使人難以有好的主觀感受效果。SRGAN主要利用感知損失和對抗損失來改善圖像恢復的真實性。感知損失是利用卷積神經網絡提取出來的特征,通過比較卷積后的生成圖像與卷積后原始圖像的特征,使生成的圖像盡可能地接近原始目標圖像。SRGAN的生成網絡使用了SRResNet作為網絡模型[19],并通過均方誤差來優化。通過計算訓練后的VGG模型的高級特征上的感知損失,對SRGAN進行了優化。結合SRGAN的判別網絡,可以得到峰值信噪比不是最高,但具有真實視覺效果的超分辨重建結果。其網絡結構如圖5所示。

圖5 SRGAN網絡模型
表1列出了文中所述的五種基于深度學習網絡模型的超分辨率圖像重建方法的PSNR和SSIM值。這些方法在set5、set14、B100、Urban100數據集下 完 成 測 試,對 比SRCNN、VDSR、DRCN、SRDenseNet、SRGAN方法,由作者所公布的實驗結果整理得到表中數據。通過觀察實驗數據發現SRDenseNet在四個數據集下的測試結果中,4倍放大因子下,得到的PSNR和SSIM值最高。通過對比整體的結果,VDSR和DRCN都獲得了比較好的PSNR和SSIM值,這兩種方法在SRCNN的基礎上,都加深了網絡層次,擴大了感受野范圍,并運用了殘差網絡的思想提高了運行速度。

表1 五種SR算法重建效果對比
超分辨率圖像重建旨在提高圖像質量,便于獲取更多關于圖像的細節信息,是計算機視覺領域一項重要的研究工作。本節對五種典型的基于深度學習的超分辨率重建方法進行討論總結,從中可以得出以下問題。
1)深度網絡類型和結構構建。通過對五種不同深度學習網絡模型分析發現,網絡結構層次越深,感受野越大,越能夠充分利用圖像的上下文信息,減少圖像細節丟失的可能性。但同時越深的網絡模型,意味著難以收斂的訓練過程,因此,在加深網絡模型層次的同時,結合殘差網絡、自適應梯度裁剪等能夠避免深層網絡梯度爆炸/消失的優化算法訓練是非常必要的。
2)算法優化。文中所列的五種超分辨率圖像重建方法都得到了較好質量的重建圖像,與傳統方法相比,也提升了PSNR和SSIM值。但是其訓練速度和可視化效果并未達到人們的預期,還具有較大的改進空間。
3)評價機制。經過30多年的研究和開發,超分辨率圖像重建技術取得了長足的進步。如何構建合理的評價機制,評價超分辨率圖像的質量,進而評價不同超分辨率算法的優劣,也一直是超分辨率研究領域十分熱門的問題。猶如SRGAN,在視覺效果上SRGAN很好地重建了圖像的細節信息,主觀感受最好。但是由于其不高的PSNR和SSIM值,自然讓我們想到另一個問題,建立能夠反映主觀感受效果的評價機制。通過量化主觀人眼評價效果,結合客觀評價指標,構建有效的評價機制也是值得研究的問題。
4)GAN模型。生成對抗網絡因其具有很好的圖像生成功能,在超分辨率圖像重建方法中嶄露頭角,獲得了最好的視覺效果。因此在未來工作中,著重考慮在當前SRGAN網絡模型的基礎上結合當下各類優化算法和成熟的網絡結構,進一步提高重建圖像的質量和訓練結果的定量評價指標。
深度學習在超分辨率圖像重建中具有廣闊的應用前景。本文總結了現有的超分辨率圖像重建的深度網絡模型,對比不同網絡模型的特點和訓練方法,總結分析了現有模型存在的問題以及模型構建的新思路,提出生成對抗網絡在超分辨率問題中的優化策略和應用方法,并將在下一階段詳細展開研究與討論。文末簡述了超分辨率重建問題的其他相關研究方向——對于圖像質量的評價機制,提出圖像質量評價機制的不足和現存問題,對以后建立反映主觀感受效果的評價機制提出具有實際參考價值的建議。