倪 銘,盧晨暉
(上海工程技術大學機械與汽車工程學院,上海 201620)
圖像超分辨率(ImageSuper-Resolution,ISR)是一個非常活躍的研究領域,它完成經典的計算機視覺任務,即從低分辨率(Low-Resolution,LR)圖像中重建高分辨率(High-Resolution,HR)圖像。目前,ISR 廣泛應用于遙感圖像處理、紅色影像修復等多種領域[1],科研人員已經提出了多種方法來獲得重構SR 圖像[2-4]。近幾年深度學習的發展給圖像SR領域打開了新視角,幾種基于卷積神經網絡(Convolutional Neural Network,CNN)的深度模型在SR 中實現了極佳的性能。Dong等人[2]提出了一個包含三個卷積層的SRCNN,可以直接對映射進行從LR 到HR 的建模,SRCNN 是深度學習方法在SR 領域工作的先驅。隨后,Kim 等人[3]在此工作基礎上將SR 網絡的深度提升到20 層,與SRCNN相比,該算法的性能明顯提高。EDSR 網絡[4]則進一步加深了網絡的深度,實驗結果證明更深的網絡能夠顯著地提高SR圖像的質量。
盡管深度網絡能夠挖掘SR圖像的空間特征,但是深度的增加也導致了巨大的計算力資源消耗,因此并不適合現實場景。從這個角度來看,設計一種輕量級的深度學習模型對于圖像超分辨率算法的移動端部署來說尤為重要。本文提出了一種更加輕量級、精確化的超分辨率網絡——輕量級變形卷積網絡(Lightweight deformable convolutional network,LDCN),以普通卷積和變形卷積為網絡的基礎組成組件,引入特征蒸餾的概念,降低模型訓練所需參數。同時提出了一種增強的特征注意力融合模塊,能夠自適應地為特征分配權重,提高特征融合效率。
知識蒸餾機制的具體步驟是:將提取的特征從通道維度劃分成兩個部分:一部分直接保留,而另外一部分作為后續網絡層的輸入,并用于特征細化。Hui等人[5]首先將知識蒸餾機制用于圖像超分辨率重建,提出了IDN 網絡,用較少的參數量獲得了較高的超分辨性能。隨后,IMDN[6]在IDN 的工作基礎上進一步改進,設計了一個信息多蒸餾塊(IMDB),獲得更精細化的特征,IMDN 在PSNR 和推理時間方面都有很好的表現。但是IDN 和IMDN 還是不夠輕量化,Liu 等人[7]提出了殘差特征蒸餾網絡(RFDN),該網絡以殘差特征蒸餾塊為網絡的主要模塊,并使用多特征蒸餾連接方式,獲得更準確的特征,進一步降低了模型參數。IDN、IMDN和RFDN模型的關鍵組成部分是知識蒸餾機制,三種模型在SR任務上的優秀性能也充分證明了該機制的在減少模型參數和提高模型性能方面的有效性。
注意力機制是指模擬人類視覺注意力的特點,將注意力聚焦在更為有用的特征信息上,目前已被廣泛地應用于各種計算機視覺任務[8-9]。Hu 等人[8]引入了由注意力機制構成的SE 塊,來計算通道注意力權重,增強了網絡的特征表達能力,在圖像分類中效果極佳。Zhang 等人[9]對SE 塊進行改進,提出了一種增強的殘差通道注意力機制來衡量不同通道之間的相關性,并將其用于超分辨率重建任務,取得了當時領先的重建效果。
本文設計的網絡結構如圖1 所示,主要由三部分組成,包括卷積層、特征提取和融合塊(Feature Extraction and Fusion Module,FEFB)、增強的特征注意力融合模塊(EFAB)以及重建模塊。其中,重建模塊由一個3×3的卷積層和一個Pixel Shuffle構成。

圖1 LDCN網絡結構圖
如圖2(a)所示,FEFB 模塊首先將輸入從通道的維度劃分為兩個部分,其中一個部分用1×1的卷積操作獲得圖像的規則特征并進行保留,另一部分利用殘差變形卷積塊(Residual Deformable Convolutional Block,RDCB)。獲得不規則的特征信息并進行下一步細化。這樣就完成了一次蒸餾操作。以此類推,直到第三次蒸餾操作后,將細化特征進行1×1 的卷積操作獲得保留特征。最后,將獲得的保留特征進行串聯組合,采用EFAB模塊進行融合。

圖2 FEFB整體結構圖
給定輸入Fin,整個FEFB模塊可以表示為:
其中,Fdi和Fci分別表示第i次蒸餾操作后的保留特征和細化特征。fRDCB(?)和fEFAB(?)分別表示RDCB 和EFAB 模塊的操作函數。Conv1×1(?)為卷積核大小為1×1的卷積操作,Fout為FEFB模塊的最終輸出。
RDCB 的結構如圖2(b)所示,包括DC 層、殘差連接和Leaky ReLU 激活函數,DC 為變形卷積(Deformable Convolution)層[10]。假定輸入為,RDCB過程可以表示為:
fDC表示變形卷積操作,fLR(?)為Leaky ReLU函數。
通過交替的普通卷積層和DC 層,能夠分別獲得規則和不規則的特征信息,進而充分挖掘輸入的特征信息,提高特征表達能力。通過知識蒸餾的連接方式,從通道維度上減少需要細化的特征,從而減少了網絡訓練參數。
為了提高模型的特征融合能力,本文設計了EFAB來考慮卷積層和變形卷積層特征之間的相關性,從而靈活地為每層分配不同的權重。EFAB 的網絡結構如圖3所示。

圖3 EFAB結構圖
給定輸入為Fin,首先通過1×1的卷積層Conv1×1(?)來減少輸入的通道數目:
其次采用步長為2 的卷積層和池化層Hpool減小特征圖尺寸,采用3×3卷積層Conv3×3(?)進一步提取特征,利用上采樣操作來恢復特征尺寸:
EFAB 模塊用在每個FEFB 模塊的末端以及四個FEFB 模塊特征的融合階段,使注意力更加集中于感興趣的特征區域。當這些突出顯示的特性被聚合時一起,可以得到更有代表性的特征,更有利于圖像SR重建。
本文使用目前流行的基準數據集DIV2K 數據集訓練SR 模型。DIV2K 包括800 張訓練圖像,100 張驗證圖像和100 張測試圖像。使用Set5、Set14、BSD100(B100)和Urban100 (U100)[3]四個基準數據集作為測試數據集。為了和現有得超分辨率方法進行比較,我們參考了文獻[2]的操作,將縮放因子選擇為4,并將從SR模型中獲得的RGB值轉換到Y通道用于驗證SR效應。
本文采用MSE 損失函數和Adam 優化器。迭代次數為800,批大小為16,初始學習率為10?4,每迭代200 次減少一半。網絡訓練平臺為Ubuntu 22.04,CPU Intel Core i9-11900,RAM 16G,GPU GTX 3070Ti的電腦。
為了驗證和評價所提出的LDCN 的性能,將其與目前主流的一些輕量級SR 方法進行對比,主要包括:Bicubic、SRCNN[2]、VDSR[3]、IDN[5]、CARN[11]和IMDN[6]。
3.3.1 客觀評價
表1 為LDCN 在縮放因子取值為4 時四個基準數據集上的定量結果,包括參數量、平均PSNR 和SSIM值。最佳結果已加粗表示,次佳結果用下劃線表示。可以發現,相比于對比的SR 方法,所提出的LDCN 在多個數據集上都取得了最佳或次佳的PSNR 和SSIM。盡管在Set14 數據集上LDCN 的SSIM 低于IMDN,但是LDCN 的參數量相比于IMDN 減少了50%以上(如表2 所示)。因此,相比于其余輕量級超分辨率算法,本文提出的LDCN基本上能夠以較少的參數代價獲得最好的圖像復原效果。

表1 不同SR方法的PSNR和SSIM對比

表2 不同SR方法的參數量和運行時間對比
3.3.2 主觀視覺評價
為了進行主觀視覺評價,本文采用不同的SR方法獲得測試集中個別圖像的超分辨率圖像。對比方法包括:Bicubic、FSRCNN[12]、VDSR[3]、IDN[5]、CARN[11]和IMDN[6],代碼均來源于對應算法作者提供的官方網址。對比圖片來自于B100 數據集的“8023”圖像。圖4顯示了不同SR 方法的復原圖像。我們可以發現,通過Bicubic 方法獲得的SR 圖像非常模糊,復原效果相對而言比較差。而基于深度學習的方法雖然有了一定的提升,但仍然存在邊緣模糊和響鈴現象,圖像部分區域的紋理信息還不夠準確。相比于其他對比方法,本文所提LDCN 能較為準確的復原圖像中的紋理信息,LDCN 所復原的圖像中紋理更加清晰,也更接近真實圖像。主觀視覺對比結果可以進一步說明所提出的LDCN 能夠更加有效地利用LR 圖像的特征,從而復原出更加清晰的邊緣和紋理信息。

圖4 不同SR方法對“8023”圖像的復原效果
3.3.3 模型復雜度分析
參數數量和網絡運行時間可作為模型復雜度的評價指標。本文選擇VDSR、CARN 和IMDN 來進行對比,結果見表2。相比于其他算法,LDCN 的參數量更少,其在不同的SR方法中是非常有競爭力的。
模型的運行時間對于實際應用非常重要,以Set5數據集為例進行四倍超分辨率重建。由表2對比結果可知,LDCN 的運行時間最少,說明LDCN 的模型復雜度更低,更容易在移動端進行部署。
本文提出了一種輕量級的超分辨率網絡LDCN,該網絡以普通卷積和變形卷積為基礎組件,能夠充分利用規則和不規則的空間特征,獲得表示能力更強的特征。同時,LDCN 額外引入了一種增強的特征注意力機制,能夠考慮到卷積層和變形卷積層特征之間的相關性,從而為每層分配不同的權重,提高特征融合效率。在不同基準數據集上的實驗結果證明了LDCN能夠在較少參數的情況下獲得較高的超分性能。