郭愛群
(南京多基觀測技術研究院有限公司,南京 211500)
圖像超分辨率(Super-Resolution,SR)重建技術是計算機視覺領域中的一個重要研究方向,其主要目標是將低分辨率圖像提升至高分辨率圖像。在實際應用中,由于傳感器分辨率、圖像壓縮等條件的限制,我們通常只能獲得不太清晰的圖像。這時候,需要通過SR 將其重建成HR 圖像,以滿足更高質量的視覺需求[1]。
SR 重建技術在多個領域都具有重要的研究意義,并得到了廣泛應用。這種壓縮技術可以顯著減少傳輸所需的帶寬和存儲空間。一旦圖像數據傳輸完成,接收端可以對壓縮后的數據進行解碼,并利用SR 重建技術恢復出高質量的圖像序列。這種方法不僅能滿足實時性要求,同時還可以節省帶寬和存儲空間,提高傳輸效率和數據利用率。在遙感成像領域,SR 重建技術能夠應對難以獲得HR 圖像的挑戰,提高觀測圖像的分辨率,而無需對探測系統本身進行改變[2]。基于深度學習的SR 重建技術由于其卓越的性能表現成為當前研究的潮流。這種技術的主要思想是通過訓練神經網絡模型,從大量的LR 圖像和對應的HR 圖像中學習到一個映射函數,將LR 圖像映射到HR圖像[3]。
然而,在實際應用中,基于深度學習的SR 重建技術也存在著一些問題,比如過擬合和計算量大。為了解決這些問題,我們提出了一種新的SR 重建技術,即基于多類型卷積融合的SR 重建技術。這種技術通過將不同類型的卷積操作融合起來,可以有效提高SR 重建的性能,并且能夠在保證高質量重建的同時降低計算量。
國內有許多科研院所和大學等對SR 圖像恢復進行研究,其中,一部分研究集中在頻譜外推和混疊效應的消除,另一部分則主要是對國外SR 方法進行改進[4]。此外,還有基于小波域隱馬爾可夫樹(HMT)模型的改進方法,用于改善彩色圖像的SR。同時,還有研究致力于改進SR 圖像重構方法[5]。
基于多類型卷積融合的圖像SR 重建技術,是將多種類型卷積操作融合在一起。我們選擇了EDSR 模型作為研究對象。在復現原始模型的基礎上,進行了簡化,并融合GhostModule 的卷積操作,然后再進一步融合ACNet 的卷積操作,對最終融合得到的模型進行了研究。
GhostModule,也即幻影模塊,是一種用于深度神經網絡中的卷積操作的設計思路,旨在通過更少的參數生成更多的特征圖,從而減小計算復雜度和內存開銷。幻影模塊將普通的卷積層分為兩部分,第一部分包含普通的卷積操作,嚴格控制卷積的總數。在給定第一部分的特征圖的情況下,第二部分將應用一系列簡單的線性操作來生成更多的特征圖。幻影模塊的作用是幫助減小計算復雜度和所需參數總數,同時不會影響輸出特征圖的大小。
ACNet 是一種非對稱卷積神經網絡,其創新之處在于對卷積核結構進行了改進。該算法在CNN 模型中表現出優秀的性能,因此值得嘗試應用于各種場景。雖然這種算法會增加訓練階段的時間和參數,但并不會增加推理階段的時長和最終模型的參數。通過利用增強后的卷積核參數來初始化和部署原始模型,可不需要額外的計算成本的前提下提升原始模型的準確率。
將GhostModule 中普通卷積和線性運算中所用的BN層和其后的ReLU 激活函數刪除,可以減少不必要的參數和計算量。這樣得到的新的幻影模塊可以替代簡化版EDSR 殘差塊中的普通卷積操作,從而構建了GM-EDSR模型。可以預測,在訓練參數相同的情況下,GM-EDSR 網絡訓練時長較簡化版EDSR 網絡會有明顯的減少。再將ACNet 網絡中的卷積ACConv 加入處理后的GM-EDSR,也即ACNet 與GM-EDSR 卷積融合得到GMAC-EDSR。ACNet 算法的代價是增加了訓練階段的時間和參數,所以最終GMAC-EDSR 與簡化版EDSR 訓練時長的長短并不確定。本文所設計的GMAC-EDSR,也即基于幻影模塊非對稱卷積融合網絡的模型。它的最終模型結構圖如圖1 所示。圖中左部為GMAC-EDSR 框架中的GM-EDSR 部分,其中方塊GhostM 代表修改后的幻影模塊。

圖1 基于幻影模塊非對稱卷積融合網絡
在訓練過程中,模型的目標是通過調整模型參數來最小化損失,從而提高模型的準確性。因此,通過觀察模型在訓練集和驗證集上的損失曲線可以評估模型的學習效果和泛化性能,便進行相應的調整來提高模型的性能。
本文采用L1損失,如公式(1)所示:
所有模型均訓練400 組epoch,訓練所用數據集為DIV2K,測試所用數據集為benchmark 數據集,具體有set5,set14,B100,Urban100 數據集。模型的放大因子(scale)為2 倍,殘差縮放比例系數為0.1,訓練所用圖片序號的具體范圍是1-800,測試所用圖片序號具體范圍是801-900。
本文使用兩個評估指標來衡量預測軌跡的準確性:
①峰值信噪比(Peak Signal-to-Noise Ratio,PSNR):反映了圖像的像素級別的相似性。
給定一個干凈圖像和噪聲圖像,均方誤差(MSE)定義為:
PSNR(dB)定義為:
②結構相似性(Structural SIMilarity,SSIM):SSIM 指標的取值范圍在0 到1 之間,值越接近1 表示重建的圖像質量越好。相比于PSNR 指標,SSIM 指標能夠更準確和可靠地反映圖像的質量和紋理細節。
SSIM 公式是從三個方面衡量兩個圖像和之間的結構相似度,分別為:亮度、對比度和結構,公式如下:
一般取c3=c2/2。μx為x 的均值,μy為y 的均值。為x 的方差,為y 的方差,σxy是x 和y 的協方差。c1=(k1L)2,c2=(k2L)2為兩個常數,避免除零k1=0.01,k2=0.03 為默認值。L 為像素值的范圍,2B-1,B 即每個像素點存儲所占的位數。
本文設計的網絡GMAC-EDSR 的消融實驗就可以做削減卷積的兩個模型實驗,即去除非對稱卷積和去除非對稱卷積和幻影模塊的兩個模型去做實驗,用以測出多類型卷積融合對模型性能的影響。即消融實驗做GM-EDSR 與簡化版EDSR 的實驗,加上本文所設計的模型實驗。
將三個模型訓練(DIV-2K 數據集)的PSNR 結果整合入表1。

表1 消融實驗(DIV2K 訓練集)
三模型測試(benchmark 數據集)的PSNR/SSIM 結果整合入表2。

表2 消融實驗(benchmark)
根據局部放大效果來看,重建的SR 圖像在GMACEDSR 模型中呈現出較高的清晰度。同樣訓練四百組DIV-2K 數據集,GMAC-EDSR 的PSNR 曲線峰值高于消融實驗的兩個模型,三組模型訓練時的損失下降曲線也是GMAC-EDSR 下降得最多,通常PSNR 指標越高代表重建的圖像質量越好,損失下降曲線的下降意味著模型的預測結果越來越接近實際結果,模型的性能逐漸提高。可以得出訓練時GMAC-EDSR 保存了最好的訓練模型。三組模型訓練所得最好模型均采用benchmark 數據集測試,GMAC-EDSR 在四個測試集上PSNR 數值均最大,SSIM 均最接近于1。SSIM 指標的值越接近1,則代表重建的圖像質量越好。GMAC-EDSR 在三組模型中表現最佳,可見基于多類型卷積融合可以有效地提高圖像重建質量。
本文在文獻中尋找了部分主流模型使用相同測試方法(benchmark 數據集)的測試數據,并將之與GMACEDSR 的測試數據一起填入表3,并進行對比分析。

表3 對比實驗結果表
通過與部分主流模型的測試結果對比,我們可以看出GMAC-EDSR 在PSNR 和SSIM 等評價指標上表現出色。GMAC-EDSR 在圖像效果方面取得了不錯的成績。本文所設計的網絡也是符合設計初衷的。
隨著計算機視覺技術的不斷發展,基于多類型卷積融合的圖像SR 重建技術逐漸成為了研究的熱點,并具有廣泛的研究價值和實際應用前景。
多類型卷積融合技術通過將多種類型的卷積操作結合起來,能夠更準確地捕捉圖像的細節和紋理特征。與傳統的單一類型卷積相比,多類型卷積融合可以更有效地提高圖像SR 的效果,同時也具有更好的魯棒性和泛化性能。本文提出了GMAC-EDSR 模型。在消融實驗中GMAC-EDSR 能夠保存最好的模型,在測試中獲得了最高的PSNR 和SSIM 指標。并與部分主流圖像SR 模型對比,結果表現并不遜色。可以很好的為未來的研究和應用提供參考和支持。