


摘要:圖像超分辨(super-resolution,SR)技術(shù)是將低分辨率圖像消除圖像退化,并將其重建為具有更多細(xì)節(jié)的高分辨率圖像。這項(xiàng)技術(shù)已被廣泛應(yīng)用于視頻監(jiān)控、醫(yī)學(xué)診斷和遙感等領(lǐng)域。在遙感領(lǐng)域,高空間分辨率的圖像能使目標(biāo)更加突出,目標(biāo)檢測(cè)和識(shí)別等任務(wù)也會(huì)有更高的準(zhǔn)確率。通過(guò)硬件升級(jí)獲取高分辨圖像會(huì)大大提高成本,采用軟件算法來(lái)從獲取的低分辨圖像重建高分辨圖像是最常用的方法。隨著深度學(xué)習(xí)的迅速發(fā)展和算力的提升,基于深度學(xué)習(xí)的圖像超分辨算法取得了出色的表現(xiàn)。本文提出了一種CNN和Transformer混合的交叉注意力超分辨模型。CNN以局部特征提取見(jiàn)長(zhǎng),而Transformer則具有強(qiáng)大的全局建模能力,本文提出的模型則探索了使用交叉注意力將這兩種機(jī)制結(jié)合起來(lái)的架構(gòu)。交叉注意力作為多模態(tài)領(lǐng)域的常見(jiàn)方法,能夠在不同序列數(shù)據(jù)之間建立聯(lián)系,提供了一種很好的跨模態(tài)交互機(jī)制。本文提出的模型則利用了交叉注意力的交互能力,對(duì)CNN提取的特征圖和Transformer建立的全局序列數(shù)據(jù)進(jìn)行了交互,使得最終超分辨重建能夠?qū)⒕植考?xì)節(jié)與全局上下文結(jié)合起來(lái)。最終,本文的基于卷積和Transformer的交叉注意力超分辨網(wǎng)絡(luò)在PSNR和SSIM兩項(xiàng)指標(biāo)上都獲得了28.06和0.7720的最優(yōu)結(jié)果。
關(guān)鍵詞 :遙感圖像超分辨;深度學(xué)習(xí);交叉注意力;混合模型
一、引言
單幀圖像超分辨(Single Image Super-Resolution, SISR)采用軟件算法將一張低分辨率圖像(Low-Resolution, LR)補(bǔ)充退化過(guò)程中損失的細(xì)節(jié)信息重建出高分辨率圖像(High-Resolution, HR)。這項(xiàng)技術(shù)已被廣泛應(yīng)用于視頻監(jiān)控、醫(yī)學(xué)診斷和遙感等領(lǐng)域。在遙感領(lǐng)域,高空間分辨率的圖像在許多場(chǎng)景都非常重要,如目標(biāo)檢測(cè)、變化檢測(cè)和目標(biāo)跟蹤等[1]。通過(guò)硬件升級(jí)獲取高分辨率的圖像會(huì)大大提高成本,而采用軟件算法來(lái)獲取的低分辨圖像重建高分辨圖像是最常用的方法。隨著深度學(xué)習(xí)的迅速發(fā)展和算力的提升,基于深度學(xué)習(xí)的圖像超分辨算法取得了出色的表現(xiàn)。CNN是最適用于圖像數(shù)據(jù)的深度學(xué)習(xí)模型架構(gòu),具有天然的歸納偏置與局部性,且在特征提取方面有很大優(yōu)勢(shì)。目前,CNN在很多視覺(jué)任務(wù)中的表現(xiàn)都不如基于Transformer的模型。大多數(shù)研究者認(rèn)為,Transformer成功的原因在于自注意力的全局建模能力。
最近,有很多研究者想要從全局性入手來(lái)提升純卷積模型性能,如Non-local Neural Networks[2]就提出了使用卷積來(lái)獲取像素之間的自相關(guān)信息。卷積操作具有天然的歸納偏置和局部性,而Transformer有卷積神經(jīng)網(wǎng)絡(luò)所沒(méi)有的長(zhǎng)程建模能力,如果能夠?qū)⒍哂行ЫY(jié)合起來(lái),則有可能實(shí)現(xiàn)更好的超分辨重建。為了將卷積提取的特征和自注意力機(jī)制進(jìn)行高效耦合,本文使用交叉注意力、結(jié)合CNN和Transformer各自的優(yōu)點(diǎn)構(gòu)建了一種混合架構(gòu)的超分辨模型。
二、模型架構(gòu)
交叉注意力在多模態(tài)模型中可以將文本等提示信息作為Prompt去幫助完成分割、生成等下游任務(wù)。受交叉注意力啟發(fā),本文提出了一種新的超分辨框架,即使用交叉注意力將CNN提取到的特征看作一種Prompt,然后將其融合進(jìn)Transformer的序列中。在具體操作上即將CNN提取的特征作為查詢Q和鍵K,Transformer輸出的序列作為值V。這種方法巧妙地將CNN和Transformer結(jié)合在一起,發(fā)揮了它們各自的優(yōu)點(diǎn)。
交叉注意力和自注意力大體的機(jī)制是一致的,唯一的不同在于輸入。自注意力的輸入是單一的序列,然后從這個(gè)輸入序列得到查詢、鍵和值。而交叉注意力則有兩個(gè)輸入,一個(gè)輸入序列作為查詢Q輸入,另外一個(gè)輸入則作為鍵K和值V輸入。
圖1是本文提出模型的總體框架:首先,輸入低分辨率圖像LR,然后使用一層卷積來(lái)提取初始淺層特征得到f0 。之后,將f0送入本章模型的主干網(wǎng)絡(luò)。主干網(wǎng)絡(luò)由殘差通道注意力塊[3](Residual Channel Attention Block,RCAB)、Transformer層和交叉注意力串聯(lián)并重復(fù)堆疊而成。主干網(wǎng)絡(luò)輸出的結(jié)果經(jīng)過(guò)Pixel Shuffle來(lái)進(jìn)行上采樣得到最終的輸出SR圖像。
本文使用了RCAB作為卷積特征提取基礎(chǔ)模塊。RCAB引入了通道注意力和殘差連接,因?yàn)楹?jiǎn)單地堆疊殘差塊并不適用于實(shí)現(xiàn)非常深且性能強(qiáng)大的圖像超分辨網(wǎng)絡(luò)。
交叉注意力將自注意力的概念擴(kuò)展到不僅考慮輸入序列內(nèi)的關(guān)系,還考慮輸入序列和輸出序列之間的關(guān)系。例如,在機(jī)器翻譯的背景下,當(dāng)生成目標(biāo)序列中的每個(gè)單詞時(shí),模型可以根據(jù)需要關(guān)注源序列中的不同單詞。
交叉注意力(Cross Attention)最常見(jiàn)的應(yīng)用場(chǎng)景是在多模態(tài)模型中。利用交叉注意力機(jī)制,人們可以有效地整合兩個(gè)雖然信息各異、但維度一致的序列數(shù)據(jù),從而得到一個(gè)融合了雙方特征的新序列。在最近的視覺(jué)大模型中就引入了交叉注意力來(lái)使用提示信息(文本或圖像)幫助完成分割任務(wù)。
交叉注意力和自注意力大體的機(jī)制是一致的,唯一的不同在于輸入。自注意力的輸入是單一的序列,然后從這個(gè)輸入序列得到查詢、鍵和值。而交叉注意力則有兩個(gè)輸入,一個(gè)輸入序列作為查詢Q輸入,另外一個(gè)輸入則作為鍵K和值V輸入。得到查詢和鍵值之后則可以開(kāi)始計(jì)算注意力值。交叉注意力后續(xù)的注意力計(jì)算和自注意力是相同的。圖2所示是交叉注意力的計(jì)算流程。
三、實(shí)驗(yàn)設(shè)計(jì)及結(jié)果
本文提出的基于卷積和Transformer的交叉注意力超分辨網(wǎng)絡(luò)將在公開(kāi)的遙感數(shù)據(jù)集UCMerced上進(jìn)行訓(xùn)練和測(cè)試。在評(píng)價(jià)指標(biāo)方面,本文的實(shí)驗(yàn)中結(jié)合使用了PSNR和SSIM這兩種指標(biāo)更全面地評(píng)估圖像的質(zhì)量。每個(gè)數(shù)據(jù)集中的原始圖像被當(dāng)作HR,對(duì)應(yīng)的LR圖像通過(guò)對(duì)HR進(jìn)行Bicubic 插值得到。
UCMerced數(shù)據(jù)集包含21類遙感場(chǎng)景,其中包括機(jī)場(chǎng)、公路、港口等。每一個(gè)場(chǎng)景類別都有100張圖像,每張圖像的尺寸大小為256×256像素,且這些圖像的空間分辨率都是0.3m/pixel。這個(gè)數(shù)據(jù)集被平均分為兩個(gè)部分,其中一部分被用作訓(xùn)練集,共1050張圖像,另外一部分被用作測(cè)試集。訓(xùn)練集的20%被用作驗(yàn)證集。
本文模型使用的損失函數(shù)是超分辨任務(wù)中最常見(jiàn)的 L1損失。本文的實(shí)驗(yàn)在UCMerced數(shù)據(jù)集上按照超分辨因子×4開(kāi)展。訓(xùn)練時(shí)對(duì)圖像進(jìn)行隨機(jī)的裁剪。裁剪后的圖像大小為 192×192。訓(xùn)練樣本經(jīng)過(guò)了隨機(jī)的翻轉(zhuǎn)和旋轉(zhuǎn)來(lái)增加樣本多樣性。在訓(xùn)練策略方面,本文實(shí)驗(yàn)采用Adam優(yōu)化器,其中β1=0.9,β2=0.99 。實(shí)驗(yàn)時(shí)的學(xué)習(xí)率在500、800和1000個(gè)Epoch時(shí)進(jìn)行減半,并且初始學(xué)習(xí)率設(shè)置為2×10-4。在訓(xùn)練過(guò)程中,實(shí)驗(yàn)采用的Batch Size為8,對(duì)模型訓(xùn)練了1500個(gè)Epoch。整個(gè)訓(xùn)練在四塊NVIDIA 3080 Ti GPUs上完成。
為了驗(yàn)證本文模型的有效性,將本文的模型和插值法,以及經(jīng)典的深度學(xué)習(xí)超分辨方法SRCNN[4]進(jìn)行了對(duì)比。其后根據(jù)開(kāi)源代碼對(duì)所有這些比較方法進(jìn)行重新訓(xùn)練,并在相同的條件下進(jìn)行了測(cè)試。表1是本文模型在UCMerced數(shù)據(jù)集上和其他方法的性能指標(biāo)的對(duì)比結(jié)果。
結(jié)果表明,本文模型在×4超分辨因子下的PSNR和SSIM指標(biāo)上實(shí)現(xiàn)了最佳性能結(jié)果。本文的方法PSNR分別比插值和SRCNN高了2.41db和1.28db。
通過(guò)定量的結(jié)果對(duì)比分析顯示,本文的方法在兩項(xiàng)評(píng)價(jià)指標(biāo)上都取得了最優(yōu)的結(jié)果,圖3是本文模型輸出的超分辨圖像和對(duì)應(yīng)的低分辨圖LR和高分辨圖HR。可以看到,本文方法對(duì)于港口船只取得了較好的重建效果,船只的紋理細(xì)節(jié)變得更加豐富和清晰。
四、結(jié)束語(yǔ)
本文主要介紹了一種CNN和Transformer混合的交叉注意力超分辨模型。CNN以局部特征提取見(jiàn)長(zhǎng),而Transformer則具有強(qiáng)大的全局建模能力,本文提出的模型則探索了一種將二者結(jié)合起來(lái)的架構(gòu),同時(shí)又保留了它們各自的優(yōu)勢(shì)。交叉注意力作為多模態(tài)領(lǐng)域的常見(jiàn)方法,能夠在不同序列數(shù)據(jù)之間建立聯(lián)系,并提供了一種很好的跨模態(tài)交互機(jī)制。而本章模型則利用了交叉注意力的交互能力,對(duì)CNN提取的特征圖和Transformer建立的全局序列數(shù)據(jù)進(jìn)行了交互,使得超分辨重建能夠?qū)⒕植考?xì)節(jié)與全局上下文結(jié)合起來(lái)。實(shí)驗(yàn)結(jié)果證明,本文提出的基于卷積和Transformer的交叉注意力超分辨網(wǎng)絡(luò)在PSNR和SSIM兩項(xiàng)指標(biāo)上都獲得了最優(yōu)的結(jié)果,并且在可視化結(jié)果上也取得了不俗的效果。
作者單位:張文健 劉揚(yáng)陽(yáng) 中國(guó)科學(xué)院空天信息創(chuàng)新研究院 中國(guó)科學(xué)院大學(xué)光電學(xué)院
參考文獻(xiàn)
[1]李景文, 陳文達(dá), 姜建武. 融合邊緣特征和對(duì)抗網(wǎng)絡(luò)的遙感影像超分辨重建方法 [J]. 計(jì)算機(jī)應(yīng)用與軟件, 2023, 40(02): 240-245.
[2]WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks; proceedings of the Proceedings of the IEEE conference on computer vision and pattern recognition, F, 2018 [C].
[3]ZHANG Y, LI K, LI K, et al. Image super-resolution using very deep residual channel attention networks; proceedings of the Proceedings of the European conference on computer vision (ECCV), F, 2018 [C].
[4]DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution; proceedings of the Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part IV 13, F, 2014 [C].