基于交叉注意力的混合圖像超分辨網(wǎng)絡(luò)

2025-02-19 00:00:00張文健劉揚(yáng)陽(yáng)

中國(guó)新通信 2025年1期

摘要：圖像超分辨（super-resolution，SR）技術(shù)是將低分辨率圖像消除圖像退化，并將其重建為具有更多細(xì)節(jié)的高分辨率圖像。這項(xiàng)技術(shù)已被廣泛應(yīng)用于視頻監(jiān)控、醫(yī)學(xué)診斷和遙感等領(lǐng)域。在遙感領(lǐng)域，高空間分辨率的圖像能使目標(biāo)更加突出，目標(biāo)檢測(cè)和識(shí)別等任務(wù)也會(huì)有更高的準(zhǔn)確率。通過(guò)硬件升級(jí)獲取高分辨圖像會(huì)大大提高成本，采用軟件算法來(lái)從獲取的低分辨圖像重建高分辨圖像是最常用的方法。隨著深度學(xué)習(xí)的迅速發(fā)展和算力的提升，基于深度學(xué)習(xí)的圖像超分辨算法取得了出色的表現(xiàn)。本文提出了一種CNN和Transformer混合的交叉注意力超分辨模型。CNN以局部特征提取見(jiàn)長(zhǎng)，而Transformer則具有強(qiáng)大的全局建模能力，本文提出的模型則探索了使用交叉注意力將這兩種機(jī)制結(jié)合起來(lái)的架構(gòu)。交叉注意力作為多模態(tài)領(lǐng)域的常見(jiàn)方法，能夠在不同序列數(shù)據(jù)之間建立聯(lián)系，提供了一種很好的跨模態(tài)交互機(jī)制。本文提出的模型則利用了交叉注意力的交互能力，對(duì)CNN提取的特征圖和Transformer建立的全局序列數(shù)據(jù)進(jìn)行了交互，使得最終超分辨重建能夠?qū)⒕植考?xì)節(jié)與全局上下文結(jié)合起來(lái)。最終，本文的基于卷積和Transformer的交叉注意力超分辨網(wǎng)絡(luò)在PSNR和SSIM兩項(xiàng)指標(biāo)上都獲得了28.06和0.7720的最優(yōu)結(jié)果。

關(guān)鍵詞：遙感圖像超分辨；深度學(xué)習(xí)；交叉注意力；混合模型

一、引言

單幀圖像超分辨（Single Image Super-Resolution， SISR）采用軟件算法將一張低分辨率圖像（Low-Resolution， LR）補(bǔ)充退化過(guò)程中損失的細(xì)節(jié)信息重建出高分辨率圖像（High-Resolution， HR）。這項(xiàng)技術(shù)已被廣泛應(yīng)用于視頻監(jiān)控、醫(yī)學(xué)診斷和遙感等領(lǐng)域。在遙感領(lǐng)域，高空間分辨率的圖像在許多場(chǎng)景都非常重要，如目標(biāo)檢測(cè)、變化檢測(cè)和目標(biāo)跟蹤等[1]。通過(guò)硬件升級(jí)獲取高分辨率的圖像會(huì)大大提高成本，而采用軟件算法來(lái)獲取的低分辨圖像重建高分辨圖像是最常用的方法。隨著深度學(xué)習(xí)的迅速發(fā)展和算力的提升，基于深度學(xué)習(xí)的圖像超分辨算法取得了出色的表現(xiàn)。CNN是最適用于圖像數(shù)據(jù)的深度學(xué)習(xí)模型架構(gòu)，具有天然的歸納偏置與局部性，且在特征提取方面有很大優(yōu)勢(shì)。目前，CNN在很多視覺(jué)任務(wù)中的表現(xiàn)都不如基于Transformer的模型。大多數(shù)研究者認(rèn)為，Transformer成功的原因在于自注意力的全局建模能力。

最近，有很多研究者想要從全局性入手來(lái)提升純卷積模型性能，如Non-local Neural Networks[2]就提出了使用卷積來(lái)獲取像素之間的自相關(guān)信息。卷積操作具有天然的歸納偏置和局部性，而Transformer有卷積神經(jīng)網(wǎng)絡(luò)所沒(méi)有的長(zhǎng)程建模能力，如果能夠?qū)⒍哂行ЫY(jié)合起來(lái)，則有可能實(shí)現(xiàn)更好的超分辨重建。為了將卷積提取的特征和自注意力機(jī)制進(jìn)行高效耦合，本文使用交叉注意力、結(jié)合CNN和Transformer各自的優(yōu)點(diǎn)構(gòu)建了一種混合架構(gòu)的超分辨模型。

二、模型架構(gòu)

交叉注意力在多模態(tài)模型中可以將文本等提示信息作為Prompt去幫助完成分割、生成等下游任務(wù)。受交叉注意力啟發(fā)，本文提出了一種新的超分辨框架，即使用交叉注意力將CNN提取到的特征看作一種Prompt，然后將其融合進(jìn)Transformer的序列中。在具體操作上即將CNN提取的特征作為查詢Q和鍵K，Transformer輸出的序列作為值V。這種方法巧妙地將CNN和Transformer結(jié)合在一起，發(fā)揮了它們各自的優(yōu)點(diǎn)。

交叉注意力和自注意力大體的機(jī)制是一致的，唯一的不同在于輸入。自注意力的輸入是單一的序列，然后從這個(gè)輸入序列得到查詢、鍵和值。而交叉注意力則有兩個(gè)輸入，一個(gè)輸入序列作為查詢Q輸入，另外一個(gè)輸入則作為鍵K和值V輸入。

圖1是本文提出模型的總體框架：首先，輸入低分辨率圖像LR，然后使用一層卷積來(lái)提取初始淺層特征得到f0 。之后，將f0送入本章模型的主干網(wǎng)絡(luò)。主干網(wǎng)絡(luò)由殘差通道注意力塊[3]（Residual Channel Attention Block，RCAB）、Transformer層和交叉注意力串聯(lián)并重復(fù)堆疊而成。主干網(wǎng)絡(luò)輸出的結(jié)果經(jīng)過(guò)Pixel Shuffle來(lái)進(jìn)行上采樣得到最終的輸出SR圖像。

本文使用了RCAB作為卷積特征提取基礎(chǔ)模塊。RCAB引入了通道注意力和殘差連接，因?yàn)楹?jiǎn)單地堆疊殘差塊并不適用于實(shí)現(xiàn)非常深且性能強(qiáng)大的圖像超分辨網(wǎng)絡(luò)。

交叉注意力將自注意力的概念擴(kuò)展到不僅考慮輸入序列內(nèi)的關(guān)系，還考慮輸入序列和輸出序列之間的關(guān)系。例如，在機(jī)器翻譯的背景下，當(dāng)生成目標(biāo)序列中的每個(gè)單詞時(shí)，模型可以根據(jù)需要關(guān)注源序列中的不同單詞。

交叉注意力（Cross Attention）最常見(jiàn)的應(yīng)用場(chǎng)景是在多模態(tài)模型中。利用交叉注意力機(jī)制，人們可以有效地整合兩個(gè)雖然信息各異、但維度一致的序列數(shù)據(jù)，從而得到一個(gè)融合了雙方特征的新序列。在最近的視覺(jué)大模型中就引入了交叉注意力來(lái)使用提示信息（文本或圖像）幫助完成分割任務(wù)。

交叉注意力和自注意力大體的機(jī)制是一致的，唯一的不同在于輸入。自注意力的輸入是單一的序列，然后從這個(gè)輸入序列得到查詢、鍵和值。而交叉注意力則有兩個(gè)輸入，一個(gè)輸入序列作為查詢Q輸入，另外一個(gè)輸入則作為鍵K和值V輸入。得到查詢和鍵值之后則可以開(kāi)始計(jì)算注意力值。交叉注意力后續(xù)的注意力計(jì)算和自注意力是相同的。圖2所示是交叉注意力的計(jì)算流程。

三、實(shí)驗(yàn)設(shè)計(jì)及結(jié)果

本文提出的基于卷積和Transformer的交叉注意力超分辨網(wǎng)絡(luò)將在公開(kāi)的遙感數(shù)據(jù)集UCMerced上進(jìn)行訓(xùn)練和測(cè)試。在評(píng)價(jià)指標(biāo)方面，本文的實(shí)驗(yàn)中結(jié)合使用了PSNR和SSIM這兩種指標(biāo)更全面地評(píng)估圖像的質(zhì)量。每個(gè)數(shù)據(jù)集中的原始圖像被當(dāng)作HR，對(duì)應(yīng)的LR圖像通過(guò)對(duì)HR進(jìn)行Bicubic 插值得到。

UCMerced數(shù)據(jù)集包含21類遙感場(chǎng)景，其中包括機(jī)場(chǎng)、公路、港口等。每一個(gè)場(chǎng)景類別都有100張圖像，每張圖像的尺寸大小為256×256像素，且這些圖像的空間分辨率都是0.3m/pixel。這個(gè)數(shù)據(jù)集被平均分為兩個(gè)部分，其中一部分被用作訓(xùn)練集，共1050張圖像，另外一部分被用作測(cè)試集。訓(xùn)練集的20%被用作驗(yàn)證集。

本文模型使用的損失函數(shù)是超分辨任務(wù)中最常見(jiàn)的 L1損失。本文的實(shí)驗(yàn)在UCMerced數(shù)據(jù)集上按照超分辨因子×4開(kāi)展。訓(xùn)練時(shí)對(duì)圖像進(jìn)行隨機(jī)的裁剪。裁剪后的圖像大小為 192×192。訓(xùn)練樣本經(jīng)過(guò)了隨機(jī)的翻轉(zhuǎn)和旋轉(zhuǎn)來(lái)增加樣本多樣性。在訓(xùn)練策略方面，本文實(shí)驗(yàn)采用Adam優(yōu)化器，其中β1=0.9，β2=0.99 。實(shí)驗(yàn)時(shí)的學(xué)習(xí)率在500、800和1000個(gè)Epoch時(shí)進(jìn)行減半，并且初始學(xué)習(xí)率設(shè)置為2×10-4。在訓(xùn)練過(guò)程中，實(shí)驗(yàn)采用的Batch Size為8，對(duì)模型訓(xùn)練了1500個(gè)Epoch。整個(gè)訓(xùn)練在四塊NVIDIA 3080 Ti GPUs上完成。

為了驗(yàn)證本文模型的有效性，將本文的模型和插值法，以及經(jīng)典的深度學(xué)習(xí)超分辨方法SRCNN[4]進(jìn)行了對(duì)比。其后根據(jù)開(kāi)源代碼對(duì)所有這些比較方法進(jìn)行重新訓(xùn)練，并在相同的條件下進(jìn)行了測(cè)試。表1是本文模型在UCMerced數(shù)據(jù)集上和其他方法的性能指標(biāo)的對(duì)比結(jié)果。

結(jié)果表明，本文模型在×4超分辨因子下的PSNR和SSIM指標(biāo)上實(shí)現(xiàn)了最佳性能結(jié)果。本文的方法PSNR分別比插值和SRCNN高了2.41db和1.28db。

通過(guò)定量的結(jié)果對(duì)比分析顯示，本文的方法在兩項(xiàng)評(píng)價(jià)指標(biāo)上都取得了最優(yōu)的結(jié)果，圖3是本文模型輸出的超分辨圖像和對(duì)應(yīng)的低分辨圖LR和高分辨圖HR。可以看到，本文方法對(duì)于港口船只取得了較好的重建效果，船只的紋理細(xì)節(jié)變得更加豐富和清晰。

四、結(jié)束語(yǔ)

本文主要介紹了一種CNN和Transformer混合的交叉注意力超分辨模型。CNN以局部特征提取見(jiàn)長(zhǎng)，而Transformer則具有強(qiáng)大的全局建模能力，本文提出的模型則探索了一種將二者結(jié)合起來(lái)的架構(gòu)，同時(shí)又保留了它們各自的優(yōu)勢(shì)。交叉注意力作為多模態(tài)領(lǐng)域的常見(jiàn)方法，能夠在不同序列數(shù)據(jù)之間建立聯(lián)系，并提供了一種很好的跨模態(tài)交互機(jī)制。而本章模型則利用了交叉注意力的交互能力，對(duì)CNN提取的特征圖和Transformer建立的全局序列數(shù)據(jù)進(jìn)行了交互，使得超分辨重建能夠?qū)⒕植考?xì)節(jié)與全局上下文結(jié)合起來(lái)。實(shí)驗(yàn)結(jié)果證明，本文提出的基于卷積和Transformer的交叉注意力超分辨網(wǎng)絡(luò)在PSNR和SSIM兩項(xiàng)指標(biāo)上都獲得了最優(yōu)的結(jié)果，并且在可視化結(jié)果上也取得了不俗的效果。

作者單位：張文健劉揚(yáng)陽(yáng) 中國(guó)科學(xué)院空天信息創(chuàng)新研究院中國(guó)科學(xué)院大學(xué)光電學(xué)院

參考文獻(xiàn)

[1]李景文，陳文達(dá)，姜建武. 融合邊緣特征和對(duì)抗網(wǎng)絡(luò)的遙感影像超分辨重建方法 [J]. 計(jì)算機(jī)應(yīng)用與軟件， 2023， 40（02）： 240-245.

[2]WANG X， GIRSHICK R， GUPTA A， et al. Non-local neural networks; proceedings of the Proceedings of the IEEE conference on computer vision and pattern recognition， F， 2018 [C].

[3]ZHANG Y， LI K， LI K， et al. Image super-resolution using very deep residual channel attention networks; proceedings of the Proceedings of the European conference on computer vision （ECCV）， F， 2018 [C].

[4]DONG C， LOY C C， HE K， et al. Learning a deep convolutional network for image super-resolution; proceedings of the Computer Vision–ECCV 2014： 13th European Conference， Zurich， Switzerland， September 6-12， 2014， Proceedings， Part IV 13， F， 2014 [C].