999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交叉注意力的混合圖像超分辨網(wǎng)絡(luò)

2025-02-19 00:00:00張文健劉揚(yáng)陽(yáng)
中國(guó)新通信 2025年1期
關(guān)鍵詞:深度學(xué)習(xí)

摘要:圖像超分辨(super-resolution,SR)技術(shù)是將低分辨率圖像消除圖像退化,并將其重建為具有更多細(xì)節(jié)的高分辨率圖像。這項(xiàng)技術(shù)已被廣泛應(yīng)用于視頻監(jiān)控、醫(yī)學(xué)診斷和遙感等領(lǐng)域。在遙感領(lǐng)域,高空間分辨率的圖像能使目標(biāo)更加突出,目標(biāo)檢測(cè)和識(shí)別等任務(wù)也會(huì)有更高的準(zhǔn)確率。通過(guò)硬件升級(jí)獲取高分辨圖像會(huì)大大提高成本,采用軟件算法來(lái)從獲取的低分辨圖像重建高分辨圖像是最常用的方法。隨著深度學(xué)習(xí)的迅速發(fā)展和算力的提升,基于深度學(xué)習(xí)的圖像超分辨算法取得了出色的表現(xiàn)。本文提出了一種CNN和Transformer混合的交叉注意力超分辨模型。CNN以局部特征提取見(jiàn)長(zhǎng),而Transformer則具有強(qiáng)大的全局建模能力,本文提出的模型則探索了使用交叉注意力將這兩種機(jī)制結(jié)合起來(lái)的架構(gòu)。交叉注意力作為多模態(tài)領(lǐng)域的常見(jiàn)方法,能夠在不同序列數(shù)據(jù)之間建立聯(lián)系,提供了一種很好的跨模態(tài)交互機(jī)制。本文提出的模型則利用了交叉注意力的交互能力,對(duì)CNN提取的特征圖和Transformer建立的全局序列數(shù)據(jù)進(jìn)行了交互,使得最終超分辨重建能夠?qū)⒕植考?xì)節(jié)與全局上下文結(jié)合起來(lái)。最終,本文的基于卷積和Transformer的交叉注意力超分辨網(wǎng)絡(luò)在PSNR和SSIM兩項(xiàng)指標(biāo)上都獲得了28.06和0.7720的最優(yōu)結(jié)果。

關(guān)鍵詞 :遙感圖像超分辨;深度學(xué)習(xí);交叉注意力;混合模型

一、引言

單幀圖像超分辨(Single Image Super-Resolution, SISR)采用軟件算法將一張低分辨率圖像(Low-Resolution, LR)補(bǔ)充退化過(guò)程中損失的細(xì)節(jié)信息重建出高分辨率圖像(High-Resolution, HR)。這項(xiàng)技術(shù)已被廣泛應(yīng)用于視頻監(jiān)控、醫(yī)學(xué)診斷和遙感等領(lǐng)域。在遙感領(lǐng)域,高空間分辨率的圖像在許多場(chǎng)景都非常重要,如目標(biāo)檢測(cè)、變化檢測(cè)和目標(biāo)跟蹤等[1]。通過(guò)硬件升級(jí)獲取高分辨率的圖像會(huì)大大提高成本,而采用軟件算法來(lái)獲取的低分辨圖像重建高分辨圖像是最常用的方法。隨著深度學(xué)習(xí)的迅速發(fā)展和算力的提升,基于深度學(xué)習(xí)的圖像超分辨算法取得了出色的表現(xiàn)。CNN是最適用于圖像數(shù)據(jù)的深度學(xué)習(xí)模型架構(gòu),具有天然的歸納偏置與局部性,且在特征提取方面有很大優(yōu)勢(shì)。目前,CNN在很多視覺(jué)任務(wù)中的表現(xiàn)都不如基于Transformer的模型。大多數(shù)研究者認(rèn)為,Transformer成功的原因在于自注意力的全局建模能力。

最近,有很多研究者想要從全局性入手來(lái)提升純卷積模型性能,如Non-local Neural Networks[2]就提出了使用卷積來(lái)獲取像素之間的自相關(guān)信息。卷積操作具有天然的歸納偏置和局部性,而Transformer有卷積神經(jīng)網(wǎng)絡(luò)所沒(méi)有的長(zhǎng)程建模能力,如果能夠?qū)⒍哂行ЫY(jié)合起來(lái),則有可能實(shí)現(xiàn)更好的超分辨重建。為了將卷積提取的特征和自注意力機(jī)制進(jìn)行高效耦合,本文使用交叉注意力、結(jié)合CNN和Transformer各自的優(yōu)點(diǎn)構(gòu)建了一種混合架構(gòu)的超分辨模型。

二、模型架構(gòu)

交叉注意力在多模態(tài)模型中可以將文本等提示信息作為Prompt去幫助完成分割、生成等下游任務(wù)。受交叉注意力啟發(fā),本文提出了一種新的超分辨框架,即使用交叉注意力將CNN提取到的特征看作一種Prompt,然后將其融合進(jìn)Transformer的序列中。在具體操作上即將CNN提取的特征作為查詢Q和鍵K,Transformer輸出的序列作為值V。這種方法巧妙地將CNN和Transformer結(jié)合在一起,發(fā)揮了它們各自的優(yōu)點(diǎn)。

交叉注意力和自注意力大體的機(jī)制是一致的,唯一的不同在于輸入。自注意力的輸入是單一的序列,然后從這個(gè)輸入序列得到查詢、鍵和值。而交叉注意力則有兩個(gè)輸入,一個(gè)輸入序列作為查詢Q輸入,另外一個(gè)輸入則作為鍵K和值V輸入。

圖1是本文提出模型的總體框架:首先,輸入低分辨率圖像LR,然后使用一層卷積來(lái)提取初始淺層特征得到f0 。之后,將f0送入本章模型的主干網(wǎng)絡(luò)。主干網(wǎng)絡(luò)由殘差通道注意力塊[3](Residual Channel Attention Block,RCAB)、Transformer層和交叉注意力串聯(lián)并重復(fù)堆疊而成。主干網(wǎng)絡(luò)輸出的結(jié)果經(jīng)過(guò)Pixel Shuffle來(lái)進(jìn)行上采樣得到最終的輸出SR圖像。

本文使用了RCAB作為卷積特征提取基礎(chǔ)模塊。RCAB引入了通道注意力和殘差連接,因?yàn)楹?jiǎn)單地堆疊殘差塊并不適用于實(shí)現(xiàn)非常深且性能強(qiáng)大的圖像超分辨網(wǎng)絡(luò)。

交叉注意力將自注意力的概念擴(kuò)展到不僅考慮輸入序列內(nèi)的關(guān)系,還考慮輸入序列和輸出序列之間的關(guān)系。例如,在機(jī)器翻譯的背景下,當(dāng)生成目標(biāo)序列中的每個(gè)單詞時(shí),模型可以根據(jù)需要關(guān)注源序列中的不同單詞。

交叉注意力(Cross Attention)最常見(jiàn)的應(yīng)用場(chǎng)景是在多模態(tài)模型中。利用交叉注意力機(jī)制,人們可以有效地整合兩個(gè)雖然信息各異、但維度一致的序列數(shù)據(jù),從而得到一個(gè)融合了雙方特征的新序列。在最近的視覺(jué)大模型中就引入了交叉注意力來(lái)使用提示信息(文本或圖像)幫助完成分割任務(wù)。

交叉注意力和自注意力大體的機(jī)制是一致的,唯一的不同在于輸入。自注意力的輸入是單一的序列,然后從這個(gè)輸入序列得到查詢、鍵和值。而交叉注意力則有兩個(gè)輸入,一個(gè)輸入序列作為查詢Q輸入,另外一個(gè)輸入則作為鍵K和值V輸入。得到查詢和鍵值之后則可以開(kāi)始計(jì)算注意力值。交叉注意力后續(xù)的注意力計(jì)算和自注意力是相同的。圖2所示是交叉注意力的計(jì)算流程。

三、實(shí)驗(yàn)設(shè)計(jì)及結(jié)果

本文提出的基于卷積和Transformer的交叉注意力超分辨網(wǎng)絡(luò)將在公開(kāi)的遙感數(shù)據(jù)集UCMerced上進(jìn)行訓(xùn)練和測(cè)試。在評(píng)價(jià)指標(biāo)方面,本文的實(shí)驗(yàn)中結(jié)合使用了PSNR和SSIM這兩種指標(biāo)更全面地評(píng)估圖像的質(zhì)量。每個(gè)數(shù)據(jù)集中的原始圖像被當(dāng)作HR,對(duì)應(yīng)的LR圖像通過(guò)對(duì)HR進(jìn)行Bicubic 插值得到。

UCMerced數(shù)據(jù)集包含21類遙感場(chǎng)景,其中包括機(jī)場(chǎng)、公路、港口等。每一個(gè)場(chǎng)景類別都有100張圖像,每張圖像的尺寸大小為256×256像素,且這些圖像的空間分辨率都是0.3m/pixel。這個(gè)數(shù)據(jù)集被平均分為兩個(gè)部分,其中一部分被用作訓(xùn)練集,共1050張圖像,另外一部分被用作測(cè)試集。訓(xùn)練集的20%被用作驗(yàn)證集。

本文模型使用的損失函數(shù)是超分辨任務(wù)中最常見(jiàn)的 L1損失。本文的實(shí)驗(yàn)在UCMerced數(shù)據(jù)集上按照超分辨因子×4開(kāi)展。訓(xùn)練時(shí)對(duì)圖像進(jìn)行隨機(jī)的裁剪。裁剪后的圖像大小為 192×192。訓(xùn)練樣本經(jīng)過(guò)了隨機(jī)的翻轉(zhuǎn)和旋轉(zhuǎn)來(lái)增加樣本多樣性。在訓(xùn)練策略方面,本文實(shí)驗(yàn)采用Adam優(yōu)化器,其中β1=0.9,β2=0.99 。實(shí)驗(yàn)時(shí)的學(xué)習(xí)率在500、800和1000個(gè)Epoch時(shí)進(jìn)行減半,并且初始學(xué)習(xí)率設(shè)置為2×10-4。在訓(xùn)練過(guò)程中,實(shí)驗(yàn)采用的Batch Size為8,對(duì)模型訓(xùn)練了1500個(gè)Epoch。整個(gè)訓(xùn)練在四塊NVIDIA 3080 Ti GPUs上完成。

為了驗(yàn)證本文模型的有效性,將本文的模型和插值法,以及經(jīng)典的深度學(xué)習(xí)超分辨方法SRCNN[4]進(jìn)行了對(duì)比。其后根據(jù)開(kāi)源代碼對(duì)所有這些比較方法進(jìn)行重新訓(xùn)練,并在相同的條件下進(jìn)行了測(cè)試。表1是本文模型在UCMerced數(shù)據(jù)集上和其他方法的性能指標(biāo)的對(duì)比結(jié)果。

結(jié)果表明,本文模型在×4超分辨因子下的PSNR和SSIM指標(biāo)上實(shí)現(xiàn)了最佳性能結(jié)果。本文的方法PSNR分別比插值和SRCNN高了2.41db和1.28db。

通過(guò)定量的結(jié)果對(duì)比分析顯示,本文的方法在兩項(xiàng)評(píng)價(jià)指標(biāo)上都取得了最優(yōu)的結(jié)果,圖3是本文模型輸出的超分辨圖像和對(duì)應(yīng)的低分辨圖LR和高分辨圖HR。可以看到,本文方法對(duì)于港口船只取得了較好的重建效果,船只的紋理細(xì)節(jié)變得更加豐富和清晰。

四、結(jié)束語(yǔ)

本文主要介紹了一種CNN和Transformer混合的交叉注意力超分辨模型。CNN以局部特征提取見(jiàn)長(zhǎng),而Transformer則具有強(qiáng)大的全局建模能力,本文提出的模型則探索了一種將二者結(jié)合起來(lái)的架構(gòu),同時(shí)又保留了它們各自的優(yōu)勢(shì)。交叉注意力作為多模態(tài)領(lǐng)域的常見(jiàn)方法,能夠在不同序列數(shù)據(jù)之間建立聯(lián)系,并提供了一種很好的跨模態(tài)交互機(jī)制。而本章模型則利用了交叉注意力的交互能力,對(duì)CNN提取的特征圖和Transformer建立的全局序列數(shù)據(jù)進(jìn)行了交互,使得超分辨重建能夠?qū)⒕植考?xì)節(jié)與全局上下文結(jié)合起來(lái)。實(shí)驗(yàn)結(jié)果證明,本文提出的基于卷積和Transformer的交叉注意力超分辨網(wǎng)絡(luò)在PSNR和SSIM兩項(xiàng)指標(biāo)上都獲得了最優(yōu)的結(jié)果,并且在可視化結(jié)果上也取得了不俗的效果。

作者單位:張文健 劉揚(yáng)陽(yáng) 中國(guó)科學(xué)院空天信息創(chuàng)新研究院 中國(guó)科學(xué)院大學(xué)光電學(xué)院

參考文獻(xiàn)

[1]李景文, 陳文達(dá), 姜建武. 融合邊緣特征和對(duì)抗網(wǎng)絡(luò)的遙感影像超分辨重建方法 [J]. 計(jì)算機(jī)應(yīng)用與軟件, 2023, 40(02): 240-245.

[2]WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks; proceedings of the Proceedings of the IEEE conference on computer vision and pattern recognition, F, 2018 [C].

[3]ZHANG Y, LI K, LI K, et al. Image super-resolution using very deep residual channel attention networks; proceedings of the Proceedings of the European conference on computer vision (ECCV), F, 2018 [C].

[4]DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution; proceedings of the Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part IV 13, F, 2014 [C].

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 欧美精品黑人粗大| 国产成人高清在线精品| 国产va欧美va在线观看| 激情无码视频在线看| 国产日本欧美在线观看| 欧美特黄一免在线观看| 夜色爽爽影院18禁妓女影院| 国产高清国内精品福利| 美女亚洲一区| 激情無極限的亚洲一区免费 | 中文字幕在线免费看| 国内精品久久人妻无码大片高| 丝袜无码一区二区三区| 久久激情影院| 黄网站欧美内射| 成人午夜免费观看| 色综合久久88色综合天天提莫 | 国产精品亚洲五月天高清| 国产成人a在线观看视频| 午夜福利在线观看入口| 亚洲精品国产成人7777| 亚洲成人网在线播放| 浮力影院国产第一页| 国产特级毛片| 呦女亚洲一区精品| 高清乱码精品福利在线视频| 毛片在线区| 播五月综合| 亚洲AV无码一区二区三区牲色| 视频国产精品丝袜第一页| 久久人午夜亚洲精品无码区| 无码中文字幕乱码免费2| 综合网天天| 国产凹凸一区在线观看视频| 无码中文字幕精品推荐| 91网在线| 亚洲国产91人成在线| 色婷婷啪啪| 黄色网在线| 欧美国产综合视频| 99成人在线观看| 国产午夜人做人免费视频中文| 色视频国产| 99伊人精品| 欧美性久久久久| 四虎AV麻豆| 自偷自拍三级全三级视频| 91在线播放免费不卡无毒| 在线观看精品国产入口| 91色爱欧美精品www| 狠狠综合久久久久综| 国产亚洲精| 狠狠综合久久久久综| 在线看片中文字幕| 伊伊人成亚洲综合人网7777 | 99热国产这里只有精品无卡顿" | 国产成人av大片在线播放| 色综合久久无码网| 亚洲丝袜中文字幕| 美女亚洲一区| 扒开粉嫩的小缝隙喷白浆视频| 日本不卡在线视频| 老司机午夜精品视频你懂的| 久久人与动人物A级毛片| 精品国产自在现线看久久| 欧美亚洲欧美区| 美女无遮挡被啪啪到高潮免费| 国产一区二区三区在线观看视频| 永久免费AⅤ无码网站在线观看| 亚洲人成网站色7799在线播放| 国产欧美高清| 欧洲亚洲欧美国产日本高清| 四虎影视永久在线精品| 99国产精品国产| 人妻一区二区三区无码精品一区| 国产亚洲男人的天堂在线观看| 欧美高清国产| 丝袜高跟美脚国产1区| 亚洲一区二区黄色| 9啪在线视频| 日本五区在线不卡精品| 亚洲人成日本在线观看|