999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TransNeXt的紅外與可見光圖像融合

2025-09-28 00:00:00楊艷春楊萬軒雷慧云
湖南大學學報·自然科學版 2025年8期

中圖分類號:TP391 文獻標志碼:A

Abstract:This paper proposes a fusion algorithm utilizing TransNeXt to address detail lossand artifact generation issues inthe fusion of infraredand visible images.Firstly,shalowanddeep features are extracted from the source images using convolutional neural networks and TransNeXt.An information compensation module is employed to enhance thesemantic information of the infrared shallow features.Secondly,a cross-attention-based fusion module integrates these features,and dynamicalyadjusts weights basedon the importanceof differentregions inthe source images to adapt to scene variations,thereby improving fusion robustnessandaccuracy.The final fused image is obtained through Transformer-based image reconstruction.Inaddition,the proposed method constrains the fusion processthrough a VGG19-based saliency mask lossfunction,preserving richer information in key regions of thefused results.The experimental results indicate that,compared with the other seven methods,this approach has improved theobjectiveevaluation metrics:namelyinformationentropy,standard deviation,sum of correlation differ-ences,peak signal-to-noise ratio,and pixel feature mutual information,by an average of 10.92% , 14.85% , (20 24.80% , 2.26% ,and 1.30% ,respectively. Furthermore,it effectively preserves rich texture information while minimizing artifacts,demonstrating outstanding performance innight light fusion.Additionally,ithasachieved superior results in object detection relative to the comparison methods.

KeyWords:infrared and visible image fusion;convolutional neural network;Transformer;TransNeXt

單一類型的圖像傳感器由于硬件設計或成像方法的限制,僅能捕獲到特定的場景信息,為了克服這一局限性,圖像融合技術應運而生.圖像融合技術具有整合多種成像方式的獨特優勢,能夠生成出信息更全面的融合圖像[1-3].紅外與可見光圖像融合是圖像融合領域的重要分支,紅外圖像能夠捕捉低光環境下的熱目標,而可見光圖像則能提供豐富的場景細節信息.融合這兩種圖像可以在軍事、安防、環境監測等領域中提供更全面與準確的視覺信息,能夠增強圖像處理和分析的效果,有助于實現更精確的目標檢測、識別和監控[4-5].

近年來,隨著深度學習的迅猛發展,深度學習模型憑借其強大的特征提取能力能夠從源圖像中挖掘出復雜的特征關系,有效融合不同模態的圖像信息,已在紅外與可見光圖像融合領域取得了顯著進展.Ma等通過兩個判別器區分融合圖像與兩個源圖像的結構差異.Li等提出了一種殘差融合網絡RFN,利用卷積神經網絡與殘差連接對多尺度深層特征進行融合.Zhang等8將圖像融合任務轉化為梯度和強度信息的提取和重構,還通過融合圖像的分解促使融合結果包含更多場景信息.但是卷積神經網絡只能進行局部處理,長距離依賴的捕捉能力相對有限9.Vaswani等[1提出了全新的網絡架構Trans-former,其通過自注意力機制有效地捕捉圖像中任意位置之間的長距離依賴關系,能夠更好地處理全局信息的整合.Wang等[11]將SwinTransformer[12]作為提取全局特征的主干,并且利用殘差連接實現低級特征聚合與信息保留.Tang等13將通道注意力和空間注意力結合起來進行特征提取,并通過Transformer模塊來保存全局互補信息.

深度學習方法在紅外與可見光圖像融合領域已經取得了許多成果,但是卷積神經網絡受感受野的限制難以學習到特征間的一些重要關系,在融合過程中可能丟失部分細節信息.自注意力機制的復雜度較高,一些Transformer往往使用堆疊窗口的方式降低自注意力計算的復雜度,然而堆疊窗口分區時容易產生偽影.

為了解決上述問題,本文先利用卷積神經網絡提取淺層特征,并將提取到的可見光淺層特征通過信息補償模塊(ICB)對紅外淺層特征進行補償,ICB能夠選擇性學習語義更豐富的分支,再將TransNeXt作為主干網絡進行深層特征提取.然后通過基于交叉注意力的融合模塊進行特征融合,最后通過基于Transformer的圖像重建模塊進行重建.此外,本文還使用了基于VGG19顯著區域掩膜的損失函數,通過約束融合過程使融合結果在重要區域保留更豐富的信息,并保持顯著性目標的突出性.實驗結果表明,本文方法細節信息豐富且偽影較少,對夜間燈光的處理效果顯著優于其他方法,并且在后續的目標檢測中表現出色.

1相關工作

1.1 Vision Transformer

Transformer在自然語言處理中取得巨大成功后,在計算機視覺領域也引起了廣泛關注.Dosovits-kiy等[14]提出了VisionTransformer(ViT),首次將Transformer應用于計算機視覺領域,其將一張圖片劃分為固定大小的圖像塊(patch)后,嵌入固定大小的向量中再進行后續處理,在各種視覺任務中都取得了十分優越的性能.

雖然ViT在計算機視覺領域的應用取得了突破性的進展,但由于自注意力計算復雜度較高,Trans-former模型往往需要較高的內存與較多的計算資源,難以應用于高分辨率圖像.

1.2 TransNeXt

為了改善Transformer的計算效率與資源需求,部分學者通過稀疏注意力的方法對其進行優化,其中代表性方法之一是窗口注意力,它將注意力限制在特征圖上的一個窗口內.然而這種方法往往需要交替堆疊不同類型的token混合器來實現跨窗口的信息交換,而深層堆疊時窗口分區的軌跡容易形成不自然的偽影,這限制了融合圖像質量的進步一提高.

TransNeXt[15]中的聚合注意力機制(aggregatedattention)通過一種基于仿生設計的token混合器,模擬了生物的中央凹視覺和連續的眼球運動,使特征圖上的每個token具有全局感知.并且通過結合與常規查詢和鍵交互的可學習token,使生成的親和矩陣更加多樣,有效避免了深度退化并實現了自然的視覺感知.此外,TransNeXt還提出了ConvolutionalGLU(ConvGLU)作為通道混合器,使每個token能夠基于其最近鄰圖像特征進行通道注意,增強了局部建模能力和模型魯棒性.圖1為TransNeXt塊結構.

圖1TransNeXt塊結構

Fig.1TransNeXtblock structure

1.2.1像素聚焦注意力

像素聚焦注意力(pixel-focused attention,PFA)[15]對每個查詢(Query)附近具有細粒度感知的同時,對全局信息也具有粗粒度感知.其采用一種雙路徑設計,即以Query為中心的滑動窗口注意力和池化注意力,并在一個Softmax中計算兩條路徑Query與Key相似度的重要程度.像素聚焦注意力過程如下.

Q,K,V 分別表示查詢向量(Query)、鍵向量(Key)與值向量(Value).首先分別計算兩條路徑Query與Key的相似度 G

式中: ρ(i,j) 為輸入特征圖上以 (i,j) 為中心的滑動窗口內的像素集合,窗口大小為 k2;σ(X) 為池化后的特征圖集合,特征圖大小為 HpWp

然后將相似度結果進行拼接后通過Softmax計算出注意力權重 A ,這導致了細粒度和粗粒度特征之間的競爭,使得像素聚焦注意力轉化為多尺度注意力機制,如式(2)所示:

Gconcat=Concat(G(i,j)~ρ(i,j),G(i,j)~σ(X)

式中: d 為鍵向量 K 的維度數; B(i,j) 為位置偏差.

再將注意力權重分割為拼接前的形狀.

最后像素聚焦注意力PFA可以表示為:

PFA(X(i,j))=A(i,j)~ρ(i,j)Vρ(i,j)A(i,j)~σ(X)Xσ(X)

1.2.2聚合注意力

聚合注意力是對像素聚焦注意力的一個改進[15].其通過向所有Query token中添加可學習的查詢嵌人(queryembedding,QE)實現了信息聚合效果,且額外開銷較少幾乎可以忽略,只需要將式(1)修改為如下形式:

G(i,j)~ρ(i,j)=(Q(i,j)+QE)Kρ(i,j)T

G(i,j)~σ(X)=(Q(i,j)+QE)Kσ(X)T

長度縮放余弦注意力使用了余弦相似度,相對縮放點積注意力,它能夠生成更均勻的注意權重分布,提高大型視覺模型的訓練穩定性.在計算長距離余弦注意力時,長度縮放余弦注意力將一個額外的可學習系數λ乘到Query和Key的余弦相似度上,使得注意力機制可以有效地忽略不重要的 token ,將λ設置為 τlogN ,其可以表示為式(6):

(6)式中: 為Query和Key分別在每個頭的特征維度上進行 l2 正則化后的向量; τ 為每個注意力頭初始化為 的可學習變量; N 表示每個Query與有效Key交互的次數,不包括掩碼標記的次數.

為了進一步增強像素聚焦注意力機制對多尺度圖像輸入的外推能力,還采用了不同的方法計算兩條路徑上的 B(i,j)~ρ(i,j) 與 B(i,j)~σ(X). 在池化特征路徑上使用對數間隔連續位置偏差(log-CPB)[12]對 Q(i,j) 與Kσ(X) 的空間相對坐標 Δ(i,j)~σ(X) 進行計算得到 B(i,j)~σ(i,j) ,而在滑動窗口路徑上直接使用可學習的B(i)=(,j)

此外,為了增強局部建模能力和提高魯棒性,在每個注意頭中引入一組可學習的標記 T ,其與查詢交互可以獲得額外的動態位置偏差,因此將 添加到 A(i,j)~ρ(i,j) 中.

綜上所述,聚合注意力AA的過程可以描述為:

Gconcat=Concat(G(i,j)~ρ(i,j),G(i,j)~σ(X)

A(i,j)=Softmax(τlogNGconcat+B(i,j)

A(i,j)~ρ(i,j),A(i,j)~σ(X)=Split(A(i,j)

A(i,j)~σ(X)Vσ(X)

1.2.3 Convolutional GLU

門控線性單元(GLU)[16是一種通道混合器,其由兩個逐元素相乘的線性投影組成,其中一個投影由門控函數激活.ConvolutionalGLU(ConvGLU)在GLU的gating分支的激活函數之前,添加了一個最小形式的 3×3 深度卷積,使它的結構符合基于最近鄰特征的門控通道注意力(gatedchannelattention)的設計概念,并將其轉換為門控通道注意力機制.

ConvGLU中每個token都擁有唯一的門控信號,基于其最近的細粒度特征.這解決了SE機制中全局平均池化過于粗粒度的缺點,也滿足了部分沒有位置編碼設計的ViT模型需要深度卷積提供位置信息的需求.具體結構如圖2所示.

圖2卷積門控線性單元結構 Fig.2 Convolutional GLU structure

2本文方法

本文提出了一種基于TransNeXt的紅外與可見光圖像融合方法,主要分為特征提取、特征融合以及圖像重建三個部分,融合框架流程如圖3所示.

2.1特征提取

紅外與可見光圖像1輸入網絡后,首先對其進行淺層特征提取SF(·),得到淺層特征 F1. 卷積層能夠較好地捕捉圖像的局部特征,例如邊緣紋理等,因此采用兩個卷積層作為淺層特征提取模塊,其卷積核大小均為 3×3 ,步長均為1,過程可以表述為

Fv1=SF(Iv),Fi1=SF(Ii

由于交叉注意力機制只關注相關性,忽略了互補信息1.因此引入信息補償模塊(ICB)引導模型學習不同模態之間的相關性和互補性,增強可見光和紅外圖像特征之間的協同作用.通過這種方式,ICB模塊不僅促進了特征的有效融合,還能夠避免冗余信息的影響.ICB能夠通過Sigmoid函數可選擇地學習兩條分支中語義更豐富的部分,其具體結構如圖4所示.

紅外與可見光淺層特征通過卷積和Sigmoid函數激活后能夠得到一對權重 均為0~1之間的實數,并且和為1.

然后對 Fv1 與 Fi1 進行深層特征提取DF(·),得到深層特征 Fv2,DF(?) 為每層兩個TransNeXt塊結構,共四層的深層特征提取單元,其過程如下:

Fv2=DF(Fv1),Fi2=DF(Fi1

2.2特征融合

特征融合旨在整合來自不同模態的特征信息,本文采用基于交叉注意力的特征融合方法,具體流程見圖5.

圖3融合框架流程圖

Fig.3 Fusion frame process diagram

圖4信息補償模塊

圖5特征融合Fig.5 Feature fusion

為了全面整合所有維度的特征,首先使用交叉注意力機制來交互不同模態的特征.具體可以表示如下:

然后交換兩種模態的查詢 Q 以進行空間交互:

式中: dk 為縮放因子即查詢向量的維度數.最后將交叉注意力計算的結果進行拼接以得到融合特征:

Ff=Concat(Ffi,Ffv

2.3圖像重建

在充分融合紅外與可見光特征后,先采用基于Transformer的深層特征重建模塊 Rp(?) 恢復與細化融合后的特征,然后通過基于卷積層的圖像重建模塊 R(?) 減少通道數以生成最終的融合圖像.其過程可以表述為

2.4損失函數

損失函數旨在保留源圖像的顯著部分并且生成細節豐富的融合圖像.為實現這一目標,采用像素損

失保持像素級一致性,結構相似性損失保留關鍵視覺結構,梯度損失增強細節表現.損失函數具體定義為

Ltotal1Lint2Lssim3Lgrad

式中: Lint 為像素損失; Lssim 為結構相似性損失; Lgrad 為梯度損失; |?|1 表示 L1 范數; o 為輸出圖像即融合結果; Ij 為源圖像, j=1 和2時,分別代表紅外和可見光源圖像; abla 為梯度算子; Mj 為顯著區域掩膜; λ 為平衡損失函數的超參,取值為 λ1=20,λ2=10,λ3=20

2.5基于VGG19的顯著區域掩膜

為了使模型關注到源圖像更重要的部分,在損失函數中使用了顯著區域掩膜,通過VGG19計算出的顯著性圖能夠突出輸入圖像中的重要性區域.首先,使用預先訓練好的VGG-19網絡[18]提取輸入圖像的 m 組特征圖,然后通過上采樣將它們調整為與源圖像相同的比例:

?Ii*=Upsamping(?Ii*,2i-1

式中: Upsampling(X,Y) 表示對矩陣 X 進行倍數為 Y 的上采樣操作; ?Iin 是將輸入圖像 I 送入預訓練的VGG-19網絡后,在第 i 個最大池化層之前獲得的特征圖的第 n 通道.然后使用 L1 范數計算源圖像的初始活動水平圖:

AIi=?Ii1:ci1

式中: Ci 表示相應特征圖中的通道數.接下來,使用基于窗口的平均策略來處理錯位問題[18]:

式中: r 是控制窗口大小的參數.接下來,通過對這 k 個特征圖取平均值來獲得活動水平圖AM:

最后,根據以下活動水平圖計算得到顯著區域掩碼:

3實驗結果與分析

3.1實驗說明

本文選擇使用MSRS數據集[19,其包含1083對訓練圖像和361對測試圖像.在訓練過程中將訓練圖像剪切為128像素 ×128 像素大小的圖像并歸一化為[0,1],參數優化器為Adam,學習率初始化為 2× 10-4 ,訓練時Batchsize為2,訓練過程在pyTorch框架上實現.實驗仿真平臺采用Intel(R)13400fCPU,

NVIDIARTX4060TI16GGPU.

為驗證本文算法的可行性與有效性,在測試集中選定5組圖像進行實驗與分析,其大小均為640像素 ×480 像素.并將本文方法的融合結果與U2Fusion方法[20],SDNet方法[8]、SeAFusion方法[21]、PIAFusion方法[22]、DATFuse方法[23]、CDDFuse方法[24]和PSFu-sin[25] 方法進行了對比.

3.2定性分析

5組實驗的融合結果如圖6所示.前兩組測試圖為日間場景,日間場景的紅框內容為顯著紅外目標,綠框中為局部細節圖;后三組測試圖像為夜間場景,其中紅框內容為顯著的紅外目標,綠框中為燈光.通過對比實驗可以看出,U2Fusion與SDNet的結果整體泛白,沒有很好地突出顯著目標.SeAFusion、PIA-Fusion、DATFuse與PSFusion在日間場景的局部細節圖中產生了一些偽影.PIAFusion、CDDFuse、PSFusion的夜間燈光中產生了不正常的黑影.本文方法整體視覺效果更接近可見光圖像,在保留豐富局部細節的同時避免了偽影,在夜間場景中不但突出了顯著目標,還對夜間燈光具有更自然的融合效果.

圖6實驗結果

Fig.6 Experimental result

圖7是對融合結果中的顯著目標進行熱力圖與三維地形圖的定性分析,從左到右分別為源圖像、熱力圖與三維地形圖.從熱力圖中可以看出,本文方法能夠更好地平衡紅外圖像與可見光圖像的重要信息,保留紅外圖像與可見光圖像中的顯著目標,整體對比度僅次于PSFusion.從三維地形圖可以看出,

PSFusion方法整體灰度值高于源圖像,而本文方法的顯著目標灰度值更接近源圖像,更符合人眼視覺特性.

3.3定量分析

為驗證算法性能及圖像融合質量,本文采用信息熵(EN)標準差(SD)差異相關性總和(SCD)、峰值信噪比(PSNR)和像素特征互信息(FMI_pixel)進行客觀的分析.其指標均為數值越大,融合質量越好.其中基于EN、FMI_pixel、PSNR為基于信息論的評估指標,SD為基于圖像特征的評估指標,SCD為基于源圖像與生成圖像的評估指標.EN用于衡量融合圖中的信息量,FMI_pixel用于檢測像素特征信息的傳遞情況,PSNR用于衡量圖像有效信息與噪聲之間的比率,能夠反映圖像是否失真.SD代表了圖像灰度值分布情況,而SCD通過測量融合圖像與源圖像的差異來衡量信息豐富程度.

(a)紅外圖像;(b)可見光圖像;(c)U2Fusion;(d)SDNet;(e)SeAFusion

圖7顯著目標分析圖

Fig.7 Significant target analysis chart

表1為MSRS數據集中30對圖像平均定量的結果,其中加粗指標為每一項的最優指標,次優指標為加了下劃線的指標.可以看出本文方法在其中四個指標中均處于最優地位,差異相關性總和中處于次優地位.圖8為7種對比方法在30種不同圖像的指標數值折線圖.因空間限制,在圖8中,方法U2Fusion、SeAFu-sion、PIAFusion、PSFusion分別簡寫為U2、SeA、PIA、PS,而DATFuse、CDDFuse分別簡寫為DAT、CDD.

從上述對比實驗可以看出,本文方法的融合結果相較于其他對比方法,細節信息更加豐富且避免了偽影的產生,對顯著目標與夜間燈光的融合效果更加優異,整體融合效果更接近源圖像.

3.4消融實驗

為驗證本文所采用的信息補償模塊與顯著區域掩膜的有效性,通過加入不同模塊對MSRS數據集的30對圖像進行消融實驗,所有實驗均使用相同的數據集和參數設置.

表1客觀評價指標 Tab.1 Objectiveevaluationindicators

圖9中從上至下依次為紅外(IR)圖像、可見光(VIS)圖像、無信息補償模塊融合圖、無顯著區域掩膜融合圖、無信息補償模塊與顯著區域掩膜融合圖及本文方法融合圖.從圖中可以看出,無顯著區域掩膜的融合結果中的紅外目標相比本文方法亮度偏低.因此可以證明:帶顯著區域掩膜的損失函數訓練出的權重更能突出顯著目標;而無信息補償模塊的融合結果相比本文方法細節不夠豐富,說明了信息補償模塊能夠選擇性地將語義信息補充到紅外圖像的淺層特征圖中.

圖8客觀評價指標折線圖 Fig.8Line chart of objective evaluation indicators

表2為不同模塊對MSRS數據集的30對圖像定量的結果,可以看出本文方法在五項指標上均為最優,說明了信息補償模塊和顯著區域掩膜提高融合質量的有效性.綜上所述,通過消融實驗可以證明本文方法中信息補償模塊與顯著區域掩膜對融合結果有著重要作用.

圖9消融實驗對比圖

Fig.9Comparison chart of ablation experiments

表2消融實驗定量結果 Tab.2Quantitativeresultsofablationexperiments

3.5 目標檢測性能

不同的融合算法可以將紅外圖像和可見光圖像的互補信息進行融合,目標檢測作為高級計算機視覺任務能夠反映融合圖像中的語義信息.本文采用YOLOv5[26] 來評估融合圖像上的行人目標檢測性能.從MSRS數據集中選擇80幅圖像作為測試集.圖10上方為01348N夜間場景,下方為00209D日間場景,01348N中可見光圖像難以對低光照下的目標進行檢測,融合后的圖像通常會削弱顯著目標,導致行人目標檢測效果往往低于紅外圖像.U2Fusion與SDNet雖然較好地提高了檢測效果,但U2Fusion融合結果與源圖像視覺效果相差過大,SDNet整體偏暗缺少細節信息,本文方法能夠在視覺效果接近可見光圖像的同時行人檢測性能僅稍遜于紅外圖像.00209D中紅外圖像由于信息不夠豐富,導致其將車身反光檢測為行人,并且忽略了圖像中間位置站在車前的行人,融合后圖像通過信息互補獲得豐富的紋理細節信息與高對比度,有助于提高行人檢測的精度,而本文方法相較其他方法對00209D右側的行人具有更好的檢測效果.

圖10目標檢測結果對比圖

Fig.10 Comparisonchart of object detectionresults

本文進一步用定量指標來衡量行人檢測任務,如表3所示,其中加粗指標為最優指標,加了下劃線的指標為次優指標.精確率(Precision) P 表示所有預測為正的樣本都是真實樣本的概率,精確率越大,檢測到的正樣本越多.召回率 (Recall)R 用于衡量從實際的正樣本預測為正樣本的概率,召回率越大,漏掉的檢測結果越少 .mAP@0.50.mAP@0.75 分別表示置信度閾值為0.5和0.75時的平均精度(mAP)值 .mAP@[0.5 0.95表示IoU閥值從0.5到0.95,步長為0.05,所有mAP的平均值.平均精度 (mAP) 越接近1,行人檢測效果越好.本文方法在精確率和 mAP@0.75 上取得了最優,在其他各項指標取得了次優.綜上所述,本文方法顯著提高了行人檢測性能,表明本文方法的融合結果具有更豐富的語義信息,適用于高級計算機視覺任務.

4結論

本文提出了一種基于TransNeXt的圖像融合方法,對源圖像通過卷積神經網絡CNN進行淺層特征提取后,通過對紅外圖像進行信息補償使后續TransNeXt能夠更好地進行深層特征提取,然后通過基于交叉注意力的融合模塊進行特征融合,以保留更多的細節信息.在網絡訓練部分采用基于VGG19顯著區域掩膜的損失函數更好地保留源圖像中更重要的信息.實驗結果證明,本文方法細節信息豐富并且不易產生偽影,對夜間場景的燈光具有更好的融合效果,更符合人眼視覺特性.為了進一步提升紅外與可見光圖像融合的效果,將繼續改進網絡的具體架構,以更好地適應不同的融合場景和需求,提高融合圖像在計算機視覺高級任務中的性能.

表3行人檢測性能

Tab.3 Pedestriandetectionperformance

參考文獻

[1]LEI J,LI J,LIU J,et al. GALFusion: multi-exposure image fusion via aglobal-local aggregation learning network[J].IEEE Transactions on Instrumentation and Measurement,2O23,72: 1-15.

[2]RAODY,XUTY,WUXJ.TGFuse:aninfrared and visible image fusion approach based on transformer and generative adversarial network[J]. IEEE Transactions on Image Processing, 2023.

[3]LIH,QI X,XIE W.Fast infrared and visible image fusion with structural decomposition[J].Knowledge-Based Systems,2020, 204:106182.

[4]MA JY,MAY,LIC. Infrared and visible image fusion methods and applications:a survey[J].Information Fusion,2019,45: 153-178.

[5]ZHANG H,XU H,TIAN X,et al. Image fusion meets deep learning:a survey and perspective[J]. Information Fusion,2021, 76:323-336.

[6]MAJY,XUH,JIANGJJ,et al. DDcGAN:a dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]. IEEE Transactions on Image Processing,2020, 29:4980-4995.

[7]LIH,WU XJ,KITTLERJ. RFN-Nest:an end-to-end residual fusionnetwork for infrared and visible images[J].Information Fusion,2021,73:72-86.

[8]ZHANG H,MA J Y. SDNet:a versatile squeeze-anddecompositionnetworkforreal-timeimagefusion [J]. International Journal of Computer Vision,2021,129(10):2761- 2785.

[9]SHEN S,LI D,MEI L Y,et al. DFA-net: multi-scale dense feature-aware network via integrated attention for unmanned aerial vehicle infraredand visibleimage fusion[J].Drones, 2023,7(8): 517.

[10]VASWANIA,SHAZEERN,PARMARN,et al. Attention is all youneed [J].Advances in Neural Information Processing Systems,2017,30(1):261-272.

[11]WANG ZS,CHENYL,SHAO WY,et al. SwinFuse:a residual swin transformer fusion network for infrared and visible images [J].IEEE Transactions on Instrumentation and Measurement, 2022,71:1-12.

[1Z」LIU Z,HU H, LIN Y T,et al. Swin transtormer VZ: scaling up capacityand resolution[C]/Proceedings of the IEEE/CVF Conference on Computer Vision and Patern Recognition. 2022: 12009-12019.

[13]TANGW,HEFZ,LIUY,etal.DATFuse:infraredandvisible imagefusion via dual attention transformer[J].IEEE Transactions on Circuits and Systems for Video Technology,2023, 33(7):3159-3172.

[14]DOSOVITSKIY A,BEYER L,KOLESNIKOV A, et al. An image is worth 16x16 words:Transformers for image recognition at scale [J/OL].arXiv preprint arXiv:2010.11929,2020.

[15]SHI D.TransNeXt:robust foveal visual perception for vision transformers [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024:17773-17783.

[16]SHAZEER N.GLU variants improve transformer[J/OL].arXiv preprint arXiv:2002.05202,2020.

[17]LI H,WU X J.CrossFuse:a novel cross attention mechanism based infrared and visible image fusion approach [J/OL]. Information Fusion,2024,103:102147.

[18]SIMONYAN K,ZISSERMAN A.Very dee convolutional networks for large-scale image recognition[J/OL].arXiv preprint arXiv:1409.1556,2014.

[19]LIU Y,CHENX,WARD RK,et al.Image fusion with convolutional sparse representation[J].IEEE Signal Processing Letters,2016,23(12):1882-1886.

[20]XU H,MAJY,JIANGJJ,et al. U2Fusion:a unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,44(1):502-518.

[21]TANG L F,YUAN JT,MA JY. Image fusion in the loop of highlevel vision tasks:a semantic-aware real-time infrared and visible image fusion network[J]. Information Fusion,2022,82:28-42.

[22]TANG L F, YUAN J T, ZHANG H,et al.PIAFusion: a progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion,2022,83:79-92.

[23]TANG W,HE F Z,LIU Y,et al. DATFuse: infrared and visible image fusion via dual attention transformer[J]. IEEE Transactions on Circuitsand Systems for Video Technology,2023,33(7): 3159-3172.

[24]ZHAO ZX,BAI HW,ZHANGJS,et al. CDDFuse:correlationdriven dual-branch feature decomposition for multi-modality image fusion[C]/Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023:5906-5916.

[25]TANG LF,ZHANG H,XU H,et al. Rethinking the necessity of image fusion in high-level vision tasks:a practical infrared and visible image fusion network based on progressive semantic injection and scene fidelity[J].Information Fusion,2023,99: 101870.

[26]REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 779-788.

主站蜘蛛池模板: 久久久久久国产精品mv| 国产日韩欧美精品区性色| 日韩精品欧美国产在线| 亚洲欧洲日韩综合| 久久人搡人人玩人妻精品| 亚洲欧美日韩动漫| 亚洲黄色高清| 伊人色在线视频| 国产精品福利一区二区久久| 久久久久国产一区二区| 婷婷99视频精品全部在线观看| 免费一级成人毛片| 这里只有精品在线| 91在线免费公开视频| 亚洲成人在线网| 亚洲天堂日本| 天堂中文在线资源| 国产精品第5页| 操美女免费网站| 亚洲AV无码精品无码久久蜜桃| 色网站在线视频| 久久国产精品电影| 中文字幕亚洲综久久2021| 97se亚洲| 在线综合亚洲欧美网站| 日韩精品一区二区三区大桥未久 | 精品少妇人妻无码久久| AV天堂资源福利在线观看| 香蕉综合在线视频91| 国产白浆视频| 久久91精品牛牛| 青青草91视频| 日韩欧美国产精品| 九九精品在线观看| 欧美日韩福利| 91精品人妻互换| 人妻无码一区二区视频| 色综合中文综合网| 欧美一区精品| 国产在线一区视频| 欧美成人综合在线| 亚洲制服中文字幕一区二区| 99r在线精品视频在线播放| 欧美一级99在线观看国产| 国产一级二级三级毛片| 999福利激情视频| 国产精品久久自在自线观看| 国产人成在线视频| 网久久综合| 91视频99| 午夜电影在线观看国产1区| 精品国产毛片| 伊人色天堂| 在线毛片网站| 91福利免费| 亚洲天堂高清| 在线播放国产一区| 在线欧美日韩| 国产成人亚洲毛片| 无码网站免费观看| 国产肉感大码AV无码| 久久国产精品77777| 永久成人无码激情视频免费| 欧美影院久久| 国产新AV天堂| 91网址在线播放| 亚洲不卡网| 亚洲av色吊丝无码| 欧美日韩精品在线播放| 乱人伦视频中文字幕在线| 毛片视频网| 国产成人毛片| 全午夜免费一级毛片| 日本欧美在线观看| a级毛片毛片免费观看久潮| 久久成人18免费| 欧美精品另类| 特级aaaaaaaaa毛片免费视频| 国产麻豆永久视频| 亚洲中文无码av永久伊人| 成人福利在线免费观看| 国产成本人片免费a∨短片|