郝明達(dá),普運(yùn)偉,2,周家厚,楊洋,陳如俊
(1.昆明理工大學(xué) 國土資源工程學(xué)院,昆明 650093;2.昆明理工大學(xué) 計(jì)算中心,昆明 650500)
航空(含無人機(jī))高光譜遙感已成為對(duì)地觀測(cè)的重要途經(jīng)[1],更高的空間分辨率和光譜分辨率提高了對(duì)地物屬性信息的探測(cè)能力。然而,航空高光譜遙感數(shù)據(jù)在采集過程主要受到硬件的限制,如果可以通過模型的方法建立起特征區(qū)域中航空RGB影像和高光譜遙感影像之間的映射關(guān)系,從而預(yù)測(cè)其他區(qū)域的高光譜遙感影像,將有助于降低對(duì)地觀測(cè)應(yīng)用的成本。一種可行的辦法是對(duì)模型結(jié)構(gòu)進(jìn)行改進(jìn),以提高模型的精度和效率,進(jìn)而推動(dòng)高光譜遙感影像更大的應(yīng)用可能性。
2017年前,人們主要基于線性變換的方法建立影像之間的映射關(guān)系,從而生成高光譜遙感影像,隨著深度學(xué)習(xí)方法的加入提高了生成星載高光譜遙感影像的精度[2]。之后,Arad 等[3-4]推出的NTIRE 2018、2020 競(jìng)賽促進(jìn)了深度學(xué)習(xí)模型的更迭;施展[5]基于深度學(xué)習(xí)提出了高光譜圖像的空譜超分辨率重建算法;Zhao 等[6]提出的四級(jí)層次回歸模型通過采用密集殘差塊(residual dense block)[7]去除了生成高光譜自然圖像過程中產(chǎn)生的偽影;Li等[8]加入注意力機(jī)制到模型中,實(shí)現(xiàn)了先進(jìn)的影像重建質(zhì)量。這些方法的發(fā)展對(duì)多光譜影像生成高光譜遙感影像起到了借鑒作用,如He等[9]通過光譜響應(yīng)函數(shù)引導(dǎo)神經(jīng)網(wǎng)絡(luò)生成了高光譜遙感影像;Deng等[10]開發(fā)了M2H-Net模型用于機(jī)載多光譜遙感影像生成高光譜遙感影像,從而預(yù)測(cè)多光譜遙感影像的光譜信息。
上述研究對(duì)建立航空RGB影像和高光譜遙感影像之間的映射關(guān)系給出一種可行的研究思路,本文通過結(jié)合密集卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)和自適應(yīng)注意力塊提出一種新型密集注意力卷積神經(jīng)網(wǎng)絡(luò)模型。在保證影像生成質(zhì)量的條件下,顯著降低了現(xiàn)有深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)模型參數(shù)量,帶來了更多的效率提升。通過在真實(shí)的多模態(tài)(航空RGB影像和高光譜遙感影像是由不同傳感器獲取的)AeroRIT 場(chǎng)景[11]影像和同源的(航空RGB影像是由高光譜遙感影像根據(jù)光譜響應(yīng)函數(shù)模擬生成)雄安航空感影像中進(jìn)行定量對(duì)比實(shí)驗(yàn)和分析,驗(yàn)證了所提方法的可行性和良好性能。
RGB影像X與高光譜影像Y像素之間存在某種線性關(guān)系[12],這種線性關(guān)系可以用式(1)表示。
Ym×c=Xm×n·Sn×c+Bm×c
(1)
式中:m表示單波段中的像素?cái)?shù);c表示高光譜影像中的波段;n表示RGB影像中的波段數(shù);S表示RGB影像和高光譜影像之間的轉(zhuǎn)換矩陣;B表示偏差。神經(jīng)網(wǎng)絡(luò)的發(fā)展為尋找優(yōu)化X與Y之間的最佳映射關(guān)系提供了助力。
Wang 等[13]說明了將注意力機(jī)制與殘差卷積塊相連接,可以使上一層次的注意力圖來引導(dǎo)下一層次注意力圖的生成從而增強(qiáng)上下文信息。相較于殘差連接中對(duì)特征的求和,密集殘差連接則是通過組合多個(gè)特征,可以獲得更好的性能,所以,本文選擇在文獻(xiàn)[6]所使用的密集塊中插入注意塊,構(gòu)建密集注意力卷積神經(jīng)網(wǎng)絡(luò)模型,增強(qiáng)了特征提取和映射能力。一方面,每層注意力圖都有N-1層輸入,注意力塊對(duì)不同層的注意力圖進(jìn)行綜合,生成第N層的注意力圖,提高了不同注意力圖之間的知識(shí)共享。另一方面,注意力圖在多個(gè)注意力塊下進(jìn)行更迭,對(duì)后續(xù)層的注意力圖進(jìn)行指導(dǎo),提高了生成注意力圖的質(zhì)量。因此高光譜影像重建質(zhì)量得以提升,密集注意力神經(jīng)網(wǎng)絡(luò)模型的架構(gòu)思想如圖1所示。

圖1 在密集卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中添加注意力塊
其中,所使用的密集卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)是通過在相鄰的層之間使用更短的連接組合多個(gè)特征,緩解了梯度消失問題,加強(qiáng)了特征傳播、鼓勵(lì)了特征重用,因此,可以訓(xùn)練更深的模型結(jié)構(gòu),使之更加有效。后續(xù)層引入了前面所有層的特征圖,如式(2)所示。
XN=FN([X0,X1,…,XN-1])
(2)
式中:[x0,x1,…,xN-1]是指從0,…,N-1層生成的特征圖。通過密集連接函數(shù)F(·)將多個(gè)輸入組合為一個(gè)張量。
在特征提取和映射階段,使用Mou 等[14]提出的雙分支融合模塊(dual-branch fusion module,DFM)作為本文使用的注意力模塊。因采用輕量級(jí)注意力塊,使得模型參數(shù)量減少,同時(shí)又可以充分利用影像中的空間相關(guān)性和光譜相關(guān)性。為了進(jìn)一步提高特征映射中通道的相關(guān)性,可引入文獻(xiàn)[8]提出的自適應(yīng)通道注意力模塊進(jìn)行通道加權(quán),從而構(gòu)建出本文所使用的融合DFM與自適應(yīng)通道注意力的注意力模塊,如圖2所示。

圖2 修改后的DFM融合注意力模塊
(3)

具體來說,首先通過元素加法合并來自兩個(gè)分支的特征圖,然后通過使用一個(gè)全局池化產(chǎn)生全局特征向量v,用于指導(dǎo)局部操作和非局部操作之間的精確自適應(yīng)選擇。之后,通過兩個(gè)全連接層生成兩個(gè)權(quán)值向量wNL,wL,用于在兩個(gè)結(jié)果中進(jìn)行自適應(yīng)通道選擇。
本文提出的DACNN model(dense attention convolutional neural network model)由單個(gè)密集注意力塊(dense attention block,DA Block)加輸入卷積塊(3×3卷積核)和映射卷積塊(3×3卷積核)構(gòu)建。單個(gè)DA塊中包含5個(gè)帶有P個(gè)Relu卷積塊和5個(gè)修改后的DFM塊進(jìn)行密集殘差連接。
用于本文航空RGB影像光譜增強(qiáng)所用的主模型如圖3所示,圖4為主模型使用的密集注意力塊。

圖3 本文所使用的密集注意力卷積神經(jīng)網(wǎng)絡(luò)主模型

圖4 密集注意力塊
AeroRIT 場(chǎng)景數(shù)據(jù)是由Rangnekar 等在羅切斯特理工學(xué)院校園上空通過塞斯納飛機(jī)攜帶兩種類型的攝像系統(tǒng)采集的,其中包含RGB影像、輻射率影像、反射率影像和分類標(biāo)簽影像。由于航空RGB影像和高光譜數(shù)據(jù)是由不同設(shè)備采集地,因此本節(jié)將其定義為多模態(tài)影像。RGB和高光譜影像均已經(jīng)過正射校正和光譜定標(biāo)。其中,AeroRIT場(chǎng)景的光譜范圍是400~900 nm之間,按照每10 nm進(jìn)行取樣,共提供了51個(gè)可用波段,高光譜數(shù)據(jù)的單位為Wm-2sr-1um-1。同時(shí)使用ENVI 通過經(jīng)驗(yàn)線模型(ELM)對(duì)定標(biāo)后的輻射影像進(jìn)行了表面反射率計(jì)算,并對(duì)高光譜影像進(jìn)行了像素級(jí)標(biāo)注。
在AeroRIT 場(chǎng)景左、中、右3個(gè)部分中取出部分?jǐn)?shù)據(jù)作為訓(xùn)練集、驗(yàn)證集、測(cè)試集,以32的重疊度切分為64像素×64像素的圖像塊。其中訓(xùn)練集共有3 127張、驗(yàn)證集共有177張、測(cè)試集共有626張,保證各數(shù)據(jù)集之間無像素重疊泄露。對(duì)RGB影像除以214、輻射率影像限制在[0,214]除以214、反射率影像限制在[0,100]除以100歸一化到[0,1]之間。
在訓(xùn)練過程中,設(shè)置模型的批量大小為20,優(yōu)化算法為Adam,學(xué)習(xí)率初始化為0.000 1,使用多項(xiàng)式冪為1.5的學(xué)習(xí)率衰減策略,訓(xùn)練100次后停止。選取L1作為損失函數(shù),如式(4)所示。
L1=E[‖X-Y‖1]
(4)
算法在Pytorch框架上實(shí)現(xiàn),在Tesla P100 GPU進(jìn)行訓(xùn)練驗(yàn)證,在Tesla K80 GPU和GeForce GTX 960上進(jìn)行測(cè)試。
實(shí)驗(yàn)中選取平均峰值信噪比(MPSNR)、平均結(jié)構(gòu)相似性(MSSIM)、均方根誤差(RMSE)、光譜角(SAM) 4個(gè)評(píng)估指標(biāo)來定量評(píng)估模型的質(zhì)量。
為了驗(yàn)證提出新型網(wǎng)絡(luò)架構(gòu)生成高光譜影像的精度,采用本文所提DACNN模型和DenseUnet模型、HRnet模型和AWAN模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行實(shí)驗(yàn),各種模型所生成輻射率校準(zhǔn)和反射率校準(zhǔn)的高光譜影像精度對(duì)比如表1和表2所示。
由表1和表2可知,本文所提的DACNN模型所生成的輻射率影像的MPSNR指標(biāo)值為29.132 7,比AWAN模型高0.03,比HRnet模型高1.24,比DenseUnet模型高2.50。生成反射率影像的MSSIM指標(biāo)值為0.964,比AWAN模型高0.001,比HRnet模型高0.005,比DenseUnet模型高0.025。所生成反射率影像的RMSE指標(biāo)值為0.029,比AWAN模型低0.001 3,比HRnet模型低0.003,比DenseUnet模型低0.004,均具有最好的性能。同時(shí),因?yàn)椴捎昧溯p量級(jí)的注意力機(jī)制,相比較其他模型上百兆的權(quán)重參數(shù),新型網(wǎng)絡(luò)架構(gòu)僅需要23 MB的權(quán)重參數(shù)就可以實(shí)現(xiàn)與AWAN 200 MB權(quán)重參數(shù)相媲美的效果。

表1 生成輻射率校準(zhǔn)高光譜影像精度

表2 生成反射率校準(zhǔn)高光譜影像精度
為了驗(yàn)證提出新型網(wǎng)絡(luò)架構(gòu)生成高光譜影像的精度,采用本文所提DACNN模型、DenseUnet模型、HRnet 模型和AWAN模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行實(shí)驗(yàn),所生成的高光譜影像如圖5所示。在實(shí)驗(yàn)過程中,HRnet 模型和DenseUnet 模型均使用密集卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),AWAN模型則使用空間注意力、通道注意力和非局部注意力模塊。對(duì)AWAN模型去除了光譜響應(yīng)函數(shù)損失替換為L(zhǎng)1進(jìn)行訓(xùn)練。所有模型在相同的訓(xùn)練次數(shù)和訓(xùn)練批次下進(jìn)行訓(xùn)練。

注:所選取的感興趣區(qū)域(棒球場(chǎng)、道路、草地)由圖(A)航空RGB影像和圖(B)灰度圖所示。其中,原始影像和DenseUnet、HRnet、AWAN、DACNN算法生成的輻射率影像由子圖(a)~(e)所示,生成的反射率影像由子圖(f)~(j)所示,生成的輻射率影像一階導(dǎo)數(shù)圖由子圖(k)~(o)所示,生成的反射率影像一階導(dǎo)數(shù)圖由子圖(p)~(t)所示。子圖(a)~(t)的影像均采用高光譜影像的(40,2,10)波段合成。
通過查看對(duì)比圖5中這些影像的數(shù)據(jù),可以發(fā)現(xiàn)本文模型生成得到的影像在顏色、紋理和形狀細(xì)節(jié)方面與原始影像相似,同時(shí)注意力機(jī)制的加入,深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)影像中的部分地物具有更加突出的關(guān)注,建立了遠(yuǎn)程像素之間的關(guān)系。通過與原始一階高光譜影像的對(duì)比可以發(fā)現(xiàn),重建后的高光譜影像減少了原始圖像中的噪聲。
為了進(jìn)一步驗(yàn)證DACNN模型生成高光譜影像精度,在影像中選取棒球場(chǎng)、路、草地,將各種算法生成高光譜曲線與原始對(duì)象進(jìn)行對(duì)比,結(jié)果如圖6、圖7所示。
在高光譜遙感影像光譜曲線中,有關(guān)地物屬性的信息表現(xiàn)在光譜曲線的波峰和波谷,為了區(qū)分重建后高光譜影像與原始高光譜影像同一地物下光譜曲線的細(xì)微變化,本文通過光譜微分技術(shù)對(duì)光譜特征的差異性進(jìn)行了增強(qiáng)處理,通過計(jì)算地物的一階導(dǎo)數(shù),可以在梯度上觀察反射光譜曲線的細(xì)微變化。由圖6、圖7可以觀察到相對(duì)于道路,模型對(duì)棒球場(chǎng)和草地的擬合難度高,且相對(duì)于輻射率影像,模型在反射率影像中的擬合難度高,雖然多個(gè)模型均可以獲得與原始高光譜影像相似的光譜曲線,但在圖7中可以更好觀察到本文模型在波峰和波谷更接近原始高光譜影像。

注:從原始影像和DenseUnet、HRnet、AWAN、DACNN算法生成影像所選取的棒球場(chǎng)、道路、草地3個(gè)感興趣區(qū)域中提取的光譜曲線的對(duì)比圖如子圖(a)~(c)所示,進(jìn)行一階導(dǎo)數(shù)光譜增強(qiáng)后生成的對(duì)比圖如子圖(d)~(f)所示。

注:從原始影像和DenseUnet、HRnet、AWAN、DACNN算法生成影像所選取的棒球場(chǎng)、道路、草地3個(gè)感興趣區(qū)域中提取的光譜曲線的對(duì)比圖如子圖(a)~(c)所示,進(jìn)行一階導(dǎo)數(shù)光譜增強(qiáng)后生成的對(duì)比圖如子圖(d)~(f)所示。
為了驗(yàn)證模型在不同傳感器、不同區(qū)域上的泛化性能,選擇了雄安新區(qū)航空高光譜遙感影像數(shù)據(jù)集進(jìn)行了進(jìn)一步分析,其中高光譜數(shù)據(jù)集是由中國科學(xué)院上海技術(shù)物理研究所研制的高分專項(xiàng)航空系統(tǒng)全譜段多模態(tài)成像高光譜儀采集的,光譜范圍在400~1 000 nm之間,同樣每10波段進(jìn)行采樣,共使用了51個(gè)波段。其中RGB影像的生成是通過光譜響應(yīng)函數(shù)對(duì)高光譜數(shù)據(jù)進(jìn)行光譜重采樣生成,本文使用的是高分一號(hào)(GF1-WFV)的光譜響應(yīng)函數(shù),此處也可選擇其他光譜響應(yīng)函數(shù)生成RGB影像。可見,航空RGB影像是由高光譜遙感影像模擬生成,因此本節(jié)將其定義為同源影像。模型在不同傳感器上所生成的高光譜影像精度對(duì)比結(jié)果如表3所示。

表3 模型在不同傳感器上生成高光譜影像精度對(duì)比
從表3可知,本文提出的輕量級(jí)模型生成的高光譜遙感影像在SAM指標(biāo)上的值是0.982 1,相比于AWAN上低0.03,相比于HRnet模型低0.38,相比于DenseUnet模型低0.85。
此外,生成的雄安航空高光譜遙感與原始高光譜遙感影像的空間和光譜對(duì)比圖如圖8所示。由圖8可知,本文模型生成的高光譜影像在空間和光譜上均與原始高光譜影像相似,并且可觀察到生成的高光譜影像中噪聲信息顯著減少,實(shí)驗(yàn)結(jié)果表明本文模型具有較好的泛化性能。

注:子圖(b)、子圖(c)均采用高光譜影像的波段合成(40,2,10)。
本文通過在真實(shí)的多模態(tài)AeroRIT 場(chǎng)景影像和同源的雄安航空遙感影像中進(jìn)行實(shí)驗(yàn),由表1至表3的定量結(jié)果可以觀察到不同模型方法在同源影像上的精度遠(yuǎn)高于在真實(shí)多模態(tài)影像下的精度,這說明了在真實(shí)的多模態(tài)遙感影像場(chǎng)景下,建立不同影像之間的映射關(guān)系更加困難,更值得去關(guān)注模型在真實(shí)場(chǎng)景下的應(yīng)用性能。由圖5、圖8的生成高光譜影像質(zhì)量圖可以觀察到,通過模型生成的影像的噪聲水平顯著低于原始高光譜遙感影像。由圖6至圖8的典型地物光譜曲線對(duì)比可知,通過本文模型的方法獲取到的高光譜影像與原始高光譜影像更加相似,且參數(shù)量顯著下降,這有助于提高算法的性能。
綜上,航空RGB影像結(jié)合深度學(xué)習(xí)可以學(xué)習(xí)到與原高光譜影像相似的光譜曲線,但是針對(duì)生成高光譜遙感影像中光譜曲線的光譜變異性研究仍然需要定量化計(jì)算。相比較航空RGB影像寬的光譜間隔,學(xué)習(xí)到的光譜曲線帶有更多可區(qū)分性的特征,因此針對(duì)航空RGB影像、生成高光譜遙感影像和原始高光譜遙感影像進(jìn)行進(jìn)一步的精細(xì)分類有助于比較模型的性能。另一方面,在大面積航空影像上,仍然需要選擇和采集某個(gè)地區(qū)或者多個(gè)地區(qū)的時(shí)序高光譜影像生成特征影像庫,并與算法結(jié)合分析對(duì)其他區(qū)域生成高光譜影像的影響。另外要研發(fā)更高效、質(zhì)量更高符合遙感定量化研究的生成算法,以及在神經(jīng)網(wǎng)絡(luò)對(duì)參數(shù)的優(yōu)化作用,以更好地驅(qū)動(dòng)光譜特征對(duì)航空影像空間紋理特征的輔助作用。
本文提出密集注意力卷積神經(jīng)網(wǎng)絡(luò)模型,通過密集注意力卷積架構(gòu)和注意力機(jī)制結(jié)合,用于從航空RGB影像預(yù)測(cè)高光譜影像中的地物屬性信息。實(shí)驗(yàn)結(jié)果表明,所提模型可以生成與原高光譜影像相似的光譜特征和空間特征,同時(shí)在保證生成影像質(zhì)量的條件下,顯著減少了模型的參數(shù)量,為航空RGB影像生成高光譜遙感影像提供更高的效率,表明本文模型具有良好的性能和適用性,并且模型架構(gòu)方法具有一定的通用性。雖然對(duì)于真實(shí)的多模態(tài)影像生成高光譜遙感影像會(huì)有地物屬性信息的丟失,但是相對(duì)于RGB影像來說,通過模型方法預(yù)測(cè)生成光譜信息將給航空RGB影像帶來了更多的應(yīng)用潛力。需要說明的是,本文選取的是部分波段進(jìn)行實(shí)驗(yàn),因此仍具有一定局限性,對(duì)于上百個(gè)通道的高光譜影像進(jìn)行分析時(shí),有必要進(jìn)一步優(yōu)化模型結(jié)構(gòu),減少內(nèi)存占用,提高運(yùn)算效率。顯然,大模型可能具有更強(qiáng)的泛化性和魯棒性,但必然會(huì)增加運(yùn)行成本,在諸如航空(無人機(jī))等限制計(jì)算資源的設(shè)備上進(jìn)行實(shí)時(shí)分析時(shí),高效便捷的模型顯得尤為重要。在后續(xù)的研究中,我們將以提高RGB影像重建后的高光譜遙感影像的地物分辨能力為目標(biāo),展開更深入細(xì)致的研究,以提高所提模型和方法的工程適用性。