基于MobileViT 輕量化網(wǎng)絡(luò)的遙感圖像分類方法研究

2023-08-02 23:44:48黃明輝

南方農(nóng)機(jī) 2023年16期

程忠，黃明輝

（長(zhǎng)安大學(xué)工程機(jī)械學(xué)院，陜西西安 710000）

0 引言

近年來(lái)，隨著科學(xué)技術(shù)的快速發(fā)展，高分辨率的遙感圖像被輕易獲取，并廣泛應(yīng)用于城鄉(xiāng)規(guī)劃、環(huán)境保護(hù)、地理位置檢索和空間目標(biāo)檢測(cè)等領(lǐng)域。遙感圖像分類作為一種重要的技術(shù)手段，可以幫助城鄉(xiāng)規(guī)劃部門更好地了解和掌握當(dāng)?shù)氐淖匀画h(huán)境和人文地理特征，從而制定更加科學(xué)合理的城市規(guī)劃方案。因此，研究如何有效地提升遙感圖像分類的分類精度與泛化性能具有重要的現(xiàn)實(shí)意義和實(shí)際應(yīng)用價(jià)值。

早期遙感圖像分類方法假定相同類別的場(chǎng)景應(yīng)該共享相似的特征信息，根據(jù)人類視覺的特點(diǎn)直接設(shè)計(jì)特征本身并計(jì)算相似度。遙感圖像分類任務(wù)中主要面臨的是類內(nèi)差異大而類間差異小的問題。為解決上述問題，王李祺等[1]提出基于注意卷積模塊（ACM）的MoblieNetv2 模型框架，有效地提高了網(wǎng)絡(luò)分類性能，但是此方法并不能很好地捕捉到遙感圖像的全局信息。吳奕恒等[2]提出了融合掩碼重建和對(duì)比學(xué)習(xí)的三階段自監(jiān)督遙感圖像分類新模型——對(duì)比掩碼自編碼器，但是此方法過(guò)于煩瑣，且需對(duì)輸入的不同尺度的圖片進(jìn)行微調(diào)。

針對(duì)遙感圖像分類任務(wù)，為使模型精確捕獲高層語(yǔ)義信息的同時(shí)降低計(jì)算復(fù)雜度，本研究提出了基于MobileViT 輕量化網(wǎng)絡(luò)的遙感圖像分類方法，MobileViT 融合了卷積神經(jīng)網(wǎng)絡(luò)和Vision Transformer，可提取圖像中類別的局部信息和全局信息；引入GridMask 圖像增強(qiáng)方法，在數(shù)據(jù)預(yù)處理階段適當(dāng)?shù)貏h除冗余信息，可加快訓(xùn)練速度。為提高模型的訓(xùn)練速度和準(zhǔn)確率，引入遷移學(xué)習(xí)，將在ImageNet 數(shù)據(jù)集中訓(xùn)練好的權(quán)重遷移到遙感圖像的識(shí)別中。經(jīng)驗(yàn)證，在AID 測(cè)試集的準(zhǔn)確率達(dá)95.0%，在RSD46-WHU測(cè)試集的準(zhǔn)確率達(dá)87.4%。

1 模型構(gòu)建

1.1 MobileViT 網(wǎng)絡(luò)結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)使用固定尺寸大小的卷積核對(duì)圖片進(jìn)行特征提取，僅能獲取局部特征信息，需要通過(guò)疊加多層網(wǎng)絡(luò)來(lái)進(jìn)一步獲得全局特征。Vision Transformer（ViT）采用Attention 機(jī)制可以實(shí)現(xiàn)全局特征提取，但缺乏權(quán)值共享和稀疏連接，模型參數(shù)過(guò)多導(dǎo)致訓(xùn)練時(shí)間長(zhǎng)且需要高算力，并且對(duì)于不同尺度的輸入圖像需要微調(diào)[3-10]。為了減少參數(shù)同時(shí)保持準(zhǔn)確率，本研究提出了基于MobileViT 模型的遙感圖像檢測(cè)，它將卷積和ViT 相結(jié)合并用于遙感圖像特征提取中。MobileViT特征提取流程如圖1所示。

圖1 MobileViT 特征提取流程

MobileViT[6-8]最核心的模塊——MViT 模塊如圖1 所示，首先將特征圖通過(guò)一個(gè)卷積核大小為3×3 的卷積層進(jìn)行局部特征建模，然后通過(guò)一個(gè)卷積核大小為1×1 的卷積層調(diào)整通道數(shù)。接著通過(guò)Transformer結(jié)構(gòu)進(jìn)行全局的特征建模，然后再通過(guò)一個(gè)卷積核大小為1×1 的卷積層將通道數(shù)調(diào)整回原始大小。接著通過(guò)shortcut 捷徑分支與原始輸入特征圖進(jìn)行Concat拼接（沿通道channel 方向拼接），最后再通過(guò)一個(gè)卷積核大小為3×3的卷積層做特征融合得到輸出。

1.2 Transformer結(jié)構(gòu)原理

Transformer 結(jié)構(gòu)[9-10]首先對(duì)輸入的每個(gè)特征圖劃分Patch，假設(shè)Patch 大小為2×2，即每個(gè)Patch 由4個(gè)小特征圖組成。對(duì)Patch 后的特征層通過(guò)reshape操作進(jìn)行展平并進(jìn)行自注意力計(jì)算，此時(shí)每個(gè)小特征圖只和自己顏色相同的小特征圖進(jìn)行關(guān)聯(lián)，以此達(dá)到減少計(jì)算量的目的，最后拼接回原特征圖。需要進(jìn)行Patch操作的原因有以下兩點(diǎn)：

1）圖像數(shù)據(jù)本身存在大量的數(shù)據(jù)冗余，比如對(duì)于較淺層的特征圖、相鄰像素間信息并無(wú)太大差異，此時(shí)增加的計(jì)算成本遠(yuǎn)大于精度提升上的收益。

2）由于Transformer 操作之前已通過(guò)3×3 的卷積層進(jìn)行局部建模，此時(shí)已經(jīng)對(duì)相鄰區(qū)域提取過(guò)一次特征信息。

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)通過(guò)連接遠(yuǎn)程服務(wù)器進(jìn)行訓(xùn)練，操作系統(tǒng)為Ubuntu 18.04.3、GPU 為NVIDIA RTX 4090、顯存為24 G。實(shí)驗(yàn)環(huán)境為python 3.7，anaconda 2020.11 和CUDA 11.1，深度學(xué)習(xí)模型框架為pytorch 1.81。

2.2 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理

為了驗(yàn)證所提模型的有效性和適用性，本研究使用AID 和RSD46-WHU 兩個(gè)公共數(shù)據(jù)集進(jìn)行驗(yàn)證試驗(yàn)。其中，AID 是遙感圖像場(chǎng)景分類任務(wù)中常用的數(shù)據(jù)集；RSD46-WHU 與AID 相比，場(chǎng)景類別豐富，具有更高的類間相似性。為防止過(guò)擬合，實(shí)驗(yàn)中采用的數(shù)據(jù)增強(qiáng)方式有：1）隨機(jī)旋轉(zhuǎn)，對(duì)圖像進(jìn)行0～180°的隨機(jī)旋轉(zhuǎn)，模擬圖像獲取過(guò)程中角度的隨機(jī)性。2）隨機(jī)添加噪點(diǎn)，保持圖像原始尺寸不變的條件下，對(duì)圖像添加噪點(diǎn)，模擬檢測(cè)過(guò)程中受遮擋影響造成的物體情況。3）飽和度以及色度的調(diào)整，模擬檢測(cè)過(guò)程中物體受光線的影響情況。

2.3 模型的訓(xùn)練與測(cè)試

實(shí)驗(yàn)分別采用MobileNet-V2、MobileViT 對(duì)遙感圖像進(jìn)行建模分析。實(shí)驗(yàn)中，以8∶2 的比例劃分訓(xùn)練集和測(cè)試集，訓(xùn)練輪次（Epoch）設(shè)置為100 輪，Bacth Size 的大小為8，優(yōu)化器為Adam，學(xué)習(xí)率為固定值0.000 2。測(cè)試集的準(zhǔn)確率如表1所示，結(jié)果展示及對(duì)比如表2所示。

表1 測(cè)試集準(zhǔn)確率

表2 結(jié)果展示及對(duì)比

由表1 和表2 可知，本研究所提的方法相比MobileNet-V2 模型，在兩種數(shù)據(jù)集的分類準(zhǔn)確率都達(dá)到了最佳。在AID 數(shù)據(jù)集下所達(dá)到的準(zhǔn)確率為95.0%；在RSD46-WHU 數(shù)據(jù)集下所達(dá)到的準(zhǔn)確率為87.4%；均超過(guò)了MobileNet-V2模型。

3 結(jié)論

本研究通過(guò)增加遙感圖像的數(shù)量，使用遷移學(xué)習(xí)將在ImageNet 數(shù)據(jù)集上訓(xùn)練好的參數(shù)遷移到MobileViT 上，實(shí)現(xiàn)對(duì)不同遙感圖像的自動(dòng)識(shí)別，在AID 測(cè)試集的準(zhǔn)確率達(dá)到了95.0%，在RSD46-WHU數(shù)據(jù)集下所達(dá)到的準(zhǔn)確率為87.4%，對(duì)數(shù)據(jù)集以外的圖像也能正確識(shí)別，可得出以下結(jié)論：

1）MobileViT 自身的Attention 機(jī)制可以使模型比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)擁有更大的感受野，能夠在短時(shí)間的訓(xùn)練中快速提升準(zhǔn)確率。

2）MobileViT 模型在不損失大量精度的情況下，極大地減少了Transformer 框架訓(xùn)練所需的參數(shù)，可為Transformer輕量化設(shè)計(jì)奠定基礎(chǔ)。

3）模型已充分學(xué)習(xí)到遙感圖像的特征，具有較好的魯棒性。