基于DCNN深度特征融合和MMRVM的遙感場景分類

2022-10-10 09:34:28盧湖川楊曉敏陳炳才雷印杰

計算機應用與軟件 2022年9期

王倩寧芊,* 盧湖川楊曉敏陳炳才雷印杰

1(四川大學電子信息學院四川成都 610065) 2(新疆師范大學物理與電子工程學院新疆烏魯木齊 830054) 3(大連理工大學信息與通信工程學院遼寧大連 116024)

0 引言

遙感[1]是一種基于航拍技術的新型技術與科學。通過遙感技術，人們可以從遙遠的高空得到想要獲取位置的地表信息，它的快速發展為地表信息的累積、以遙感信息為基礎的研究和遙感場景數據集的創建等方面作出了巨大貢獻，被廣泛運用于環境保護、地質調查和測量、土地利用和土地覆蓋的確定、礦產勘探等社會規劃中[2]。在遙感場景圖像(RSI)分類研究中，特征提取與處理以及分類器的選擇都是場景正確分類的關鍵前提。

現階段特征表示方式及處理方式包括多種，如低層特征、中層特征、深度特征。在低層特征中，包含尺度不變特征變換特征(SIFT)[3-4]、方向梯度直方圖特征(HOG)[5]、GIST特征和Gabor特征[6]等；中層特征一般是通過對低層特征進行統計計算或者編碼得到的，比較熱門的方法是詞袋模型(BOW)[7]。在近期，許多以BOW為基礎的研究方式涌出，例如視覺詞袋模型(BOVW)[7-8]。徐培罡等[9]提出用多重分割關聯子特征的特征研究方法對低層特征進行特征融合，再使用BOVW對融合特征進行處理，但是低層特征的圖像描述能力弱，并且特征提取與處理的過程繁瑣，最終的分類效果也較差。中、低層特征提取及處理對研究人員的經驗要求很高，耗時更多，最終的分類效果也不會有很大的提升。

深度學習的出現為特征提取提供了一種新思路。例如，Liu等[2]采用兩種深度卷積神經網絡(DCNN)模型中提取的卷積特征經過特征融合后再形成最終的全局特征，但是通過人工處理形成的全局特征與計算機直接提取的深度全局特征在描述能力上具有一定的差距，因此最終的分類效果不是很好。Gong等[8]以卷積神經網絡深度特征和詞袋模型為基礎，提出卷積特征包(BoCF)的新語義描述，以提高特征描述能力，分別使用兩種DCNN的卷積層特征用于分類器訓練，但是單模型提取的特征，描述能力有限，因此最終分類效果不佳。孟慶祥等[10]提出改進DCNN模型，通過正則化、dropout等手段避免過擬合現象，但是由于深度網絡結構復雜、參數眾多、精度提高不大的情況導致訓練緩慢。此外，在分類問題中，分類器的選擇與設計也是很重要的，例如文獻[2]中采用的是線性SVM，文獻[8]中采用的是一對多SVM。但是常規SVM在多類分類問題中，效果并不是特別理想。

由此可見，雖然現階段基于深度特征在遙感場景分類領域都有大量的成功應用，但是也存在一些問題。一方面，深度特征的特征描述能力對比于低中層特征提高很多，但是單模型的深度卷積特征通過特征處理形成的全局特征或者直接提取的深度特征描述能力依然不是很好；另一方面，使用卷積神經網絡(CNN)訓練分類模型，在小樣本數據集上的訓練很容易導致過擬合，而在大數據集上的訓練時間長，對硬件設備要求也較高。此外，SVM大多是通過單核函數映射，在類別較少的數據集上分類效果好，但是隨著類別的增多，效果也會變差。因此，基于以上考慮，以提高遙感場景分類能力為最終目的，本文從特征描述能力與分類器的分類能力兩方面進行改進。先將從兩種DCNN預訓練模型VGGNet-16和ResNet-50中提取的深度全局特征進行特征融合，以擴充單模型特征描述能力；基于與SVM原理相似的相關向量機，設計并構建MMRVM分類器，并運用于遙感場景分類領域中進行訓練及分類以提高最后的分類效果。實驗證明，特征融合結合MMRVM(Fusion MMRVM，F-MMRVM)對UCM數據集進行遙感場景分類效果較好，構建LSV數據集，并在LSV大場景圖像上進行場景級分類中的應用表現良好。

1 原理介紹及方法描述

1.1 MMRVM模型介紹

隨著分類任務的加重以及數據類別的增多，主要針對二分類任務的RVM不再能滿足分類需求，所以Psorakis等[11]針對多分類任務再結合RVM提出MMRVM。與RVM相同，MMRVM是基于貝葉斯框架訓練學習，由多項后驗似然函數實現多類及概念輸出[12]。

(1)

加入回歸目標Y∈RN×C和權重W∈RN×C，得到最后的噪聲模型為：

(2)

式中：ync為回歸目標函數；wc為權重。

為了將回歸目標轉換成存在類別，引入了多項概率連接函數tn=i,yni>ynj,j≠i，再結合文獻[11]，得到最終的多項概率似然函數如下：

(3)

1.2 MMRVM模型學習

使用快速type-II最大似然函數進行參數的更新。根據log邊緣函數推導得到:

C=I+KA-1KT

(4)

C可分解為：

(5)

在C分解式中，C-i代表刪除了第i個樣本后的C值，表達式如下：

(6)

log邊緣函數可再次被分解為：

L(α)=L(α-i)+l(αi)

(7)

(8)

(9)

結合文獻[11-12]在訓練模型的過程中，最大后驗值被更新為：

(10)

(11)

式中：K*∈RN×M；A*∈RM×M；M<

再根據式(4)得到后驗分布為：

(12)

?c≠i

先驗參數的后驗分布如下：

P(A|W)∝P(W|A)P(A|v)∝

(13)

1.3 方法描述

Yosinski等[13]通過對CNN模型每一層特征的特征遷移性進行研究，發現從第一層網絡提取的特征就是低層特征，與最終的分類結果關聯性很小，但是最后一層的特征卻起到關鍵性作用。此外，訓練一個新的、高精度的深度卷積神經網絡需要依賴于一個很大的數據集且對硬件設備要求高、耗時長，而預訓練CNN模型的學習卷積核對于數據的依賴性比較低，所以在本文的研究中，將由大型數據訓練過的DCNN模型作為特征提取器，以提取圖像特征。單獨的DCNN模型中提取的深度特征雖然已經包含了大部分圖像的語義特征，但是由于dropout等算法，會造成部分特征丟失。此外，在多分類任務中，分類器的選擇錯誤會導致分類效果大打折扣，所以本文提出將兩種DCNN模型VGGNet-16和ResNet-50中提取的深度特征進行特征融合，以彌補丟失特征，進一步提高特征描述能力，結合MMRVM分類器原理，設計多核相關向量機，以提高分類器的分類能力。基于上述考慮，提出如圖1所示方法，以提高圖像場景分類效果。

圖1 實驗原理

圖1中主要分為兩大部分。第一部分是特征處理，包括特征提取、特征融合和特征降維。首先使用在ImageNet數據集上訓練過的VGGNet-16和ResNet-50模型作為特征提取器，用于全局特征的提取。遙感圖像在兩種DCNN中經過卷積操作以及全連接層的映射后，分別得到最終的全局特征，1×1 000的一維特征向量，分別記為：

FeatureV=[v1,v2,…,vn]

FeatureR=[r1,r2,…,rm]

根據深度學習理論方式的融合原理得到最終的融合結果如式(14)所示。

FeatureVR=[FeatureV,FeatureR]=

[v1,v2,…,vn,r1,r2,…,rm]

(14)

由于融合后的特征維度加倍，且總是有重復冗余特征，所以經過特征降維操作以輕減特征冗余度，提升模型訓練效率。

圖1中第二部分為分類器的設計，對于支持向量機分類器，核函數的選擇是重中之重，而與支持向量機類似的MMRVM分類器，其核函數的選擇也是非常重要的。本文基于三種核函數，線性核函數(式(15))、高斯核函數(式(16))和多項式核函數(式(17))進行研究，根據單核函數的結果差異，選擇效果最好的兩種核函數組合在一起，構造效果優良的分類器，再使用訓練集進行模型訓練。

k(x,x′)=xx′

(15)

(16)

式中：δ為函數的寬度參數。

k(x,x′)=(xx′+1)d

(17)

2 遙感場景分類實驗數據集

2.1 數據源遷移學習

基于數據源的遷移是從原有的大型數據集中，挑選出部分與目標數據分布相近的數據與目標數據集進行混合，以擴充訓練集的樣本數量。相近分布的數據混合在一起訓練，能夠促使訓練效果更加優化，得到分類精度高的分類模型。由于本文構建的LSV數據集樣本少，直接用于模型訓練會導致過擬合現象發生，致使識別率低，因此引入基于數據源的遷移學習以實現最終的LSV遙感場景分類應用。

2.2 數據集

數據集UCM全稱為UC Merced Land Use[3]，摘自美國地質調查局國家地圖城市地區圖像集中的大型圖像，囊括了全國各個城鎮地區的遙感場景圖像。該數據集總共有2 100幅遙感場景圖像，總共21類，每一類包含100幅圖像，每幅圖像大小為256×256像素。基于軟件LSV(Local Space View)，通過獲取成都周邊遙感圖像，制作小樣本數據集，包含農田、密集住宅區、停車場、馬路、河流、森林、稀疏住宅區七種類別。所有圖像的像素都為256×256的RGB圖像，每一類包含30幅。在UCM數據集中，80%作為訓練集，剩余的作為測試集。在LSV數據集中，采用數據源遷移學習的方式，選取LSV數據集每類中10幅圖像與UCM中該類的90幅圖像進行混合，形成每類100幅的訓練集，LSV數據集中每類的20幅圖像作為測試集。

圖2展示的是場景圖像A，使用LSV軟件采集得到。該場景位于東經103.985°、北緯30.417°，采集高度為3 000 m，主要場景包括農田、河流、密集住宅區、稀疏住宅區和森林五類遙感場景，圖像的像素大小為1 792×1 536。采用像素滑動窗口來進行場景遍歷實現最終的場景級分類，其中像素窗口大小分設為五種：1 024×1 024、768×768、512×512、256×256和128×128。滑動步長設置為128像素。

圖2 場景圖像A

3 實驗分析與方法驗證

3.1 實驗環境

實驗的硬件環境為Intel i7-6700 3.4 GHz的CPU、16 GB內存和單塊NVIDIA GeForce GTX1070 Ti顯存6 GB的顯卡，操作系統為Ubuntu16.04-Linux操作系統，使用PyCharm編輯器。

3.2 UCM數據集的不同核函數RVM分類對比

表1展示了UCM數據集在不同核函數RVM上的總體分類精度及時間對比。

表1 單核RVM分類器識別精度、時間對比

可以看出，針對單核RVM分類器，當核函數為線性核函數時，識別精度最高，為88.57%，多項式核函數次之，為87.62%，高斯核函數分類效果最差，為86.43%。模型訓練時間則都相差很小，大概都在1.15 s左右。由于高斯核函數的耗時更多，且由結果可知在樣本量與特征數相差較大的情況下，線性核函數和多項式核函數的效果比高斯核函數分類效果稍好，所以本文選擇線性核函數和多項式核函數進行函數組合構成多核MMRVM。

表2所示為單DCNN模型深度特征與融合特征分別結合MMRVM后，得到的最終分類精度及訓練時間對比。

表2 不同特征結合MMRVM的識別精度、時間對比

可以看出，F-MMRVM的分類精度達到89.52%，比兩種DCNN模型的分類精度分別高出7.6百分點和3.5百分點左右，圖3展示了F-MMRVM的分類結果的混淆矩陣。混淆矩陣中各類別分別為：1.飛機；2.海灘；3.農業；4.棒球場；5.建筑物；6.灌木叢；7.密集居住區；8.森林；9.公路；10.高爾夫球場；11.海港；12.十字路口；13.中等密集住宅區；14.拖車住房公園區；15.立交橋；16.停車場；17.網球場；18.河流；19.飛機跑道；20.稀疏住宅區；21.儲存槽區。如混淆矩陣所示，第i行第j列中的數字代表著將第i類識別為第j類的概率。可以看出，該算法模型在大部分場景的識別中都能達到很好的分類效果，僅有密集住宅區(類別7)與中等密度住宅區(類別13)的分類效果較差。主要還是歸因于兩類圖像高維特征過于相似，導致最終的場景混淆。

圖3 基于F-MMRVM的數據集分類結果混淆矩陣(89.52%)

表3列出了基于UCM數據集的一些現有方法和本文方法的分類準確度，這些現有方法詳見文獻[2,3,10,14-17]。與現有方法的比較表明，本文方法比文獻[2,3, 10,14-17]中的最佳結果提高了2.69百分點。

表3 UCM數據集與現有方法結果對比(Overall Accuracy，OA)

3.3 小樣本LSV數據集遷移學習分類實驗

圖4展示了F-MMRVM基于LSV與UCM混合數據集對LSV數據集進行分類后得到的分類結果混淆矩陣。標簽0-標簽6分別代表類別農田、密集住宅區、森林、馬路、停車場、河流和稀疏住宅區，總分類精度為93.57%。

圖4 LSV數據集分類結果混淆矩陣(93.57%)

根據不同的像素窗口對實驗圖像A進行局部場景截取，再經過分類模型場景分類后，判別出每個單位像素(128像素)的類別，最后統計出最終的場景級分類結果如圖5所示。可以看出，像素滑動窗口大小為1 024×1 024時，僅能分辨出密集居住區、稀疏居住區和河流三種類別，與實際場景圖像差別巨大；像素滑動窗口大小為768×768和512×512時，也僅能分辨出密集居住區、稀疏居住區、河流和農田四種類別，雖稍微靠近原始圖像，但是依然相差較大；當像素滑動窗口大小為256×256和128×128時，五類場景均被識別出來，而像素滑動窗口大小為128×128時，由于滑動窗口過小，遍歷圖形的過程中信息被混淆，導致部分森林、稀疏住宅區區域被識別為河流，部分農田區域被識別為森林，使分類效果降低；只有像素滑動窗口大小為256×256時分類效果與實際場景符合。因此，通過此實驗可以確定最好的像素滑動窗口大小為256×256。

圖5 不同像素滑動窗口場景分類

為消除場景分類窗口效應，進行場景邊緣提取后，基于得到的最佳滑動像素窗口256×256，對邊緣內部區域再進行類別區分，可得到如圖6所示結果。通過對最終結果和實際圖像進行場景對比，基本符合原圖的場景分布。

圖6 邊界劃分分類結果

4 結語

本文研究的基礎特征為從VGGNet-16和ResNet-50兩種預訓練模型中提取的遙感圖像全局特征，通過特征融合的方式對特征描述能力進行補充。提出構造MMRVM分類器并與特征融合相結合的方式，以驗證MMRVM在遙感場景分類領域的有效性；構建LSV，并采用UCM數據集中與LSV數據集類別相同的7類場景數據進行遷移學習，再對LSV數據集進行場景分類，得到最終的分類結果為93.57%；接著根據已得MMRVM訓練模型，結合像素窗口滑動的方式對場景圖像A進行遍歷識別分類，從而實現大場景圖像的場景級分類，并確定最優像素滑動窗口為256×256。通過場景邊界提取再一次進行場景分類以消除窗口邊界效應，獲得較為準確的分類結果。今后應該致力于更多場景的分類應用研究。