李曉斌,江碧濤,王生進
(1.北京市遙感信息研究所,北京 100192; 2.清華大學 電子工程系 智能技術與系統(tǒng)國家重點實驗室,北京 100084)
分類是光學遙感圖像處理分析的重要內容,在城市規(guī)劃、土地利用及環(huán)境監(jiān)測等國民經(jīng)濟建設領域有著廣泛的應用。按分類粒度的不同,光學遙感圖像分類可分為基于像素和基于目標的分類[1]。對于空間分辨率相對較低的光學遙感圖像,基于像素的分類方法常被采用[2-6],該類方法依據(jù)一定的特征對圖像中的像素逐個進行分類。近年來,隨著遙感成像技術的快速發(fā)展,光學遙感圖像空間分辨率不斷提高,基于目標的分類逐漸成為研究熱點,涌現(xiàn)出大量的相關文獻[7-8]。該類方法更多地利用了語義信息,將圖像中的場景作為一個整體進行分類,因此常被稱作場景分類。
目前已有大量的光學遙感圖像場景分類方面的文獻,但缺少綜述性的文獻。文獻[7-8]可看作場景分類方面的綜述性文獻,但其重點是介紹和評測光學遙感圖像場景分類數(shù)據(jù)集,對于場景分類技術的總結不夠全面和具體。本文從場景分類方法、分類性能評價準則和數(shù)據(jù)集和分類性能比較3個方面對光學遙感圖像場景分類技術進行綜述和比較,期望能為相關從業(yè)人員提供參考和借鑒。對于場景分類方法,本文按所用特征的不同將其分為基于人工設計特征的方法和基于深度特征的方法。對于分類性能評價準則和數(shù)據(jù)集,本文重點介紹常用的2種評價準則和5種數(shù)據(jù)集。
影響場景分類性能的決定性因素是特征,按所用特征的不同,光學遙感圖像場景分類可分為基于人工設計特征的方法和基于深度特征的方法。
人工設計特征是指設計者針對場景的特點和分類的目的,經(jīng)精心設計,直觀、顯式地提取的特征。人工設計特征通常是低層密集特征,含有大量的冗余信息,分類性能不佳。因此,特征編碼方法常被用于人工設計特征,以提高其稀疏性和旋轉、尺度等不變性,進而提高分類性能。
1. 1. 1 人工設計特征
用于光學遙感圖像場景分類的人工設計特征大致可歸為3類:光譜特征、紋理特征和結構特征。光譜特征一般只利用圖像的顏色信息,沒有考慮空間信息;而紋理特征和結構特征考慮空間信息。以上3類特征一般組合使用,以便利用更多的信息。
常用的光譜特征包括圖像灰度值、灰度值均值和灰度值方差。文獻[9-11]直接利用圖像灰度值作為一種分類特征,文獻[12-16]則將灰度值均值和方差作為分類特征。
常用的紋理特征包括局部二值模式(Local Binary Pattern,LBP)、灰度共生矩陣(Gray-Level Co-Occurrence Matrix,GLCM)和基于形狀的不變紋理指數(shù)(Shape-Based Invariant Texture Index,SITI)等。文獻[17]提出一種基于顯著性的多尺度、多分辨率、多結構LBP特征,用于光學遙感圖像場景分類。文獻[13]將GLCM作為一種分類特征。GLCM可有效描述圖像的紋理結構,由4種統(tǒng)計特征組成,包括相關性、能量、對比度和均勻性。SITI是一種基于形狀的紋理特征,利用了形狀的延伸率和緊湊度等信息,最早被用于紋理圖像檢索和分類,后被文獻[12-13]用于光學遙感圖像場景分類。
尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征[18]是一種有效的用于分類的結構特征。它最早被用于自然圖像目標識別,具有尺度和旋轉不變性,并對視角變化、光照變化和噪聲有一定的魯棒性,后被廣泛用于自然圖像分類[19]和光學遙感圖像場景分類[12-17,20-22]。SIFT特征提取的主要步驟包括:① 尺度空間極值檢測:搜索所有尺度上的圖像位置,通過高斯微分函數(shù)來識別潛在的對于尺度和旋轉不變的興趣點。② 關鍵點定位:在每個候選位置上,通過一個擬合模型來確定位置和尺度。關鍵點的選擇依賴于它們的穩(wěn)定程度。③ 方向確定:基于圖像局部的梯度方向,分配給每個關鍵點位置1個或多個方向。后續(xù)所有的對圖像數(shù)據(jù)的操作都相對于關鍵點的方向、尺度和位置進行變換,從而提供對于這些變換的不變性。④ 關鍵點描述:在每個關鍵點周圍的鄰域內,在選定的尺度上測量圖像局部的梯度。這些梯度被變換成一種表征,這種表征容忍比較大的局部形狀的變形和光照變化。除SIFT特征外,還有其他一些用于場景分類的結構特征。文獻[23]利用直線段作為分類特征,文獻[15]和文獻[24]分別利用小波變換和Gabor變換提取結構特征用于場景分類。
1. 1. 2 人工設計特征編碼方法
從近幾年的文獻看,幾乎所有的人工設計特征都是經(jīng)過編碼后用于遙感圖像場景分類,目的是去除冗余信息,增加特征的稀疏性和旋轉、尺度等不變性,進而提高分類性能。用于光學遙感圖像場景分類的人工設計特征編碼方法主要包括:視覺詞袋(Bag-Of-Visual-Words,BOVW)模型、概率主題模型(Probabilistic Topic Model,PTM)和稀疏編碼。
(1) BOVW模型
BOVW模型的基本思想:提取訓練圖像的特征后,利用聚類方法將特征分成多個類,每個類作為一個視覺單詞,多個視覺單詞組成視覺字典;利用得到的視覺字典量化待分類圖像的特征,將待分類圖像表示為詞頻直方圖,即
BW=t1,t2,…,tM,
(1)
式中,tm為單詞m在圖像中出現(xiàn)的次數(shù);M為字典的尺寸,即字典中單詞的數(shù)量。
文獻[13]利用BOVW模型在直方圖層次將局部特征和全局特征有效編碼后,實現(xiàn)光學遙感圖像場景分類。文獻[25]首先利用BOVW模型建立視覺字典,然后利用稀疏主成分分析進行特征選擇。文獻[23]借鑒BOVW的思想,提出一種線袋模型(Bag-Of-Lines,BOL)用于場景分類。BOVW模型沒有考慮圖像的空間布局,為彌補這一缺陷,文獻[20-21]對BOVW模型進行擴展,分別將BOVW模型與空間共生核(Spatial Co-Occurrence Kernel,SCK)和空間金字塔共生核(Spatial Pyramid Co-Occurrence Kernel,SPCK)聯(lián)合,考慮圖像的相對空間布局,提高了分類性能。
(2) PTM
PTM在BOVW模型的基礎上引入一個隱含變量,將圖像表示為主題的概率分布,增加了特征的語義信息。常用的PTM包括概率潛語義分析(probabilistic Latent Semantic Analysis,pLSA)和隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)。pLSA利用一個圖模型表示圖像、主題和視覺單詞之間的關系。pLSA將概率和統(tǒng)計理論與BOVW模型聯(lián)合后,共生矩陣中的每個元素可轉換成聯(lián)合概率p(wj,di),它表示的是視覺單詞wj出現(xiàn)在圖像di中的概率。根據(jù)相關概率理論,有
pwj,di=p(di)p(wj|di),
(2)
(3)
式中,{p(wj|z1),…,p(wj|zk),…,p(wj|zK)}組成一組基向量,p(zk|di)表示的是圖像的主題概率分布,即潛語義。這樣,利用pLSA可將圖像表示為一組向量{p(z1|di),…,p(zk|di),…,p(zK|di)},進而用于分類。在pLSA中,圖像僅僅是主題的離散概率的超數(shù)字化表示,這會導致過擬合現(xiàn)象;另外,pLSA無法為訓練樣本之外的圖像賦概率值。為解決以上問題,LDA被提出。LDA將主題混合參數(shù)看作服從狄利克雷分布的變量,為原始的潛語義分布定義了一個概率函數(shù)。
文獻[24]利用LDA實現(xiàn)光學遙感圖像場景分類,并與BOVW模型進行比較,結果表明LDA可提供更為簡潔、語義信息更豐富的圖像表征。文獻[14]提出一種基于PTM的特征融合策略,將光譜特征、紋理特征和結構特征進行有效融合。文獻[15]提出一種全稀疏的PTM,克服傳統(tǒng)PTM存在的語義信息冗余、時間消耗大等缺點。
(3) 稀疏編碼
稀疏編碼的目的是利用字典和稀疏特征,以最小誤差重建輸入特征。假定輸入特征為X=x1,x2,…,xn∈Rd×n,字典為B∈Rd×p,稀疏特征為W=w1,w2,…,wn∈Rp×n,則稀疏編碼的目標函數(shù)為:
(4)

非監(jiān)督的場景分類方法,一般先使用K均值聚類方法學習得到字典,然后進行稀疏編碼,例如文獻[10-12,26]。文獻[27]使用整體投影(Ensemble Projection,EP)方法學習字典。文獻[28]在考慮類間可分性和類內緊湊度的基礎上,提出一種距離度量學習方法。該方法首先提取圖像的SIFT特征,然后通過約束類間可分性和類內緊湊度對特征進行稀疏編碼。在完成特征編碼后,文獻[10-12]還利用池化操作進一步降低特征的維數(shù)。
深度特征是指利用深度神經(jīng)網(wǎng)絡提取的特征。近年來,深度學習[30]成為人工智能領域的研究熱點,它在自然語言處理、自然圖像處理和棋牌游戲等領域取得了巨大成功,并在遙感圖像處理領域得到越來越廣泛的應用。深度學習的本質是深度神經(jīng)網(wǎng)絡,用于光學遙感圖像場景分類的深度神經(jīng)網(wǎng)絡主要包括自動編碼機(Auto Encoder,AE)、深度信念網(wǎng)絡(Deep Belief Network,DBN)和卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)等。文獻[31]提出一種基于視覺顯著性的非監(jiān)督特征學習方法,用于光學遙感圖像場景分類。該方法在學習特征時,使用的是稀疏AE。文獻[32]使用一個具有4個隱含層的DBN進行場景分類。文獻[33]首先利用去卷積神經(jīng)網(wǎng)絡提取特征,然后使用空間金字塔進行特征聚合,最后利用支持向量機(Support Vector Machine,SVM)完成場景分類。在光學遙感圖像場景分類領域,使用最多的深度神經(jīng)網(wǎng)絡是CNN,以下首先簡要介紹CNN的基本原理,然后根據(jù)所使用的CNN特征,將場景分類方法分為基于單一深度特征的方法和基于融合深度特征的方法。
1. 2. 1 CNN基本原理
CNN主要由卷積層、全連接層和輸出層組成。其中,卷積層執(zhí)行卷積操作,全連接層執(zhí)行點乘操作。卷積層和全連接層通常使用校正線性單元(rectified linear unit,ReLU)作為激活函數(shù):
yij=max(0,xij),
(5)
式中,yij和xij分別為位置i,j處的神經(jīng)元的輸出和輸入。卷積層后常跟一個池化層,執(zhí)行平均池化或最大池化操作,用于降低特征維數(shù),提高特征的平移不變性等。輸出層執(zhí)行點乘操作,輸出層得到特征向量x后,通常利用soft-max函數(shù)得到類概率y為:
x=x1,x2,…,xC,y=y1,y2,…,yC,
(6)
(7)
式中,C為類的數(shù)量。在訓練過程中,CNN利用后向傳播算法,通過最小化下式所示的目標函數(shù)來更新權重W:
(8)

近年來,CNN在自然圖像分類[34]和目標檢測[35-36]領域取得巨大成功,其中有代表性的CNN包括AlexNet[37],CaffeNet[38],VGGNet[39],GoogleNet[40],ResNet[41]和OverFeat[42]等。其中,VGGNet和OverFeat根據(jù)網(wǎng)絡層數(shù)的不同有多個變種,這些CNN在大型自然圖像數(shù)據(jù)集上進行了充分訓練,常被稱作預訓練CNN,具有很強的泛化能力,可遷移到自然圖像場景分類。
1. 2. 2 基于單一深度特征的方法
基于單一深度特征的方法[43-48]只使用了CNN某一層的特征。常用的特征包括全連接層特征和soft-max層特征。使用全連接層特征時,需要分類器與之配合,常用的分類器是SVM。使用soft-max層特征時,可直接得到分類結果,不需要額外的分類器。
文獻[43]從一個預訓練CNN的最后一個全連接層提取特征后,利用一個AE實現(xiàn)光學遙感圖像場景分類。文獻[44]對CaffeNet調優(yōu)后,直接利用其soft-max層特征完成場景分類。文獻[45]將AlexNet、VGGNet和GoogleNet應用于光學遙感圖像場景分類,并提出了2種分類策略:① 利用CNN的最后一個全連接層的特征和SVM;② 對CNN調優(yōu)后,利用soft-max層特征。文獻[46]基于遷移學習和數(shù)據(jù)增強技術,對CaffeNet、GoogleNet和RestNet調優(yōu)后實現(xiàn)場景分類。文獻[47]將AlexNet、CaffeNet和OverFeat等應用于光學遙感圖像場景分類,并使用了多種策略:直接利用預訓練CNN的soft-max層特征進行分類;直接利用預訓練CNN的全連接層特征和SVM進行分類;對CNN調優(yōu)后,利用soft-max層特征進行分類;對CNN調優(yōu)后,利用全連接層特征和SVM進行分類。結果表明,最后一種策略的分類性能最佳。文獻[48]聯(lián)合AlexNet的全連接層特征和極限學習機(Extreme Learning Machine,ELM)實現(xiàn)場景分類。
1. 2. 3 基于融合深度特征的方法
基于融合深度特征的方法[49-56]通過融合1個或多個CNN的不同層的特征,增加融合特征的信息量,提高分類性能。該類方法融合的特征主要是全連接層特征和卷積層特征。與基于單一深度特征的方法不同,基于融合深度特征的方法一般直接使用預訓練CNN,即不進行調優(yōu)。
文獻[49]通過串聯(lián)的方式將OverFeat和CaffeNet的全連接層特征融合后,大幅提高了分類性能。文獻[50]將OverFeat的2個全連接層的特征串聯(lián)后輸入到一個專門設計的神經(jīng)網(wǎng)絡,對該網(wǎng)絡進行訓練后,利用其soft-max層特征實現(xiàn)分類。文獻[51]利用判別相關性分析(Discriminant Correlation Analysis,DCA)融合VGGNet的,2個全連接層的特征,在保持分類精度基本不變的同時降低了特征維數(shù)。文獻[52]借鑒BOVW模型的思想,提出一種卷積特征袋方法用于光學遙感圖像場景分類,將CNN的卷積層特征以特征袋的方式進行融合。文獻[55]首先將CaffeNet的卷積層和全連接層的特征融合,得到一種新的特征,然后利用VGGNet得到另一種新的特征,最后采用線性組合的方法將2種新的特征融合。文獻[56]以VGGNet和ResNet為研究對象,首先對卷積層特征進行編碼和降維,得到一種全局特征;然后對全連接層特征進行池化,得到另一種全局特征;最后將2種全局特征串聯(lián)后用于光學遙感圖像場景分類。
光學遙感圖像場景分類常用的性能評價準則是全局精度(overall accuracy,OA)和混淆矩陣(confusion matrix)。OA的定義如下:
(9)
式中,C為類的數(shù)量;Mi為屬于第i類且被正確分為第i類的樣本數(shù)量;Ni為屬于第i類的樣本總數(shù)量?;煜仃嚨亩x如下:
aij=Mij/Ni,
(10)
式中,aij為混淆矩陣中第i行、第j列的元素;Mij為屬于第i類、但被分為第j類的樣本數(shù)量;Ni為屬于第i類的樣本總數(shù)量。
光學遙感圖像場景分類常用的數(shù)據(jù)集包括UC Merced[21],WHU-RS[57],AID[7]和NWPU-RESISC45[8]等。UC Merced數(shù)據(jù)集中的圖像為機載圖像,包含農(nóng)田、飛機和棒球場等21類場景,每類場景有100幅圖像,圖像大小均為256×256像素,空間分辨率為0. 3 m。WHU-RS數(shù)據(jù)集采集自Google Earth,包含機場、海灘和橋梁等19類場景,每類場景有50幅圖像,圖像大小均為600×600像素。AID數(shù)據(jù)集包含機場、裸地和棒球場等30類場景,每類場景中的圖像數(shù)量從220~440不等,圖像大小均為600×600像素,空間分辨率從0. 5~8 m不等。NWPU-RESISC45數(shù)據(jù)集包含飛機、機場和棒球場等45類場景,每類場景有700幅圖像,圖像大小均為256×256像素,空間分辨率從0. 2~30 m不等。其中,UC Merced數(shù)據(jù)集的示例圖像如圖1所示。

圖1 UC Merced數(shù)據(jù)集示例
UC Merced數(shù)據(jù)集是應用最廣泛的光學遙感圖像場景分類數(shù)據(jù)集,同時考慮到同一分類方法的性能在不同的數(shù)據(jù)集上是基本一致的,本文基于該數(shù)據(jù)集對場景分類方法進行性能比較,如表1所示。

表1 基于UC Merced數(shù)據(jù)集的分類性能比較
從表1可以看出,基于深度特征的方法的分類性能在總體上優(yōu)于基于人工設計特征的方法,且基于融合深度特征的方法的分類性能優(yōu)于基于單一深度特征的方法。從表1還可以看出,UC Merced數(shù)據(jù)集上的分類性能已經(jīng)接近飽和,后續(xù)應重點使用NWPU-RESISC45和AID數(shù)據(jù)集。
光學遙感圖像場景分類技術是遙感圖像處理分析領域的研究熱點,本文對近年來公開發(fā)表的相關文獻進行了分析和總結,期望能為相關從業(yè)人員提供參考和借鑒。得益于公開的數(shù)據(jù)集和統(tǒng)一的性能評價準則,光學遙感圖像場景分類技術不斷發(fā)展,從基于人工設計特征的方法發(fā)展到基于深度特征的方法,分類性能也不斷提高,在UC Merced數(shù)據(jù)集上的分類精度由約95%提高到99%以上。基于深度特征的方法分類性能雖然相對較好,但對訓練數(shù)據(jù)的依賴性較強,需要大量的樣本對算法進行訓練或調優(yōu)。當增加新的場景類型時,同樣需要進行訓練或調優(yōu)。后續(xù)應重點加強無監(jiān)督和弱監(jiān)督的場景分類方法研究,提高算法的泛化能力和在實際應用中的魯棒性。