邢若蕓,冉樹浩,高賢君,,楊元維,2,4,方 軍
(1. 長江大學地球科學學院,湖北 武漢 430100; 2. 湖南科技大學測繪遙感信息工程湖南省重點實驗室,湖南 湘潭 411201; 3. 湖南科技大學地理空間信息技術國家地方聯合工程實驗室,湖南 湘潭 411201; 4. 城市空間信息工程北京市重點實驗室,北京 100045)
城中村是指由于城市迅速擴張、耕地征用,而保留的宅基地等集體建設用地區域[1-2]。城中村區域的精確檢測識別在統籌城鄉發展和改善民生方面具有重要意義。城中村內部建筑物混雜密集,缺乏合理規劃和有效管理,傳統人工走訪調查方式費時費力,難以滿足大區域監控、周期性更新的現實需求,亟需一種面向場景的城中村快速識別和監控方法。
目前基于高分辨率遙感影像的場景識別方法主要包括特征分類法、語義分類法、學習分類法[3]。特征分類法主要是提取顏色紋理等特征,對圖像進行描述,如文獻[4]利用隨機森林分類器對基于紋理、形態剖面、偏振特征的空間圖像描述符進行城中村提取。該方法對于簡單的分類任務有較好的效果,但受限于特征算子的提取能力,在復雜場景下分類精度較低。文獻[5—7]提出了基于隱狄利克雷分配(latent Dirichlet allocation,LDA)模型的無監督語義框架,進行目標建筑物的識別,將語義分類法應用于復雜場景分類。詞袋模型(bag of word,BOW)是指將每篇文檔視為一個詞頻向量,將文本信息轉化為易于建模的數字信息,應用于視覺處理領域,形成了視覺詞袋模型(bag of visual word,BOVW)[8],它包含豐富多樣的語義信息,并在圖像分類和場景識別[9]等領域獲得廣泛應用。文獻[10]設計了基于BOVW的高分辨率影像土地利用分類方法,并在土地利用數據集上取得了較好的分類效果。文獻[11]提出了一種針對高分影像的局部-全局特征視覺詞袋場景分類器,詞典中包含更豐富的特征。隨著計算機算力的提升,學習分類法被用于場景識別,通過自學習方式,利用聯想反饋機制學習圖像特征信息從而實現識別。文獻[12]采用視覺詞袋模型,將卷積神經網絡(convolutional neural network,CNN)[13-14]作為特征提取器,能夠從地理場景圖像中學習到更豐富的視覺詞。文獻[15]利用遷移學習的全卷積網絡(fully convolutional networks,FCN)提取城中村,取得了較高精度。識別精度與訓練樣本數據量呈正相關,在訓練樣本充足的情況下可獲得較高的精度,但城中村樣本獲取難度大,難以實現大范圍的普及應用。BOVW不過度依賴訓練數據,在小數據集分類任務中,仍然能取得較好的分類精度,且對硬件資源要求不高。但現有的BOVW關注全局特征,而非局部突出區域。本文提出將尺度不變特征轉換(scale invariant feature transform,SIFT)滑動格網密集采集(GridSIFT)與多分辨率顏色矢量角特征進行融合的方法,對細節特征與顏色特征進行提取,進而實現城中村的精確識別。
傳統詞袋模型聚焦于局部紋理與結構特征的提取,缺乏對多分辨率特征與光譜信息的挖掘。而在城中村提取過程中,光譜特征作為區分地物類別的有效依據,具有重要的提取價值。因此,本文設計顧及多分辨率特征的復合字典,包含GridSIFT特征提取、多尺度空間矢量角特征提取、字典編碼、多特征融合及分類等步驟。
如圖1所示,復合字典的實現過程為:通過提取圖像中的特征區域,將相似的區域聚類為一個視覺單詞,統計視覺單詞出現的頻率,以直方圖的形式表示,圖像被抽象成直方圖后進行分類,由分類器完成分類。

圖1 多分辨率特征復合字典流程
利用多分辨率特征復合字典模型表示圖像的步驟為:首先將每幅影像Ii劃分為均勻格網,然后通過滑動窗口G(x,y)在每個窗口提取一個SIFT特征,最后將影像Ii的3層進行Haar小波分解,計算每層的小波系數。
在每個小波分解尺度上提取特征點后,將每層的特征點映射至原圖尺度上,得到特征點后計算每個點與周圍3×3窗口的顏色矢量角。顏色矢量角θ的取值范圍為[0°,90°]。以0.5°為一個區間統計直方圖,形成180個一維顏色特征。
假設訓練集中有N幅影像,共檢測到若干局部特征fij,i=1,2,…,N,j=1,2,…,Si,其中Si為圖像i中特征的總數。量化特征形成視覺單詞為
(1)

(2)

(3)

(4)
式中,ws為從訓練圖像集提取的SIFT特征構建的詞匯表。計算完成圖像的直方圖后,通過直方圖融合將其連接形成聯合直方圖hIi,將式(3)、式(4)合并可得
(5)
圖像特征直方圖提取后,由分類器完成直方圖匹配,對圖像進行分類。分類完成后依據空間關系進行識別結果的后處理,對于識別為城中村的影像單元且周圍均為非城中村的影像單元,修正為非城中村單元。
SIFT常被用于提取圖像的結構特征[16],其所提取的特征點具有良好的穩定性,通常不受尺度、角度、光照化、噪聲等信息的干擾。傳統SIFT是一種基于全局的特征提取方式,能有效避免特征點冗余,但同時也易造成一些具有代表性的局部特征點被忽略。相較于隨機采樣,密集格網采樣更有效[17]。
1.2.1 SIFT提取原理
傳統SIFT特征的提取步驟主要為:①構建尺度空間;②確定關鍵點;③構建關鍵點描述符。構建尺度空間時,通過高斯核函數進行構建,完成尺度空間構造后,確定關鍵點并構建描述符。對比每個點及其周圍所有點的大小,即同尺度的相鄰8個點和上下尺度的9個點,共26個點,將極值點作為特征點。計算關鍵點描述符時,為了保證描述符的旋轉不變性,需要利用圖像局部特征為關鍵點分配方向,即確定主方向。以關鍵點為中心選擇16×16的區域,利用梯度和方向分布特點可以得到梯度模值和方向。
統計8個方向出現的頻率并繪制直方圖,直方圖的峰值為該點的主方向。將坐標軸旋轉至主方向,把關鍵點的周圍區域劃分為4×4個子區域,對每個子區域內的所有像素進行梯度方向θ′和梯度模值m′的計算,方法與確定主方向類似。最終得到每個子區域8個方向上高斯加權的梯度幅值之和,即每個關鍵點得到一個16×8維的描述向量。
1.2.2 特征提取
針對局部關鍵點被忽略的問題,GridSIFT法通過滑動窗口對場景影像進行SIFT特征提取。首先將場景影像分割為多個像素,即重疊度為4像素、大小為8×8像素的子圖像塊;然后在每個子圖像塊中提取一個SIFT特征向量;最后得到225個SIFT特征向量。影像分割過程中,像素重疊值越小,則子圖像的重疊度越高,采樣率越高。通過選擇合適的圖像塊大小和重疊值,可在保證采樣量的同時避免冗余。GridSIFT特征與全局SIFT特征提取步驟基本一致,區別在于選擇最大值時,前者中一個窗口只取一個最大值計算SIFT特征向量。采用格網采樣而非關鍵點采樣計算SIFT描述子的原因在于,稠密采樣能夠提取到包含更多圖像細節的全局信息[18],且可為每幅圖像生成數量恒定的特征。
1.3.1 多分辨率特征點提取
在高分辨率遙感影像中,不同大小的建筑物同時存在,尺度差異明顯。為實現對不同大小建筑物的準確判別,同時關注城中村等小型建筑局部特征,需進行多分辨率特征點的提取。多分辨率特征點的提取過程如圖2所示,其主要原理為,通過小波分解的方法得到多分辨率特征,可以由粗到細提取代表性點作為多分辨率關鍵點。具體步驟可描述為:

圖2 多分辨率特征點提取流程
(1)將影像I轉為灰度圖像,并進行一次雙倍上采樣,得到upsampling_I。
(2)對上采樣圖像進行小波分解,分解為分辨率不同的3層。
(3)將第i層的高頻分量{CDi,CVi,CHi}標準化,若同一層像素的3個高頻分量均大于0.6,將該點作為備選點。
(4)求3個高頻分量之和形成一個分量,在該分量上以備選點為中心的5×5窗口內,若備選點最大則為特征點,反之則刪除該點。
(5)分別求3層中的特征點,將3層特征點映射在原圖上,映射坐標公式為
(6)
式中,L為小波分解的層數;(x,y)為在小波分解層的坐標;(X,Y)為原圖坐標。
1.3.2 基于顏色矢量角的直方圖(CVAH)
為提取更豐富的細節與顏色特征,并增強特征字典的穩健性,以構建的顏色矢量角直方圖作為顏色特征,并將顏色特征與其他特征融合。在RGB顏色空間中,度量兩個像素值間的色差最簡單的方式為歐式距離法。歐式距離計算方法簡單,具有旋轉不變性。然而,RGB顏色模型不是均勻空間,歐式距離對圖像的亮度變化非常敏感,而對色調和飽和度的變化不敏感,因此歐式距離很難反映兩種顏色的視覺差異。假設在RGB顏色空間中有c1、c2、c3、c44點,兩個顏色對(c1,c2)和(c3,c4)的歐式距離相等但視覺差異很大。因此,角度衡量顏色差異優于歐式距離法。
在RGB空間中,顏色矢量角(CVA)表示兩個相鄰像素的RGB顏色向量之間的夾角,公式為
(7)
式中,(r1,b1,g1)為RGB顏色空間某個像素的顏色向量值;(r2,b2,g2)為與(r1,b1,g1)相鄰像素的顏色向量值;θ為兩個像素之間的顏色矢量角。
以多尺度關鍵點為中心,選取周圍3×3的窗口,求關鍵點與局部區域8個像素的顏色矢量角,顏色矢量角反映了關鍵點和周圍點的視覺色差,范圍為[0°,90°]。均勻量化顏色矢量角,量化階距為0.5°,計算每個角度區間的像素數,形成顏色矢量角直方圖,形成180個一維的顏色特征。
量化特征詞時,由于場景尺度、角度及光照的變化,同一特征可能對應多個視覺詞[11],不同特征的視覺詞之間指代的特征有很大差別,因此在生成視覺詞典時需要進行字典編碼和特征融合。將SIFT特征通過K-means聚類量化,具有相似特征值的影像單元被聚類為一個視覺詞。假設一個n幅影像組成的影像集A={a1,a2,…,an},一幅影像被分為P個子影像單元,提取量化特征描述符X={x1,x2,…,xp},隨機聚類得到K個聚類中心C,公式為
(8)
式中,Sj表示聚類中心Cj的特征向量集合。通過計算特征向量xi與聚類中心Cj的最小值,確定代表子影像單元的視覺詞,將圖像分別按照不同特征視覺詞編碼后,統計每個視覺詞出現的頻率,生成具有H1個視覺詞柱的特征直方圖。與SIFT特征量化相似,顏色特征量化得到具有H2視覺詞柱的顏色矢量角特征直方圖。最后將兩個特征直方圖橫向拼接,即具有N幅影像經直方圖融合后形成(H1+H2)×N維的語義表達。
特征直方圖融合后,利用分類器將特征進行分類。常用的分類器包括支持向量機、隨機森林等,本文采用隨機森林分類器對影像進行分類。
由于城中村具有大范圍聚集出現的特點,因此對識別結果中明顯錯分的影像單元進行后處理,搜尋空間上無相鄰關系的城中村影像單元,改為非城中村。即檢索每一個城中村單元,以城中村單元為中心的3×3窗口內若除了中心影像單元外無其他影像單元為城中村,則將該城中村單元修正為非城中村單元。
為了對本文方法的有效性進行評估,設計對比試驗:與經典深度學習方法對比,將本文方法與遷移學習VGG16和ResNet50方法對比;不同特征描述符對比,將SIFT、加速穩定特征(speeded up robust features,SURF)與本文的GridSIFT方法對比;分析多分辨率顏色特征對精度的影響,對比融合多分辨率顏色特征后識別精度。選取總體精度(OA)、回歸系數(Kappa)兩個評價指標對試驗結果進行定量評價分析。
數據源為高分二號遙感可見光影像,空間分辨率為1 m,圖像大小為15 960×7980像素。參考城中村實地大小,選取64×64像素大小的無重疊區域,共采集2780幅影像,其中城中村1333幅,非城中村1447幅,按照2∶1的比例劃分訓練集和測試集。
為與當前計算機視覺領域常用的深度學習圖像分類方法進行對比分析,選取在ImageNet數據上的預訓練VGG16[19]與ResNet50[20]模型進行遷移學習[21-22]。神經網絡訓練次數均為100,學習率為0.001,優化器選擇RMSProp,訓練集和測試集與本文方法保持一致,試驗結果見表1(列最佳值已用粗體突出顯示)。

表1 與經典深度學習網絡精度對比 (%)
由表1可知,VGG16的分類精度為85.3%,ResNet50的精度為88.1%,ResNet網絡在VGG網絡的基礎上增加了長度,加入Resblock殘差模塊避免了梯度消失;本文方法的最優精度為90.08%,明顯優于VGG16和ResNet50分類方法。
為了評估本文方法的識別結果,與遷移學習的ResNet50識別結果進行可視化結果對比,并選擇8個典型區域的識別結果進行詳細分析。
如圖3所示,與ResNet50相比,本文方法的城中村識別結果與人工目視解譯遙感影像結果吻合度更高。在如圖4所示的局部放大圖中,區域1—4城中村附近建有大量的廉租房或廠房等易混淆建筑,由于密集采樣法提取場景全局特征,注重全圖特征的提取,因此本文方法在識別時有較高的準確度,ResNet50則易將周圍混淆區域與灌木叢錯分為城中村。區域5—8城中村邊界明顯較空曠,ResNet50在識別時將城中村識別為非城中村,存在大量的識別錯誤。由于本文方法引入了多分辨率顏色特征,對城中村這種小建筑物顏色細節更加敏感,可以將城中村正確識別。

圖3 研究區城中村識別結果

圖4 典型區域城中村識別結果對比及原始影像
試驗選擇SURF[23]、SIFT及GridSIFT提取特征作為特征描述符,分類器使用隨機森林分類器,分類器參數采用交叉驗證法確定。復合字典的規模大小取決于詞袋中的詞數,本文試驗中詞數為K={90,100,110,120,150,200,300},通過調整K-means聚類數實現。對每個詞數大小場景生成的特征向量,重復分類5次,以分類平均值作為最終分類結果。K在90~150范圍時,詞數與分類精度無顯著關系;在150~300范圍時,詞數與分類精度成反比,詞數變大時精度降低,多次試驗分類精度的最大最小值之間的差值變大。與SIFT和SURF相比,GridSIFT方法的總體精度和Kappa系數都有明顯優勢。由表2可知(列最佳值已用粗體突出顯示),GridSIFT方法的Kappa值均在75%以上,說明該方法預測結果和實際分類結果有較好的一致性。使用SURF描述符在K為120左右時精度最佳,達80.78%。使用SIFT描述符在K為200左右時精度最佳,達86.57%。使用GridSIFT描述符最佳精度與SIFT最佳精度相比提升2.72%,Kappa系數提升5.48%。

表2 特征描述符精度評價 (%)
為了驗證多尺度顏色特征提取(CVAH)方法的有效性,分別將SURF、SIFT、GridSIFT特征提取方法與其進行融合,并與單一特征方法作對比。由圖5中的對比結果可知,融合CVAH特征后,幾種特征提取方式的精度均有所提升,SURF特征與CVAH特征融合后顯著提高了精度,但對于CVAH特征,敏感性弱于SIFT和SURF;均勻格網的提取方法相較于極值特征提取方法,特征提取更加均勻豐富,對于其他特征的敏感性低于其他兩種方法。SIFT特征與CVAH特征融合后,提升精度的同時,精度與詞數之間的相關性變得更弱;在K為90~300范圍時,總體精度均大于88%。GridSIFT特征與CVAH特征融合后,也明顯提高了分類精度均值。CVAH特征與SURF、SIFT、GridSIFT特征融合后,最佳總體精度分別提升了2.28%、2.10%、0.79%,驗證了CVAH特征對提升分類精度的有效性;與SIFT特征相比,GridSIFT+CVAH特征融合后精度提升了4.51%。

圖5 融合多尺度顏色特征平均精度對比
本文提出了一種顧及多分辨率特征復合字典高分辨率遙感影像城中村提取方法,通過將GridSIFT與多尺度顏色矢量角融合,可以有效區分色彩顯著差異的錯分圖像。引入多分辨率顏色特征對建筑物細節顏色特征進行提取,精度得到提升。與經典深度學習方法相比,總體精度較VGG16和ResNet50分別高出4.78%和2.28%。與不同特征描述符對比,本文的GridSIFT方法精度均高于SIFT、SURF特征提取方法。