范 馳,江 洪,3
(1.江蘇省地理信息技術重點實驗室,江蘇 南京 210023;2.南京大學 國際地系統科學研究所,江蘇 南京210023;3.浙江農林大學 浙江省森林生態系統碳循環與固碳減排重點實驗室,浙江 杭州 311300)
基于隨機森林的WorldView2影像建筑物精細提取
范 馳1,2,江 洪1,2,3
(1.江蘇省地理信息技術重點實驗室,江蘇 南京 210023;2.南京大學 國際地系統科學研究所,江蘇 南京210023;3.浙江農林大學 浙江省森林生態系統碳循環與固碳減排重點實驗室,浙江 杭州 311300)

針對研究區建筑物大小不一、排列復雜多樣、顏色和材質差異較大的實際情況,提出了一種基于面向對象的城區高分辨率影像建筑物信息精細提取方法。該方法考慮了不同顏色建筑物之間以及建筑物與其他地物的特征差異,將建筑物細分為4 種子類型,在對高分辨率影像進行分割的基礎上,充分挖掘目標對象的光譜、幾何、紋理信息等特征,利用隨機森林算法對建筑物進行提取并對特征的重要性進行評估。結果發現,精細提取場景下的波段3比值、PCA3均值、PCA4均值、NDVI等特征的重要性較建筑物作為一個類別提取的常規方法出現了較為顯著的上升,表明精細提取場景下的影像特征得到了更為充分的應用。使用該方法提取建筑物面積的用戶精度和生產者精度較常規方法提高了12.16%和4.09%,為復雜情況下的高分辨率影像建筑物信息提取提供了新的途徑。
建筑物提取;隨機森林;特征重要性;精度評價;WorldView2影像
建筑物提取識別是遙感信息處理和分析、計算機視覺、模式識別等領域的重要研究問題[1]。如何從高分辨率遙感影像中高效、精確地識別和提取建筑物信息,對于推動高分辨率遙感影像信息挖掘技術的發展及其在城區建筑制圖和城市規劃相關領域的應用有重要意義[2]。而面向對象的方法由于其能夠綜合考慮目標的光譜、紋理和空間結構特征[3,4],更適合城區建筑物的提取。國內外學者做了大量研究[5-7],但都是針對建筑物排列較為整齊或者建筑物的材料較為單一的場景的,對于建筑物之間光譜差異較大、形狀各異、建筑物屋頂構成材料復雜的情況,上述方法都有一定的局限性[8]。本文基于隨機森林算法[9,10],提出了一種面向對象的城區高分辨率遙感影像建筑物信息的精細提取方法。
1.1 研究區概況
本文的研究區位于江蘇省無錫新區,研究區內地物類型有建筑物、以道路為主的其他不透水層、水體、植被、裸地等。從研究區的全色影像圖和假彩色影像圖上可以看出(圖1),區域內的建筑物屋頂顏色多樣、大小各異、形狀復雜。研究區北部主要以廠房為主,其在假彩色遙感影像上表現為紫色的大面積區域,研究區南部的建筑物分布情況較為復雜。從顏色上看,表現為白色、灰色、黃綠色和紫色。其中黃綠色和紫色屋頂由于材質的原因存在一定程度的褪色情況。結合實地調查的情況得知,研究區內建筑物屋頂的材質構成復雜,存在水泥屋頂、鐵皮屋頂和塑料屋頂等。而研究區的東南部是正在開發的商品房住宅區域,存在裸地、建筑物和其他不透水層交錯分布的情況。整個區域類建筑物分布密集、大小各異、材質多樣,且建筑物所處的自然環境和人工環境也較為復雜。

圖1 研究區概況
1.2 數據來源與預處理
本研究采用的數據為2011-11-27獲取的經過輻射校正和幾何校正的WorldView2全色影像和多光譜影像,空間分辨率分別為0.5 m和2.0 m。該影像包括4 個多光譜波段:藍(450~510 nm)、綠(510~580 nm)、紅(630~690 nm)、近紅外(770~890 nm),影像的輻射分辨率為11 bit,影像包含豐富的地物細節信息,適合于地物信息的精確提取研究。以實測GPS數據對研究區進行幾何精校正和重采樣后,利用GS(gram shmidt)變換法將影像的全色波段和多光譜波段融合成0.5 m分辨率的多光譜影像,研究區大小為2 500×3 500像元。
2.1 面向對象的圖像分割和特征提取
本文采用eCognition Deveopler8.9提供的分形網絡演化算法對研究區遙感圖像進行分割,其目的是將圖像分割為同質性的區域,這種方法綜合考慮了遙感影像的光譜異質性和形狀異質性,對高分辨率遙感影像能夠取得較好的分割效果。經過實驗,本文確定分割尺度為100,光譜和形狀異質性權值為0.8和0.2,緊湊度和平滑度的權值均為0.5,共分割為4 186個影像對象。
考慮到研究區建筑物內部之間光譜差異顯著的實際情況,本文將建筑物劃分為灰色、白色、紫色和黃綠色4個子類(基于432波段合成的假彩色影像),同其他不透水層、裸地、植被、水體、陰影共9類進行分類提取。同時,由于建筑物子類和其他地物之間也存在一定程度的光譜重疊現象,本文計算了影像對象的常見光譜、形狀和紋理特征共67個(表1),利用隨機森林算法對于高維特征分類的優勢,充分挖掘高分辨率遙感影像的信息,以提高分類精度。本文方法流程如圖2所示。

表1 原始特征集

圖2 基于隨機森林的WorldView2影像精細提取技術流程
2.2 隨機森林
隨機森林是由Breiman等提出的一種機器學習方法[9],它是一種樹形分類器的組合算法,其分類效果與Boosting和SVM相當。其通過Bootstrapping法從始訓練集樣本中有放回地重復隨機抽取樣本子集構建一組分量分類器,然后利用多數投票機制決定分類的最終結果。在構建分類器時未被選中的樣本組成袋外(OOB)數據集,可以用來對隨機森林的分類效果和分類特征的重要性進行評估。隨機森林的參數設置較為簡單,只需要定義構成隨機森林的決策樹的數目n和每棵決策樹節點特征子集的維度m即可。
研究表明,除了具有不需要對數據進行預處理、參數設置簡單等優點外,隨機森林還可以處理高維數據并且適用于大數據的分類運算,尤其在高維數據分類中,更能體現其速度快、精度高、穩定性好的優勢。
3.1 隨機森林模型的最佳參數選擇
隨機森林算法的分類精度取決于決策樹的數目n和每棵決策樹節點特征子集的維度m。為提高分類的準確性,本文對2個參數的不同組合進行了測試和評估,通過比較不同組合情況下的隨機森林OOB誤分率,來選擇最佳的n和m值(如圖3所示)[11]。從結果中可以看出,當m為7時,OOB的準確度最好,這也符合Breiman關于特征子集維度的最優值約等于所有特征個數的算數平方根的結論。而當決策樹的個數為140時,OOB的誤分率趨向于平穩,其模型效果也最好,所以本研究選擇隨機森林的模型參數n=140、m=7。

圖3 隨機森林OOB誤分率和參數的關系
3.2 特征重要性分析
隨機森林算法通過OOB數據可以統計某一特征對應的平均置換精度差異,從而得到每個特征的重要性指標。本文研究了建筑物精細提取和常規提取場景下各特征的重要性,圖4為兩種建筑物提取方法中,重要性均進入前25的特征(共24個)及其重要性度量指標。
對于建筑物精細提取方法而言,重要性最高的特征為:波段3比值、NDGI、波段1均值、PCA4均值、PCA3均值以及NDVI。對于建筑物常規提取方法而言,最為重要的特征為:波段1均值、PCA4均值、波段3比值、波段2比值、波段2均值和波段3均值。可以看出,精細提取場景下排名較高的特征和常規提取場景存在較大差異,常規提取場景下重要性最高的特征基本為影像原始波段的均值和比值,而在精細提取場景中NDGI、PCA3和NDVI等的重要性均較高,說明精細提取場景下算法更充分地利用了高分辨率遙感影像的信息。
同時,通過對比可以看出,精細提取場景下的波段3比值、PCA3均值、PCA4均值、NDVI和NDGI等特征的重要性較粗略提取場景下出現了較為顯著的上升。由于特征的重要性是通過平均置換精度差異來進行評估的,對目標類別區分度較高的特征的重要性得分也較高。考慮到兩種場景下訓練樣本的一致性,說明精確提取場景下的類別劃分規則更為合理,以上的特征在精確劃分的類別體系中可以更好地起到類別區分的作用。

圖4 基于平均置換精度差異的特征重要性分析
為進一步說明隨機森林對于特征重要性度量的有效性,本文針對波段1均值、波段3比值、PCA3均值、PCA4均值、NDVI以及NDGI等重要性特征(同時也包括了精細提取場景下重要性上升較大的5個特征)對兩種場景下的地物進行分析,利用隨機森林的輸入樣本進行相關特征值的統計,其特征歸一化譜線的結果如圖5所示。通過和影像原始波段的光譜統計圖(圖6)的對比,可以看出,6類地物在原始光譜曲線上的區分度較低,而在隨機森林選出的6個重要特征上的區分度較高,如植被的NDVI較高、建筑物的第1波段均值較高、其他不透水層的NDVI值較低等。但是建筑物在幾個重要特征上和其他不透水層以及裸地仍然存在一定的混淆情況,如PCA4均值、NDGI和波段3比值。而對于精細提取下的場景,則明顯可以看出不同顏色之間的建筑物特征更加顯著,如白色建筑物的波段1均值顯著高于其他地物,且NDGI值較低;紫色建筑物的PCA3均值顯著高于其他地物;黃綠色建筑物的PCA4均值和其他地物也有較為顯著的區分;只有灰色建筑物在這6個特征上與其他不透水層仍舊難以區分,這是由于其材質構成上的相似性所導致的。

圖5 兩種建筑物提取場景下的特征譜線分析

圖6 常規提取場景下6類地物光譜均值曲線圖
由以上分析可知,將建筑物作為一類地物進行提取的傳統方法沒有充分考慮建筑物內部的差異情況,而本文提出的建筑物精細提取方法則利用了隨機森林能夠挖掘影像特征的功能,使得不同顏色建筑物之間以及建筑物和其他地物之間的可分性都有所提高,充分利用了高分辨率遙感影像豐富的信息。
3.3 建筑物提取結果與精度評價
不同顏色建筑物精細提取的結果如圖7所示,為定量評估本文方法的提取效果,采用目視解譯的方式對影像中類別為建筑物的對象進行人工判讀,并用錯分率、漏分率、用戶精度和生產者精度等指標,從影像對象多邊形個數和實際面積兩個方面,對不同顏色建筑物的提取效果進行驗證,其結果如表2所示。需要注意的是,表2中不同顏色建筑物之間的錯分同樣被認為是目標提取失敗的情況。

圖7 基于隨機森林算法的不同顏色建筑物提取結果
從結果可以看出,采用本文方法所提取的建筑物形狀完整,分類結果連續,有效地避免了面向像元分類結果中存在的椒鹽噪聲,分類效果較好。同時,由于隨機森林能夠充分挖掘影像對象信息的優勢,建筑物能夠很好地與其他不透水層以及裸地等易混淆地物分離,僅存在較低程度的漏分、錯分現象。

表2 基于隨機森林的不同顏色建筑物提取精度
從不同顏色建筑物的提取精度來看,白色和紫色建筑物的提取精度較高,而灰色和黃綠色建筑的提取精度則較低。這是由于白色建筑物的波段1均值最高且NDGI較低,紫色建筑物PCA3波段最高,此兩類地物在上述特征上與其他地物形成顯著的區別所導致。而灰色建筑物由于與其他不透水層材質上的相似性,需利用密度及長寬比等形狀特征與其區別,導致了較高的錯分率和漏分率。黃綠色建筑物盡管存在PCA4波段較低的顯著特征,但是由于其材質褪色導致自身光譜上的復雜性,提取精度也較低。這也和上文隨機森林對特征重要性評估的結果相一致,重要性較高的特征在最終建筑物的提取結果中得到了體現,從而也證明了隨機森林對于高維特征進行信息挖掘和利用的有效性。
為驗證精確提取場景下隨機森林提取建筑物的有效性,本文將兩種場景下的建筑物提取效果進行了對比,結果如圖8所示,兩種方法的提取精度對比如表3所示。
通過觀察圖8和表3發現,精確提取場景下的建筑物識別效果較粗略提取場景下有較為顯著的提高,大大減少了面積較小的不透水層被錯分為建筑物的情況。從表3可以看出,精細提取場景下的建筑物面積提取用戶精度和生產者精度分別為95.4%和89.0%,較常規場景提高了12.16%和4.09%。結果表明,精細提取場景下的建筑物提取較常規將建筑物作為一類的分類方法而言,充分考慮了研究區的實際情況,能夠提高建筑物提取的精度,從而驗證了本文所提方法的有效性。

圖8 兩種不同場景下的建筑物提取結果

表3 兩種不同場景下的建筑物提取結果精度比較
本文針對無錫新區的WorldView2影像建筑物內部特征差異顯著的實際情況,將建筑物細分為4種子類型,利用隨機森林算法提出了一種面向對象的城區高分辨率遙感影像建筑物信息的精細提取方法。結果表明,隨機森林算法能夠有效地利用自身適合于高維數據分類的優勢,充分挖掘目標對象的光譜、幾何、紋理等信息,并對各種特征的重要性進行全面評估,從而為其他面向對象分類方法提供特征空間構建的依據。相對于傳統的把建筑物當作一類地物的提取方法,本文提出的方法充分考慮了不同建筑物之間的差別,建筑物面積提取結果的用戶精度和生產者精度分別為95.4%和89.0%,較常規場景提高了12.16%和4.09%,大大降低了錯分率,實現了建筑物的精細提取,對復雜情況下的高分辨率遙感影像地物提取具有參考價值。
[1] 孫寧.面向高空間分辨率遙感影像的建筑物目標識別方法研究[D].杭州∶浙江大學,2010
[2] 李海霞.高分辨率遙感影像對象分類方法研究及其城鄉規劃監測應用[D].北京∶中國農業大學, 2014
[3] 黃昕,張良培,李平湘.融合形狀和光譜的高空間分辨率遙感影像分類[J].遙感學報,2007,11(2)∶193-200
[4] 許燕,段福洲,段光耀.面向對象的無人機影像分類研究[J].地理空間信息,2014,12(5)∶28-30
[5] Lafarge F,Descombes X,Zerubia J,et al.Automatic Building Extraction from DEMs Using an Object Approach and Application to the 3D-City Modeling[J].ISPRS Journal of Photogrammetry and Remote Sensing, 2008,63(3)∶ 365-381
[6] Sirmacek B,Unsalan C.A Probabilistic Framework to Detect Buildings in Aerial and Satellite Images[J].Geoscience and Remote Sensing,IEEE Transactions on,2011,49(1)∶211-221
[7] Myint S W,Gober P,Brazel A,et al.Per-pixel vs.Objectbased Classification of Urban Land Cover Extraction Using High Spatial Resolution Imagery[J].Remote Sensing of Environment,2011,115(5)∶ 1 145-1 161
[8] 龔健雅,姚璜,沈欣.利用AdaBoost 算法進行高分辨率影像的面向對象分類[J].武漢大學學報∶信息科學版,2010,35(12)∶1 440-1 443
[9] Breiman L.Random Forests[J].Machine Learning,2001,45(1)∶5-32
[10] 王全才.隨機森林特征選擇[D].大連∶大連理工大學,2011
[11] Ghimire B,Rogan J,Miller J.Contextual Land-cover Classification∶ Incorporating Spatial Dependence in Land-cover Classification Models Using Random Forests and the Getis Statistic[J].Remote Sensing Letters,2010,1(1)∶45-54
P237
B
1672-4623(2016)01-0058-05
10.3969/j.issn.1672-4623.2016.01.017
范馳,碩士,主要從事遙感信息提取方面的研究。
2015-04-22。
項目來源:國家自然科學基金資助項目(61190114、41171324);科技部國家科技基礎條件平臺資助項目(2005DKA32300);高等學校博士學科點專項科研基金資助項目(20110091110028);江蘇高校優勢學科建設工程資助項目。