陳鑫亞,楊昆,王加勝
(1.云南師范大學信息學院;2.云南師范大學地理學部;3.西部資源環境地理信息技術教育部工程研究中心,云南昆明 650500)
山區城鎮化最顯著的特征是大量不透水面取代了以植被為主的自然地表。不透水面是指道路、停車場等人工地表,不透水面能夠阻止地表水下滲,從而破壞了地表能量平衡和生物多樣性,容易導致洪澇災害、熱島效應等問題。城鎮化對山區生態環境的影響尤為顯著,因此快速、準確地提取山區不透水面,可為優化山區發展規劃、加強環境保護與治理提供決策支持。
遙感影像因其具有成本低、覆蓋范圍廣等優點成為快速不透水面制圖的重要數據來源。由于山區地物交錯分布,低分辨率影像受空間分辨率和地物異質性的影響,混合像元占比較高。分辨率高的影像中的混合像元較少,Sentinel-2影像是目前免費的分辨率最高的光學影像,常被用于不同地物的遙感提取。受山區云雨天氣的影響,光學影像的云量較高。同時,不透水面與裸土等地物容易出現光譜混淆的情況。因此,僅使用光學影像無法準確提取不透水面。有研究表明,融合Sentinel-2等光學影像和Sentinel-1合成孔徑雷達(Synthetic Aperture Radar,SAR)影像等多源數據可以提高分類精度。
多源數據融合容易導致特征冗余,特征優選能夠降低特征維度,提高分類性能。JM距離、隨機森林(RF)和ReliefF算法是目前最為常用的3種優選方法。例如,文獻[11]篩選出JM值處于一定范圍的特征用于不同分類算法,以提取江蘇夏收作物;文獻[12]結合JM距離和RF算法對三七種植區進行遙感監測;文獻[13]基于RF的袋外數據誤差評估特征重要性,將特征從28個降至13個,以提取湖北洪湖濕地信息;文獻[14]采用RF的平均不純度減少衡量特征重要性后,對中南半島進行了土地覆蓋分類;文獻[15]結合ReliefF算法和信息熵改進分離閾值算法進行特征優選,對華北平原地區作物進行分類;文獻[16]使用基于ReliefF與粒子群優化算法的混合特征選擇法用于土地分類,總體精度為85.88%。
目前,許多研究傾向于使用一種特征優選方法進行特征降維,并未對比不同優選方法在具體應用中的優劣和有效性。此外,大多數相關研究主要針對平原地區,特征優選方法在山區不透水面提取中的應用能力有待驗證。為此,本文基于谷歌地球云計算平臺(Google Earth Engine,GEE),以典型山地城市昆明市為例,比較了3種常用特征優選方法在不透水面提取中的有效性,并基于最優特征子集提取了昆明市2020年的不透水面。
昆明市(見圖1)位于云南省中部,屬低緯亞熱帶高原季風氣候,全年干濕分明。地勢由北向南呈階梯狀降低,大部分地區為海拔在1 500~2 800m之間的山區或半山區。云南省地處中國西南邊境,與南亞、東南亞多國鄰接,作為云南省的政治經濟文化中心,昆明市城鎮化水平發展迅速。

Fig.1 Overview of the study area圖1 研究區概況
(1)Sentinel-2 MSI數據。Sentinel-2攜帶多光譜成像儀(MultiSpectral Instrument,MSI),最高分辨率為10m。使用GEE上2020年Level-1C級別的影像共360景,數據已經過輻射校正和幾何校正。篩選出云量低于10%的影像,并用具有云掩膜信息的QA60波段去云。為減少植被物候因素對分類的影響,將影像按歸一化差異植被指數的最大值進行合成,并按研究區范圍剪裁影像。
(2)Sentinel-1 SAR數據。Sentinel-1提供的合成孔徑雷達數據最高分辨率為10m。為減少山區陰影和疊掩的影響,收集了2020年雙軌道、雙極化(VV+VH)和IW工作模式的影像共323景。影像都進行了熱噪聲去除、輻射校準和地形校正。將所有影像按均值進行合成,并按研究區范圍進行剪裁。
(3)DEM數據。使用GEE上用于完成航天飛機雷達地形測繪任務的數字高程模型(Digital Eevation Model,DEM),數據分辨率為30m,將其按研究區范圍進行裁剪。使用GEE的ee.Algorithms.Terrain(input)函數計算出海拔、坡度、坡向作為地形特征。
(4)樣本數據。使用Google Earth進行線上樣本采集。首先通過分層隨機采樣生成2 000個隨機均勻分布的樣本點,再基于Google Earth上2020年的影像,通過目視解譯將樣本標記為透水面和不透水面兩類。透水面包括植被、水體和裸土,分別得到透水面和不透水面樣本1 748與252個。
(5)土地覆蓋分類數據。目前可免費獲取的基于其他方法的土地覆蓋數據有限,因此收集了2020年30m分辨率的全球地表覆蓋數據集(GLC30)、2018年30m的全球人工不透水面數據集(GAIA)和2017年10m的全球土地覆蓋觀測與監測數據集(FROM-GLC10)用于結果精度驗證,并將產品重分類為透水面和不透水面兩類。
本文基于GEE平臺,首先獲取并對遙感數據進行預處理,完成光譜、光譜紋理、地形及SAR紋理特征構建;然后,分別基于JM距離、RF模型、ReliefF算法優選出3組特征子集,評價不同特征子集的分類精度;最后,基于最佳的特征優選方法與RF分類算法提取昆明市2020年的不透水面分布信息。
(1)光譜特征。通過Sentinel-2影像提取的光譜特征包括藍波段(Blue)、綠波段(Green)、紅波段(Red)、近紅外波段(NIR)、短波紅外(SWIR1、SWIR2)以及歸一化差異建筑指數(NDBI)、改進的歸一化差異水體指數(MNDWI)、歸一化差異植被指數(NDVI)和裸土指數(BSI)。
(2)光譜紋理特征。紋理特征能夠反映地物大小形態、疏密程度和規整程度。鑒于不透水面在短波紅外波段中具有較高反射率,基于灰度共生矩陣對Sentinel-2影像的B12波段計算紋理特征。使用GEE函數glcmTexture()得到常用的5個紋理特征:角二階矩(B12_ASM)、對比度(B12_Contrast)、逆差矩(B12_IDM)、熵(B12_ENT)和方差(B12_VAR)。
(3)地形特征。地形因素通常限制著山區城市的分布與擴張。因此,采用由DEM數據計算得到的海拔(ELEVATION)、坡度(SLOPE)和坡向(ASPECT)3個地形特征分量參與特征集構建。
(4)SAR紋理特征。相關研究表明,SAR的紋理特征相比光譜紋理特征具有更豐富的紋理信息。本文通過glcmTexture()函數計算得到VV和VH極化方式的常用紋理特征:VV_asm、VV_contrast、VV_idm、VV_ent、VV_var、VH_asm、VH_contrast、VH_idm、VH_ent、VH_var。
特征選擇即將高維空間的特征通過映射或變換方法轉換到低維空間,剔除冗余和不相關特征。特征選擇的原則是在不顯著降低分類精度、不影響類分布的前提下優選出盡可能小且穩定的特征子集。本文構建了4類特征:光譜特征10個,光譜紋理特征5個,地形特征3個,SAR紋理特征10個,共28個原始特征。若不進行優選,冗余特征將會影響分類性能。
2.2.1 基于JM距離的特征優選
JM距離(Jeffries-Matusita distance)是反映類間可分性的重要指標。在特征正態分布的前提下,計算類間樣本的JM距離可衡量不同類別基于某一特征的可分離性。對于類別i
和類別j
,其JM值的計算方法見式(1)和式(2)。

2.2.2 基于RF模型的特征優選
隨機森林(Random Forest,RF)是集成多棵決策樹的學習算法,每棵決策樹通過隨機選取樣本和特征獨立生成。決策樹節點在分裂時,由最優分裂特征得到的子節點樣本在理想狀態下屬于同一類。利用基尼指數(Gini index)衡量樣本集合的不純度,Gini index越小,樣本的錯分概率越小。基于RF模型的特征優選通過對比特征在決策樹上的平均貢獻率來評估特征重要性,通常使用Gini index或袋外數據錯誤率作為衡量標準。本文基于Gini index進行評估,并將所有特征貢獻率的均值作為閾值,優選出貢獻率大于均值的特征用于分類。
2.2.3 基于ReliefF算法的特征優選
ReliefF特征優化算法能夠解決分類及回歸問題,算法效率高且不限制數據類型,為較常用的特征選擇方法之一。ReliefF算法每次從訓練樣本集中隨機取出一個樣本x
,并從與x
同類的樣本集中找出x
的k個近鄰樣本,從與x
不同類的樣本集中找出k個近鄰樣本,然后更新每個特征權重,重復m次。特征權重計算方法見式(3)。
Diff
()表示樣本在特征f
上的距離,H
(x
)、M
(x
)分別為與x
同類和非同類的最鄰近樣本,p
(x
)表示類別x
的概率,m
為迭代次數,k
為最近鄰樣本個數。特征權重越大,表示該特征對樣本的區分效果越好。本文將所有特征權重均值作為閾值選擇最優特征子集。本文運用RF分類算法提取不透水面。RF是對多棵決策樹投票結果進行集成的分類器,采用bootstrap抽樣策略選取訓練樣本用于生成決策樹,具有分類精度較高、不易出現過擬合等優點,較少受噪聲和特征選擇的影響,適用于多類別與多特征分類。決策樹數量和特征選取個數是RF建立的關鍵參數,通過以50為間隔調整參數的方法,選取分類精度最高的決策樹數量。通過多次實驗,將決策樹數量設置為200,特征個數設置為特征維數的平方根。
通過構建混淆矩陣可對基于不同優選方法的分類結果進行精度評價,具體評價指標有生產者精度(Producer′s Accuracy,PA)、用戶精度(User′s Accuracy,UA)、總體精度(Overall Accuracy,OA)和Kappa系數。其中,OA和Kappa系數可反映總體分類精度,PA、UA用來衡量不透水面的錯分和漏分誤差。運用交叉驗證方法,隨機選取約7/10的樣本用于模型訓練,約3/10的樣本作為測試樣本用于精度驗證。對每個特征子集進行10次精度驗證,并對10次驗證結果求平均值。
3.1.1 基于JM距離的特征優選結果
計算出單個特征的JM距離以及同類特征JM距離的均值,并將同類特征中JM距離低于均值的特征剔除,完成同類特征優選(見表1),再將優化后的不同類特征進行組合,計算JM距離(見表2)。

Table1 Features of the same category and their JM distance after optimization表1 優選后的同類特征及其JM距離

Table 2 JM distance of combinations of features belong to different categories表2 不同類特征組合的JM距離
由表1可知,對同類特征進行優選后,共減少了13個特征。表2表明將不同類特征進行組合能增大JM距離,紋理特征的貢獻率較高。其中,S+T+ST和S+T+ST+D的JM距離最大。由于S+T+ST特征數量更少,因此選擇Blue、Green、Red、SWIR2、NDVI、BSI、B12_asm、B12_contrast、B12_var、VV_asm、VV_var、VH_contrast、VH_var共13個特征用于構建特征子集。
3.1.2 基于RF模型的特征優選結果
基于RF模型的特征重要性如圖2所示,計算出特征重要性均值為0.035 7。其中,B12_idm、B12_asm、B12_ent、B12_contrast、VV_contrast、BSI、NDVI、Blue的貢獻率超過3%;Red、NDBI、SLOPE、VV_idm、VV_ent、VV_asm和VH_contrast的貢獻率在2.5~3%之間,表明紋理特征的貢獻率最高,且VV紋理特征貢獻率高于VH紋理特征。貢獻率高于均值的特征包括Blue、NDVI、BSI、B12_asm、B12_contrast、B12_ent、B12_idm、VV_contrast共8個特征,用于構建特征子集。

Fig.2 Feature contribution rate based on RF model圖2 基于RF模型的特征貢獻率
3.1.3 基于ReliefF算法的特征優選結果
基于ReliefF算法的特征權重如圖3所示,特征權重的均值為0.017。NDVI、NDBI、BSI、B12_ent、B12_idm的權重超過3%,Blue、VV_ent、VV_idm、ASPECT、SLOPE的權重處于2~3%之間,其余特征的權重低于2%。因此,權重高于均值的特征包括Blue、NDBI、NDVI、BSI、B12_ent、B12_idm、VV_ent、VV_idm、SLOPE、ASPECT共10個特征,用于構建特征子集。

Fig.3 Feature weight based on ReliefF algorithm圖3 基于Relief F算法的特征權重
基于JM距離、RF模型、ReliefF算法構建的特征子集分別用于訓練RF分類器,并提取不透水面,將提取結果分別命名為JM_2020、RF_2020和ReliefF_2020。基于不同特征子集的分類精度和分類模型訓練時間見表3。為進一步展現3種方法在不透水面提取上的差異,選取昆明市3個典型區域,對比JM_2020、RF_2020和ReliefF_2020的分類精度,見圖4。

Table 3 Evaluation index of different feature selection methods表3 不同特征優選方法評價指標

Fig.4 Extraction results of impervious surface based on different feature optimization methods圖4 基于不同特征優選方法的不透水面提取結果
由表3 可知,相比原始特征,特征優選剔除了大量冗余或無關特征,提高了分類效率和精度。其Kappa 值和PA值有所提高,模型訓練時間驟減。基于ReliefF 算法的優選特征數量較少,相比JM 距離和RF 模型,Kappa 值分別提高了2%和3%,PA 值分別提高了7%和4%,模型訓練時間分別減少了84s和16s。
分析圖4 可知,(a)區域為居民區,RF_2020 和JM_2020 在居民樓密集區都存在不透水面高估現象。在(b)、(c)區域中,JM_2020的不透水面低估情況相比其他兩種方法更嚴重,漏分了大量不透水面。根據Sentinel-2 的地面真實影像,與RF_2020 和JM_2020 相比,ReliefF_2020 更接近不透水面的真實分布,提取效果明顯優于其他兩種方法。因此,本研究將ReliefF 作為最優的特征選擇方法,ReliefF_2020為最優的不透水面提取結果。
為進一步驗證ReliefF_2020 的精度,選取昆明市內具有不同城鎮化程度的3 個典型區域,將ReliefF_2020 與基于其他方法獲取的土地覆蓋數據精度進行比較,見圖5。
區域(a)中FROM_GLC10和GAIA 都存在低估現象,區域(b)中FROM_GLC10 和ReliefF_2020 精度較高,區域(c)中的大棚作物種植區(Sentinel-2 中亮白色區域)易與不透水面混淆,FROM_GLC10 和GAIA 中的混淆現象嚴重。GLC30 具有最低精度,ReliefF_2020 與Sentinel-2 目視解譯效果基本一致。因此,ReliefF_2020 的精度僅次于FROM_GLC10,但高于GAIA 和GLC30。

Fig.5 Accuracy comparison of land cover data圖5 土地覆蓋數據精度比較
本研究融合多源遙感數據,對比了3 種特征優選方法(JM 距離、RF 模型和ReliefF 算法)在山地城市不透水面提取中的有效性,得到以下結論:
(1)融合光學衛星和雷達衛星數據能有效提高山區不透水面的提取精度。在所有特征中,光譜紋理特征與SAR 紋理特征的重要性較高。
(2)特征優選方法能減少大量冗余特征,減少模型訓練時間,提高分類效率和精度。基于ReliefF 算法優選出的特征較少,模型訓練時間最少,不透水面提取結果具有最高的Kappa和PA 值,因此成為最優的特征優選方法。
(3)最終提取結果中存在不透水面的高估與低估現象,主要與特征優選時閾值的不確定性、研究區的特殊性、樣本的準確性,以及山區的光譜混淆、混合像元等問題有關。
以特征權重均值作為閾值具有一定的不確定性。未來研究將根據特征類型與數量,對比不同閾值的優選效果或尋找自動化的閾值確定方法。同時,將樣本的線上選取與線下檢驗相結合以提高樣本準確度。