郭鵬程 周志易
(合肥工業大學 土木與水利工程學院, 安徽 合肥 230009)
傳統的面向像元的分類方法在用于土地利用分類時,僅僅利用了影像的光譜信息,往往適用于中低分辨率的遙感影像[1]。隨著遙感平臺的發展與更新,高分辨率遙感影像已成為研究熱點[2-4],然而面向像元的分類方法不能充分利用影像中的空間結構和紋理信息,導致分類結果中含有大量椒鹽噪聲[5],制約了分類精度。在最近的研究中,面向對象的影像分析技術(Object-Based Image Analysis,OBIA)在土地利用分類中有著良好的表現,一方面因為,基于OBIA的分類的第一步是將影像分割成根據同質性原則合并而成的多邊形影像對象,分割后的對象含有更多的語義信息[6];另一方面因為,OBIA在分類過程中能夠充分挖掘各種影像特征[7],進而減少甚至消除“椒鹽”現象。
針對面向對象影像分析技術在遙感影像分類中的應用,已有許多學者進行了深入研究。袁慧潔[8]利用無人機遙感影像,采用基于規則和基于樣本的兩種面向對象分類方法,提取出房屋、道路、植被等簡單地物及背景;宋明輝[9]利用國產高分二號數據,對影像進行多尺度分割,建立相應地物的分類規則,采用規則集的面向對象分類方法對地物進行分類;楊朝輝等[10]使用Sentinel-2A影像,構建面向對象分類規則,成功提取出蘇州市濕地類型;BHASKARAN等[11]利用IKONOS衛星(伊科諾斯衛星,一顆商業對地觀測衛星)數據,將逐像素和面向對象的分類方法結合,使用光譜、空間屬性和隸屬度函數的組合來進行城市特征制圖,將特定類別(如白色屋頂和植被)的精度進一步提高;SU[12]開發了一種新的用于對象層次分類特征的選擇方法,該方法能更好地減少對象層次的冗余特征,有著較高的分類精度。可以看到,面向對象的分類技術在高分辨率遙感影像特征提取與地物分類的應用上有著巨大的應用前景。
本文選取了合肥市包河區作為研究區域,利用Sentinel-2高分辨率多光譜數據,采用面向對象分類技術中的最近鄰分類,提取出六種地物類型,并與最大似然分類(Maximum Likelihood Classification, MLC)、支持向量機(Support Vector Machine, SVM)、神經網絡(Neural Networks, NN)三種面向像元的分類方法比較。結果顯示,面向對象的分類方法能充分利用影像各類特征,分類精度更高。
本文研究區位于安徽省中部長江淮河流域的合肥市總面積1 400 km2。考慮到整個合肥市區域過大及計算機運行內存大小,本文只選擇合肥市包河區作為典型研究區。
研究使用的數據來源于歐洲航天局(European Space Agency,ESA)的Sentinel-2高分辨率多光譜影像,選擇研究區2019年4月17號的一景影像,云量為0.67,使用ESA提供的sen2cor工具對影像進行輻射定標、大氣校正,并在snap7.0中進行影像重采樣、格式轉換等預處理,生成10 m分辨率的多光譜數據,最后在遙感圖像處理平臺(The Environment for Visualizing Images, ENVI)5.3中進行波段合成和矢量裁剪。
面向對象分類方法的處理單元不再是單個像元,而是具有相似光譜特征、幾何特征及紋理特征等多元特征的影像對象[12]。幾何特征描述的是線段的形狀信息,例如周長、面積、長寬比、與矩形或圓形的相似性等。這類特征往往具有規則的幾何形狀,能在人工地物的識別方面發揮巨大作用,如道路、體育館、一些地區的農業用地。相比之下,光譜和紋理特征更常用于土地利用分類,影像對象的光譜和紋理特征是通過平均其所有像素特征值來提取的。本文的研究技術路線如圖1所示。
圖1 研究技術路線
面向對象分類首先要對影像進行分割,分割效果的好壞影響著最后的分類精度。常用的分割算法有自上而下的分割,包括棋盤分割、四叉樹分割等;自下而上的分割則包括光譜差異分割、多尺度分割等[13]。
本文研究選擇的是多尺度分割算法,該算法是從單個像元開始,根據同質性標準,向上逐漸合并成較大的影像對象,直到滿足所設置的分割參數條件為止[14]。多尺度分割算法的主要參數包括分割尺度、光譜異質性和形狀異質性,其中形狀異質性由光滑度和緊致度表示。異質性F定義為[15]
F=ω×hcolor+(1-ω)×hshape
(1)
hshape=ωcompact×hcompact+(1-ωcompact)×hsmooth
(2)
式中,ω為光譜信息權重;hcolor為光譜異質性;hshape為形狀異質性;hcompact為緊致度;ωcompact為緊致度權重;hsmooth為光滑度。
多尺度分割影像因子的關系如圖2所示。形狀因子越高,分割后的影像對象越平滑,形狀明顯;而緊致度因子越高,分割后的影像對象邊界越細化,對象斑塊碎片化程度明顯[16],通過影像分割尺度參數(Estimation of Scale Parameters, ESP)工具進行分割實驗,結合包河區的地物類型較多且形狀不規則的情況,確定最終的分割尺度為50,形狀因子為0.3,緊致度因子為0.5。
圖2 多尺度分割影響因子的關系
K近鄰分類器是一種簡單且理論相對成熟的機器學習算法。基于K近鄰的面向對象分類的原理是[17]:首先選擇合適的特征量構成最近鄰分類特征空間;其次計算目標對象與所有訓練樣本的特征距離,并統計前K個近鄰中屬于各類別的樣本個數;若K近鄰中屬于第i類的樣本個數最多,則判斷未分類對象屬于第i類,若K近鄰中屬于第j類、第k類(j≠k)的樣本一樣多,且比其他類別的樣本數多,則比較未分類對象到第j類、第k類的平均距離;將未分類對象分到平均距離較小的那一類。當K值為1時即為最近鄰分類。
在特征量的選取過程中,特征的選擇如果過少,會降低分類的精度;過多的冗余特征也會增加計算機運行負擔從而容易造成“Hughes”現象。因此,有必要進行特征空間優化,找到類別之間區分的最大平均最小距離的特征組合,作為分類的最優特征集,從而避免分類過程中盲目使用多種特征所導致的計算量急劇增大、分類精度低等問題。圖3顯示了隨著特征維數的變化,樣本之間的區分距離的變化。可以看出,當特征維數較少即只有5或10個時,增加特征量,區分距離增大;當特征維數達到15個后,區分距離開始下降,表明過多的特征量已經影響到分類的準確性。
圖3 特征量維數與區分距離的關系
通過不斷選取特征量組合個數,當特征維數為15時,區分距離達到最大,類別區分距離矩陣如表1所示。
表1 類別區分距離矩陣
最終選取的光譜特征量為歸一化差異水體指數(Normalized Difference Water Index,NDWI)、歸一化差異植被指數(Normalized Difference Vegetation Index,NDVI)、歸一化差異建筑指數(Normalized Difference Vegetation Index,NDBI)、紅邊歸一化植被指數(Red Edge Normalized Difference Vegetation Index,NDVI705),綠光、紅光、近紅外、紅邊第五、第六波段的亮度均值;紅邊第六波段、短波紅外第十二波段亮度的標準差。幾何特征為Roundness、Shape index、Density、Asymmetry。具體描述如表2所示。其中光譜特征描述中,ρNIR為近紅外波段的反射率;ρR為紅光波段的反射率;ρG為綠光波段的反射率;ρSWIR1為短波紅外波段的反射率;ρ750為高光譜波段中心波長為750 nm波段的反射率;ρ705為高光譜波段中心波長為705 nm波段的反射率。
表2 面向對象的光譜特征和幾何特征描述
面向對象的分類是在eCognition9.0中進行的,面向像元的分類是在ENVI5.3中執行的。四種方法的分類結果如圖4所示。在研究區范圍利用隨機函數生成200個點作為分類精度評估樣本點,結合高分影像目視判讀和實地調查等方式解譯出樣本點的地物類型,分別計算基于面向對象方法和監督分類方法的混淆矩陣,并計算生產者精度、用戶精度、總體精度和Kappa系數。四種分類方法的精度評估如表3所示。
表3 分類結果精度 單位:%
圖4 四種方法分類結果
面向對象的分類法的總體精度與Kappa系數比其他監督分類方法都要高,總體精度達到了88.90%,Kappa系數為0.857 9,其他三類NN、SVM、MLC的總體精度分別為87.92%、85.57%、82.69%,Kappa系數分別為0.849 5、0.828 1、0.781 6。四種方法對于水體的分類精度都比較高,對于耕地和建筑用地,面向對象分類法有著更好的分類效果。三種傳統的監督分類結果顯示,耕地與林草混分、建筑用地和道路的混分現象比較嚴重,導致這四類的用戶精度都不是很高。最大似然法在區分道路的效果上比SVM、NN要好;SVM中的道路、裸地的制圖精度較低,表明類別的漏分現象嚴重。NN中裸地的用戶精度最低,因為部分裸地被混分為林草或建筑用地。
本文利用Sentinel-2數據對合肥市包河區進行了土地利用的分類。首先選擇合適的參數,利用多尺度分割技術對預處理后的影像進行分割,獲取分割后的影像對象單元;然后采用面向對象中的最近鄰分類器,并進行特征空間的優化與選擇;最后通過與三種面向像元的監督分類法:最大似然分類、支持向量機、神經網絡進行比較,結果表明:
(1)面向對象的影像分析技術利用了局部到整體的分析思想,將具有同質性的像元合并為影像對象,運用各類特征對對象進行整體分析,對于土地利用的分類、覆被信息的變化監測研究具有重要意義。
(2)面向對象的影像分析技術在改善錯分、漏分現象的同時,也較好地減少了監督分類出現的“椒鹽”現象,在四種分類算法中精度最高,分類效果最好。
今后的研究可以側重于兩個方面,一是深入研究最佳分割尺度參數的選擇方法;二是特征量的選擇上沒有考慮紋理特征和上下文特征,在加入更多的特征后,如何合理地量化特征量的選取過程亟待進一步研究。