姚蓓蓓,段德宏
1.山東科技大學測繪科學與工程學院,山東青島2665902.山東科技大學科研處,山東青島266590
?
基于決策樹分類的土地覆蓋信息提取研究
姚蓓蓓1,段德宏2*
1.山東科技大學測繪科學與工程學院,山東青島266590
2.山東科技大學科研處,山東青島266590
摘要:為實現簡便、快速、準確地獲取大尺度范圍的土地覆蓋信息,本文充分利用ETM+數據的多光譜特征、DEM數字高程信息和坡度、坡向等地學相關知識,結合NDVI、NDWI、SAVI、NDBI等各類指數,構建適用于研究區土地覆蓋信息提取的決策樹模型,并驗證其精度。結果表明,該模型能夠更好地適用于土地覆蓋信息提取,總體分類精度達到86.49%,Kappa系數0.8367。
關鍵詞:土地覆蓋;ETM+;決策樹分類;信息提取
土地覆蓋信息是人們了解土地利用信息的一種方式,可以幫助研究土地動態變化。是開展土地研究、制定土地利用政策的基礎。在自然、人文社會等諸多因素的影響下,區域土地覆蓋情況不斷地發生變化,進而影響到區域的氣候變化、生態環境質量以及人與自然的可持續發展[1]。遙感應用技術覆蓋范圍廣、周期短,能反映動態變化,受條件限制少,獲得的信息量大且成本低,成為土地利用變化監測的重要研究手段,國內外眾多學者都通過利用遙感的方法獲取土地利用/覆蓋變化信息[2-3],如何更加簡便、快速、準確的獲取大尺度范圍的土地覆蓋信息成為國內外一直關注的研究重點。
傳統的分類方法主要包括監督分類和非監督分類,其中平行算法、最小距離法和最大似然法是監督分類最常用的算法,非監督分類中較常用的算法有ISODATA算法、K-均值算法等[7]。近年來,隨著遙感技術的發展,新興的分類方法主要有人工神經網絡法[4]、模糊分類和紋理識別分類[5]等。但是這些分類方法都是基于遙感影像的光譜信息進行分類,容易產生漏分、錯分現象,嚴重影響分類精度。決策樹分類方法具有結構清晰,易于理解,實現簡單,運行快、精度高的優勢,由一個根結點、一系列子結點和葉子節點組成,每一結點只有一個父結點和兩個或多個子結點[6],當遙感影像空間分布比較復雜或者多源遙感數據具有不同的統計分布和尺度時,應用決策樹可以有效的處理大量高維數據和非線性關系并且抑制訓練樣本噪音提高分類精度,能夠獲得較好的分類結果[7,8]。決策樹分類利用多源遙感數據對影像逐級劃分,直觀清晰且運算效率較高,已經在遙感影像分類信息提取中起到重要作用[9]。
文章使用山東省Landsat7的ETM+遙感影像,借助ENVI遙感圖像處理軟件,分析典型地物的波譜特征,利用NDVI、NDBI、NDWI、SAVI等提取地物信息的比值指數,結合DEM等地學相關知識構建分類決策樹,基于構建的決策樹模型快速、準確的提取山東省土地覆蓋信息。對土地覆蓋
分類結果進行分析和精度評價,通過對比決策樹法和最大似然法的分類結果證明結合各種相關知識共同構建的決策樹模型能夠獲取更高精度。該研究不但改善了遙感影像分類中的決策樹方法,同時對大尺度范圍的土地覆蓋信息動態監測具有重要的理論和現實意義。

圖1 研究區地理位置圖Fig.1 Geographical location of the study area
濟寧市位于山東省西南部,地處魯中南山地和黃淮海平原交接區域(見圖1)。地形較為復雜,以平原為主,東部丘陵分布,地勢東高西低,南四湖貫穿中、北部,屬于暖溫帶季風氣候。總面積達1.1187×108 km2萬平方公里,人口稠密、文化底蘊深厚、經濟發展迅速。土地利用類型中,農業用地占土地總面積的大部分,包括耕地、園地、林地、草地等;其次是建設用地,包括城鄉居民點、工礦用地、交通用地和水利設施等;再有水體分布,包括湖泊河流等;最后是未利用土地等[10]。
研究使用SRTM的DEM數字高程數據和Landsat的ETM+數據來提取山東省土地覆蓋信息。ETM+是搭載在太陽同步極軌衛星Landsat7衛星上的增強專題成像儀+,數據更新時間為16 d,空間分辨率為30 m。ETM+數據主要包括7個波段,即第1波段藍綠波段(450~515 nm),第2波段綠色波段(525~605 nm),第3波段紅色波段(630~690 nm),第4波段近紅外波段(760~900 nm),第5波段中紅外波段(1550~1750 nm),第6波段熱紅外波段(10400~12500 nm)以及第7波段中紅外波段(2090~2350 nm)。
圖像預處理是遙感圖像處理工程中非常重要的環節,為了增強所需要的遙感圖像信息,提高研究結果的精度,在對影像進行分類前會對數據影像做預處理,主要包括利用輻射校正獲取信息提取的地表反射率產品,將多幅影像拼接成一幅完整影像,利用矢量裁剪出山東省的ETM+影像。另外,還對影像做了像元數據融合處理和云掩膜處理。通過對本實驗區各類地物的波譜分析得出,云在藍綠波段的反射率要明顯高于其他地物的反射率,因此利用藍綠波段對影像做基于像元的數據融合能更好的降低云霧干擾。利用藍綠波段的地表反射率值做波段運算得出最小值,根據最小值將多幅影像合成一景影像,這樣就可以將高反射率的云霧去除以減少其對讀取影像數據的影響,并使合成影像的地表反射率能更準確的表示地物特征。由于山東省的植被覆蓋在夏季比較旺盛,農作物大多是在6月換季,8月份生長旺盛,林地則在整個季度保持著高覆蓋率。因此利用2000年至2002年合成的6月份和8月份ETM+數據對地表覆蓋類型做信息提取分類。
不同的地區由于其地理位置、自然條件、研究目的不同等原因,要選擇的分類系統也不同。根據國內外現有的土地利用/覆蓋分類體系,結合本研究的目的要求,依據研究區土地利用的現狀和遙感數據源的信息情況,本次研究選用的是IGBP分類體系標準[9]。本研究根據研究區的氣候條件、地形地貌特點和土地覆蓋的植被類型等實際情況,將本區分為8個土地利用類型(見表1)。

表1 分類體系標準Table 1 Standards of classification system
2.1光譜特征分析
波譜特征是提取遙感地物信息的關鍵依據。不同的地物會具有不同的波譜特征,因此可以利用波譜特征用來區分不同的地物。在遙感影像的分類過程中,波譜分析可以用來作為地物信息提取的一個重要依據。本研究方法是在波譜特征分析的基礎上,利用不同類型的指數增強遙感信息,通過決策樹分類方法提取各種土地覆蓋類型的信息。利用研究區8月份的Landsat ETM+數據,提取了多種基本地物類型的光譜特征,如圖2所示。

圖2 土地覆蓋類型波譜曲線Fig.2 Spectral curves of land cover types
由圖2可以看出,地物的光譜特征在第4波段呈現較為明顯的差異性,地物的光譜反射率出現波峰,但是地物在其它幾個波段尤其是第1、2、3波段上光譜特征差異不明顯。根據以上分析,如果只是單獨依據地物光譜分析進行土地覆蓋信息提取必然會產生漏分、錯分現象,且不易把握閾值范圍。研究考慮使用多種數據結合地學知識構建分類決策樹來提取土地覆蓋信息。
2.2土地覆蓋信息提取
歸一化植被指數在遙感信息中的應用非常廣泛,當NDVI為負值時表示地面覆蓋的是水體、云或雪等[12],利用NDVI能夠分離出一部分常年積水的區域,可以作為提取水體的一個重要因子[13],如式(1)所示:
式中:b3是ETM+數據第3波段,即紅光波段波段;b4是第4波段近紅外波段。由于NDVI受植被覆蓋影響較大,地處暖溫帶的研究區域大部分時間水面都會有植被覆蓋,另外河流含沙量也會影響到NDVI值域判定,因此只靠歸一化植被指數很難分離出全部水體,還需要利用水體指數。
根據水體的光譜特性,MeFeeters提出了歸一化差異水體指數(NDWI),水體指數能夠消除地形起伏的影響,區分水體和陰影,增強遙感信息中的水體信息[14]。但當泥沙含量比較大時,水的波譜反射曲線會移向中紅外區域,導致異常反射[15],徐涵秋[16]等為此提出了改進的修正歸一化差異水體指數(MNDWI),如式(2)所示:
課外教學能夠彌補課堂教學受時間、空間等因素限制的不足。從網絡教學、專業技能訓練、創新性綜合實踐三個方面著手,構建多元化的課外教學體系。網絡教學包括教學網站、網絡教學資源庫和網絡管理平臺三個部分。專業技能訓練則根據學生不同的專業需求,開展具有針對性的專業技能訓練活動,為學生的專業學習服務。創新型綜合實踐,是根據計算機技術的發展趨勢、不同專業的應用背景,來構建以學生為主體的創新性綜合實踐體系,具體通過科研活動、科技競賽以及產學研結合等實踐環節來實現。
式中:b2表示ETM+數據的第2波段,即綠光波段;b7表示第7波段,中紅外波段。用MNDWI來提取有較多建筑物背景水體的效果仍然比較差,為了對遙感數據做出進一步精確的河流提取,沈占鋒[17]等提出了高斯歸一化水體指數(GNDWI)。GNDWI通過高斯變換拉伸0值附近屬于水體的弱信息,抑制1和-1附近的強信息,增強灰度值差異,實現水體的分離并且較好的保留了水體的連續性和完整性。
本研究經過在提取水的研究過程中反復試驗和觀察,將MNDWI和GNDWI兩種指數結合成GMNDWI指數來提取水體,既可以避免因為泥沙含量大而造成的近紅外區的異常反射,又可以利用高斯歸一化增強水體信息,實現河流信息的的精確提取。這里的GMNDWI指的是Gauss Modified NDWI,即高斯修正歸一化水體指數,如式(3)所示:
通過GMNDWI指數更能精確的提取遙感影像上水體的信息,并且保留水體的完整性,因此最終采用GMNDWI指數來提取河流信息。
利用DEM將研究區的地形劃分為平原和山地丘陵兩部分。1984年頒布的《土地利用現狀調查技術規程》將耕地坡度劃分為五個等級[18],地面坡度的不同級別,對耕地利用的影響不同,根據耕地坡度分級,當坡度≤2°時視為平地。坡向決定了植被類型,利用坡向可以區分山地丘陵區的植被類型。根據地球科學辭典里的坡向劃分,可分為向陽坡、陰坡、半陽坡、半陰坡。坡度是影響植被類型的另一個重要因素,當坡度>6°時,容易引起水土流失等狀況,不適宜耕種,適宜大面積林地生長。
歸一化植被指數(NDVI)常被用來衡量植被覆蓋度,可用于區分植被與非植被,一般認為當NDVI值大于0.2時有植被覆蓋,但是NDVI指數常受土壤背景噪聲的影響[19],為此Huete通過引入土壤調節因子來消除土壤背景噪聲的干擾,提出了土壤調節植被指數SAVI,如式(4)所示:

式中:b3表示ETM+數據的第3波段,即紅光波段;b4表示第4波段,近紅外波段;L表示土壤調節因子,介于0~1之間。土壤調節因子L一般選用0.5來減弱土壤背景的差異,目的是在任何土壤背景中求得的植被指數都是相等的,從而消除土壤背景噪聲的影響[20]。
非植被覆蓋區域主要是建筑用地覆蓋區,包括城市、農村居民點、道路交通等。查勇等[21]提出了歸一化建筑指數(NDBI),如式(5)所示:
式中:b4是ETM+數據的第4波段,即近紅外波段;b5是第5波段,即中紅外波段。
3.1決策樹模型構建
研究區依據地學相關知識,當坡度>2°時屬于山地丘陵區,≤2°則為坡緩的平原區。本研究區從338°到22°屬于陰坡,其余方向則屬于向陽坡或半陽坡。一般情況下林地多分布在山地丘陵地區,普通喬木林一般分布在陽坡,而灌木林則多分布在陰坡,根據坡向可劃分灌木林和喬木類林地。當坡度>6°時,適宜種植林木,坡度在2°~6°之間可以種植農作物,利用歸一化植被指數NDVI,可以提取山區植被。
研究經過采樣和光譜分析得出當8月份的NDVI<0.01時可以較好的劃分出范圍較大、深度較深的水域,比如湖泊。通過GMNDWI指數更能精確的提取遙感影像上水體的信息,并且保留水體的完整性,當GMNDWI>1.5時能夠更好的分離出河流。
當SAVI>0.28時可以區分出植被和非植被覆蓋區域。研究區植被覆蓋類型主要包括三種:耕地,林地和草地。其中耕地是種植農作物的主要區域,一般是有季節性的大片出現;林地一般分布在山地丘陵區,植被覆蓋率較大且成片出現;草地類型在影像中呈零散分布,一般分布在林地或水體附近。農作物主要包括冬小麥、夏玉米等,一般是6月份收割冬小麥隨后種植夏玉米、薯類、水稻、大豆等秋收作物,因此在6月份耕地覆蓋區域的NDVI值會因為收割而降低,耕地的NDVI值在6月出現一個波谷。但是8月份是植被生長最為旺盛的時期,耕地的NDVI值會很高,可以根據農作物的生長規律,利用8月NDVI和6月NDVI的差值進行分類[7]。通過樣本采樣和波譜分析得出,當NDVI8- NDVI6>0.2時為耕地。草地和林地在5到9月NDVI值會一直保持比較高的平穩水平,但是林地的NDVI值要普遍高于草地的NDVI值,尤其在六月初林地的覆蓋率要明顯高于草地的覆蓋率,可以利用6月的NDVI區分林地和草地。利用NDBI歸一化建筑指數大于-0.26區分建筑用地。
本次研究通過對濟寧地區Landsat的ETM+數據做光譜分析得到各類地物類型光譜特征,利用各類比值指數,同時結合DEM數字高程數據和地學的相關知識構建分類決策樹提取研究區土地覆蓋信息。通過以上綜合分析,確定決策樹的各分類參數閾值,最終建立分類決策樹(見圖3)。

圖3 濟寧市土地覆蓋分類決策樹Fig.3 L and cover classification decision tree in Jining City
3.2分類結果與精度驗證
根據地物類型光譜特征,利用各類比值指數增強遙感信息,結合DEM高程數據以及相關地學知識確定分類參數,構建決策樹分類模型,提取研究區土地覆蓋信息,最終得到濟寧市土地覆蓋信息分類結果圖(見圖4)。

圖4 濟寧市土地覆蓋分類Fig.4 Land cover classification in Jining City
由圖4中的土地覆蓋信息分類結果中可以看出濟寧市的主要土地利用類型是耕地,主要分布在平原地區,占總面積的一半以上。水體資源主要分布在東南地區的南四湖區域,林地、草地分布在東部山地丘陵區,建筑用地分布和城市建設規劃一致。
本研究由于研究區面積比較大,地形復雜,不便于進行實地考察,所以利用2.5 m高分辨率的SPOT影像目視解譯,對各類地物類型隨機選取大量可靠的樣本數據用于精度驗證。具體過程為:在SPOT影像上對不同類別的地物進行隨機選擇,作為地表真實感興趣區,與最終分類結果相匹配,計算生成混淆矩陣,獲取精度驗證所需要的Kappa系數、總體分類精度等精度驗證需要的信息。
對分類結果做誤差矩陣分析(見表2),不同地物的分類精度具有差異性,植被類型中耕地和林地的精度比較高,主要是由于耕地林地的分布比較集中,便于采樣,而草地分布零散、覆蓋率較低,信息采集難度較大。ETM+作為衛星遙感數據本身受外界大氣、傳感器影像較大,存在一定的混合像元,降低了分類精度。)

表2 決策樹分類誤差矩陣Table 2 Error matrix of decision tree classification
為了進一步對比決策樹分類在精度上的優勢,對該研究區影像做最大似然法分類與決策樹分類結果作比較(見表3)。受遙感數據本身分辨率和大氣的影響,分布比較分散或是受時間影響較大、變化較快的地物的分類精度相比較低,但是相比最大似然法,決策樹分類方法明顯提高河流、林地、建筑用地等地物的分類精度,kappa系數達到0.8367,總體分類精度由73.2651%提升到86.4903%。

表3 最大似然法與決策樹分類法結果比較Table 3 Comparison between maximum likelihood method and decision tree classification method
研究使用的分類方法結合了多種分類參數和數據分析,較之前使用的單一分類方法取得更高的分類精度。但是研究受遙感數據本身分辨率的影響,存在很多混合像元,一些分散的、破碎的地表覆蓋分類精度比較低,應該考慮使用高分辨率的數據,重視混合像元處理問題,提高土地覆蓋信息的分類精度。分類參數的選擇對土地利用分類精度影響比較大,本研究利用光譜分析結合比值指數確定閾值進行分類,由于經驗知識有限難以確定閾值,以后研究要重視如何精確閾值范圍。
通過構建適用于研究區的決策樹分類模型,提取濟寧市的土地覆蓋信息。充分利用ETM+數據的多光譜特征,利用比值指數進行決策樹分類,增強地物信息,提高分類精度,利用改進的水體指數可以更好的提取建筑區的水體信息;注重多源數據相結合,利用DEM高程數據提供坡度、坡向等信息完善決策樹分類,劃分山地平原,進一步提高了分類精度。
利用多源數據和相關地學方面的知識相結合的決策樹分類方法的分類精度達到86.49%,kappa系數為0.8367。相比最大似然法的分類結果,分類精度提高了10個百分點,證實本文構建的決策樹分類模型可以很好的適用于研究區的土地覆蓋信息提取。
參考文獻
[1]曾維軍,侯明明,楊偉.一種改進的決策樹分類方法在土地利用信息提取中的應用[J].貴州大學學報.2013,30(6):39-46
[2]劉忠陽,杜子漩,陳懷亮,等.基于決策樹的鄭州市土地利用與覆蓋分類研究[J].氣象與環境科學,2008,31(3):48-53
[3]汪煒,汪云甲,連達軍,等.基于決策樹分類的某市土地利用變化研究[J].測繪標準化,2011,27(1):4-7
[4]王任華,善宏濤,游先樣.人工神經網絡在遙感圖像森林植被分類中的應用[J].北京林業大學學報,2003,25(4):1-5
[5]楊淑瑩,胡軍,曹作良.基于圖像紋理分析的目標物體識別方法[J].天津理工學院學報,2001,17(4):30-33
[6]游浩辰,許章華,劉健,等.GIS支持下的山區遙感影像決策樹分類研究[J].北京聯合大學學報,2011,25(1):34-45
[7]巴桑,劉志紅,張正健,等.決策樹在遙感影像分類中的應用[J].高原山地氣象研究,2011,31(2):31-34
[8]那曉東,張樹清,孔博,等.基于決策樹方法的淡水沼澤濕地信息提取——以三江平原東北部為例[J].遙感技術與應用,2008,23(4):365-372
[9]翁中銀,何政偉,于歡.基于決策樹分類的地表覆蓋遙感信息提取[J].地理空間信息,2012,10(2):110-112
[10]費鮮蕓.山東省耕地變化及驅動因子[D].泰安:山東農業大學,2003
[11]王穎.基于NDVI-LST模型的長白山地區植被分類與動態變化研究[D].吉林:東北師范大學,2011
[12]王偉武,張雍雍.城市住區熱環境可控影響因素定量分析[J].浙江大學學報,2010,44(12):2348-2353
[13]丁莉東,吳昊,王長健,等.MODIS圖像湖泊水體信息的快速識別與制圖[J].海洋測繪,2003,26(6):31-34
[14]畢海蕓,王思遠,曾江源,等.基于TM影像的幾種常用水體提取方法的比較和分析[J].遙感信息,2012,27(5):77-82
[15]陳玉蘭,羅永明.基于TM/ETM+遙感數據的港口用地動態變化監測[J].氣象研究與應用,2009,30(3):60-62
[16]徐涵秋.利用改進的歸一化差異水體指數(MNDWI)提取水體信息的研究[J].遙感學報,2005,9(5):589-595
[17]沈占鋒,夏列鋼,李均力,等.采用高斯歸一化水體指數實現遙感影像河流的精確提取[J].中國圖像圖形學報,2013,18(4):421-428
[18]陳學婧,高敏華.基于GIS的永久性基本農田劃定的研究——以新疆昌吉市為例[J].安徽農業科學,2013,41(30):12186-12189
[19]徐涵秋,杜麗萍.遙感建筑用地信息的快速提取[J].地球信息科學學報,2010,12(4):574-579
[20]徐涵秋.基于譜間特征和歸一化指數分析的城市建筑用地信息提取[J].地理研究,2005,24(2):311-321
[21]查勇,倪紹祥,楊山.一種利用TM圖像自動提取城鎮用地信息的有效方法[J].遙感學報,2000,55(6):671-678
Study on Soil Cover Information Extraction Based on Decision Tree Classification
YAO Bei-bei1,DUAN De-hong2*
1. College of Geomatics and Engineering/Shandong University of Science and Technology,Qingdao 266590,China
2. Department of Science and Technology/Shandong University of Science and Technology,Qingdao 266590,China
Abstract:To get a lot of information from land cover extraction at a convenience,celerity and accuracy,this paper fully used the characteristics of ETM + multispectral data,the DEM elevation information and the relevant knowledge about a slope,orientation etc. combining with each index of NDVI,NDWI,SAVI,NDBI to establish the decision tree model of land cover information extraction and verify its precision. The result showed that it was suitable enough for the extraction of land cover information and its precision wet up to 86.49%,the Kappa coefficient was 0.8367.
Keywords:Soil cover;ETM+;decision tree classification;information extraction
中圖法分類號:S159.2
文獻標識碼:A
文章編號:1000-2324(2016)03-0372-06
收稿日期:2016-02-16修回日期:2016-04-18
基金項目:山東省優秀中青年科學家獎勵基金(2011BSB01500)
作者簡介:姚蓓蓓(1987-),女,在讀碩士,主要從事定量遙感研究. E-mail:taianluckybb@sina.com
*通訊作者:Author for correspondence. E-mail:duandh@foxmail.com