田紹鴻, 張顯峰
(北京大學遙感與地理信息系統研究所,北京 100871)
?
采用隨機森林法的天繪數據干旱區城市土地覆蓋分類
田紹鴻, 張顯峰
(北京大學遙感與地理信息系統研究所,北京100871)
摘要:基于天繪一號(TH-1,或稱MS-1)衛星多光譜數據,采用隨機森林分類方法(random forests classification,RFC)對位于中亞干旱區的我國新疆維吾爾自治區阿勒泰地區北屯市及周邊區域的土地覆蓋進行了分類研究。針對北屯市不透水層與裸土混雜的情況,將紋理特征與植被信息構建最優組合,建立有效的RFC分類器,提高對易混淆土地覆蓋類型的分類識別精度。結果表明,采用RFC的分類精度高于最大似然法分類結果,總體分類精度提高了近10%。經過優化選擇的特征組合在對干旱區中小城市土地覆蓋進行分類時表現良好,能得到較高精度的分類結果,可滿足新疆中小城市發展規劃對土地覆蓋信息的需求。
關鍵詞:天繪一號(TH-1); 隨機森林; 特征選擇; 土地覆蓋分類; 干旱區
0引言
我國中西部地區的城市大多位于干旱半干旱區域,受地形等自然因素的影響,城市的輪廓特征以及城市類群的分布都不十分規則[1]。采用遙感技術對中西部干旱區的城市區域土地覆蓋進行監測是一種低成本、高效率的手段。最大似然分類法(maximum likelihood classification,MLC)被認為是穩定性較好的統計分類器[2],如果圖像數據在特征空間中的分布較復雜、離散或訓練樣本不具代表性,可能會造成統計結果與實際分布的偏差較大、分類精度下降。許多學者提出了MLC的改進算法[2-3]以及基于支持向量機(support vector machines,SVM)理論和人工神經網絡(artificial neural network,ANN)模型的分類方法[4-7],取得了很好的分類效果。然而,傳統的基于統計和非統計的分類算法對地物類型的劃分都只進行單次決策,其分類結果受遙感圖像噪聲干擾以及“同物異譜”、“同譜異物”現象的存在會出現較多的錯分、漏分現象,導致分類精度不高。為解決上述問題,集成學習與多分類器系統被引入遙感土地覆蓋分類研究中,并在理論上被證明比單一分類器得到的分類結果更好[8]。其中,Breiman[9]提出的隨機森林分類(random forests classification,RFC)是目前有效的分類器集成策略,該方法對噪聲具有較強的容忍度和較低的泛化誤差[10]。研究表明,RFC方法非常適合于土地覆蓋分類[11],在對Landsat TM/ETM+多光譜圖像數據、高光譜航空遙感數據、機載LiDAR數據等進行土地覆蓋分類的研究中,RFC方法都取得了較好的分類效果[12-15]。目前國內僅有少數學者將RFC方法應用于遙感圖像分類[16-18],但針對快速發展的我國中西部城市區域基于RFC的土地覆蓋分類研究尚不多見。
本文基于天繪一號(TH-1,或稱MS-1)衛星多光譜數據,針對干旱區城市區域土地覆蓋分類的特點,利用RFC方法,通過特征選擇與優化,建立基于RFC的新疆維吾爾自治區北屯市土地覆蓋分類方法,探索適合干旱區城市區域土地覆蓋分類的方法,旨在為新疆城市化發展規劃提供土地覆蓋信息,并進一步推進TH-1衛星圖像的應用。
1研究區與數據源
1.1研究區概況
新疆維吾爾自治區北屯市(E 87°45′14.2″~87°51′31.5″,N 47°18′37.8″~47°22′58.7″)地處阿爾泰山南麓、準噶爾盆地北緣,毗鄰阿勒泰市和福海縣; 屬溫帶大陸性氣候,年平均氣溫3.6~3.9℃,干旱少雨; 主要地貌類型為平原和河流,市區沿著名的額爾齊斯河東西向延伸; 地勢較平坦,光照充足,農牧業生產條件較好,土地開發潛力較大。
該區域土地覆蓋分類的難點主要在于: ①空間異質性強。在景觀上,干旱區的城市多為近鄰水資源的人工綠洲,形成了在大范圍荒漠草地、戈壁沙漠之中鑲嵌的人工綠洲異質體。在遙感圖像中,即使同一類覆蓋類型也會呈現出不一致的光譜特征,即“同物異譜”現象,這一現象一旦出現將給遙感分類增加很大難度; ②不透水層與透水層混合。在干旱區,城市的景觀格局分布分散,城市規模小,城市中的不透水層覆蓋過重會影響地下水的補充,因此位于干旱區的城市區域呈現不透水層和透水層混合分布的狀況。干旱區土壤含水量較低,鹽堿化嚴重,存在難以區分裸露土壤與不透水層的情況,也會給遙感分類帶來困難; ③水體水位變異大。因河流多為季節河,水位變化大,往往導致水體輪廓點不能用作幾何糾正的參考點,這給水體/水系的分類帶來了難度; ④裸土光譜差異大。人工綠洲的耕地中,土壤經人工改造有機質含量豐富,土壤礦物如氧化鐵等含量高,會導致土壤在可見光波段范圍出現多個異常的吸收特征[19]。如沙漠結皮往往表現出一定的植被特性或低反射特性,在多光譜遙感圖像中易被識別為植被或濕潤土壤甚至水體。干旱區土地覆蓋的以上特點,導致了傳統的遙感分類法難以取得令人滿意的結果; 而在訓練樣本不全、噪聲干擾強以及地物光譜特征不顯著的情況下,引入機器學習的模式識別機制和集成學習的投票策略是提高干旱區土地覆蓋分類精度的有效手段。
1.2數據源及其預處理
本文使用的遙感數據是天繪一號(TH-1,或稱MS-1)衛星多光譜圖像,獲取時間為2013年9月26日,包括4個空間分辨率為10 m的多光譜波段和空間分辨率為2 m的全色波段數據。該圖像覆蓋了北屯市市區及其周邊部分區域。對數據進行輻射校正和幾何糾正等預處理,得到待分類的TH-1圖像。
研究使用的參考數據是以研究區土地利用調查數據及QuickBird數據為基準繪制的北屯市及周邊土地覆蓋類型圖。對所得結果通過地面采樣點進行驗證,用于對土地覆蓋類型分類精度的比較分析。
2隨機森林分類方法
2.1RFC的原理
隨機森林分類是以決策樹為基本分類器的一個集成學習模型[20-21]。單個決策樹在數據復雜或存在噪聲干擾情況下,得到的分類規則容易出現“過擬合”,致使泛化誤差增大,造成對總體樣本的分類精度下降; 而RFC包含多個通過訓練樣本集成學習得到的決策樹,從而較好地克服了單個決策樹的過擬合問題。RFC對噪聲和異常值的容忍性較好,已被廣泛應用于各類數據的分類[22]。
RFC模型中的每個決策樹根據訓練集和隨機向量θk生成,最終組成的決策樹集合就是RFC模型{h(X,θk),k=1,2,…K},其中X是輸入變量。每一個決策樹模型h(X,θk)都有一票投票權用于選擇輸入變量X的分類結果。經過K輪訓練,可根據訓練集得到一個分類模型序列{h1(X),h2(X),…,hk(X)},也就形成了RFC模型。對樣本集的分類結果則由每個分類模型的分類結果通過投票決定,即

(1)
式中:H(X)為RFC模型;hi(X)為單個決策樹分類模型;X為輸入變量;Y為目標變量(或分類目標);I(·)為示性函數。RFC模型使用簡單的投票策略來完成最終的分類(圖1)。

圖1 隨機森林分類過程示意圖
RFC方法具有泛化誤差收斂和袋外估計無偏性2個特性。
1)泛化誤差收斂。根據RFC分類模型序列{h1(X),h2(X),…,hk(X)}定義模型的余量函數為
mr(X,Y)=avkI[h(X,θk)=Y]-maxj≠YavkI[h(X,θk)=j] ,
(2)
式中:mr(X,Y)為余量函數;avk(·)為均值運算;h(X,θk)為分類模型序列。余量函數反映了輸入樣本X的正確分類Y的得票數高于錯誤分類得票最多類別的程度,因此余量函數越大,RFC模型的置信度越高。

s=EX,Y[mr(X,Y)] ,
(3)

(4)
式中:E(·)與sd(·)分別表示數學期望與標準差。Breiman[9]證明了RFC模型的泛化誤差上界為

(5)

2)袋外估計無偏性。從原始樣本集中隨機取樣時,約有37%的樣本不會被選中,這一部分未被選中的袋外數據(out-of-bag,OOB)可用于估計組合樹模型的泛化誤差、分類強度和相關系數; 對于每一個決策樹都可以使用OOB得到一個誤差估計,將RFC中所有決策樹的OOB誤差估計取平均值,可以評估RFC模型的泛化誤差。Breiman[9]通過實驗證明,OOB誤差估計是無偏的。RFC模型各個決策樹的建立是并行的,可在構建各個決策樹的同時對OOB誤差進行計算,故通過少量計算即可在短時間內完成模型的誤差估計,減少計算量。Breiman根據Wolpert等[24]對裝袋預測泛化誤差方法的研究,證明了袋外估計與使用全樣本集進行測試得到誤差估計具有相同的精度。OOB估計的無偏性在很大程度上提高了RFC模型的運行效率,也為分類結果的精度驗證提供了理論依據。
2.2基于RFC的土地覆蓋分類
2.2.1分類體系的確定
在TH-1衛星圖像上研究區可清晰識別出的典型地表覆蓋類型有荒地(如沙地)、林地、草地、河流、河漫灘、建筑、道路、綠化帶、耕地、湖泊以及硬化地面(如水泥地等)。參考《GBT_21010—2007土地利用現狀分類標準》,結合研究區遙感圖像以及干旱區土地覆蓋遙感分類的特點,確定分類體系為: 小麥田(011)、玉米地(012)、稀林地(021)、荒漠草地(031)、建筑(041)、道路(051)、水體(061)以及其他用地(071)。
2.2.2RFC分類的實現
基于RFC的原理,根據目標數據選擇訓練樣本,通過對訓練區中樣本數據的分析建立分類決策規則或判別函數,根據確定的8個類別選取響應的訓練區。RFC的實現基于ENVI/IDL軟件,采用懷卡托智能分析環境(Waikato environment for knowledge analysis,WEKA)開展分類研究。根據研究區TH-1圖像中主要地表覆蓋類型的光譜及空間分布特征的分析,為提高組合決策樹的分類精度,在TH-1原始4個多光譜波段數據的基礎上納入全色波段信息、植被指數信息和紋理特征信息,構建了多個特征數據集,依次對各特征的有效性進行評價與分析,以選取最優化的分類特征集。
3結果與分析
3.1選取最優分類特征集
TH-1遙感圖像全色波段的星下空間分辨率為2 m,包含地物大量的結構與紋理特征信息。將全色波段、從全色波段提取的紋理以及4個多光譜波段構成分類特征集; 在此基礎上,進行特征的有效性檢驗,構成優化后的分類特征子集。
3.1.1加入紋理特征
在研究區,建筑和道路都具有類似水泥表面的光譜特征,這也是傳統的分類方法難以將二者準確分開的原因。根據建筑的排列特點,密集低矮的樓群在遙感影像上表現出良好的紋理特征,因此將紋理特征作為參數引入分類器,可有效改善分類結果(表1)。

表1 基于紋理特征的樣本分類精度
注: ①MS表示多光譜波段; ②Pan表示全色波段; ③Texture表示從全色波段提取的紋理。
由表1可見,加入紋理特征后建筑的分類精度提高了約20%,在分類中紋理能有效地判別城市中非建筑硬化地表(其他用地的一部分,紋理特征不明顯)和建筑用地(紋理特征明顯)。北屯市區建筑高度較低,其光譜特征受地面背景的影響較大,在沒有紋理特征的數據中,建筑容易被錯分為其他用地; 加入紋理特征后,對建筑的分類效果明顯提高。建筑用地的紋理信息與其他覆蓋類型有明顯的區別,在決策樹節點分裂時,依靠紋理特征分裂的節點能保證含有建筑用地的節點擁有較高的純度,在對建筑用地的判定時表現出較高的準確性。
3.1.2利用植被信息
歸一化差值植被指數(normalized difference vegetation index,NDVI)被廣泛應用于監測植被生長狀態、植被覆蓋度等領域,能有效地反映植物冠層的背景影響(如土壤、雪蓋等)。差值植被指數(difference vegetation index,DVI)為近紅外波段(NIR)的反射率與紅光波段(R)的反射率之差,與NDVI相比,DVI對高植被覆蓋區域的敏感性更強; 但因DVI沒有進行數值歸一化,故對植被覆蓋類型的聚類較差。研究區NDVI分布在0~0.47之間,而DVI分布在0.88~117之間。對待分類數據中的上述2個植被指數按照稀林地、玉米地、荒漠草地、小麥田等4種植被覆蓋類型進行統計,得到4種植被覆蓋類型對應的NDVI和DVI: 稀林地NDVI為0.27~0.47,DVI為40~117; 玉米地NDVI為0.15~0.28,DVI為20~52; 荒漠草地NDVI為0.06~0.22,DVI為12~29; 小麥田的NDVI為0.03~0.12,DVI為6~22。
研究區在TH-1圖像獲取時小麥已基本收割完畢,田中主要剩余秸稈; 荒漠草地為該區域主要的天然植被覆蓋,蓋度較低; 而玉米地和稀林地的植被覆蓋度較高,由于NDVI對低植被覆蓋較敏感而DVI對較高植被覆蓋的區分效果更好,故理論上引入這2種植被指數可以提高分類的準確度。對檢驗樣本進行精度檢驗,以分析2個植被指數特征對各類地表覆蓋分類情況的影響(表2)。

表2 加入植被指數后的樣本分類精度
植被指數對植被覆蓋的分類精度影響較大,對非植被覆蓋(如建筑、道路等)影響小。其中,NDVI對4類植被覆蓋的分類精度都提高了約5%~7%; 相比之下,DVI對高覆蓋植被類型的分類精度影響更大。4種植被覆蓋類型在植被指數上有明顯差異,對于植被覆蓋較高的林地和玉米地,DVI的區分更明顯,增加了分類的準確性; NDVI對低植被覆蓋的小麥田和荒漠草地判別效果更好,并對植被和非植被的區分起到很大作用。
3.1.3優化選擇紋理特征
為探索干旱區城市區域土地覆蓋類型分類的適宜方法,分別對全色波段基于灰度共生矩陣計算生成的方差、對比度、相異性和信息熵4種紋理進行了分類實驗,并對分類結果進行了檢驗。結果表明,方差紋理的分類精度最高,4種紋理類型對分類結果的影響差異并不明顯,最低的相異性紋理只比方差紋理低約1.5%。進一步選用了不同的原始數據進行實驗,分別是全色波段數據、大氣衰減效應較低的紅光波段數據以及經過主成分變換后包含主要亮度信息的第一主成分和包含主要結構信息的第二主成分數據。經過對分類結果的精度檢驗,由全色波段數據計算產生的方差紋理在4種數據中的分類精度最高,其次為紅光波段; 對比2個主成分信息的分類結果,使用第二主成分的分類效果好于第一主成分,表明第一主成分數據中包含過于集中的各種信息反而壓抑了紋理特征的表達,相比之下第二主成分數據生成的紋理信息更為有效,但總體來說2個主成分信息對4種地物的分類精度影響很小,僅在1%左右。
由于紋理特征對分類結果的影響主要表現在對建筑用地和其他用地錯分的糾正,而TH-1圖像中建筑用地的紋理特征較明顯,從而會優化對這2類地物覆蓋類型的判別,所以紋理特征對最后分類的總體精度影響并不十分明顯。經比較認為使用全色波段數據計算的方差紋理得到的分類效果最好。
3.2分類精度評價
在傳統的分類方法中,基于統計模式識別原理的MLC是最常用且分類結果穩定性較好的分類器,在樣本數增多時分類效果的收斂性好,運算速度也較快,因此在遙感圖像分類上得到了廣泛的應用[25]。本文分別利用MLC和RFC對北屯市的TH-1圖像數據進行了分類實驗(圖2)。分類特征集由上述優化選擇的4個多光譜波段+全色波段+方差紋理+NDVI+DVI構成。結果表明,RFC與MLC對訓練樣本的分類精度分別為99.97%和71.36%,Kappa分別為0.99和0.66。

(a) RFC分類結果 (b) MLC分類結果 (c) 參考數據

圖2RFC與MLC分類結果比較
Fig.2Comparison between classification results with RFC and MLC
訓練樣本用于機器學習從而產生分類模型,所以上述結果表明了RFC模型的有效性,并且可以看出組合樹投票決策策略優于傳統MLC的決策策略。為進一步評價分類效果,還利用獨立的檢驗樣本對分類結果進行了精度評價,RFC和MLC的分類精度分別為82.26%和72.61%,Kappa系數分別為0.80和0.69。用RFC方法得到的分類結果的準確性比MLC方法提高了約10%。這表明RFC方法具有更低的泛化誤差,分類性能更好,可靠性更高。比較2種分類結果混淆矩陣中的分類誤差與精度,除了對水體的分類二者差異不大外,對其他地表覆蓋類型RFC的分類結果都優于MLC方法。其中,RFC方法對其他用地這種光譜特征噪聲較大的地表覆蓋類型分類誤差下降了約20%; RFC方法有效地利用紋理特征使建筑、道路等易錯分的土地覆蓋類型都有很好的分類效果; RFC方法對高植被覆蓋類型的分類效果明顯高于MLC方法,使稀林地、玉米地等的分類誤差下降了15%左右。對植被覆蓋分類起主要作用的特征為多光譜特征和植被指數特征,在多維向量空間中,基于組合決策樹的判別策略能使特征空間產生較好的分割; 而MLC方法則效果不好,錯分、漏分的現象較多(表3)。

表3 MLC與RFC混淆矩陣比較
綜上所述,RFC方法對北屯市TH-1圖像的分類結果明顯優于傳統的MLC方法。根據OOB誤差估計理論,通過對訓練樣本和檢驗樣本的精度分析,驗證了RFC方法的誤差較MLC方法要小,分類結果更加可靠。北屯市位于干旱區,無論是建筑用地、綠化用地還是農業用地受土壤背景的影響都比較明顯,會干擾TH-1圖像對城市區域的分類。研究表明,RFC方法較強的抗圖像噪聲能力,結合紋理信息和植被信息,可較好識別新疆中小城鎮不透水層與土壤,并且在對訓練樣本有很高分類精度的情況下,檢驗樣本仍然具有較高的分類精度,體現了RFC方法在處理“過擬合”問題上的優良性能。
4結論
本文基于天繪一號(TH-1)衛星遙感數據和隨機森林分類(RFC)算法,對新疆阿勒泰地區北屯市及周邊區域土地覆蓋進行了分類研究。針對干旱區中小城市區域土地覆蓋的特點,引入紋理特征與植被指數來構建優化特征集,建立了針對北屯市土地覆蓋類型的RFC方法。結果表明: 使用TH-1數據,通過RFC分類,能較好地得到北屯市區的土地覆蓋類型結果,經與參考數據對比較析,分類精度達到80%以上,證明了TH-1數據對干旱區土地覆蓋類型分類的適用性; 與傳統的最大似然分類方法相比,RFC方法的分類精度提高了10%左右,能更好地提取北屯市及周邊區域的土地覆蓋信息。本研究所構建的TH-1數據分類最優特征組合中,全色波段紋理特征對建筑的提取發揮了重要作用; NDVI和DVI對減少植被覆蓋與非植被覆蓋以及不同植被覆蓋度地表類型之間的分類誤差有一定作用,優化選擇后的分類特征組合能較好地完成對研究區土地覆蓋的分類。
雖然RFC分類相對于MLC有較高的分類精度,但對有相近光譜特性的地物進行分類時,仍然出現了一些錯分現象。為進一步提高分類精度,未來的研究應著重在優化決策樹結構與引入模糊數學方法來改進RFC算法; 同時考慮到干旱區植被和水體的季節變化比較大,還應利用多季相遙感數據進行分類,以進一步提高分類精度。
參考文獻(References):
[1]董鎖成,王傳勝,尤飛,等.中國西部經濟社會地域分異規律研究[J].地理研究,2002,21(4):399-406.
Dong S C,Wang C S,You F,et al.On the laws of territorial differentiation of socio-economic development in western China[J].Geographical Research,2002,21(4):399-406.
[2]駱劍承,王欽敏,馬江洪,等.遙感圖像最大似然分類方法的EM改進算法[J].測繪學報,2002,31(3):234-239.
Luo J C,Wang Q M,Ma J H,et al.The EM-based maximum likelihood classifier for remotely sensed data[J].Acta Geodaetica et Cartographica Sinica,2002,31(3):234-239.
[3]Ediriwickrema J,Khorram S.Hierarchical maximum-likelihood classification for improved accuracies[J].IEEE Transactions on Geoscience and Remote Sensing,1997,35(4):810-816.
[4]譚琨,杜培軍.基于支持向量機的高光譜遙感圖像分類[J].紅外與毫米波學報,2008,27(2):123-128.
Tan K,Du P J.Hyperspectral remote sensing image classification based on support vector machine[J].Journal of Infrared and Millimeter Waves,2008,27(2):123-128.
[5]毛建旭,王耀南.基于神經網絡的遙感圖像分類[J].測控技術,2001,20(5):29-30.
Mao J X,Wang Y N.Remote sensing image classification based on neural network[J].Measurement and Control Technology,2001,20(5):29-30.
[6]李強,王正志.基于人工神經網絡和經驗知識的遙感信息分類綜合方法[J].自動化學報,2000,26(2):233-239.
Li Q,Wang Z Z.Remote sensing information classification based on artificial neural network and knowledge[J].Acta Automatica Sinica,2000,26(2):233-239.
[7]王耀南.小波神經網絡的遙感圖像分類[J].中國圖象圖形學報,1999,4(5):368-371.
Wang Y N.A classification of remote sensing image using wavelet neural network[J].Journal of Image and Graphics,1999,4(5):368-371.
[8]Giacinto G,Roli F.An approach to the automatic design of multiple classifier systems[J].Pattern Recognition Letters,2001,22(1):25-33.
[9]Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32.
[10]Rodríguez-Galiano V F,Abarca-Hernández F,Ghimire B,et al.Incorporating spatial variability measures in land-cover classification using Random Forest[J].Procedia Environmental Sciences,2011,3:44-49.
[11]Gislason P O,Benediktsson J A,Sveinsson J R.Random forests for land cover classification[J].Pattern Recognition Letters,2006,27(4):294-300.
[12]Ham J,Chen Y C,Crawford M M,et al.Investigation of the random forest framework for classification of hyperspectral data[J].IEEE Transactions on Geoscience and Remote Sensing,2005,43(3):492-501.
[13]Chan J C W,Paelinckx D.Evaluation of random forest and adaboost tree-based ensemble classification and spectral band selection for ecotope mapping using airborne hyperspectral imagery[J].Remote Sensing of Environment,2008,112(6):2999-3011.
[14]Guo L,Chehata N,Mallet C,et al.Relevance of airborne LiDARand multispectral image data for urban scene classification using Random Forests[J].ISPRS Journal of Photogrammetry and Remote Sensing,2011,66(1):56-66.
[15]Yuan F,Sawaya K E,Loeffelholz B C,et al.Land cover classification and change analysis of the Twin Cities(Minnesota) Metropolitan area by multitemporal Landsat remote sensing[J].Remote sensing of Environment,2005,98(2/3):317-328.
[16]劉毅,杜培軍,鄭輝,等.基于隨機森林的國產小衛星遙感影像分類研究[J].測繪科學,2012,37(4):194-196.
Liu Y,Du P J,Zheng H,et al.Classification of China small satellite remote sensing image based on random forests[J].Science of Surveying and Mapping,2012,37(4):194-196.
[17]楊耘,徐麗,顏佩麗.條件隨機場框架下基于隨機森林的城市土地利用/覆蓋遙感分類[J].國土資源遙感,2014,26(4):51-55.doi:10.6046/gtzyyg.2014.04.09.
Yang Y,Xu L,Yan P L.Urban land use/cover classification of remote sensing using random forests under the framework of conditional random fields[J].Remote Sensing for Land and Resources,2014,26(4):51-55.doi:10.6046/gtzyyg.2014.04.09.
[18]張修遠,劉修國.基于隨機森林算法的高維模糊分類研究[J].國土資源遙感,2014,26(2):87-92.doi:10.6046/gtzyyg.2014.02.15.
Zhang X Y,Liu X G.Study of high-dimensional fuzzy classification based on random forest algorithm[J].Remote Sensing for Land and Resources,2014,26(2):87-92.doi:10.6046/gtzyyg.2014.02.15.
[19]魏娜,姚艷敏,陳佑啟.高光譜遙感土壤質量信息監測研究進展[J].中國農學通報,2008,24(10):491-496.
Wei N,Yao Y M,Chen Y Q.The advance of soil quality information monitoring by hyperspectral remote sensing[J].Chinese Agricultural Science Bulletin,2008,24(10):491-496.
[20]Breiman L.Bagging predictors[J].Machine Learning,1996,24(2):123-140.
[21]Ho T K.The random subspace method for constructing decision forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832-844.
[22]方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統計與信息論壇,2012,26(3):32-38.
Fang K N,Wu J B,Zhu J P,et al.A review of technologies on random forests[J].Statistics and Information Forum,2012,26(3):32-38.
[23]董師師,黃哲學.隨機森林理論淺析[J].集成技術,2013,2(1):1-7.
Dong S S,Huang Z X.A brief theoretical overview of random forests[J].Journal of Integration Technology,2013,2(1):1-7.
[24]Wolpert D H,Macready W G.An efficient method to estimate bagging’s generalization error[J].Machine Learning,1999,35(1):41-55.
[25]Otukei J R,Blaschke T.Land cover change assessment using decision trees,support vector machines and maximum likelihood classification algorithms[J].International Journal of Applied Earth Observation and Geoinformation,2010,12(1):27-31.
(責任編輯: 李瑜)
Random forest classification of land cover information of urban areas in arid regions based on TH-1 data
TIAN Shaohong, ZHANG Xianfeng
(InstituteofRemoteSensingandGIS,PekingUniversity,Beijing100871,China)
Abstract:Random-forest classification(RFC)method was used to extract the land cover information from the TH-1 satellite remotely sensed multispectral data in Beitun Town and its adjacent areas within the arid region of Altay,Xinjiang. Owing to the mixture of the impervious covers and the exposed soils inside the city, the textural and vegetation features were derived from the TH-1 panchromatic image and multispectral bands and subsequently applied to creating optimal feature set so as to implement the RFC classification. The optimized classifier can achieve better identification of some confused land cover classes. The results show that the RFC possesses higher accuracy than the conventional maximum likelihood classification(MLC)with the same TH-1 image, with their total accuracy being 82.26% and 72.61%, respectively. In addition, favorable applicability is observed in the land cover classification in the arid urban region using optimized combined multi-feature methods, which can provide land cover information for the urban development and planning in the medium and small cities of Xinjiang.
Keywords:TH-1;random forests;feature selection;land-cover classification;arid regions
通信作者:張顯峰(1967-),男,副教授,主要從事生態遙感、高光譜遙感數據智能處理與分析、遙感數據同化模擬等方面的研究。Email: xfzhang@pku.edu.cn。
作者簡介:第一 田紹鴻(1991-),男,碩士研究生,主要從事生態遙感、遙感數據智能處理與分析等方面的研究。Email: shaohongtian@pku.edu.cn。
中圖法分類號:TP 751.1
文獻標志碼:A
文章編號:1001-070X(2016)01-0043-07
基金項目:國家科技支撐計劃項目“新疆重大突發事件應急響應技術與應用”(編號: 2012BAH27B03)和新疆建設兵團援疆項目“基于小型無人機遙感的額河流域自然災害防控關鍵技術研究”(編號: 2014AB021)。
收稿日期:2014-09-30;
修訂日期:2014-12-03
doi:10.6046/gtzyyg.2016.01.07
引用格式: 田紹鴻,張顯峰.采用隨機森林法的天繪數據干旱區城市土地覆蓋分類[J].國土資源遙感,2016,28(1):43-49.(Tian S H,Zhang X F.Random forest classification of land cover information of urban areas in arid regions based on TH-1 data[J].Remote Sensing for Land and Resources,2016,28(1):43-49.)