曹洪濤,張拯寧,李 明,李器宇,陳 浩
(天津航天中為數(shù)據(jù)系統(tǒng)科技有限公司,天津 300301)
?
基于C4.5決策樹(shù)的多特征遙感分類(lèi)方法
曹洪濤,張拯寧,李明,李器宇,陳浩
(天津航天中為數(shù)據(jù)系統(tǒng)科技有限公司,天津 300301)
摘要:以錢(qián)塘江流域?yàn)檠芯繀^(qū)域,利用2010年ETM,MODIS和DEM多源數(shù)據(jù),進(jìn)行土地利用分類(lèi)研究。在分析土地類(lèi)型的光譜特性和植被指數(shù)年度變化基礎(chǔ)上,運(yùn)用光譜指數(shù)法和代數(shù)法從數(shù)據(jù)中提取各種土地覆被類(lèi)型特征。利用WEKA軟件平臺(tái)下的C4.5決策樹(shù)算法構(gòu)建決策樹(shù)分類(lèi)模型,對(duì)錢(qián)塘江流域土地覆被類(lèi)型進(jìn)行分類(lèi)研究,取得較高的分類(lèi)精度。
關(guān)鍵詞:多特征;C4.5決策樹(shù);遙感影像;WEKA
遙感分類(lèi)應(yīng)用中,傳統(tǒng)的監(jiān)督分類(lèi)和非監(jiān)督分類(lèi)方法都是根據(jù)地物光譜特性為基礎(chǔ)來(lái)區(qū)分不同類(lèi)別。然而,由于存在“同譜異物、同物異譜”的現(xiàn)象,單純地利用光譜反射(輻射)特性或圖像亮度值來(lái)區(qū)分地物類(lèi)別,尤其對(duì)于兩類(lèi)光譜特性相似的地物,勢(shì)必會(huì)造成分類(lèi)的混淆和錯(cuò)誤。研究表明,結(jié)合多源數(shù)據(jù)以及輔助信息,增加判斷依據(jù),可大大提高分類(lèi)精度和可靠性。
決策樹(shù)分類(lèi)作為一種基于空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的監(jiān)督分類(lèi)方法,通過(guò)對(duì)訓(xùn)練樣本進(jìn)行歸納學(xué)習(xí),從無(wú)次序、無(wú)規(guī)則的事例樣本中推理出決策樹(shù)表示形式的分類(lèi)規(guī)則,可以對(duì)未知事例進(jìn)行預(yù)測(cè)分類(lèi)。在遙感分類(lèi)應(yīng)用中,決策樹(shù)能有效地處理大量數(shù)據(jù)和高維數(shù)據(jù),實(shí)現(xiàn)遙感影像數(shù)據(jù)和其他多種空間數(shù)據(jù)的結(jié)合,通過(guò)專(zhuān)家經(jīng)驗(yàn)總結(jié)、簡(jiǎn)單的數(shù)學(xué)統(tǒng)計(jì)和歸納方法等,獲得分類(lèi)規(guī)則并進(jìn)行遙感分類(lèi),有良好的穩(wěn)健性和魯棒性,分類(lèi)結(jié)果可靠性高。本文嘗試?yán)媒?jīng)典的決策樹(shù)算法C4.5決策樹(shù),對(duì)錢(qián)塘江流域地區(qū)進(jìn)行土地利用類(lèi)型分類(lèi)研究。
1研究區(qū)及數(shù)據(jù)源
本文以錢(qián)塘江桐廬縣至杭州灣河段周邊市縣區(qū)域?yàn)檠芯繀^(qū),錢(qián)塘江是中國(guó)浙江省第一大河,古名“浙江”,發(fā)源于休寧縣海拔1 600 m的懷玉山主峰六股尖,流經(jīng)安徽、浙江兩省的14個(gè)縣市,注入杭州灣,河流全長(zhǎng)688 km,流域面積5.56萬(wàn)km2。錢(qián)塘江兩岸蘊(yùn)藏著極其豐富的旅游資源,沿途地區(qū)經(jīng)濟(jì)比較發(fā)達(dá),地形和植被覆蓋多樣化。
獲取2010年LANDSAT-7ETM光譜數(shù)據(jù),并考慮到植被指數(shù)可以反映不同的植被類(lèi)型和土地覆被類(lèi)型,以及研究區(qū)域地形多樣化,選用2010年MODIS增強(qiáng)型植被指數(shù)和DEM高程數(shù)據(jù)作為輔助數(shù)據(jù)。其中,選取采用ETM 30 m分辨率的Band1-Band5、Band7 6個(gè)波段,MODIS2010年1~12月的12個(gè)增強(qiáng)型植被指數(shù)EVI產(chǎn)品,1個(gè)ASTER的30 m分辨率的DEM數(shù)據(jù),共19個(gè)數(shù)據(jù)層。
2特征信息提取
在遙感數(shù)據(jù)中,不同的地類(lèi)具有不同的光譜信息,不同的地類(lèi)在一年中植被指數(shù)變化特征也有所不同,利用各種土地類(lèi)型之間的光譜差異和植被指數(shù)變化差異,通過(guò)光譜指數(shù)法和代數(shù)法進(jìn)行光譜波段組合運(yùn)算和植被指數(shù)組合運(yùn)算,提取土地利用類(lèi)
型的特征信息。研究區(qū)土地利用類(lèi)型劃分為城鎮(zhèn)及建設(shè)用地、農(nóng)田、水體、落葉林、常綠林、灌木叢和未利用地7種類(lèi)型。各地類(lèi)類(lèi)型的ETM 波段DN值特征、年度EVI變化特征如圖1、圖2所示。

圖1 ETM波段DN值特征

圖2 年度EVI特征
2.1ETM光譜特征
1)有植被覆蓋地類(lèi)T4的反射率大于T3反射率,選用歸一化植被指數(shù)為特征,能夠有效區(qū)分植被覆蓋類(lèi)型和非植被覆蓋類(lèi)型:NDVI=(T4-T3)/(T4+T3);
2)城鎮(zhèn)及建設(shè)用地和未利用地T5 波段比T4波段反射率有較大幅度的增高,以歸一化建筑指數(shù)NDBI為特征:NDBI=(T5-T4)/(T5+T4);
3)水體在T4、T5、T7波段較其他地類(lèi)有非常低的反射率,T2波段反射率相對(duì)較高,選用T4+T5+T7和T2-T5為特征;
4)未利用地在T1、T2、T3、T5、T7反射率最高,以T1+T2+T3+T5+T7為特征。
2.2EVI年度變化特征
1)灌木叢和常綠林在5~7月份EVI值較高,以E5+E6+E7為特征;
2)水體EVI全年最低,城鎮(zhèn)及建設(shè)用地EVI次之,且兩者變化幅度很小,以E4+E6+E8+E10為特征;
3)常綠林EVI在冬季11、12、1月份較高,以E1+E11+E12為特征;
4)農(nóng)田EVI在5~7月大幅下降,7~8月回升,以E5-E7和E8-E7為特征。
按照選取的特征進(jìn)行ETM波段、EVI的指數(shù)運(yùn)算和代數(shù)運(yùn)算得到組合特征值,由此,得到10組組合特征,并以ASTER的DEM數(shù)據(jù)作為高程特征,用于訓(xùn)練構(gòu)建C4.5決策樹(shù)模型。
3C4.5決策樹(shù)算法
C4.5算法是決策樹(shù)算法具代表性的一種,算法過(guò)程是從決策樹(shù)的根節(jié)點(diǎn)開(kāi)始不斷的分治、遞歸、生長(zhǎng),直至得到最后的結(jié)果。根節(jié)點(diǎn)代表整個(gè)訓(xùn)練樣本集,通過(guò)在每個(gè)節(jié)點(diǎn)對(duì)某個(gè)屬性的測(cè)試驗(yàn)證,將數(shù)據(jù)集分成更小的數(shù)據(jù)集,某一節(jié)點(diǎn)對(duì)應(yīng)的子樹(shù)對(duì)應(yīng)著原數(shù)據(jù)集中滿(mǎn)足某一屬性測(cè)試的部分?jǐn)?shù)據(jù)集。這個(gè)遞歸過(guò)程一直進(jìn)行下去,直到某一節(jié)點(diǎn)對(duì)應(yīng)的子樹(shù)對(duì)應(yīng)的數(shù)據(jù)集都屬于同一個(gè)類(lèi)為止。
C4.5算法采用信息增益(InforGain)作為分裂閾值的確定準(zhǔn)則,采用信息增益率(GainRatio)作為對(duì)分枝屬性的選擇準(zhǔn)則,選擇具有最大信息增益率的特征作為分裂特征。信息增益率表示由分枝產(chǎn)生的有用信息的比率,這個(gè)值越大,分枝包含的有用信息越多。設(shè)D為訓(xùn)練樣本集,類(lèi)標(biāo)號(hào)有m個(gè)不同值,按照屬性A劃分D中的元素為V個(gè)不同類(lèi),計(jì)算過(guò)程如下:
1)對(duì)特征屬性的樣本取值進(jìn)行排序;
2)以各個(gè)取值作為分割點(diǎn)將該特征下的樣本分成兩份,有N-1種分割形式(N為樣本個(gè)數(shù)),計(jì)算每個(gè)可能的分裂點(diǎn)的信息增益(InforGain)。
(1)
(2)
InforGain(A)=Info(D)-InfoA(D).
(3)
3)選擇信息增益(InforGain)最大的分裂點(diǎn)作為該屬性的最佳分裂點(diǎn),即為分裂閾值;
4)計(jì)算最佳分裂點(diǎn)的信息增益率(GainRatio)作為特征屬性的GainRatio;
(4)

(5)
5)在所有特征屬性中,選擇Gain Ratio最大的特征屬性作為分裂屬性。
4構(gòu)建C4.5決策樹(shù)
研究中利用高分辨率影像提取2000個(gè)象元的土地類(lèi)型典型樣本數(shù)據(jù),其中1000個(gè)訓(xùn)練樣本用于C4.5決策樹(shù)模型訓(xùn)練,另外1000個(gè)評(píng)價(jià)樣本用于分類(lèi)結(jié)果的精度分析。本文基于Weka3.6.8數(shù)據(jù)挖掘系統(tǒng)為平臺(tái),利用訓(xùn)練樣本對(duì)C4.5決策樹(shù)進(jìn)行訓(xùn)練建模。利用C4.5決策樹(shù)算法對(duì)特征數(shù)據(jù)優(yōu)先性、分支閾值的自動(dòng)計(jì)算,訓(xùn)練得到共有10個(gè)葉片、19個(gè)節(jié)點(diǎn)的C4.5決策樹(shù),決策樹(shù)模型如圖3所示。

圖3 C4.5決策樹(shù)模型
5精度分析
利用訓(xùn)練構(gòu)建的C4.5決策樹(shù)模型對(duì)特征數(shù)據(jù)集每個(gè)象元進(jìn)行所屬土地類(lèi)型的判斷,得到實(shí)驗(yàn)區(qū)土地利用類(lèi)型分類(lèi)結(jié)果。為驗(yàn)證分類(lèi)結(jié)果精度,利用精度分析樣本對(duì)C4.5決策樹(shù)分類(lèi)結(jié)果(見(jiàn)圖4所示),進(jìn)行精度評(píng)價(jià)和統(tǒng)計(jì)分析。各土地利用類(lèi)型精度統(tǒng)計(jì)如表1所示。
在表1中,C4.5決策樹(shù)分類(lèi)結(jié)果的各類(lèi)精度相對(duì)穩(wěn)定、均衡,總體精度較為優(yōu)秀。對(duì)城鎮(zhèn)及建設(shè)用地、水體、農(nóng)田3類(lèi)特征明顯的類(lèi)別,分類(lèi)精度達(dá)到90%以上;在植被類(lèi)別中,落葉林、灌木叢以及未利用地易于混淆,通過(guò)多特征判斷分類(lèi)精度良好,分別為0.78,0.77,0.80。

圖4 C4.5決策樹(shù)分類(lèi)結(jié)果

精度分析項(xiàng)分類(lèi)精度常綠林0.872城鎮(zhèn)及建設(shè)用地0.952農(nóng)田0.910落葉林0.784灌木叢0.776水體0.953未利用地0.802Kappa系數(shù)0.841總體精度86.84%
6結(jié)束語(yǔ)
基于C4.5決策樹(shù)的多特征遙感分類(lèi)方法,結(jié)合多種遙感數(shù)據(jù),并提取土地類(lèi)型的特征信息,實(shí)現(xiàn)研究區(qū)遙感影像的地物分類(lèi),分類(lèi)精度達(dá)到86.8%。決策樹(shù)分類(lèi)算法簡(jiǎn)單易行,能從大量數(shù)據(jù)中自動(dòng)挖掘出分類(lèi)信息,便于結(jié)合多種土地利用類(lèi)型特征構(gòu)建更精簡(jiǎn)、更易理解的分類(lèi)規(guī)則,能夠?qū)崿F(xiàn)對(duì)土地類(lèi)型的較高精度的分類(lèi)。
參考文獻(xiàn):
[1]潘琛,林怡,陳映鷹.基于多特征的遙感影像決策樹(shù)分類(lèi)[J].光電子:激光,2010(5):731-736.
[2]申文明,王文杰,羅海江,等.基于決策樹(shù)分類(lèi)技術(shù)的遙感影像分類(lèi)方法研究[J].遙感技術(shù)與應(yīng)用,2007(3):333-338.
[3]余晶,蔣平安,高敏華.基于決策樹(shù)的土地利用分類(lèi)方法研究[J].新疆農(nóng)業(yè)科學(xué),2009(2):430-434.
[4]陳寶政,蔡德利,張有利,等.利用決策樹(shù)對(duì)TM遙感影像的分類(lèi)研究[J].黑龍江八一農(nóng)墾大學(xué)學(xué)報(bào),2010(1):79-82.
[5]陳秋曉,駱劍承,周成虎,等.基于多特征的遙感影像分類(lèi)方法[J].遙感學(xué)報(bào),2004(3):239-245.
[6]黃立賢,沈志學(xué).基于決策樹(shù)的Landsat多光譜影像分類(lèi)方法[J].光電技術(shù)應(yīng)用,2011(3):49-52.
[7]潘琛,杜培軍,張海榮.決策樹(shù)分類(lèi)法及其在遙感圖像處理中的應(yīng)用[J].測(cè)繪科學(xué),2008(1):208-211.
[8]齊樂(lè),岳彩榮.基于CART決策樹(shù)方法的遙感影像分類(lèi)[J].林業(yè)調(diào)查規(guī)劃,2011(2):62-66.
[9]秦臻,汪云甲,王行風(fēng),等.基于ENVI的決策樹(shù)方法在土地利用分類(lèi)中的應(yīng)用[J].金屬礦山,2011(2):133-135.
[10] 孫艷玲,楊小喚,王新生,等.基于決策樹(shù)和MODIS數(shù)據(jù)的土地利用分類(lèi)[J].資源科學(xué),2007(5):169-174.
[11] 高燕,周成虎,蘇奮振.基于OLI影像多參數(shù)設(shè)置的SVM分類(lèi)研究[J].測(cè)繪工程,2014,23(6):1-5+10.
[12] 宋宏利.多源土地覆被遙感信息融合及數(shù)據(jù)重構(gòu)研究[D].北京:中國(guó)礦業(yè)大學(xué)(北京),2013.
[13] 高燕,周成虎,蘇奮振,等 基于多特征的人工海岸線提取方法[J].測(cè)繪工程,2014,23(5):1-5.
[14] 張樓香;阮仁宗.基于決策樹(shù)的洪澤湖濕地信息提取[J].測(cè)繪與空間地理信息,2015,38(2):87-91.
[責(zé)任編輯:張德福]
Remote sensing classification with multi-feature based on C4.5 decision tree method
CAO Hongtao,ZHANG Zhengning,LI Ming,LI Qiyu,CHEN Hao
(Tianjin Zhong Wei Aerospace Data System Technology Co.,Ltd,Tianjin 300301,China)
Abstract:Taking Qiantangjiang Basin as the study area,land-cover classification reseach is conducted in this paper using Landsat ETM,MODIS and DEM.Based on analysing spectral characteristics and annual changes in vegetation index,the land-cover classification of Qiantangjiang Basin has been done. Based on C4.5 decision tree method from software WEKA the land-cover type features from data are analyzed with the spectral index method and the algebraic method.Compared with the maximum likehood classification and Neural net classification,the results show that classification accuracy is better.
Key words:muti-feature;C4.5 decision tree classification;remote sensing images;WEKA
中圖分類(lèi)號(hào):TP751
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1006-7949(2016)03-0073-04
作者簡(jiǎn)介:曹洪濤(1988-),男,助理工程師.
收稿日期:2014-07-06;修回日期:2015-06-07