李 慧
遼寧師范大學城市與環境學院
影像信息決策樹分類方法設計
李 慧
遼寧師范大學城市與環境學院
歸納學習訓練樣本能夠產生決策規則或決策樹,通過決策規則或決策樹分類新數據的方法稱為決策樹。本文以大連市旅順口區為研究區域,分析該區影像信息選取分類樣本,選取合適的特征,統計分析樣本的特征值,運用基于特征的決策樹分類方法,設計決策樹分類器,來解決該區域土地利用分類問題。
提取和分類遙感數據是目前數據挖掘領域的焦點問題,以統計特征為基礎的模式識別技術是進行遙感數據分類和提取最主要的方式。但是,由于遙感圖像具有同物異譜和異物同譜的現象,因而用傳統統計模式分類效果并不盡如人意。因此,人們開展了大量關于遙感數據提取和分類的相關研究。基于知識的二叉樹信息提取方法,知識結構簡單,技術先進,理論成熟,流程清晰、直觀,在現階段有著不可取代的優勢。
本文選擇以多特征為基礎的決策樹分類方法,以遙感圖像的特征值和數據為參考,利用數學歸納和統計等手段,生成分類規則,并完成遙感分類。這種方法的實現原理和方法較為簡單,與人類認知的過程極為相似,能夠對多元數據進行合理利用。
基于多特征的決策樹分類方法通用的總體思路為:首先,統計分析訓練樣本的特征分布,將決策樹分類提取過程尋找出來;其次,設計并生成決策樹分類器,分類遙感圖像。
決策樹分類方法介紹
歸納學習訓練樣本能夠產生決策規則或決策樹,通過決策規則或決策樹分類新數據的方法稱為決策樹。決策樹屬于樹型結構,由若干葉節點、若干內部節點和一個根節點構成。任意節點有超過兩個的子節點和一個父節點,各節點之間利用分支連接。決策樹內的任意內部節點都與集合或非類別屬性相對應,任意邊與屬性的可能值相對應。決策樹上的任意葉節點都與類別屬性值相對應,同一類別屬性值能夠與不同葉節點相對應。決策樹不僅能夠用“樹”的形式來描述,還能夠用符合IF-THEN格式的產生式規則來描述。規則比決策屬性更加簡單、直觀,易于修改、使用和掌握,在實際工作中使用的更為廣泛。
基于多特征的決策樹分類流程
以多特征為參考的決策樹分類方法,解決土地利用分類問題的具體流程如圖1。
數據源選擇
本文選擇1996年8月的大連旅順口區LANDSAT5 TM數據,該數據已經進行幾何糾正。
研究區大連市旅順口區位于遼東半島的最南端,是遼寧省大連市的一個市轄區。旅順口區全境屬長白山余脈構成的沿海丘陵地帶,東高西低,多山地丘陵,少平原低地,平均海拔140m,針葉林分布廣泛。大部分農田分布在溫度約15℃的緩坡上,少部分農田分布在沿海河谷和丘陵盆地。除耕地外,有大量果樹種植。
樣本選擇
對研究區TM影像進行4、3、5波段RGB假彩色合成,對合成圖像進行分析,并結合研究區的概況以及其地形圖,將地物劃分為針葉林、建筑用地、耕地、水體、闊葉林(果林)和其他六種類。然后在該RGB圖上選擇部分特征明顯的區域作為樣本。

圖1 基于多特征的決策樹分類流程圖
在進行遙感圖像分類時,往往根據訓練數據類分析圖像的可分性,對各種特征組合中的期望分類誤差進行估算。可分性度量由J-M距離和離散度構成。根據ENVI4.8,估算出不同類別的訓練樣本之間的J-M距離和變換離散度。計算結果顯示,不同類別的訓練樣本之間的J-M距離和變換離散度均超過1.9,表明訓練樣本具有良好的可分性,可分性強。
分類特征選擇
本文選用了5種數據作為決策樹分類特征數據,分別是近紅外波段(B4)、主成分分析的第一主成分(PC1)、第二主成分(PC2)、第三主成份(PC3)和歸一化植被指數(NDVI)。主成分分析數據源,對指數進行歸一化處理。選擇上述特征的原因主要包括以下幾個方面:近紅外波段:具有強吸水特性,能夠用于區分非水體和水體。
主成分分析:該方法能夠有效降低決策樹復雜度和數據冗余度,并使分類精度顯著提高。對LANDSAT TM影像的7個波段進行主成分變換, 變換后的PC1、PC2和PC3包含了絕大部分信息,所以選擇這三種主成分作為特征參數。
歸一化植被指數:歸一化差異植被指數對綠色植被敏感,可以將水泥表面、柏油路、植被等地物準確的區分開。按照下列公式能夠計算出NDVI:NDVI=(NIR-R)/(NIR+R)
統計分析樣本地物的特征分布
統計出訓練樣本在每個特征中的特征值, 計算出特征數據(B4、PC1、PC2、PC3和NDVI)的標準差和均值。為了便于分析,假設樣本數據符合正態分布規律,按照樣本數據的概率密度分布曲線,能夠將地物的特征樣本值分布信息統計出來。
(1)水體。LANDSAT 5多光譜數據的B4近紅外波段具有強吸水性特征,能夠將其劃分為非水體和水體兩類,將水體與其他的地物類型予以區分。對于水體里面混有少量的針葉林,可通過PC2將其消除;對于水體里混有的少量建筑用地,可以通過PC1消除。
(2)植被與非植被。NDVI可區分植被與非植被,從而將其他用地和建筑用地與植被區分開。對于非植被中混有的少量針葉林,可用PC1將其消除。
(3)建筑用地與其他用地。運用特征值 PC3,利用閾值分割將建筑用地和其他用地區分開,無法有效的區分其他特征數據。
(4)針葉林。PC1能夠很好的將針葉林從其他植被中提取出來;PC2對針葉林和其他植被的區分也比較明顯。
(5)闊葉林(果林)和耕地。只有PC3能夠較好的將闊葉林(果林)和耕地區分出來,其他的特征信息都不能作為區分指標。
決策樹分類器設計
根據樣本特征值的統計分析結果以及先驗知識,綜合考慮地物光譜特性,能夠將人工決策樹構造出來。按照樣本特征數據的峰值,能夠確定人工決策樹的分割閾值。如:耕地與闊葉林(果林)可以通過PC3來區分。樣本統計結果表明,耕地特征值的谷值是5.1,闊葉林(果林)特征值的峰值是11.5,耕地和闊葉林(果林)的分割閾值選擇二者的平均值8.3,完成分類,目視評價分類結果,并與樣本進行對比分析,對閾值進行適當調整,直到分類效果最理想為止。實驗結果表明,分割效果最理想的分割值是7。如圖2所示,為決策樹分類器設計的流程圖。

圖2 人工決策樹分層提取地物流程
結果
決策樹分類在編輯好分類樹后在ENVI4.8下實現。
比較與分析
為了與決策樹分類方法進行對比比較,本文采用了一種傳統監督分類方法——最大似然分類方法,用同樣的樣本進行了分類。通過總體的對比觀察,決策樹分類結果與原圖像圖形更加貼近,精度更高,尤其是在建筑用地的篩選當中。在其他地域類型的篩選中,也有相對較高的精度。
(1)利用LANDSAT5 TM多光譜數據的近紅外波段(B4)、主成分分析和歸一化植被指數(NDVI)計算出的特征數據PC1、PC2、PC3能夠有效分類決策樹。
(2)相較于傳統MLC分類方法,決策樹方法具有原理簡單、易于實現、準確率高的優點,尤其適用于建筑用地分類。
(3)決策樹具有應用簡單的優點。從決策樹的樹根開始,沿分支追溯到樹葉,根據二叉樹對地物類型進行篩選和排除,能夠提高提取特定類別地物的效率。
然而,因為以決策樹為基礎的分類方法的分類知識來自于空間數據,所以會受到參考信息的干擾。此外,在進行決策樹分類時,不能對樣本點數據的誤差進行有效識別。因此,為了確保樣本參考信息的準確性和全面性,提高分類精度,在進行決策樹分類時,要保證樣本參考點數據的充足,合理設置閾值。在決策樹分類理論中引入數據挖掘技術,實現決策樹的自動構建是未來研究的重點問題。
10.3969/j.issn.1001-8972.2015.06.026