基于隨機森林與J48 決策樹的面向對象方法的土地覆被分類

2021-03-15 07:32:46李靖

科技創新與應用 2021年10期

李靖

（蘭州大學資源環境學院，甘肅蘭州730000）

1 概述

遙感技術是土地覆被分類的重要手段之一[1]，在土地覆被信息提取與專題信息提取上具有重要意義。由于基于像元的影像分析存在較多的缺點，在當今遙感大數據的時代，難以滿足各部門制圖等要求[2]。因此，隨著高分影像的快速發展，數據呈現爆炸式增長，如國產的高分系列衛星，外國的Worldview 系列衛星等，衛星影像的分辨率越來越高，數據量越來越大，對影像分類方法的要求也越來越高。目前，主要使用面向對象的影像分析方法進行研究，該方法可以充分利用影像的光譜、紋理、形狀、上下文特征，完成影像的信息提取，其效果明顯優于基于像元的影像分類方法[3]。國內外學者在基于像元的遙感圖像分類基礎上進行了大量研究，引入許多新方法，如神經網絡分類器（Neural Net Classifier）、模糊集（Fuzzy Set）、分層聚類（Hierar2chical Clustering）等，這些方法是基于像元層次，不能突破傳統分類方法的局限性，也不能滿足對高分辨率遙感圖像分類的要求[4]。

基于對象影像分析方法是由Baatz 等（2000）提出[5]，其本質是通過相關分割算法產生分割對象，并以此為最小分析單元進行分類或專題信息提取。與基于像元影像分析方法相比，對象具有更豐富的語義信息，并且可以模仿人的認知過程和思維方式進行分類，可以有效地解決“同物異譜、異物同譜”的問題，消除基于像元分類中存在的“椒鹽噪聲”現象，從而有效地提高分類精度[6-7]。由于面向對象的影像分類方法不斷發展，國內外學者不斷提出方法、并不斷進行改進。黃慧萍等（2004）使用基于對象影像分析方法提取了城市綠地覆被信息，得到了較好結果[8]。王慧敏等（2011）使用海地區域地震后的Geo Eye-1 影像對受損的建筑物進行了提取[9]。趙軍利等（2015）以ALOS 為基礎數據，有效提取了烏蘭布和沙漠的荒漠植被[10]。

目前，機器學習算法逐漸成熟，也開始成為遙感影像分類的一個重要發展方法。利用機器學習算法對遙感影像進行分類，可以有效的對遙感影像進行分類，完成相應的信息提取工作。

2 方法與數據準備

2.1 分類方法介紹

表1 土地覆被分類體系

2.1.1 隨機森林分類算法

隨機森林是一種比較新的機器學習模型。經典的機器學習模型是神經網絡，有半個多世紀的歷史了。神經網絡預測精確，但是計算量很大。上世紀八十年代Breiman等人發明分類樹的算法（Breiman et al. 1984），通過反復二分數據進行分類或回歸，計算量大大降低。2001 年Breiman 把分類樹組合成隨機森林（Breiman 2001a），即在變量（列）的使用和數據（行）的使用上進行隨機化，生成很多分類樹，再匯總分類樹的結果。隨機森林在運算量沒有顯著提高的前提下提高了預測精度。隨機森林對多元共線性不敏感，結果對缺失數據和非平衡的數據比較穩健，可以很好地預測多達幾千個解釋變量的作用（Breiman 2001b），被譽為當前最好的算法之一（Iverson et al. 2008）。

2.1.2 J48 決策樹分類算法

J48 即決策樹C4.5 算法，其核心算法為ID3 算法。C4.5 算法是一種高效的決策樹算法，采用信息增益率選取分類屬性，遞歸構造決策樹的各個分支，完成對連續屬性的離散化處理。C4.5 算法的優點是：產生的分類規則易于理解，準確率較高。其缺點是：在構造樹的過程中，需要對數據集進行多次的順序掃描和排序，因而導致算法的低效。C4.5 算法是通過選擇具有最高的信息增益率的特征作為樹的節點，進行訓練樣本集中各地物類型的劃分，它具有三個特點：（1）連續型和離散型的特征數據均可處理；（2）也可以處理缺失值數據；（3）可對生成的樹剪枝以糾正過度擬合。

2.2 數據準備

2.2.1 研究區概況

本次數據采用Wordview-2 影像，數據獲取日期為2014 年10 月2 日，地區為寧夏省中衛市，多光譜波段空間分辨率為2m，全色波段空間分辨率為0.5m。本次實驗數據的研究區大小為1024*1024，從原始Worldview-2 多光譜整景影像上截取下來，作為本實驗研究對象，空間分辨率為2m。研究區位于寧夏回族自治區中衛市西南區域，地理范圍：105°2′42.03″～105°10′28.46″E，37°30′0.47″～37°35′54.24″N，平均海拔高度為1223m。

2.2.2 遙感影像預處理

根據此次影像分類需要的特征與影像特點，在ENVI5.3 中對研究區影像進行以下預處理工作，（1）利用全球DEM 數據計算研究區平均海拔；（2）輻射定標；（3）FLAASH 大氣校正。

3 基于隨機森林與J48 決策樹的土地覆被分類

3.1 影像分割及其參數優選

3.1.1 影像分割及其參數優選介紹

文章研究在eCognition 9.0 中進行多尺度分割，由尺度、光譜、形狀、光滑度與緊湊度5 個參數對分割結果進行控制。在軟件中只需要預設尺度、形狀、緊湊度三個參數。分割對象作為基于對象的影像分析中的基礎單元，其分割質量的優劣將直接影響后續的分類結果。劉勇等[11]（2012）提取出了PSE、NSR 及ED2 3 個指標，文章將使用該方法進行參數優選。

3.1.2 影像分割及其參數優選實現

由于分割尺度的多樣性，文章先通過分割嘗試與目視判斷，對WorldView-2 多光譜影像研究區選擇的分割尺度范圍為30-150，步長為5；形狀、緊湊度的范圍均為0.1-0.9，步長為0.1。通過自動多尺度分割得到分割數據集，根據ED2 選取最優分割參數組合。

3.2 分類體系建立

本次實驗根據研究區地理特征、自然狀況，應用目視解譯的方法選取研究區訓練樣本，本研究區的對象一共有1293 個，綜合考慮后，決定選取的訓練樣本個數為255 個，具體的訓練樣本個數分布與分類體系如表1 所示。

3.3 影像分類

影像分類特征：

文章通過對研究區綜合考慮，選取光譜、幾何、紋理特征進行分類，其中自定義的光譜指數如表2 所示。

本次實驗選取的分類特征如表2 所示，然后導出上述28 個屬性，選取255 個訓練樣本，在Weka 中利用隨機森林算法與J48 決策樹完成分類。

表2 自定義光譜特征指數

4 數據結果分析

4.1 影像分割參數優選結果

本次多尺度分割采用不一致評價法對影像分割參數進行優選，通過歐幾里得距離（ED2）與尺度因子的關系圖可以發現，分割參數組合的最優值尺度因子應該在70-90 之間。查找ED2 結果表可以確定最小的ED2 對應的尺度因子、形狀因子、緊湊度因子，優選結果如表3 所示。

表3 基于ED2 算法的研究區分割參數優選結果

4.2 影像分類結果與混淆矩陣

4.2.1 基于隨機森林、J48 決策樹的分類結果與混淆矩陣

本實驗利用隨機森林得到的分類結果影像如圖1 所示，在eCognition 9.0 中選取檢驗樣本后的分類精度混淆矩陣如表4 所示，其中檢驗樣本對象個數共為391 個，精度評價使用的方法為Error Martix based on Samples。

從該方法結果圖可以看出，隨機森林分類方法好于J48 決策樹的分類結果，但是依然存在一些錯誤分類，可以綜合利用光譜、幾何、紋理、上下文特征進行改進。

4.2.2 隨機森林與J48 決策樹分類精度對比

從表4 中可以看出，在檢驗樣本相同的情況下，隨機森林分類方法的總體精度與Kappa 系數明顯優于J48 決策樹分類算法，但是兩個方法出現的分類錯誤主要出現在草地與耕地的劃分上，因為兩個類別極易混淆，尤其在耕地作物處于成長期時，多項特征指數及其接近。后續對分類結果進行改進，由于基于隨機森林分類方法的精度明顯高于基于J48 決策樹分類方法，因此文章將對隨機森林分類方法結果圖進行優化，并以此為基礎得到最終的土地覆被分類圖。

圖1 基于對象的隨機森林法（圖左）與J48 決策樹（圖右）分類結果圖

4.3 影像分類結果優化

通過觀察基于隨機森林分類方法的結果影像中的錯誤分類，發現可以通過一些光譜、上下文特征等進行優化，使其分類更加準確。具體優化方法如下：（1）通過NDVI 指數將錯分到village（農村居民地）中的grassland（草地）重新分類到grassland 中，NDVI 閾值經過比對各個對象，設置為0.41，大于0.41 的重新劃分為grassland；（2）將NDVI小于0 的farmland 重分類為water；（3）通過觀察一些孤立的village 基本屬于farmland，所以利用RelBorder to 將該錯誤分類進行正確分類，閾值確定為0.1，即將village 中Rel Border to village 小于0.1 的劃分到farmland；（4）利用merge region 算法執行合并對象操作，美化影像；（5）合并后的影像存在大量長條狀的小塊耕地，這些為錯誤分類，利用緊湊度Compactness 進行重分類，閾值為5，即Compactness 大于5 的farmland 重分類為grassland；（6）再次利用merge region 算法執行合并grassland 對象操作，美化影像。

表4 隨機森林與J48 決策樹分類精度對比

圖2 中衛市西南部分地區土地覆被分類圖

4.4 最終分類結果

在eCognition 中導出優化后的影像的矢量圖層，在ArcGIS 中打開，完成土地覆被分類圖制作，結果圖如圖2所示。

5 結論

文章將隨機森林與J48 決策樹分別繼承與面向對象的影像分析方法中，均得到了不錯的分類精度，分類效果較好。其中，隨機森林分類方法優于J48 決策樹方法，基于隨機森林的土地覆被總精度達到90.03%，Kappa 系數達到0.85。基于隨機森林分類結果圖進行優化，并在ArcGIS 中制作了研究區的土地覆被分類圖，顯示效果較好。面向對象的分類方法可以充分利用影像的光譜、幾何、紋理、上下文等特征信息，完成相應地物類型的識別與分類，避免了基于像元結果中“椒鹽現象”的產生，從而提高了影像的分類精度。文章充分使用了遙感影像的光譜、幾何、紋理特征，并使用機器學習算法隨機森林與J48 決策樹，完成了土地覆被信息提取，其分類精度較高，進一步體現了基于對象分類方法的優越性。文章雖然使用了隨機森林與J48 決策樹機器學習算法進行分類，并進行了相應的精度對比，但并未對兩個算法適用的分類情況與各自優缺點進行探究，需要后續進行針對性的探討與研究。