李 靖
(蘭州大學 資源環境學院,甘肅 蘭州730000)
遙感技術是土地覆被分類的重要手段之一[1],在土地覆被信息提取與專題信息提取上具有重要意義。由于基于像元的影像分析存在較多的缺點,在當今遙感大數據的時代,難以滿足各部門制圖等要求[2]。因此,隨著高分影像的快速發展,數據呈現爆炸式增長,如國產的高分系列衛星,外國的Worldview 系列衛星等,衛星影像的分辨率越來越高,數據量越來越大,對影像分類方法的要求也越來越高。目前,主要使用面向對象的影像分析方法進行研究,該方法可以充分利用影像的光譜、紋理、形狀、上下文特征,完成影像的信息提取,其效果明顯優于基于像元的影像分類方法[3]。國內外學者在基于像元的遙感圖像分類基礎上進行了大量研究,引入許多新方法,如神經網絡分類器(Neural Net Classifier)、模糊集(Fuzzy Set)、分層聚類(Hierar2chical Clustering)等,這些方法是基于像元層次,不能突破傳統分類方法的局限性,也不能滿足對高分辨率遙感圖像分類的要求[4]。
基于對象影像分析方法是由Baatz 等(2000)提出[5],其本質是通過相關分割算法產生分割對象,并以此為最小分析單元進行分類或專題信息提取。與基于像元影像分析方法相比,對象具有更豐富的語義信息,并且可以模仿人的認知過程和思維方式進行分類,可以有效地解決“同物異譜、異物同譜”的問題,消除基于像元分類中存在的“椒鹽噪聲”現象,從而有效地提高分類精度[6-7]。由于面向對象的影像分類方法不斷發展,國內外學者不斷提出方法、并不斷進行改進。黃慧萍等(2004)使用基于對象影像分析方法提取了城市綠地覆被信息,得到了較好結果[8]。王慧敏等(2011)使用海地區域地震后的Geo Eye-1 影像對受損的建筑物進行了提取[9]。趙軍利等(2015)以ALOS 為基礎數據,有效提取了烏蘭布和沙漠的荒漠植被[10]。
目前,機器學習算法逐漸成熟,也開始成為遙感影像分類的一個重要發展方法。利用機器學習算法對遙感影像進行分類,可以有效的對遙感影像進行分類,完成相應的信息提取工作。

表1 土地覆被分類體系
2.1.1 隨機森林分類算法
隨機森林是一種比較新的機器學習模型。經典的機器學習模型是神經網絡,有半個多世紀的歷史了。神經網絡預測精確,但是計算量很大。上世紀八十年代Breiman等人發明分類樹的算法(Breiman et al. 1984),通過反復二分數據進行分類或回歸,計算量大大降低。2001 年Breiman 把分類樹組合成隨機森林(Breiman 2001a),即在變量(列)的使用和數據(行)的使用上進行隨機化,生成很多分類樹,再匯總分類樹的結果。隨機森林在運算量沒有顯著提高的前提下提高了預測精度。隨機森林對多元共線性不敏感,結果對缺失數據和非平衡的數據比較穩健,可以很好地預測多達幾千個解釋變量的作用(Breiman 2001b),被譽為當前最好的算法之一(Iverson et al. 2008)。
2.1.2 J48 決策樹分類算法
J48 即決策樹C4.5 算法,其核心算法為ID3 算法。C4.5 算法是一種高效的決策樹算法,采用信息增益率選取分類屬性,遞歸構造決策樹的各個分支,完成對連續屬性的離散化處理。C4.5 算法的優點是:產生的分類規則易于理解,準確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。C4.5 算法是通過選擇具有最高的信息增益率的特征作為樹的節點,進行訓練樣本集中各地物類型的劃分,它具有三個特點:(1)連續型和離散型的特征數據均可處理;(2)也可以處理缺失值數據;(3)可對生成的樹剪枝以糾正過度擬合。
2.2.1 研究區概況
本次數據采用Wordview-2 影像,數據獲取日期為2014 年10 月2 日,地區為寧夏省中衛市,多光譜波段空間分辨率為2m,全色波段空間分辨率為0.5m。本次實驗數據的研究區大小為1024*1024,從原始Worldview-2 多光譜整景影像上截取下來,作為本實驗研究對象,空間分辨率為2m。研究區位于寧夏回族自治區中衛市西南區域,地理范圍:105°2′42.03″~105°10′28.46″E,37°30′0.47″~37°35′54.24″N,平均海拔高度為1223m。
2.2.2 遙感影像預處理
根據此次影像分類需要的特征與影像特點,在ENVI5.3 中對研究區影像進行以下預處理工作,(1)利用全球DEM 數據計算研究區平均海拔;(2)輻射定標;(3)FLAASH 大氣校正。
3.1.1 影像分割及其參數優選介紹
文章研究在eCognition 9.0 中進行多尺度分割,由尺度、光譜、形狀、光滑度與緊湊度5 個參數對分割結果進行控制。在軟件中只需要預設尺度、形狀、緊湊度三個參數。分割對象作為基于對象的影像分析中的基礎單元,其分割質量的優劣將直接影響后續的分類結果。劉勇等[11](2012)提取出了PSE、NSR 及ED2 3 個指標,文章將使用該方法進行參數優選。
3.1.2 影像分割及其參數優選實現
由于分割尺度的多樣性,文章先通過分割嘗試與目視判斷,對WorldView-2 多光譜影像研究區選擇的分割尺度范圍為30-150,步長為5;形狀、緊湊度的范圍均為0.1-0.9,步長為0.1。通過自動多尺度分割得到分割數據集,根據ED2 選取最優分割參數組合。
本次實驗根據研究區地理特征、自然狀況,應用目視解譯的方法選取研究區訓練樣本,本研究區的對象一共有1293 個,綜合考慮后,決定選取的訓練樣本個數為255 個,具體的訓練樣本個數分布與分類體系如表1 所示。
影像分類特征:
文章通過對研究區綜合考慮,選取光譜、幾何、紋理特征進行分類,其中自定義的光譜指數如表2 所示。
本次實驗選取的分類特征如表2 所示,然后導出上述28 個屬性,選取255 個訓練樣本,在Weka 中利用隨機森林算法與J48 決策樹完成分類。

表2 自定義光譜特征指數
本次多尺度分割采用不一致評價法對影像分割參數進行優選,通過歐幾里得距離(ED2)與尺度因子的關系圖可以發現,分割參數組合的最優值尺度因子應該在70-90 之間。查找ED2 結果表可以確定最小的ED2 對應的尺度因子、形狀因子、緊湊度因子,優選結果如表3 所示。

表3 基于ED2 算法的研究區分割參數優選結果
4.2.1 基于隨機森林、J48 決策樹的分類結果與混淆矩陣
本實驗利用隨機森林得到的分類結果影像如圖1 所示,在eCognition 9.0 中選取檢驗樣本后的分類精度混淆矩陣如表4 所示,其中檢驗樣本對象個數共為391 個,精度評價使用的方法為Error Martix based on Samples。
從該方法結果圖可以看出,隨機森林分類方法好于J48 決策樹的分類結果,但是依然存在一些錯誤分類,可以綜合利用光譜、幾何、紋理、上下文特征進行改進。
4.2.2 隨機森林與J48 決策樹分類精度對比
從表4 中可以看出,在檢驗樣本相同的情況下,隨機森林分類方法的總體精度與Kappa 系數明顯優于J48 決策樹分類算法,但是兩個方法出現的分類錯誤主要出現在草地與耕地的劃分上,因為兩個類別極易混淆,尤其在耕地作物處于成長期時,多項特征指數及其接近。后續對分類結果進行改進,由于基于隨機森林分類方法的精度明顯高于基于J48 決策樹分類方法,因此文章將對隨機森林分類方法結果圖進行優化,并以此為基礎得到最終的土地覆被分類圖。

圖1 基于對象的隨機森林法(圖左)與J48 決策樹(圖右)分類結果圖
通過觀察基于隨機森林分類方法的結果影像中的錯誤分類,發現可以通過一些光譜、上下文特征等進行優化,使其分類更加準確。具體優化方法如下:(1)通過NDVI 指數將錯分到village(農村居民地)中的grassland(草地)重新分類到grassland 中,NDVI 閾值經過比對各個對象,設置為0.41,大于0.41 的重新劃分為grassland;(2)將NDVI小于0 的farmland 重分類為water;(3)通過觀察一些孤立的village 基本屬于farmland,所以利用RelBorder to 將該錯誤分類進行正確分類,閾值確定為0.1,即將village 中Rel Border to village 小于0.1 的劃分到farmland;(4)利用merge region 算法執行合并對象操作,美化影像;(5)合并后的影像存在大量長條狀的小塊耕地,這些為錯誤分類,利用緊湊度Compactness 進行重分類,閾值為5,即Compactness 大于5 的farmland 重分類為grassland;(6)再次利用merge region 算法執行合并grassland 對象操作,美化影像。

表4 隨機森林與J48 決策樹分類精度對比

圖2 中衛市西南部分地區土地覆被分類圖
在eCognition 中導出優化后的影像的矢量圖層,在ArcGIS 中打開,完成土地覆被分類圖制作,結果圖如圖2所示。
文章將隨機森林與J48 決策樹分別繼承與面向對象的影像分析方法中,均得到了不錯的分類精度,分類效果較好。其中,隨機森林分類方法優于J48 決策樹方法,基于隨機森林的土地覆被總精度達到90.03%,Kappa 系數達到0.85。基于隨機森林分類結果圖進行優化,并在ArcGIS 中制作了研究區的土地覆被分類圖,顯示效果較好。面向對象的分類方法可以充分利用影像的光譜、幾何、紋理、上下文等特征信息,完成相應地物類型的識別與分類,避免了基于像元結果中“椒鹽現象”的產生,從而提高了影像的分類精度。文章充分使用了遙感影像的光譜、幾何、紋理特征,并使用機器學習算法隨機森林與J48 決策樹,完成了土地覆被信息提取,其分類精度較高,進一步體現了基于對象分類方法的優越性。文章雖然使用了隨機森林與J48 決策樹機器學習算法進行分類,并進行了相應的精度對比,但并未對兩個算法適用的分類情況與各自優缺點進行探究,需要后續進行針對性的探討與研究。