楊遠陶, 劉 瑞, 曹禮剛, 楊 梅, 陳景玨
(成都理工大學 a.地球物理學院,b.地球勘探與信息技術教育部重點實驗室,c.地球科學學院,成都 610059)
土地利用現狀是國家和政府制定相關土地政策、合理規劃土地配比以及布局生產的重要依據,而了解土地利用情況最傳統的方法是利用大量的人力,通過實地調查和記錄,最終匯總成一張土地利用現狀圖,這樣的方式會耗費大量的人力和財力,且時間周期很長。近年來,隨著遙感技術的應用領域越來越廣泛,結合遙感技術的土地利用分類技術成為一種低成本,高精度的新方法。因此,基于遙感影像的土地利用信息提取成為了一個新的熱點。而目前的遙感數據主要分為多光譜遙感影像數據和高光譜遙感影像數據。相較于多光譜數據,高光譜遙感影像數據具有更加細微的光譜特征且信息量大,解決了多光譜影像光譜信息不足的情況。
在土地利用信息提取過程中最關鍵的環節是高光譜影像分類方法,這也是目前國內、外學者一直研究的一個熱點問題。選擇一個可以更加快速且精確的對影像進行分類的算法,成為一個關鍵的問題。目前比較主流的影像分類算法包括最大似然法、決策樹、支持向量機、人工神經網絡法等[1-5],然而,在進行土地利用信息提取時,由于土地利用信息的復雜化、格局破碎化、同物異譜和同譜異物現象,單分類器已經難以滿足更高的分類精度需求[6-7]。
目前基于傳統的分類算法衍生了各種機器學習的算法,為影像分類算法提供了新的方向[8],在機器學習算法中,表現最優的是隨機森林算法,它作為一種多分類器組合的分類算法,可以應對單分類器在面對復雜的土地利用信息分類中效果不佳的問題。
這里所使用的高光譜數據為珠海一號高光譜衛星數據,2018年4月26日珠海一號衛星成功發射升空,標志著國內首個自主運營的高光譜星座的成功建立,也是多顆高光譜衛星的組網在國內首次實現。總共包含了32個波段的珠海一號衛星涵蓋了400 nm~1 000 nm的光譜范圍,在光譜分辨率達到3 nm~8 nm的同時,其空間分辨率達到10 m,且幅寬達到了150 km,每2 d就可以完成一次重訪,設計的有效工作年限為5 year。具體波段信息如表1所示,珠海一號的衛星體積小,但它在星上的存儲容量大且衛星的成本較低。同時珠海一號衛星還具備幅寬大,衛星空間分辨率高,重訪周期短等優勢[9]。

表1 珠海一號高光譜數據中心波長
珠海一號高光譜數據是沒有經過去除積分級數處理的數據,因此需要對數據進行輻射定標、大氣校正、影像裁剪等預處理。
在珠海一號高光譜影像中,包含了32個波段,其中波段b1~b2對應的是藍光波段;波段b3~b8對應的是綠光波段;波段b11~b21對應的是紅光波段;波段b22~b32對應的是近紅外波段,為了提高運算速率,分別計算這些波段的標準差(表2),當影像波段的標準差越大時,說明此波段所含的信息也就越豐富。結合實際情況,通過比較這些波段的標準差的大小,最終選擇了波段b2作為藍光波段、b6作為綠光波段、b15作為紅光波段和b25作為近紅外波段。

表2 各波段對應的標準差

圖1 研究區概況Fig.1 Overview of the research area
這里獲取了2018年10月6日珠海一號的高光譜數據。此景影像主要覆蓋了江西省南昌市進賢縣的大部分區域。進賢縣在浙贛鐵路與316、320國道交匯處,它位于江西省的中部,主要在潘陽湖南岸,面積為1 971 km2。
最大似然法分類是目前遙感影像分類方法中最經典的分類方法之一[10]。在遙感影像中那些具有最大似然的像元將會被劃分到相應的類別中,根據遙感影像中的波譜信息,可以得到影像中各個類別的一個概率密度函數。式(1)表示像元x被劃分為類別的后驗概率。
gi(x)=p(wi|x)=p(x|wi)p(wi)/p(x)
(1)
式中:p(wi)是類別的先驗概率;wi表示從類別觀測到像素x的條件概率。通常假設每一類別的p(wi)都是相同的,根據數學原理,利用多元正態分布作為概率密度函數。在正態分布的情況下,后驗概率gi(x)可以表示為式(2)。
(2)
式中:i是波段數;x是有i個波段的影像數據;gi(x)是x中屬于類別wi的可能性;ui是類別i的平均向量;∑i是類別i的方差-協方差矩陣。在方差-協方差矩陣是對稱的情況下,似然度與歐幾里德距離相同,而在決定因素彼此相等的情況下,似然度與馬氏距離相同。為了移除多余的項,需要對式(2)進行取對數運算,因此可以得到的最終函數為:
(3)
由式(3)得到的判別公式就為最大似然法的判別公式。
決策樹分類算法的分類過程類似于一個倒著的樹狀結構,從第一級開始,把遙感影像數據集一級一級的往下細分。決策樹有一個根節點、多個中間節點和K個葉子節點組成。決策樹的分類過程分為三個步驟:
1)生成一顆倒立狀的樹狀結構。
2)根據這棵樹的根節點到葉子節點的路徑生成一系列的規則。
3)通過步驟2)的一系列規則加入遙感影像數據,最終得到分類或者預測結果。
因此,決策樹的分類思想可以理解為構建一顆倒立的樹狀結構,通過生成的一系列的規則,然后根據這些規則將原始數據進行歸類的過程[11-12]。
2.3.1 算法思想
隨機森林分類算法是一種基于決策樹的機器學習算法[13]。它是Bagging算法和Random Subspace算法的組合。以決策樹{h(X,θk);k=1,2,…,n}∈{true,false}作為基本構成單元,通過將多顆決策樹組合在一起來提高分類的準確性,由此構建了隨機森林分類器(圖2)。隨機森林算法的基本思想是:首先,從原始訓練樣本集中利用 bootstrap 抽樣抽取K個樣本,抽取的樣本必須滿足每個樣本的樣本容量都與原始訓練集大小一樣。其次,K個決策樹模型是由抽取的K個樣本所建立的,這K個決策樹模型就組成了隨機森林分類器。最后,用這K顆決策樹對測試樣本集進行分類,得到K種分類結果,依據K種分類結果對每個記錄進行投票表決,決定其最終分類。

圖2 隨機森林分類示意圖Fig.2 Schematic diagram of random forest classification
2.3.2 基本原理
在隨機森林模型構建的過程中,最關鍵的一步就是從屬性子集K選取最佳分類節點方法[14]。目前流行的有三種,分別是基尼系數、信息增益和信息增益率。它們所對應決策樹類型為CART、ID3和C4.5。最佳分裂屬性是從對應值最佳的屬性中挑選出來的,當屬性值為離散時,即可進行下一步分裂;若屬性值為連續變量時,則需要再選取最佳分裂點。具體計算方法是基尼系數為一種判斷分配平等程度的指標,基尼系數越小表示分配平等程度高,因此分類效果越好,計算公式為式(4)與式(5)。
(4)
(5)
在信息論中,熵值的定義則表示信息熵。數據樣本的純度越高,信息熵的值則越大,分類的效果就越好。樣本T的信息熵可表示為:
(6)
其中:Pi表示樣本i占總樣本數量的比例。通過特征A作用,樣本T將會被劃分為k個部分。此時信息熵為式(7)。
(7)
因此信息增益率則為式(9),信息增益率與分類效果呈正相關關系,計算如下:
(8)
(9)
隨機森林模型是以CART決策樹為基本分類器的一個集成學習模型,因此筆者選擇基尼系數作為節點分裂方法。
隨機森林算法主要有以下幾個優點:①魯棒性好,無需擔心過擬合現象;②數據兼容性好,對離散數據和連續數據都可以進行處理,即使數據缺失了部分特征也不影響分類結果;③抗噪聲能力強;④算法容易實現,效率高;⑤可以并行化處理。在實際應用過程中,有時需要對隨機森林算法進行評價。對于一個分類器來說,最重要的評價標準即是分類精度,隨機森林也不例外。因此,對隨機森林分類器的性能評價主要從分類精度來進行。
筆者選取珠海一號高光譜影像作為實驗數據,以最大似然、決策樹和隨機森林三種算法作為影像的分類算法。首先對影像數據進行預處理,根據研究區的實際情況,將研究區土地類型分為了水體、道路、耕地、草地、林地、城鄉建設用地和裸地七類。其次通過目視解譯的方式,選取適量的樣本,作為模型的訓練和驗證樣本。訓練樣本分別加入三種模型進行訓練,把訓練好的模型用于原始影像預測得到最終的分類結果(圖3)。最后將分類結果結合驗證樣本評價其模型的分類精度。

圖3 各算法分類結果Fig.3 Classification results of each algorithm(a)最大似然;(b)決策樹;(c)隨機森林
在圖3中,通過將實驗結果和原始影像進行同位置比對可以看出,最大似然法(圖3(a))在分類時對道路像元較為敏感,但將很多城市像元錯誤地劃分為道路類型,在結果圖上出現了許多較大的道路斑塊。決策樹算法(圖3(b))在水體和建設用地區分上表現出更高的精度;隨機森林模型(圖3(c))的結果顯示其在各種地物類型區分上都表現出較優的性能,尤其是在道路和城市建設用地的區分上,解決了前兩種方法出現的道路斑塊較多的問題,并且在耕地、裸地的劃分上也表現出較好的結果。
分類精度是一個客觀評價分類方法優劣的指標,在進行分類精度評價時,為了保證分類精度評價的客觀性,采用控制變量法。除了分類方法可變以外,使用同一套訓練樣本和驗證樣本,采用最大似然法、決策樹和隨機森林三種分類算法對研究區進行分類。由混淆矩陣計算得出分類模型的分類精度如圖4所示。

圖4 各算法分類精度及Kappa系數Fig.4 Classification accuracy and Kappa coefficient of each algorithm
圖4表明,最大似然法的分類精度是最低的,決策樹法居中,分類精度最高的為隨機森林算法,總分類精度達到了93%。隨機森林算法相較于最大似然法提高了接近七個百分點,顯然隨機森林分類算法優于最大似然分類算法。
由表3可以看出,在相同的條件下,不同地表覆蓋類型的分類精度差別較大,具體來看,林地、耕地、城鄉建設用地和裸地的分類效果較好,精度都達到了90%以上,而草地的分類效果表現較差,分類精度僅70%,其余地類的分類精度都在80%~90%之間。綜上所述,在高光譜土地利用信息提取中,隨機森林算法較最大似然分類算法和決策樹分類算法更加精確,在區分復雜的地類時也體現出更明顯的優勢,特別是在林地和城市建設用地的區分上,分類精度分別高達98.2%和95.26%(圖3)。

表3 不同分類方法分類精度比較
高光譜圖像分類算法研究是高光譜研究領域中的一個重要方向,具有重要的實際意義。本研究針對當前高光譜圖像分類過程存在的一些難題,筆者提出了一種結合波段標準差和隨機森林算法的高光譜遙感影像分類模型,并且將該模型與傳統的最大似然分類算法和決策樹分類算法進行對比。通過分類精度評價得到隨機森林算法、決策樹法和最大似然法的分類精度分別為93.14%、89.07%和86.38%。結果表明,利用隨機森林模型可以明顯地提高高光譜影像的分類精度,而且極大地減少了影像錯分和漏分的現象,可為高光譜影像在土地利用信息提取中提供一種新的參考。
筆者利用影像標準差的方式,對高光譜影像進行降維,這樣可以彌補多光譜影像波段的不可被替換的缺陷,在未來的土地利用信息提取上具有廣闊的應用前景。
這里采用了基于機器學習的隨機森林算法對影像進行分類,這種多分類器集成的分類算法,彌補了在單一分類器下分類精度較低且容易出現過擬合的缺陷,提高了分類精度,能夠快速且準確地提取土地利用信息,實現了土地利用信息快速可視化的目的。
雖然隨機森林算法在高光譜土地利用信息提取上取得了較高的精度,但在樣本選取和數量上存在一定的主觀性因素,因此在樣本的選擇和樣本的數量將成為下一步的研究目標。