王剛,王加勝,苗旺元,陳波
(1.云南師范大學信息學院,昆明650500;2.西部資源環境地理信息技術教育部工程研究中心,昆明650500)
山區園地的提取在國內國外的相關研究普遍比較少,利用遙感技術對山區園地的提取也比較難。近年來,果園的提取主要是用光譜特征和植被指數來操作的。例如羅等人[1]把環境衛星遙感影像作為數據基礎影像,把NDVI、波段、高程和紋理信息等作為提取果園的特征,然后使用決策樹的分類模型對研究區的果園進行遙感提取和分類。李等人[2]和Immitzer等人[3]綜合了光譜信息提取并且對其進行分類。因為地面特征相對來說比較復雜,結合光譜和植被指數特征的果樹提取精度通常是比較低的,容易出現分類錯誤和遺漏的現象[4-5]。為了提高分類精度,國內外的學者運用了光譜結合紋理特征的提取方法進行果樹研究[6-7]。例如岳等人[8]把不同高精度分辨率的高分一號遙感數據作為基礎影像,把光譜和紋理特征作為提取特征,分別使用多種遙感分類模型對研究區主要栽培的果樹進行遙感識別分類。PU等人[9]和Dian等人[10]把空間信息和光譜特征作為提取特征對果樹進行遙感提取分類,證明了把空間信息和光譜特征結合起來可以很大地提高果樹分類的準確性。宋等人[11]把QuickBird影像作為基礎遙感影像,先利用小波變換的方法對紋理信息進行提取,然后使用隨機森林這個分類方法自動提取出獼猴桃果園。郝等人[12]利用面向對象的高分辨率影像結合紋理特征對耕地進行提取。黃等人[13]從紋理、形狀和對象的角度來進行提取和分析影像的特征,在這個基礎上,用三個分辨率比較高的對影像有實際應用的案例來驗證自己提出的方法。陳等人[14]利用高分辨率影像,把光譜和紋理特征作為提取特征數據,通過比較選取最好的紋理特征組合,使用決策樹這個分類方法進行分類。
綜上所述,在現有的果園提取方法中,結合光譜與植被指數特征的果樹提取精度相對較低,然而后來提出的一種把光譜和紋理特征作為提取特征的方法,很好地提升了對遙感影像的分類精度。但是因為遙感影像空間分辨率的限制和制約,對影像的分類精度來說仍然具有比較大的提高空間。為此,亟需開展基于高分辨影像、融合光譜、地形、紋理等多特征的園地提取研究。
GEE(Google Earth Engine)是一個綜合科學分析和地理信息數據可視化的平臺。本身存儲了近40年來主要公開的遙感影像數據集,并每天不斷進行更新,使得GEE用戶可以方便地提取、調用和分析海量的遙感大數據資源。與常規影像處理軟件相比,GEE可以實現更加快速、在線批量處理大數據等功能,對各種植被指數、水體指數具有快速且精確計算的特點。
本文擬以云南省昭通市昭陽區為研究區域,以GEE為軟件平臺,把Landsat 8 OLI遙感影像作為基礎的數據影像,地形圖等地理數據作為輔助,對園地的特征進行提取,主要包括了光譜特征、紋理特征、地形特征和纓帽變換特征,然后采用隨機森林(Random For-est)這個比較常見的分類方法進行分類并且采用決策樹(Decision Tree)的分類方法和支持向量機(Support Vector Machine)的分類方法進行提取2019年以昭陽區為研究區的園地并加以對比。
昭陽區隸屬于昭通市,在昭通市的西南方向,金沙江的南邊,在27.1°N-27.6°N、103.1°E-103.9°E之間,位于云貴高原的西北部(如圖1所示)。東、南、西、北邊分別與貴州省的威寧縣、昭通市的魯甸縣、四川省的金陽縣、昭通市的彝良縣,大關縣和永善縣三縣相鄰,是昭通市最富裕的縣區,占地總面積大約2167平方公里,占昭通市總面積的9.4%。昭陽區的氣候類型屬于北緯高原大陸季風氣候,春夏秋冬四季的溫差比較小,干季濕季差別比較明顯,垂直差異比較大。全年無霜期約為220天,相對北方來說比較長,全年平均氣溫約為11.6攝氏度,比較適合水果的生長,全年平均降水量約為735毫米,全年平均日照時間約為1902.02小時,晝夜的溫差較大,日溫差也比較大。該地區以紅壤為主,多為山區,山區占64.3%,境內水系發達。獨特的水文氣候條件,造就了“昭通蘋果”等水果品牌。
(1)Landsat 8 OLI數據。
根據昭陽區果園生長期以及影像的質量等因素,選取來自GEE(https://earthengine.google.com/)平臺的28景Landsat 8 OLI遙感影像數據。時間是從2019年2月1日到2019年10月31日,包括果樹的發芽期、開花期、幼果期、膨大期、著色期和成熟期,分辨率為30m。首先對在GEE上獲取的Landsat 8 OLI遙感衛星數據進行數據的預處理工作,由于GEE中的Landsat 8 OLI遙感數據已經進行了大氣校正的工作,所以后續的預處理主要包括影像去云,影像融合鑲嵌,影像裁剪等過程,然后進行特征提取。

圖1 研究區位置示意圖
(2)SRTM數據。
本文使用SRTMGL1_003數據,空間分辨率30 m。運用STRM數據進行特征提取,包括DEM、坡度、坡向和陰影等信息。
(3)樣本數據。
選擇合適的樣本點是提高植被分類結果的可靠性以及精度的前提。根據昭陽區的地形圖,土地利用方式和分布,將研究區的主要的土地作物種植類型化分成6種,分別為水體、草地、耕地、林地、建筑用地和園地,這6種土地作物種植類型在Google Earth平臺本身提供的高分辨率影像上具有非常明顯的識別特征。通過Google Earth平臺提供的2019年左右的高分辨率影像,利用目視解譯的辦法得到所有土地類型的樣本數據,收集得到的樣本點隨機且均勻分布于整個昭陽區。把目標年份的樣本數據先進行隨機的分配,比例按照7:3來分配,其中采集到的70%的樣本數據放入三種分類器進行分類訓練,而剩下的30%的樣本數據用來進行混淆矩陣的精度評價。樣本數如表1所示。
研究技術路線如圖2所示。首先要對Landsat 8 OLI遙感影像進行預處理的工作,由于GEE上的Land-sat數據已經進行了大氣校正,所以在這里主要進行其他的一些預處理,包括影像去云、影像融合鑲嵌和影像裁剪等一系列過程,然后結合地形圖作為輔助數據進行特征信息提取,包括物候特征、地物光譜特征、紋理特征、地形特征和纓帽變換特征,最后采用RF、CART、CART這三種常見的分類模型進行分類并且進行精度評價。

圖2 技術路線圖
特征變量的選擇對遙感分類來說非常重要,把不同的特征變量有機的組合起來可以使遙感分類的準確性有比較明顯的改善[15]。本文綜合利用光譜特征、紋理特征、纓帽變換特征和地形特征進行果園的遙感提取。
(1)光譜特征。
本文的光譜特征主要使用了一些多光譜波段和一些光譜指數[16]來表示的,光譜指數發展到今天有很多,本文使用了一些方便區分園地的光譜指數,分別是歸一化植被指數(NDVI)、歸一化濕度指數(NDMI)、調整土壤亮度的植被指數(SAVI)、比值植被指數(RVI)和差值植被指數(DVI)。計算公式如表2所示。

表2 光譜指數公式
其中L表示的是土壤調整系數,當L=0時,SAVI=NDVI,在研究中,L=0.5,植覆蓋度處于中等水平。
(2)紋理特征。
本文使用的紋理特征主要是通過灰度共生矩陣(GLCM)[17]計算得到的,分別是二階矩、對比度、相關性、方差和熵,計算公式如表3所示。

表3 紋理特征和公式
(3)纓帽變換特征。
纓帽變換是根據固定的變換矩陣將原始影像投影綜合變換到具有物理意義的亮度(Brightness)、綠度(Greenness)和濕度(Wetness)特征向量的三維特征空間,分別反映了裸土巖石、植被覆蓋度和水分信息。這個變換的過程達到了減少特征維數、增強影像信息的效果。其變換公式如下:

式中,X、Y分別為變換前后的多光譜空間的像元矢量;C為變換矩陣;b表示的是避免出現負值所添加的常數。Landsat 8 OLI影像下纓帽變換矩陣系數如表4所示[18]。

表4 Landsat 8 OLI影像下纓帽變換矩陣系數
(4)地形特征。
地形特征包括基于SRTM的數字化高程模型(DEM)及其衍生產品(坡度、坡向、陰影)[19],引入地形特征作為限定條件,增加部分限定條件以提升精度。
隨機森林分類算法是一種包含多個決策樹(CART)的機器學習算法,已被大量應用在許多領域,例如土地利用變化圖等,這種分類方法在分類特征比較多的情況下被認為具有比較好的分類效果[20-21]。隨機森林主要包括2個階段,分別是訓練和分類。在訓練這個階段,首先對輸入的數據通過每棵樹自舉重的方法對采集樣本進行采樣,隨機重復抽取N個新的樣本集合來替代原來的訓練樣本集合,然后通過這個樣本集合生成幾個獨立的CART決策樹。在分類這個階段,通過算術平均計算所有樹產生各種類別的概率,由每棵樹的分類結果通過投票得到[22-23]。最后通過GEE這個二次開發平臺,使用隨機森林分類算法對2019年目標年份的所有輸入的特征集合來進行分類得到分類結果。
在分類精度檢驗與評估中,遙感分類結果需要使用參數指標來片判別分類結果與實際土地類型的差異程度。把混淆矩陣(也稱誤差矩陣)作為評價分類的指標[24]來展示結果的好壞,包括總體分類精度(OA)、Kap-pa系數(KC)、錯分誤差(CE)、漏分誤差(OE)、用戶精度(UA)和生產者精度(PA)等,遙感影像分類的準確性就是用這些評價指標從不同的方面來表現出來的[25-26]。本文運用了混淆矩陣中總體分類精度與Kappa系數來衡量試驗區分類結果質量。用驗證樣本來計算目標年份分類結果的OA、KC、UA、PA,用這些結果的好壞來評估果園遙感提取的準確性。評價指標如表5所示。

表5 評價指標
用相同的樣本集合進行SVM和CART的分類來評估RF算法的分類性能的好壞。3種算法的分類結果如表6所示。
目標年份的果園提取結果利用分類精度評價參數來評估。由表6可知,RF分類的OA、Kappa系數、UA和PA高于相同特征下的SVM和CART分類結果,與CART分類相比OA、KAPPA系數、UA和PA分別提升2%、3%、7%和6%,與SVM分類相比OA、Kappa系數、UA和PA分別提升6%、8%、11%和15%,表明RF提取果園的效果和穩定性比較好。

表6 分類結果
圖3表示的是通過不同的分類算法獲得的昭陽區的土地利用分類圖。可以明顯的看出,SVM分類結果中果園和耕地草地之間的錯分現象較為嚴重,CART分類結果中果園分布完整性較好,與其他地物類型的混分狀況有較大改善。由圖3可以看出,CART分類與RF分類結果相對來說比較相似,但是果園和耕地之間錯分漏分的現象有所增加。綜合三種分類結果表明,采用RF分類算法提取的果園與其他兩種分類方案相比具有更好的連續性,影像的整體分類效果在果園的提取上有明顯的提高,這與表6中的定量分析相符。經統計,基于RF分類算法提取的果園面積為318.9hm2。2019年果園分布圖顯示,昭陽區果園主要集中分布與灑漁、永豐、舊圃、北閘、小龍洞等鎮。
經統計,基于隨機森林分類算法提取的果園面積為318.9hm2,占昭陽區總面積的14.7%。2019年果園分布圖(如圖4所示)表明,昭陽區果園主要集中分布于灑漁、永豐、舊圃、北閘、小龍洞等鎮。
本文通過GEE平臺,選用覆蓋昭陽區的2019年共28個時相的Landsat 8 OLI遙感衛星影像并完成數據的預處理,構建包括光譜、紋理、地形、纓帽特征在內的分類特征集,使用隨機森林分類算法,對昭陽區進行園地信息提取,最終得到了2019年昭通區果園空間分布情況,對研究區園地栽種面積進行估算,提取精度較高。研究得到的主要結論如下:

圖3 三種分類方法結果圖

圖4 果園分布圖
(1)通過比較RF、CART和SVM這三種分類器的分類性能,結果表明,在相同分類特征下,RF算法的分類結果最好,OA和Kappa系數比其他兩種分類器要高,與CART分類相比OA提高了2%,與SVM分類相比OA提高了6%。
(2)根據RF分類方法提取的園地結果,制作了昭陽區的園地分布圖,結果顯示,昭陽區園地總面積為318.9 hm2,占昭陽區總面積的14.7%,RF分類的OA達到96%,Kappa系數達到0.95,分類效果相對其他兩種分類器來說比較好。
(3)在昭陽區各鎮均分布有園地,其中,灑漁鎮園地分布最多,果業為該鎮農業產業中的主導產業。
但是,基于像元的分類將無法避免導致“椒鹽現象”的發生,如何確定最佳的影像分割閾值,如何更有效地選取訓練區域樣本,以及如何更準確地選擇分類指標與規則,都需要在后面繼續積極探索。