湯紫霞, 李蒙蒙, 汪小欽, 邱鵬勛
(福州大學, 空間數據挖掘和信息共享教育部重點實驗室, 衛星空間信息技術綜合應用國家地方聯合工程研究中心, 數字中國研究院(福建), 福州350108)
自20世紀80年代以來,設施農業面積不斷擴大,逐漸在蔬菜瓜果的供應上占有重要地位,成為部分地區的支柱產業,我國已成為設施農業大國。截至2015年底,我國設施農業面積達410.9萬hm2,除去地膜后農業塑料薄膜總用量為113.88萬t[1]。農業大棚的增加反映了農業現代化的高速發展,準確快速地獲取大棚空間分布情況,不僅有助于農作物監測和農業產值估算,對實現農業資源的高效和可持續利用也具有重要意義[2]。
遙感技術憑借宏觀、實時、覆蓋面積廣和成本低等特點已成為現代農業信息獲取的重要途徑,在農業大棚信息提取和變化監測方面發揮著重要作用。基于專家知識與規則[3]、支持向量機(SVM)[4-5]、隨機森林模型[4]等方法,農業大棚分布信息提取取得較好的精度,學者構建了大棚遙感指數為農業大棚提取研究提供參考[6-7]。由于衛星傳感器性能的限制,以上方法大多以中低分辨率影像為數據源,無法有效利用地物的空間信息。近年來,高分辨率影像逐漸被應用于農業大棚提取研究,如Agüera等[8-10]基于QuickBird和Ikonos衛星影像,利用最大似然法開展農業大棚自動化提取,雖然均取得了較高的精度,為后續基于高分影像的大棚檢測提供了研究思路,但基于像元的方法制約著高分影像信息提取的精度。
隨著高空間分辨率遙感數據的廣泛應用,基于面向對象的分類方法比基于像元的方法具有更大的優勢[11],如Tarantino等[12]應用面向對象影像分析方法,基于高分辨率真實彩色航空數據對葡萄大棚進行檢測,精度達90%;Aguilar等[13-14]結合高分辨率影像的空間信息和中分辨率影像的光譜、紋理等信息,利用決策樹分類法獲取了精細的農業大棚空間分布圖。利用面向對象方法有效提高了農業大棚的提取精度,但也增加了特征維度,影響提取效率。Gonzalez-Yebra等[15]結合面向對象方法和隨機森林模型,基于國外高分辨率航空正射影像提取農業大棚信息,一定程度上有效處理了高維數據,提高了農業大棚信息提取精度。GF-2衛星是我國自主研制的首顆空間分辨率優于1 m的民用光學遙感衛星,具有亞米級空間分辨率、高定位精度和快速姿態機動能力等特點[16]。但基于國內GF-2數據將面向對象方法和隨機森林模型結合提取農業大棚信息的研究卻鮮有報道。此外,基于面向對象方法進行信息提取,分辨率制約著提取結果的形狀完整性,因此,對提取結果的形狀不確定性進行評價具有重要意義。
本文以GF-2影像為數據源,以福建省福安市葡萄大棚集中分布的城鎮為研究區,基于面向對象圖像分析模式,充分挖掘隨機森林算法在特征選擇和專題分類提取上的優勢,開展南方丘陵地區葡萄大棚信息提取研究,采用改進的面向對象評價指數對基于GF2影像提取結果的形狀不確定性進行評價。同時分析面向對象方法和隨機森林算法模型結合在GF-2影像上的適用性,推進國產高分辨率衛星的應用,也為日后其他地區農業大棚信息提取提供借鑒。
福安市位于福建省寧德市中部,地處鷲峰山脈東南坡,太姥山脈西南部、洞宮山脈東南延伸部分;地理位置介于北緯26°41′—27°24′、東經119°23′—119°52′之間。該地區氣候溫暖濕潤、光照充足,屬中亞熱帶海洋性季風氣候,年均氣溫13.6~19.8℃,年降雨量1 350~2 050 mm,有利于葡萄的生長。為隔絕雨水和防治病蟲害,福安市一直采用以農業大棚為主的葡萄栽培方式,一般3月葡萄發芽開始覆膜,4—7月葡萄處于結果期和成熟期,該階段大棚基本處于穩定覆蓋薄膜階段。獨特的氣候、種植方式使得福安市葡萄產業化發展擁有了堅實的基礎,成為了我國東南沿海最大的葡萄生產基地,有“南國葡萄之鄉”的美譽。研究區位于福安市南部(圖1),涵蓋了賽岐、灣塢、甘棠和松羅等鄉鎮,是葡萄大棚最集中分布的區域,可以很好地反映當地葡萄地理位置分布。
采用2017年5月28日的GF-2影像作為數據源,包括分辨率為4 m的多光譜影像和分辨率為1 m的全色影像。該時間段內研究區大棚處于穩定覆膜階段,同時農田作物處于非生長季,對提取精度的影響較小。 首先利用ENVI軟件對遙感影像進行正射校正,并使用NND(nndiffuse pan sharpening)方法融合得到1 m分辨率的多光譜影像,圖1展示預處理后的研究區真彩色遙感圖像。

圖1 研究區地理位置及考察點在GF-2 真影像上的分布Fig.1 Study location and distribution of sample on GF-2 image
首先利用eCognition軟件中的多尺度分割算法對預處理后的GF-2影像進行分割,并結合ESP (estimation of scale parameter) 尺度評價工具和鄰域差分絕對值與標準差比RMAS [ratio of mean diff.to neighbors (abs) to standard deviation]方法為圖像分割設置最優分割尺度參數;然后基于隨機森林進行特征重要性度量,構建最優特征空間后提取葡萄大棚信息;最后基于面向對象的精度評價指數對葡萄大棚提取結果進行精度評價與分析。
對分割后的圖像對象計算包含光譜、紋理、形狀等在內的多種對象特征,其中光譜特征反映了遙感影像上不同地物的光譜信息,是最基本的特征。根據實地調研和目視解譯,將研究區土地類型分為建筑物、裸地、植被、水體、道路和葡萄大棚六類,對以上土地類型各選取約60個樣本區域,統計不同地物在4個波段上的均值,繪制光譜曲線。
為探索GF-2影像上對于葡萄大棚的最優分割尺度,本文設定形狀因子和緊湊度因子均為0.5,分割尺度取值范圍為[50,120],以步長1進行遞增。本文將ESP尺度評價工具和RMAS法結合選擇最優分割尺度,即首先通過ESP工具對分割尺度進行初步評價,確定不同地物的潛在最優尺度,然后選擇鄰域對象地物更為豐富的葡萄大棚對象進行RMAS值統計,以得到葡萄大棚的最優分割尺度。
①ESP尺度評價。通過統計影像同質性的局部方差 LV(local variance)以及其變化率值 ROC(rate of change)來確定最優分割尺度[17]。當ROC達到峰值時,所對應的分割尺度極有可能為某種地物最優分割尺度。
(1)
式中,Li+1表示第i+1層對象的平均標準差,Li表示第i層中對象的平均標準差。
②鄰域差分絕對值與標準差比(RMAS)。其利用對象內部的標準差與鄰域的均值差分絕對值來構建分割評價指數[18]。對于特定地物,當RMAS值最大時,其分割效果最好。
(2)
(3)
(4)

隨機森林是2001年由Breiman等[19]提出的一種基于決策樹的多分類器集成機器學習方法。作為一種分類預測模型,它能有效地避免過度擬合,降低分類的泛化誤差,適用于存在大量未知特征的數據集,并估計出每個特征對分類的重要性。隨機森林通過Bootstrap進行抽樣,從原始數據集中有放回地隨機抽取k個訓練集合,每次約抽取原始數據集的 2/3作為的訓練集,未被抽取的數據稱為袋外數據(out-of-bag,OOB);然后從M個特征中隨機抽取m個(m< 為降低傳統基于反射率分類中“同物異譜”和“異物同譜”現象對影像分類的影響,綜合光譜特征、紋理特征和形狀特征共50個特征構建初始特征變量(表1),其中光譜特征主要包括各波段對象均值、亮度值和標準差,以及利用波段構建的指數特征,如歸一化植被指數(normalized vegetation index,NDVI)[21]和歸一化差值濕度指數(normalized difference water index,NDWI)[22];紋理特征基于灰度共生矩陣(GLCM)計算,主要選取0°、45°、90°和135°四個方向下的平均值(mean)、方差(variance)、同質性(homogeneity)、對比度(contrast)、非相似性 (non-similarity)、熵 (entropy)、二階矩 (second)和相關性(correlation)等;幾何特征主要包括面積、長寬比、形狀指數和對稱性等。 表1 特征變量Table 1 Details of object’s features 隨機森林作為分類預測模型一個重要特點是能對每個特征變量進行重要性評估和排序,從而去除冗余特征,構建最優特征空間。其中最常用的是Gini指數法,其通過在每個決策樹結點上實現計算特征子集中每個特征的重要性得分[23]。 假設樣本集合S中含有n個類別的樣本,則其Gini指數[24]公式如下。 (5) 式中,Pi表示第i類樣本的概率。在一次分割后,集合S分成了m個子集(Sj,j=1,2,…,m)。分割Gini指數如式(6)所示。 (6) Gini重要性最終由分割節點前節點的Gini指數減去計算候選特征子集中每一個特征分割該節點后的Ginisplit值得到。其值越大,說明重要性程度越高,對分類結果的影響越大。 本文首先通過混淆矩陣計算生產者精度(PA)、用戶精度(UA),并利用F值[25]對葡萄大棚提取結果進行檢驗,F值可以更好地判斷分類方法和數據源優劣。 F=2×UA×PA/(UA+PA) (7) (8) (9) (10) 結合OC(Mi)和UC(Mi),總誤差指數TC(Mi)定義如下。 (11) 此外,利用TC(Mi)獲得用于估計分類結果全局屬性的全局誤差指數GTC。 (12) 式中,m是分類圖中指定類分類對象的數量。 光譜曲線如圖2所示,可以看出,葡萄大棚與水體和植被在綠光波段和紅光波段上的值較為接近,但在藍光和近紅外波段上具有一定的可分性;與裸地在各個波段上的值差別均較明顯;與建筑物和道路只在近紅外波段具有一定可分性,在其余波段亮度值上較為相似,可分離性差。 圖2 地物光譜曲線Fig.2 Spectral curves of ground objects 利用ESP評價工具對分割尺度進行初步評價(圖3),ROC曲線整體呈下降趨勢,而下降過程中達到峰值的分割尺度為56、65、78、87、94、107、114、118等,這些峰值極有可能代表某種地物的最優分割尺度。 圖3 ESP尺度分割評價Fig.3 Evaluation of ESP scale segmentation ESP工具并不能準確得到葡萄大棚所對應最優分割尺度值,仍需進一步的目視判斷,具有主觀性,通過RMAS法進一步確定葡萄大棚的最優分割尺度。在ESP所得的初始所選分割尺度下計算RMAS值(表2),可以看出,當分割尺度為78時,RMAS值最大為1.312,因此確定葡萄大棚的最優分割尺度為78。 表2 RMAS尺度分割評價表Table 2 RMAS values of various image segmentations 確定最優的ntree和mtry能有效地提高所構建的隨機森林模型的精度和效率。通過討論不同參數組合下的OOB誤差率,從而確定隨機森林模型的最優參數ntree和mtry,最終結果如圖4所示。隨著樹的數量增加,OOB誤差逐漸降低,直至增加到140后OOB誤差率趨于穩定。隨著mtry的增大,OOB誤差率降低,當mtry為7時,OOB誤差率整體降至最低,之后mtry增大OOB誤差隨之增大,這是因為輸入特征過多造成冗余。因此最佳參數組合是ntree取值為140,mtry取值為7時,OOB誤差率為5.62%。 圖4 OOB誤差變化Fig.4 Variation of OOB errors 2.4.1特征數量對分類精度的影響 為探究特征數量與隨機森林分類精度之間的關系,本文基于Gini指數法對所有提取的特征進行重要性排序,通過改變特征變量個數得到分類精度與特征數量之間關系圖如圖5所示。可以看出,隨著參與分類的特征數量增加,前期分類精度呈現陡增的趨勢,當特征數從1增加到6時,分類精度從70.44%迅速提高到92.23%,這主要是因為特征數量過少時,分類器識別各種地物的有效信息不足,使得分類精度較低,而隨著特征的增加,有效信息增多,且特征之間的相關性和冗余特征少,提高了地物類別在特征空間的可分性;隨著特征數量持續增加,分類精度提高緩慢;當特征數大于15時,分類精度比較穩定,在94%上下波動,主要因為隨著特征數量的增加,冗余特征和不相關特征也會隨之增多,從而使得分類器性能下降。本文選擇重要性較高的前15個特征變量構建最優特征空間。 圖5 特征數量與分類精度關系Fig.5 Relationship between the number of features and the accuracy of classification 2.4.2特征變量作用分析 統計前15個特征變量的重要性并進行排序(圖6),可以發現,不同特征變量的重要性得分差異較大,光譜特征排名均比較靠前,說明光譜特征是區分葡萄大棚和其他地物的重要特征。其中,光譜最大差分(Max_diff)重要性得分最高,這是因為覆膜時新舊薄膜反射率差異較大導致葡萄大棚內部亮度值變化大,和其他地物差異明顯;且由于在栽種的葡萄上覆蓋白色塑料膜,削弱了葡萄的植被信息,使其兼具了建設用地等不透水面的光譜特征,結合圖2各地物光譜曲線圖可以看出,在藍、綠、紅三個波段上葡萄大棚與建筑物和道路可分離性不大,但因為大棚受內部種植作物的影響,具有一定的植被信息,所以在紅外波段和以近紅外波段所構建的光譜指數上與其他地物具有較大差異,因此,近紅外波段均值和基于近紅外波段構建的指數NDWI和NDVI重要性排名靠前。紋理特征中,由于南方丘陵區局部空間變化較大,而葡萄大棚在空間分布上具有密集性和規劃性,使得其在影像的紋理表現出一致性和均勻性,和其他地物在紋理上表現出很好的可分離性,因此相關性和熵等特征起到重要作用,且為了種植和運輸方便,葡萄種植一般靠近公路,種植方向也大多垂直或平行于公路,具有規劃性,這也使得紋理特征在90°或135°上和其他地物差異更加明顯。幾何特征中密度特征對于葡萄大棚的提取有重要作用,這與葡萄大棚主要集中分布在賽江平原和坡度較為平緩的山坡上有關。 圖6 特征重要性Fig.6 Features ranked according to their importance 2.4.3優選特征比重分析 對優選的特征進一步分析可以發現,當特征個數不同時,各類別特征參與分類時所占比重也不同。因此,對重要性得分較高的前30個特征變量,以1為步長計算特征數量變化下各類別特征所占的比重。如圖7所示,從占比可以看出,前12個特征中,光譜特征占據絕對優勢,且排名前兩位的特征均為光譜特征,說明光譜特征是區分葡萄大棚和其他地物的重要特征;從整體上看,隨著特征個數的增加,光譜特征所占比重在逐漸下降,紋理特征的比重一直穩定上升,這雖然與光譜特征總個數較少有關,但也證明紋理特征在葡萄大棚提取中的作用較為顯著;幾何特征個數直至增加到14個才發揮作用,說明其對于葡萄大棚和其他地物的區分性相對較小。 圖7 不同特征所占比重Fig.7 Proportion of different types of features 利用構建的最優特征空間和參數優化后的隨機森林模型提取研究區的葡萄大棚信息,提取結果如圖8所示。可以看出,葡萄大棚集中分布在賽江平原上和坡度較為平緩的山坡上,其中山坡上的葡萄大棚更為破碎零散。研究區葡萄大棚總面積為15.34 km2,與實際情況相符,其中賽岐鎮葡萄大棚種植面積最大為5.67 km2,這是因為賽岐鎮平原面積較大,路網發達,便于葡萄種植和運輸;溪柄鎮種植面積為3.15 km2,稍小于賽岐鎮;下白石和灣塢的葡萄種植面積分別為1.99和1.63 km2;甘棠和溪尾鎮則由于地形起伏較大,葡萄大棚分布較少。 圖8 葡萄大棚空間分布與面積統計Fig.8 Locations and planting areas of grape greenhouses 結合野外實地考察數據和Google Earth 高分辨率影像,通過人工目視解譯共獲取826個驗證樣本點構建精度評價數據庫。用于驗證葡萄大棚的樣本338個,其中錯分37個,生產者精度為89.1%,用戶精度為92.3%,總體精度為92.5%,F值為0.91。本文進一步選取葡萄大棚種植面積最大的賽岐鎮進行評估,通過計算加權的分割和過分割幾何誤差指數得到基于面向對象的精度評價指數GTC為0.12,全局誤差指數較小,從精度評價結果圖(圖9)可看出,大部分分類結果整體誤差小于0.2,提取結果的形狀完整性較好,表明本文方法能提高模型性能和分類精度,有效區分葡萄大棚和其他地物。 A: 區域I的全局誤差分布;B:賽岐鎮影像與參考圖層;C:區域Ⅱ的全局誤差分布A: Total error distribution map of region I;B: Image and reference layer of Saiqi; C:Total error distribution map of region Ⅱ圖9 基于面向對象的精度評價Fig.9 Object-based evaluation of extracted grape greenhouses 本文以GF-2遙感影像為數據源,基于最優特征空間的隨機森林模型對南方丘陵地區葡萄大棚進行信息提取。影像分割是面向對象影像分類的首要步驟。目前,各種圖像分割算法層出不窮,基于多尺度分割算法的圖像分割被廣泛應用于高空間分辨率遙感圖像分類中。但對于不同影像不同地物不存在普適的尺度,分割尺度的選擇直接決定了影像對象的大小以及信息提取的精度,特定地物最優分割尺度的選擇仍然是一個難以攻克的難題[28-29]。針對以往高分辨率影像分割常采用的試誤法確定分割尺度所存在的弊端[30],本文結合ESP尺度評價和RMAS法實現了對于葡萄大棚的最優分割尺度選擇,為特定地物最優分割參數的選擇提供定量依據;基于面向對象的分類方法會增加特征維度,許多研究學者將面向對象和決策樹分類、隨機森林和支持向量機等結合來處理高維數據[15,31],但并未對多特征進行綜合優化,過多的特征會影響模型復雜度和分類精度,基于此問題,利用Gini指數對所提取的對象特征進行重要性評分和排序,構建最優特征空間,能有效提高南方丘陵地區葡萄大棚提取精度;此外,國產GF-2數據的分辨率依然制約面向對象方法提取結果的形狀完整性,引入面向對象評價指數對基于GF2影像提取結果的形狀不確定性進行評價,得到全局誤差指數GTC為0.12,表明該方法對GF-2影像上葡萄大棚信息提取的位置和形狀完整性方面具有潛在優勢。目前,基于國內GF-2數據將面向對象方法和隨機森林模型結合應用到農業大棚信息提取方面還鮮有報道,而本文方法對基于GF-2影像的南方丘陵區域葡萄大棚信息提取具有較大的應用潛力,并可為其他地區的農業大棚信息提取提供較好的解決思路。 雖然本文研究方法在南方復雜丘陵地區的葡萄大棚提取上獲得了較好的結果。但也存在很多不足:①未曾探討優選特征的穩定性和可遷移性,這些特征在其他農業大棚分類中的適用性還需要進一步的探討;②隨機森林模型在某種程度上屬于黑箱模型,雖然文中對輸入的特征變量個數mtry和決策樹的數量ntree的最優參數組合進行了分析,但具體節點閾值的設置還需要更細致的研究;③本文方法暫時只在GF-2影像上實現了葡萄大棚的精確提取,在其他國產衛星數據如GF-1、ZY-3上的應用潛力還需要進一步驗證。1.6 特征提取

1.7 特征重要性度量
1.8 精度評價

2 結果與分析
2.1 地物光譜分析

2.2 最優分割尺度定量選擇結果


2.3 隨機森林最優參數選擇

2.4 變量重要性分析



2.5 提取結果分析

2.6 提取精度分析

3 討論