周欣興,趙 林,*,張文杰,譚昌偉,李剛波,石夢云,張 婷,楊 峰
(1.江蘇徐淮地區徐州農業科學研究所,江蘇 徐州 221121;2.揚州大學 農學院,江蘇 揚州 225009)
科學、快速、準確地獲取果樹種植區域的信息對于果樹長勢監測、產量估算和農業生產來說均具有積極意義。傳統的人工調查方法效率低、成本高,而且在統計過程中不可避免地會因為一些主觀因素,如統計錯誤、各地標準不一致、測量工具不同等,影響統計調查的精度。遙感技術具有客觀、及時、大面積等優勢,經濟投入少,且不受地域限制,現已在農業種植面積估算和種植區域優化布局等方面得到廣泛應用[1-3]。
目前,基于遙感技術的果樹種植區提取大多是利用果樹的光譜特征和植被指數實現的。羅衛等[4]使用HJ-CCD數據,綜合植被指數和地形地貌等多種信息構建決策樹模型,實現了對東江源地區柑橘與臍橙的有效提取。蔣怡等[5]結合GF-1PMS影像不同分辨率下的類型數據,通過可分離性分析發現,荒草地和未成林檸檬是影響檸檬分類精度的主要原因,同時得出適當的影像預處理有助于提高監督分類精度的結論。董芳等[6]利用蘋果花期的TM影像,基于混合像元分解法對棲霞市蘋果園地的信息進行了提取研究。邢東興等[7]在GF-1WFV影像的基礎上,采用多重閾值的方法,實現了對石榴樹種植區的高精度辨識。為提高精度,學者還開展了基于光譜組合紋理特征的果樹提取方法研究。岳俊等[8]基于不同分辨率的GF-1數據,分別采用最大似然、馬氏距離、神經網絡和支持向量機4種方法,結合光譜與紋理特征實現了對南疆盆地主栽果樹的識別。姚新華等[9]使用冬、夏時期的兩景GF-2遙感影像,構建了基于光譜與紋理特征的決策樹模型,為利用亞米級遙感影像開展果樹種植區提取研究提供了重要參考。一般來說,使用光譜特征和紋理信息的分類方法可以提高果樹的提取精度。近年來,基于中高分辨率衛星數據,結合時序影像進行果樹種植區提取的研究也備受關注。
時序遙感影像不僅具有單一時相影像的光譜信息,還具有一系列時間信息,在作物分布信息提取中頗有意義。相較于Landsat-8、MODIS等數據,Sentinel-2衛星影像在時空分辨率和光譜信息量上均有一定的優勢[10-11]。于婉婉等[12]在Sentinel-2多光譜影像基礎上,采用支持向量機模型與遞歸特征消除法,實現了對區域內優勢樹種的快速準確識別。Zhu等[13]利用Sentinel-2時空融合影像與物候植被信息,準確提取了蘋果園的空間分布特征,同時采用逐像素逆時間序列計算方法,得到研究區蘋果園的種植年限。
近些年來,機器學習技術在各領域得到廣泛應用,在農業遙感領域,結合機器學習算法的研究與應用日益增多,并取得了一定的進展[14-16]。模型構建的本質是在特征和目標之間找到合適的映射關系,隨著特征工程技術研究的深入開展,機器學習模型的潛力有望進一步提升[17]。
目前,針對作物的遙感識別主要集中在大宗作物上,關于果樹遙感識別的相關研究還相對較少。本研究選擇江蘇省徐州市豐縣大沙河流域作為研究區。研究區的地塊破碎程度高,作物種類豐富,有不少作物存在“同物異譜”現象,會對果樹提取造成干擾。為此,特基于2020年10月—2021年9月的多景Sentinel-2影像光譜數據,利用機器學習技術構建決策樹分類模型,識別研究區的果樹分布,并統計面積,以期為應用中高分辨率遙感數據進行果樹調查提供相關依據,研究成果也可為當地的果樹種植補貼申領和生產布局規劃等工作提供支持。
研究區位于江蘇省徐州市豐縣南部,地理坐標為34°28′~34°42′N,116°28′~121°47′E,主要包括大沙河流域的孫樓鎮、華山鎮、宋樓鎮、大沙河鎮、梁寨鎮,以及大沙河林場。于不同時期進行多次實地調查,實地調查的樣本點分布情況如圖1所示。

圖1 研究區位置
研究區地處暖溫帶半濕潤季風氣候區,四季分明,日照充足,年平均氣溫15 ℃。地形為黃泛沖積平原,地勢高亢、平坦,境內河流原為自然河流,縱橫交錯,廢黃河經過治理后引入長江水,形成了大沙河流域帶狀水庫。
大沙河流域土地肥沃,物產豐饒,擁有大面積的作物種植區域、果樹種植區域和園藝蔬菜種植區域等?;诘锰飒毢竦淖匀粭l件,大沙河流域的果樹種植已有幾十年的歷史,商品特性好,是全國知名的水果生產基地。
Sentinel-2衛星是歐洲“哥白尼計劃”的第二顆衛星,共有2顆衛星。Sentinel系列數據影像作為后起之秀,憑借其高質量的時空分辨率與豐富的波段信息在研究與生產中日益受到重視[18]。本文共選擇2020年10月—2021年9月的12景影像用于試驗,影像編號為N0300_R032_T50SMD。為保證果樹種植區遙感提取的質量,本研究選取了其中4個10 m分辨率的波段,分別為藍光(Band2,中心波長0.490 μm)、綠光(Band3,中心波長0.560 μm)、紅光(Band4,中心波長0.665 μm)和對植物敏感的近紅外波段(Band8,中心波長0.842 μm)。
植被指數是衡量作物長勢、區分作物特征類型的重要指數。在農作物分類研究中,歸一化植被指數(NDVI)、比值植被指數(RVI)、增強型植被指數(EVI)、結構密集型色素指數(SIPI)和歸一化水指數(NDWI)應用較多[19-22]。本研究基于前述4個波段,利用上述5個植被指數開展特征分類。
上述指標的計算方法如下:
(1)
(2)
(3)
(4)
(5)
式(1)~(5)中:VNDVI、VRVI、VEVI、VSIPI、VNDWI分別代表NDVI、RVI、EVI、SIPI、NDWI的值,ρNIR、ρR、ρG、ρB分別代表近紅外、紅光、綠光、藍光波段的反射率值。
大沙河流域主要的大田作物為小麥、玉米,另有少量水稻,其他園藝蔬菜主要包括大蒜、韭菜、菠菜等。研究區內的果樹以蘋果樹和梨樹為主,另外還有部分桃樹。這幾類果樹在冬季進入休眠季,2月中下旬至3月上旬萌芽,3月下旬至4月上旬陸續開花,隨后陸續坐果,7—11月為成熟階段。依據多時相Sentinel-2多光譜反射率影像,結合谷歌(Google)影像和現場實際調查樣點情況進行目視解譯。在研究區內分別選取果樹種植區樣本點、林地樣本點、草地樣本點、露天蔬菜種植區樣本點各128個用于構建決策樹模型的訓練集和測試集,另選取145個小麥-玉米輪作區樣本點和83個水稻種植區樣本點用于前期大田作物種植區與其他植被區的分類。地膜覆蓋和大棚設施蔬菜種植區、建筑、水體等可直接通過監督分類掩膜去除,本文不予討論。
本研究中,用于數據處理和構造決策樹模型的工具為Python2.7軟件[23]。作為一款開源軟件,Python憑借其豐富的功能和強大的庫而被越來越廣泛地應用于機器學習的研究和試驗中,其中的Scikit-learn庫,又寫作Sklearn,是一個基于Python語言的開源機器學習工具包,可通過NumPy、Pandas、SciPy和Matplotlib等Python數值計算的庫實現高效的算法應用,并且涵蓋了幾乎所有主流的機器學習算法,可高效、便捷地用于試驗[24]。本文使用的決策樹模型也選自Sklearn機器學習庫。在決策樹模型構建中,合適的特征輸入和特征量對于最終的分類結果和模型的復雜度來說意義重大。本研究直接調用模型中的Feature_importances_屬性來獲取特征重要性,在模型擬合之前濾除不重要的特征,以期獲得更好的穩定性與精確性。
在不加限制的情況下,決策樹會生長到衡量不純度的指標最優,或者沒有更多的特征可用為止。這樣的決策樹往往會過擬合,即會在訓練集上表現良好,在測試集上卻表現較差。研究中收集的樣本數據不可能和整體的狀況完全一致,因此當決策樹對訓練數據有了過于優秀的解釋性,其找出的規則必然包含了訓練樣本中的噪聲,并會造成對未知數據的擬合程度不足。為了讓決策樹有更好的泛化性,正確的剪枝策略是優化決策樹算法的核心。Max_depth(最大深度)和Min_samples_leaf是決策樹分類模型中2個至關重要的剪枝參數,其中,Max_depth的作用為限制樹的最大深度,Min_samples_leaf的作用為限定節點在分枝后的子節點中包含的訓練樣本數,這2個參數搭配使用可以使決策樹模型有更好的表現。
本研究所采用的技術路線如圖2所示:首先,通過分析全時期影像的光譜差異確定最佳監測時相影像,同時,對作物種植區進行剔除;然后,篩選輸入特征,依7∶3的比例劃分訓練集和測試集,并在此基礎上,進行模型最佳參數的探究;最后,實現模型的實例化,并進行驗證。

圖2 本研究的技術路線
大沙河流域的種植結構較為復雜。要進行果樹種植區的有效提取,首先要剔除耕地。常規大田作物,如小麥-玉米輪作區和水稻種植區可在單一時相影像中進行區分。每年6月份大沙河流域的耕地正處于換茬階段,通過對該月份各地物的NDVI閾值劃分,即可實現對耕地的有效剔除。對比研究區內耕地、果樹園區、林地、草地和露天蔬菜種植區6月份的NDVI值(圖3)可以發現,以NDVI值為4.5作為決策閾值即可實現較好的耕地區域剔除效果。

圖3 6月份研究區內各地物的NDVI值對比
對果樹種植區遙感提取影響最大的地物為林地,蔬菜種植區、草地和果樹在遙感影像中的特征或光譜反射率等具有顯著差異,因此區分林地和果樹為研究中的重點。在Sentinel-2多光譜反射率影像中,根據實地調查與影像目視解譯,分別在1—12月的大沙河流域影像中各選出典型果樹與林地區域5個,每個區域任意選擇5個樣本點提取波段信息得出平均波段值,繪制果樹與林地在每個月份的反射率變化曲線(圖4)。結果發現,3月份和7月份在490、560、665、842 nm波段,4月份和8月份在對植物敏感的近紅外波段,果樹和林地的反射率差異較為明顯,因此選擇上述4個月份的影像用于研究。

圖4 果樹與林地1—12月的光譜反射率對比
2.2.1 特征篩選
輸入所選定的4個月份的植被指數共20個特征(特征采用月份與植被指數以短橫線連接的形式表示,如7-NDWI代表7月份的NDWI),采用Feature_importances_屬性進行特征的重要性判定。每個特征的重要性不同,對決策樹貢獻越大的,特征越重要。為了保證決策樹模型的精確度,且盡量降低復雜度,選擇重要性值排在前10位的特征輸入決策樹模型,分別為7-NDWI、8-NDWI、7-RVI、4-NDVI、4-EVI、3-SIPI、7-SIPI、3-NDVI、4-RVI和7-EVI(圖5)。

圖5 各類特征的重要性得分
2.2.2 參數選擇
本研究使用超參數的學習曲線來判斷決策樹模型的重要參數,分別以經過篩選后的特征、未經篩選的特征(即所有特征)、3月份和7月份的植被指數、4月份和8月份的植被指數作為變量,繪制學習曲線(圖6)。可以發現,當把所有特征全部作為輸入變量時,模型的過擬合現象最為嚴重;當僅將3月份和7月份的植被指數或4月份和8月份的植被指數作為輸入變量時,不論是在訓練集上還是在測試集上,模型的效果都較差;用經過特征篩選的特征作為輸入變量時,構建的模型效果最好,且當該模型的Max_depth參數值為5時,模型的泛化能力最佳,在訓練集與測試集上均有良好表現。

A、B、C、D分別為以經過篩選后的特征、未經篩選的特征、3月份和7月份的植被指數、4月份和8月份的植被指數作為變量繪制的學習曲線。
網格搜索技術的本質為“枚舉技術”,在Min_samples_leaf參數選擇中,輸入給定的范圍(0~50)進行搜索,同時進行十折交叉驗證,以獲得最佳輸入參數結果。運行結果表明,Min_samples_leaf在進行到10時即可達到最佳效果。
確定模型的輸入參數后,構建決策樹模型。使用Accuracy系數作為評價指標,通過Score接口對模型做最終評價。結果顯示,所構建的決策樹模型在訓練集和測試集上的精度分別為0.919 4和0.875 1。通過Graphviz庫結合Tree.export_graphviz進行決策樹模型的可視化(圖7),其中,果樹種植區的識別在決策樹模型的3條分枝上均有體現。

圖7 決策樹模型
基于機器學習技術下的決策樹模型,選用3、4、7、8月份共4景Sentinel-2影像,利用ENVI 5.3軟件進行波段運算,分別生成不同時期下的光譜植被指數單波段柵格影像圖。在果樹種植區的提取上,利用ENVI 5.3軟件建立并執行上述決策樹模型,同時結合ArcGIS 10.7軟件實現不同分枝提取結果的融合,最終實現如圖8所示的果樹種植區面積提取??梢钥闯?,研究區的果樹種植區基本上圍繞在大沙河兩岸,多為連片種植,東部與西北部的果樹種植地塊較為零碎。統計果樹種植區的像元數量,根據像元的分辨率測算出大沙河流域的果樹種植面積為6 838 hm2。上述空間分布監測結果與現場調查情況基本一致。

圖8 果樹種植區的遙感提取結果
為客觀、定量評估決策樹分類模型對果樹種植面積的提取效果,本研究采用除訓練集與測試集外的實測樣本點,結合在線高分辨率影像數據經目視解譯選取的混合樣本點,同遙感提取結果進行對比,使用混淆矩陣分別計算Kappa系數、用戶精度和制圖精度。結果顯示,Kappa系數為0.87,用戶精度和制圖精度分別為92.91%和90.77%。通過驗證樣本點信息發現,圍繞大沙河兩岸的果樹信息基本上都能被正確提取出,得益于標準化與規?;墓麡浞N植,該區域的提取結果非常理想;錯分現象主要分布在宋樓鎮西南部與梁寨鎮西南部,實地調研發現,上述地塊的種植結構較為復雜且零散,受異物同譜現象影響出現錯分和漏分,部分林地的光譜指數因與果樹相似而導致產生錯分??偟膩砜?,本研究的錯分率、漏分率較低。測試集與訓練集得分和混淆矩陣2種精度驗證的結果均說明,本研究的果樹種植區遙感提取模型識別精度較高,可以實現對區域內果樹空間分布的遙感監測。
當前,植物信息的獲取主要基于光學衛星數據開展,通過分析影像光譜反射率的變化來判斷作物分布情況,并通過構建植被指數來提取作物。其局限性在于,在同一時期,果樹和其他植物之間存在“異物同譜”現象,因此,簡單地依據單時相影像和光譜特征并不能很好地區分各類地物[25-26]。本研究使用覆蓋果樹植物全生育期的Sentinel-2時序影像,計算關鍵識別時期的植被指數作為輸入特征,結合Python框架下的機器學習技術來構建最佳決策樹模型,配合決策樹分類方法,較為理想地實現了區分果樹與其他地表植物的效果,可有效提取果樹種植區域面積,總體精度較高。
本研究發現,3月份、4月份、7月份和8月份是關鍵識別時期,果樹種植區域與林地之間的差異性較大。其可能原因在于,3、4月份正值果樹花期,7、8月份果樹已從坐果期進入果實膨大期乃至成熟期,因此在光譜上與林地表現出較強的差異性。研究發現,用于構建決策樹識別模型的變量并非越多越好,將全部特征(即不經過特征篩選)用作變量所構建的模型,雖然在訓練集上表現出較好的結果,但在測試集上卻表現很差。數據冗余、噪聲干擾,導致模型朝著過擬合的方向發展;因此,有效的特征篩選十分必要??紤]到受云雨天氣等的影響,4個月份的影像數據都能獲取的概率并不高,本研究僅選取3、7月份或4、8月份的遙感數據進行分析,發現其在訓練集和測試集上的表現都較差。這說明,結合多時相的遙感數據可以更有效地進行目標地物的提取。
以往基于遙感的地物分類研究,大多在人工經驗的基礎上進行數據分析和閾值劃分,進而繪制決策樹[27]。對于光學遙感來說,通過分析果樹與其他植物光譜反射率的情況,搭配構建植被指數來進行目標提取的方法,雖然具有很好的可讀性與簡約性,但由于冠層光譜信息變化微弱,加之復雜的農田環境不利于光譜信息的提取與閾值劃分,因而該類決策樹模型在分類精度上很難達到最理想的狀態,難以滿足作物高精度提取的業務需求。隨著機器學習技術的發展,特征工程技術的應用異軍突起,有效的特征篩選可以起到事半功倍的效果。同時,超參數的學習曲線在探索模型最大潛力上也具有積極意義。因此,引入機器學習思想來提升決策樹分類模型的精度,無論是在科研還是在生產上都具有必要性。
研究區的果樹種植分布較為集中,種植類型主要包括蘋果樹、梨樹和桃樹。本研究并未就不同果樹類型進行細致劃分,后期工作將進一步結合紋理特征、紅邊參數等開展,以期為果樹類型的細致分類與統計提供新的思路。