摘要:本研究利用Sentinel-2影像以及2024年的實地采樣數據,訓練一個隨機森林分類器用于提取陸良縣水稻、玉米、土豆。首先,對遙感影像進行預處理,包括去云、光譜縮放、空洞插值填補等,并從實地采樣數據中目視解譯得到農作物樣本點。其次,構建了一個包含植被指數、光譜、地形特征的特征集。通過特征分組實驗,探索了不同特征組合對分類結果的影響,包括單獨使用光譜指數、植被指數、地形特征以及這些特征的累加組合。得到最高精度為96.29%,Kappa系數為94.19%。最后,將作物提取面積與實際播種面積進行對比,發現除玉米外其余作物的誤差在15%以內,模型提取效果較好。
關鍵詞:農作物;哨兵影像;隨機森林;陸良縣
及時、準確地獲取農作物的空間分布信息對于農作物的估產、管理以及對農作物種植結構的調整等方面具有十分重要的科學意義[1]。不同農作物種類在生長周期、紋理特征等方面存在顯著差異,物候特征可以反映出農作物在不同生長階段的特征?;谶b感影像和物候特征,學者們采用了多種機器學習方法進行了農作物種植信息的提取。張旭輝[2]等基于野外定位采樣數據和遙感影像,使用決策樹、隨機森林和多元回歸模型優選特征參數,結合支持向量機算法構建了多種分割模型及分割方案進行農作物種植信息的提取。然而,由于地形的復雜和天氣因素的問題,單一的遙感影像不足以應對更加精細的農作物分類研究。隨著技術的發展,學者將多源遙感影像信息融入農作物信息的提取中。郭力娜[3]等為了克服樣本數據不充足及樣本選取的主觀性誤差,選擇研究所需的四個遙感時相,進而結合四時相中耕地地表覆蓋狀態以及四時相疊置后綠地、裸地的地類組合特征,建立農作物解譯標志,從而提取主要的農作物種植結構信息。這些研究結果表明,結合多源數據和特征優化,能夠有效地應對復雜地區、物候特征缺乏等情況下的農作物提取。
本文選取了2024年的Sentienl-2影像,結合實地采樣數據,通過Google Earth Engine(GEE)云平臺使用隨機森林分類得到陸良縣的農作物分類影像。為耕地糧食生產及保護耕地資源提供一定的建議。
1 研究區與數據
1.1 研究區
陸良縣是云南省最大的壩子,位于103°23′N~
104°02′N,24°44′E~25°18′E。壩區面積772 km2,
素有“滇東糧倉”“魚米之鄉”的美譽。境內交通便利、河流眾多、區位優勢明顯,物流網絡通暢,優越的自然環境為發展高原特色農業發展、外銷提供了良好的條件,是典型的農業大縣。
1.2 數據來源及數據預處理
本研究收集了研究區2024年秋季的Sentinel-2遙感影像用于農作物分類提取,空間分辨率為10 m。其中,Sentinel-2和DEM數據來源于Google Earth Engine(GEE)平臺。
1.2.1 Sentinel-2遙感影像
Sentinel-2是高分辨率光學衛星,攜帶多光譜成像儀,高度為786 km,包含13個光譜波段,寬幅290 km。重訪周期為10 d,兩顆衛星則為5 d。主要使用L2A級產品,該產品經過輻射定標、大氣校正等預處理,反映地表反射率信息。Sentinel-2在紅邊范圍具有三個波段,有利于植被健康監測,應用領域廣泛,包括植被生長、土地覆蓋、糧食產量預測等。研究中主要使用了B2(藍)、B3(綠)、B4(紅)、B8(近紅外)波段。
1.2.2 實地農作物采樣數據
數據采集自陸良縣的7個樣區,農作物種類包括水稻、玉米、烤煙、洋芋、人參果、萬壽菊、豌豆尖、萵苣、蔥等。主要關注水稻、玉米、烤煙和洋芋種植面積較大的作物。
1.2.3 數字高程模型數據
選用ASTER GDEM 30 m數據,空間分辨率為30 m,用于計算坡度,并在GEE中進行裁剪等預處理。
2 研究方法
2.1 農作物特征提取
光譜分析法是提取農作物的重要方法,該原理基于不同波長下反射率差異,能夠表現出不同農作物各自獨特的光譜特征。地形特征方面選擇了海拔和坡度兩個因子,作為研究區提取農作物的基礎特征量。坡度較低的平地和平坡地占據了較大的耕地面積,這些區域水土條件較好,適合多種農作物種植。而在坡度較大的緩坡地和陡坡地中,耕地面積分布較少,這些區域水土流失較為嚴重,農作物種植受到限制,需要特別考慮這些區域的特殊性。
由于每種農作物的生長特性不同,分類時選擇計算光譜特征、植被指數、地形特征三種。地形特征一般固定不變,將2024年按照春夏秋冬4個季節,分別計算每個季節的植被指數和光譜特征。并將特征進行分組,分別評價分類精度,驗證每種特征對農作物提取的影響。幾種特征的提取方法如下:
2.1.1 增強型植被指數(EVI)
EVI是基于NDVI的改進版本,在高密度植被區有更高的敏感度,它能有效減少大氣和土壤背景的影響。計算公式如下所示:
式(1)
式中,NIR代表近紅外波段,Red代表紅光波段,Blue代表藍光波段。
2.1.2 水體指數(LSWI)
LSWI指數基于近紅外波段和短波紅外波段的比值,用于反映土壤濕度、植被覆蓋和水分含量,能夠有效識別農作物的水分情況,有助于判斷作物的生長情況。計算公式如下:
式(2)
式中,NIR代表近紅外波段,SWIR代表短波紅外波段。
2.1.3 歸一化植被指數(NDVI)
式(3)
式中,NIR代表近紅外波段,Red代表紅光波段。
2.1.4 歸一化差異水體指數(NDTI)
主要用于區分耕作區和非耕作地,幫助識別農田的土地利用類型。計算公式如下:
式(4)
式中,SWIR代表短波紅外波段,NIR代表近紅外波段。
2.1.5 綠色植被指數(GCVI)
GCVI能夠準確反映個別的光合作用能力和生長健康狀況,能夠有效區分不同作物的生長狀態。其計算公式如下:
式(5)
式中,NIR代表近紅外波段,Green代表綠光波段。
2.1.6 改進的歸一化差異水體指數(MNDWI)
由于陸良縣耕地中穿插布置水利設施,而水稻種植需要經過放水灌溉時期,MNDWI能夠識別有水體存在的農田區域,能夠有效區分水體和其他地物。計算公式如下:
式(6)
式中,Green代表綠光波段,SWIR代表短波紅外波段。
2.1.7 建筑物指數(NDBI)
主要用于識別城市化地區,特別是在農田周邊存在建筑物時,陸良縣自2011年開始蔬菜大棚種植,耕地與大棚相間分布,加入建筑物指數有助于區分耕地和大棚。計算公式如下:
式(7)
式中,SWIR代表短波紅外波段,NIR代表近紅外波段。
2.2 隨機森林算法
隨機森林是一種并行式的集成學習算法,基礎學習器為決策樹,是機器學習的一大分支——集成學習方法。每棵決策樹都是一個分類器,那么對于輸入的數據,在規定了訓練集和驗證集比例后,每次的輸入數據呈現隨機的結果,輸入不同的數據就會有多個分類結果。而隨機森林集成了所有分類的投票結果,將投票次數最多的類別指定為最終輸出。隨機森林由多棵樹組成,每棵樹都選擇部分的樣本及部分的特征,能夠在一定程度上避免過擬合。由于隨機森林的隨機性,使得算法具有很好的抗噪能力,性能比較穩定。能夠處理高緯度的數據,不需要多特征進行降維處理。隨著決策樹的增多,分類精度也相應提高,但當決策樹增加到某一個臨界點時,分類精度達到穩定水平,設定每5棵樹記錄一次精度,預備找到最佳的決策樹數量,其他參數選擇默認值。
2.3 精度評價
研究采用了多種特征提取農作物,為了評價特征對農作物分類的影響。將特征分為六組,訓練和驗證集按照8∶2比例進行劃分。分別使用總體精度、Kappa系數來評估農作物提取結果的精度。
2.3.1 總體精度(OA)
總體精度表示所有預測正確的像元占總的比例,用來衡量整體分類的精度。
式(8)
式中,TP表示耕地分類正確的像元,TN表示非耕地分類正確的像元數,FP表示實際為非耕地被分類為耕地的像元數,FN表示實際為耕地被分類為非耕地的像元數。
2.3.2 Kappa系數
Kappa系數被用來評估分類的準確性,通常用于遙感影像分類評價指標。
式(9)
式中,P0表示預測正確的樣本數占樣本總量的比例,即總體分類精度。Pe表示所有類別相對應的真實樣本數與預測樣本數的乘積之和除以樣本總數的平方。
3 研究結果
3.1 陸良縣農作物提取結果
在提取農作物前,為準確了解農作物分布情況,先在GEE平臺上通過目視解譯選取了耕地的樣本點,同樣通過隨機森林算法提取了耕地圖層,精度為93%。在此圖層基礎上繼續提取農作物,研究結果顯示,在決策樹數量達到65棵時,分類精度最高,總體精度為96.29%,Kappa系數為94.19%。這表明65棵決策樹為模型提供了較好的泛化能力,從而獲得了較高的分類性能。然而,隨著決策樹數量的進一步增加,分類精度經歷了先下降后上升的過程,最終在145棵樹時趨于穩定,此時的總體精度為95%。這可能意味著隨著模型復雜度的增加,存在一個最優的決策樹數量,超過這個數量后,模型的泛化能力可能不會顯著提高,甚至可能因過擬合而降低。結果顯示,陸良縣種植的農作物中,水稻、烤煙的提取結果良好,誤差在10%左右,但洋芋和玉米的誤差則較大,這可能是因為洋芋的樣本點采集較少,可供學習的樣本點數量不足導致模型對洋芋的識別能力較低。而玉米的提取結果誤差達到了46%,這可能是玉米的光譜特征與其他作物(如烤煙)等套種間種導致模型識別不準確,從而降低了分類精度。
3.2 各特征對農作物提取的影響
將特征分為光譜特征、植被指數、地形特征+植被指數、地形特征+光譜特征、綜合特征等,分別記錄了各自的農作物分類精度情況,結果顯示,光譜特征在農作物分類中能夠使分類精度提高,在農作物分類中達到了88.8%的總體精度。但單獨使用時其區分能力可能受相似地物光譜信息的限制。僅依靠光譜特征可能無法有效應對復雜的農作種植情況。植被指數單獨使用時,分類精度提升至93.8%,表明它能夠更好地表征不同農作物的生長狀態。植被指數的加入能夠彌補光譜特征的不足,對農作物分類的貢獻較大。在特征組合中,地形特征和植被指數的組合進一步提高了分類精度,達到了94.6%,在農作物種植復雜區域,地形特征的加入能夠提高模型的分類能力。而在地形特征和光譜特征組合時,精度反而比單獨使用光譜特征要低,僅為87.6%??赡芤驗榧尤氲匦翁卣鲿蓴_到光譜特征的分類能力,導致模型無法充分利用這些特征信息。綜合特征的分類精度最高,為96.2%。表明多源特征的聯合使用能夠顯著提高分類的精度,提升模型的性能,這可能是因為綜合特征能夠提供更多的農作物信息,增強模型區分不同農作物的能力。
4 結論
根據研究結果,隨機森林模型在65棵決策樹時達到最高分類精度,總體精度為96.29%,Kappa系數為94.19%。這顯示了模型良好的泛化能力。在農作物面積提取方面,水稻和烤煙的提取結果與實際播種面積相近,誤差在10%左右,而玉米和洋芋的誤差較大,尤其是玉米,達到46.88%。這可能是由于陸良縣玉米與其他作物進行套種間種導致的光譜特征與其他作物混淆,模型難以準確區分。洋芋的誤差較大可能與樣本點數量不足有關。
在特征組合分析中,不同特征對分類精度的影響差異顯著。在陸良縣的農作物分類中,植被指數的能提供的分類信息要大于光譜特征,而加入了地形特征之后,光譜特征與地形特征結合時精度下降,約87.6%,可能是地形特征干擾了光譜特征的作用。植被指數與地形特征結合時精度提高,約94.6%,表明地形特征的加入在地形復雜區域能夠增強模型農作物分類的能力。綜合特征的分類精度最高,達到96.2%。表明多源特征的結合使用顯著增強了模型的性能,提高了對不同農作物的區分能力。
參考文獻
[1] Fran?ois W,Foivos I D.Deep learning on edge:Extracting field boundaries from satellite images with a convolutional neural network[J].Remote sensing of environment,2020(245):111741.
[2] 張旭輝,玉素甫江·如素力,仇忠麗,等.基于Sentinel-2時序數據的新疆焉耆盆地農作物遙感識別與評估[J].干旱區地理,2024,47(4):672-683.
[3] 郭力娜,李帥,牛振國,等.基于物候差和多時相影像的耕地種植結構遙感調查——以唐山玉田為例[J].測繪科學,2019,44(10):50-58.