張 釗,官云蘭* ,黃 端,池 泓
(1.東華理工大學測繪工程學院,330013,南昌; 2.自然資源部環鄱陽湖區域礦山環境監測與治理重點實驗室,330013,南昌; 3.中國科學院精密測量科學與技術創新研究院,430077,武漢)
蝦稻田是一種全新的綜合種養模式,即水稻-小龍蝦共同養殖。隨著國內小龍蝦產業蓬勃發展,蝦稻田的種植范圍快速擴大,特別是湖北省江漢平原區域[1-2]。當前蝦稻田養殖的小龍蝦為農戶帶來了可觀的經濟效益,但是存在許多問題。農戶重蝦輕稻,糧食安全問題受到威脅,對基本農田破環嚴重,很難復墾[3-4]。因此,準確的蝦稻田空間分布可以促進產業健康發展,為政府部門決策提供依據。
遙感數據可以用于持續對地監測,提供地物空間分布信息,已成為獲取蝦稻田時空分布信息的重要數據來源。魏妍冰等人基于2017年的Landsat-8 OLI數據,使用自動水域提取指數(Automated Water Extraction Index,AWEIsh)構建基于水體季相差異的蝦稻田提取模型,實現了潛江市蝦稻田的空間分布提取,精度達到85.01%[5]。紀文文借鑒魏妍冰的研究,將AWEIsh加到決策樹分類器中提取蝦稻,在eCognition中手動修改錯分像元后,使最終蝦稻田的用戶精度達到89%[6]。陳展使用2016—2019年的篩選特定時間的10景Sentinel-2影像數據,在SNAP軟件中計算指數特征,根據其在季相上的差異化識別運糧湖區域的蝦稻田,精度最低為78.06%,最高達到了95.61%[7]。已有研究表明蝦稻田遙感分類研究還存在較大的不確定性,且受人為因素影響較大,自動化程度有待提高。
現有針對蝦稻田提取研究主要針對Landsat數據基于蝦稻田與單季稻田的水體指數季相差異設計算法模型。而且南方地區土地的破碎化程度高,Landsat數據的分辨率不足以支撐獲取高分辨率的蝦稻空間分布;且基于指數的季相差異依賴高質量的影像,時間的選取受云雨天氣的影響,存在一定的不確定性,從而影響蝦稻田的提取精度。Sentinel-2影像數據空間分辨率高,結合相關光譜指數(如:NDVI、EVI、LSWI等)在南方多云區域提取水稻已被證明精度較高[8-9]。Google Earth Engine(GEE)是谷歌公司開發的全球領先的遙感影像數據分析云平臺。它具備快速處理海量遙感數據強大的計算能力,極大提高了運算效率,使得農業土地利用信息的快速處理與分析成為現實,已被廣泛用于不同農作物遙感制圖研究[10-12]。
本文以湖北省蝦稻田種植大市——監利市為研究區,基于GEE云平臺對Sentinel-2數據進行預處理和月度合成,分析典型蝦稻田光譜的時序變化特征,采用隨機森林算法提取蝦稻田,獲取2020年監利市蝦稻田空間分布信息。
監利市位于湖北省中南部,長江中游,面積約3 460 km2。該區域地勢平坦,海拔高度位于23.5~30.5 m之間;屬于亞熱帶季風氣候區,光照充沛,無霜期長,降水豐富,適合水稻和小龍蝦的生長。監利市是稻蝦綜合種養的主要地區之一,蝦稻種養面積占全市耕地面積的40%左右,有“中國小龍蝦第一縣”之稱。
蝦稻田在水稻種植四周挖出寬3~5 m,深1~1.5 m的水溝,用以養殖小龍蝦。稻蝦綜合種養包含了單季稻的種植和兩季小龍蝦的養殖。在單季稻移栽期間,投放第1季小龍蝦幼苗;同年收獲水稻的同時完成小龍蝦捕撈。然后蝦稻田開始灌水投放第2季小龍蝦幼苗,至次年單季稻種植前捕撈小龍蝦(表1)。蝦稻田和單季稻田的結構特征如圖1。

表1 蝦稻和單季稻種養物候

圖1 左圖為蝦稻田,右圖為單季稻田
1.2.1 Sentinel-2影像數據 Sentinel-2(S2)由Sentinel-2A(S2A)和Sentinel-2B(S2B)2個衛星組成,位于同一太陽同步軌道上且彼此成180°相位。S2A和S2B攜帶多光譜成像儀,單顆衛星重放周期10 d,2顆衛星協同運行重訪周期為5 d。本研究通過GEE云平臺使用S2數據的L2A級產品數據,該數據是L1C級產品完成大氣校正的大氣表觀反射率產品,包含有13個光譜波段和3個QA波段,其中QA60波段有云掩膜信息。實驗涉及的波段信息見表2。

表2 實驗涉及的S2影像波段信息
實驗共獲取了290景影像,因研究區的水稻生長期內云雨天氣頻繁,影像受污染嚴重,為使用更多的有效信息,首先利用CLOUD_PIXEL_PERCENTAGE篩選掉云量像素大于80%的影像,然后根據QA60波段的Bit10和Bit11均為1得到云掩膜層,進行去云處理,公式如(1)所示。最后將去云處理完成后的126景影像按照月份中值合成,最后生成12景影像。影像數據具體使用情況見表3。

表3 影像數據具體使用情況
Cloud ={Bit10=1∪Bit11=1}
(1)
其中,Cloud表示QA60產品中的云噪聲像元。
1.2.2 樣本點數據 結合監利市實際地類分布情況,將研究區內的土地覆蓋類型分為蝦稻、單季稻、林地、旱地、建設用地和水域(河流、水庫、池塘等)6大類。樣本數據來源線上采樣和實地采樣2種方式。線上采樣是借助谷歌地球軟件上高分辨率影像進行目視解譯獲取;線下采樣通過實地采樣完成。采樣過程中均遵循隨機和均勻的原則。最終確定樣本點共計1 024個,樣本點分布情況如圖2,蝦稻田樣本點343個,其他地類樣本點681個。實驗中按照7:3的比例將所有樣本點分為訓練樣本點和驗證樣本點,其中訓練樣本點717個,驗證樣本點307個。

圖2 監利市地理位置和實驗樣本點分布情況
實驗基于GEE云平臺調用研究區內2020年的S2 L2A影像數據,快速完成影像的去云處理和月度合成,在此基礎上構建蝦稻田的光譜時序特征。隨后利用隨機森林算法進行分類,獲得研究區2020年的蝦稻田分布情況,并采用獨立樣本點數據進行精度驗證。實驗流程圖見圖3。

圖3 蝦稻田信息提取流程圖
準確提取蝦稻田信息的關鍵是將其與單季稻田區分。因此,實驗中計算了6個光譜指數:歸一化植被指數NDVI(Normalized Difference Vegetation Index)[9]、增強型植被指數EVI(Enhanced Vegetation Index)[13]、綠色葉綠素指數GCVI(Green Chlorophyll Vegetation Index)[11]、地表水體指數LSWI(Land Surface Water Index)[14]、歸一化水體指數NDWI(Normalized Difference Water Index)[15],歸一化建筑指數NDBI(Normalized Difference Build-up Index)[16]。光譜指數計算公式如表4。其中NDVI、EVI、GCVI的時序變化能夠較好反映出水稻的生長狀況,LSWI和NDWI能夠反映出蝦稻田和單季稻田內水的變化情況。NDBI用于分類實驗時建設用地提取。

表4 各光譜指數計算公式
式中:ρBlue、ρGreen、ρRed、ρNIR、ρMIR、ρSWIR分別表示藍、綠、紅、近紅外、中紅外、短波紅外的反射率值。
圖4與圖5分別顯示了蝦稻田和單季稻田6種光譜指數的時間序列曲線。由圖4與圖5可知,兩者在水稻休耕期各光譜指數有很大區別,在水稻生長期內基本保持一致。在水稻生長期,即6—11月,蝦稻田內大部分面積為水稻,水深與單季稻田一致,用于檢測水稻生長情況的NDVI、EVI、GCVI和檢測田內水含量情況的NDWI、LSWI均不能作為判斷依據。所以這個期間無法準確提取蝦稻田。在水稻休耕期間,單季稻田會保持休耕狀態。在2—4月雜草生長,所以NDVI、EVI、GCVI會有所上升,但是很快NDWI、LSWI在水稻移栽期間升高,NDVI、EVI、GCVI下降到0附近,并且LSWI > NDVI和EVI,這也是基于物候期提取單季稻的重要基礎。而蝦稻田在休耕期內,在12月開始灌水準備投放小龍蝦幼苗,并一直到次年5月會一直保持為水面狀態。在這長達半年時間里,LSWI一直在0.4附近,NDVI、EVI、GCVI表現為0,這是區分蝦稻田和單季稻田的主要特征。

圖4 典型蝦稻田光譜指數時序變化

圖5 單季稻光譜指數時序變化
隨機森林(Random Forest,RF)是以決策樹為基本單元的集成學習分類算法。這種分類算法相比于其他分類算法更加穩健,分類效率較高,更容易實現。隨機森林分類的基本步驟為:1)從原始樣本集中有放回地隨機抽取訓練樣本,構成訓練樣本集,一般為總數的70%;剩下的30%樣本為驗證樣本集,叫做袋外(Out-of-bag,OOB)數據,用于內部交叉驗證和估計誤差,也叫做袋外(OOB)誤差;2)對訓練樣本集分別構建決策樹,在決策樹的節點處隨機抽取特征,隨后根據基尼(Gini)系數最小的原則得到一個分類能力最好的特征在節點處分裂;3)隨后將其每個決策樹的結果集成,生成最終的分類結果。這使得RF算法具有很好的抗噪能力,也能一定程度上避免過度擬合[17-18]。
在GEE云平臺中通過函數ee.Classifier.smileRandomForest調用,實驗中通過設置的決策樹范圍來篩選最佳的決策樹值,最后選擇500,因其實現了更高的精度且保證了相對更高的效率。分類算法中其他參數設為默認值。
本研究通過計算混淆矩陣進行精度評價,共計算了4個指標,包括生產者精度PA(Producer's Accuracy)、用戶精度UA(User's Accuracy)、總體精度OA(Overall Accuracy)和Kappa系數,計算公式見表5。UA可以對各類地物分類精度衡量,OA和Kappa系數用來評價實驗分類總體的精度[19-20]。

表5 精度評價指標計算公式
式中:n和r分別代表研究區的總像元個數和土地覆蓋類型的數目;xii代表i類土地覆蓋類型正確分類的像元個數,xi+代表i類土地覆蓋類型參考數據的像元總數,x+i代表評價數據中i類土地覆蓋類型的像元總數。
實驗提取的蝦稻田空間分布信息如圖6。該實驗基于GEE云平臺使用隨機森林算法提取蝦稻田,精度評價見表6。蝦稻田的生產者精度為92.77%,用戶精度為84.61%;分類的總體精度達到了90.75%,Kappa系數為88.51%。

圖6 2020年監利市蝦稻田空間分布信息

表6 監利市2020年土地利用類型分類結果精度評價/%
經統計,得到的蝦稻田面積為779.77 km2,與監利市政府公布的蝦稻田面積數據720.00 km2相比,相差59.77 km2,比實際統計面積多出8.301%。傳統方法獲取蝦稻田面積依賴人工抽樣統計,本文利用高分辨率遙感數據提取的結果,兩者間誤差在合理區間內。
實驗提取的蝦稻田空間分布與Google Earth數據對比驗證(Google Earth衛星數據源:Airbus;拍攝時間:2020年2月3日),并選取兩小區域分析,如圖7。實驗中蝦稻田被誤分或錯分的原因主要在于:1)部分水產養殖田塊被誤分為蝦稻田,因為在夏季養殖時農戶會在水面上放置草作為飼料,導致水產養殖田塊的光譜指數與蝦稻田類似而誤分,主要表現在監利市東邊,洪湖附近。2)少許單季稻田被誤分為蝦稻,查閱監利市2020年2月、3月、4月的天氣情況后,分析原因是降水增多和云污染的影響。在2月、3月、4月,研究區有一半時間為多云、小雨天氣,降水量增加,單季稻田內NDWI和LSWI會增加,影響后續的分類精度。3)采樣點選擇的正確性也是影響分類精度的重要因素。采樣過程中存在的人為因素、影像時間、地理環境等影響,導致采樣點存在一定偏差,使得分類器訓練精度降低。

圖7 2塊小區域Google Earth數據與分類結果對比圖
本文基于GEE云平臺,快速處理得到了監利市2020年各月的Sentinel-2影像,通過對比分析蝦稻和單季稻的關鍵指數變化特征,使用隨機森林算法提取蝦稻田,首次得到了監利市2020年10 m分辨率蝦稻田的空間分布信息。主要結論如下。
1)GEE云平臺具備快速處理大量遙感數據的能力,能智能完成遙感影像的裁剪、去云、拼接等預處理,相比于本地處理效率優勢明顯。
2)1—6月LSWI和6—10月NDVI、EVI、GCVI的時序變化特征是提取蝦稻田的重要基礎。本文通過分析典型蝦稻田的光譜指數一年內的變化規律,相比于單季稻田,所有指數在11月至次年5月一直保持穩定,LSWI在0.5附近,NDWI、NDVI、EVI和GCVI一直在0附近。相較于水體季相差異提取蝦稻田信息,這種方法穩健,精度更高,可以為更大范圍的研究提供指導。