











摘要:精確獲取流域范圍內(nèi)的植被覆蓋度(Fractional Vegetable Cover, FVC),對于深入研究流域生態(tài)環(huán)境、濕地健康狀況及其生態(tài)保護策略具有至關(guān)重要的意義。克魯倫河流域是橫跨中蒙邊境的重要生態(tài)區(qū),具有很高的生物多樣性價值,對支撐并維護該區(qū)域生態(tài)系統(tǒng)平衡具有重要作用,鑒于此,本數(shù)據(jù)集以克魯倫河流域作為研究區(qū),基于10米空間分辨率的Sentinel-2多光譜遙感影像獲取高精度植被覆蓋度數(shù)據(jù)集,為流域生態(tài)環(huán)境保護提供數(shù)據(jù)支撐。為克服像元二分法、線性回歸方法、隨機森林回歸模型等傳統(tǒng)植被覆蓋度反演方法在光譜特征間細微差異挖掘有效性與高維特征間復雜非線性關(guān)系發(fā)現(xiàn)不足等問題。為更精準估算該流域植被覆蓋度,論文比較了基于深度學習的雙向長短時記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term memory, BiLSTM)模型、隨機森林回歸、多層感知機與LSTM四個模型的性能以確定數(shù)據(jù)處理方法。所用特征數(shù)據(jù)以Sentinel-2多光譜數(shù)據(jù)為基礎(chǔ),綜合光譜指數(shù)與高程數(shù)據(jù),所反映植被相關(guān)信息包括葉綠素含量、水分狀況以及地形地貌等。該特征數(shù)據(jù)集將進一步劃分為訓練集和測試集。比較結(jié)果表明,BiLSTM的R2和RMSE分別為0.716和0.103,綜合性能最優(yōu)。論文基于該模型生成了2022年克魯倫流域的月度植被覆蓋度數(shù)據(jù)集,包括12個月的克魯倫河流域植被覆蓋度反演結(jié)果組成,全部數(shù)據(jù)已經(jīng)完成拼接和掩膜提取等操作。該數(shù)據(jù)集可用于評價克魯倫河流域地表植被生長狀況和生態(tài)系統(tǒng)健康狀況,并為相關(guān)流域的生態(tài)保護研究提供支持。
關(guān)鍵詞:克魯倫河流域;機器學習;深度學習;BiLSTM;植被覆蓋度
數(shù)據(jù)摘要:
1" 引言
克魯倫河流域延伸跨越中國與蒙古國的邊境界線,起源于蒙古國北部的肯特山脈,流經(jīng)中央省、肯特省、東方省,穿越蒙古國東部地區(qū),最終匯入中國內(nèi)蒙古自治區(qū)新巴爾虎右旗呼倫湖,全流域跨度約為1200公里。該流域是位于中蒙邊境的重要綠色緩沖區(qū),具有高度的生物多樣性價值,對支撐并維護該區(qū)域生態(tài)系統(tǒng)平衡具有重要作用。植被不僅是連接水文循環(huán)、大氣交互與土壤過程的關(guān)鍵媒介,其變化還深刻影響并反映著生態(tài)系統(tǒng)中植被、土壤及更廣泛環(huán)境要素的健康狀態(tài)。這種變化成為量化分析局部乃至全球尺度植被動態(tài)變化的有效手段[1-3]。植被覆蓋度反映了植被冠層在地面上垂直投影面積占土地總面積的百分比,是評估地表生態(tài)環(huán)境健康的重要指標。因此,準確評估植被覆蓋度不僅是生態(tài)學研究的基礎(chǔ)需求,也是制定有效環(huán)境保護策略、監(jiān)測生態(tài)恢復進程及預(yù)測未來環(huán)境變遷趨勢的重要前提。
遙感技術(shù)的進步提升了長時序遙感數(shù)據(jù)影像的獲取效率,為局地區(qū)域乃至全球范圍內(nèi)的大規(guī)模、多時空尺度植被覆蓋度監(jiān)測提供了有力的技術(shù)支持[4-5],基于遙感數(shù)據(jù)生成的植被覆蓋度數(shù)據(jù)集[6-8]已成為全球植被覆蓋度遙感監(jiān)測任務(wù)中的關(guān)鍵數(shù)據(jù)源。當前,基于遙感影像反演植被覆蓋度的方法大體分為三類,基于經(jīng)驗?zāi)P偷姆椒ā⒒谙裨址ǖ姆椒ê突谖锢砟P汀=?jīng)驗?zāi)P椭饕蕾囉趯嵉夭蓸訑?shù)據(jù),通過構(gòu)建植被覆蓋度與特定波段反射率或植被指數(shù)之間的回歸關(guān)系來估算植被覆蓋度。該方法在具有特定植被組成的小尺度區(qū)域內(nèi)能取得較滿意的反演效果,其普適性可能受到一定限制[9];像元二分法模型一般通過將混合像素中的地表特征分為植被和非植被兩類來確定植被覆蓋度,但受限于遙感影像的空間分辨率,單一像素經(jīng)常包含多種地表覆蓋類型,缺乏純凈的像元樣本點,特別在地面景觀復雜的場景,對植被覆蓋度反演的精確性構(gòu)成了挑戰(zhàn),會損失一定的精度[10-11];物理模型力圖通過物理輻射傳輸模型來解析植被冠層光譜反射特性與植被覆蓋度間的內(nèi)在聯(lián)系,理論上更為嚴謹。盡管這種方法理論上能夠更準確地反映植被覆蓋度的實際情況,但反演過程往往較為繁瑣,且對數(shù)據(jù)的質(zhì)量和數(shù)量要求較高[12-13]。故而,查找表(LUT)技術(shù)以及一系列經(jīng)典機器學習算法,包括反向傳播神經(jīng)網(wǎng)絡(luò)(BPNNs),隨機森林回歸模型(RF)和高斯過程回歸(GPR)等,因其處理效率高而被廣泛應(yīng)用于植被覆蓋度的遙感估測中[14-15]。盡管如此,傳統(tǒng)的機器學習方法往往只能停留在訓練數(shù)據(jù)的淺層學習,難以有效挖掘高維數(shù)據(jù)的深層特征。相比之下,得益于其多層次的網(wǎng)絡(luò)結(jié)構(gòu),深度神經(jīng)網(wǎng)絡(luò)能夠更深入地學習和表達高維數(shù)據(jù)中的復雜模式。作為深度學習領(lǐng)域的重要分支,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)擅長捕獲序列數(shù)據(jù)中的上下文依賴和時間關(guān)系,因而在植被覆蓋度的時空動態(tài)預(yù)測中展現(xiàn)出潛力。長短期記憶網(wǎng)絡(luò)(LSTM)通過引入遺忘門、輸入門和輸出門機制,有效克服了傳統(tǒng)RNN在處理長期依賴問題時的局限性,顯著緩解了梯度消失和梯度爆炸問題,在涉及時間序列分析的植被覆蓋度反演任務(wù)中表現(xiàn)卓越[16-17]。
為獲取更高精度的克魯倫河地區(qū)高精度植被覆蓋度月度數(shù)據(jù),本數(shù)據(jù)集以2022年8月的實地采樣數(shù)據(jù)為基礎(chǔ),結(jié)合10 m空間分辨率的Sentinel-2遙感影像,通過反演多個光譜指數(shù)指標,采用BiLSTM深度學習模型,構(gòu)建植被覆蓋度反演模型。此模型設(shè)計旨在通過整合遙感影像時間序列中的前后依賴信息,增強對草地生態(tài)動態(tài)的捕捉能力,進而實現(xiàn)對研究區(qū)域植被覆蓋度更為精確與全面的估算。這一數(shù)據(jù)集不僅有助于提升我們對克魯倫河地區(qū)植被覆蓋度的認識,也為該地區(qū)的生態(tài)環(huán)境保護和可持續(xù)發(fā)展提供了重要的科學依據(jù)。
2" 數(shù)據(jù)采集與處理方法
本數(shù)據(jù)集的數(shù)據(jù)生產(chǎn)流程包括三個步驟。首先對實地采樣的照片采用過綠植被指數(shù)(EGI,Excess Green Index)方法精準提取照片內(nèi)的植被信息;隨后,對已獲取的遙感圖像數(shù)據(jù)實施預(yù)處理操作,據(jù)此計算并構(gòu)建特征數(shù)據(jù)集;最后將已構(gòu)建的實地采樣數(shù)據(jù)集和光譜特征數(shù)據(jù)集整合并劃分訓練集和測試集(圖1)。在此基礎(chǔ)上,本數(shù)據(jù)集訓練了四種先進的機器學習模型:BiLSTM、LSTM、MLP以及RFR,并系統(tǒng)性地對這些模型的性能進行了綜合評價。最終選定BiLSTM模型用于生成克魯倫河流域2022年月度FVC數(shù)據(jù)集。
數(shù)據(jù)采集工作于2022年8月中下旬在克魯倫河流域(經(jīng)緯度范圍:107°25′—117°24′E,46°2′—49°40′N)全面展開。在分析遙感影像和地形圖的基礎(chǔ)上,數(shù)據(jù)樣點采集選取克魯倫河流域周圍20 km以內(nèi)的草地作為觀測樣地,包括不同覆蓋度、不同類型的草地。樣點的確定包括了放牧樣地、非放牧樣地、靠近河流與遠離河流的不同樣地,選擇具有代表性的樣點用手機相機垂直向下拍攝照片,拍攝前首先用繩子在地面圍成1 m×1 m的方框;拍攝時,手機鏡頭距離地面的高度約2 m,而由于人為拍攝的不確定性,論文為每個樣點在不同方向拍攝兩張照片以便后續(xù)篩選處理;拍攝后用奧維互動地圖記錄樣本點的中心經(jīng)緯度,同時記錄照片編號的信息,確保后續(xù)拍攝照片與經(jīng)緯度點位可以相互對應(yīng)。為了保證樣點之間的差異性,每個樣本之間的距離至少為200 m。為選擇質(zhì)量更好的照片數(shù)據(jù)以供后續(xù)研究,論文對比同個樣點的多張照片,選取完全包括繩子所圍成方框且拍攝方位更偏向正上方的照片數(shù)據(jù)作為最終實測數(shù)據(jù)供后續(xù)模型訓練數(shù)據(jù)集的制作以及模型的訓練,篩除拍攝方位較傾斜的照片。最終在整個流域內(nèi),共收集植被采樣樣方大小為1m×1m的樣本點156個,其中101個樣本點位于中國境內(nèi),另外51個樣本點則位于蒙古國境內(nèi)(圖2)。
既往研究表明,基于過綠植被指數(shù)(Excess Green Index EGI=2G-R-B,其中R,G,B分別代表真彩色圖像中的紅,綠,藍色波段)的閾值分割方法在提取RGB真彩色圖像的FVC時展現(xiàn)出良好的性能[13-14]。鑒于此,本文擬采用EGI方法提取圖像植被信息,并據(jù)此計算每個采樣點的FVC。具體過程如下:首先計算圖像中每個像素的EGI指數(shù),隨后,設(shè)定EI臨界初始值,若像素的EGI值超出臨界值,則判定該像素為植被,否則視為非植被;接著,將分類后的圖像同原始圖像進行比較,并根據(jù)對比結(jié)果判定是否需要重復上述步驟,直至分類后圖像中的植被區(qū)域與原始圖像中的植被區(qū)域相吻合(圖3)。
本數(shù)據(jù)集采用的衛(wèi)星數(shù)據(jù)源自歐空局的Sentinel-2
衛(wèi)星星座,該系統(tǒng)由兩顆協(xié)同工作的極軌衛(wèi)星組成,擁有較高的重訪周期和空間分辨率,數(shù)據(jù)集將基于該遙感影像作為數(shù)據(jù)源,并通過谷歌地球引擎(GEE)平臺獲得預(yù)處理后Sentinel-2遙感影像數(shù)據(jù)。此外,基于前人的研究基礎(chǔ),論文還計算了NDVI、EVI、SAVI、RVI、DVI、GVI、LSWI、GNDVI、GRVI、GDVI和NDBI共11個光譜指數(shù)(表1)以反映植被的生長狀況、葉綠素含量、水分條件等多種生態(tài)信息。同時,為了更全面地描述克魯倫河流域的地形特征,論文還引入了Elevation、Slope和Aspect三個地形數(shù)據(jù)作為輔助數(shù)據(jù)。
深度學習模型相較于傳統(tǒng)的機器學習方法可以更好地挖掘數(shù)據(jù)中的高維信息,更有利于擬合有效的不僅繼承了LSTM在處理長距離依賴關(guān)系方面的性能,還顯著增強了對于遙感時序數(shù)據(jù)上下文信息的理解的能力。本數(shù)據(jù)集將采用兩層BiLSTM模型預(yù)測克魯倫河流域的FVC數(shù)據(jù),模型結(jié)構(gòu)如圖4所示。
3" 數(shù)據(jù)內(nèi)容
本數(shù)據(jù)集基于Sentinel-2遙感數(shù)據(jù),利用BiLSTM模型,構(gòu)建空間分辨率為10 m的克魯倫河流域2022年月度植被覆蓋度產(chǎn)品數(shù)據(jù)集。透過分析月度植被覆蓋度數(shù)據(jù)集的反演結(jié)果可知,克魯倫河流域的植被覆蓋度一年之中隨時間推移呈現(xiàn)出顯著的變化規(guī)律。具體而言,2022年6月至9月期間,植被覆蓋度達到較高水平,其中7月和8月尤為突出,成為一年中植被覆蓋度最高的兩個月份。相比之下,其
余8個月份的植被覆蓋度則相對較低。從空間分布來看,位于克魯倫河流域西北部的肯特山脈的植被覆蓋度每個月都處于該月植被覆蓋度最高的區(qū)域,此外,克魯倫河河流沿線的植被覆蓋度也相對較高(圖5、圖6)。
4" 質(zhì)量控制與技術(shù)驗證
本數(shù)據(jù)集將基于156個野外采樣數(shù)據(jù)點訓練并測試模型,隨機采用其中80%的數(shù)據(jù)作為訓練集,20%作為測試集,利用R2和RMSE作為模型評價指標。
具體的驗證公式如下所示:
其中,n表示樣本數(shù)量,表示樣本點的真實值,表示樣本點的預(yù)測值,表示所有樣本點的預(yù)測值的平均值。
與此同時,將BiLSTM,LSTM,MLP以及RFR四個模型進行比較,精度評價如圖7所示。
由圖7可知,BiLSTM,LSTM,MLP以及RFR的R2和RMSE分別為0.716,0.705,0.681,0.656和0.103,0.104,0.105,0.123。上述4個模型中,BiLSTM和LSTM是深度學習模型,RFR和MLP是機器學習模型,由結(jié)果可知深度學習模型平均R2和RMSE相較于機器學習模型RFR和MLP的平均R2和RMSE,分別提升了0.0423和0.0105,由此可見,深度學習模型可以更好地挖掘光譜特征的高維特征,反演出更準確的FVC數(shù)據(jù)。特別地,BiLSTM模型由于引入了雙向LSTM機制,能夠同時從正向和反向兩個維度學習光譜特征的上下文信息,這使得它在性能上相較于LSTM有了進一步的提升。具體來說,BiLSTM的R2相較于LSTM提高了0.011,而RMSE則降低了0.001。
在構(gòu)建數(shù)據(jù)集的過程中,本研究制定了詳細的數(shù)據(jù)采集方案,在克魯倫河流域選擇了具有代表性的采樣點,旨在確保數(shù)據(jù)的多樣性同時分布更廣的流域范圍。采樣過程中,對同一個采樣點進行多次重復采樣拍照,以便后續(xù)進行篩選和校驗,從而確保數(shù)據(jù)的準確性和穩(wěn)定性。與此同時,本論文采用了標準化的數(shù)據(jù)處理流程,以減少人為誤差。所有采集的數(shù)據(jù)均經(jīng)過嚴格的數(shù)據(jù)清洗和預(yù)處理后才輸入模型進行訓練和驗證。之后,論文對數(shù)據(jù)集進行了多種統(tǒng)計分析和驗證。具體來說,我們采用了R2和RMSE等指標對模型的預(yù)測結(jié)果進行評價,以量化數(shù)據(jù)集的質(zhì)量。結(jié)果顯示,BiLSTM模型的R2為0.716,RMSE為0.103,顯著優(yōu)于其他模型。這表明我們的數(shù)據(jù)集在反演FVC數(shù)據(jù)方面具有較高的精度和可靠性。
5" 數(shù)據(jù)價值與使用建議
本數(shù)據(jù)集包含10m空間分辨的克魯倫河FVC空間分布數(shù)據(jù)。與傳統(tǒng)的機器學習反演方法不同,本數(shù)據(jù)集基于深度學習方法,將156個實地采樣數(shù)據(jù)按照8:2的比例劃分成訓練集和驗證集。隨后,利用訓練集對BiLSTM模型進行充分訓練,之后對整個克魯倫河流域FVC進行預(yù)測。
在數(shù)據(jù)內(nèi)容方面,本數(shù)據(jù)集計算了NDVI、EVI、SAVI、RVI、DVI、GVI、LSWI、GNDVI、GRVI、GDVI和NDBI共11個光譜指數(shù)反映植被的生長狀況、葉綠素含量、水分條件等信息,除此之外,還引入了Elevation、Slope和Aspect三個地形數(shù)據(jù)作為輔助數(shù)據(jù)。選擇跨中蒙兩國的克魯倫河流域作為研究區(qū),克魯倫河流域作為重要農(nóng)牧業(yè)地帶,研究流域內(nèi)河流對植被覆蓋度的影響至關(guān)重要,且當前針對該研究區(qū)并沒有關(guān)于FVC空間分布數(shù)據(jù),本數(shù)據(jù)集在內(nèi)容方面填補了一定的空白。
在數(shù)據(jù)質(zhì)量方面,本數(shù)據(jù)集基于深度學習算法,結(jié)合實地采樣數(shù)據(jù)所劃分的訓練集以及遙感數(shù)據(jù)對BiLSTM模型進行訓練,并與經(jīng)典的機器學習模型RF、MLP以及深度學習模型LSTM進行對比分析,結(jié)果表明,本數(shù)據(jù)集所用模型由于引入了雙向LSTM機制,相比其他三個模型R2分別提升了0.06、0.035、011,具有較高的精度以及數(shù)據(jù)質(zhì)量優(yōu)勢。
在數(shù)據(jù)應(yīng)用方面,本數(shù)據(jù)集提供的克魯倫河FVC空間分布數(shù)據(jù)具有10m的高空間分辨率,對研究地表覆蓋和環(huán)境監(jiān)測等領(lǐng)域具有重要意義。植被覆蓋度是環(huán)境監(jiān)測和生態(tài)系統(tǒng)管理中的重要指標之一,本數(shù)據(jù)集可以用來監(jiān)測克魯倫河流域的生態(tài)環(huán)境變化,為環(huán)境保護和可持續(xù)發(fā)展提供科學依據(jù);可以用來估算土壤侵蝕、蒸發(fā)蒸騰和降水入滲等過程,為水資源管理和災(zāi)害風險評估提供數(shù)據(jù)支持;可以用于監(jiān)測農(nóng)牧地植被生長狀況,幫助相關(guān)人員做出正確決策;可以用來研究氣候變化對植被生長的影響,為制定應(yīng)對氣候變化的政策提供科學依據(jù)。
因此數(shù)據(jù)集有利于探索克魯倫河植被覆蓋度具體分布情況,同時為該流域的相關(guān)研究提供參考數(shù)據(jù)。
6" 數(shù)據(jù)可用性
開放訪問,遵從CC BY 4.0協(xié)議。
https://cstr.cn/17058.11.sciencedb.agriculture.00026;
https://doi.org/10.57760/sciencedb.agriculture.00026。
7" 代碼可用性
https://github.com/MrSuperNiu/Kherlen_FVC_BiLSTM。
數(shù)據(jù)作者分工職責
牛博文,數(shù)據(jù)的整理匯總與論文撰寫。
馮權(quán)瀧,總體方案設(shè)計與論文撰寫指導。
張毓,數(shù)據(jù)野外采樣及數(shù)據(jù)整理。
高秉博,數(shù)據(jù)質(zhì)量控制與實驗方案設(shè)計。
SUKHBAATAR Chinzorig,項目管理與監(jiān)管。
馮愛萍,數(shù)據(jù)質(zhì)量控制與實驗方案設(shè)計。
楊建宇,數(shù)據(jù)質(zhì)量控制。
參考文獻
[1]趙文慧,陳妮,閆瑞,等. 近20年來北洛河流域植被覆蓋度隨地形因子變化特征探究.水土保持研究, 2016,23(4): 10-14.
[2]陳妮,李譚寶,張曉萍,等. 北洛河流域植被覆蓋度時空變化的遙感動態(tài)分析.水土保持通報,2013,33(3): 206-210.
[3] 程佳蕊,毛德華,玉山,等. 1980—2020年克魯倫河流域草地的時空變化.水土保持通報,2022,42(3):296-303.
[4] 馮權(quán)瀧,陳泊安,李國慶,等. 遙感影像樣本數(shù)據(jù)集研究綜述. 遙感學報, 2022, 26(4): 589-605.
[5] 馮權(quán)瀧,牛博文,朱德海,等. 土地利用/覆被深度學習遙感分類研究綜述. 農(nóng)業(yè)機械學報, 2022, 53(3): 1-17.
[6] 馮權(quán)瀧,牛博文,朱德海,等." 2019年全國農(nóng)業(yè)塑料大棚遙感分類數(shù)據(jù)集. 中國科學數(shù)據(jù), 2021, 6(4): 153-170.
[7] VERGER A, BARET F, WEISS M. GEOV2/VGT: Near real time estimation of global biophysical variables from VEGETATION-P data[C]//MultiTemp 2013: 7th International Workshop on the Analysis of Multi-temporal Remote Sensing Images, Banff, AB, Canada,. 2013. DOI: 10.1109/Multi-Temp.2013.6866023.
[8] LIANG S, CHENG J, JIA K, et al. The global land surface satellite (GLASS) product suite. Bulletin of the American Meteorological Society. 2021, 102: E323-37. DOI: 10.1175/BAMS- D-18-0341.1.
[9] XIAO J, MOODY A. A comparison of methods for estimating fractional green vegetation cover within a desert-to-upland transition zone in central New Mexico, USA. Remote Sensing of Environment. 2005, 98: 237-250. DOI: 10.1016/j.rse. 2005.07.011.
[10] BRIAN J, TATEISHI R, KOBAYASHI T. Remote sensing of fractional green vegetation cover using spatially-interpolated endmembers. Remote Sensing,2012,4:2619-2634. DOI:10.3390/rs 4092619.
[11] LIU D, YANG L, JIA K, et al. Global fractional vegetation cover estimation algorithm for VIIRS reflectance data based on machine learning methods. Remote Sensing. 2018,10:1648. DOI: 10.3390/rs 10101648.
[12] TU Y, JIA K, LIANG S, et al. Fractional vegetation cover estimation in heterogeneous areas by combining a radiative transfer model and a dynamic vegetation model. International Journal of Digital Earth, 2018,13: 487-503. DOI: 10.1080/17538947. 2018. 1531438.
[13] YU R, LI S, ZHANG B, et al. A deep transfer learning method for estimating fractional vegetation cover of sentinel-2 multispectral images. IEEE Geoscience and Remote Sensing Letters,2021,19: 1-5. DOI: 10.1109/LGRS.2021.3125429.
[14] LIN X, CHEN J, LOU P, et al. Improving the estimation of alpine grassland fractional vegetation cover using optimized algorithms and multi-dimensional features. Plant Methods. 2021,17:1-18. DOI: https://doi.org/10.1186/s13007-021-00796-5.
[15] CHEN J, HUANG R, YANG Y, et al. Multi-scale validation and uncertainty analysis of GEOV3 and MuSyQ FVC products: a case study of an alpine grassland ecosystem. Remote Sensing. 2022: 5800. DOI: 10.3390/rs14225800.
[16] ZHONG G, CHEN J, HUANG R, et al. High spatial resolution fractional vegetation coverage inversion based on UAV and Sentinel-2 data: A case study of Alpine Grassland . Remote Sensing, 2023, 15: 4266. DOI:10.3390/rs15174266.
[17] LIU D, JIA K, XIA M, et al. Fractional vegetation cover estimation algorithm based on recurrent neural network for MODIS 250 m reflectance data. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing. 2021, 14: 6532-6543. DOI: 10.1109/JSTARS.2021.3075624.
引用格式:牛博文,馮權(quán)瀧,張毓,高秉博,SUKHBAATAR Chinzorig,馮愛萍,楊建宇.2022年克魯倫河流域10米分辨率植被覆蓋度月度數(shù)據(jù)集[J].農(nóng)業(yè)大數(shù)據(jù)學報,2025,7(1):59-68. DOI: 10.19788/j.issn.2096-6369.100032.
CITATION: NIU BoWen, FENG QuanLong, ZHANG Yu, GAO BingBo, SUKHBAATAR Chinzorig, FENG AiPing, YANG JianYu. A 10-m Fractional Vegetation Cover Monthly Dataset of the Kherlen River Basin in 2022[J]. Journal of Agricultural Big Data, 2025,7(1): 59-68. DOI: 10.19788/j.issn.2096-6369.100032.
A 10-m Fractional Vegetation Cover Monthly Dataset of the Kherlen River Basin in 2022
NIU BoWen FENG QuanLong ZHANG Yu GAO BingBo SUKHBAATAR Chinzorig FENG AiPing YANG JianYu
1. College of Land Science and Technology, China Agricultural University, Beijing 100093, China; 2. Institute of Geography and Geoecology, Mongolian Academy of Sciences, Ulaanbaatar 15170, Mongolia; 3. Ministry of Ecology and Environment Center for Satellite Application on Ecology and Environment, Beijing 100094, China
Abstract: Precisely obtaining the Fractional Vegetable Cover (FVC) at the river basin scale is of immense importance for delving into the ecological environment, wetland health, and ecological conservation strategies within watersheds. The Kherlen River Basin is an important ecological area across the border between China and Mongolia. It has high biodiversity and is essential for supporting and maintaining the balance of ecosystems in the region. Thus, this dataset focuses on the Kherlen River Basin, leveraging Sentinel-2 multispectral remote sensing imagery with a spatial resolution of 10 m to derive FVC with high precision. The dataset provides vegetable cover data to support the ecological protection of the Kherlen River Basin. In order to overcome the problem, traditional vegetation coverage inversion methods, such as pixel dichotomy, linear regression, and random forest regression models, could be more effective in mining subtle differences between spectral features and finding complex nonlinear relationships between high-dimensional features. To estimate the vegetation coverage more accurately in the watershed, this paper compares the performance of four models: the Bidirectional Long Short-Term Memory (BiLSTM) model based on deep learning, Random Forest Regression, Multilayer Perceptron, and LSTM, to determine the optimal data processing method. The feature data used are based on Sentinel-2 multispectral data, integrating spectral indices and elevation data. The vegetation-related information reflected includes chlorophyll content, moisture status, and topography. This feature dataset is further divided into training and testing sets. The comparison results show that BiLSTM achieved an R2 of 0.716 and an RMSE of 0.103, indicating the best overall performance. This model generated a monthly vegetation coverage dataset for the Kherlen River Basin in 2022, comprising vegetation coverage inversion results for 12 months. All data have undergone operations such as mosaicking and mask extraction. This dataset can assess the vegetation growth status and ecosystem health of the Kherlen River Basin and support ecological protection research in related watersheds.
Keywords: Kherlen River Basin; machine learning; deep learning; BiLSTM ; fractional vegetable cover