







關鍵詞:長時序特征; 多源遙感數據; 隨機森林; 卷積神經網絡; 森林冠層高度反演
中圖分類號:S718. 5 文獻標識碼:A DOI:10. 7525/j. issn. 1006-8023. 2024. 06. 001
0引言
森林冠層高度指樹冠高度最高處即冠層頂端到地面之間的距離,可用來評估植被生長狀況[1]。森林冠層高度不僅是估測整個森林生態系統碳匯能力的基礎,也是研究森林生物生產力、碳循環以及全球變化的基礎[2]。然而,由于估測方法和技術手段存在一定問題,使得多時空、大尺度森林冠層高度的估測存在巨大挑戰。因此,為更準確、有效地估測森林的碳匯能力,采用先進的技術方法精確反演森林冠層高度,對分析森林植被碳匯、陸地生態系統碳循環和全球碳循環等具有重大意義[3]。傳統森林冠層高度測量以野外實地調查為主,精度雖然高,但消耗較大人力及財力,且數據獲取范圍有限。隨著主被動遙感對地觀測技術的發展,能獲取代表性極強的相關數據,實現大范圍重復觀測,使得區域和全球尺度的森林冠層高度診斷成為可能[4]。
光學遙感數據可以提供森林范圍的水平方向分布信息,常用于估算大范圍森林冠層高度研究。如Mao等[5]利用光學遙感數據與機載雷達數據結合探究了不同驅動因子對森林冠層高度反演的影響。目前常結合光學遙感數據與機器學習方法(Machine Learning,ML)建立區域森林冠層高度與各特征因子之間的多維模型,實現森林冠層高度的大范圍制圖[6]。如Zhao等[7]基于ML探究了機載雷達數據與光學遙感數據所建立特征因子之間的關系,并研究了兩者對森林冠層高度的進一步影響。謝開翼等[8]基于哨兵1號、Landsat8探索了雷達及光學數據對森林冠層高度反演的影響。此類研究大都以光學與雷達數據作為出發點探索兩者所構建的特征因子對森林冠層高度反演的影響。然而由于機載雷達數據獲取困難,難以適用于市級范圍以上地區,目前的反演研究很少考慮地形因素(高程、坡度、坡向)與多源光學遙感數據結合對森林冠層高度的影響。此外,目前基于森林冠層高度反演的研究往往采用單一年份的影像構建初始數據集,忽視了長時間序列下特征因子之間的變化對森林冠層高度反演的影響。
針對上述問題,以浙江省麗水市1994、2004、2014、2022年的森林清查數據作為實測數據,并基于Landsat4、Landsat5、Landsat7、Landsat8、Landsat9數據,融合地形因子構建了長時間序列的30個特征變量,結合ML中的隨機森林(random forest,RF)、支持向量機(support vector machine,SVM)、極致梯度上升法(XGBoost)及卷積神經網絡(convolutionalneural network,CNN)探究了ML方法、地形因素與長時間序列數據對森林冠層高度反演的影響。
1研究區及數據獲取
1. 1研究區概況
麗水市(27°25′~28°57′N,118°41′~120°26′E)位于浙江省西南部,是浙江省面積最大、人口最少的地級市,也是我國南方重要的林區,如圖1(a)所示。圖1(a)影像來自于91谷歌衛星圖下載的高分辨率影像,等級為13級,分辨率為16 m×16 m。麗水市境內山地丘陵占地面積的95%,森林覆蓋率達80. 4%,是全國重要的生態屏障和水源涵養地。麗水市的森林資源十分豐富,被譽為“浙江綠谷”,有國家級自然保護區5個,省級自然保護區11個,國家級森林公園6個,省級森林公園10個。除此之外,麗水生態環境狀況指數連續18 a位居浙江省首位。麗水市氣候為中亞熱帶季風氣候,四季分明,溫暖濕潤,雨量充沛,無霜期長,年平均氣溫為18. 3~11. 5 ℃,平均年日照1712~1825h。麗水市位于浙閩隆起區組成部分,山脈屬武夷山系,主要有仙霞嶺、洞宮山、括蒼山,呈西南方向往東北方的走向,分別延伸西北部、西南部和東北部。
1. 2長時序數據
1. 2. 1森林清查數據
本研究的地面實測數據均來自浙江省森林資源野外清查,浙江省森林資源連續清查始于1979年,采用系統抽樣方法布設地面樣地,如圖1(b)所示。在南北間隔4 km、東西間隔6 km的公里網格交叉處機械布設固定樣地,樣地面積為0. 08 hm2(28. 28 m×28. 28 m)。主要樣地調查因子包括樣木的樹種、胸徑、樹高、年齡和土壤類型等。以浙江省麗水市1994、2004、2014、2022年森林資源連續清查數據作為實測樹高樣本,去除無效樣本后,總計1 496個樣本,在這些樣本中,樹高均值為4. 89 m,標準差為4. 33 m,樹高最大值18. 6 m,最小值為1. 2 m。
1. 2. 2Landsat系列數據
所有數據來源見表1。Landsat影像數據均來自于USGS(https://earthexplorer. usgs. gov/)遙感數據庫,基于此數據庫的Landsat Collection 2 Level-2數據集獲取麗水市1994、2004、2014、2022 年遙感影像,其中,1994、2004年使用的是USGS Landsat 4-5 TM C2 L2數據集,2014年使用的是USGS Landsat 7 ETM+C2 L2數據集,2022年使用的是USGS Landsat 8-9 OLI/TIRSC2 L2數據集,空間分辨率均為30 m,并在Python語言下進行裁剪、拼接及植被因子的計算。通過地理空間數據云(www. gscloud. cn)獲取麗水市數字高程模型(digital elevation model,DEM)30 m分辨率的ASTER數據。通過中國科學院環境科學與數據中心(https://www. resdc. cn/)獲取麗水市矢量(Shapefile)數據。通過Python構建的RF分類模型對麗水市遙感圖像進行二分類操作得到麗水市森林類型數據。
2研究方法
基于長時序多源遙感數據的森林冠層高度反演研究方法,如圖2所示,總共分為3步。首先利用Landsat系列遙感影像、DEM及其他輔助數據分別構建1994、2004、2014、2022年對應的歸一化植被指數(normalized difference vegetation index,NDVI)、溫度植被干旱指數(Temperature" vegetation dryness index,TVDI)、短波紅外1( BandS1)及短波紅外2(BandS2)等30個遙感特征因子;結合野外實測森林冠層高度數據(1994、2004、2014年)構建RF模型進行特征優選,選定前15個重要特征;隨即利用重要特征構建回歸模型評定ML模型精度;最后利用精度最高的模型預測2022年的堆疊而來的特征圖生成麗水市的森林冠層高度分布圖。
2. 1特征因子建立
Landsat系列數據的原始波段是地物識別的基礎,而植被指數、水體指數、干旱指數及地形因素[9-12]能夠反映森林組成及其冠層高度在空間分布上的變化。本研究選取表2中的30個特征因子并利用Python語言編寫波段組合程序,基于相應的遙感影像分別計算了1994、2004、2014、2022年與野外實測數據相對應的特征。表2中,NIR、RED、BLUE分別表示近紅外、藍與紅波段本身;ρNIR表示NIR的反射反射率;ρGREEN表示GREEN的反射率;ρ800表示800 nm波長下的反射率,ρ500、ρ670、ρ550同理;BAND1—BAND9分別對應Landsat 8與Sentinel-2數據下的波段1—9;GREEN(ave)表示在綠波段下的平均反射率,RED(ave)同理。
2. 2森林冠層高度反演模型
為探討不同ML回歸算法在森林冠層高度反演下的精度表現,選取更適用于森林冠層高度反演研究的ML 算法。本研究基于Python,將上述的70%的樣本作為訓練集,30%的樣本作為測試集,分別構建了RF、SVM、XGBoost及CNN,并用測試集上的所產生的精度指標對模型精度進行驗證,實現對不同ML回歸算法在森林冠層高度反演研究中的測試。
2. 2. 1 RFRF
通過構建多個決策樹組成的森林來進行回歸預測,每個決策樹都是在隨機選擇的數據子集和特征子集上訓練得到的,這種隨機性有助于減少過擬合并提高模型的泛化能力[13]。其最終的預測結果是所有決策樹的預測值的平均或加權平均。RF能夠有效處理高維數據和大量特征,同時具有良好的魯棒性和靈活性,在實踐中被廣泛應用于回歸問題的解決。
決策樹的數量(ntree)、隨機特征的數量(mtry)和隨機種子數值(mseed)是隨機森林算法涉及到的3個關鍵參數。本研究中,ntree、mtry和mseed是通過反復優化確定的。定義最大迭代隨機種子數值,默認為3,等于分別設置mseed為1、2、3,運行3次,并保留模型精度最高的種子作為最終結果。
2. 2. 2支持向量機(support vector machine,SVM)
SVM的核心思想是找到一個超平面,使得數據點與該超平面的距離盡可能小,并且滿足一定的間隔要求[14]。SVM回歸通過最小化訓練數據點與超平面之間的誤差來學習模型參數,同時也考慮到間隔的大小以及正則化項。與傳統線性回歸相比,SVM回歸對異常值更加魯棒,能夠處理非線性關系并且不容易過擬合。通過選擇合適的核函數,SVM還可以處理高維數據和復雜的特征空間,使其在實踐中得到廣泛應用。
核函數、違約成本是SVM涉及到的2個關鍵參數。核函數用于訓練和預測,該函數計算2個向量參數之間的特征空間中的內積。違約成本是拉格朗日公式中正則項的常數。本研究中,核函數選擇為rbfdot。違約成本值設定為10。
2. 2. 3極端梯度增強(extreme gradient boosting,XGBoost)
XGBoost通過在每一輪迭代中訓練新的決策樹來逐步改善模型的預測性能。在每一輪中,XGBoost根據之前樹的預測誤差來調整目標函數,使得新的樹能夠更好地擬合殘差[15]。通過引入正則化項和剪枝等技術,XGBoost能夠有效地控制模型的復雜度,防止過擬合。此外,XGBoost還支持并行計算和特征重要性評估。
學習率控制每個基礎學習器的權重,通常設置為一個較小的值,本研究設置為0. 1以避免模型在訓練過程中的過擬合。損失函數下降閾值(gamma)則用于控制模型復雜度,較大的gamma值會使模型更加保守,不易進行過多的分裂,本研究gamma=100。
2. 2. 4 卷積神經網絡(convolutional neural network,CNN)
CNN是一種用于回歸問題的深度學習模型。通過一系列卷積層、池化層和全連接層來學習輸入數據中的特征并進行回歸預測[16]。CNN模型利用卷積操作來提取輸入數據的空間特征,并通過池化操作減少特征維度,從而有效地處理圖像、時間序列等高維數據[17]。在訓練過程中,CNN通過反向傳播算法來調整網絡參數,使得模型能夠準確地學習輸入數據的特征與目標值之間的關系[18]。由于CNN 能夠自動學習特征,無須手工設計特征提取器,因此在各種回歸任務中表現出色,但目前應用于回歸任務的研究較少。本研究基于殘差結構構建了ResNet18回歸模型,如圖3所示。圖中Conv代表卷積操作,后接的數字是卷積核的大小。
3結果及其分析
3. 1特征優選
森林冠層高度的建模會受冗余特征變量的影響而降低精度,故本研究根據均方差百分比增量(PercentIncMSE)和節點純度增量(IncNodePurity)2個測度對30個特征進行重要性排序以剔除不重要變量,如圖4所示。PercentIncMSE定義為當從決策樹中排除給定變量后準確性的降低的幅度。Inc‐NodePurity則衡量了參考變量的裂解而導致的節點無效量的減少。PercentIncMSE 和IncNodePurity 值與對應變量成正比關系,值越高,變量就越重要[20]。基于這2個指標的排名,本研究最終選定了15個變量,分別是BandGreen、BandS2、BandRed、NIR、GDVI、MSR、DVI、GARI、GNVDI、GCI、TVDI、NDVI、RGRI、BandS1及IPVI作為后續建模的特征因子。
3. 2模型回歸
基于不同數據源組成,本研究測試所用模型在回歸下的精度指標見表3。表3中單一年份下的R2與RMSE 是由所有模型單獨在1994、2004、2014年數據下驗證的均值。表3表明在單一年份數據源組成下,RF(R2=0. 72,RMSE=1. 73)和XGBoost模型(R2=0. 71,RMSE=1. 95)在森林冠層高度反演上表現較好,而SVM(R2=0. 64,RMSE=2. 03)和ResNet18(R2=0. 32,RMSE=5. 98)的性能稍遜。在2a和3a的數據源組成下,4個模型的性能普遍有所提升,其中RF(R2=0. 75,RMSE=1. 65)和XGBoost(R2=0. 74,RMSE=1. 89)模型仍然表現較好。RF和XGBoost在大多數情況下表現較好,尤其是在較長的時間跨度下。SVM的性能略遜于RF和XGBoost。CNN在單一年份數據源組成下表現最差,但在2 a和3 a的數據源組成下有所提升,盡管仍然低于其他模型。
此外,表3表明隨著數據源組成的增加,模型性能普遍有所提升,這顯示使用長時序的歷史數據可以改善模型回歸預測性能。表3還顯示CNN的回歸性能受到數據源組成的影響較大,在3 a數據組成下,R2與RMSE上升及下降達到了最高,經計算,分別是0. 39與4. 15,這表明可能需要更多的數據來發揮CNN在森林冠層高度反演下的潛力。
總的來說,綜合考慮RF和XGBoost模型在不同數據源組成下的性能表現,可以得出他們是較為可靠的選擇,而在長時序數據下,CNN則是一個具有潛力的方法。
3. 3麗水市森林冠層高度制圖
利用4個模型中精度最高的RF預測2022年堆疊而來的特征圖生成麗水市的初始森林冠層高度分布圖,再疊加森林類型,將非林地的值去除得到最終的麗水市森林冠層高度分布,如圖5所示。
結合2022年野外實測的樹高并與RF 預測的30m的森林冠層高度圖評定了RF制圖精度,如圖6所示。圖6顯示RF的制圖精度R2達到了0. 76,大多數預測點在實測值附近,表明RF的預測性能與實際具有良好的一致性。但RF也存在高估冠層高度與低估冠層高度現象,這在冠層高度的低谷與高峰尤為顯著,而越靠近于數據中部的冠層高度預測值越接近實測值。
4討論與結論
4. 1討論
Zhu等[21]利用機載激光雷達、SRTM地形數據及Landsat9系列衛星聯合RF建立森林冠層高度的反演研究,揭示地形因素在基于多源遙感數據的冠層高度反演中呈“重要性”,在所建立的特征排序中為第9,然而這只聯合星載的光學遙感與地形數據,所構建的遙感特征因子較少,未考慮到星載雷達對森林冠層高度反演的影響。本研究聯合星載雷達、光學遙感及地形特征的冠層高度反演結果表明所有關于地形因素的特征排序在所構建的30個特征因子中均在15之后,在森林冠層高度的反演中呈“不重要性”,而在前15的特征因子中大都是與紅波段與綠波段相關,這大概是因為綠波段與紅波段通常對葉綠素含量和植物健康狀況敏感,因為葉綠素主要吸收藍光和紅光[22-24]。因此,紅綠波段的反射率可以提供關于植被生長狀態和結構的信息,這強烈與森林冠層高度相關。地形雖會在一定程度上影響遙感影像的獲取和解讀,例如在山區,坡度和坡向可能導致影像的幾何畸變和輻射畸變,但在進行冠層高度反演時,可以通過一系列預處理步驟(如正射校正、地形校正等)來減小或消除這些影響[25]。此外,與光譜信息相比,地形因素對冠層高度的直接影響相對較小,因此在反演過程中呈“ 不重要性”。
此外,表3表明,CNN方法在回歸算法中雖低于傳統ML方法,然而仍然具有潛力。隨著長時間序列的數據加入,CNN的預測精度呈大幅上升,這揭示了CNN方法的精度可能與數據集數量高度相關,原因大概是與CNN模型的復雜性相關,在數據量較少的情況下,CNN能會過度擬合訓練數據,導致在測試數據上表現不佳[26]。隨著數據量的增加,因為模型有更多的樣本來學習數據的真實分布。模型可以有更多的數據來訓練和調整其參數,從而更好地適應數據的復雜性,有助于模型在處理新數據時做出更準確的預測,過擬合的風險大大降低。
4. 2結論
本研究通過多源遙感數據構建了30個長時序的特征因子,探索了地形因素、植被指數及長時序特征對森林冠層高度反演的影響,另外還研究了不同ML 回歸算法在森林冠層高度反演中的性能表現。結果表明地形因素在森林冠層高度反演中呈“不重要性”,而與紅綠波段相關的植被指數則強相關于森林冠層高度。加入長時序的特征因子能有效提升最終的森林冠層反演精度,相較于單一年份,在3a數據組成下,CNN實現最佳0. 39的R2提升與4. 15的RMSE下降。在所用ML算法中,預測精度從大到小分別為RF、XGBoost、SVM、CNN。值得注意的是,所用ML算法的預測性能隨長時序特征的加入而增加,這一現象在CNN上尤為顯著。