曹 軍,張加龍,肖慶琳,王飛平,韓雪蓮,黃屹杰
(西南林業(yè)大學(xué)林學(xué)院,云南 昆明 650233)
森林是陸地生態(tài)系統(tǒng)的重要組成部分,碳儲(chǔ)量對(duì)森林的固碳能力有重要影響[1-2]。隨著全球氣候變暖,森林生態(tài)系統(tǒng)對(duì)氣候的影響成為了焦點(diǎn),森林地上碳儲(chǔ)量的相關(guān)研究不斷擴(kuò)展,廣度和深度逐漸提高[3-4]。無論是在區(qū)域小尺度還是大尺度上,估測(cè)過程中都有著極大的不確定性。因此,如何減少這些不確定性,提高碳儲(chǔ)量的估測(cè)精度成了研究的重點(diǎn)。
不確定性作為自然界中普遍存在的一種現(xiàn)象,包括不準(zhǔn)確、模糊、不明確等。而碳儲(chǔ)量計(jì)算過程中主要涉及3 種不確定性:模型不確定性、測(cè)量不確定性、抽樣不確定性[5-7]。Shettles 等[8]將模型不確定性作為最大的誤差源,約占總不確定性的70%。模型的不確定性來源主要包括變量的不確定性、殘差變異、參數(shù)誤差等。Michie 等[9]估算生物量時(shí)計(jì)算了異速生長(zhǎng)模型引起的誤差。產(chǎn)生誤差的主要原因是缺乏模型驗(yàn)證數(shù)據(jù)、樣本數(shù)量不足、樹種與特定異速生長(zhǎng)模型不匹配。測(cè)量不確定性主要受測(cè)量條件、技術(shù)、設(shè)備和人為因素的影響[10-11]。抽樣不確定性主要受樣地大小、樣本量、抽樣方法和自然條件的影響。秦立厚[10]研究分析了浙江省森林生物量估算中模型的不確定性。傅煜[11]采用系統(tǒng)抽樣的方法估測(cè)了江西省杉木生物量,通過蒙特卡洛法反復(fù)模擬單木生物量模型的過程,估測(cè)出江西省杉木地上總生物量及不確定性。因此,如何計(jì)算這些不確定性以提高森林碳儲(chǔ)量估測(cè)的精度成為主要挑戰(zhàn)。
傳統(tǒng)上,森林資源調(diào)查數(shù)據(jù)是通過實(shí)地調(diào)查獲得,耗時(shí)費(fèi)力,并且調(diào)查結(jié)果存在很大誤差。遙感技術(shù)具有快速、準(zhǔn)確、對(duì)森林無損的優(yōu)點(diǎn),能夠?qū)ι诌M(jìn)行連續(xù)的宏觀監(jiān)測(cè)[12]。目前在碳儲(chǔ)量估測(cè)的研究中,Landsat8-OLI 數(shù)據(jù)具有覆蓋范圍廣、分辨率適中、免費(fèi)下載等優(yōu)點(diǎn)[13]。遙感數(shù)據(jù)能夠?qū)涔诘墓庾V反射率進(jìn)行記錄,可用于研究森林中植被的光合吸收,這與研究碳儲(chǔ)量存在相關(guān)性。張加龍[14]等使用Landsat8-OLI 影像結(jié)合梯度提升決策樹模型估測(cè)出香格里拉高山松的地上生物量。采用遙感數(shù)據(jù)估測(cè)碳儲(chǔ)量,仍然存在因子選取、建模方法、數(shù)據(jù)飽和等不確定性問題[14-15]。由于光譜影像的空間結(jié)構(gòu)和紋理信息存在一定的局限性,在遙感影像分析中無法消除同物異譜、同譜異物的現(xiàn)象。僅基于光譜信息估測(cè)森林碳儲(chǔ)量具有極高的不確定性。紋理特征考慮像素之間的空間關(guān)系,可以表示圖像中的灰度變化,提高空間信息的識(shí)別程度[16]。研究結(jié)果表明,添加紋理特征可以有效提高模型的精度,因此考慮紋理特征對(duì)研究模型不確定性的影響具有實(shí)際意義[17]。本研究將傳統(tǒng)的模型分析方法和蒙特卡洛模擬方法相結(jié)合,使用隨機(jī)森林進(jìn)行建模預(yù)測(cè),用蒙特卡洛進(jìn)行不確定性計(jì)算,反復(fù)采用隨機(jī)森林聯(lián)立蒙特卡洛(Random forest-Monte Carlo,RF-MC)對(duì)模型進(jìn)行估測(cè)及不確定性計(jì)算,直至模型精度及不確定性趨于穩(wěn)定達(dá)到最優(yōu);計(jì)算區(qū)域尺度的碳儲(chǔ)量,并為不確定性提供穩(wěn)定可靠的測(cè)定,將不確定性分為變量誤差和模型誤差引起的不確定性;結(jié)合蒙特卡洛和模型分析的雙重優(yōu)點(diǎn),減少模型誤差對(duì)碳儲(chǔ)量估算的不確定性;為確定估測(cè)結(jié)果精度是否滿足要求,采用相對(duì)均方根誤差(rRMSE)用于量化和分析不確定性。
本研究以高山松為研究對(duì)象,采用Landsat8-OLI 影像、DEM 和樣地?cái)?shù)據(jù)。基于Landsat8-OLI影像提取單波段因子、比值植被指數(shù)、紋理因子、信息增強(qiáng)因子、地形因子、植被生長(zhǎng)因子等變量。使用隨機(jī)森林算法建立高山松地上碳儲(chǔ)量估測(cè)模型,結(jié)合蒙特卡洛模擬分析不同變量組合對(duì)碳儲(chǔ)量估測(cè)及不確定性的影響。
研究區(qū)位于云南省迪慶州香格里拉市,99°20′~100°19′ E、26°52′~28°52′ N,總面積為11 613 km2。地形起伏大,海拔高差達(dá)到4 042 m,森林覆蓋率達(dá)74.99%,森林資源豐富。主要優(yōu)勢(shì)樹種為云杉(Picea asperataMast.) 、云南松(Pinus yunnanensisFranch.) 、高山松(Pinus densataMast.) 、高山櫟(Quercus semicarpifoliaSmith.)等[18]。高山松是香格里拉市的優(yōu)勢(shì)樹種之一,占全市面積的16.18%。純林主要分布在2 600~3 500 m海拔的向陽(yáng)山坡和河流兩岸。
1.2.1 遙感影像 使用USGS 下載的Landsat8-OLI 影像數(shù)據(jù),選取3 景2015 年云量較少的影像,具體信息如表1 所示。影像使用ENVI5.3 軟件進(jìn)行預(yù)處理。通過輻射定標(biāo)、大氣校正,消除地形和氣溶膠對(duì)地物反射的影響。最后使用坡度匹配法進(jìn)行地形校正,兩次校正后,北坡和南坡的地形陰影平均值接近,陰坡部分的反射率得到陽(yáng)坡部分反射率的值補(bǔ)償。
表1 研究區(qū)影像Table 1 Images of the study area
1.2.2 樣地調(diào)查數(shù)據(jù) 研究區(qū)共60 個(gè)樣地,樣地調(diào)查時(shí)間為2015 年11 月至2016 年3 月。樣地大小為30 m × 30 m,每塊樣地間隔3 km 以上。詳細(xì)記錄了森林樹種、胸徑(DBH)、樹高、樣地中心坐標(biāo)、海拔、坡度、坡位等屬性[19]。使用二元材積表計(jì)算每個(gè)樣地中林木的蓄積量。
1.2.3 高山松樣地地上碳儲(chǔ)量計(jì)算 (1)高山松單株生物量模型[20]如下:
其中,W為單株生物量,D為胸徑,H為樹高。
(2)高山松的碳儲(chǔ)量計(jì)算公式為:
Ct為高山松碳儲(chǔ)量,fc為含碳系數(shù),含碳系數(shù)0.513 1[21]。外業(yè)調(diào)查數(shù)據(jù)見表2。
表2 外業(yè)調(diào)查數(shù)據(jù)Table 2 Field survey data
以碳儲(chǔ)量為因變量,遙感影像因子為自變量。根據(jù)各變量與碳儲(chǔ)量的相關(guān)性選擇最優(yōu)因子,構(gòu)建基于遙感特征因子的碳儲(chǔ)量估測(cè)模型。為研究紋理特征對(duì)碳儲(chǔ)量估測(cè)的影響,設(shè)置像元大小為5 ×5、9 × 9 的窗口,以提高模型的性能[18,22]。
為了提高模型的精度,本研究提取的遙感因子主要包括7 個(gè)單波段因子、5 個(gè)植被指數(shù)、8 個(gè)波段組合因子、3 個(gè)信息增強(qiáng)因子、9 個(gè)紋理因子、3 個(gè)地形因子、1 個(gè)植被生長(zhǎng)因子。具體變量信息如表3 所示。
表3 變量信息Table 3 Variable information
隨機(jī)森林(RF)是一種基于決策樹的機(jī)器學(xué)習(xí)方法,其特點(diǎn)是采用帶替換的隨機(jī)抽樣方法從樣本數(shù)據(jù)中提取一組n個(gè)數(shù)據(jù)作為訓(xùn)練集,根據(jù)這些數(shù)據(jù)構(gòu)建分類回歸樹。RF 是目前最有效的非參數(shù)回歸模型之一。與參數(shù)回歸方法相比,該算法不需要檢驗(yàn)變量的正態(tài)性和獨(dú)立性等假設(shè)。在一定程度上可以避免過擬合現(xiàn)象的出現(xiàn),對(duì)異常值的處理效果較好,可處理高維度數(shù)據(jù)[23]。能夠評(píng)估各個(gè)特征在模型中的重要性。節(jié)點(diǎn)的分裂屬性通常用基尼系數(shù)(Gini)或信息熵來評(píng)估,基尼系數(shù)可用于計(jì)算RF 回歸中每個(gè)模型特征因子的重要性。將變量重要性評(píng)分用V來表示,假設(shè)有m個(gè)特征x1,x2,x3, ···,xc,現(xiàn)在要計(jì)算出每個(gè)特征xj的Gini指數(shù)評(píng)分VjGini,亦即第j個(gè)特征在RF 所有決策樹中節(jié)點(diǎn)分裂不純度的平均改變量。計(jì)算公式為:
其中k為類別數(shù),Pmk是k在m個(gè)節(jié)點(diǎn)中的占比。
特征xj在節(jié)點(diǎn)m的重要性,即節(jié)點(diǎn)m分支前后的Gini指數(shù)變化量如下:
GiniL和GiniR分別表示第m個(gè)節(jié)點(diǎn)前后的Gini指數(shù)。每個(gè)特征的重要性可以通過對(duì)所有特征的基尼指數(shù)進(jìn)行歸一化來獲得。
蒙特卡洛模擬(MC)的基本思想是反復(fù)模擬一個(gè)隨機(jī)事件的發(fā)生,并根據(jù)隨機(jī)事件發(fā)生的頻率估計(jì)其概率特征。由于區(qū)域尺度碳儲(chǔ)量估測(cè)模型中的不確定性來源復(fù)雜且難以測(cè)量,因此MC 方法在解決這個(gè)問題方面具有顯著優(yōu)勢(shì)。反復(fù)模擬碳儲(chǔ)量模型的建立和估測(cè),得到碳儲(chǔ)量估測(cè)值和誤差的概率分布[24-25]。碳儲(chǔ)量估測(cè)值的誤差用均方根誤差(RMSE)和相對(duì)均方根誤差(rRMSE)表示。具體方法如下:
式(5)中,n為樣地?cái)?shù)。
(4)重復(fù)第2 步和第3 步,直到Var()趨于穩(wěn)定,并且在m次模擬后,計(jì)算每個(gè)樣地的碳儲(chǔ)量均值μ、均方根誤差RMSE和相對(duì)均方根誤差rRMSE;計(jì)算公式為:
由于波段反射率、植被指數(shù)、樣地?cái)?shù)據(jù)與碳儲(chǔ)量之間具有較高的相關(guān)性,因此根據(jù)各樣地碳儲(chǔ)量的差異,選取Stock volume、B53、B73、VFC、ND53 進(jìn)行相關(guān)性分析。所選特征因子之間的相關(guān)性如圖1 所示。右上角的圖為成對(duì)特征散點(diǎn)圖,沿對(duì)角線分布的為密度直方圖,左下角為成對(duì)特征的核密度圖。密度直方圖顯示了碳儲(chǔ)量和蓄積量之間的正相關(guān)關(guān)系,核密度圖和散點(diǎn)圖顯示出碳儲(chǔ)量與蓄積量的相關(guān)性較強(qiáng),因此把蓄積量作為建模因子。根據(jù)貝葉斯相關(guān)矩陣圖可以看出5 個(gè)特征因子與碳儲(chǔ)量的相關(guān)性較強(qiáng),表明波段反射率、植被指數(shù)、樣地?cái)?shù)據(jù)與碳儲(chǔ)量的相關(guān)性較強(qiáng),所以選取Stock volume、B53、B73、VFC、ND53 等5 個(gè)因子構(gòu)建碳儲(chǔ)量模型。
圖1 各特征因子的貝葉斯相關(guān)矩陣示意圖Fig. 1 Schematic diagram of Bayesian correlation matrix of each characteristic factor
計(jì)算所選多光譜特征的各種屬性,包括單波段光譜數(shù)據(jù)的均值、變異系數(shù)、標(biāo)準(zhǔn)差、方差、植被指數(shù)、波段比值、DEM 數(shù)據(jù)、樣地?cái)?shù)據(jù)和基于GLCM 的紋理特征。通過RFE 去除具有高相關(guān)性的變量后[26],共保留了17 個(gè)自變量。模型精度不一定會(huì)隨著自變量數(shù)量的增加而增加,建模中包含過多的變量因素反而會(huì)增加模型的復(fù)雜度;因此,應(yīng)剔除對(duì)模型精度沒有顯著貢獻(xiàn)或降低模型精度的某些變量。只選擇有代表性的變量進(jìn)行建模。當(dāng)使用10 個(gè)因子建模(VFC、蓄積量、B53、B73、ND53、坡向、R9B4CR、R9B5VA、R5B3SM、R5B3SK)時(shí),模型達(dá)到最佳精度(RMSE=5.539 t·hm-2,MAE=4.319 t·hm-2)。所有潛在變量的個(gè)數(shù)與模型精度的關(guān)系如圖2 所示。
圖2 變量個(gè)數(shù)與模型精度關(guān)系Fig. 2 Relationship between the number of variables and the accuracy of the model
本研究中的模型是使用RF 方法構(gòu)建的。為量化不同類型變量對(duì)模型的擬合度和不確定性的影響,選取10 個(gè)自變量,根據(jù)屬性類型組合成4 種不同的方案。模型1 選擇VFC、蓄積量、B53、B73、ND53 進(jìn)行建模;模型2 選擇坡向、VFC、蓄積量、B53、B73、ND53 進(jìn)行建模;模型3 選擇VFC、蓄積量、B53、B73、ND53、R9B4CR、R9B5VA、R5B3SM、R5B3SK 進(jìn)行建模;模型4 選擇坡向、VFC、蓄積量、B53、B73、ND53、R9B4CR、R9B5VA、R5B3SM、R5B3SK 進(jìn)行建模。最后,用MC 來計(jì)算每個(gè)模型的不確定性。結(jié)果如表4 所示。
表4 不同回歸模型精度對(duì)比Table 4 Comparison of accuracy of different regression models
結(jié)果顯示,基于光譜和樣地?cái)?shù)據(jù)的RF-MC 模型精度最低,R2為0.549,RMSE為11.289 t·hm-2,MAE為8.552 t·hm-2。分別引入DEM 和紋理特征后,模型精度有所提高。其中引入紋理特征的模型精度提高較大,說明紋理特征可以有效提升模型精度。同時(shí)引入DEM 和紋理特征的RFMC 模型精度最優(yōu),R2為0.892,RMSE為5.539 t·hm-2,MAE為4.319 t·hm-2。該模型比其他相關(guān)研究的擬合程度高,如溫小榮等人對(duì)建德市杉木生物量的估測(cè)R2僅為0.8[27]。
由表4 可知,模型的不確定性隨R2的增大而降低,模型的殘差變異會(huì)影響預(yù)測(cè)結(jié)果,從而影響預(yù)測(cè)值的方差。因此殘差值的增大會(huì)導(dǎo)致模型R2降低,模型的預(yù)測(cè)結(jié)果受到限制,不確定性隨之增加。4 種模型的不確定性隨著DEM 和紋理特征的引入逐漸降低,rRMSE分別為38.13%,31.97%,23.76%,18.70%。隨著DEM 和紋理信息的同時(shí)引入,原本僅基于光譜和樣地?cái)?shù)據(jù)模型的不確定性減少了19.43%,說明DEM 和紋理特征對(duì)降低高山松地上碳儲(chǔ)量反演模型的不確定性有一定作用。
4 種模型中不同變量的重要性如圖3 所示。
圖3 不同變量的相對(duì)重要性Fig. 3 Relative importance of different variables
Gini 指數(shù)用于計(jì)算RF 回歸中每個(gè)模型特征的重要性。每個(gè)因子對(duì)模型的重要性如圖3 所示,第1、2 種模型中蓄積量占比最多;添加紋理特征后,模型3 和模型4 中紋理因子的貢獻(xiàn)率超過蓄積量,但蓄積量仍然在各模型中占比很大,說明把蓄積量引入作為建模因子有很大的發(fā)展?jié)摿Α<y理特征作為建模貢獻(xiàn)率最高的因子可有效提高模型的精度。
為了量化不同類型變量對(duì)模型精度的影響,本研究將變量組合成4 種模型,分別進(jìn)行建模和預(yù)測(cè)。預(yù)測(cè)結(jié)果的散點(diǎn)圖如圖4 所示。
圖4 不同模型的預(yù)測(cè)結(jié)果散點(diǎn)圖Fig. 4 Prediction results of different models
根據(jù)圖4,模型精度與擬合度呈正相關(guān)。基于光譜和樣地?cái)?shù)據(jù)的RF-MC 模型,模型擬合度R2為0.549,逐步引入DEM 數(shù)據(jù)和GLCM 紋理特征后,R2最終增加到0.892。隨著不同類型變量的引入,R2逐漸增大,模型的不確定性得到有效降低。表明RF-MC 方法在估測(cè)地上碳儲(chǔ)量方面效果顯著,建模因子的選擇對(duì)模型的精度及不確定性有顯著影響。
遙感影像提取的數(shù)據(jù)只能提供森林水平方向的光譜信息。胸徑和樹高兩個(gè)因子反映樹木的垂直結(jié)構(gòu)。這些因子與碳儲(chǔ)量估測(cè)密切相關(guān),減少數(shù)據(jù)飽和問題[28]。Wang[29]使用iPad Pro LiDAR 傳感器成功估算了樹木的DBH。Duan[30]使用機(jī)載LiDAR和DEM 數(shù)據(jù)基于樹冠分割和地形偏差引起的修正方法提取樹高。本研究中,引入蓄積量作為建模因子來提供森林的垂直結(jié)構(gòu)信息,不受數(shù)據(jù)飽和度的影響,貢獻(xiàn)率高(圖3)。因此,采用水平和垂直值相結(jié)合的方式獲取森林結(jié)構(gòu)數(shù)據(jù),以提高植被復(fù)雜地區(qū)的預(yù)測(cè)能力。如Sinha[31]利用光學(xué)和合成孔徑雷達(dá)(SAR)數(shù)據(jù)成功估測(cè)印度熱帶落葉林的碳儲(chǔ)量。
相關(guān)研究表明溫度、二氧化碳濃度和降水對(duì)碳儲(chǔ)量估測(cè)具有復(fù)雜的影響。單獨(dú)升高溫度會(huì)增強(qiáng)植物蒸騰作用,導(dǎo)致光合作用受到抑制和碳儲(chǔ)量減少。上述3 個(gè)因素的綜合作用顯著改善植物的生長(zhǎng)[32-33]。氣候變化通過改變樹木物候和生長(zhǎng)季節(jié)長(zhǎng)度對(duì)樹木的生長(zhǎng)產(chǎn)生影響[34]。氣候因子被認(rèn)為是一個(gè)氣候周期的平均值,在時(shí)間上與碳儲(chǔ)量估測(cè)數(shù)據(jù)不同步。而提高建模精度的關(guān)鍵是解決氣候因子和碳儲(chǔ)量估測(cè)數(shù)據(jù)的同步問題。地形和氣候因素對(duì)植物地上生長(zhǎng)的影響較大,不同地理特征和氣候條件的地區(qū)反演碳儲(chǔ)量需根據(jù)實(shí)際情況適當(dāng)?shù)剡x擇和設(shè)置可變因素和模型參數(shù)。
研究表明,高分辨率數(shù)據(jù)能夠提供豐富的紋理信息,添加紋理信息可有效提高碳儲(chǔ)量預(yù)測(cè)模型的精度[35]。由于高分辨率數(shù)據(jù)并未完全覆蓋研究區(qū),則選擇空間分辨率為30 m 的Landsat8-OLI 遙感影像數(shù)據(jù),該數(shù)據(jù)估測(cè)碳儲(chǔ)量模型擬合度R2=0.892。綜上所述,具有豐富紋理信息的高分辨率數(shù)據(jù)在碳儲(chǔ)量估測(cè)中的應(yīng)用有待進(jìn)一步探索。
研究使用RF-MC 方法的優(yōu)勢(shì)在于,可以對(duì)碳儲(chǔ)量的不確定性進(jìn)行穩(wěn)定估測(cè)[36]。傳統(tǒng)的模型分析方法被引入MC,經(jīng)多次模擬,模型參數(shù)及其協(xié)方差矩陣的可變性逐漸減小[37],降低估測(cè)結(jié)果的殘差水平。隨著模擬次數(shù)增加,碳儲(chǔ)量估測(cè)值的不確定性趨于穩(wěn)定[38]。傅煜的研究結(jié)果表明,蒙特卡洛的不確定性值達(dá)到平穩(wěn)狀態(tài)的運(yùn)算時(shí)間隨建模樣本量的增大而減少[11]。McRoberts[39]在美國(guó)明尼蘇達(dá)州東北部設(shè)立研究區(qū)并采用蒙特卡洛方法分析了模型預(yù)測(cè)單木材積的不確定性,并指出利用模型計(jì)算大面積森林蓄積量引起的不確定性較小。改進(jìn)MC 方法是對(duì)輸入?yún)?shù)進(jìn)行有效抽樣,減少輸入?yún)?shù)組合的數(shù)量,以提高計(jì)算效率,如增大計(jì)算區(qū)域,樣本量增加能提高估測(cè)精度降低不確定性,MC 結(jié)果達(dá)到穩(wěn)定所需要的運(yùn)算時(shí)間逐漸縮短,可以在一定程度上提高工作效率。MC 可以有效降低模型的不確定性,為研究碳儲(chǔ)量和類似應(yīng)用提供了顯著優(yōu)勢(shì)[40]。碳儲(chǔ)量預(yù)測(cè)值在上下端波動(dòng)較大,中間較小,目前的技術(shù)和設(shè)備無法完全消除碳儲(chǔ)量預(yù)測(cè)中的數(shù)據(jù)飽和度問題[41-42]。為降低飽和度對(duì)碳儲(chǔ)量預(yù)測(cè)的影響,可以增加信息量更大的紋理特征、垂直結(jié)構(gòu)信息、氣候因子等不受數(shù)據(jù)飽和度影響的指標(biāo),有助于提高碳儲(chǔ)量估測(cè)的精度,獲得更好的預(yù)測(cè)結(jié)果。
本研究以高山松為研究對(duì)象,采用Landsat8-OLI 遙感影像數(shù)據(jù)、DEM 和樣地?cái)?shù)據(jù),建立不同特征組合的RF 回歸模型,同時(shí)使用MC 方法計(jì)算每個(gè)模型的不確定性。得出以下結(jié)論:①引入地形因子碳儲(chǔ)量估測(cè)模型的精度得到提升,R2提高0.121、RMSE降低1.824 t·hm-2、MAE降低0.854 t·hm-2,不確定性降低6.16%。②紋理特征在原始圖像亮度的基礎(chǔ)上增強(qiáng)了空間信息的識(shí)別程度,可以顯著提高森林地上碳儲(chǔ)量的估測(cè)精度。③合理選擇建模變量可以提高模型的精度,降低模型的不確定性。④RF-MC 方法可以為區(qū)域尺度上的碳儲(chǔ)量估測(cè)及其不確定性分析提供穩(wěn)定可靠的結(jié)果。