王迪趙穎慧
(1.東北林業(yè)大學 林學院, 哈爾濱 150040;2.森林生態(tài)系統(tǒng)可持續(xù)經(jīng)營教育部重點實驗室(東北林業(yè)大學), 哈爾濱 150040)
森林作為陸地生物圈的主體,在改善生態(tài)環(huán)境、維護生態(tài)平衡等方面起著關(guān)鍵作用。天然次生林占我國森林總面積的70%[1],在森林經(jīng)營中占有重要地位[2-3]。在森林調(diào)查中,郁閉度是不可或缺的因子[4]。郁閉度的測定方法,主要有目測法、樹冠投影法、樣線法、樣點法、魚眼照片法和冠層分析法等[5],但上述方法僅能獲取以樣地為單位的抽樣數(shù)據(jù),難以觀測大范圍的郁閉度變化情況。遙感技術(shù)具有宏觀、大面積、多時相和多波段等特點,根據(jù)光學遙感數(shù)據(jù)可對如光譜信息、植被指數(shù)[6]和紋理信息[7]等特征因子進行估算,有效地反映森林植被的覆蓋情況,但在森林郁閉度高的地區(qū),即使森林復(fù)雜度很高,光譜差異還是很小,從而導(dǎo)致光譜信號飽和的現(xiàn)象[8]。
激光雷達(Light Detection and Ranging, LiDAR)所發(fā)射的激光脈沖對樹冠的響應(yīng)不僅和高度有關(guān),還與樹冠郁閉度有關(guān)[9],有效地彌補了光學遙感手段的不足。近年來,有學者使用LiDAR數(shù)據(jù)提取各種特征郁閉度估測,尤號田等[10]使用小光斑LiDAR點云數(shù)據(jù)估測樟子松林郁閉度,提取數(shù)量比值和能量比值變量建立郁閉度反演模型。穆喜云等[11]使用LiDAR點云密度變量與實測郁閉度進行線性回歸。Korhonen等[12]應(yīng)用LiDAR數(shù)據(jù),使用首回波覆蓋度指數(shù)(First echo Cover Index, FCI)、最后一次回波覆蓋度指數(shù)(Last echo Cover Index, LCI)和索爾伯格等提出的 Solberg (Solberg’s Cover Index,SCI)指數(shù)估測垂直郁閉度和角郁閉度。隨著時間的推移,機載激光雷達(Airborne Laser Scanning, ALS)也逐漸用于郁閉度的估算上,Moser等[13]用直角坐標轉(zhuǎn)換為極坐標得到的ALS合成影像計算的郁閉度與從魚眼照片中計算的郁閉度進行回歸,結(jié)果表明使用LiDAR合成影像估測角郁閉度精度高、誤差小。Ma等[14]利用ALS、機載影像和衛(wèi)星影像估測郁閉度,進行精度評價,得出ALS數(shù)據(jù)獲得的郁閉度受算法影響最小的結(jié)論。
學者們應(yīng)用各種模型估測郁閉度,其中參數(shù)模型主要有多元逐步回歸(Multiple Stepwise Regression, MSR)和偏最小二乘回歸(Partial Least Squares Regression, PLSR)[15]等;非參數(shù)模型有隨機森林回歸(Random Forest Regression, RFR)、支持向量回歸(Support Vector Regression, SVR)[16-17]和Cubist[5]模型等。徐定[15]分別使用MSR、主成分分析(Principal Component Analysis, PCA)、PLSR和像元二分模型估測郁閉度,結(jié)合實測郁閉度比較各模型,發(fā)現(xiàn)PLSR的精度最高。張瑞英等[18]使用MSR、RFR和Cubist模型估測郁閉度,結(jié)果是Cubist模型反演效果最好。
綜上所述,盡管采用LiDAR數(shù)據(jù)及光學遙感數(shù)據(jù)估測郁閉度的研究已十分常見,但天然次生林郁閉度較高、森林結(jié)構(gòu)復(fù)雜,而且結(jié)合光學遙感會使植被指數(shù)在密林區(qū)的敏感性顯著下降[19]。因此,本研究以帽兒山實驗林場63塊樣地為研究區(qū)域,根據(jù)ALS數(shù)據(jù)提取點云特征,基于3種變量篩選(Pearson相關(guān)性分析、隨機森林(Random Forest, RF)和Boruta算法)和3種估測模型(偏最小二乘回歸(Partial Least Squares Regression, PLSR)、隨機森林回歸(Random Forest Regression, RFR)和支持向量回歸(Support Vector Regression, SVR))估測郁閉度,以魚眼照片和樣點法2種測定方法對估測模型進行精度評價及雙因素方差分析,探討和分析使用ALS數(shù)據(jù)結(jié)合不同特征篩選方法及估測模型對郁閉度較高的天然次生林估測郁閉度的影響,為大范圍估測提供了有力支撐。
研究區(qū)為63塊(30m×30m)樣地,位于黑龍江省尚志市東北林業(yè)大學帽兒山實驗林場(45°14′~45°29′N,127°29′~127°44′E),平均海拔300 m,如圖1(a)所示。植被是典型的東北天然次生林,主要樹種有:白樺(Betulaplatyphylla)、蒙古櫟(Quercusmongolica)、水曲柳(Fraxinusmandshurica)、胡桃楸(Juglansmandshurica)、黃菠蘿(Phellodendronamurense)、山 楊(Populusdavidiana)、色 木 槭(Acermono)、榆樹(Ulmuspumila)以及少量人工針葉樹種,還有紅松(Pinuskoraiensis)、落葉松(LarixOlgensis)和樟子松(Pinussylvestris)等。
1.2.1 ALS數(shù)據(jù)
由運-12飛機搭載LiDAR傳感器(Riegl LMSQ680i)和CCD(charge coupled device)相機傳感器(DigiCAM-60),于2015年9月在帽兒山林場采集數(shù)據(jù),相對航高1200 m。LiDAR傳感器波長1 550 nm,最大頻率400 kHz,掃描角度在±30°之間,采樣間隔1 ns,垂直精度0.15 m,平均點云密度3.6 點/m2。ALS數(shù)據(jù)預(yù)處理包括:點云裁剪、點云濾波、點云分類,使用克里金插值法將地面點插值生成DEM和點云歸一化等。
1.2.2 樣地獲取及2種郁閉度的測定
在帽兒山CCD影像上選取63塊30 m×30 m樣地,分別于2018年7月和2019年7月進行郁閉度測量,樣地分布情況如圖1(b)所示,樣地信息見表1。研究區(qū)為天然次生林樣地,為中高郁閉度,植被的生長與更新狀況對郁閉度的影響不大,忽略LiDAR數(shù)據(jù)與樣地數(shù)據(jù)年份不同所造成的影響。本研究采用魚眼照片法和樣點法測定郁閉度。
魚眼照片法:使用佳能6 D相機和佳能8 mm焦距的圓形魚眼鏡頭,在樣地中心點和2條對角線的四分之一位置共拍攝5張照片,拍照時盡量選擇陰天無云天氣,以避免太陽直射光斑對魚眼照片產(chǎn)生影響,拍攝時注意剔除模糊、受強光照射影響的照片。裁剪掉照片中天頂角大于60°的部分(圖1列舉的照片即以天頂角60°為準,裁剪后的結(jié)果),以排除下木的影響。使用ArcGIS的ISO聚類非監(jiān)督分類工具進行分類,采樣間隔為10像元×10像元,像元共分5類:天空、林隙、樹干、樹枝和樹葉(由于部分照片的天空顏色不統(tǒng)一,因此將有云的分為7類,沒有天空顏色或云干擾的分為6類或5類),輸出分類柵格,對比分類結(jié)果圖和原圖,分別統(tǒng)計林冠像元及總像元個數(shù),二者之比為郁閉度,每個樣地計算的5張魚眼照片郁閉度均值作為魚眼照片郁閉度。

表1 樣地信息統(tǒng)計表Tab.1 Statistical table of plot information

圖1 帽兒山實驗林場位置、63塊樣地分布圖及部分魚眼照片示例圖Fig.1 The location of Maoershan Experimental Forest Farm, distribution of 63 sample plots and parts of fisheye photos
樣點法:沿樣地對角線一步一抬頭,判斷樣點是否被樹冠遮蓋,郁閉度為被樹冠遮蓋的樣點數(shù)和樣點總數(shù)的比值。
以ALS數(shù)據(jù)計算首回波的高度和強度為指標,即均 值(Mean)、方 差(Variance, var)、標 準 差(Standard deviation, std)、最小值(Min)、最大值(Max)、中位數(shù)(Median)、變異系數(shù)(Coefficient of variation, cv)、偏度(Skewness, skew)、峰度(Kurtosis, kurt)、下四分位數(shù)(Q1)和上四分位數(shù)(Q3)等,共22個特征。另外,計算首回波覆蓋指數(shù)(公式中用FCI表示)和激光穿透指數(shù)[20](Laser Penetration Index, LPI,公式中用LPI表示),公式為

式中:Scanopy為只有一次回波的冠層點云數(shù);Fcanopy為首回波的冠層點云數(shù);SAll為只有一次回波的全部點云數(shù);FAll為首回波的全部點云數(shù);Iground為地面點云總強度;Ivegetation為冠層點云總強度。
特征選擇算法可以有效避免維度問題[21]或Hughes效應(yīng)[22],從而改進估測性能[23],因此本研究采用3種特征變量篩選方法。
1.4.1 相關(guān)性分析
相關(guān)性分析(Correlation Analysis)是描述2個變量之間關(guān)系緊密程度的指標[24]。本研究用SAS 9.3進行相關(guān)性分析,計算自變量與郁閉度的Pearson相關(guān)系數(shù)。
1.4.2 隨機森林
隨機森林(Random Forest, RF)在特征選擇減少冗余數(shù)據(jù)方面效果很好,本研究在 python 3.7中進行RF篩選,設(shè)置2個參數(shù):決策樹數(shù)量(n_estimators)為1 000,隨機狀態(tài)(random_state)為6,使用平均下降精度(Mean Decrease Accuracy, MDA)來評價特征變量的重要性。
1.4.3 Boruta算法
Boruta算法是基于RF算法思想構(gòu)建的特征選擇算法,主要通過循環(huán)方法評價特征變量的重要性,對每個特征值隨機混合構(gòu)造具有隨機性的陰影特征[25];以在RF算法的每次迭代中,得到原始特征和陰影特征重要性的Z分數(shù)最大值(Max_Shadow)為篩選指標,特征變量Z分數(shù)大于Max_shadow時,保留該特征,從而篩選出最優(yōu)特征集合[26]。
1.5.1 偏最小二乘回歸
偏最小二乘回歸集多元線性回歸分析、PCA和典型相關(guān)分析的基本功能為一體,可以解決自變量之間存在的多重共線性問題[27]。
1.5.2 隨機森林回歸
隨機森林回歸[5]建立在決策樹基礎(chǔ)上,通過多次bootstrap抽樣獲得多個隨機樣本,并通過這些樣本分別建立對應(yīng)的決策樹,從而構(gòu)成RF。在回歸過程中,放回隨機抽取樣本,因此建立回歸樹時部分樣本不會被選中作為檢驗樣本出現(xiàn),起到了樣本內(nèi)部交叉驗證的作用,2個隨機性引入可減少過擬合情況的發(fā)生。
1.5.3 支持向量機回歸
支持向量機回歸[28]的基本思想是將實際問題按照非線性對應(yīng)關(guān)系映射到高維空間,再進行線性回歸的處理,最終得到原始空間的非線性回歸結(jié)果。本研究使用Python3.7的sklearn包來實現(xiàn),核函數(shù)為線性核函數(shù),多項式系數(shù)為3,誤差項的懲罰參數(shù)C=1,損失函數(shù)的值為0.1。
本研究僅有63塊樣地,樣地數(shù)量少,因此采用留一交叉驗證法(Leave-One-Out Cross Validation, LOOCV)[28],使用決定系數(shù)(R2)、平均誤差(Mean Error, ME)、平均絕對誤差(Mean Absolute Error, MAE)和均方根誤差(Root Mean Square Error, RMSE)4個指標[5,29]對模型進行精度評價。
本研究目的是探討特征變量篩選方法和估測模型對天然次生林郁閉度估測的影響,因此在3種特征變量篩選方法(Pearson相關(guān)性分析、RF和Boruta算法)和3種估測模型(PLSR、RFR和SVR)作用下,利用SAS9.3進行方差分析(Analysis of variance, ANOVA),多重比較采用LSD法(Least Significance Difference, LSD)[30]。
2種郁閉度測定方法(魚眼照片法和樣點法)的相關(guān)性分析結(jié)果見表2,2種方法均保留了15個變量且所保留的變量有很大的一致性,點云的高度和強度與2種測定方法相關(guān)性都很高。由表2可以看出,高度變異系數(shù)(hcv)與2種測定方法的相關(guān)性最高;FCI和LPI與2種方法的相關(guān)性均在0.6左右,這與其計算公式(公式(1)和公式(2))有關(guān),FCI為正相關(guān),LPI為負相關(guān);強度變異系數(shù)(icv)和強度峰度(ikurt)與魚眼照片法相關(guān)性不高(低于0.3),強度偏度(iskew)和ikurt與樣點法的相關(guān)性均低于0.3。

表2 魚眼照片和樣點法的Pearson相關(guān)性分析結(jié)果Tab.2 The results of Pearson correlation analysis based on fisheye photo and sample method
圖2為2種郁閉度測定方法(魚眼照片法和樣點法)的RF特征變量重要性排序結(jié)果。2種方法均保留了14個特征變量,保留的變量大部分相同,但重要性不同,魚眼照片的FCI、hcv和hskew重要性最高,保留了hmean、ivar、高度最小值(hmin)和hmedian等特征變量;樣點法的hskew、iQ3和hcv重要性最高,保留了高度方差(hvar)、高度標準差(hstd)、imedian和強度最小值(imin)等特征變量。

圖2 魚眼照片和樣點法的RF變量篩選結(jié)果Fig.2 The feature selection results of RF based on fisheye photo and sample method
圖3為2種郁閉度測定方法(魚眼照片法和樣點法)的Boruta算法變量篩選結(jié)果。在Boruta算法變量篩選中,Z分數(shù)值大于Max_Shadow(Z分數(shù)最大值)的變量作為接受變量被保留下來。2種方法經(jīng)過Boruta算法篩選后保留的特征變量有所區(qū)別。魚眼照片法的LPI、imean、FCI和hQ1作為接受變量被保留下來;樣點法的hmean、hcv、FCI和hQ1作為接受變量被保留下來。

圖3 魚眼照片和樣點法的Boruta算法變量篩選結(jié)果Fig.3 The feature selection results of Boruta algorithm based on fisheye photo and sample method
表3為2種郁閉度測定方法(魚眼照片法和樣點法)的模型精度評價結(jié)果。魚眼照片法中,PLSR精度最高,SVR最低。Boruta算法篩選后的PLSR估測精度最高(R2=0.451 1,RMSE =0.067 5),Pearson相關(guān)系數(shù)篩選后,SVR估測精度最低(R2=0.303 4,RMSE =0.079 1)。另外,ME和MAE值越小,表明預(yù)測值與實測值差距越小,估測效果越好,表中PLSR和RFR的ME值大多數(shù)小于0.1,SVR模型存在嚴重的低估現(xiàn)象。對于樣點法,RF篩選后的RFR估測精度最高(R2=0.372 9,RMSE =0.079 2),Pearson相關(guān)系數(shù)篩選后的SVR估測模型精度最低(R2=0.062 3,RMSE =0.096 9)。2種估測模型(PLSR和RFR)的ME值多數(shù)小于0.1。經(jīng)Boruta算法變量篩選后的SVR模型的ME值為0.519 6,存在著高估現(xiàn)象,另外2種篩選方法的ME分別為-0.315 4和-0.417 7,模型存在著低估現(xiàn)象。樣點法的SVR模型擬合情況遠不如魚眼照片法,雖然經(jīng)Boruta算法變量篩選后SVR模型(R2=0.192 2)要高于其他2種篩選方法(0.062 3和0.106 5),但與2種郁閉度測定方法的其他模型相比,估測效果是最差的。

表3 魚眼照片法和樣點法對估測郁閉度模型精度評價結(jié)果Tab.3 The results of accuracy assessment of estimation models based on fisheye photo and sample method
繪制2種方法中估測精度最高的變量篩選方法郁閉度實測值與估測值擬合曲線,圖4(a)—圖4(c)為魚眼照片法擬合曲線,圖4(d)—圖4(f)為樣點法擬合曲線。從圖4(a)—圖4(c)可以看出,魚眼照片的中低郁閉度區(qū)域內(nèi),存在明顯的低值高估現(xiàn)象;高郁閉度區(qū)域內(nèi),高估低估情況都有發(fā)生,但高值低估現(xiàn)象更為嚴重。由圖4(d)—圖4(f)可以看出,樣點法經(jīng)RF變量篩選后RFR和PLSR,在中低郁閉度區(qū)域內(nèi),存在低值高估現(xiàn)象,但使用SVR,則出現(xiàn)了低估的情況;高郁閉度區(qū)域內(nèi),高估低估情況都有發(fā)生,但高值低估現(xiàn)象更嚴重,在SVR模型中,數(shù)據(jù)的散點比較分散,估測效果不佳。

圖4 魚眼照片和樣點法中估測精度最高的變量篩選方法郁閉度實測值與估測值擬合曲線圖Fig.4 The fitting curve between the measured and estimated values of canopy closure of feature selections method with the highest estimation accuracy in fisheye photo and sample method
使用SAS9.3對數(shù)據(jù)進行方差分析,分析特征篩選方法和估測模型2種因素對郁閉度估測的影響及其交互作用。由表4可以看出,魚眼照片法的P均大于0.05,變量篩選方法和模型擬合方法對郁閉度估測無顯著影響,也不存在交互作用。樣點法的變量篩選方法對郁閉度估測無顯著影響,模型擬合方法有顯著影響,變量篩選方法和模型擬合方法之間不存在交互作用。
由模型均值比較圖5看,樣點法的SVR模型相比于PLSR和RFR有顯著差異。

表4 魚眼照片法和樣點法的方差分析結(jié)果Tab.4 The results of ANOVA based on fisheye photo and sample method

圖5 樣點法的3個模型的均值比較圖Fig.5 Comparison of the mean values of the three models of sample method
以估測效果最優(yōu)的Boruta算法篩選后的PLSR模型為例,制作帽兒山實驗林場郁閉度空間分布圖,如圖6所示。由圖6可以看出,帽兒山實驗林場的郁閉度較高,大多數(shù)在0.8左右。

圖6 帽兒山實驗林場郁閉度分布圖Fig.6 Canopy closure distribution of Maoershan Experimental Forest Farm
由3種篩選方法保留的特征變量可以看出,FCI、LPI和hcv既是與郁閉度相關(guān)性最高的變量,也是重要性較高的變量,FCI(冠層點云數(shù)與所有點云數(shù)的比值)和LPI(地面點云與所有點云的強度比值)的計算公式(公式(1)和公式(2))與郁閉度的概念最接近,而hcv側(cè)重表達冠層垂直結(jié)構(gòu)的波動程度,這3個特征變量對郁閉度的解釋性更強,對模型的貢獻最大,而高度均值代表了冠層中上層信息,hQ1等變量同樣對模型起到了很好的解釋作用。
對Boruta算法來說,盡管保留的特征變量數(shù)遠少于其他2種方法(Pearson相關(guān)性分析和RF),但保留的變量與郁閉度有很強的相關(guān)性和重要性。陰影特征的引入,給Boruta變量篩選增添了更大的隨機性,既能更好地選出對模型重要性更高、貢獻度更大的變量,也起到了降維作用,提高了模型運行的效率,同時很好地保證了模型的精度,這與盧永亮等[25]的研究結(jié)果相同,同時本研究還對比了3種變量篩選方法,發(fā)現(xiàn)Boruta算法篩選的變量,參與模型擬合時精度最高(R2=0.451 1,RMSE =0.067 5),體現(xiàn)了其在變量篩選上的優(yōu)勢。
3種估測模型的精度,大部分情況下PLSR的模型估測精度高于RFR,SVR最低。本研究提取的點云高度和強度統(tǒng)計量之間具有很高的相關(guān)性,PLSR模型克服了傳統(tǒng)的多元回歸模型的缺點,避免了多重共線性的影響,在本研究中擬合效果最好。RFR的估測精度略低于PLSR,可能是用于模型擬合的自變量過多,導(dǎo)致了過擬合情況,也可能是樣本數(shù)目較少對模型訓(xùn)練結(jié)果產(chǎn)生影響。帽兒山林場天然次生林的植被覆蓋率很高,低郁閉度的樣地數(shù)量不多,大部分的樣地均為中高郁閉度,數(shù)量較多的高郁閉度樣地數(shù)據(jù)對回歸模型的擬合產(chǎn)生影響,導(dǎo)致低郁閉度樣地的模型擬合效果不佳,誤差較大,而SVR比RFR估測精度低,可能是因為核函數(shù)在不同的研究領(lǐng)域適用性不同,所選參數(shù)對數(shù)據(jù)擬合也有一定影響,在使用樣點法測定郁閉度時,盡管已經(jīng)使用相關(guān)性高以及重要性高的變量,SVR的精度卻遠不如其他2種模型(雖然經(jīng)Boruta算法變量篩選后精度最高,R2也僅為0.192 2),說明SVR并不適用于本研究中樣點法測量的郁閉度。郁閉度估測時,3種模型都出現(xiàn)低值高估和高值低估的現(xiàn)象,這與張瑞英[18]的研究一致,主要因為天然次生林中低郁閉度的樣地數(shù)目少,代表性不強,模型主要反映高郁閉度的樣地情況。
在2種郁閉度測定方法(魚眼照片法和樣點法)中,大多數(shù)情況下,由于Boruta算法篩選后的變量相關(guān)性和重要性都很高,所以Boruta算法篩選變量的效果優(yōu)于RF和Pearson相關(guān)系數(shù)法,因此,將Boruta算法篩選后的變量引入回歸模型時,模型的精度更高。同時,PLSR模型能很好地克服多重共線性,擬合效果更好,所以使用魚眼照片法計算郁閉度時,經(jīng)Boruta算法篩選變量后的PLSR模型精度最高(R2=0.451 1,RMSE =0.067 5)。
從2種郁閉度測定方法來看,魚眼照片法的估測精度大多數(shù)情況下都優(yōu)于樣點法。當使用PLSR時,經(jīng)Pearson相關(guān)性分析變量篩選后,魚眼照片的R2比樣點法高16.44%,RMSE降低了14.18%;RF變量篩選后的R2提高17.28%,RMSE降低了14.47%;Boruta算法變量篩選后R2提高了17.8%,RMSE降低了14.88%。當使用RFR時,除了Pearson相關(guān)性分析篩選,魚眼照片法的R2比樣點法低4.49%,RMSE降低了7.87%;RF變量篩選后的R2提高8.6%,RMSE降低了11.49%;Boruta變量篩選后的R2提高了7.29%,RMSE降低了10.93%。當使用SVR時,魚眼照片法的估測精度盡管略低于其他模型,但仍處于較為正常的水平,但使用樣點法測定郁閉度時,SVR的估測精度與PLSR和RFR有明顯差異,Pearson相關(guān)性分析的R2為0.062 3,RF變量篩選后的R2為0.106 5,Boruta算法變量篩選后精度最高,R2也僅達到0.192 2,且2種郁閉度測定方法中,用于模型回歸的自變量差異不大,說明本研究中基于魚眼照片法測定的郁閉度的模型表現(xiàn)更好,在郁閉度估測上比樣點法更為精準,這與智獻坡[31]的研究結(jié)果相同,但與何萍等[32]的研究結(jié)果有所不同,可能是樣點法測定郁閉度時,僅在樣地對角線上記錄樣點,導(dǎo)致樣點數(shù)目少,樣點法估測效果不好,應(yīng)適當增加樣地內(nèi)的樣點分布。
本研究使用ALS數(shù)據(jù)和2種樣地郁閉度測定方法(魚眼照片法和樣點法)探究3種特征篩選方法(Pearson相關(guān)性分析、RF和Boruta算法)和3種模型(PLSR、RFR和SVR)對天然次生林郁閉度估測的影響。結(jié)果表明:RF和Boruta算法變量篩選后的估測模型精度要高于Pearson相關(guān)系數(shù)。PLSR克服了傳統(tǒng)的多元回歸模型的缺點,避免了多重共線性的影響,擬合效果最好,SVR最低。魚眼照片法比樣點法精度高,其中Bortua算法變量篩選后以PLSR估測郁閉度的精度最高(R2=0.451 1,RMSE =0.067 5)。樣點法和魚眼照片法中的變量篩選及魚眼照片法中的模型對估測郁閉度無顯著影響,樣點法的模型擬合方法對估測郁閉度有顯著影響,SVR模型與PLSR、RFR有顯著差異。