馬學欣,嚴耿坤,王 鋒,侯建花
(1.浙江省景寧畬族自治縣自然資源和規劃局,浙江 景寧 323500;2.浙江省景寧畬族自治縣東坑鎮人民政府,浙江 景寧 323500;3.浙江省景寧畬族自治縣澄照鄉人民政府,浙江 景寧 323500)
樹木的樹高、胸徑和蓄積量等因素是評價樹木的重要指標,林業工作者經常需要大范圍測量和采集相關數據。傳統的方式是通過測量樹木的胸徑然后利用公式計算樹高和蓄積量[1~4]。該方法需要人工逐個測量,存在難度大、成本高、誤差大等問題,因此并不適合大范圍森林信息的采集與評估。
為提高樹木因子的測量準確率和效率,計算機技術、信息技術被引入到林業領域中。如關曉平等利用激光進行樹高和胸徑的測量,并分析了脈沖激光測距原理和三角高程測量法[5]。沈亞峰等研究了一種基于智能手機的單株樹木胸徑測量方法,根據智能手機拍攝的樹木照片進行圖像處理計算樹木胸徑,該方法極大方便了林業工作者,但測量準確率有待提高[6]。邵俊飛等針對傳統測量工具(卡尺)存在的不足,利用傳感器技術、計算機技術,對傳統的胸徑卡尺進行改進,最終實現了樹木胸徑卡尺的數顯功能,提高了測量準確性[7]。上述研究都針對測量工具或測量方法進行改進,然而在評估大范圍森林時并不能有效解決工作量繁重的問題,因此又有很多學者根據多種森林環境因子對森林的樹高、胸徑和蓄積量進行估計。如王冬至等基于非線性混合模型研究針闊混交林平均樹高與平均胸徑的關系[8]。金星姬等采用二元廣義分布和Johnson's SBB分布對美國東北部云冷杉(Piceaasperata-Abies fabri)林水平和垂直分布進行擬合,結果表明無論是樹高、胸徑還是樹高和蓄積的估計都比GBD-2分布估計更準確[9]。臧顥等通過分析樹高與胸徑的關系,建立了一種非線性混合效應模型,該方法能夠準確地描述樹高和胸徑的關系[10]。尹瑞安等基于樹齡、海拔、坡度級、土層厚度和郁閉度等因素結合BP神經網絡構建森林預測模型,該方法能夠有效地評估森林資源蓄積量[11]。
本文研究一種多環境因子融合的BP神經網絡樹木生長模型,融合多種森林影響因子估計森林的平均樹高、平均胸徑和活立木蓄積量。通過構建多輸入、三輸出的神經網絡模型,準確地預測估計森林的樹高、胸徑和蓄積量。由于傳統的BP神經網絡訓練速度慢、易陷入局部最優問題[12~16],本文采用遺傳算法對BP神經網絡進行優化,有利于提高算法訓練速度和準確率。
景寧畬族自治縣(簡稱景寧縣)地處浙江省南端,地理坐標為27°28′42″~28°10′52″N,119°13′40″~119°58′19″E,縣域面積1950 km2,屬中亞熱帶季風氣候,溫和濕潤,雨量充沛,年均溫度為17.5 ℃,年均降水量為1626 mm。研究區屬浙南中山區,海拔152~1690 m,土壤類型以紅壤土、黃壤土和水稻土為主,占全縣土壤總面積的98.68%,全縣植被類型主要為常綠闊葉林、針葉林、針闊混交林、經濟特產林等,森林面積15.4萬hm2。
2.2.1 數據來源
實驗數據來源于景寧縣森林資源連續清查(簡稱“一類調查”)的三期(2004~2008年、2009~2013年、2014~2018年)樣地資料,固定樣地共82個,單個樣地面積為800 m2,每個樣地記錄了地貌、海拔、坡向、坡度、林分密度、活立木蓄積量及其它樣地因子。數據剔除非林地、采伐、疏林地等異常樣地外,選擇剩余48個均為喬木林地的樣地,樣地內的針葉樹種為馬尾松(Pinusmassoniana)、杉木(Cunninghamialanceolata),闊葉樹種為櫟類(Quercus sp.),共計5497條數據。剔除32條異常數據(包括字段缺失和測定的異常點),選取3826條數據用于模型訓練,余下的1639條數據用于檢驗模型的準確性。
2.2.2 數據分析
為了預測樹木的平均高、平均胸徑和活立木蓄積量,需要從17種因子中選擇若干項相關的環境因子作為預測依據。采用皮爾遜相關系數(r)來衡量不同樹木影響因子之間的相關性,如式(1)所示。
(1)

當rx,y>0時,兩種環境因子X和Y呈正相關;當rx,y<0時,則環境因子X和Y呈負相關,當|rx,y|=1時,表示X與Y呈完全線性相關,當rx,y=0時,則表示X與Y無相關性。
首先分析14種因子與平均樹高、平均胸徑和活立木蓄積量3種待預測因子之間的相關性,其相關系數絕對值如圖1所示。

圖1 環境因子與待預測因子相關性
然后根據相關性分析結果(圖1),從14種環境因子中選擇土壤類型、土層厚度、腐殖層厚度、灌木覆蓋度、植被覆蓋度、平均年齡、齡組和林分密度共8種相關性較強的因子作為后續估計預測的依據。
2.3.1 遺傳算法優化BP神經網絡
遺傳算法是一種模擬生物界遺傳和進化的隨機搜索最優化方法,根據優勝劣汰的準則,選擇最佳個體從而達到優化的目的[17~21]。在遺傳算法優化BP神經網絡過程中,種群中的每個個體都包含了整個網絡的權值和閾值,通過適應度函數計算每個個體的適應度值,并通過選擇、交叉和變異3種操作的反復循環,直至尋找到最優個體(個體也稱為染色體),優化過程如圖2所示。

圖2 遺傳算法優化BP神經網絡流程
遺傳算法的主要步驟如下所示:
(1)種群初始化。本文的應用場景中,個體為神經網絡權值和閾值的實數串,將神經網絡的權值和閾值按規定的順序連接,構成遺傳算法的種群初始化。
(2)適應度計算。根據遺傳算法得到的權值和閾值代入BP神經網絡結構中預測樣本,并輸出結果,將預測輸出和期望輸出之間的誤差總和作為個體適應度值(Fi),如公式(2)所示。
(2)
式(2)中,k為常數,n為神經網絡輸出節點數量,yj為神經網絡輸出層第j個節點的期望輸出,oj為輸出層第j個節點的預測輸出。
(3)選擇操作。通過輪盤賭法根據適應度比例的選擇策略,每個個體i被選中的概率pi,如公式(3)所示:
(3)
式(3)中,k為常數,n為種群總數量,Fi為個體i的適應度值。
(4)交叉操作。采用實數交叉法對第m個個體am和第n個個體an在j位進行交叉,交叉過程如公式(4)所示:
(4)
式(4)中,b為[0,1]區間內的隨機數,am,j表示個體m在j位的值,an,j表示個體n在j位的值。
(5)變異操作。通過選擇個體i的第j位ai,j進行變異,具體過程如公式(5)所示:
(5)
式(5)中,amax為個體i的最大值,amin為個體i的最小值,s為迭代次數,f(s)如公式(6)所示:
(6)
式(6)中,s為迭代次數,Gmax為最大進化次數,r為[0,1]的隨機數。
2.3.2 基于GA-BP神經網絡的樹木生長模型構建
BP神經網絡是一種雙向傳播的人工神經網絡,其具有較強的非線性映射能力,能將輸入數據準確的映射到輸出結果。本文采用BP神經網絡構建樹木生長模型,根據相關性選擇的8種因子(土壤類型、土層厚度、腐殖層厚度、灌木覆蓋度、植被覆蓋度、平均年齡、齡組和林分密度)預測樹木的平均樹高、平均胸徑和活立木蓄積量。BP神經網絡的結構如圖3所示,為8輸入、3輸出的4層的網絡結構。

圖3 優化后的BP神經網絡結構
輸入層有8個節點,隱層1有25個節點,隱層2有7個節點,輸出層有3個節點。首先利用遺傳算法對BP神經網絡進行優化,然后利用原始數據對模型進行訓練,最后得到的神經網絡模型能夠對林木的生長進行評估預測,該模型即為樹木生長模型。
輸入層與隱層1之間的數據轉換關系如公式(7)所示,隱層1和隱層2之間的數據轉換關系如公式(8)所示,隱層2和輸出層之間的數據轉換關系如公式(9)所示。
(7)
(8)
(9)
式(7)~(9)中,a、b、c為偏置,αl、βm、χn分別表示隱層1、隱層2和輸出層的第l、第m、第n個神經元的輸入數據。p、q、r分別表示輸入層、隱層1、隱層2的神經元數量。f1表示隱層的激活函數Sigmoid,如式(10)所示。
(10)
最終的預測結果輸出(outputn)如式(11)所示,函數f2為Softmax函數,用于計算每種可能性的相對概率,最終實現結果的預測。
outputn=f2(χn)
(11)
利用遺傳算法優化BP神經網絡的權值和閾值,能夠有效的防止BP神經網絡陷入局部最優問題,能提高神經網絡的識別率。遺傳算法的優化過程主要體現在適應度值的收斂問題上,實驗結果如圖4所示,橫坐標為遺傳算法的迭代次數,縱坐標為適應度值(如公式2所示)。

圖4 遺傳算法收斂過程
實驗結果(圖4)表明,隨著遺傳算法迭代次數的增加,平均適應度值逐漸收斂于最佳適應度值,且平均適應度值和最佳適應度值隨著迭代次數的增加,下降過程相對比較平滑,因此本文利用遺傳算法對BP神經網絡的優化是有效的,且具有較好的效果。
根據1639條驗證數據的預測結果與實測值繪制線性回歸圖(圖5),回歸系數都較接近于1,且常數項都較接近于0,這說明回歸效果顯著,樹木平均胸徑、平均樹高和活立木蓄積量3種因子的預測值與實測值無明顯差異,且變化趨勢基本相同。遺傳算法具有全局尋優的功能,對神經網絡優化后,使得網絡的計算精度提高。

圖5 樹木平均胸徑、平均樹高、活立木蓄積量實測值與預測值結果比較
同時,采用相同的驗證數據建立多元線性回歸模型,其計算公式如下:
(1)平均胸徑模型:
Y胸徑=255.33-2.383x1+0.007x2+0.089x3-0.01x4-0.061x5+0317x6+1.062x7-0.008x8
(12)
(2)平均樹高模型:
Y樹高=153.599-1.492x1+0.012x2+0.167x3-0.007x4+0.036x5+0.167x6+0.478x7+0.001x8
(13)
(3)活立木蓄積量模型:
Y蓄積=152.973-1.568x1+0.013x2+0.173x3-0.007x4+0.084x5+0.307x6-0.538x7+0.012x8
(14)
式(12)~式(14)中,x1、x2、x3、x4、x5、x6、x7、x8分別為土壤類型、土層厚度、腐殖層厚度、灌木覆蓋度、植被覆蓋度、平均年齡、齡組、林分密度。將多元線性回歸模型的預測值與實測值做線性回歸圖(圖6),并使用決定系數(R2)、均方根誤差和平均絕對偏差來檢驗模型的精度。R2值越接近1,說明模型參考價值越高;均方根誤差和平均絕對偏差值越小,說明模型精度越高。GA-BP模型與多元線性回歸模型在各檢驗指標上的比較如表1所示。

圖6 多元線性回歸模型預測值與實測值比較

表1 模型檢驗指標比較
由表1可知,采用GA-BP模型的平均絕對偏差、均方根誤差低于多元線性回歸模型,R2高于多元線性回歸模型,且更接近于1。與多元線性回歸模型相比,GA-BP模型的預測精度更高,更能滿足對景寧地區林地的預測估計需求。
針對目前林業上相關數據的測量采集存在成本高、精度低等問題,為準確評估林分的相關信息,研究了一種基于遺傳算法優化BP神經網絡的樹木生長模型(GA-BP模型),首先根據影響因子與目標因子之間的相似度關系,選擇其中相關性較強的8種因子作為預測依據,然后利用選擇的因子訓練BP神經網絡模型,完成樹木生長模型的構建。最后對本文提出的方法進行實驗分析,通過與其他方法實驗結果比較發現,本文提出的方法在預測平均胸徑、平均樹高以及活立木蓄積量方面具有較高的準確性。但是本模型仍有改進空間:①相關性不顯著的因子沒有在模型中表現出來;②樹木生長不僅和環境、林分因子相關,還與氣象、生物等變量有關聯;③本研究針對景寧縣喬木林地進行,忽略了單一樹種的生長情況,這樣會導致局域誤差大。綜上所述,可以進一步分析氣象變化對樹木生長的影響以及多因子對單一樹種生長量的綜合影響。