于慧伶,孫繩宇,朱伊楓,李羽昕,李新立
(東北林業大學a.信息與計算機工程學院;b.機電工程學院,哈爾濱 150040)
森林生物量是森林生態系統林分特征信息的重要體現,與森林生物多樣性、蓄積量和碳儲量等屬性有著很強的相關性[1]。每木檢尺的單木森林調查是量化森林特征的主要途徑,通過測量單木胸徑和樹高并將其作為自變量建立相應的異速方程獲得森林地上生物量,雖然這種野外測量方法準確,但耗時費力[2]。遙感作為有效的技術手段,解決了大區域林分特征定量估算問題,減少了人力與時間耗費,在較高精度下保證獲得數據的空間完整性和時間一致性。激光雷達(Light Detection and Ranging,LiDAR)是一種新興的遙感技術手段,是通過測算傳感器到達目標物之間的時間進行距離換算的一種主動遙感技術,憑借其獲取植被垂直結構信息的優勢成功應用于林業領域[3]。
近年來,一些學者將非參數化機器學習算法應用于森林生物量遙感估算研究中[4-6]。其中,支持向量機(Support Vector Machine,SVM)能夠極大地降低計算復雜性、加快求解速度,對于解決復雜的回歸問題具有較好的預測性能[7]。董金金[8]應用實測地上生物量和Landsat-8遙感數據,對泰山景區的森林地上生物量進行估測,表明粒子群優化算法(Particle Swarm Optimization,PSO),優化SVM的估測性能最好。
果蠅優化算法(Fruit Fly Optimization Algorithm,FOA)是一個較新的群智能優化算法,其靈感來自真實果蠅的嗅覺與視覺覓食行為[9-10]。FOA以強大的全局尋優能力,較小的計算量等優點逐漸體現在各領域中。選取全局搜索能力強、計算效率高的FOA優化最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)的懲罰因子和核函數參數,以提升模型精度和計算效率,并將優化模型應用于森林地上生物量估測,以提高估測模型的速度、穩定性,提升機載LiDAR數據估測森林地上生物量的精度[11-13]。
LiDAR數據是2016年由某森林和森林、土地、自然資源運營和農村發展部的海達瓜依區辦公室共同獲得。利用人工交互的方式進行數據處理,借助點云處理軟件Terrasolid,通過搜索局部高程異常點去除LiDAR數據的噪點,采用不規則三角網(Triangulated Irregular Network,TIN)濾波算法對離散點云數據進行濾波分類,由數字表面模型(Digital Surface Model,DSM)與數字高程模型(Digital Elevation Model,DEM)柵格差值運算,得到研究區域高程歸一化后的冠層高度模型(Canopy Height Model,CHM),通過坐標對每塊樣地進行裁切提取了84個樣地位置的歸一化點云數據[14-16]。
2015年某完成植被資源清查項目(Vegetation Resource Inventory,VRI),覆蓋海達瓜依的全部范圍,約106ha,其中有35塊永久監測樣地(YSM),3塊變化監測樣地(CMI)和46塊VRI樣地。在了解實際樣地級林分參數的基礎上,將VRI、YSM和CMI 3種樣地類型的共計84塊樣地數據經異常值去除以及林種分類等分析,采用其中62塊樣地作為構建地上生物量模型的地面數據。考慮到樣地數量的有限性,將樣地林型分為3種:崖柏型(C型24塊),鐵杉型(H型24塊)和云杉型(S型14塊)。匯總得到3個研究區域樣地級(plot-level)林分參數包括胸高斷面積Basal area(m2/ha),樹高Tree height /m(胸高斷面積加權高)和蓄積量Volume(m3/ha)。樣地級林分參數統計表見表1。

表1 樣地林分參數統計表
針對研究區域中的62塊樣地,采用森林植被蓄積量-生物量的轉化方法進行地上生物量計算,并以此作為樣地森林生物量地面調查數據。
果蠅利用嗅覺聞到食物味道,而食物味道濃度與每個果蠅相對食物的距離呈負相關。飛近食物位置之后,利用敏銳的視覺找到同伴聚集和食物的位置,再靠近目標。通過數次迭代探索,直至在搜索空間中找到食物對應的位置為止。在此通過反向學習的群體初始化操作以及三維搜索與自適應更新步長策略,提高算法尋優能力與收斂精度。對果蠅優化算法改進如下:
將FOA的搜索空間由二維平面擴展到三維空間(X_axis,Y_axis,Z_axis),果蠅種群與原點的距離為:

式中:i為迭代次數;R(i)為第i次搜索步長。
在果蠅算法尋優的過程中,果蠅群體總會向當前迭代中具有最佳濃度(bestSmell)的果蠅個體靠攏聚集。如果,此果蠅個體并不具有全局的最優位置,那么每次選定的最優個體很容易帶來局部尋優的缺陷。引入分散化尋優機制更新果蠅群體的位置,基于反向學習策略啟發增加對每次迭代中具有最差濃度(worstSmell)果蠅個體的學習,意味著在決定下一次迭代群體初始位置時,應綜合考慮當前迭代中最佳果蠅個體與最差果蠅個體的位置

式中,bestSmell和bestindex分別為當前迭代中濃度最佳果蠅個體的味道濃度和序號。
將下一次迭代群體初始位置設定為最差果蠅個體關于當前群體位置的中心對稱坐標與最優果蠅個體位置的中點

將該坐標作為下次迭代果蠅群體位置,實現基于反向學習的群體位置初始化。
利用自適應更新步長策略,步長取值為果蠅個體的飛行方向距離由當前迭代的最佳味道濃度值與上次迭代的最佳味道濃度值的比值決定,k(i)為權重因子。
當i>1時,果蠅的搜索步長定義如下:

權重因子的取值由上一次的果蠅最佳味道濃度與當前迭代的果蠅最佳味道濃度決定:
當Smell′(i)< Smell′(i-1)時,有

當目前迭代的最佳味道濃度值優于上一次迭代的最佳味道濃度時,k(i)<1。
當Smell′(i)≥Smell′(i-1)時,有

即上一次迭代的最佳味道濃度值優于目前迭代的最佳味道濃度,權重因子k(i)>1。為提高果蠅優化算法的全局搜索能力,應該通過增加下一次迭代搜索步長來擴大尋優范圍,提高全局搜索能力。由式(10)可知,當Smell′(i-1)與Smell′(i)的差值較小時,意味著當前搜索范圍內此次迭代尋優的最佳味道濃度值劣于上一次迭代的最佳味道濃度,當前搜索范圍的尋優效果一般,應使搜索步長R(i+1)以較快速度增加來更新搜索區域繼續尋找搜索空間最優解;反之,當Smell′(i-1)與Smell′(i)的差值較大時,意味著果蠅群體已經通過快速增大的步長到達更新的搜索范圍,由于當代尋優結果仍差強人意,應該讓搜索步長R(i+1)增加較慢,來繼續擴大尋優范圍。
LSSVM模型中的可調節參數(懲罰因子γ和核函數參數σ)的選取對模型的學習性能有很大的影響,采用改進的IFOA對LSSVM的兩個參數進行優化。
設置算法最大迭代次數(maxgen),種群規模(sizepop),隨機初始化果蠅群體的初始位置(X_axis,Y_axis,Z_axis),初始化果蠅個體的搜索步長R(1)=3。將改進果蠅算法應用到優化最小二乘支持向量機兩個參數(σ,γ)的具體算法流程圖如下:

圖1 IFOA-LSSVM算法流程圖
對于不同的機載激光掃描(Airborne Laser Scanning,ALS)系統的構造和飛行高度,在大多數情況下植被冠層的第1回波更趨于穩定,采用第1回波來提取森林參數。為排除灌木等低矮植被點的干擾,對高程歸一化后的激光雷達數據進行變量提取時,只提取高于2 m的植被點。選取以下LiDAR特征因子作為備選變量:最大高度(max)、最小高度(min)、平均高度(avg)、高度標準差(std)、高度偏斜度(ske)、高度峰度(kur)、高度絕對標準差(qav);點云百分位高度變量:p10、p20、p30、p40、p50、p60、p70、p80、p90、p95、p99;冠層返回點密度變量:b10、b20、b30、b40、b50、b60、b70、b80、b90、b95、b99;返回點數變量:c00、c01、c02、c03、c04、c05;返回點密度變量:d00、d01、d02、d03、d04、d05和冠層覆蓋度變量(cov)共41個變量。
以百分位高度p50,冠層覆蓋度變量cov為例,圖2為點云處理軟件TerraSolid中提取相關LiDAR變量三維示意圖。

圖2 提取百分位高度p50與冠層覆蓋度變量cov三維示意圖
為更好地擬合地上生物量與LiDAR特征變量的關系,提高模型的估測精度,分析每個LiDAR變量與樣地生物量的Pearson相關系數和顯著性水平;考慮特征變量間的共線性來選取與生物量相關性較高(p≤0.05)且獨立性好的特征變量;利用主成分分析法對選取的特征變量進行降維,去除冗余變量防止過擬合。
分別計算崖柏型(C型)、鐵杉型(H型)、云杉型(S型)和不分類(即不區分樣地林種N型)4種類型的Pearson相關系數,分析結果如圖3所示。

圖3 不同林種類型點云特征變量與地上生物量的Pearson相關系數分析
由Pearson相關系數分析結果可知,平均高度(avg)、點云高度絕對標準差(qav)、百分位高度(p10~p99)及返回點云密度(d00,d02,d03)與生物量之間的相關性較高;各林型與不區分林種類型時,各LiDAR變量與相應樣地地上生物量之間的相關性大小大體趨于相同,為得到區別于不同林種的LiDAR特征變量還需要進行相關性的顯著性檢驗。
實驗采用改進的FOA分別對LSSVM的參數(σ,γ)尋優,將各林型的點云特征變量經主成分分析后的主成分得分和森林地面生物量實測值作為估測模型作為實驗數據,2/3的數據用來訓練,1/3的數據作為測試。采用留一法交叉驗證對訓練數據集進行交叉驗證。
通過FOA算法對(σ,γ)兩個參數進行尋優,尋優目標為使濃度判定函數Smell(i)達到最小。果蠅種群規模為20,迭代次數為100,初始步長設置為3,σ的尋優范圍為[0,100],γ 的尋優范圍為[0,200]。以未分類型樣地的迭代尋優過程為例,迭代20步RMSE收斂,收斂最終值RMSE=0.012 5;經IFOA尋優計算后的未分類型森林地面生物量估測模型中:σ=2.393 0,γ =27.889 9。
圖4為FOA-LSSVM模型與IFOA-LSSVM模型的訓練收斂圖,可以看出IFOA-LSSVM模型的收斂速度更快且曲線梯度更高,圖5為2種模型對測試集數據集的生物量估測結果與真實值的對比,可以看出IFOA-LSSVM模型的估測值更加接近真實值,達到了更好的估測準確率。

圖4 FOA-LSSVM與IFOA-LSSVM訓練收斂過程對比

圖5 FOA-LSSVM與IFOA-LSSVM估測結果與真實值對比圖(未分類)
為了驗證IFOA-LSSVM模型的泛化能力和尋優精度,利用所建模型與測試數據集對崖柏型(C型)、鐵杉型(H型)、云杉型(S型)和不分類(N型)4種類型的樣地的森林地面生物量進行估測,并將該模型的估測結果與FOA-LSSVM、GS-LSSVM、PSO-LSSVM 的估測結果進行比較。采用均方根誤差(RMSE),平方相關系數(R2),作為評價指標,對比如表2所示。

表2 不同優化算法的LSSVM模型尋優參數和性能對比
對于未分類林型的森林地面生物量模型,IFOALSSVM模型估測生物量的均方根誤差值(RMSE)由FOA-LSSVM 的86.708 9 t/ha 下降到67.219 5 t/ha,誤差降低了28.99%。另外IFOA-LSSVM模型估測未分類林型生物量的值與實測值的相關系數(R2)由80.51%提升到89.44%,可見IFOA-LSSVM 模型的估測誤差更小擬合程度更好。對崖柏型、鐵杉型、云杉型,IFOA-LSSVM模型估測生物量的RMSE值分別由79.129 5、77.164 2、60.397 7 t/ha 下降到55.278 7、63.696 7、36.081 3 t/ha,誤差依次降低了30.14%、17.45%、40.26%;而且估測值與實測值的相關系數R2由93.99%、88.68%、84.06% 提升到96.68%、93.71%、91.28%。可見IFOA-LSSVM 模型對已分類的3種林型的生物量估測誤差和擬合程度均優于GSLSSVM、PSO-LSSVM、FOA-LSSVM。綜上可以得出IFOA-LSSVM估測模型的泛化能力更強、收斂速度更快、尋優精度更高。
本文以地面樣地獲取的林分特征為自變量,選用森林植被蓄積量-生物量轉化方法計算各林型樣地地上生物量。針對FOA容易陷入局部最優的問題,提出了一種改進的FOA,將群體搜索范圍由二維擴展到三維,并引入了基于反向學習的群體位置初始化操作,結合自適應更新步長的方法,提高了算法尋優精度與速度。采用改進的果蠅算法優化最小二乘支持向量機的懲罰因子和核函數參數,構建了基于IFOA-LSSVM的森林生物量估測模型,實驗表明在實驗條件相同的情況下,IFOA-LSSVM估測模型具有泛化能力強、收斂速度快、尋優精度高的特點,適合于對研究區域各林型樣地森林地上生物量的估測。