謝福明,字 李,舒清態(tài)
(西南林業(yè)大學 林學院,云南 昆明650224)
大氣中溫室氣體濃度上升引起的全球氣候變化,導致極端氣候事件頻發(fā),嚴重威脅著人類生存與社會經(jīng)濟的可持續(xù)發(fā)展,成為各國政府和科學家關(guān)注的重大環(huán)境問題。在應對全球氣候變化背景下,森林碳匯的相關(guān)研究成為科學界關(guān)注的熱點[1-3]。生物量是森林生態(tài)系統(tǒng)碳匯潛力評估的重要基礎(chǔ),如何快速、準確地獲取森林生物量信息,在20世紀90年代就成了森林生態(tài)系統(tǒng)與全球氣候變化研究的關(guān)鍵[4]。準確評估森林碳儲量的時空變化,不僅可以為森林資源的經(jīng)營管理和林業(yè)可持續(xù)發(fā)展提供的科學依據(jù),而且對碳循環(huán)及碳匯研究具有重要的意義。隨著遙感技術(shù)的不斷發(fā)展,利用數(shù)學模型結(jié)合實測樣地數(shù)據(jù)進行生物量的大尺度快速估測變得有效可行。k-最近鄰法(k-nearest neighbor,k-NN)作為一種非參數(shù)方法,已被廣泛用于多源林業(yè)調(diào)查和森林參數(shù)估計的反演。1990年,TOMPPO[5]首次將k-NN技術(shù)應用于芬蘭森林資源監(jiān)測中并取得了較好的效果。MCROBERTS[6]記錄了該技術(shù)在國際范圍內(nèi)被廣泛用于林業(yè)應用領(lǐng)域,包括森林調(diào)查空間插值預測、數(shù)據(jù)庫監(jiān)測、反演制圖、小區(qū)域估測和統(tǒng)計推理。從數(shù)據(jù)層面上來講,k-NN與Landsat影像,機載激光掃面數(shù)據(jù)和MODIS數(shù)據(jù)聯(lián)合使用估測評價森林屬性的研究較多,并且將機載激光掃描指標等主動遙感變量與光學遙感、大尺度森林變量等參數(shù)結(jié)合使用有助于提高k-NN模型的預測精度[7]。國外研究者在遺傳算法的優(yōu)化下,利用k-NN和機載激光掃描數(shù)據(jù)對森林資源調(diào)查、森林參數(shù)估測與評價等方面取得了較好的研究成果[8-10]。KATILA等[11]和TOMPPO等[12]運用數(shù)字地圖進行數(shù)據(jù)分層和使用遺傳算法對特征變量進行加權(quán)來作為一種提高預測精度的手段后,該方法得到了加強。利用遺傳算法對衛(wèi)星影像數(shù)據(jù)特征變量加權(quán)優(yōu)化將會提高估測精度,并且將優(yōu)化好的模型應用于單一森林屬性變量(如某個樹種)比同時應用于多變量的精度會提高許多[13]。然而,國內(nèi)的研究學者缺少對k-NN模型算法進行優(yōu)化改良的研究,僅局限于將傳統(tǒng)的k-NN運用于不同的森林參數(shù)估計。如陳爾學等[14]運用Landsat數(shù)據(jù)和傳統(tǒng)的k-NN法對小面積統(tǒng)計單元森林蓄積量估測,其結(jié)果表明采用k-NN法對縣市級統(tǒng)計單元森林參數(shù)的估測效果明顯優(yōu)于只利用固定樣地數(shù)據(jù)的傳統(tǒng)參數(shù)估測方法。郭穎[15]利用k-NN非參數(shù)回歸模型對甘肅省西水林場的森林地上生物量進行估測,并用隨機森林算法(RF)進行特征選擇后估測精度得以提升,優(yōu)化后的算法在處理錯誤樣本時具有良好的容錯能力。本研究使用遺傳算法對k-NN模型進行優(yōu)化,使模型預測結(jié)果的偏差、均方根誤差等最小化,以期提高模型的估測精度,實現(xiàn)對研究區(qū)高山松Pinus densata地上生物量儲量估計與空間反演制圖。
研究區(qū)位于滇西北迪慶藏族自治州香格里拉市境內(nèi)(26°52′11.44″~28°50′59.57″N, 99°23′6.08″~100°18′29.15″E)(圖 1)。 研究區(qū)地勢高聳,熱量不足,氣溫偏低,海拔為1 503~5 545 m,多年平均氣溫為5.5℃,歷年平均降水量為618.4 mm,平均降雪日為35.7 d,年日照率為40%~50%,屬山地寒溫帶季風氣候。境內(nèi)密集的金沙江水系支流、冰雪融水和高原湖泊等水資源以及以棕壤、紅壤為主的森林土壤類型孕育了豐富的植物資源。森林植被面積大,覆蓋率高,南北差異分布明顯,主要分布有10種植被類型,常見的樹種有云杉Picea asperata,冷杉Abies fabri,高山松,云南松Pinus yunnanensis和高山櫟Quercus semicarpifolia等。其中,高山松適應性廣,更新能力強,是喜光、耐旱、耐瘠薄的優(yōu)勢樹種。一般分布于云杉、冷杉林下限,海拔為2 800~3 500 m,林分外貌整齊,成片分布,以同齡單層林常見,占全市喬木林面積的22.7%。

圖1 研究區(qū)地理位置示意圖Figure 1 Location of the study area
從地理空間數(shù)據(jù)云(http://www.gscloud.cn/)獲取 Landsat 8/OLI影像 3景覆蓋整個研究區(qū):2015年11月9日(2景),軌道號分別為132/040和132/041;2015年12月20日(1景),軌道號為 131/041(圖 1)。 并采用軟件ENVI 5.3對衛(wèi)星影像進行輻射定標、大氣校正(FLAASH)和幾何精校正等預處理后提取單波段、多波段組合、主成分變換、纓帽變換、植被指數(shù)、紋理和地形特征 (由DEM提取)等共計123個因子,作為建模因子備選參數(shù)(表1)。

表1 遙感因子一覽表Table 1 A list of factors derived from remote sensing
地面實測數(shù)據(jù)49塊標準地和116株高山松樣木數(shù)據(jù)(表2):實測標準地數(shù)據(jù)于2014年10-11月,在云南省香格里拉市境內(nèi)的高山松分布范圍內(nèi)采集,在高山松分布范圍布設(shè)了49個大小為30 m×30 m的樣地,記錄了樹高、胸徑、樣地差分GPS定位坐標和海拔等。其中:林分地上生物量依據(jù)式(1)進行計算。

高山松樣木數(shù)據(jù)記錄了不同齡組下(包括幼齡林、中齡林、近熟林、成熟林、過熟林)116株高山松胸徑(DBH)和樹高(H),并測定了樹干、樹皮、樹葉、樹枝、樹冠生物量,用于擬合高山松地上生物量計算模型。本研究中的地上生物量由樹干、樹枝和樹葉3個部分的生物量構(gòu)成,生物量調(diào)查參照胥輝等[16]生物量測定方法。

表2 生物量實測數(shù)據(jù)基本信息表Table 2 Basic information of biomass measured data
首先,采用隨機抽樣法將116株樣木數(shù)據(jù)分成2個部分:2/3樣本作為建模樣本建立生物量估算模型,1/3作為檢驗樣本對模型進行檢驗。其次,采用相對生長模型(非線性模型),運用最小二乘法對高山松單木地上生物量(W)模型進行擬合,結(jié)果見式(1),擬合決定系數(shù)R2為0.980 7,均方根誤差RMSE等于46.73 kg,模型的驗證結(jié)果如圖2所示,檢驗決定系數(shù)R2等于0.995 7。
2.3.1 傳統(tǒng)k-最近鄰法(k-NN) 在k-NN的專業(yè)術(shù)語中,將待測變量及其特征變量的觀測值樣本指定為參考集,將待測變量的預測集指定為目標集,特征變量定義的空間成為特征空間。對于諸如生物量或蓄積量等連續(xù)性變量M在像元p上的預測值mp的計算方法如下:

式(2)中:mi為變量M參考樣地點i上的實測值;k為計算預測值mp時考慮的近鄰個數(shù);wip為像元權(quán)重值,其計算如下:

式(3)中:i是參考集樣本;p是目標集像元;pj是與參考集樣本j對應的樣本;為 距離分解因子;k,t為常量,一般通過實驗反復測試選取最佳值是與待測像元p在特征空間上最相似的k個參考集樣本。特征變量空間相似度由度量dpi,p,其計算方法如下:

式(4)中:fl,pj和fl,p分別為參考集和目標集樣本對應的遙感影像光譜波段及其派生因子等特征變量;nf為特征變量個數(shù);p為目標集像元;pi為參考集樣本i對應的像元;ωl,f為賦予特征空間中第l個特征變量的權(quán)值。
2.3.2 優(yōu)化k-最近鄰法(ik-NN)ik-NN與k-NN在方法原理上是一樣的,改進之處在于前者使用遺傳算法賦予了特征空間里的所有變量一個評價其重要性指標的權(quán)重向量,即式(4)中的ωl,f;而后者則賦予所有變量相同的權(quán)值。優(yōu)化的非單位矩陣ωl,f降低了不相關(guān)因子對因變量的影響,間接的起到了因子篩選的作用。

圖2 高山松單木地上生物量模型驗證Figure 2 Validation ofPinus densata aboveground biomass model
遺傳算法優(yōu)化ωl,f過程:(1)初始化。便于描述,將初始化權(quán)重向量群體比作染色體群體,權(quán)重向量的元素個體比作基因。隨機生成大小為[npop,nf]的數(shù)組作為初始化群體,運用二進制(0/1)對基因進行編碼,并計算每一個染色體的適應度γ,其計算公式見式(5),用于對初始染色體及子代染色體選擇的評價指標。(2)選擇。采用隨機遍歷采樣,根據(jù)自定義選擇概率ps將已有的優(yōu)良染色體復制后添入新染色體群體中,刪除劣質(zhì)染色體;染色體是否被選擇的依據(jù)是其適應度的大小,適應度大者被復制,小者被淘汰,確保新群體中的基因總數(shù)和初始群體相同。(3)交叉。利用交叉算子對染色體的基因編碼進行重組,發(fā)生的概率為pc,通過交叉操作可以得到新一代染色體,子代的染色體組合了父輩的特性。交叉是遺傳算法中最主要的操作,體現(xiàn)了信息交換的思想。(4)變異。變異首先在染色體群體中隨機選擇1個個體,對于選中的個體以突變概率pm隨機地改變其基因的編碼。同生物界一樣,遺傳算法中變異發(fā)生的概率很低,通常取值很小。
留一法交叉驗證,即對于N個樣本,每次從N個樣本中抽出1個樣本作為測試集,利用剩余的N-1個樣本作為參考集,重復N次循環(huán),直至結(jié)束。本研究將N個樣本的模型預測值(i=1,…,N)與對應樣本的實測值(yi)進行統(tǒng)計分析, 利用均方根誤差σ^[式(6)]和偏差e^[式(7)]及相對標準誤差百分比RMSE[式(8)]來檢驗模型的精度。


式(5)~(8)中:γ為遺傳算法適應度;ω為賦予特征變量的權(quán)值;nf為特征變量個數(shù);yi和y^i分別為第i個樣本的實測值與模型預測值;為模型預測值的平均值。
篩選特征變量的目的在于:①降低特征空間的維數(shù)提高算法的運行速率,保證研究的可行性;②排除不相干變量、選擇相關(guān)性顯著的特征變量來提高模型的精度。在SPSS軟件中分析特征變量與生物量之間的相關(guān)性顯著水平,綜合考慮特征空間的維度和模型精度后,從123個特征變量中選取16個與生物量極顯著相關(guān)的特征變量作為建模變量。表3是將特征變量分為原始、顯著相關(guān)和極顯著相關(guān)3個等級后逐一評價的結(jié)果,客觀地反映了不同特征變量等級下的模型精度。

表3 不同特征變量等級下的模型精度對比Table 3 Comparison of model accuracy under different level feature variables
3.2.1k-NN模型參數(shù)優(yōu)化配置k-NN模型需要確定3個重要的參數(shù):評估特征變量空間相似度的距離參數(shù)dpi,p;計算待測像元p的預測值時考慮的在特征空間上最相似的參考集樣本個數(shù)k及其加權(quán)方案wip。依據(jù)CHIRICI等[17]和謝福明等[18]的研究,在k-NN模型距離參數(shù)指標度量方式中,最常用的是歐氏距離(70%),其次是馬氏距離(3.5%),以及典型相關(guān)分析度量(1.9%),故本研究選取歐氏距離作為特征變量空間相似度的評價標準。k的選擇通常介于1~10,本研究結(jié)合相應的實驗數(shù)據(jù)選取的k=5,如圖3A:k≤5時,模型精度隨k的增大而提高,并在k=5時達最佳精度;k>5時,模型的精度逐漸降低。t即距離分解因子,在模型中的應用見式(3),t通常取0~2內(nèi)的值,其對模型精度的影響較小(圖3B),本研究t取 2。

圖3 k-NN模型精度隨k和t的變化曲線Figure 3 Change curve of model accuracy with the value of k and t
3.2.2 遺傳算法參數(shù)說明 遺傳算法最終的目的是為每一個特征變量計算出權(quán)重,并將其運用于k-NN模型來提高生物量的預測精度。算法中的主要函數(shù)調(diào)用于Sheffield遺傳算法工具箱,其中的參數(shù)值在實驗中反復測試、調(diào)試后確定。其中,圖4表明了適應度隨著遺傳迭代次數(shù)(10,30或50)的增加呈緩慢下降,當?shù)螖?shù)大于50時,適應度隨迭代次數(shù)的變化比較平穩(wěn),并趨向于穩(wěn)定。表4記錄了算法的最佳初始參數(shù)值和調(diào)用的主要算子。

表4 遺傳算法有效參數(shù)值與主要算子匯總Table 4 Parameters and main functions of genetic algorithm
k-NN模型及其優(yōu)化算法在MATLAB環(huán)境下調(diào)試、運行,算法給予每個特征變量初始化的權(quán)重值均相等(第0代),表5為第50代優(yōu)化的特征變量權(quán)重值(算法的參數(shù)設(shè)置同2.2所述),表5數(shù)據(jù)為標準化后的數(shù)值,其和為1。
本研究的主要目標是通過優(yōu)化方法降低像元尺度下模型的估測誤差,提高對高山松地上生物量的估測精準度。表6和圖5表明:(1)基于傳統(tǒng)k-NN模型的樣本生物量預測結(jié)果為16.2~92.6 t·hm-2,平均值為54.7 t·hm-2, 模型均方根誤差為 30.0 t·hm-2,偏差為-0.418 t·hm-2,RMSE為 54.8%(圖 5A);(2)遺傳算法優(yōu)化后的ik-NN模型精度得到了提升,均方根誤差為 24.0 t·hm-2, 偏差為-0.123 t·hm-2,RMSE為43.7%(圖5B)。與傳統(tǒng)k-NN模型相比,ik-NN模型的精度均方根誤差值降低了約6.0 t·hm-2,偏差下降比例達75.6%,模型精度RMSE提高了11.1%;(3)ik-NN模型的樣本估計值為23.3~95.2 t·hm-2,在均值上與實測值比較相近,約55.0 t·hm-2。但對于高生物量或低生物量區(qū)域的估測殘差仍較大,均出現(xiàn)高值低估,低值高估的現(xiàn)象。

圖4 遺傳算法優(yōu)化中適應度值隨遺傳代數(shù)的降低曲線Figure 4 Reduction of fitness value curve with the number of generations in optimization of genetic algorithm

表5 第50代優(yōu)化的特征變量權(quán)重值(遺傳代數(shù)為50,上限值為0.5)Table 5 Values of the elements of the weight vector for feature variables for the 50th optimization (with upper bounds 0.5 and 50 generations)

表6 高山松地上生物量實測值與模型預測值統(tǒng)計結(jié)果Table 6 Statistics of observations and model predictions of aboveground biomass of Pinus densata
像元尺度下的定量反演是一項極其密集的任務,需要逐一計算研究區(qū)內(nèi)的每一個像元,對計算機內(nèi)存需求大,故本研究把研究區(qū)分成多塊區(qū)域后再逐一估測反演。圖6為k-NN和ik-NN 2個模型局部反演結(jié)果:k-NN 模型的預測為 20.0~97.5 t·hm-2, 平均值為 49.5 t·hm-2, 標準差為 13.1 t·hm-2(圖 6A);ik-NN 模型的預測值則為 18.4~113.7 t·hm-2, 平均值為 49.3 t·hm-2, 標準差為 13.5 t·hm-2(圖 6B)。 模型的反演結(jié)果中離散分布的像元較少,近鄰相關(guān)性好,更好地體現(xiàn)了變量的區(qū)域相關(guān)性。依據(jù)森林資源二類調(diào)查統(tǒng)計數(shù)據(jù),研究區(qū)高山松分布區(qū)面積為1.74×105hm2,其地上總生物量估測結(jié)果為0.89×107t。圖7為ik-NN模型的高山松地上生物量空間分布等級圖,生物量等級在16.8~108.9 t·hm-2之內(nèi),主要分布在45~75 t·hm-2。

圖5 模型優(yōu)化前后生物量的估測精度對比Figure 5 Comparison of estimation accuracy of aboveground biomass of Pinus densata between k-NN and ik-NN model

圖6 像元尺度下的k-NN/ik-NN模型局部反演對比Figure 6 Comparison of local inversion of k-NN/ik-NN model on pixel scale
本研究使用遺傳算法實現(xiàn)對k-NN模型中的特征變量賦予相應的權(quán)重值后,構(gòu)建加權(quán)歐氏距離,結(jié)合衛(wèi)星數(shù)據(jù)和地面實測樣地數(shù)據(jù)建立了優(yōu)化的k-NN估測回歸模型,估算出香格里拉高山松地上生物量儲量,反演出地上生物量分布等級圖。結(jié)果顯示:k-NN算法參數(shù)k和t分別取值為5和2時,模型的預測效果最佳;基于遺傳算法優(yōu)化的ik-NN模型預測精度優(yōu)于傳統(tǒng)的k-NN模型,均方根誤差為24.0 t·hm-2,偏差為-0.123 t·hm-2,RMSE為43.7%。研究區(qū)像素級水平下高山松地上生物量的預測值為16.8~108.9 t·hm-2, 總估計值為 0.89×107t。
CHIRICI等[17]研究顯示:使用衛(wèi)星光譜數(shù)據(jù)作為特征變量時,需要大量的樣本來獲取較小的相對標準誤差百分比,這與本研究結(jié)果相符合。本研究k-NN模型的參考樣本偏少,且參考樣本在空間分布上相對集中(圖1),所以生物量的預測結(jié)果殘差較大,出現(xiàn)高值低估,低值高估的現(xiàn)象;造成這一現(xiàn)象的另一個原因是k-NN法本身存在的缺陷,即只能局限于實測值范圍內(nèi)對未知單元進行估測,預測值不會超出實測值的范圍,模型算法中k個參考樣本間的加權(quán)求和降低了估計值的方差,從而產(chǎn)生了更大的估測誤差。但k-NN在大尺度區(qū)域上的森林資源監(jiān)測中有很大的潛力,不僅適用于森林參數(shù)的估測反演,還適用于森林調(diào)查空間插值預測、數(shù)據(jù)庫監(jiān)測、小區(qū)域估測和統(tǒng)計推理等研究[19-20],并且從以下方面做出突破可以有效提升其預測能力,為生活生產(chǎn)實踐提供更好的技術(shù)借鑒:①k-NN在搜索最近鄰個體時應限制搜尋的范圍,如限制一個搜尋半徑或在指定的圖斑區(qū)域,而不是全局搜索,充分利用區(qū)域化變量的特性來提高模型的估測精度。②利用地物光譜的差異性,結(jié)合星載、機載高光譜數(shù)據(jù)和地面實測高光譜數(shù)據(jù)或者其他能夠區(qū)分地物的單波段,利用最近鄰法或其他機器學習算法實現(xiàn)對地物的精細識別,提高區(qū)域尺度上的地物分類精度,進而提高對其生理生化參數(shù)定量估測的準確性。

圖7 像元尺度下香格里拉市高山松地上生物量反演結(jié)果示意圖Figure 7 Spatial distribution of Pinus densata aboveground biomass in Shangri-la at the pixel scale