曹劍俠,溫仲明,2,李銳,2
(1.西北農林科技大學資源環境學院,陜西楊凌712100;2.中國科學院水利部水土保持研究所,陜西楊凌712100)
隨著全球變化對物種多樣性的影響,準確預測物種的空間分布及其對氣候變化的響應,成為近年來生態學和生物保護研究的熱點[1-3],并開展了大量的研究工作,建立了很多新的模型方法,如廣義相加模型(generalized additive model,GAM)[4]、分類回歸樹(classification and regression tree analysis,CTA)[5-6]、神經網絡系統[7]、基于規則的遺傳算法預測(genetic algorithm for rule set prediction,GARP)[8]等,為生物多樣性保護和生態恢復決策及評估等提供了重要技術支持。但對于具體的物種分布預測,選擇什么樣的模型方法,往往因模型的背景、原理和適用條件等的差異而不同,選擇什么樣的模型方法比較合適對于應用者具有一定的難度[9]。因此,對目前主要的物種分布模型進行比較研究,并對其預測精度進行評估,具有重要的指導意義。
黃土高原地區丘陵起伏,地形復雜,物種與環境關系復雜[10]。溫仲明、赫曉慧等[1,11-12]利用廣義相加模型研究了延河流域自然植被分布與環境的關系,初步表明,利用非線性建模途徑的預測結果要好于線性模型,但除此之外,是否還有更合適的模型來研究該區的物種空間分布,目前尚未有深入探討。為此,本文選擇延河流域為研究區,針對黃土高原特殊的自然地理環境,綜合考慮影響植被分布的主要因素,對目前物種分布研究中比較常用的9個模型進行比較研究,以確定適宜的物種分布預測模型,為該區域植被恢復的規劃、保護和管理等提供科學依據,亦希望為我國植被—環境研究提供借鑒。
延河流域位于 36°23′—37°17′N,108°45′—110°28′E之間,流域全長286.9 km,總面積7 687 km2,平均坡度為4.3‰ ,河網密度約為4.7 km/km2。本流域屬大陸性氣候,年降雨量500 mm左右,年平均氣溫9℃,立地環境多變,影響物種空間分布的因素眾多,涉及溫度、降雨、蒸發及地形、土壤等因素。從東南向西北,降雨、溫度具有明顯的梯度變化特征,植被分布也呈現漸次變化,從南向北分為南部遼東櫟(Quercus liaotungensis)、刺槐(Robinia pseudoacacia)、油松(Pinus tabulaeformisCarr)、闊葉—針葉混交林帶,中部延安到安塞之間為檸條(Caragana korshinskiiKom)、白羊草(Bothriochloa ischaemun)等草灌過渡帶,安塞以北為百里香、長芒草(Stipa bungeana)草原帶,隨環境梯度的變化明顯。該區植物資源較豐富,植物物種總數大體為589種,分屬81科[13]。
根據目前進展,非參數模型在建立物種分布模型方面較線性模型有較大的優勢,本文選擇的9個模型,除廣義線性模型[14]外(generalized linear model,GLM),也大多為非參數模型,如廣義相加模型[14]、分類回歸樹分析[15]、人工神經網絡、面域包絡模型(surface range envelope,SRE)、廣義增強模型(generalized boosting model,GBM)、隨機樹(breiman and cutler's random forest for classification and regression/Random Forest,RF)、混合判別式分析(mixture discriminant analysis,MDA)、多元自適應回歸樣條(multiple adaptive regression splines,MARS)。這9個模型作為利用點數據進行空間預測的重要方法,可分別在一系列響應變量和環境因子之間建立統計關系,對于預測單個物種對多個環境變量的綜合響應非常方便且具有深遠的意義。
2.2.1 植被數據的采集與處理 取得具有代表性的空間樣本數據,是物種分布模型建立的基礎。本文采用環境梯度分層采樣技術進行植被樣本數據的采集,首先將延河流域劃分為17個環境梯度單元;然后在不同的梯度單元內,根據每個梯度單元內的柵格數量,確定相應的需采集的樣點數量進行采樣。采樣時以環境梯度單元為基礎,考慮不同立地條件,對處于穩定狀態的或頂級演替階段的自然植物群落進行調查。樣地設置采用典型取樣法,對林地樣方一般設為10 m×10 m,草本樣地為2 m×2 m。每個喬木群落內設置1個灌木樣方(5 m×5 m),10個草本樣方,每個灌木群落內設置 10個草本樣方。數據采集是逐次進行的,時間為2005年,2006年及2008年。經過數據質量校驗,剔除部分研究區的誤差樣本(流域界外或數據記錄缺失),最后實際可用的樣點數為280個。物種數據(響應變量)整理為二元數據,即物種存在用1表示,不存在用0表示。
2.2.2 環境因子的選擇與獲取 在對影響植被分布的主要環境因子進行分析的基礎上,重點考慮了區域性的環境預測變量數據,主要包括兩類,分別為氣候因子和地形因子。
氣候數據為1980—2000年延河流域及周邊地區57個氣象站點的氣象資料,來源于黃土高原各省、縣屬氣象局。根據現有研究,氣候因子主要指溫度和降雨[16-17]。根據對植被生長發育的影響,選擇了年均最冷月氣溫、年均最熱月氣溫、年均植被生長季節氣溫、年均氣溫、年均雨季降雨量、年均總降雨量、年均蒸發量、降雨季節變化和溫度季節變化9個指標來表征氣候對植被分布的影響。由于氣象站提供的是逐年逐月的平均氣溫、極值溫度與降雨,因此各因子指標需要通過運算求得,計算方法參見文獻[11]。
地形主要指地形的起伏變化,是影響局部植被空間分布的重要因素,依據地形因子的重要性,本研究選擇坡度、坡向、高程與地形部位4個地形因子參與模型的建立。其中,坡度、坡向可從DEM直接生成,高程從DEM直接讀取。地形部位本文采用高程殘差分析,并結合坡度,將延河流域的地形部位劃分為7類,即河道與溝間平地、下坡位、中坡、上坡、峁頂、高平地和細小溝谷。
2.2.3 軟件工具 本研究采用R語言和BIOMOD程序包構建模型。R是近年來普及速度非常快的應用軟件系統,內含許多實用的函數,資源豐富且可擴展性強[18-19]。BIOMOD是基于R語言的一個程序包,通過對模型中各個參數進行多次試驗分析,確定模型的所有參數,并且提供了多種方法對模型進行檢驗。
2.2.4 模型驗證和評估 在BIOMOD中對模型的評價有兩類:擬合度的評估和模型的精度評價。前者使用與每個模型相對應的標準方法,如 ANOVA、AIC等;后者可用3種不同的技術方法(kappa,true skill statistics,Roc曲線)來評估模型的性能。本研究運用數據分割技術,將整個原始數據分為2個子集,通過比較不同比例隨機分割數據的效果,最終取總數據集的80%作為訓練子集,用來校正模型;余下的20%作為評估子集,用來驗證模型。同時,應用Roc,Kappa和TSS3種方法來評估和比較模型精度。
哪些因素會影響到物種的空間分布,不同的模型有不同的結果。BIOMOD能夠計算提取出各個變量的相對重要性值。其值一般在0~1之間,值越高意味著變量越重要,0意味著變量根本不重要,當重要值大于1時表明該變量非常重要。本文僅以長芒草和虎榛子(Ostryopsis davidiana)為例,具體說明不同模型在分析物種分布影響因素方面的差異(表1)。

表1 各環境因子的重要值
由表1可知,各環境因子在不同物種不同模型中的重要性差別很大。如年均溫在預測長芒草分布的MARS模型中非常重要,而在其它模型中則根本不重要;年均最熱月氣溫在預測虎榛子的MARS模型中非常重要,而在預測其它物種的MARS模型中(其在預測百里香、鐵桿蒿、白羊草分布的MARS的重要值均為0)則根本不重要。通過模型比較,可以清楚地看出影響物種分布的主要環境因素,如長芒草在延河流域的空間分布主要受年均降雨量的影響,坡度、年均雨季降雨量、年均溫度、年均蒸發量、高程也會對其有所影響,而地形坡位對其幾乎沒有影響。同時,所選的9個模型,由于其本身的側重點不同,故選取的環境變量也不同并且數目差異較大,如RF模型選取的環境變量比較多,而CTA和GLM模型選取的環境因子都很少。
R—BIOMOD不僅可以分析各模型中影響物種分布的主要環境因素,并可以繪制模型的預測結果圖(僅以長芒草為例,如圖1),圖中越接近黑色部分表示物種的出現概率越大。盡管8個模型的環境因子、算法、假設、計算內容和預測性能各不相同,但從分布圖上看,就預測的總體趨勢而言,其幾乎在全流域都有分布,且主要分布在延河流域中北部,與溫仲明、郝曉慧[1,12]等人的研究相符。但不同模型的預測結果圖是有所差別的,如在流域南部,8個模型的預測結果都不相同。這需要進一步通過模型精度比較,選擇出最優的模型并結合實際情況加以判斷。

圖1 長芒草(Stipabungeana)各個模型的預測結果
常用的模型評價指標有總體準確度(overall accuracy)、靈敏度(sensitivity)、特異度(specificity)、Kappa統計量[20]、TSS[20](true skill statistic)和AUC[20]。將評估子集的數據代入訓練后的模型中,用其所得結果給出3種方法相應的結果,以此來評估不同模型對所選8個物種分布的模擬精度。
Roc方法是使用ROC曲線來表示模型敏感度與特異性之間的平衡度,ROC曲線是以1-特異度為橫坐標,以靈敏度為縱坐標繪制而成,曲線下面積(AUC)的大小作為模型預測準確度的衡量指標。其值一般介于0.5~1之間,值愈大,表明模型愈優。由表2可知,用同一模型模擬不同物種的分布,用此方法評估ANN等8個模型對8個物種預測精度的平均值分別從0.7~1不等,表明各個模型模擬精度有所差別,以RF最優,GBM和ANN效果良好,而其余4個模型的模擬效果均不理想。同時,就某個特定的物種來說,不同模型對其分布的模擬效果也差別較大,如鐵桿蒿、茭蒿和白羊草,只有RF和GBM 模型模擬成功,其它6個模型均模擬失敗;而所有的模型對百里香和大針茅的模擬效果都比較好。
Kappa統計量綜合考慮了物種分布率、靈敏度、特異度,其值介于0~1之間,值愈大,表明模型愈優。由表3可知,用此方法評估ANN等9個模型的平均值從0.282到0.991,模擬精度差別很大。除SRE模型精度不合格外,其它8個模型的模擬精度都可以。模型的模擬效果從優到劣依次為:RF>GBM>ANN>MARS>GAM >CTA >MDA>GLM >SRE。

表2 用Roc方法評估9個模型對8個物種分布模擬的值

表3 用Kappa方法評估9個模型對8個物種分布模擬的值
TSS方法考慮了冗余和替代性誤差,其值介于0~1之間,值愈大,表明模型愈優。由此方法評估ANN等9個模型的模擬精度,其結果也有所差別,其中除RF模擬精度非常好和SRE模擬精度非常差之外,其它7個模型的模擬精度都一般。
所選的9個模型對長芒草等8個物種分布的模擬精度3種方法有所差異:Roc方法均達到很好的模擬效果;TSS和Kappa值亦取得不錯的效果。其中,9個模型對百里香和虎棒子的模擬效果最為突出,3種方法評估值都較高,均達到非常好的模擬效果。對長芒草、大針茅分布預測的SRE模型模擬失敗,Kappa值分別為0.241,0.310,其它模型的模擬效果則較好。對鐵桿蒿分布預測的9個模型評估的3種方法評估值均最低,以Kappa值為例,對鐵桿蒿分布的SRE模型、MARS模型、MDA模型模擬的 Kappa值分別為0.043,0.184,0.202,模擬效果失敗,而其他的模型除RF和GBM外,模擬效果全部失敗。但是無論從3種方法的Kappa值、TSS值還是Roc方法的AUC值來看模型的模擬效果,RF模型、GBM模型和ANN模型都優于其他模型,SRE模型模擬精度最差。
由于不同模型關于物種分布和環境關系的假設和運算法則各不相同,故很難對不同模型的預測進行比較。但BIOMOD則可以在過程中對模型進行直接比較,其專門的函數將迭代在模型的每一次運算中,根據所選的模型評價方法確定哪個模型具有最高的預測精度(表4)。由表4可知,不管使用Roc,Kappa或TSS,對研究區所選的8個物種,RF都具有較好的預測性。
本文針對模型眾多且研究者難以選擇的問題,選擇ANN等9個近年來在物種分布中應用的模型,利用BIOMOD模型工具,對延河流域長芒草等8種物種的地理分布進行比較研究。結果表明,9個模型對不同物種的模擬效果有所差異,對百里香和虎棒子的模擬效果較好,對鐵桿蒿和白羊草的預測效果較差。用Roc曲線評價的9個模型對研究區8種物種的分布預測,均達到較高的精度,而另外兩種指標評價的9個模型的模擬預測效果都在一般。總體而言,所選的9個模型對長芒草等8種物種的分布預測各有千秋,其中以RF模型的模擬效果最優,模擬精度最高;GBM模型、ANN模型、MARS模型也比較理想;GLM 模型、MDA模型很差。

表4 各個物種的最優模型
當然利用BIOMOD構建物種分布模型,由于模型函數是以程序包的形式被用戶調用,會在模型的選取、構造和運算時,存在方法比較單一、參數形式簡單化的不足,然而,作為研究物種—環境關系的新平臺,R語言和BIOMOD提供了較多的構建模型的方法和參數形式,能夠針對同一套數據構建不同的模型關系,并對預測結果進行優劣評估,對于模型選擇具有非常重要的意義,也為進一步深入研究物種分布模型奠定了基礎。
[1] 溫仲明,焦峰,焦菊英.黃土丘陵區延河流域潛在植被分布預測與制圖[J].應用生態學報,2008,19(9):1897-1904.
[2] Zaniewski A E,Lehmann A,Overton J M.Predicting species spatial distributions using presence-only data:a case study of native New Zealand ferns[J].Ecological Modelling,2002,32(4):261-280.
[3] Remm Kalle.Case-based predictions for species and habitat mapping[J].Ecological Modelling,2004,177(3/4):259.
[4] Guisan A,Edwards J T C,Hastie T.Generalized linear and generalized additive models in studies of species distributions:Setting the scene[J].Ecoogical Mcoloical,2002,157:89-100.
[5] 溫小霓,蔡汝駿.分類與回歸樹及其應用研究[J].統計與決策,2007(23):14-16.
[6] Moisen G G,Freeman E A,Blackard J A.Predicting tree species presence and basal areain Utah:A comparison of stochastic gradient boosting,generalized additive models,and tree-based methods[J].Ecological Modelling,2006,199:176-187.
[7] Manel S,Dias J M,Ormerod S J.Comparing discriminant analysis,neural networks and logistic regression for predicting species distributions:A case study with a Himalayan river bird[J].Ecological Modelling,1999,120:337-347.
[8] Anderson R P,Lew D,Peterson A T.Evaluating predictive models of species distributions:Criteria for selecting optimal models[J].Ecological Molelling,2003,162:211-232.
[9] Leathwicka J R,Elithb J,Hastiec T.Comparative performance of generalized additive models and multivariate adaptive regression splines for statistical modelling of species distributions[J].Ecologica Modelling,2006,199:188-196.
[10] 余衛東,閔慶文,李湘閣.黃土高原地區降水資源特征及其對植被分布的可能影響[J].資源科學,2002,24(6):55-60.
[11] 溫仲明,赫曉慧,焦峰,等.延河流域本氏針茅(Stipa bungeana)分布預測:廣義相加模型及其應用[J].生態學報,2008,28(1):192-201.
[12] 赫曉慧,溫仲明,王金鑫.基于GAM模型的延河流域主要草地物種空間分布及其與環境的關系[J].生態學雜志,2008,27(10):1718-1724.
[13] 付坤俊.黃土高原植物志:第5卷.[M].北京:科學文獻出版社,1989:10-200.
[14] Hastie T J,Tibshirani R J.Generalised Additive M odels[M].London:Chapman and Hall,1990:3-10.
[15] Vayssieres M P,Plant R E,Allen-Diaz B H.Classification trees:an alternative non-parametric approach for predicting species distributions[J].Journal of Vegetation Science,2000,11:679-694.
[16] 李斌,張金屯.黃土高原地區植被與氣候變量的關系分析[J].生態學報,2003,23(1):82-89.
[17] Heinrich Walter.Vegetation of the Earth[M].Beijing:Science Press,1984:5-10.
[18] Venables W N,Smith D M.The R Development Core Team.An Introduction to R[M].2009:34-98.
[19] Emmanuel Paradis.R for Beginners[M].2005:37-71.
[20] Wilfried Thuiller,Bruno Lafourcade,Miguel Araujo.ModOperating Manual for BIOMOD[M].2009:10-90.