宓春榮,郭玉民,*,Huettmann Falk, 韓雪松
1 北京林業大學自然保護區學院,北京 1000832 EWHALE Lab, Department of Biology and Wildlife, Institute of Arctic Biology, University of Alaska Fairbanks (UAF), AK 99775, USA
基于物種分布模型的精確采樣提高目標物種發現率
——以黑頸鶴(Grusnigricollis),白頭鶴(Grusmonacha)為例
宓春榮1,郭玉民1,*,Huettmann Falk2, 韓雪松1
1 北京林業大學自然保護區學院,北京 1000832 EWHALE Lab, Department of Biology and Wildlife, Institute of Arctic Biology, University of Alaska Fairbanks (UAF), AK 99775, USA
明確野生動植物的地理分布是基礎生態學和應用生態學領域的一個基礎但關鍵的步驟,為后續分析提供了重要的信息。而野生動植物分布調查是一項需要投入大量人力,精力和資金的工作,特別是稀有物種的調查。物種分布模型越來越受到廣泛引用尤其是在生物保護方面。為了證明物種分布模型在野生生物調查中精確采樣方法的可行性,以全球易危物種黑頸鶴和白頭鶴的實際繁殖分布預測為例,使用隨機森林(Random Forest)算法加以驗證。比較發現物種分布模型預測實際調查分布點,隨機樣方法生成的隨機點,系統樣方法的規則點在空間相對出現概率具有顯著差異(P<0.001),實際分布點具有較高的相對出現概率。該結果表明若在物種分布相對出現概率較高區域設置樣方能夠減少實際調查區域,有效提高發現目標物種的概率,從而減少調查投入。基于物種分布模型的精確采樣方法將有效地提高我們對稀有物種分布的了解,有利于野生動植物的保護規劃。
物種分布模型;隨機森林;精確采樣;黑頸鶴;白頭鶴
明確物種的空間分布是許多保護工作如蟲害防治,保護區建設的首要工作[1]。野外調查野生物種尤其是稀有物種是一項需要投入大量人力、時間和資金的艱巨任務。使用傳統樣方法和樣線法調查野生物種時由于其數量稀少,大多數樣方內并不能找到相應物種,所以樣方的設計需要和物種分布情況相適應[2];而對于某一物種分布情況的了解程度常受限于是否有專家可以咨詢以及由于專家所處位置的地理限制而造成的知識偏見[3]。因此,有助于在野外快速而有效地發現特定目標物種的方法具有重要的實用價值。
物種分布模型(Species distribution models,SDMs)或生態位模型(Ecological niche models)[4],是將物種的分布信息和對應的環境變量信息依據一定的算法得出物種分布與環境變量之間的關系,并將這種關系應用于所研究的區域,進而對目標物種分布進行估計的模型[5, 6]。物種分布模型越來越成為生態學,生物地理學,保護生物學[7],影響評價[8],氣候變化研究[9, 10]的一個重要研究工具。物種分布模型在生物保護方面的其中一個重要應用是為稀有和瀕危物種制作空間分布圖,了解這些物種在哪些區域更可能出現[11- 13]。
黑頸鶴(Grusnigricollis)是世界15種鶴類中唯一生活在高原的鶴類,被IUCN列為全球易危物種(VU)[14]。黑頸鶴是鶴科中科學紀錄最晚的一個種,俄國探險家Przhevalsky于1876年在青海湖取得標本,但自此以后的100多年來,人們對黑頸鶴的狀況幾乎是一無所知[15]。近40年來,黑頸鶴的研究取得迅速進展, 積累了較豐富的資料。黑頸鶴目前種群數量約11000只,繁殖地點相對集中于西藏中西部、青海東部,四川北部[16],甘肅南部和北部。同時,有小部分種群分布于不丹和印度[15]。白頭鶴(Grusmonacha)被IUCN列為易危物種(VU)[14],目前全球數量為11160只[17]。白頭鶴繁殖于俄羅斯西伯利亞東南部以及黑龍江流域;大部分個體越冬于日本南部鹿兒島地區,另外有少量個體越冬于韓國和我國的長江中下游地區。白頭鶴的第一個繁殖巢于1974年在俄羅斯被發現[18],在我國首個白頭鶴繁殖巢在1993年黑龍江小興安嶺地區的通北發現[19]。
雖然物種空間預測分布圖已被應用于諸多領域,如保護區規劃,但是空間預測結果的可信性尚未被野外調查真實數據充分證明。基于此,本文以易危物種黑頸鶴和白頭鶴的繁殖空間分布預測為案例,采用隨機森林模型算法來評估基于物種分布模型的精確采樣方法的有效性和可行性。
1.1 研究區域
根據現有的黑頸鶴和白頭鶴繁殖分布點,將其所在位置作為主體,再向外延伸一定距離作為研究區域,黑頸鶴研究區域為78°13′—104°54′E,25°40′—42°31′N;白頭鶴研究區域為120°20′—145°55′E,43°18′—56°17′N(圖1)。

圖1 黑頸鶴和白頭鶴研究區圖,其中紅點表示建立模型所用的訓練點,黑點表示驗證模型準確度的驗證點Fig.1 The study area of Black-necked Crane and Hooded Crane. Red dots display the Training samples used to construct species distribution models, black dots display the Test samples used to evaluate model accuracy
1.2 物種數據
在2002—2014年間,通過收集文獻資料和當地居民提供的黑頸鶴信息,借助高倍望遠鏡輔以實地地毯式調查。記錄觀察點經緯度,黑頸鶴距觀察點的角度和距離,然后確定黑頸鶴出現位置經緯度信息,共收集到黑頸鶴繁殖點58個,在本研究中作為黑頸鶴模型的訓練點;調查范圍包括甘肅、青海和四川三省,基本涵蓋已知的黑頸鶴所有繁殖分布區。2014年在西藏南部的定結定日縣濕地發現17個黑頸鶴繁殖點,系為首次調查發現[20],將其作為黑頸鶴模型驗證點。2002—2014年期間運用黑頸鶴調查相同方法在中國境內共發現白頭鶴繁殖巢33個,本研究中作為白頭鶴模型訓練點;這些點涵蓋已知的國內所有繁殖分布區。2014年利用GPS-GSM衛星跟蹤器對白頭鶴跟蹤。繁殖期間個體移動速度為0的跟蹤點大量聚集(>200)在一個半徑為2—3km的區域,則將該區域中心經緯度作為繁殖點。以此在俄羅斯境內共發現繁殖點12個,在本研究中作為白頭鶴模型的驗證點(圖1)。
1.3 環境變量
選取了21個分辨率為30弧秒的環境變量作為模型自變量,包括4個地形地理變量(海拔、坡度、坡向、離海岸線距離),2個水源變量(離河流距離、離湖泊距離),3個人為干擾變量(離公路距離、離鐵路距離、離居民點距離),1個土地覆蓋因子,11個生物環境氣候變量(表1)。
1.4 模型建立
本研究選擇隨機森林(Random Forest[21])作為物種分布模型算法。選擇隨機森林模型是基于其出色的預測能力和被研究人員廣泛應用[22- 24]。隨機森林是一種相對新穎的機器學習方法,屬于組合模型(Ensemble models)的一種。其基本算法思想是:假設建模人知道單個分類樹的構建,隨機森林通過自舉法(bootstrap)隨機選擇變量生長成分類“樹”,每棵樹都會完整生長而不作修剪(pruning)。并且在生成樹的時候,每個節點的變量都僅由隨機選出的幾個變量中產生[25]。一般情況下,隨機森林隨機地生成幾百個至幾千個分類樹,然后選擇重復程度最高的樹作為分類和回歸的最終結果[26]。隨機森林能夠得到很高的預測準確性而不產生過擬合現象[21, 27],然而這點尚有爭議[26, 28]。本研究使用Salford Predictive Modeler (SPM)軟件中的Random Forest 算法構造模型及分布于預測。SPM軟件對隨機森林模型進行了內部優化[29]。

表1 環境變量圖層描述
分別在黑頸鶴和白頭鶴的研究區內生成10000個“偽不存在 (Pseudo-absence)”點。用Geospatial Modeling Environment(GME)軟件分別為兩個物種的分布點和“偽不存在點”提取21個環境變量信息,然后用Salford Predictive Modeler (SPM) 軟件建立預測模型。模型設置1 000棵樹,權重為平衡(Balance),其他設置選擇默認[10]。
為了進行空間預測,用GME軟件分別在黑頸鶴和白頭鶴研究區域內生成5 km×5 km規則格網點(regular points),同時提取經緯度和21個環境變量信息。使用SPM軟件將之前生成的黑頸鶴和白頭鶴模型文件預測每個格網點的適宜分布指數,然后在ArcGIS 10.1中使用反距離加權方法(Inverse Distance Weighted, IDW)插值得到預測圖。
1.5 模型驗證和分析
本研究使用AUC(area under the curve of receiver operator characteristic (ROC) curves)值[30-31]來評價模型,因為AUC值不受閾值的影響,而被廣泛的應用于物種分布模型的評價[32- 34]。AUC 評價模型的標準[30]是:極好,0.90—1.00;好,0.80—0.90;一般,0.70—0.80;差,0.60—0.70;失敗,0.50—0.60。使用SPM軟件分別計算黑頸鶴和白頭鶴驗證點和在研究區域內生成的100個隨機點的相對出現概率,然后利用R軟件的SDMTools包計算AUC值。此外,為了比較基于物種分布模型進行采樣設計的方法與傳統取樣方法的差異,在黑頸鶴和白頭鶴的研究區內分別生成50 km×50 km的格網點用來模擬系統采樣,并比較驗證點,100個隨機點(模擬隨機采樣)和規則點的相對出現概率。
2.1 AUC模型評價結果
黑頸鶴模型的AUC值為0.74,白頭鶴模型的AUC值為0.75。根據Swets[24]和Allouche等[35]的分級,模型準確度屬于一般等級(Fair)。
2.2 模型準確性空間分析
圖2展示了黑頸鶴和白頭鶴的預測分布圖。從圖中可以看到驗證點很好地疊加在預測到的適宜分布區范圍內。尤其是白頭鶴驗證點很好的覆蓋在狹長的高適宜分布區域內。比較驗證點,隨機點和規則點所在位置的相對出現概率值 (圖3),發現驗證點的出現概率要遠高于隨機點和規則點,方差分析表明具有顯著差異(P<0.001)。

圖2 黑頸鶴預測圖和白頭鶴預測圖Fig.2 Prediction maps of two cranes. prediction map of Black-necked Crane and prediction map of Hooded Crane其中紅點表示建立模型所用的訓練點,黑點表示驗證模型準確度的驗證點

圖3 黑頸鶴和白頭鶴隨機點,規則點和驗證點比較的箱線圖Fig.3 Boxplots of Random points and Regular points versus Testing points for Black-necked Cranes and Hooded Cranes
本研究結果表明利用物種分布模型預測到黑頸鶴和白頭鶴實際分布點驗證點的物種相對出現概率要高于傳統的隨機采樣方法,系統采樣方法設計的采樣點的出現概率,并具有顯著差異(P<0.001)。說明物種分布模型具有很好的識別物種真實分布的能力。借助于物種分布模型將物種出現概率高的區域作為實際需要調查區域,將大大縮小實際需要調查的區域,進而提高了調查效率[36],從而減少調查投入,為野外調查提供了一個有效而可靠的工具。
以往研究中對物種分布模型或生態位模型的驗證往往是從總體樣本中選取部分樣本用于驗證[10, 25, 37],而本研究的驗證數據與訓練數據來源不同,并不是從總體中選取部分,且大都位于訓練數據圍成的不規則區域外,距離遠于訓練數據內部距離。與來源于與訓練數據同一數據集的部分樣本來評價模型的方法相比更為客觀,對模型驗證更具有說服力,雖然模型準確度系數會相對偏低。
本研究的研究對象為黑頸鶴和白頭鶴繁殖分布預測,黑頸鶴和白頭鶴分別在高原濕地和森林沼澤區域繁殖,環境差異大。在2002—2014年間共調查得到75個黑頸鶴繁殖點和45個白頭鶴繁殖點,數據獲取困難。所建模型基于的樣本數分別為58個和33個,屬于小樣本模型,但是對實際調查所獲得的驗證數據仍具有很好的預測能力。說明利用物種分布模型方法對瀕危物種和分布數據難以獲取(如偏遠區域和難以到達區域,像本研究的兩個例子)的物種的調查以及保護規劃將起到巨大作用。
本文只選取隨機森林算法作為物種分布模型,這是因為在前期工作中發現相較于TreeNet (Stochastic Gradient Boosting[38]), CART (Classification and Regression Tree[39]), Maxent (Maximum Entropy Models[40])和4種模型的組合模型, 隨機森林模型對小樣本具有更好的預測能力。不同物種的生活環境不同,異質性不同,不同物種的空間預測基于的基礎單元(grid)是否也需不同,以及環境變量不同需要在未來繼續研究。本研究的結論有助于物種分布模型方法在實際保護規劃和物種調查中尤其是瀕危物種的應用。
[1] Le Lay G, Engler R, Franc E, Guisan, A. Prospective sampling based on model ensembles improves the detection of rare species. Ecography, 2010, 33(6): 1015- 1027.
[2] Yoccoz N G, Nichols J D, Boulinier T. Monitoring of biological diversity in space and time. Trends in Ecology & Evolution, 2001, 16(8): 446- 453.
[3] Murray J V, Goldizen A W, O′Leary R A, McAlpine C A, Possingham H P, Choy S L. How useful is expert opinion for predicting the distribution of a species within and beyond the region of expertise? A case study using brush-tailed rock-wallabiesPetrogalepenicillata. Journal of Applied Ecology, 2009, 46(4): 842- 851.
[4] 朱耿平, 劉強, 高玉葆. 提高生態位模型轉移能力來模擬入侵物種的潛在分布. 生物多樣性, 2014,. 22(2): 223- 230.
[5] 李國慶, 劉長成, 劉玉國, 楊軍, 張新時, 郭柯. 物種分布模型理論研究進展. 生態學報, 2013, 33(16): 4827- 4835.
[6] 許仲林, 彭煥華, 彭守璋., 物種分布模型的發展及評價方法. 生態學報, 2015,. 35(2): 557- 567.
[7] Guisan A, Tingley R, Baumgartner JB, Naujokaitis-Lewis I, Sutcliffe PR, Tulloch AI, Regan TJ, Brotons L, McDonald-Madden E, Mantyka-Pringle C, Martin T G, Rhodes J R, Maggini R, Setterfield S A, Elith J, Schwartz M W, Wintle B A, Broennimann O, Austin M, Ferrier S, Kearney M R, Possingham H P, Buckley Y M. Predicting species distributions for conservation decisions. Ecology Letters, 2013, 16(12): 1424- 1435.
[8] Humphries G R W, Huettmann F. Putting models to a good use: a rapid assessment of Arctic seabird biodiversity indicates potential conflicts with shipping lanes and human activity. Diversity and Distributions, 2014, 20(4): 478- 490.
[9] Zhang L, Liu S R, Sun P S, Wang T L. Comparative evaluation of multiple models of the effects of climate change on the potential distribution of Pinus massoniana. Chinese Journal of Plant Ecology, 2011, 35(11): 1091- 1105.
[10] Mi C R, Huettmann F, Guo Y M. Climate envelope predictions indicate an enlarged suitable wintering distribution for Great Bustards (Otistardadybowskii) in China for the 21st century. PeerJ, 2016, 4: e1630
[11] Griffin S C, Walker B L, Hart M M. Using GIS to guide field surveys for timberline sparrows in northwestern Montana. Northwest Science, 2003, 77(1): 54- 63.
[12] Aitken M, Roberts D W, Shultz L M. Modeling distributions of rare plants in the Great Basin, western North America. Western North American Naturalist, 2007, 67(1): 26- 38.
[13] Edwards Jr T C, Cutler D R, Zimmermann N E, Geiser L, Alegria J. Model-based stratifications for enhancing the detection of rare ecological events. Ecology, 2005, 86(5): 1081- 1090.
[14] IUCN. IUCN Red List of Threatened Species Version 2013. 2013. http://www.iucnredlist.org.
[15] 李來興. 黑頸鶴(Grusnigricollus)種群生態及瀕危等級評估. 生物多樣性, 1997, 5(2): 84- 89.
[16] Harris J, Mirande C. A global overview of cranes: status, threats and conservation priorities. Chinese Birds, 2013, 4(3): 189- 209.
[17] Birdlife International. IUCN Red List for birds. 2014. http://www.birdlife.org
[18] Meine C D, Archibald G W. The Cranes: Status Survey and Conservation Action Plan. Gland, Switzerland: IUCN,1996.
[19] 李林. 我國首次發現白頭鶴繁殖地. 野生動物, 1993, (5): 16- 16.
[20] Han X S, Guo Y M, Wen L J, Mi C R. New Black-necked Crane Grus nigricollis subpopulation recorded in southern Tibet, China. Forktail, 2015, 31: 116- 118.
[21] Breiman L. Random forests. Machine learning, 2001, 45(1): 5- 32.
[22] Elith J, Graham C H, Anderson R P, Dudík M, Ferrier S, Guisan A, Hijmans R J, Huettmann F, Leathwick J R, Lehmann A, Li J, Lohmann L G, Loiselle B A, Manion G, Moritz C, Nakamura M, Nakazawa Y, Overton J M M, Peterson A T, Phillips S J, Richardson K, Scachetti-Pereira R, Schapire R E, Soberón J, Williams S, Wisz M S, Zimmermann N E. Novel methods improve prediction of species′ distributions from occurrence data. Ecography, 2006, 29(2): 129- 151.
[23] Mi C R, Huettmann F, Guo Y M. Obtaining the best possible predictions of habitat selection for wintering Great Bustards in Cangzhou, Hebei Province with rapid machine learning analysis. Chinese Science Bulletin, 2014, 59(32): 4323- 4331.
[24] 翟天慶, 李欣海. 用組合模型綜合比較的方法分析氣候變化對朱鹮潛在生境的影響. 生態學報, 2012, 32(8): 2361- 2370.
[25] 張雷, 王琳琳, 張旭東, 劉世榮, 孫鵬森, 王同立. 隨機森林算法基本思想及其在生態學中的應用——以云南松分布模擬為例. 生態學報, 2014, 34(3): 650- 659.
[26] 李欣海. 隨機森林模型在分類與回歸分析中的應用. 應用昆蟲學報, 2013, 50(4): 1190- 1197.
[27] Prasad A M, Iverson L R, Liaw A. Newer classification and regression tree techniques: bagging and random forests for ecological prediction. Ecosystems, 2006, 9(2): 181- 99.
[28] Elith J,Graham C H. Do they? How do they? WHY do they differ? On finding reasons for differing performances of species distribution models. Ecography, 2009, 32(1): 66- 77.
[29] Herrick K A, Huettmann F, Lindgren M A. A global model of avian influenza prediction in wild birds: the importance of northern regions. Veterinary Research, 2013, 44: 42- 42.
[30] Swets J A. Measuring the accuracy of diagnostic systems. Science, 1988, 240(4857): 1285- 1293.
[31] Fielding A H, Bell J F. A review of methods for the assessment of prediction errors in conservation presence/absence models. Environmental conservation, 1997, 24(1): 38- 49.
[32] Manel S, Williams H C, Ormerod S J. Evaluating presence-absence models in ecology: the need to account for prevalence. Journal of applied Ecology, 2001, 38(5): 921- 931.
[33] McPherson J, Jetz W, Rogers D J. The effects of species′ range sizes on the accuracy of distribution models: ecological phenomenon or statistical artefact? Journal of applied ecology, 2004, 41(5): 811- 823.
[34] 黃建, Huettmann F, 郭玉民. 黑龍江流域白頭鶴繁殖棲息地選擇模型預測. 北京林業大學學報, 2015, 37(8): 40- 47.
[35] Allouche O, Tsoar A, Kadmon R. Assessing the accuracy of species distribution models: prevalence, kappa and the true skill statistic (TSS). Journal of Applied Ecology, 2006, 43(6): 1223- 1232.
[36] Guisan A, Broennimann O, Engler R, Vust M, Yoccoz N G, Lehmann A, Zimmermann N E. Using niche-based models to improve the sampling of rare species. Conservation Biology, 2006, 20(2): 501- 511.
[37] 王琦, 魏宇昆, 黃艷波. 中國弧隔鼠尾草亞屬(唇形科)的分布格局. 生態學報, 2015, 35(5): 1470- 1479.
[38] Friedman J H. Stochastic gradient boosting. Computational Statistics & Data Analysis, 2002, 38(4): 367- 378.
[39] Breiman L, Friedman J, Stone C J, Olshen R A. Classification and Regression Trees, New York: Chapman and Hall/CRC, 1984.
[40] Phillips S J, Dudík M, Schapire R E. A maximum entropy approach to species distribution modeling // Proceedings of the 21st International Conference on Machine Learning. New York: ACM, 2004.
Species distribution model sampling contributes to the identification of target species: take Black-necked Crane and Hooded Crane as two cases the model-based sampling approach could help to reduce areas to be investigated and it can find target species more effectively re. cost and effort
MI Chunrong1, GUO Yumin1,*, HUETTMANN Falk2, HAN Xuesong1
1 College of Nature Conservation, Beijing Forestry University, Beijing 100083, China2 EWHALE Lab, Department of Biology and Wildlife, Institute of Arctic Biology, University of Alaska Fairbanks (UAF), AK 99775, USA
The identification of the geographic distribution of wildlife is fundamental in applied ecology, since it provides important information for subsequent analyses. However, the investigation of wildlife is often expensive and time consuming, especially for rare species and when using inefficient sampling designs. To determine target species more efficiently, we tried to apply model-based sampling using predictions from species distribution models (SDMs). We used black-necked (Grusnigricollis) and hooded (Grusmonacha) cranes as two examples, and used the Random Forest algorithm combining the breeding location and environmental information to model the breeding geographic distribution of the two crane species. We extracted the relative index of occurrence (RIO) for the breeding locations (testing points, model-based sampling method), random point locations (random sampling method), and regular point locations (regular sampling method) from the prediction map. Then, we used boxplots and ANOVA to analyze these data; the results indicated breeding locations with higher RIOs, and a significant difference was found between the other two methods. Therefore, the model-based sampling method helped to reduce the size of the investigated areas and determine target species more effectively. To conclude, a species distribution model-based sampling method for fieldwork would help to increase our knowledge of rare species distributions. More generally, we recommend using this approach to support conservation plans.
species distribution model (SDM); Random Forest; sampling method; black-necked crane; hooded crane
國家自然科學基金(31570532)
2016- 02- 02; 網絡出版日期:2017- 02- 23
10.5846/stxb201602020243
*通訊作者Corresponding author.E-mail: guoyumin@bjfu.edu.cn
宓春榮,郭玉民,Huettmann Falk, 韓雪松.基于物種分布模型的精確采樣提高目標物種發現率——以黑頸鶴(Grusnigricollis),白頭鶴(Grusmonacha)為例.生態學報,2017,37(13):4476- 4482.
Mi C R, Guo Y M, Huettmann Falk, Han X S.Species distribution model sampling contributes to the identification of target species: take Black-necked Crane and Hooded Crane as two cases the model-based sampling approach could help to reduce areas to be investigated and it can find target species more effectively re. cost and effort.Acta Ecologica Sinica,2017,37(13):4476- 4482.