999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

合并與不合并:兩個相似性聚類分析方法比較

2013-12-16 08:19:18劉新濤劉曉光張書杰楊黨偉任應黨
生態學報 2013年11期

劉新濤,劉曉光,申 琪,張書杰,楊黨偉,任應黨,*

(1.河南省農業科學院植物保護研究所,河南省農作物病蟲害防治重點實驗室,農業部華北南部作物有害生物綜合治理重點實驗室,鄭州 450002;2.河南中醫學院,鄭州 450008;3鄭州大學生物工程系,鄭州 450001)

1901年Jaccard提出的用于生物區系比較的相似性系數計算公式[1],由于簡明、準確,迅速得到人們普遍認可,在生物學等自然科學以及社會科學的眾多領域被廣泛應用[2],以相似性作為尺度的聚類分析技術(SCA)也日漸普及。由于Jaccard的公式只能計算2個地區間的相似性系數,于是“合并降階”便成為相似性聚類分析方法中的核心技術環節,并被奉為經典。人們在大中型相似性聚類分析的運算中得不到既符合統計學邏輯,又具有地理學、生物學意義的結果時,往往只懷疑自己的基礎數據欠缺,而不去質疑“合并”的合理性,只能將研究和數據束之高閣。申效誠等從創立多元相似性系數計算公式入手[3-4],徹底擯棄層層合并的環節,創建了新的多元相似性聚類分析方法(MSCA)[5-6],經過多類群、多地理區域的運算實驗[7-11],不僅簡便省時,而且聚類能力強大合理。

為了更直接鮮明地對比SCA和MSCA由于合并與不合并所產生的差異,選用小、中、大型3組數據,分別用兩種方法運算,比較聚類結果。以便為MSCA的廣泛應用、為生物地理學的發展提供科學依據。

1 材料與方法

1.1 材料

所用材料均來自我們建造的中國昆蟲分布數據庫:山西省4638種昆蟲在7個小區的分布;內蒙古自治區7766種昆蟲在14個小區的分布;中國16804屬昆蟲在67個生態區域的分布。

1.2 方法

用Jaccard的二元相似性系數計算公式將上述材料分別制出7×7、14×14、67×67的相似性系數三角矩陣備用。

1.2.1 傳統的聚類分析法(SCA)

選擇相似性系數最大的兩個小區首先聚類,將這兩個小區的分布資料合并為一個新的小區,使參與聚類的小區降為n-1個,再用Jaccard的公式計算n-1個小區的兩兩相似性系數,排成n-1×n-1矩陣,重新選擇相似性系數最大的兩個小區予以合并,使參與聚類的小區數降為n-2個。如此反復,直至全部小區聚類完成。最后,根據聚類與合并的順序作出支序圖。

式中,SI是兩個小區間的相似性系數,A、B分別是兩個小區的種類數,C是兩個小區的共有種類數。

1.2.2 多元相似性聚類分析法(MSCA)

選擇相似性系數最大的兩個小區首先聚類,但不將這兩個小區的分布資料合并,而是將其視為一個“單元群”,與其它沒有聚類的n-2個小區一同進入下一輪聚類分析。每輪均挑選相似性系數最大者聚類,擴大原單元群或形成新的單元群,如此反復,直到聚類完成。相似性系數采用申效誠等創立的多元相似性系數公式計算。最后作出支序圖。

式中,SIn是要比較的n個小區間的相似性系數;Si、Hi、Ti分別是i小區的種類數、共有種類數、獨有種類數,且滿足Si-Ti=Hi;S為n個小區的總種類數。這些數據都可以從數據庫的查詢表上直接獲得。

兩個公式原理完全相同,前者是后者在n為2時的一個特例。后者是前者在n大于2時的通式。也即本文要比較的兩個方法的區別在于合并與不合并所引起的差異。

例如表1的山西省7個小區中,5、6小區的相似性系數最大(0.412),合并法是將其合并成一個有1413種(974+1021-582)昆蟲的新小區,然后全省降為6個小區,再重新尋找相似性最大的兩個小區予以合并,直到最后。

不合并法是不將5、6小區合并,而是將其視為新的聚類單元進入下一輪比較,當計算新聚類單元(包含5、6小區)與其它任一小區(1、2、3、4、7小區)間的相似性系數時,參與計算的是3個小區即n=3,在這一輪中,(5、6)和3小區間的相似性系數最大,因此,((5、6)、3)聚在一起形成了新的聚類單元;在下一輪比較時,將計算((5、6)、3)分別與1、2、4、7 小區之間的相似性系數(共4 個),以及(1 和2)、(1 和4)、(1 和7)、(2 和4)、(2和7)、(4和7)小區間的相似性系數(共6個),挑選其中相似性系數最大者(1和4小區)聚成一類;再下一輪比較,需要比較的聚類單元有:2小區、(1、4小區)、((5、6)、3小區)和7小區,計算相似性系數時,n值是實際參與的小區數,如計算(1、4小區)與((5、6)、3小區)之間的相似性系數時,實際參與的小區數是5個小區即n=5。依次類推,直至全部小區聚類完成。

2 結果與分析

2.1 山西省昆蟲分布的聚類分析結果比較

山西省共記錄4638種昆蟲,其中有省下分布記錄的有2619種,分布在7個小區內的種類數、共有種類數及其相似性系數如表1。

表1 山西省各地理小區的昆蟲種類(對角線)、共有種類數(上三角)和相似性系數(下三角)Table 1 The insect species number(on diagonal line),shared species number(above diagonal)and similarity coefficient(below diagonal)in every regions in Shanxi Province

使用合并法和不合并法分別得到兩個聚類圖(圖1,圖2)。

比較圖1和圖2,圖2中7個小區在相似性系數為0.30時聚為兩群。1、4、7小區聚為一群,以中低山地為主,居該省北、西方;其余4小區為一群,以平原、丘陵、低山為主,居該省中、東、南部,7個小區的總相似性系數為0.248。圖1 中7 個小區起初并為3 個新小區,(1、4、7),(2、3),(5、6)各為一新小區。2、3 為低山,5、6則為平原丘陵,生態學意義更為突出,但它們難以以更低的相似性系數合并在一起,其生態學意義在高一級的聚類中喪失。7個小區最后的相似性系數為0.308,最多可在0.32處區分成兩個新小區,同樣找不到辨別3個新小區的相似性水平。兩種聚類方法的結果在地理學、生物學上不存在差異,聚類結構基本沒有變化。在統計上的差異:第一,相似性系數的含義不同,合并法最后的相似性系數0.308是最終合并成的山地區與平原區之間的相似性系數,必須層層合并到最后才能完成,完成時,7個小區已不復存在,支序圖只是合并過程圖;不合并法的相似性系數0.248確實是7個小區的總相似性系數,它不受聚類過程的影響,也不因聚類結構變動而變化,甚至可以最先計算出來;第二,合并法在2、3合并區和5、6合并區之間的相似性系數0.382比2、3合并時的系數0.328還高,這種“倒掛”現象是由合并引起的后果,致使支序圖出現“凹陷”,不再是典型的梯形結構。

圖1 山西省昆蟲分布合并法聚類圖Fig.1 The clustering graph of insect fauna of Shanxi Province by merge method

圖2 山西省昆蟲分布不合并法聚類支序圖Fig.2 The clustering graph of insect fauna of Shanxi Province by non-merged method

2.2 內蒙古自治區昆蟲分布的聚類結果比較

內蒙古自治區有昆蟲7766種,有區下分布記錄的共5543種。分布在14個小區的種類數、共有種類數和相似性系數如表2,兩種聚類法得到兩個支序圖(圖3,圖4)。

表2 內蒙古各地理小區的昆蟲種類(對角線)、共有種類數(上三角)和相似性系數(下三角)Table 2 The insect species number(on diagonal line),shared species number(above diagonal)and similarity coefficient(below diagonal)in every regions in Inner Mongolia

圖4中,在相似性系數0.20的水平上,14個小區聚為兩類,一類內蒙古的東北部,以大興安嶺等山地為主要地理特征,另一類在內蒙古西南部,以高原沙漠為主要地理特征,14個小區的總相似性系數為0.159。圖3中,起初12個小區分別合并為6個新小區,在以后的7次系數計算中,有3次出現了“倒掛”,而且由于合并,第9小區賀蘭山和第10小區大興安嶺北段山前平原面積最小、昆蟲種類最少,被排斥在外,直到最后是賀蘭山和全內蒙古的比較,相似性系數為0.086,聚類結構產生較大變化,找不到一個合適的相似性水平把14個小區劃分成幾個有統計學和生態學意義的“類”來。“并而不類”,常常是合并法的最終結果。

圖3 內蒙古昆蟲分布合并法聚類圖Fig.3 The clustering graph of insect fauna of Inner Mongolia by merge method

圖4 內蒙古昆蟲分布不合并法聚類支序圖Fig.4 The clustering graph of insect fauna of Inner Mongolia by non-merged method

圖4中,也出現一次“倒掛”,2、8小區之間相似性系數為0.315,3、13小區之間為0.316,但2、8、3三者的相似性系數為0.317,3小區只能放棄13小區,和2、8小區聚在一起,由于2、8沒有合并,可以將3個小區并列。

2.3 中國昆蟲屬級分布的聚類結果比較

數據庫記錄到的中國昆蟲共91179種,隸屬于16804屬,按生態條件將全國分成67個基礎地理單元,對于16904屬在67個單元中的分布,用兩個聚類方法得到兩個支序圖(圖5,圖6)。

圖6中,67個基礎地理單元在相似性系數為0.25時,聚合為9群,每群所轄單元在地理上都相鄰相連,在昆蟲區系性質上都具有相同或相似的成分構成,可以不加任何修飾地作為我國昆蟲的9個分布區。圖5中,67個單元最后合并成兩區,一個是由5個單元合并,包括東北的小興安嶺、三江平原,西北的阿爾泰山,和新疆南部的帕米爾高原、昆侖山,違背地理學邏輯;另一個由其余62個單元合并而成,沒有生態學和生物地理學價值。66個相似性系數中,除去23個有意義的最低層次系數外,其余43個中有21個系數是倒掛的。整個過程,除是一場數字游戲外,沒有出現任何有積極意義的結果。

3 結論與討論

3.1 兩種聚類方法的差異顯而易見,隨著比較單元的增多愈加劇烈

圖5 中國昆蟲屬級分布合并法支序圖Fig.5 The clustering graph of generic fauna from China by merge method

圖6 中國昆蟲屬級分布不合并法支序圖Fig.6 The clustering graph of generic fauna from China by nonmerged method

使用同一組數據,兩種聚類分析方法得到不同的結果,而且隨著參與比較的地理單元的增多,差異愈加劇烈,從相似性系數大小,到聚類結構變化,再到聚類功能喪失與否。這不是使用計算公式的錯誤,而是由于合并改變了原參與小區資料的性質所引發的變化。在參與比較的地理單元較少時(例如7個以下),聚類結構還不至于發生不合理變動,聚類結果還有一些應用價值。參與小區達到10個以上,聚類結果則難堪相信。所以目前聚類分析的報道多是較少地理單元的應用,多地理區域、多單元參與的報告寥若晨星。這也是人們已經看到合并法的應用局限性的結果。

兩種方法的計算,簡便程度也差別頗大。以手工計算為例,從制成二元相似性系數表開始,到繪出支序圖為止,合并法和不合并法的3個對比分別為130min和50min,4.5h和1.8h,7d和2d。合并法所浪費的時間主要在合并數據的環節。

3.2 兩種聚類方法的性質迥然不同,認識須逐步到位

無論兩種方法的結果差異大小,即使完全相同的情況下,其性質也決然不同。不合并法的每一個相似性系數都是所轄小區的共同的相似性關系,不受所轄小區之間的聚類順序變動的影響;每一個系數都是獨立的,它的產生沒有順序,既可從下到上,也可從上到下,又可從中間任何層次算起;所有系數都是同時存在的。所以,不合并法的支序圖是一個“狀態”,一個所參與地理單元在共同存在的情況下表明彼此關系親疏、距離大小的狀態。

合并法的每一個相似性系數都是有關小區經過多次合并而成的兩個新小區的相似性關系,受有關小區之間的合并順序變動的影響;每一個系數都不是獨立的,它的產生遵循從下到上的順序,前一個系數是后一個系數產生的條件,后一個系數是前一個系數消亡的結果;所有系數都不可能同時存在。所以,合并法的支序圖是一個“過程”,一個所參與地理單元不斷消亡新單元不斷產生的過程,一個不斷肯定又不斷否定的過程。

相似性系數越聚越高的“倒掛”是兩個方法都遇到的現象,但其性質也不相同。不合并法的倒掛是由于涉及到的3個或4個小區互相都有較高的相似性,聚類后的共同相似性系數更高的罕見現象,只出現在聚類過程中的初級層次,極少出現在較高層次,出現頻次不高,出現時可以用并列法表示;合并法中的倒掛是由于合并后的兩個新小區之間的較高的相似性,它主要出現在合并過程的較高層次,而且頻次很高,幾占較高層次的1/2。由于涉及到的小區已經合并,沒有辦法再把已經合并消失掉的它們并列,只能使支序圖出現凹陷,失去正常的梯形結構。

3.3 合并法的歷史作用值得肯定,終結其歷史階段的條件已經具備

1848年,植物學領域首先提出相似性的概念,1901年,Jaccard提出了計算兩個地區間生物區系的相似性系數公式,由于其簡便性、科學性,迅速得到科學界認可。此后,人們又相繼提出40余個相似性公式,但都未動搖Jaccard公式的經典地位,成為多學科、多領域中相似性計算的最基礎、最常用、最直觀方法。由于Jaccard公式不能計算多地區的相似性系數,在相似性聚類分析中采用“合并降階”的辦法,能夠在較少小區比較時得到相對滿意的結果,實現了人們多區比較的愿望,使生物地理由定性研究向定量研究發展邁出了第一步,其歷史性價值不容低估。隨著其局限性的逐漸顯現,人們曾試圖對合并后的二元系數進行修飾改良[12],但由于未脫離合并的窠臼,也難以達到預期的效果。因此在經歷了短期的熱情之后,眾多領域的中大型聚類需求得不到滿足,其積極作用便逐漸消失,以致成為制約生物地理發展的瓶頸。申效誠等人創建的多元相似性系數公式及MSCA法,徹底擯棄合并降階這一產生偏差和錯誤的根源,能夠得出相對客觀的聚類結果,是生物地理學研究領域有效的聚類分析工具,必將使生物地理學的定量研究邁入一個新階段。

[1] Jaccard P.Distribution de la flore alpine dans le Bassin des Dranses et dams quelque region vasines.Bulletin de la Societe vaudoise des Sciences naturelles.Lausanne.1901,37:241-272.

[2] Zhan Y L.Coeeficient of Similarity——An Important Parameter in Floristic Geography,Geographical Research,1998,17(4):429-434

[3] Shen X C,Sun H,Zhao H D.A discussion about the method for multivariate similarity analysis of fauna.Acta Ecologica Sinica,2008,28(2):849-854.

[4] Shen X C,Wang A P.A Simple Formula for Multivariate Similarity Coefficient and Its Contribution Rate in Analysis of Insect Fauna.Journal of Henan Agricultural Sciences,2008,(7):67-69.

[5] Shen X C,Wang A P.Zhang S J.Studies on the Fauna of Noctuidae Ⅱ.Distribution and Similarity of Noctuidae in China.Acta Agriculturae Boreali-Sinica,2008,23(5):151-156.

[6] Shen X C,Zhang S J,Ren Y D.The elements of insect fauna in China and distribution characteristics.Journal of Life Science,2009,3(7):19-25.

[7] Zhao H D,Shen X C.A study on the Biogeography of Family Arctiidat in China//Shen X C,Zhang R Z,Ren Y D.Classification and Distribution of Insects in China,Beijing:China Agricultural Science and Technology Press,2008,381-388.

[8] Sheng M L,Shen X C.Distribution and Multivariate Similarity Clastering Analysis of Ichneumonidae in Every Provinces,China//Shen X C,Zhang R Z,Ren Y D.Classification and Distribution of Insects in China,Beijing:China Agricultural Science and Technology Press,2008,389-393.

[9] Shen X C,Ren Y D,Wang A P.Zhang S J.A multivariate similarity clustering analysis for geographical distribution of insects,spiders and mites in Henan Province.Acta Ecologica Sinica,2010,30(16):4416-4426.

[10] Shen X C,Sun H,Ma X J.The multivariate similarity clustering analysis for 40,000 species of insect and spider fauna in China.Journal of Life Science,2010,4(2):35-40.

[11] Ren Y D,Shen X C,Sun H,Ma X J.The Fauna Element and Geographical Distribution of Insect,Spider and Mite in Henan,China.Acta Agriculturae Boreali-Sinica,2011,26(1):204-209

[12] Ward J H.Heirarchical grouping to optimize an objective function.Journal of the American Statistical Association.1963,58:236-244.

參考文獻:

[2] 張鐿鋰.植物區系地理研究中的重要參數——相似性系數.地理研究,1998,17(4):429-434.

[3] 申效誠,孫浩,趙華東.昆蟲區系多元相似性分析方法.生態學報,2008,28(2):849-854.

[4] 申效誠,王愛萍.昆蟲區系多元相似性的簡便計算方法及其貢獻率.河南農業科學,2008,(7):67-69.

[5] 申效誠,王愛萍,張書杰.夜蛾科昆蟲區系研究 Ⅱ.中國各省區夜蛾的分布及相似性分析.華北農學報,2008,23(5):151-156.

[6] 申效誠,張書杰,任應黨.中國昆蟲區系成分構成及其分布特點.生命科學,2009,3(7):19-25.

[7] 趙華東,申效誠.中國燈蛾科昆蟲的生物地理學研究//申效誠,張潤志,任應黨.昆蟲分布與分類.北京:中國農業科學技術出版社,2008,381-388.

[8] 盛茂領,申效誠.中國各省區姬蜂科昆蟲的分布及多元相似性聚類分析//申效誠,張潤志,任應黨.昆蟲分布與分類.北京:中國農業科學技術出版社,2008,389-393.

[9] 申效誠,任應黨,王愛萍,張書杰.河南昆蟲、蜘蛛、蜱螨地理分布的多元相似性聚類分析.生態學報,2010,30(16):4416-4426.

[10] 申效誠,孫浩,馬曉靜.中國40000種昆蟲蜘蛛區系的多元相似性聚類分析.生命科學,2010,4(2):35-40.

[11] 任應黨,申效誠,孫浩,馬曉靜.河南昆蟲、蜘蛛、蜱螨的區系成分和分布地理研究.華北農學報,2011,26(1):204-209.

主站蜘蛛池模板: 国产成人AV综合久久| 亚洲色图另类| a级高清毛片| 在线亚洲精品自拍| 国产第一页第二页| 日a本亚洲中文在线观看| 亚洲第一区欧美国产综合 | 国产成人亚洲精品蜜芽影院| 亚洲欧美精品日韩欧美| 亚洲欧美精品一中文字幕| 亚洲精品老司机| 中文一区二区视频| 亚洲性视频网站| 国产精品免费露脸视频| 久久久久久久久18禁秘| 亚洲一欧洲中文字幕在线| 亚洲va视频| 亚洲中文精品人人永久免费| 欧美视频在线不卡| 亚洲精品福利网站| 人妻精品全国免费视频| 四虎国产永久在线观看| 国产免费高清无需播放器| 成人综合在线观看| 久久免费成人| 亚洲毛片网站| 丝袜美女被出水视频一区| 无码免费试看| 国产波多野结衣中文在线播放| 免费看久久精品99| 欧美无遮挡国产欧美另类| 五月综合色婷婷| 午夜免费小视频| 国产亚洲精品无码专| 亚洲一区第一页| 日本精品视频| 国产精品片在线观看手机版| 国产成人精品亚洲77美色| 国产91丝袜在线播放动漫 | 亚洲另类第一页| 欧美日本中文| 久久精品女人天堂aaa| 亚洲精品天堂在线观看| 一级毛片在线播放| 欧美性猛交一区二区三区| 谁有在线观看日韩亚洲最新视频 | 欧美激情综合| 亚洲黄网视频| 色老头综合网| 国产高清无码第一十页在线观看| a级毛片在线免费观看| 久久99国产乱子伦精品免| 欲色天天综合网| 免费无码AV片在线观看中文| 少妇露出福利视频| 免费人成视网站在线不卡| 97在线国产视频| 亚洲成人在线免费| 国产亚洲精品va在线| 亚洲日韩欧美在线观看| AV熟女乱| 欧美精品1区| 91po国产在线精品免费观看| 日韩欧美网址| 亚洲第一色网站| AV在线麻免费观看网站| 色综合久久88| 免费在线看黄网址| 美美女高清毛片视频免费观看| 亚洲日韩精品无码专区97| 国产精品19p| 国产18页| 嫩草在线视频| 中日韩欧亚无码视频| 亚洲六月丁香六月婷婷蜜芽| 欧美精品啪啪一区二区三区| 日韩亚洲综合在线| 欧美日韩国产在线观看一区二区三区 | 在线色综合| 欧美乱妇高清无乱码免费| 91小视频在线播放| 亚洲天堂高清|