段小偉
[摘 要]傳統的昆蟲分類學以定性分類為標準,但是傳統分類對操作人員的經驗要求較高,近年來,隨著統計知識的普及以及相應的軟件的開發和使用,使用定量特征結合數學統計已經成為傳統分類學的一種輔助手段,使其越來越多的應用于昆蟲數量性狀分類。本文主要闡述昆蟲形態學標記中常見的幾種多元統計方法。
[關鍵詞]多元統計;昆蟲;形態標記
昆蟲形態學是昆蟲學發展史中最悠久的分支之一, 是研究昆蟲形態、結構及其功能的科學。而昆蟲形態學標記是利用可以直接觀察和測量昆蟲的外部形態特征、行為特征、生理代謝特征等作為遺傳標記,是遺傳標記的一種,可以用來研究物種間的關系、分類和鑒定。形態學標記作為研究昆蟲物種種間關系和差異的一種方法,可以分為定性和定量兩個方面,定性是以昆蟲的外部形態、內部結構依據,根據形態結構和功能相一致的原理,對昆蟲進行分類鑒別,然而在實際研究當中,由于某些昆蟲的形態特征不穩定、同種異型、異種同型以及近緣種形態結構十分相似等問題導致我們所得到的結果往往不夠精確,最為主要的是,定性形態標記難以排除環境對其數量性狀的影響,所以在某種情況下,需要使用定量的形態標記,并利用相關的生物統計學知識與其結合進行嚴密的分析。
統計學基本上包含基本統計和多元統計兩個大類。而多元統計又是在解決實際問題中有效的數據處理方法,包括聚類分析、因子分析、主成分分析、典型分析以及判別分析等方法。目前多元統計方法在生物上的應用主要集中在群落分析和的研究上。例如周紅、張志南就曾使用聚類分析、主成分分析等統計方法在底棲群落生態學的研究中。但是在物種間的遺傳多樣性研究中也有逐漸發展的趨勢,如母華強、張澤鈞等在四川藏鼠兔頭骨形態的種群分化的研究中,首先使用單因素方差分析隨后采用Bonferroni方法對有顯著差異的變量進行多重比較得出“如果以顱全長作為衡量體型大小的指標,邛崍山系的藏鼠兔較涼山和岷山為小”的這一結論。再通過逐步判別分析分化從而得出“藏鼠兔頭骨樣本在山系間的差異主要來自于顴寬、眶間寬、鼻骨長等變量的影響”的結論。多元統計方法在昆蟲形態標記中的應用也得到了相應的發展,如牙森·沙力高松等通過聚類分析和主成分分析對西藏飛蝗九個地理種群群居型形態特征進行了一個數量分析;蔡小娜,黃大莊等利用蛾翅數學形態特征用于夜蛾分類和鑒定的可行性研究中,使用判別分析、聚類分析等統計方法;秦緒棟,竇廣民等對長白山林區21 種食蚜蠅的數值分類研究中采用聚類分析完成了對這21種食蚜蠅親緣關系的鑒定。通過以上的事例不難發現,如今,多元統計方法和形態標記的結合使用已經成為了一種發展的趨勢。通過查閱文獻發現,多元統計在昆蟲形態標記中的應用相對其在生物群落分析等研究中較為少見,而且,在昆蟲形態標記的多數研究中,只使用單一的方法,本文以常見的多元統計方法闡述其在昆蟲形態標記中的應用。在昆蟲形態標記中常用的多元統計方法主要包括多因素方差分析、回歸分析、聚類分析、判別分析、主成分分析與因子分析等方法,這些方法結合多元統計軟件的使用能夠有效的達到對昆蟲親緣關系的判斷以及分類。目前,在生物統計上經常見到的統計軟件有STATISTICA、SPSS、R軟件等。關于統計軟件的介紹請參考相關文獻、書籍。
一、材料與方法
針對不同的昆蟲,根據其習性、生活環境在采集樣本的時候往往需要考慮相應的采集、毒殺以及運送的方法。使得到的昆蟲樣本盡可能的保持完整性,從而不使其研究價值打折。在采集到標本之后還要做詳細的記錄如:采集日期(年、月、日)、采集地點(省、縣、鄉)、采集人姓名等三項。除以上記載外還應該注意采集時的環境,其寄主系植物或動物,采集地點的海拔高度,采集方法,以及昆蟲的生活習性等等都可以寫在記錄本上,而在標本上只要附一個相應的號碼。 如有必要可以根據地理隔絕或分布點之間的距離進行相應的分組。根據其形態特征進行初步鑒定。
形態指標的選取主要依據傳統的分類特征,并結合標本的觀察比較。或者根據目前已有的測量標準進行選取如Ruttner1988年提出的的蜜蜂形態特征測定標準、第四屆國際蝗蟲學會(1936) 所規定的測量標準等測定標準進行選取。在選定形態指標后,利用游標卡尺進行數據測量。
二、數據分析
1.多因素方差分析
多因素方差分析是檢驗兩個或兩個以上的因素對一個因素之間的差異是否顯著的一種方法。是以方差分析的原理對分析模型進行擴展,是把全部觀測值之間所表現的變異(即總變異)分解為兩個或多個部分,除了一部分代表隨機誤差的作用外,其他部分分別代表各因素作用,通過一定方法的比較,了解某個因素對結果變量是否有明顯影響。常用的試驗設計幾乎都可以用多因素方差分析,如隨機區組設計、裂區設計、交叉設計、析因設計等。
多因數方差分析在昆蟲形態學標記中的應用有著一定的地位,由于是分析兩個或兩個以上的因素對一個變量的影響,其分析方法與單因素方差分析相差并不大。從中能夠檢驗組間或變量間的均數之間的差別是否具有統計學意義。也就是通過將總變異分解為由隨機誤差造成的變異(即組內方差)與由均數差異造成的變異(即組間方差)兩個部分。如果后者大于前者,并且具有統計學意義,我們將拒絕無效假設,接受備擇假設:即總體中均數間存在差異。利用相應的統計軟件還能獲得相關的分析,例如協方差、相關系數、半正態圖形等。使用時必須滿足多因素方差分析的假定: 每個總體服從正態分布,方差齊性及觀察值獨立。
在實際應用中應結合自己的需求做相應的多元方差分析。在對于存在顯著性的變量,我們通常需要對其進行“事后檢驗”。
2.回歸分析
回歸分析是尋找兩個或兩個以上的變量之間的相互關系。包括只有一個自變量的一元線性回歸(一因一果)和有多個自變量的多元線性回歸(多因一果)。在昆蟲形態標記中,我們通常需要了解所選取的形態指標之間是否存在這相互關系,例如想要了解某種昆蟲的體長與脛節長、翅長之間的相互關系就要使用多元回歸分析,通過建立一個回歸方程從而進行確定。
3.聚類分析
俗話說“物以類聚,人以群分”。“聚類分析”顧名思義就是按照事物本身的特點,通過對數據的測量和研究對事物分類的方法。確切的講是一類將數據所對應的樣品或指標進行分類統計的一類方法,是以分析數據為基礎,根據對數據的分析,通過數據之間的相似性或相異性,將這些具有相似性或相異性的數據看成是數據各自對應的樣品或指標之間的“距離”遠近的一種度量,將“距離”近的歸入一類不同類之間的距離較遠,從而達到對樣品或指標之間的分類的目的,這一類方法具有一個共同的特點:事先不知道類別的個數和結構。它們能合理地按樣本或指標各自的特性來進行合理的分類。通常在進行聚類分析的一般原則是使同一類中的個體差異最小,不同類之間的個體差異最大。
目前,聚類分析有系統聚類結合(樹狀聚類)、快速聚類(K組平均數聚類)等方法。系統聚類是昆蟲形態標記中運用最多的一種方法,開始對所有的樣本或指標進行單獨分類,然后將距離最相似的兩個樣本或指標合并成一類,重新計算新類和其他類的距離,再將距離相近的歸為一類,如此反復直至所有指標合并成一類,最終用一張樹狀聚類圖描述。通過聚類圖,能夠很直觀的了解個體間的形態相似及分類情況,從而為以后對昆蟲親緣關系、物種鑒定等研究提供參考依據。
4.判別分析
判別分析是以判別個體所屬群體的一種統計方法。換句話說就是可以通過對個體某些變量的測定來判斷其是否屬于總體的一種方法,在昆蟲形態標記中,可以通過這種方法對昆蟲進行鑒定和分類,在相應的統計軟件中,如Statistica,可以通過散點圖以及判別矩陣,直觀了解分類情況,最終通過建立判別方程和累積形成一個數據庫。
5.主成份分析與因子分析
主成分分析也是一種重要的多變量分析技術,它將多個變量并有一定相關性的數據變換成為少數不相關的變量。從這里看,主成分和分類分析與因子分析類似,都是對原始數據降維,構成少數不相關的變量,使其代表原變量對樣品或指標進行分析。兩者看似相同,但是它們又有明顯的區別。首先是基本概念不同:主成分分析法是將多個指標轉化為少數彼此不相關的綜合指標(即主成分)的統計方法。而因子分析法是主成分分析法的推廣和發展,它也是將具有錯綜復雜關系的變量綜合為數量較少的幾個因子,再根據不同因子還可以對變量進行分類,同時重塑原始變量與因子之間的相互關系。其次是原理不同:因子分析中是把變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成個變量的線性組合;主成分分析中,當給定的協方差矩陣或者相關矩陣的特征值是唯一的時候,的主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子;主成分分析的重點在于解釋個變量的總方差,而因子分析則把重點放在解釋各變量之間的協方差。最后是數據處理的過程同:主成分分析中不需要有假設,因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子之間也不相關,共同因子和特殊因子之間也不相關;在因子分析中,因子個數需要分析者指定,指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變量就有幾個主成分。和主成分分析相比,由于因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。總之,當需要尋找潛在的因子,并對這些因子進行解釋的時候,更加傾向于使用因子分析,并且借助旋轉技術幫助更好解釋。而如果想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入后續的分析,則可以使用主成分分析。當然,這種情況也可以使用因子得分做到。所以這種區分不是絕對的。
總得來說,主成分分析主要是作為一種探索性的技術,在分析者進行多元數據分析之前,用主成分分析來分析數據,讓自己對數據有一個大致的了解是非常重要的。主成分分析一般很少單獨使用,如:篩選數據;、聚類分析、判別分析(比如當變量很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成份分析對變量簡化)等等。
三、總結
通過查閱相關的文獻發現,多元統計方法在動物形態學、系統學和表觀遺傳研究中的具有重要作用,在昆蟲形態標記的研究中主要集中在以上幾種多元統計方法。由于多元統計方法種類繁雜,為便于昆蟲形態標記研究工作有效和順利的進行,通過對以上多元統計方法的介紹,雖然在對某些統計方法只作簡略介紹,本文旨在介紹多元統計在昆蟲形態標記中的應用。然而在昆蟲形態標記多數研究中,均采用的是單一的多元統計方法。再者,通過對以上多元統計方法的介紹以及在昆蟲形態標記中對昆蟲形態指標數據的測量能夠清楚的認識到在各種統計方法里面對數據的處理的工作量是很大的,建議以多元統計軟件為工具利用多種統計方法相互配合、相互佐證,通過其形態數值的差異,從而達到對昆蟲進行分類或判斷其親緣關系的的目的。結合多元統計軟件的使用,可以使得我們快速、簡便完善昆蟲的鑒定、分類、以及昆蟲間親緣關系的判斷等工作,能夠節省出更多的時間和精力,能夠在昆蟲的表觀遺傳多樣性研究中和保護中貢獻出一個有價值參考意見。至今,不斷有最新的多元統計方法的問世,但是這些方法在昆蟲形態標記研究中的應用,尚待用更多的經驗數據及應用來加以驗證和完善。
參考文獻:
[1]忻介六, 楊慶爽, 胡成業. 昆蟲形態分類學[M]. 上海: 復旦大學出版社, 1985: 1-2.
[2]查玉平, 駱啟桂. 現代技術在昆蟲分類中的應用[J]. 江西林業科技, 2005(1):34-36.
[3]周紅, 張志南. 大型多元統計軟件PRIMER的方法原理及其在底棲群落生態學中的應用 [J]. 青島海洋大學學報(自然科學版), 2003,33(1):58-64.
[4]母華強, 張澤鈞, 張明春, 等. 四川藏鼠兔頭骨形態的種群分化[J]. 四川動物, 2009,28(3):341-344.
[5]牙森, 沙力, 高松, 等. 西藏飛蝗九個地理種群群居型形態特征的數量分析[J]. 昆蟲知識, 2010,47(6):1201-1207.
[6]蔡小娜, 黃大莊, 沈佐銳, 等. 蛾翅數學形態特征用于夜蛾分類和鑒定的可行性研究 [J]. 昆蟲學報, 2012,55(5):596-605.
[7]秦緒棟, 竇廣民, 左江. 長白山林區21種食蚜蠅的數值分類研究[J]. 吉林林業科技, 2014(1):32-36.
[8]劉凌云, 鄭光美. 普通動物學野外實習指導書[M]. 第二版. 北京: 高等教育出版社, 1999.
[9]喻浩.色季拉山鉤蝠蛾種群分化及其適生地地表節肢動物群落[D].廣州:中山大學,2013.