萬林生,單忠德,孫紅芹,倪正斌
(江蘇省沿海地區農業科學研究所,江蘇 鹽城 224002)
隨著育種工作越來越精細化,傳統育種依賴肉眼判斷和唯一產量高低判斷已經顯示出越來越多的弊端。本研究通過將多元統計分析方法中的主成分分析和動態聚類分析聯合分析,對多性狀資料進行降維,通過線性組合,提煉出較少幾個彼此獨立的2~3個主成分,并對提煉出來的幾個主成分進行動態聚類分析,將品種或者育種材料進行分類,從而選擇與對照一類或者超越對照性狀的幾類進行進一步的研究。該研究打破了育種中僅以產量高低為唯一標準選擇材料的傳統,為傳統育種的量化分析提供了一個新的思路。同時,采用聚類分析可以避免當選育品種數目較多時采用方差分析產量產生的自由度不單一的錯誤。研究并以2009-2010年江蘇省常規油菜預備試驗14個品種(含對照)為數據資料,闡明分析的具體過程。
主成分分析又稱主分量分析,是指將原始的多個變量,通過線性組合,提煉出較少幾個彼此獨立的新變量的一種多元統計方法[1]。通常數學上的處理就是將原來p個指標作線性組合,成為新的綜合指標,第1線性組合即第1個綜合指標記作Y1,Y1的方差越大,包含的信息越多,方差最大的稱作第1主成分,若Y1不足以代表原來p個指標的信息,則考慮第2主成分,即Y2,以此類推。主成分分析的作用:降低所研究的數據空間的維數,多維降為少維并用圖形直觀表示;便于解釋,把所研究的性狀串起來,我們可以得到產量主成分、形態性狀主成分、生育期主成分等等;構建選擇指數[2]。
主成分分析的計算一般分為4個步驟。
第1步計算方差協方差矩陣。對于一組n個個體p個性狀的數據資料,

計算該數據資料的方差協方差矩陣:

第3步計算主成分貢獻率及累計貢獻率。
第4步計算主成分得分。

聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。一般可分為系統聚類與動態聚類。
系統聚類是先假定各個樣品各自成一類,這時各類間的距離就是各樣品之間的距離,將距離最近的2類合并成一個新的類,再計算新類與其它類間的距離,將距離最近的2類合并,如此每次縮小一類,直至所有的樣品都成為一類為止[3]。然后根據需要或者根據給出的距離臨界值確定分類數及最終要分的類。該聚類方法一般有最短距離法、最長距離法、中間距離法、重心法、組平均法、最小組內平方和法等。但系統聚類存在較為嚴重的缺陷:每種聚類由于聚類遞推公式參數取值不一致,故聚類結果不是唯一的;(最短距離法、最長距離法、中間距離法、重心法分類不具有單調性;系統聚類的主觀性較強,假如要求類與類之間的距離大于給定的閾值I,有些樣品很有可能會因此而歸不了類或只能自成一類[4-5]。
動態聚類其基本思想:選擇一批凝聚點或給出初始的分類,讓樣品按某種原則向凝聚點凝聚,對凝聚點進行不斷的修改和迭代,直至分類比較合理或迭代比較穩定為止。類的個數k可以事先指定,也可以在聚類過程中確定。一般重心法(K-means法)和最小組內平方和法(SSW)這2種方法使用的比較多。但是重心法不穩定性,不同的初始聚類給出在分類較多的情況下往往具有不同的分類結果。最小組內平方和法我們設想假如分類是合理的,其最終結果應該是達到各組內平方和最小,即組間平方和最大[6]。
表1即為2009-2010年江蘇常規預備試驗14個品種(含對照品種紅油3號)11個性狀的數據資料,數據均為田間考種結果。

表1 2009-2010年江蘇常規預備試驗14個品種11個性狀的數據
利用Matlab軟件進行主成分分析,結果前3個綜合指標的貢獻率分別為86.72%、8.19%和2.65%,總的貢獻率達97.56%,說明前3個綜合指標基本反映了11個指標的全部信息。它們所對應的第1-3主成分特征向量:Y1=-0.014 6X1+0.128 3X2-0.02X3-0.019X4-0.001 4X5-0.071 2X6-0.968 0X7-0.201 0X8+0.021X9-0.001 9X10+0.002 5X11;Y2= -0.673 1X1-0.589 8X2+0.017 8X3+0.012 6X4-0.323 4X5-0.284 6X6-0.067 0X7+0.090 2X8-0.085X9+0.019 0X10-0.002 7X11;Y3= -0.048 9X1-0.051 9X2-0.010 8X3-0.090 4X4-0.129 1X5+0.010 2X6+0.194 9X7-0.962 6X8-0.013 5X9-0.071 1X10+0.000 4X11。
Y1在1次分枝結角、2次分枝結角、分枝點高度等性狀上所占的比重較大,Y2在株高、分枝點高度、主軸長度、主軸有效角果等性狀上所占的比重較大,Y3在主軸長度、1次分枝結角、2次分枝結角等性狀上所占的比重較大。
對前3個主成分進行動態聚類分析,結果如圖1-4所示。

圖1 分3類的聚類結果

圖2 分4類的聚類結果

圖3 分5類的聚類結果
圖1 分為3類,SSW=1.330 3×104,1,3,4,7,8,12,13;2,5,11,14;6,9,10 各 為1類。圖2分為4類,SSW=9.058 3×103,1,3,4,12;7,8,13;2,5,11,14;6,9,10 各為1類。圖3分為5類,SSW=5.065 0×103,1,3,4,12;7,8,13;2,5,11,14;9,10;6各為1類。圖4為分為6類的結果,SSW=3.532 7×103,1,4,12;3,8;7,13;2,5,11,14;9,10;6各為1類。每1類所包含的序號即為所對應的品種編號。

圖4 分6類的聚類結果
本研究主要通過多元統計分析方法中的主成分分析和動態聚類分析對2009-2010年江蘇省常規油菜預備試驗14個品種的11個主要性狀進行研究。結果表明:主成分分析的前3個主成分Y1,Y2,Y3含有總的貢獻率達到97.56%,并且通過3大主成分分別在各個性狀中的得分值的高低了解各個性狀在主成分中的分量。將主成分的前3個主成分進行基于組內平方和最小的動態聚類分析,得到唯一聚類結果,并根據分類數的不同畫出不同顏色聚類圖形。本研究給傳統育種的量化分析提供了一個新的思路。
本研究重點介紹將多維彼此無關的數據線性簡化形成的主成分分析與準確唯一的動態聚類分析結合在一起形成了良好的多元數據分析體系,并以油菜雜交預試主要性狀數據為例,更加直觀地分析該體系的運作方式和方便之處,為推廣該系統方法打下了基礎。
[1]韓繼祥,劉后利.甘藍型油菜雜種主要農藝性狀和品質性狀的主成分分析[J].華中農業大學學報,1993(5):31-36.
[2]段利云,王通強,陽標仁,等.甘藍型油菜主要農藝性狀的主成分和聚類分析[J].山地農業生物學報,2007(5):9-13.
[3]丁厚棟,張堯鋒,余華勝,等.甘藍型油菜種質資源的農藝性狀聚類分析[J].華北農學報,2009(增刊 1):109-111.
[4]林寶剛,丁厚棟,張堯鋒,等.國外甘藍型油菜種質資源農藝性狀和品質性狀的聚類分析[J].中國種業,2010(4):49-51.
[5]劉定富.甘藍型油菜品種的聚類分析[J].湖北農學院學報,1993(3):13-19.
[6]宋來強,賀興文.甘藍型油菜親本材料的綜合評價和聚類分析[J].江西農業學報,1990(1):41-48.