999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

農作物品種最佳聚類方法研究

2017-01-06 07:20:51杜海平
山西農業科學 2016年7期
關鍵詞:分類方法

杜海平

(山西省農業科學院農業科技信息研究所,山西太原030031)

農作物品種最佳聚類方法研究

杜海平

(山西省農業科學院農業科技信息研究所,山西太原030031)

篩選中國知網上的期刊文獻,選擇4篇文章中的4種豆類數據作為評判標準,對數據變換7種方法、樣品間5種距離公式、類間7種距離定義,共組合成的245種分類方法,應用系統聚類分析、方差分析、非參數檢驗和描述性統計分析等方法進行了比較研究。結果表明,過去最常使用的類間最短距離法和類平均距離法都不是最佳的類間距離方法,它們的準確性極顯著地低于最小離差平方和法;原始數據Z標準化變換也不是最佳的變換方法,而是“全距從0到1”、“全距從-1到1”、“1的最大量”這3種變換方法;樣品間5種距離分類最準確的是Manhattan距離,其次才是歐氏距離。據此得出了最佳的聚類方法和步驟。

農作物品種;聚類方法;數據變換;類間距離;樣品間距離

聚類分析是根據事物的多個數值特征來觀察事物個體之間或樣品之間的親疏關系和相似程度的一種多元統計分析方法,內容涉及面廣,分類方法多而雜[1-3],其理論上還不是至善至美,但是它比憑感官分類效果要好、分類結果明確,借助計算機和統計軟件,分類速度很快。

在農業和生物學研究中,聚類分析有著廣泛的應用,比如品種分類、生產性狀分類、表型性狀分類、土壤分類等。經過分類,可以發現每類的特征,再通過特定試驗,從而可以應用方差分析、相關分析、回歸分析等進一步揭示類群間的關系。

聚類分析是根據樣品之間的親疏關系進行分類,親疏關系是根據樣品與樣品之間、類與類之間的距離遠近來衡量的,而距離遠近又與多種距離公式和聚類方法的選擇有關。

從應用的角度,申慧芳等[4-6]使用最短距離法,李莉等[7-9]使用最長距離法,要燕杰等[10-12]使用類間平均法,趙明輝等[13-15]使用離差平方和法,孫敏等[16]使用質心聚類法。從理論的角度,陳慶富等[17-18]推崇最短距離法,向曉群[19]持相反態度;張文彤等[20-21]認為,類平均距離法表現最為優異,克勞斯·巴克豪斯等[22]卻認為Ward法最好,而蓋鈞鎰[23]認為最小組內平方和法和組平均法效果都較好。因此,產生了折中辦法,李靜萍等[24-25]建議,盡量多用幾種距離公式和分類方法進行聚類分析,從多種結果中找出合適的分類,于是對同樣一批樣品進行分類,由于多種選擇,就會得到多種分類結果。這就造成了許多科技人員在使用聚類分析方法時的疑惑和困難,計算量、工作量大增,而分類結果卻未盡合理。

為了對多種距離公式、聚類方法及數據轉換方法的不同組合進行比較,探索最佳的聚類分析方法,本研究僅從農業科研試驗數據的角度出發,選用4種豆類品種作為評判比較標準,經過數千次的計算、分析、驗證,尋找基于SPSS軟件當中系統聚類方法下所有組合的最優聚類搭配,以期給農業科技人員在對農作物品種應用聚類分析時提供理論依據和實際操作方法。

1 材料和方法

1.1 數據來源

4組豆類數據,即綠豆、紅小豆、豌豆、大豆,分別來源于文獻[4-5,7,26]。

1.2 數據選取方法

從品種上考慮,第1,2組采用文獻[4-5]中的全部品種;第3組只取用文獻[7]中的10個品種,剔除5個極端值品種;第4組取用文獻[26]中的第1個試驗點品種,剔除第2個點的品種。

從性狀上考慮,選取4組豆類共有性狀的數據,它們是“株高、分枝數、主莖節數、單株莢數、單莢粒數、百粒質量、生育期、單株產量”。

另外,根據公式“單株粒數=單株產量/(百粒質量/100),單莢粒數=單株粒數/單株莢數”,計算補充了第3組中“單莢粒數”的數據缺失。

除8個生物學性狀變量外,再增加一個變量“豆類”,相當于方差分析中的處理,它有4個水平,分別是綠豆、紅小豆、豌豆和大豆。這樣,這組數據共有9個變量45個品種。其中,綠豆12個品種,紅小豆13個品種,豌豆10個品種,大豆10個品種(表1)。

表1 原始數據

續表1

1.3 研究方法

本研究基于SPSS統計軟件,采用系統聚類方法,對樣品間5種距離公式、類間7種距離公式、數據變換7種方法這三者之間245個組合都進行一次聚類分析,要求把所選樣品分為四類,以此聚類結果與標準的四類范本進行比較,統計出分錯類樣品的數目,再應用統計手段進行分析,從而得出不同聚類組合之間的優劣。本研究中“樣品”等同于品種,只是它適用范圍更廣。

1.4 距離公式定義及數據變換方法

假設有n個樣品Xi,對每個樣品Xi觀測了m個指標或性狀,即Xi=[xi1xi2… xim],其中xik為第i個樣品的第k個指標的觀測值。這樣,得到原始觀測數據陣如下。

設第i個樣品Xi與第j個樣品Xj之間的距離用dij表示,即dij=d(Xi,Xj)。

從以上各公式可以看出,各指標或性狀的單位要相同才能進行運算,才有實際意義,否則需要先對各指標進行標準化變換后才能使用這些公式。

類間平均距離(組間聯接法),即2類之間兩兩樣品距離之和的平均值。

類內平均距離(組內聯接法),即兩類合并為一類后所有樣品兩兩間距離之和的平均值。

最近鄰元素法,即2類之間最近2個樣品的距離作為2類之間的距離。

最遠鄰元素法(完全連接法),即2類間最遠的2個樣品的距離作為2類之間的距離。

重心聚類法(質心聚類法),即2類中各自樣品均值之間的距離作為類間距離。

中間距離法(中位數法或median method):Gk與任一類Gr的距離公式如下。

Ward法(離差平方和法),即兩類合并后增加的離差平方和作為兩類間的距離,選擇使離差平方和增加最小的兩類合并,直到所有的樣品歸為一類為止。

1.4.3 原始數據7種轉換方法

1.4.3.1 不轉換 不對原始數據進行標準化。

1.4.3.2 Z得分 將原數標準化為均值為0、標準差為1的數值。計算方法為原數減去其變量均值,再除以標準差;如果標準差為0,轉換后的值也為0。

1.4.3.3 全距從-1到1 將原數標準化為-1~1的數值。計算方法為原數減去均值,再除以極差;若極差為0,則原值不變。該方法適用有負值情況。

1.4.3.4 全距從0到1 將原數變換為0~1的值。計算方法為原數減去其變量中最小值,再除以極差;若極差為0,則變換后的值設為0.5。

1.4.3.5 1的最大量 將原數標準化為最大不超過1的數值。計算方法為原數除以其變量中最大值;如果最大值為0,則為原數除以其變量中最小值的絕對值,再加1。

1.4.3.6 均值為1 將原數標準化為均值為1的數值。計算方法為原數除以其變量的均值;如果均值為0,則為原數加1。

1.4.3.7 標準差為1 將原數標準化為標準差為1的數值。計算方法為原數除以其變量的標準差;如果標準差為0,則原數值不變。

1.5 系統聚類過程

將n個樣本或樣品看成n類,計算所有樣品兩兩之間的距離;把最短距離的2個樣品聚成一類,于是總類數就減少了一類,變成了n-1類;繼續計算樣品之間、或樣品與類之間、或類與類之間的距離;每次都把距離最短的聚成一類,這樣每次減少一類;循環往復,直到最后所有樣品聚成了一個大類。

2 結果與分析

2.1 4種豆類間差異顯著性分析

從表1中8個指標的平均數可以看出,它們各自在4種豆類之間都有不同程度的差異,但是其差異是否能夠達到把4種豆類區分清楚的顯著程度,還有必要進行方差分析。

經過檢驗、數據轉換、再檢驗,數據符合正態性和方差同質性;顯然,數據也符合獨立性。這樣,數據具備了方差分析的3個必要條件,可以進行方差分析。

多變量方差分析顯示,4種豆類在8個指標的總體上差異極顯著。8個指標各自的單變量方差分析顯示,除分枝數不顯著外,其他7個指標各自在4種豆類間都差異極顯著。對極顯著的7個指標分別進行4種豆類間的多重比較,結果表明,絕大多數都顯著,只有紅小豆與綠豆在株高間、單株莢數間差異不顯著。

綜上所述,4種豆類除在分枝數上差異不顯著、紅小豆與綠豆在株高和單株莢數上差異不顯著外,其他40個多重比較間都差異顯著或極顯著,有很好的分類基礎,與直觀上認為它們容易被區分的判斷是一致的。因此,把這4種豆類作為評判眾多聚類方法優劣的標準是可行的。

2.2 對原始數據進行分類的結果與分析

使用樣品間距離與類間距離的35種組合方法,分別對原始數據進行聚類分析。結果表明,35種方法中,有34種不能準確把45個品種分成四類,只有Ward法對應Manhattan距離這個組合能夠準確分成四類(圖1),完全正確率小于3%。在圖1中2.6處樣品被分成了4類,分別是綠豆、紅小豆、大豆和豌豆。

在35次聚類中,分錯最多的是最近鄰元素法和中間距離法分別對應Chebychev距離這2個組合,它們把綠豆、紅小豆和大豆都分到同一類里,而把豌豆拆分為3類,分錯數達27個,分錯率達60%。

由此可見,如果直接對原始數據進行分類,其分類效果很差,因為各變量單位不統一,數量級別差異也大。所以,要想提高分類的正確率,必須對原始數據進行一定的變換處理。

2.3 7種數據變換(包括原始數據)的分類結果與分析

對7種數據變換、7種類間距離、5種樣品間距離,共245種組合方法的聚類結果,匯總其分類樣品數,結果如表2所示。

表2 原始數據7種變換下分錯樣品數匯總

續表2

由表2可知,“原始數據”這一列中,只有Ward法對應的D行為0,表示分類正確。“Z得分變換”一列中,分類效果最好的是Ward法,其次是類內平均距離法。但能夠準確分成四類的只有類間距離Ward法對應的B行和D行,即Ward法對應平方Euclidean距離和Manhattan距離的分類效果最好。Ward法對應的另外3行各分錯了一個樣品;類內平均距離法對應的A行分錯了5個,對應的B行分錯了3個,對應的C行分錯了5個。可見,經過Z標準化變換,分類正確率有明顯的提高。

為準確把握各種方法和距離的優劣,本該應用方差分析和多重比較進一步分析,但是通過檢驗,發現此表數據不滿足正態性和方差同質性要求,只能改用非參數檢驗和描述性統計進行分析。

通過Kruskal Wallis檢驗,得出類間7種距離之間、數據變換7種方法之間差異極顯著,而樣品間5種距離之間差異不顯著。

經Mann-Whitney檢驗顯示,Ward法分錯數極顯著低于其他6種方法;數據變換中,“1的最大量”、“均值為1”、“全距從-1到1”、“全距從0到1”都極顯著低于原始數據的分錯數,但這4個間差異不顯著,有必要加入新的品種數據進一步分析。2.4 60個品種的分類結果與分析

把前面分析時剔除的15個品種(1.2中5個豌豆品種和10個大豆品種),也參與了分類。豌豆品種變成15個,大豆品種變成20個,綠豆和紅小豆分別還是12,13個品種。對這60個品種進行245次聚類分析,對分錯數結果進行獨立樣本的非參數檢驗等分析。其部分分析結果如圖2~4、表3所示。

由圖2~4可知,類間距離、數據變換、樣品間距離分錯數最少的分別是Ward法、“全距從-1到1”和“全距從0到1”、Manhattan距離,并且通過Mann-Whitney檢驗,顯示它們的分錯數都極顯著低于別的距離或方法的分錯數。

表3 60個品種Ward法變換下分類錯誤匯總

3 結論與討論

本研究以4種豆類數據為評判標準,進行了大量的推演和計算,最后得出了比較可靠的品種最佳聚類方法。首先,選擇數據變換方法。這一步是為了消除不同指標不同量綱的影響和數量級別落差大的影響。在最常用的7種數據變換方法中,得出最好的方法是“全距從0到1”、“全距從-1到1”、“1的最大量”(因為它們3個在配合使用Ward法和Manhattan距離以及原始數據沒有負數時差異不大)。其次,選擇類間距離。類間距離顯然應該選Ward方法,它的分類準確性遠高于其他6種方法。第三,選擇樣品間距離。最好的樣品間距離方法是Manhattan距離,其次是Euclidean距離和Minkowski距離3次方。

為了驗證上述最優組合在某一類樣品比較少的情況下準確性如何,本研究把表1每一類只留2個品種、而其他三類品種數不變,又針對2.4中60個品種把每一類只留3個品種,而其他三類品種數不變,共8種情況,進行了數千次計算分析,得出了和上面一致的結論。

本研究的缺憾是樣本量仍然不是很大,每類樣本數沒有超過20個,有待以后收集更多的數據進一步檢驗這種最優組合方法的外延正確率。

[1]Jain A K.Data clustering:50 years beyond k-means[J].Pattern Recognition Letters,2010,31(8):651-666.

[2]孫吉貴,劉杰,趙連宇.聚類算法研究 [J].軟件學報,2008,19(1):48-61.

[3]王駿,王士同,鄧趙紅.聚類分析研究中的若干問題[J].控制與決策,2012,27(3):321-328.

[4]申慧芳,李國柱.不同綠豆突變體主要農藝性狀的多元遺傳分析[J].激光生物學報,2010,19(2):194-200.

[5]申慧芳,李國柱.紅小豆主要數量性狀的主成分與聚類分析[J].山西農業科學,2012,40(4):310-313,385.

[6]張學余,蘇一軍,李國輝,等.部分地方雞種蛋品質與生態環境的聚類和主成分分析[J].天津農業科學,2013,19(1):47-50.

[7]李莉,萬正煌,焦春海,等.外引豌豆資源的鑒定及主要數量性狀的主成分分析[J].湖北農業科學,2014,53(23):5643-5648.

[8]王林海,王曉偉,詹克慧,等.黃淮麥區部分小麥種質資源農藝性狀的聚類分析[J].中國農學通報,2008,24(4):186-191.

[9]馬蓉麗,焦彥生,成妍,等.基于表型性狀的辣椒資源遺傳多樣性分析[J].山西農業科學,2015,43(12):1577-1581.

[10]要燕杰,高翔,吳丹,等.小麥農藝性狀與品質特性的多元分析與評價[J].植物遺傳資源學報,2014,15(1):38-47.

[11]王成,閆峰,崔秀輝,等.綠豆農藝性狀的遺傳多樣性分析[J].雜糧作物,2010,30(3):182-184.

[12]葉偉慶,王光琴,楊芬霞,等.信宜懷鄉雞體質量與體尺性狀的相關性及聚類分析[J].河南農業科學,2015,44(2):132-134.

[13]趙明輝,李會敏,孟祥海,等.斯洛伐克104份冬小麥種質資源農藝性狀的分析及評價 [J].華北農學報,2014,29(增刊):120-124.

[14]史鳳玉,朱英波,龍茹,等.野生大豆抗大豆花葉病毒病評價、聚類及性狀間相關分析[J].大豆科學,2010,29(6):976-981.

[15]孫振綱,姜艷麗,陳耕,等.27個陸地棉新種質材料主要性狀研究及聚類分析[J].山西農業科學,2015,43(7):773-776.

[16]孫敏,黎娟,周清明,等.湖南濃香型煙葉不同類型區化學成分比較[J].天津農業科學,2016,22(5):58-62,66.

[17]陳慶富.生物統計學 [M].北京:高等教育出版社,2011:225,238.

[18]方開泰.實用多元統計分析[M].上海:華東師范大學出版社,1992:241.

[19]何曉群.多元統計分析[M].2版.北京:中國人民大學出版社,2009:73.

[20]張文彤,董偉.SPSS統計分析高級教程[M].2版.北京:高等教育出版社,2013:298.

[21]李衛東.應用多元統計分析[M].北京:北京大學出版社,2008:129.

[22]克勞斯·巴克豪斯,本德·埃里克森,伍爾夫·普林克,等.多元統計分析方法[M].上海:世紀出版集團格致出版社,上海人民出版社,2009:328.

[23]蓋鈞鎰.試驗統計方法[M].4版.北京:中國農業出版社,2013:215.

[24]李靜萍.多元統計分析[M].北京:中國人民大學出版社,2015:49,65.

[25]顧志峰,葉乃好,石耀華.實用生物統計學[M].北京:科學出版社,2012:245.

[26]張玉革,胡緒彬.基于主成分和聚類分析的大豆品種生物學性狀的比較研究[J].大豆科學,2004,23(3):178-183.

Study on the Best Clustering M ethod of Crop Varieties

DU Haiping
(InstituteofAgricultural Information,Shanxi Academy ofAgricultural Sciences,Taiyuan 030031,China)

Screening CNKI journal literature,four kinds of legume data from four articles were used as evaluation criteria.245 clustering methods consisting of 7 methods of data transformation,5 distance formulas between samples,7 distance definitions between classes were compared by cluster analysis,ANOVA,nonparametric test and descriptive statistical analysis.The results showed that, nearest neighbor and between-groups linkage used most commonly in the past were not the best clustering method,because their accuracy was significantly lower than Ward's method.Z standardization was not the best method of data transformation,but it was the "Range from 0 to 1","Range from-1 to 1"and"Maximum Magnitude of 1"3 kinds of transformation methods.Among the 5 distance formulasbetween samples,themostaccurate classification was the Manhattan distance,followed by the Euclidean distance.Accordingly, we got the bestclusteringmethodsand steps.

crop varieties;clusteringmethod;data transformation;between-classdistance;distance between samples

TP399

A

1002-2481(2016)07-0918-07

10.3969/j.issn.1002-2481.2016.07.07

2016-03-21

山西省農業科學院科技攻關項目(2012ygg30)

杜海平(1962-),男,山西太原人,助理研究員,主要從事試驗統計分析和大數據應用研究工作。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 国产99在线| 国产精品免费p区| 久久夜色精品国产嚕嚕亚洲av| 久久无码免费束人妻| 在线视频精品一区| 欧美日本激情| 91欧美在线| 狠狠做深爱婷婷综合一区| 日韩不卡免费视频| 精品国产免费观看一区| 国产亚洲美日韩AV中文字幕无码成人| 久久人人97超碰人人澡爱香蕉| 中文字幕第4页| 亚洲成av人无码综合在线观看| 日本福利视频网站| 亚洲无码电影| 久久无码高潮喷水| 2021亚洲精品不卡a| www.av男人.com| 一级黄色网站在线免费看| 香蕉国产精品视频| 亚洲国产AV无码综合原创| 素人激情视频福利| 超碰91免费人妻| 二级特黄绝大片免费视频大片| 国产成人精品18| 99久久这里只精品麻豆| 综1合AV在线播放| V一区无码内射国产| 色婷婷电影网| 欧美亚洲一二三区| 欧美伦理一区| 久草视频中文| 曰AV在线无码| 日韩精品成人在线| 国产啪在线91| 露脸国产精品自产在线播| 在线播放91| 欧美激情视频在线观看一区| 免费Aⅴ片在线观看蜜芽Tⅴ| 综合久久五月天| 国产成人av大片在线播放| 日韩天堂视频| 久一在线视频| 思思99思思久久最新精品| 视频一本大道香蕉久在线播放| 亚洲第一成人在线| 青青草欧美| 国产欧美视频在线| 亚洲男人天堂2020| 久久这里只精品国产99热8| 青青热久免费精品视频6| 99热这里只有精品免费国产| 日韩高清一区 | 日本a级免费| 国产精品一老牛影视频| 欧美国产日韩在线观看| 精品一区二区久久久久网站| 久久久噜噜噜| 日日噜噜夜夜狠狠视频| 亚洲人妖在线| 亚洲91在线精品| 中文字幕在线观看日本| 国产高清在线丝袜精品一区| 久久精品丝袜高跟鞋| 91国内在线观看| 潮喷在线无码白浆| 国产亚洲精品自在线| 在线看片中文字幕| 亚洲免费毛片| 高h视频在线| 日韩免费毛片视频| 国产无遮挡猛进猛出免费软件| 亚洲性一区| 成人福利在线观看| 在线观看国产黄色| 最新国产你懂的在线网址| 亚洲精品波多野结衣| 欧美一区二区啪啪| 成人免费一区二区三区| 久久久久久久97| 丁香六月综合网|