李 婧,盧 瑋,邢玉虎,楊子慧,陳俊英
基于多元統(tǒng)計分析的枸杞測評
李 婧1,盧 瑋1,邢玉虎2,楊子慧1,陳俊英1
(1. 河北農(nóng)業(yè)大學理學院,河北 保定 071000;2. 河北農(nóng)業(yè)大學信息科學與技術(shù)學院,河北 保定 071000)
基于多元統(tǒng)計分析方法,針對專家所研究的大量供試農(nóng)作物品種,利用主成分分析法提取影響試驗品種品質(zhì)的主要因素,通過回歸分析得出供試品種的評價函數(shù),并用聚類分析法對品種進行歸類,為培育出的供試農(nóng)作物品種的后續(xù)工作構(gòu)建了一套流程。根據(jù)該流程并結(jié)合枸杞試驗品種數(shù)據(jù)進行實例分析,證明了該方法的合理性。
農(nóng)作物品質(zhì);主成分分析;回歸方程;聚類分析
隨著農(nóng)作物領(lǐng)域科學技術(shù)的發(fā)展,我國農(nóng)業(yè)科技水平取得了歷史性進步,尤其是基礎(chǔ)研究和高新技術(shù)研究迅速發(fā)展,在基因工程、單倍體育種等方面都有重大突破[1]。我國在23次航天生物學試驗中,試驗品種有4 500種,包括糧食作物、油料作物和經(jīng)濟作物等,已有200多個品種培育成功[2]。在專家們培育出的許多試驗品種中,需要的是不同功效中品質(zhì)最優(yōu)的,而如何從海量數(shù)據(jù)中獲得品質(zhì)最優(yōu)的試驗品種尤為重要。
當對多個指標進行分析統(tǒng)計時,通常要用到多元統(tǒng)計分析。在農(nóng)業(yè)作物培育中應(yīng)用多元統(tǒng)計分析[3],能夠充分掌握影響各試驗品種品質(zhì)的主要因素,以及不同品種之間的相似程度,從而更好地了解它們的本質(zhì)。多元統(tǒng)計分析的方法有多種,本文涉及到的方法有主成分分析、回歸分析以及聚類分析。
主成分分析是將原始變量按照一定的方式重新組合成一組新的互不無關(guān)的幾個綜合變量,同時根據(jù)實際需要從這幾個綜合變量中取出幾個較少的綜合變量,使提取出來的變量盡可能較多地反映原始變量信息[4];回歸分析是通過數(shù)據(jù)處理建立變量之間的量化數(shù)學模型,可對問題的分析、判斷、預(yù)測提供很好的幫助[5];聚類分析是指將對象的集合分組為由類似的對象組成多個類的分析過程,使每類內(nèi)部元素之間的同性質(zhì)最大化和類與類之間的異性質(zhì)最大化[6]。
本文基于多元統(tǒng)計分析方法,針對專家所研究的大量供試農(nóng)作物品種進行分析,進一步了解各試驗品種的品質(zhì)和不同品種之間的相似性和互異性,并對它們進行歸類,提高農(nóng)作物產(chǎn)品的管理效率,便利人們的生活。
本文所得數(shù)據(jù)來自寧夏農(nóng)林科學院國家枸杞工程技術(shù)研究中心[7],其中包括對不同試驗品種枸杞果實的VC、氨基酸、棕桐酸含量等10個主要品質(zhì)性狀的測定結(jié)果,如表1所示。

表1 15 份枸杞種質(zhì)10 個品質(zhì)性狀測定結(jié)果
IBM SPSS Statistics 24。
2.3.1 數(shù)據(jù)標準化處理[8]
(2)對每個數(shù)據(jù)進行標準化處理

2.3.2 主成分分析[9]提取主要影響因素
標準化后的數(shù)據(jù)矩陣為:

用數(shù)據(jù)矩陣的每個觀測向量,進行線性組合得到:

且滿足:
2.3.3 回歸分析構(gòu)造評價函數(shù)
利用多元線性回歸模型來構(gòu)造評價函數(shù),所構(gòu)建的回歸模型應(yīng)為:

由主成分載荷矩陣通過回歸算法可得到因子得分系數(shù)矩陣,進而可以直接確定出主成分得分的回歸模型[10]:

2.3.4 聚類分析對試驗品種歸類

圖1 系統(tǒng)聚類原理
根據(jù)所得不同品種的實驗數(shù)據(jù),以歐式距離為衡量各品質(zhì)之間差異的大小指標,采用組間連接法對試驗品種進行系統(tǒng)聚類分析[11],原理如圖1所示。借助SPSS軟件,可對導(dǎo)入的樣本數(shù)據(jù)進行系統(tǒng)聚類,得出系統(tǒng)聚類圖,進而對供試品種進行歸類。
特征值表示對應(yīng)主成分能夠描述原有信息量的多少,通過主成分分析得到表2。


表2 解釋的總方差



以表2中各個主成分的貢獻率為權(quán)重,進行線性加權(quán)求和,得到綜合評價函數(shù)為:


表3 成分得分系數(shù)矩陣
由上述評價函數(shù)我們可以得出所給15個不同品種枸杞品質(zhì)的綜合得分并進行排序,具體結(jié)果如表4所示。從表中可見,排在前3的品種分別為新疆枸杞、寧杞5號和寧杞3號。

表4 綜合得分
通過系統(tǒng)聚類法,借助SPSS,得出分類樹狀圖,具體如圖2所示。將15種枸杞劃分為4類:黑枸杞可單獨聚為一類,黃果枸杞單獨為一類,新疆枸杞和截萼枸杞聚為一類,其余11個品種聚為一類。

圖2 聚類分析圖
利用多元統(tǒng)計分析的方法對試驗枸杞試驗品種的品質(zhì)進行分析,將主成分分析與回歸分析相結(jié)合得出品種品質(zhì)的評價函數(shù),用聚類分析法對其進行分類,得出以下結(jié)論:
(1)品質(zhì)排在前3位的試驗品種分別依次為新疆枸杞、寧杞5號和寧杞3號這三個品種的VC、棕櫚酸、亞油酸和甜菜堿的含量較高。
(2)把15個枸杞試驗品種分成4類,各類都有各自的特性。黑果枸杞的特性是甜菜堿的含量高于其它品種,但其類胡蘿卜素和棕櫚酸含量較低;黃果枸杞的特點是黃酮含量高于其它品種,但棕櫚酸含量偏低;新疆枸杞和截萼枸杞一類的特點是VC和甜菜堿含量優(yōu)于其它品種;其余11個品種為一個新類,主要特點是類胡蘿卜素含量較高。
通過本文所構(gòu)建的一套流程,結(jié)合枸杞實驗數(shù)據(jù)的實例,得出的上述結(jié)論,與原始的實驗數(shù)據(jù)結(jié)論一致,說明了方法的有效性。
[1] 盧良恕.中國農(nóng)業(yè)發(fā)展現(xiàn)狀與展望[J].北方果樹,2002, 25(5):1-4.
[2] 張慧婷.我國有200多種“航天育種”農(nóng)作物培育成功[J].農(nóng)家參謀(種業(yè)大觀),2013,6(1):31.
[3] 章良容.農(nóng)業(yè)生產(chǎn)條件對農(nóng)業(yè)經(jīng)濟發(fā)展影響的多元統(tǒng)計分析[J].中國集體經(jīng)濟,2019,37(26):78-79.
[4] 蔡振禹,劉陽洋.基于主成分分析的建筑工程成本影響因素分析[J].數(shù)學的實踐與認識,2016,46(13):15-22.
[5] 林宇馳,榮先釗.基于多元線性回歸的供需平衡算法預(yù)測海南市住房[J].計算機產(chǎn)品與流通,2019,36(9):150.
[6] 呂衛(wèi)平,張曉梅.基于SPSS的聚類分析應(yīng)用[J].福建電腦,2013,29(9):20-23.
[7] 李越鯤,尹躍,周旋,等.枸杞主要品質(zhì)性狀的主成分分析與綜合評價[J].湖北農(nóng)業(yè)科學,2016,55(16):4220- 4223.
[8] 黃秋婷,馮振宇,馬曉偉,等.卷煙批量數(shù)據(jù)標準化及評價方法的設(shè)計[J].云南化工,2018,45(10):38-43.
[9] 左繼林,孫穎,吳妹杰,等.美國薄殼山核桃實生種源果實品質(zhì)主成分分析與綜合評價[J].江蘇農(nóng)業(yè)科學,2019, 49(18):235-239.
[10] 王利.基于回歸分析的顏色與硫酸鋁鉀濃度辨識[J].遼寧高職學報,2018,20(12):73-75.
[11] 盛庭巖,索郎大吉,范月君.青稞品種(系)主要性狀的聚類分析[J].青海草業(yè),2019,28(3):7-11.
Evaluation of Wolfberry Based on Multivariate Statistical Analysis
LI Jing1, LU Wei1, XING Yu-hu2,YANG Zi-hui1,CHEN Jun-ying1
(1. College of Science, Hebei Agricultural University, Baoding 071000, China; 2. College of Information Science and Technology,Hebei Agricultural University, Baoding 071000, China)
Based on the method of multivariate statistical analysis, aiming at a large number of tested crop varieties studied by experts, the main factors affecting the quality of the tested varieties were extracted by principal component analysis. The evaluation function of the tested varieties was obtained by regression analysis, and the varieties are classified by cluster analysis, to build a set of process for the subsequent work of the cultivated tested crop varieties. According to the process and the data of Lycium barbarum, the rationality of the method is proved.
crop quality; principal component analysis; regression equation; cluster analysis
O29;S5-33
A
1009-9115(2020)03-0019-04
10.3969/j.issn.1009-9115.2020.03.006
河北農(nóng)業(yè)大學理工基金(LG201614)
2019-10-08
2020-04-09
李婧(1999-),女,河北邯鄲人,本科生,研究方向為數(shù)學與應(yīng)用數(shù)學。
陳俊英(1981-),女,河南鹿邑人,碩士,副教授,研究方向為不確定性信息處理。
(責任編輯、校對:趙光峰)