摘" 要:該文介紹配對樣本t檢驗的基本原理及適用條件,并將其應用到玉米育種輻照實驗中。該團隊跟蹤記錄玉米育種輻照實驗中的相關數據,并從中選取可以配對的10組數據進行分析研究。首先利用SPSS統計軟件對配對數據進行處理,而后通過配對樣本t檢驗對比研究“輻照”對玉米形態的影響。分析結果表明,對混合自交系種子進行輻照實驗可以提高株高和穗位高,但是輻照對種子從抽雄到成熟時間并沒有影響。
關鍵詞:玉米育種;配對樣本t檢驗;描述統計;SPSS軟件;輻照實驗
中圖分類號:O21" " " " 文獻標志碼:A" " " " " 文章編號:2096-9902(2023)10-0030-04
Abstract: In this paper, we introduce the basic principle and applicable conditions of paired sample T-Test, and then apply the paired sample T-Test to irradiation experiment of corn breeding. We firstly track and record the data of the irradiation experiment of corn breeding, then we choose ten sets of paired data that can be matched to analysis and study. First of all, the paired data are compared by using SPSS statistical software. Then the effect of irradiation on the morphology of corn was studied by paired sample T-Test. The results showed that the irradiation experiment on the seeds of mixed inbred lines could increase the plant height and ear height, but the irradiation had no effect on the time from heading to maturity.
Keywords: corn breeding; paired sample T-Test; descriptive statistics; SPSS software; irradiation experiment
2012年2月,《紐約時報》一篇專欄寫道:“大數據”時代已經降臨,在商業、經濟及其他領域中,決策將日益基于數據和分析,而并非基于經驗和直覺。信息爆炸時代產生了海量數據,越來越多的行業運用各種技術手段提煉數據、分析數據,作為生產、投資、科研等重大事項決策的重要依據。隨著信息時代的發展,數據分析軟件多種多樣,如Matlab、SAS、R、Python和SPSS等。然而大部分軟件需要編程技巧,這讓很多非數學專業的人望而卻步。而SPSS(Statistical Productand Service Solutions)是一款采用圖形菜單驅動界面的統計軟件,操作界面簡單直接,輸出結果美觀,用戶只要掌握一定的Windows操作技能,精通統計分析原理,就可以使用該軟件為特定的科研工作服務,而且SPSS采用類似Excel表格的方式輸入與管理數據,數據接口較為通用,能方便地從其他數據庫中讀入數據,所以深受歡迎[1-8]。
1" 數據來源
電離輻射誘變玉米種子,其后代表現出多種性狀變異,其中很多是有益變異。將這些有益變異通過農業育種手段保留下來并培育成具有不同遺傳基礎的突變體,對于拓展種質資源具有重要意義[9]。
生物輻照方向耿金鵬副教授團隊在進行輻照實驗時,將未輻照的混合自交系種子作為對照(簡稱“對照組”,CK),輻照玉米自交系種子先經過2 Gy的7Li離子(中國原子能科學研究院HI-13串列加速器)照射,然后再對能量為30 keV、注量為1×1 017 ions/cm2的N離子進行二次輻照(簡稱“輻照組”),將其種植于河北省邯鄲市永年縣小龍馬鄉的試驗田中,觀察記錄其抽雄、成熟時間、株高穗位和其他顯著變異,以期篩選出高產、品優和抗逆性強的自交系,為組配優質玉米新品種提供種質資源。最終取得10組株高、穗位高度及從抽雄到成熟時間(簡稱“成熟期”)數據,數據見表1。
2" 配對樣本t檢驗基本原理
2.1" 假設檢驗基本思想
假設檢驗的基本思想是統計學中的“小概率反正法”原理,也即在一次試驗中我們認為小概率事件不應當發生。換句話說:原假設“要檢驗的事件發生”,備擇假設“要檢驗的事件不發生”,基于原假設設計試驗并進行推導,得出原假設發生的概率,如果此概率小于預定的小概率事件發生的最大概率(通常是0.05),那么就認為“原假設”這個事件是小概率事件,在設計的一次試驗中發生了,我們認為不可能,所以要拒絕原假設。當然上述推導是基于概率的統計結論,存在一定犯錯誤的概率,也就是假設檢驗的2類錯誤[10]。
2.2" 配對樣本t檢驗基本原理
t檢驗作為連續變量統計推斷方法中最基本的檢驗方法,是戈斯特為了觀測釀酒質量而發明的,主要用于樣本含量較小(例如nlt;30),總體標準差σ未知的正態分布資料。
t檢驗給出以下2種可能假設。
H0:u=u0,樣本均數與假定總體均數無明顯差異,存在的差異完全是由抽樣誤差造成。
H1:u≠u0,樣本均數與假定總體均數明顯不同,存在的差異除了由抽樣誤差造成,也確實反映了這種差異。
t檢驗利用T分布的特征,將t作為檢驗統計量來進行檢驗,具體統計量表達式為:
t檢驗包括單樣本t檢驗、獨立樣本t檢驗和配對樣本t檢驗。單樣本t檢驗用于一個樣本數據與總體均值進行對比;獨立樣本t檢驗用于2組樣本的均值進行對比;配對樣本t檢驗用于成組數據的均值比較,2組數據數量一樣多,同時每對數據之間有一定的相關性。
通常情況下配對樣本t檢驗用于配對實驗設計的數據,可以提高研究效率,同時可以避免遺漏數據之間的相關關系。生物學中常見的配對實驗設計數據包括:固定實驗對象處理前后的數據、固定實驗對象不同維度的數據、同一種植物用2種方法處理后的數據和配對的2個實驗對象分別接受對照處理后的數據。本文數據即是同一種植物用2種方法處理后跟蹤記錄的數據,旨在推斷輻照組與對照組的相關數據是否有明顯差異。
配對樣本t檢驗用于檢驗配對樣本是否來自具有相同均值的正態總體。基本原理是取得每對數據的差值:如果處理因素對每對數據沒有影響,則差值的均數等于0,從配對樣本所在的總體中抽出的樣本均數應該在0附近波動;反之,如果處理因素對每對數據有影響,那么差值的均數就不等于0,從配對樣本所在的總體中抽出的樣本均數離0的距離也較遠。實際上,配對樣本t檢驗也就是差值的單樣本t檢驗。
2.3" 單樣本t檢驗的適用條件
單樣本t檢驗的適用條件,根據中心極限定理,即使原始數據不服從正態分布,只要樣本量足夠大,那么樣本均值的抽樣分布仍然是正態分布。所以只要數據的分布不是強烈的偏態,一般情況下t檢驗都是適用的。
3" 數據準備
3.1" 描述性分析
描述性分析主要用于計算變量的集中趨勢、離散趨勢分布特征及其他趨勢的統計量指標。
SPSS(26.0)操作:打開數據文件“F1代田間調查數據.sav”,選擇菜單“分析|描述統計|頻率”,選擇變量,“統計”選項選擇“平均值、方差、標準差、偏度和峰度”,“圖表”選項選擇“直方圖”,并“在直方圖中顯示正態曲線”,如圖1所示。
株高、穗位輻照組與對照組數據平均值存在一定的差異(表2),而成熟期輻照組和對照組平均值只差了0.1;6個變量的偏度和峰度值都在0左右,絕對值均小于2。
3.2" 分布類型檢驗
t檢驗的適用條件是變量分布不是強烈的偏態,本文利用非參數檢驗單樣本柯爾莫戈洛夫-斯米諾夫檢驗(K-S)檢驗來檢驗株高、穗位和成熟期的數據是否來自正態分布的總體。取α=0.05。
原假設:變量樣本來自一個正態分布的總體,實際數據與理論分布之間的差異完全是由抽樣誤差造成的。
備擇假設:變量樣本并非來自一個正態分布的總體,實際數據與理論分布之間的差異除了由抽樣誤差造成外,也確實反應了這種差異。
選擇“分析|非參數檢驗|單樣本”“設置|定制檢驗|檢驗實測分布與假設分布|正態”。
根據非參數檢驗的分析結果(表3),“保留原假設”,也即我們可以認為株高(CK)、株高(輻照)、穗位(CK)、穗位(輻照)、成熟期(CK)和成熟期(輻照)數據來自的總體數據服從正態分布,符合配對樣本t檢驗的適用條件。
4" 配對樣本t檢驗
假設每對變量分別來自2個正態分布的總體,樣本分別為:(X1,Y1),(X2,Y2)…(Xn,Yn),則配對樣本對應的差值,配對樣本t檢驗(圖2)的假設如下。
原假設:μd=0,兩組數據沒有差異,也即輻照實驗沒有起作用。
備擇假設:μd≠0,兩組數據有差異,也即輻照實驗起到了作用。
顯著水平:α=0.05。
統計量計算公式為:
SPSS操作:“分析|比較均值|配對樣本t檢驗”,把各變量成對選入。
配對變量的統計描述,株高、穗位和成熟期形成了3組配對變量數據。配對樣本t檢驗結果見表4、表5和表6。
由表6可知,我們知道株高、穗位和成熟期對照組與輻照組的差值的平均值分別為:-22.500、-9.800和0.100,其中株高和穗位的差距較大,而成熟期的差值較小。由表5可知,3對數據的相關性檢驗的P值均大于0.05,表明3對數據具有明顯的相關性。表6是配對樣本t檢驗的結果表,3對數據配對樣本t檢驗對應的P值分別為0.010、0.050和0.939,其中P株高=0.010<0.05,我們認為株高輻照組與對照組數據有明顯差異;P穗位=0.050≤0.05,在小概率最大值,結合表4中穗位差值均數,穗位輻照組與對照組數據有明顯差異;P成熟期=0.939>0.05,成熟期輻照組與對照組數據沒有明顯差異。
由此,“輻照”對玉米的株高和穗位產生了明顯影響,經過2Gy的7Li離子等一系列輻照處理,株高變高、穗位升高,而對成熟期沒有產生明顯影響。
5" 結束語
配對樣本t檢驗往往用于配對設計的實驗,得到的每對樣本數據之間都有一定的相關,且配對設計所測量的數據為定距數據。
該實驗數據分析的缺點是樣本數據量太小,只有10組,考慮到出苗率等種子自身因素和自然環境等客觀因素的影響,是實驗產生的實際數據,有分析的實際意義。
參考文獻:
[1] 李雪苑.SPSS軟件應用課程教學研究與實踐[J].經貿實踐,2016(13):87.
[2] 史娜.SPSS軟件在《概率論與數理統計》課程教學中的應用研究[J].甘肅聯合大學學報(自然科學版),2012,26(6):107-110.
[3] 馮巖松.SPSS 22.0統計分析應用教程[M].北京:清華大學出版社,2015.
[4] 袁德美.概率論與數理統計[M].北京:高等教育出版社,2016.
[5] 盛驟.概率論與數理統計[M].北京:高等教育出版社,2008.
[6] 謝興武,李宏偉.概率統計釋難解疑[M].北京:科學出版社,2007.
[7] 費宇.統計學實驗[M].北京:高等教育出版社,2012.
[8] 蘇理云,陳彩霞,高紅霞.SPSS 19統計分析基礎與案例應用教程[M].北京:北京希望電子出版社,2012.
[9] 耿金鵬.電離輻射對玉米種質改良的應用研究[D].天津:河北工業大學,2015.
[10] 張文彤.SPSS統計分析基礎教程[M].3版.北京:高等教育出版社,2017.