南京農業大學大豆研究所/國家大豆改良中心/作物遺傳與種質創新國家重點實驗室(210095) 邢光南 趙團結 蓋鈞鎰
用SAS程序模擬抽樣繪制t、F和χ2分布*
南京農業大學大豆研究所/國家大豆改良中心/作物遺傳與種質創新國家重點實驗室(210095) 邢光南 趙團結 蓋鈞鎰△
△通訊作者:蓋鈞鎰,E-mail:sri@njau.edu.cn
長期以來作為國際著名的統計軟件SAS以其強大的統計功能受到廣大使用者的青睞,并被廣泛介紹〔1-3〕。利用計算機輔助教學有利于改進統計課程的教學〔4〕,對那些內容抽象,學生難以理解,用傳統教學方法難以奏效的教學內容開展SAS系統輔助教學卓有成效〔5-7〕。t、F 和 χ2分布是重要的抽樣分布,是 t、F和χ2檢驗的基礎,由于這些分布的概率密度函數公式復雜,也是生物統計學教學的重點和難點。本文結合教科書的基本原理通過編寫SAS程序模擬上述抽樣分布,以加深教學過程中對t、F和χ2分布及其檢驗的理解。

χ2分布若所研究的總體μ不知,而以樣本代替,則,此時獨立的離差個數為 n -1 個,v=n-1〔8〕。
F分布 在一個平均數為μ、方差為σ2的正態總體中,隨機抽取兩個獨立樣本,分別求得其均方和,將和的比值定義為 F :F(vv,v2)=/,此 F 值具有的自由度v1和的自由度v2〔8〕。如果在給定的v1和v2下按上述方法從正態總體中進行一系列抽樣,就可得到一系列的F值而形成一個F分布。
宏creat用于產生樣本及其特征數如平均數、總和數、t值、u值、χ2值和F值,其中數據步data cy有三個循環語句,外循環語句用于產生100000個樣本,兩個并列的內循環語句分別用于產生樣本容量分別為n1和n2的隨機樣本(F測驗需要兩個樣本),并分別于每個樣本后計算相應的方差。依據基本原理中的相應公式,第一個內循環后計算樣本容量為n1的t值、u值和χ2值,第二個內循環后計算分子樣本容量為n1,分母樣本容量為n2的F值。
宏pct用于輸出t、u、χ2和F分布的特征數、分位數及繪制累積概率分布圖。proc univariate過程用于輸出t、u、χ2和F 分布的分位數,如常見的P=0.95,用于理解其為何作為假設檢驗統計推斷的臨界值。
宏dist通過調用宏creat、宏pct和改變宏參數,產生各種分布的特征數、分位數及繪制累積概率分布圖和頻數分布圖。通過改變宏參數可隨時改變樣本容量,從而獲得不同樣本容量下的分布,以滿足不同樣本容量下各分布的異同比較。詳細的語句解釋見程序。



t分布是一組對稱密度函數曲線,具有一個單獨參數v以確定某一特定分布,v是自由度〔8〕。本實驗中當樣本容量分別為5、10和30時,t分布的平均數分別為0.00541、-0.00045和 -0.00007,方差分別為2.00821、1.27955和1.06911。自由度較小的t分布比自由度較大的t分布具有較大的變異度。可見當v增大時,t分布趨向于標準正態分布。t分布曲線是對稱的,圍繞其平均數ut=0向兩側遞降。由于t分布受自由度制約,所以t值與其相應的概率也隨自由度而不同,如本實驗中當樣本容量分別為5、10和30時累積概率P=0.95對應的t值分別為2.15626、1.82674和1.68806,與文獻〔8〕附表4一致。在假設測驗時,當算得的|t|大于tα時,則表明其屬于隨機誤差的概率小于規定的顯著水平,因而可否定原假設。反之,若算得的|t|<tα,則接受無效假設。
本實驗中當樣本容量分別為5、10和30時,同時模擬的u分布的平均數分別為0.00189、0.00204和0.00171,方差分別為 0.99367、0.99621 和 1.00937。可見差異不大,都是標準正態分布。
χ2分布圖形為一組具不同自由度v值的曲線。χ2值最小為0,最大為+∞,因而在坐標軸的右面。自由度小時呈偏態,隨著自由度增加,偏度降低,至+∞時,呈對稱分布。該分布的平均數為v,方差為2v〔8〕,如在本實驗中當樣本容量分別為5、10和30時,模擬的χ2分布的平均數分別為4.01224、8.97165和28.9879,方差分別為7.98599、17.7960和58.1971。χ2分布分位數與文獻〔8〕附表6一致。
從圖1可見,F分布乃具有平均數μF=1和取值區間為〔0,+∞〕的一組曲線;而某一特定曲線的形狀則僅決定于參數v1和v2。在v1=1或v1=2時,F分布曲線是嚴重傾斜成反向J型;當v1≥3時,曲線轉為偏態。隨著分子自由度的增加,F分布逐漸趨向于正態分布〔8〕。本實驗中分母自由度為29,分子自由度分別為1、4和29的F分布平均數分別為1.06977、1.07854和 1.07491,方 差 分 別 為 2.50501、0.71181 和0.17673,可見隨著分子自由度的增加,F分布的方差逐漸減小。本實驗中F分布分位數與文獻〔8〕附表5一致,說明了模擬的可靠性。

圖1 樣本容量n1分別為2、5和30,n2為30的F頻數分布圖和累積概率分布圖
本文通過學生較熟悉的SAS軟件編寫程序進行模擬抽樣,獲得了t、u、χ2和F抽樣分布,統計出的抽樣分布分位數與理論值一致。分位數是判斷假設檢驗是否顯著的標準。通過模擬抽樣求出各自由度下t、χ2和F分布所對應的分位數加深了學生對t、χ2和F抽樣分布和統計假設檢驗的理解。本文中的程序在課堂上作為講授理論課的例子輔助教學,激發了學生的學習興趣,收到了良好的教學效果。
1.曾平,劉桂芬,曹紅艷.廣義線性模型貝葉斯分析的SAS實現.中國衛生統計,2009,26(1):104-106.
2.修良昌,丁元林.SAS中網頁格式輸出的實現.中國衛生統計,2009,26(2):209-211.
3.徐英,李燕芬.日期型數據在SAS和SPSS中的處理.中國衛生統計,2010,27(1):94-95.
4.岳朝龍.99’SAS軟件應用高級研討會交流論文選登 SAS系統輔助教學的實踐與體會.統計教育,2000,(1):44-45.
5.林愛華,柳青,方積乾.二項分布及其正態近似的電腦實驗設計與教學實踐.醫學信息,2000,13(4):179-180.
6.林愛華,駱福添,朱淑明,等.樣本均數的抽樣誤差與置信區間估計的電腦實驗.衛生軟科學,2004,18(3):109-112.
7.邢光南,趙團結,蓋鈞鎰.生物統計教學中用SAS程序講解抽樣分布.農業網絡信息,2010,(3):107-110.
8.蓋鈞鎰.試驗統計方法.北京:中國農業出版社,2000:74-144.
國家重點基礎研究發展規劃項目(2009CB118404),教育部高等學校創新引智計劃項目(B08025),農業部公益性行業專項(200803060),國家自然科學基金項目(30900902)