楊 斌
正態分布是許多檢驗的基礎,在實際使用統計分析時,人們總是樂于正態假定,但該假定是否成立,牽涉到正態性檢驗。比如χ2檢驗、F檢驗以及t檢驗等在總體不是正態分布時是沒有任何意義的,因此,對一個總體是否來自正態總體的檢驗至關重要。另外,方差分析、回歸分析等統計分析中也都首先驗證待分析的數據是否服從正態分布,檢驗樣本的正態性一直以來都是統計學里比較重要的問題,檢驗方法的多樣性使得這個問題始終保持著活力。歷史上不僅有D'Agostino,Kolmogorov-Smirnov(Lillie檢驗),Shapiro-Wilk,Ryan-Joiner等一系列的檢驗方法,還有Anderson-Darling test(ad檢驗),Cramer-von Mises test(cvm檢驗),Pearson chi-square test(pearson檢驗),Shapiro-Francia test(sf檢驗)等這些都是檢驗樣本正態性的方法[1]。但對這幾種不同的檢驗方法,有些檢驗法針對小樣本,有些針對大樣本,有些則對于任何大小的樣本量都可以用,但可能效果不太好,這些不同的檢驗方法隨著樣本的變化有何不同?檢驗的錯誤率大小如何?檢驗的結果是否合理,這些問題都需要進一步分析和解決。本文概述了Anderson-Darling test(ad檢驗)、Pearson chi-square test(pearson檢驗)以及Kolmogorov-Smirnov(Lillie檢驗)的統計原理,通過隨機模擬實現了這幾種不同檢驗方法的結果,并針對ad檢驗給出了具體檢驗的統計方法,著重比較了ad檢驗、cvm檢驗、lillie檢驗、pearson檢驗、sf檢驗這五種方法的優劣。分析了來自不同總體的樣本數據,并做了結論分析,為更好的做正態性檢驗提供了更加準確的方法參考。
已知樣本為 X1,X2,…,Xn,做如下檢驗:
H0:Xi~N(0,1)?H1:Xi不服從N(0,1)(i=1,2,…,n)
zi=,其中Φ(x)表示標準正態分布函數 :,mean(x)表示樣本的均值:,sd(x)表示樣本標準差:

可以知道[2],這里 Fn是經驗分布函數,F0是零假設下樣本服從的分布(在本文中F0為標準正態分布)。在文獻[3]中提到了A2的特征函數為:,由逆轉公式及傅里葉變換:
該檢驗是對Kolmogorov-Smirnov檢驗的修正,故先介紹Kolmogorov-Smirnov檢驗,Kolmogorov-Smirnov檢驗是基于經驗分布函數(ECDF)的檢驗。其檢驗方法是以樣本數據的累積頻數分布與理論正態分布比較,若兩者間的差距很小,則推斷該樣本取自某正態分布族。F0(x)表示分布的分布函數,Fn(x)表示一組隨機樣本的累計概率函數。,設 D 為 F0(x)與Fn(x)差距的最大值,定義如下式:D=max|Fn(x)-F0(x)|,當原假設為真時,D的值應較小,若過大,則懷疑原假設,從而,對于給定的 α ,拒絕域為:R={D >d },p=P{D >d}=α,結論:當實際觀測 D>Dn,則接受 H1,反之則不拒絕 H0假設。又,該檢驗是對Kolmogorov-Smirnov檢驗的修正,參數未知時,由可計算得檢驗統計量的值。
檢驗統計量為[4]:

其中r是被估參數的個數,fi為樣本中Ai發生的實際頻數,npi為H0為真時Ai發生的理論頻數。若 χ2=0,則 fi=npi,意味著對于Ai,觀測頻數與期望頻數完全一致,即完全擬合。
觀察頻數與期望頻數越接近,則χ2值越小。當原假設為真時,有大數定理,與 pi不應有較大差異,即 χ2值應較小。若 χ2值過大,則懷疑原假設。拒絕域為R={χ2≥d },判斷統計量是否落入拒絕域,得出結論。從而拒絕域為 R={χ2≥d},對于給定的α,P{χ2≥d}=α,又,判斷統計量是否落入拒絕域,得出結論。
本文進行隨機模擬的辦法抽取樣本 X1,X2,…,Xn~N(0,1),而樣本量n我們分別取10,100,1000,來觀察檢驗方法的p值大小(實驗次數為1000次),嘗試對樣本進行程序包nortest里的ad檢驗、cvm檢驗、lillie檢驗、pearson檢驗、sf檢驗五種檢驗方法分別計算得到的p值的箱線圖如下:

圖1 樣本n=10,100,1000時的箱線圖
并且我們得到了判斷錯誤率(得到p值小于0.05的次數占1000次試驗的比例)如表1所示:

表1 判斷錯誤率
我們進行隨機模擬的辦法抽取簡單隨機樣本X1,X2,…,Xn~H(x) ,其中 H(x)=εΦ(x)+(1-ε)Φ(,我們取 ε=0.9 ,樣 本 量 n=10,100,1000 ,以 及 k=3,10,30,100分別對得到的樣本做ad正態性檢驗。我們得到了圖2:
對于不同的樣本量,觀測不同的k值的影響:
從圖1中看出在樣本量較小(n=10)的情況下,lillie檢驗和pearson檢驗的p值均值較大,但是pearson檢驗錯誤率很高,其他檢驗的錯誤較低,同時p值的均值較大。說明在小樣本的情況下,pearson檢驗不夠穩定,我們可以選用其他4個檢驗較好。在樣本量較大(n=100,1000)的情況下,pearson檢驗的p值均值較小,并且錯誤率也較高(在n=100時0.061),sf檢驗的錯誤率也比較高(在n=1000時,0.061),所以在樣本量較大時,選用ad檢驗、cvm檢驗、lillie檢驗較好。

圖2 不同樣本量ad正態性檢驗箱線圖
對于不同的k值,觀測不同樣本影響:

圖3 不同的k值ad正態性檢驗箱線圖
從圖2和圖3發現:
對于樣本量比較小n=10,無論k值大小,在ad檢驗下樣本多數為正態,而對于樣本量較大的情況(n=100,1000),除了k=1.5,n=100的情況下檢驗基本上都拒絕零假設,也就是樣本并不從正態總體中得到。所以我們對該問題有如下結論:
當樣本量較小時,無論k值的大小,該混合正態模型在ad檢驗下都服從正態總體。
當樣本量較大時,如果k值較小(k在1到3之間),那么混合正態模型在ad檢驗下也一定依概率服從正態總體,如果k值較大(大于3),那么該混合正態模型在ad檢驗下基本上不符合正態總體。
對t分布的漸近性質進行隨機模擬的檢驗。從總體中抽取樣本量為n=100的簡單隨機樣本 X1,X2,…,Xn~t(d)我們對于自由度分別為d=5,10,…,100用ad檢驗做正態性檢驗,得到圖4:(x軸為不同的自由度,y軸為對應的p值)。

圖4 d=5,10,…,100時ad正態性檢驗箱線圖
于是我們對自由度d=5,6,…,20重復上面的步驟,得到圖5:(x軸為不同的自由度,y軸為對應的p值)。

圖5 d=5,6,…,20時ad正態性檢驗箱線圖
我們可以從圖5看出當自由度d較小(小于等于20)的時候,該樣本(從t分布中抽取)并不能在ad檢驗下服從正態分布,而當自由度d較大(大于20)的時候,該樣本可以認為是從正態總體中得到。
本文介紹了正態性檢驗的原理及概述了幾個常用的正態性檢驗方法,并在取不同樣本量的情況下通過隨機模擬的方法,分別計算得到五種檢驗方法的p值并作出箱線圖。而且分別考慮了當樣本來自正態總體、混合正態總體以及t分布總體的情況下各檢驗方法的特點。并得到如下結論:
(1)在樣本量較小(n=10)的情況下,當樣本來自正態總體時,lillie檢驗和pearson檢驗的p值均值較大,但是pearson檢驗錯誤率很高,其他檢驗的錯誤較低,同時p值的均值較大。說明在小樣本的情況下,pearson檢驗不夠穩定,我們可以選用其他4個檢驗較好。在樣本量較大(n=100,1000)的情況下,pearson檢驗的p值均值較小,并且錯誤率也較高(在n=100時0.061),sf檢驗的錯誤率也比較高(在n=1000時,0.061),所以在樣本量較大時,選用ad檢驗、cvm檢驗、lillie檢驗較好。
(2)當樣本量較小時,無論k值的大小,混合正態模型在ad檢驗下都服從正態總體;當樣本量較大時,如果k值較小(k在1到3之間),那么混合正態模型在ad檢驗下也一定依概率服從正態總體,如果k值較大(大于3),那么該混合正態模型在ad檢驗下基本上不符合正態總體。
(3)當自由度d較小(小于等于20)的時候,樣本(從t分布中抽取)并不能在ad檢驗下服從正態分布。而當自由度d較大(大于20)的時候,樣本可以認為是從正態總體中得到。
[1] 章剛勇,阮陸寧.基于Monte Carlo隨機模擬的幾種正態性檢驗方法的比較[J].統計與決策,2011,(7).
[2] Anderson T W,Darling D A.A Test of Goodness of Fit[J].Journal of The American Statistical Association,1954,(49).
[3] Anderson T W,Darling D A.Asymptotic Theory of Certain Goodness of Fit Criteria Based on Stochastic Processes[J].Annals of Mathemati?cal Statistics,1952,(23).
[4] Stephens M A.EDF Statistics for Goodness of Fit and Some Compari?sons[J].Journal of The American Statistical Association,1974,(69).