邱小藍,李云飛
(西華師范大學數學與信息學院,四川 南充637002)
如今處于信息社會,在科學技術研究領域中人類面對的問題日益復雜。在這些研究過程中,最重要的問題是如何有效地收集、分析和處理包含大量信息的試驗數據。然而,由于種種原因,在實際研究工作中,學者們獲得的試驗數據中會存在一些異常數據。所謂異常數據,是指一批數據中的個別值,其數值明顯偏離它或它們所屬的這批數據的其余觀測值[1]。異常數據的存在會增大分析結果的誤差,使一些經典的統計分析方法變得毫無用處,甚至導致整體決策上的失誤,造成無法估計的損失。因此,如何檢驗這些異常數據是一個重要的現實問題。
許多統計工作者針對不同的分布(正態分布、極值分布、雙參數Weibull 分布等)中的異常數據檢驗問題進行了深入的研究[2-8]。然而,針對可靠性理論中的一種重要分布——指數分布相關的異常數據檢驗研究不多。指數分布是描述電子系統、產品壽命的模型,它不但在電子元器件,機電產品的偶然失效期內普遍使用,而且在復雜系統和整機方面以及機械技術的可靠性領域也得到廣泛應用[9]。因此,指數分布中異常數據的檢驗問題很重要,具有理論意義和現實價值。
FⅠSHER[10]提出構造統計量分別檢驗樣品極值X(1)、X(n)是否為異常數據。KⅠMBER[11]提出利用同時檢驗X(1)、X(n)是否為異常數據。在KⅠM B E R 的基礎上,唐年勝等[12]提出利用分別檢驗X(1),…,X(s)和X(n-k+1)是否為異常數據。基于FⅠSHER 的統計量,朱宏[13]提出基于樣本中位數構造統計量和分別檢驗樣本極值X(1)、X(n)是否為異常數據。李云飛[14]提出基于樣本分位數構造統計量,可以通過分別檢驗樣本極值X(1)、X(n)是否為異常數據。
本文在王蓉華等[15]提出的均值比檢驗方法的基礎上,引入波動率[16]的概念,構造檢驗統計量,給出一種新的檢驗方法,用于檢驗指數分布的異常數據。
記X1,X2,…,Xn是來自于指數分布總體X的樣本,其分布函數為:

假定x1,x2,…,xn是樣本X1,X2,…,Xn的觀測值,將x1,x2,…,xn按照從小到大的順序排列,得到x(1)≤x(2)≤…≤x(n),即是樣本X1,X2,…,Xn的次序統計量X(1),X(2),…,X(n)的觀測值[9],如果樣本中存在異常數據,則一定會出現在X(1),X(2),…,X(n)的左側低端或右側高端。
設X(1),X(2),…,X(r)(1≤r≤n)是來自指數分布的樣本容量為n的前r個次序統計量,平均壽命參數μ=θ,可以得到θ的最小方差無偏估計,即是MLE 為:

定義1[15]:設X(1),X(2),…,X(r)(1≤r≤n)是來自總體分布F(x,θ)的樣本容量為n的前r個次序統計量,是僅依賴于X(1),X(2),…,X(k)的均值μ的點估計,稱是均值點估計 ?kμ在點k的跳躍度(簡稱k點的跳躍度)。
由于點估計的跳躍度可能存在負數值,故在跳躍度的基礎上提出波動率的概念,進而由此衡量異常數據對點估計的影響。同樣假設X(1),X(2),…,X(r)(1≤r≤n)是來自總體分布F(x,θ)的樣本容量為n的前r個次序統計量, ?kμ是僅依賴于X(1),X(2),…,X(k)的均值μ的點估計,稱為X(k)對均值μ的點估計的波動率(簡稱k點的波動率)[16]。
以下討論跳躍度的精確分布及其分位數。
引理1[17]:設X1,X2,…,Xn是來自于指數分布的樣本容量為n的樣本,X(1),X(2),…,X(r)(1≤r≤n)為前r個次序統計量。約定X(0)=0,令Y(1)=nX(1),Y(2)=(n-1)(X(2)-X(1)),…,Y(i)=(n-i+1)(X(i)-X(i-1)),…,Y(r)=(n-r+1)(X(r)-X(r-1)),(2)。則…,r;2°Y(i)相互獨立,i=1,…,r。
定理1[15]:設X(1),X(2),…,X(r)(1≤r≤n)是來自指數分布的樣本容量為n的前r個次序統計量,則對任意的1≤k<r≤n,有分布的1-α分位數,其中,F1-α(2(r-k),2k)是自由度為2(r-k),2k的F-分布的1-α分位數。
異常數據的檢驗通常有以下2 種檢驗方法:①從整體出發,利用檢驗統計量逐步檢驗異常數據;②利用某種方法,即根據一定規則先找出可疑的異常數據集合,而后用合適的檢驗統計量來檢測這個集合是否異常[16]。第一種方法由于統計量的選取不當,很容易遭受屏蔽效應或吞噬效應,而不易確定異常數據個數是第二種方法的弊端。本文將采用完全相反的方式,利用王蓉華[15]的均值比方法,首先按照相應的準則找出有序數列的正常數據集,隨后從正常數據集出發,每次向左或向右添加一個相鄰數據,用合適的檢驗統計量來檢測是否為異常數據,如此下去,直至找到所有的正常數據。以下介紹檢驗步驟。



以上兩者相互獨立,由定理1 可知:

顯然,對于給定的顯著性水平α(0.10,0.05,0.01),如果,則可以認為是異常大數據。如果,則認為在顯著性水平α下,是異常大數據, 也是最小的異常大數據, 從而認為都是異常大數據;否則,則繼續添加下一個數據,進行考察:

如上述方法步驟重復進行,直至找到最小的異常大數據,那么該數據后面的所有數據都為異常大數據。在剔除所有的異常大數據后,在正常數據的左側低端依次添加數據來檢驗是否為異常小數據,顯然,后面的檢驗步驟和檢驗異常大數據的步驟完全相似。在找到最大的異常小數據后,則該數據以前的所有數據都為異常小數據。在剔除所有的異常小數據后,得到的數據就為來自指數分布的正常樣本數據。
本文僅對只存在異常大數據的樣本進行實例分析。案例[15]:對指數分布取n=10、k=6,其中X(1),…,X(6)來自標準指數分布,X(7),…,X(10)來自參數θ=5 的指數分布,用Monte-Carlo 模擬的方法產生這10 個隨機數為0.079 9、0.136 3、0.279 3、0.423 1、0.617 9、0.921 2、4.821 6、5.833 6、8.549 4、13.059 9。
首先計算各點的波動率如下(2≤k≤10):0.182 6、0.250 4、0.058 2、0.070 4、0.106 4、2.034 3、0.002 8、0.083 7、0.034 2。
從中可以看出在ξ(7)=2.034 3 點波動率最大,為一極大值點,所以X(7)、X(8)、X(9)、X(10)極其可能是異常大數據,由于,所以,取1-α=0.95,樞軸量的分位數U,由此可確定X(7)為最小的異常大數據,進而確定是異常大數據。
異常數據的出現在一定程度上降低了數據的質量,使相應的數據分析結果發生明顯變異,最終導致人們對所分析的問題給出不正確的結論,因此,異常數據的檢驗是統計分析中首要的工作[18]。
本文針對指數分布樣本中的異常數據,在跳躍度[15]的基礎上,引入波動率的概念,構造檢驗統計量,并給出相應的精確分布,求出它的分位數,給出了一種新的異常數據檢驗方法,最后通過實例說明本文所討論的方法是實際可行的。