禹建奇
(桂林理工大學理學院,廣西桂林541004)
等級數據缺失形態下兩多元正態均值向量的推斷
禹建奇
(桂林理工大學理學院,廣西桂林541004)
文章首先定義了等級數據缺失形態,考慮了等級數據缺失形態下,兩個多元正態總體的均值向量的推斷問題。在假設兩總體協差陣相等的前提下,提出了一類似于Hoteelling T2的樞軸量,并用等矩方法近似它的分布,利用該分布做檢驗與區間估計。近似的精確性通過蒙特卡洛數據模擬加以說明,模擬結果證明,即使對小樣本,該近似結果也非常滿意。
等級數據缺失形態;單調數據缺失形態;覆蓋概率;置信水平
缺失數據在實際工作生活中非常普遍,特別是在抽樣調查中。例如:在收集或記錄數據時常發生數據丟失,又如在某一段時間里,對某一組對象進行設計中的實驗如臨床實驗時,由于一些變量的測量非常昂貴,所以只對對象中的一小部分進行測量。這里我們不關心數據丟失的原因,只假設是隨機丟失(MAR)。Lu&Copas[1]提出,忽略數據丟失機制的似然推斷只在隨機丟失(MAR)的條件下才有效。
數據的缺失形態有多種,其中單調缺失形態不僅常見,而且在正態假設下,可以得到準確的似然推斷。Anderson[2]非常簡易地得出來了一些缺失形態下的最大似然估計(MLE),Kanda和Fujkoshi[3]研究了單調缺失形態下MLE的基本性質,其他如Bhargava[4],Morrison和Bhoj[5]以及Naik[6]則發展了建立在似然比上的推斷過程,他們主要考慮檢驗問題,而Krishnamoorthy和Pannala[7]提出了求置信域的精確方法。Yu和Krishnamoorthy[8]則提出了單調缺失形態下兩多元正態均值向量差的檢驗及置信域問題。
本文首先推廣單調缺失數據形態,提出等級數據缺失形態的概念,其次,在文獻[8]的基礎上,考慮在等級缺失形態下兩多元正態均值向量差的檢驗及置信域問題,提出了一類似于Hoteelling T的樞軸量,近似它的分布并做出推斷。
所謂單調缺失形態指下面形態的數據:

等級缺失形態數據定義為類似式(2)中的數據:

(1)第一行的指標集包含所有其他行的指標集;
(2)不同行的指標集要么不相交,要么是包含關系。
容易看出,等級缺失形態數據可以分成幾個指標集不相交的單調缺失形態,所以,單調缺失形態是一種特殊的等級缺失形態。

2.1 預備
考慮式(3)中數據,將數據分塊如下:

設數據Xl的樣本均值與協差陣分別為它們的分塊如下:

同樣的,設數據Yl的樣本均值與協差陣分別為類似的,也對它們進行分塊。
參數的分塊如下:

定義δ=μ-β,則δ1=μ1-β1,δ2=μ2-β2,δ3=μ3-β3
讓N3=N1-N2,n3=N3-1,M3=M1-M2,m3=M3-1,及 ni=Ni-1,
定義以下統計量:

及:

本文采用的樞軸量為:

Q背后的邏輯是這樣的:假如我們只有數據X2,Y2,則用于推斷的統計量可分解為:

同樣地,假如我們只有數據X3,Y3,則用于推斷的統計量為:

2.2 μ-β的置信域及假設檢驗
下面說明Q的兩階矩的求法:
首先,我們有熟知的結果:

其次,定義:

由Seber[9],

并且R2,R3與Q2d,Q3d獨立。
注意到:

故有:

表1 閾值dFp,ν(1-α)及95%置信域的覆蓋概率的蒙特卡洛估計r1=r2=r3=1,α=0.05

據Krishnamoorthy和Pannala[10],近似的有

故近似的有:


為評價Q的近似分布的精確性,本文用蒙特卡洛數據模擬來估計不同樣本量下式(3)中的置信水平為95%的置信域的真實覆蓋概率,表1中的每個結果都采用了100000次模擬,其中r1=r2=r3=1。
可以看到,本文的結果非常接近名義置信水平95%,即使是小樣本,也是如此。
本文用著名的”菲舍爾鳶尾花數據”來說明本文的分析方法,該數據包含三種鳶尾花的花萼及花瓣的長度與寬度數據,三種鳶尾花分別是圣淘沙鳶尾、變色鳶尾、錦葵鳶尾。每一種均有50組數據,可以從網址下載(http://javeeh. net/sasintro/intro151.html.)
為了說明問題,本文取了錦葵鳶尾(x)及變色鳶尾(y)的花萼長度,寬度及花瓣的長度數據,故p=3。同時,為檢驗兩總體方差的相等性,采用了修正似然比檢驗(Muirhead[11]),得到p值為0.412,可見,兩總體方差相等的假設合理。另外,為創造缺失數據,刪除了錦葵鳶尾花(x)的最后10個花萼的寬度數據(x2)與最前面40個花瓣的長度數據(x3),同時也刪除了變色鳶尾(y)的最后18個花萼的寬度數據(y2)與最前面32個花瓣的長度數據(y3)。故最后得到一等級缺失數據滿足。設分別表示錦葵鳶尾(x)及變色鳶尾(y)的平均花萼長度、平均花萼寬度,以及平均花瓣寬度。我們檢驗假設H0:μ=β νs H1:μ≠β。
經過仔細計算,Q=Q1+Q2+Q3=31.687+0.197+ 95.648=127.533。而分布近似的參數G1=E(Q)=3.258,G2=E(Q2)=18.307,d=3.153,ν=61.915。故檢驗閥值dFp,ν(0.95)=8.681。由于Q遠大于該值,我們有充分證據在95%的置信水平上拒絕H0:μ=β。
本文定義了一種新的缺失數據形態:等級數據缺失形態,它以常見的單調數據缺失形態為特例。同時,考慮了在新的等級數據缺失形態下,兩個多元正態總體的均值向量的推斷問題。通過推廣單調數據缺失形態下同一問題的分析策略,本文獲得了處理等級數據缺失形態的技術與方法。蒙特卡羅模擬結果表明,即使對小樣本,本文的分析方法也非常有效。
[1]Lu G B,Copas J B.Missing at Random,Likelihood Ignorability and Model Completeness[J].Annals of Statistics,2004,(32).
[2]Anderson T W.Maximum Likelihood Estimates for a Multivariate Normal Distribution When Some Observations Are Missing[J].Journal ofAmerican Statistical Association,1957,(52).
[3]Kanda T,Fujikoshi Y.Some Basic Properties of the MLEs for a Multivariate Normal Distribution With Monotone Missing Data[J].Journal of Mathematics and Management Science,1998,(18).
[4]Bhargava B P.Multivariate Tests of Hypotheses With Incomplete Data [D].Stanford CA:Stanford University,1962.
[5]Morrison D F,Bhoj D.Power of the Likelihood Ratio Test on the Mean Vector of the Multivariate Normal Distribution With Missing Observations[J].Biometrika,1973,(60).
[6]Naik U D.On Testing Equality of Means of Correlated Variables With Incomplete Data[J].Biometrika,1975(62).
[7]Krishnamoorthy K,Pannala M.Confidence Estimation of Normal Mean Vector With Incomplete Data[J].Canadian Journal of Statistics, 1990,(27).
[8]Yu J,Krishnamoorthy K.Two-sample Inference for Normal Mean Vectors Based on Monotone Missing Data[J].Journal of Multivariate Analysis,2006,(97).
[9]Seber G A F.Multivariate Observations[M].New York:Wiley,1994.
[10]Krishnamoorthy K,Pannala M.Some Simple Test Procedures for Normal Mean Vector With Incomplete Data[J].Annals of the Institute of Statistical Mathematics,1998,(50).
[11]Muirthead R J.Aspects of Multivariate Statistcal Theory[M].New York:Wiley,1982.
(責任編輯/亦民)
Inference for Two Multi-Normal Mean Vectors With Hierarchical Missing Data
Yu Jianqi
(College of Science,Guilin University of Technology,Guilin Guangxi 541004,China)
This article firstly defines the hierarchical data missing pattern and considers the mean vectors inference on the two multi-normal population.Assuming that the two population covariance matrices are equal,the paper presents a pivotal quantity,similar to the Hoteelling T2,and uses Moment Matching Method to derive its approximate distribution which is used for testing and interval estimation.The precision of the approximation is illustrated through Monte Carlo data simulation.The study results indicate that the approximate method is very satisfactory even for small samples.
hierarchical missing pattern;monotone missing pattern;coverage probability;confidence level
O213.2
A
1002-6487(2017)11-0020-04
桂林理工大學博士科研啟動基金資助項目(2014)
禹建奇(1970—),男,湖南邵陽人,博士研究生,研究方向:多元分析、缺失數據。