付鴻濤盧維學,楊世娟
(1.上饒市廣豐區公安局,江西 上饒 334000;2.黃山學院 數學與統計學院,安徽 黃山 245041)
NA樣本下隨機設計情形線性模型的經驗似然
付鴻濤1,盧維學2,楊世娟2
(1.上饒市廣豐區公安局,江西 上饒 334000;2.黃山學院 數學與統計學院,安徽 黃山 245041)
在NA樣本下,利用大小分塊方法和矩不等式首次構造并證明了隨機設計情形下的線性模型的回歸系數的經驗似然比統計量的極限分布近似服從卡方分布,并進而構造其經驗似然方法下的置信域,最后,模擬比較得出經驗似然法下的置信域優于正態逼近法下的置信域。
線性模型;隨機設計;分塊經驗似然;NA樣本;置信域
隨著近期大數據及“互聯網+”的大力推行,數據挖掘會日漸成為研究的焦點,如教育、醫學、股市等領域的數據。上述數據都會出現的共同特點是相依和不完全等特性。諸如此類問題,研究者們極其希望在理論上能夠更深入研究,以便對應用研究奠定基礎。
NA的概念由Block et al.[1]和Joag-Dev and Proschan[2]第一次研究,之后國內外學者對其的研究涉及了多元統計分析、滲透理論等諸多方面[3-7]。
Owen[8]首次系統地提出解決非參數估計推斷的經驗似然方法,此法構造置信區間具有域保持性、變換不變性等諸多優點,對此該方法被應用到各種統計模型的研究中,且涉及到諸多領域[9,10]。
考慮如下線性模型:

其中,Y是一維響應變量,X∈Rd是隨機向量,β∈Rd是回歸系數組成的向量,ε∈R是隨機殘差且滿足E(ε|X)=0。假設X1,X2,…,Xn為X的觀測值,Y1,Y2,…,Yn為Y的樣本觀測值,{X1,Y1,X2,Y2,…Xn,Yn}為NA序列。
為了構造β的置信域,對其定義的經驗似然的得分函數的和進行分塊,即對n的和分成如下大小塊,記:

其中rm=(m-1)(p+q)+1,lm=(m-1)(p+q)+p+1,m= 1,2,…,k,k=[n/(p+q)],[t]代表t的整數部分,且p=p(n)和q=q(n)滿足p+q≤n。
分塊經驗似然比統計量如下:

通過上式得出(-2log)分塊似然比統計量:

其中λ(β)∈Rd由下式確定

為了證明方便,給出記號用Xij記Xi的第j個分量,1≤i≤n,1≤j≤d用||x||表示向量x的L2范數,矩陣A的特征值的最小和最大值分別記為λmin(A)和λmax(A)。為了構造得到l(β)的極限分布,假設條件如下:
(A1)(i){X11,X12,…,X1d,Y1,X21,X22,…,X2d,Y2,…,Xn1,Xn2,…Xn d,Yn},為NA隨機變量序列,且{Xi,1≤i≤n},{Yi,1≤i≤n}均為平穩序列.

(iii)X和Y均有界。
(A2)如上面所描述的p,q和k,記h>0為窗寬,并滿足

若zα使得成立。由定理1知,β漸近水1-α的經驗似然置信域為

由(3)確定的β的經驗似然置信域記為ELCI,β的正態逼近的置信域記為NACI,為了比較ELCI和NACI的置信域比率 (CP)和置信區間的平均長度(AL)??紤]如下模型{X1,Y1,…,Xn,Yn}服從多元正態分布(N:p1,p2,…,p2n)(4)
分別模擬樣本容量為n=100,150,200和250的情形,且重復1000次,在此選擇參數p=[n1/6],q= [n1/8]顯著水平α=0.05,表1給出模擬結果:CP隨著樣本容量的增大而越接近顯著水平0.95,AL隨著樣本量的增加而減小,且ELCI的覆蓋精度比NACI的覆蓋精度高。

表1 ELCI與NACI置信域比率和置信區間的平均長度
引理1:假設{ηj:1≤j≤n}是NA隨機變量序列并滿足是一個實數列,則存在常數C(與所給的s有關)使得

且

證明:見Shao[11]。
引理2:假設A1A2為兩個無公共元素的整數子集,且{ηj,j∈A1∪A2}為NA隨機變量序列。函數和的偏導數都存在且有界,用表示g的偏導數的上確界,則有

其中ηj表示Aj中元素的個數 j=1,2。
證明:參考 Bulinski[12]引理 1與 Cai and Roussas[13]引理3.5的論證過程。
引理3:設條件(A1)與(A2)成立,且由常數構成的向量l∈Rd滿足||l||=1,則當n→∞時有

證明:首先證明(5),注意到


為了證明(6),只需證明:對給定的l∈Rd且||l||= 1,有


故為證(7),只需證明

首先證明


類似可證

利用(11)和(12),可以得到

此外,由平穩性和Roussas[14]的引理3.2有

根據引理2和(5)式,可得

由引理2和序列的平穩性,結合Roussas[14]中的定理2.1證明過程,可得

假設{ηnm,1≤m≤k}為獨立隨機變量序列,ηnm和有相同的分布。故為證(8),只需證明

由引理1和(5)知
由(11)和(12)知(9)和(10)成立,故引理3證畢。
引理4:在定理1的條件下,當n→∞時,有


由引理3的證明過程可知

故為證(19),只需證明

令

由于f1(x),f2(x)都是單調函數,故都是NA隨機變量,又有

由引理1,類似于(16)的證明可得



由(21)和(24)可得

下面證明(20),
由引理1知

同理有

由(25),(26),(27)可得:Tnj=op(1),1≤j≤3從而(20)式得證。
定理1的證明:

知


進而

結合引理4得

從而

結合引理3知p=Op(n-1/2)再次利用(28)得

故

其中

由引理3和引理4知


其中ηj滿足


進一步有

從而定理1得證。
[1]Block,H.W.and Savits,T.H.Sharked,M.Some conceots of negative dependence[J].The Annals of Probability,1982,10:765-772.
[2]Joag-Dev,K.and Proschan,F.Negative association of random variables with applications[J].The Annals of Statistics,1983,11:286-295.
[3]Lei,Q.and Qin,Y.Confidence intervals for nonparametric regressionfunctionswithmissingdata:multipledesign case[J],Journal of Systems Science and Complexity,2011,24:1204-1217.
[4]Qin,Y.and Li,Y.Empirical likelihood for linear models under negatively associated errors[J].Journal of Multivariate Analysis,2011,102:153-163.
[5]Su,L.Zhao,C.Wang,Y.B.Moment inqualities and week convergence for negatively associated sequences[J],Science China,1997,40:172-182.
[6]Thomas,D.R.and Grunkemeier,G.L.Confidence interval estimation of survival probabilities for censored data[J]. Journal of the American Statistical Association,1975,70:865-871.
[7]蘇淳.NA序列的一個Hsu-Robbins型定理 [J].科學通報. 1996,41:106-110.
[8]Owen,A.B.Empirical likelihood ratio confidence intervals for a single functional[J].Biometrika,1988,75:237-249.
[9]Owen,A.B.Empirical likelihood ratio confidence regions [J].The Annals of Statistics,1990,18:90-120.
[10]盧維學,楊世娟,李英華.混合樣本下分布函數在有限點的聯合漸近分布[J].廣西師范大學學報.2014,32:67-74.
[11]Shao,Q.M.A comparison theorem on moment inequalities betweennegativelyassociatedandindependentrandom variables[J].Journal of Theoretical Probability,2000,13:343-356.
[12]Bulinski,A.V.and Keane,M.S.Invariance principle for associated random fields[J].Journal of Mathematical Sciences,1996,81:2905-2911.
[13]Cai,Z.W.and Roussas,G.G.Berry-esseen bounds for smooth estimator of a distribution function under association[J].Journal of Nonparametric Statiatics,1999,11:79-106.
[14]Roussas,G.G.Asymptotic normality of the kernel estimate of a probability density function under association[J]. Statistics and Probability Letters,2000,50:1-12.
責任編輯:胡德明
Empirical Likelihood for Linear Models with Random Designs under Negatively Associated Samples
Fu Hongtao1,Lu Weixue2,Yang Shijuan2
(1.Public Security Bureau of Guangfeng District,Shangrao 334000,China;2.School of Mathematics and Statistics,Huangshan University,Huangshan 245041,China)
Under the samples of negative association,empirical likelihood of regression coefficient in linear models with random designs is first constructed and proved by blocking method and moment inequalities.And then the confidence regions based on empirical likelihood are constructed.Simulation studies show that confidence regions based on empirical likelihood is better than those based on normalapproximation.
linear models;random design;block empirical likelihood;samples of negative association;confidence region
O212.2
A
1672-447X(2016)03-0001-006
2016-03-20
黃山學院自然科學研究項目(2015xkj004;2015xkj005),安徽省教育廳自然科學研究項目(KJHS2016B04)。
付鴻濤(1987-),江西上饒人,碩士,上饒市廣豐區公安局,研究方向為應用統計;盧維學(1989-),黑龍江依安人,碩士,黃山學院數學與統計學院助教,研究方向為數理統計。