李成好, 汪 超, 凌能祥
(合肥工業大學 數 學學院,安徽 合 肥 230009)
設(Y,T)是R×R上的一對隨機變量,其分布函數分別為F、G,兩者均未知;并設Y關于Lebesgue測度的未知密度函數f。當且僅當Y≥T時,Y和T都能被觀測到,否則,兩者都觀測不到。當有n個觀測數據(Yi,Ti),i=1,2,…,n時,可能實際采集的數據是N個(其中N≥n,N未知),即(Y1,T1),(Y2,T2),…,(YN,TN),其中,(Yi,Ti),i=1,2,…,n與隨機變量(Y,T)同分布。此時稱樣本(Yi,Ti),i=1,2,…,n為隨機左刪失數據,并稱隨機變量Y為觀測變量,T為隨機刪失變量,由此建立的模型為隨機左刪失模型。
左刪失數據模型廣泛出現在天文學、經濟學、流行病學及生物統計學中,很多學者對此問題開展了大量的研究工作。
近年來,基于刪失數據的眾數核估計的研究取得了一系列成果。文獻[1]在iid場合下建立了右刪失數據眾數非參數核估計的漸近正態性;文獻[2]得到了iid場合下右刪失數據的條件密度函數和條件眾數非參數核估計的強一致收斂性;文獻[3]研究了相依結構下右刪失數據 Kaplan-Meier估計的漸近性;文獻[4]解決了右刪失數據分布函數的估計問題;文獻[5]給出了iid場合下左刪失數據眾數非參數核估計的漸近性;文獻[6]建立了iid場合下左刪失數據的條件密度函數和條件眾數非參數核估計的強一致收斂性,并獲得了條件眾數估計的漸近正態性;文獻[7]得到了α-混合結構下左刪失數據的密度函數和眾數核估計的強一致收斂性;文獻[8]建立了α-混合結構下右刪失數據眾數非參數核估計的強一致收斂性;文獻[9]建立了α-混合結構下左刪失數據的條件眾數非參數核估計的漸近正態性。
本文在現有文獻的基礎上,研究基于α-混合左刪失數據時眾數非參數核估計的漸近正態性。
設{Zi,i≥1}為一隨機變量序列,為由{Zj,i≤j≤k}生成的σ代數?;旌舷禂郸粒╪)=,k∈N}。如當n→∞時α(n)→0,則稱該序列為α-混合序列,又稱強混合序列。它是目前文獻所見混合條件中最弱的。許多隨機過程都滿足α-混合條件,如ARMA過程就是強幾何混合過程,即?0<ρ<1,使得α(k)=O(ρk);在遍歷性條件下閾值模型、EXPAR模型、簡單的ARCH模型及雙線性馬爾科夫模型都是強混合的。本文假設觀測樣本(Yi,Ti),i=1,2,…,n是一平穩α-混合序列,在一定的條件下,建立了其眾數非參數核估計的漸近正態性。
在左刪失模型中,得到隨機n個觀測數據(這里n是已知的,即使是隨機的),但實際觀測的樣本數N是未知的。令P表示關于N個完全樣本的概率測度,P*表示關于n個刪失樣本的概率測度;同樣,令E和E*分別表示關于P和P*的期望,并且用星號(*)表示關于n個刪失樣本的分布函數。令η:=P(Y≥T),稱η為刪失剩余率。
在左刪失樣本下,文獻[10-12]給出了(Y,T)的聯合分布函數為:

其中,t∧u=min(t,u),而它們的邊際分布為:

其估計分別為:

其中,IA表示集合A的示性函數。
令f*為觀測變量Y的密度函數的核估計,定義為:
其中,K為定義在R上的概率密度函數(被稱作核函數);hn:=h表示窗寬,滿足:n→∞時h→0。
類似于文獻[7]及其所引參考文獻,現對任意分布函數L,定義其支撐端點:
當且僅當滿足條件:aG≤aF,bG≤bF且時,F和G才能被完全估計。則有:

記

它的經驗估計為:

由文獻[7],在獨立場合下,F、G的非參數極大似然估計為:

由于N未知無法計算,但由(2)式,得文獻[7]說明了與y的選擇無關,即對任意的y只要Rn(y)≠0,^ηn就能得到,并給出了
在左刪失模型下,由文獻[7],(1)式不再適合估計密度函數f(·),基于(Yi,Ti),需要構造其新估計(y)?;谖墨I[7],有估計量:


然而,由于G(·)和η未知,故(3)式和(4)式沒有實用價值。類似于文獻[7]的思想,得

其中,對?i,Gn(Yi)≠0,于是,眾數核估計為=
另一方面,分別對(y)和(y)求一階、二階導數

其中,j=1,2。對·)作Taylor展開得:

假設aG≤aF,bG≤bF,H=[a,b]是一個緊集,使得H?Ω={y:y∈[aF,bF]},假設條件如下:
A1 核函數K(·)在H上有界,三階可微,關于指數β>0Lipchitz連續,滿足|u|→∞時|u|K(u)→0;
A2 ∫DK(t)dt=1,∫DtK(t)dt=0。
B1f(·)在H上四階連續可微,且

B2 對于眾數θ,f(2)(θ)≠0;
B3 (Yi,Yj)的聯合密度函數存在,且存在與(i,j)無關的C使 得:

B4 對于?j≤1,令fj(·,·)表示(Y1,Y1+j)的聯合密度函數,對?y∈H,(y1,y2)∈U(y)×U(y)滿足fj(y1,y2)≤C,其中U(y)為y的鄰域。
C1 {Yi,i≥1}是平穩的α-混合隨機變量序列,混合系數為α(n);
C2 {Ti,i≥1}是一列iid刪失變量,具有連續分布函數G,且與{Yi,i≥1}獨立;
C3 α(n)滿足:存在正整數q:=qn,使得q=o( (nh) ,且lim(nh-1α(q)=0;
n→∞
窗寬h滿足:
D1n→∞時

D3(lnn)(lnlnn)=O(nh5)且
假設A是密度函數核估計中常用的條件;假設B3是解決協方差問題常用條件;假設C是α-混合刪失數據問題常用假設,其中假設C3、C5是證明α-混合假設下漸近正態性的常用假設,見文獻[13];假設D1是建立引理1的重要條件,D2保證引理2對Fuk-Nagaev不等式的處理,D3建立引理4中的收斂速度。
定理1 如果條件A1~A2、B1~B4、C1~C5、D1~D2成立,則

其中,j=1,2。
此處j=0時結論也成立,見文獻 [ 7]。
定理2 在定理1的條件下,如果D3滿足,則有:


為了更清楚地展現在有限樣本下對θ的估計效果,將對上面的主要結論進行模擬研究。在第1部分給出估計的均方誤差(GMSE),分析其漸近性;第2部分通過頻率直方圖和概率圖研究估計漸近正態表現。為了得到一個α-混合序列,利用AR(1)模型生成數據,具體過程如下:生成εi~N(0,0.92),Y1=ε1,Yi=0.1Yi-1+εi,i=2,3,…,n。Ti~N(μ,1),i=1,2,…,n,其中,μ的選取由不同的η決定。核函數K(·)選用Gaussian核。
對模型分別取樣本量n=200,500。數據的刪失剩余率η≈50%,90%,窗寬h=n-1/2,n-1/3,n-1/4,各模擬m=200次,計算估計^θn的均方誤差GMSE=-θi)2,結果見表1所列。
表1 估計 的GMSE

表1 估計 的GMSE
η/% n h=n-1/2 h=n-1/3 h=n-1/4 200 0.059 3 0.154 1 0.252 2 500 0.015 6 0.097 8 0.198 3 90200 0.010 6 0.081 2 0.180 0 50 500 0.007 0 0.058 5 0.076 0
由表1可以看出:①當刪失剩余率和樣本量不變時,窗寬h越大估計誤差越大;②當刪失率剩余和窗寬不變時,樣本量n越大估計越好;③當樣本量和窗寬不變時,刪失剩余率越大估計表現越好。
取η≈90%,h=n-1/3,分別令n=200,500,各模擬m=500次,生成直方圖和概率點圖。對比圖1a、圖1b,圖2a、圖2b可以得出結論:
(1)估計的誤差分布接近正態。
(2)刪失樣本量n越大,正態性越好。


圖1 直方圖

圖2 正態概率圖
定理1的證明
該證明由下面的分解式

和引理1~引理3得到。
引理1 假設條件 A1,A2,B2,C1~C3,D1成立,則

其中,j=1,2。
證明


則引理得證。
引理2 假設條件A1,B1~B3,C1,C4,D1~D2成立,則

其中,j=1,2。
證明 設緊集H被ln(ln有限)個半長度為的區間覆蓋,其中β為Lipchitz指數。令Uk:=U(yk,wn),1≤j≤ln為以點yk為中心wn為半長的區間。因為H有 限,故?M>0,使得wnln≤M,對?y∈H,?Uk包含它,使得|y-yk|≤wn。令

則

因此


接下來證明:

由 A 1知K(j)(j=1,2)滿足Lipschitz條件,則

因此φ1項得證。
下面再研究φ2項。
令ξi=nh1+jΔi(yk),則|ξi|∞。由相依序列的 F uk-Nagaev不等式[14],對?ε>0,r>0,可得:

其中,

由 A 1,B1,B2及變量代換,得

由A1,B3,C1及變量代換,得


由相依序列的協方差不等式[15],顯然有:

為了研究L2項,取x表 示 比x大的最小整數,有

由(9)式得:

由C4和(10)式知:

根據D2不等式右邊知,?φ>0,使得:

由C4和(11)~(13)式得:

由(8)式、(14)式得:


取r=(lnn)1+c(c>0),由ln(1+x)的 T aylor展開式,(16)式變為:

因此,

由D2不等式左邊得:

因此對于D2中任意的ζ,φ21是有界的。同理,適當選取ε0=O)得 φ22也有界。因此)<∞。由Borel-Cantelli引理可得:

其中,j=1,2,則引理得證。
引理3 假設條件A2,B1~B2成立,則

其中,j=1,2。
證明 該漸近形式與相依結構無關。由分部積分、變量代換、A3和Taylor展開可得:

由(6)式得:

在定理1中令j=2有:

因此在引理1中令j=1有:

再結合下面的引理4和引理5,定理2即證。
引理4 假設條件 A 1,A3,B1~B2,D3成立,則(nh3
證明


對f(1)(θ-hv)做Taylor展開:

其中,θ*在θ和θ-hv之間。由f(1)(θ)=0,B1,B2和D3得:

引理5 假設條件 A 1~A2,B4,C2~C4,D1~D2成立,則

證明 這里用Bernstein大塊小塊方法,參見文獻[16-17]。設長度為p=pn的大塊和長度為q=qn的小塊將集合{1,2,…,n}分割成2ωn+1個子集,其中ω=ωn=[n/(p+q)]。C3顯示了存在正 整 數 列δ → ∞,使 得δq=o((nh)1),nnP2。令 大 塊 長 度p=pn=,則]

令
其中,km=(m-1)(p+q)+1,lm=(m-1)(p+q)+p+1,m=1,…,ω。則

接下來證明以下結果:


首先證明(18)式,由(3)式可得:

結合(17)式有J1=O(ωq/n)=o(1)。
因為

要證|J2|=o(1),|J3|=o(1),只要證:

下一步,設cn為一整數列且cn→∞,cnh→0,令

則

由B4對i<j有:

因此:

由文獻[17]有:


則


由 ( 24) ~ (26) 式 知 (23) 式 成 立, 故|J2|=o(1),|J3|=o(1)。
對于(19)式,由(22)式、(23)式可得:

對于(20)式,由文獻[18]和(15)式得:

[1] Louani D.On the asymptotic normality of the kernel estimators of the density function and its derivatives under censoring[J].Comm Stat Theor Meth,1998,27:2909-2924.
[2] Ould-Saǐd E,Cai Z W.Strong uniform consistency of nonparametric estimation of the censored conditional mode function[J].Journal of Nonparametr Stat,2005,17(7):797-806.
[3] Cai Z W.Asymptotic properties of Kaplan-Meier estimator for censored dependent data[J].Stat Probab Lett,1998,37:381-389.
[4] Cai Z W.Estimating a distribution function for censored time series data[J].Journal of Multivariate Anal.2001,78:299-318.
[5] Ould-Saǐd E,Tatachak A.On the nonparametric estimation of mode under left truncated model,Technical Report L M P A 2005,No.271[R].Univ du Littoral cote d’Ople,2005.
[6] Ould-Saǐd E,Tatachak A.Asymptotic properties of the kernel estimator of the conditional mode for the left truncated model[J].Statistics & Probability Letters,2007,344:651-656.
[7] Ould-Saǐd,Tatachak A.Strong consistency rate for the kernel mode estimator under strong mixing hypothesis and left truncation [J].Comm Stat Theo Meth,2009,38:1154-1169.
[8] Khardani S,Lemdani M,Ould-Saǐd E.On the strong uniform consistency of the mode estimator for censored time series[J].Metrika,2012,75:229-241.
[9] Liang Hanying,de U~na-A′lvarez J.Asymptotic normality for estimator of conditional mode under left-truncated and dependent observations[J].Metrika,2010,72:1-19.
[10] Stute W.Almost sure representation of the product-limit estimator for truncated data [J].Ann Statist,1993,21:146-156.
[11] Zhou Y.A note on the TJW product limit estimator for truncated and censored data[J].Stat Probab Lett,1996,26:381-387.
[12] Lynden-Bell D.A method of allowing for known observational selection in small samples applied to 3CR quasars[J].Monthly Notices Roy Astronom Soc,1971,155:95-118.
[13] Masry E.Nonparametric regression estimation for dependent functional data:asymptotic normality [J].Stoch Proc Appl,2005,115:155-177.
[14] Ferraty F,Vieu P.Nonparametric functional data analysis theory and practice[M].Berlin:Springer,2006:237.
[15] Bosq D.Nonparametric statistics for stochastic processes:estimation and prediction[M].2nd ed.Berlin:Springer-Verlag,1998:7-8.
[16] 丁 潔,凌能祥.基于相依函數型數據條件均值函數估計的漸近性質[J].合肥工業大學學報:自然科學版,2011,34(7):1104-1107,1116.
[17] Hall P,Heyde C C.Martingale limit theory and its application[M].New York:Academic Press,1980:277-279.
[18] Volkonskii.V A,RozanovY.A.Some limit theorems for random functions[J].Theory Probab Appl,1959,4:178-197.