王 芬, 何 穗
(1.湖北第二師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 武漢 430205;
?
成組復(fù)發(fā)事件下的加速失效時(shí)間模型
王 芬1*, 何 穗2
(1.湖北第二師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 武漢 430205;
2.華中師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院, 武漢 430079)
對(duì)成組復(fù)發(fā)事件數(shù)據(jù)建立了半?yún)?shù)加速失效時(shí)間模型,在這個(gè)模型中協(xié)變量對(duì)均值函數(shù)在整個(gè)復(fù)發(fā)過(guò)程中有加速、減速的作用.該文利用估計(jì)方程的理論,給出了該模型中未知參數(shù)和基本比率函數(shù)的估計(jì),同時(shí)利用現(xiàn)代經(jīng)驗(yàn)過(guò)程理論證明了所得估計(jì)的相合性和漸近正態(tài)性.
加速失效時(shí)間模型; 成組復(fù)發(fā)事件; 估計(jì)方程
在許多研究背景下,對(duì)每個(gè)個(gè)體而言,某種感興趣的事件會(huì)反復(fù)多次發(fā)生,這類情況的事件稱為復(fù)發(fā)事件(Recurrent Event).復(fù)發(fā)事件數(shù)據(jù)就是對(duì)一些個(gè)體進(jìn)行觀察,某種感興趣事件重復(fù)發(fā)生的時(shí)間所組成的數(shù)據(jù),這類數(shù)據(jù)經(jīng)常出現(xiàn)在生物,醫(yī)學(xué),社會(huì)和經(jīng)濟(jì)學(xué)等研究領(lǐng)域中.另外,在一些生物醫(yī)學(xué)的學(xué)習(xí)中,研究的個(gè)體之間的經(jīng)歷可能是相關(guān)的,這樣的數(shù)據(jù)又是成組數(shù)據(jù).例如,在家庭或多區(qū)域的研究中,來(lái)自于同一家庭或同一區(qū)域的個(gè)體之間可能是相關(guān)聯(lián)的.如果在研究中感興趣的事件是成組數(shù)據(jù),并且這些感興趣的事件在觀察的時(shí)間內(nèi)可能多次發(fā)生,這樣的數(shù)據(jù)稱之為成組復(fù)發(fā)事件數(shù)據(jù).在許多應(yīng)用中,經(jīng)常發(fā)生這樣的情況:個(gè)體自身感興趣的事件之間不相互獨(dú)立,并且研究的個(gè)體之間也是不相互獨(dú)立的.例如,對(duì)腎衰竭病人的住院治療率的研究中,在同一地理區(qū)域的病人由于不可測(cè)量的病人特征可能是相關(guān)的[1-2].
在許多應(yīng)用背景下,半?yún)?shù)加速失效時(shí)間模型已經(jīng)得到了廣泛應(yīng)用,它是另一類重要的半?yún)?shù)模型.對(duì)于經(jīng)典的生存數(shù)據(jù),對(duì)Cox比率危險(xiǎn)模型的一個(gè)重要替代就是加速失效時(shí)間模型,在此類模型中失效時(shí)間取對(duì)數(shù)后與協(xié)變量是線性關(guān)系,協(xié)變量的影響有加速、減速的作用.
對(duì)復(fù)發(fā)事件數(shù)據(jù), 文獻(xiàn)[3]提出了下面的加速失效時(shí)間模型:

通過(guò)一般化rank-type估計(jì)方程[4-6],估計(jì)了模型中回歸參數(shù)的向量,并用現(xiàn)代經(jīng)驗(yàn)過(guò)程理論,證明了估計(jì)參數(shù)的相合性和漸近正態(tài)性.
文獻(xiàn)[7]提出了復(fù)發(fā)事件數(shù)據(jù)下的一類加速均值回歸模型:

其中,β10和β20是p維的未知回歸參數(shù).該模型下,取β10=0,g(x)=ex時(shí),該模型就是比率均值模型;當(dāng)取g(x)=1時(shí)就是加速失效時(shí)間模型;當(dāng)取g(x)=ex,β20=-β10時(shí)就是復(fù)發(fā)事件下的加速比率回歸模型.
同樣的,本文對(duì)成組復(fù)發(fā)事件數(shù)據(jù),給出了相應(yīng)的加速失效時(shí)間模型.
首先給出本文需要用到的記號(hào).對(duì)j=1,…,n,i=1,…,nj和k=1,2,…,令Tijk表示第j集族中第i個(gè)個(gè)體第k次事件發(fā)生的時(shí)間,其中,n表示集族數(shù),nj表示第j集族中研究個(gè)體數(shù).令
為t時(shí)刻第j集族中第i個(gè)人所經(jīng)歷的事件數(shù),其中,當(dāng)A成立時(shí)I(A)=1,否則I(A)=0.記第j集族中第i個(gè)人得右刪失時(shí)間為Cij;令Zij(t)為p維協(xié)變量.由于刪失時(shí)間的存在,研究個(gè)體所經(jīng)歷的事件可能有些不能被觀察到,記可觀察到的事件數(shù)為:

其中,a∧b=min(a,b).可觀察到的數(shù)據(jù)集合為:
{Nij(·),Yij(·),Zij},
j=1,…,n;i=1,…,nj,
其中,Yij(s)=I(Cij>s).在給定協(xié)變量向量時(shí),假定每個(gè)個(gè)體的刪失時(shí)間條件獨(dú)立于復(fù)發(fā)事件過(guò)程,也就是

而一個(gè)集族中個(gè)體之間的刪失時(shí)間是沒(méi)有必要相互獨(dú)立的.
對(duì)成組復(fù)發(fā)事件數(shù)據(jù),給出下面的加速失效時(shí)間模型:

(1)




(2)

或
(3)
其中,誤差項(xiàng)εij是同分布的.方程(3)式是非變量的加速失效時(shí)間模型.
令

Yij(t;β)=I(Cij≥te-βTZij).
定義

易知

故

又由方程(2)知,Mij(t;β0)是均值為零的隨機(jī)過(guò)程.因此,給定β,μ0(t)的合理估計(jì)值是下列方程的解,



為了估計(jì)β0,由比例強(qiáng)度泊松過(guò)程模型[8]中的偏似然得分函數(shù)和模型(3)中的權(quán)重秩估計(jì)函數(shù),提出β0的估計(jì)函數(shù)為:

其中,Q(t;β)是特定的權(quán)重函數(shù),且



(4)

(5)



且






其中,



所以,與文獻(xiàn)[9]一樣,用V(t)的近似分布區(qū)推斷μ0(t).
和其他回歸模型一樣,模型(1)精確性的估計(jì)得擬合優(yōu)度法是重要的. 與文獻(xiàn)[13]類似,考慮下面殘差和:



(6)
其中,





現(xiàn)在來(lái)討論模型(1)的函數(shù)估計(jì)值的漸近性質(zhì).首先,假定下列正則條件成立:

(C2)P(Yij(τ;β)=1)>0;
(C3)對(duì)j=1,…,n,i=1,…,nj,Nij(t)和Zij在[0,τ]上是有界的;
(C4)nj (C5)Q有有界變差,并且?guī)缀跆幪幨諗康竭B續(xù)函數(shù)q; (C6)Cij(β0)具有有界密度,且μ0(t)的二階導(dǎo)數(shù)有界; (C7)A是正定矩陣,其中, 證明主要采用文獻(xiàn)[9]中的方法.首先,證明有限區(qū)間[0,τ]上的弱收斂性,其中,τ滿足 令 定理2假設(shè)條件(C1)~(C7)成立,且對(duì)所有β∈N,除去β≠β0外,U(β)≠0,則有 1) 對(duì)任意εn→0, =o(1) (7) 幾乎處處成立,其中, 證明 U(β)-U(β0)= Yij(t;β)dμ0(te(β0-β)TZij)}- (8) μ0(te(β0-β)TZij)-μ0(t)= 故(8)右邊的第二項(xiàng)為 o(n‖β-β0‖)= -An(β-β0)+o(n‖β-β0‖) 幾乎處處成立.將前面(8)右邊的第一項(xiàng)和第二項(xiàng)的近似代入(8)式,可得對(duì)任意序列εn→0, 定理3在條件(C1)~(C7)下,V(t)弱收斂到均值為零的高斯過(guò)程,其在(s,t)處的協(xié)方差函數(shù)為Γ(s,t)=E{Ψj(s)Ψj(t)},其中, 證明為了得到V(t)的漸近正態(tài)性,首先注意到 由定理1的證明可知 在t∈[0,τ]上一致成立.又 在t∈[0,τ]上一致成立.由文獻(xiàn)[9]中的定理1容易得到 因此 (9) 證明主要采用文獻(xiàn)[7]中的證明方法.記 (10) 運(yùn)用文獻(xiàn)[6]和文獻(xiàn)[9]中的證明方法,可以得到(10)右邊的第一項(xiàng)對(duì)任意的t和z一致為ο(1).與(9)相似,(10)右邊的第二項(xiàng)等價(jià)于 其中, 對(duì)(10)式的右邊的第三項(xiàng)進(jìn)行Taylor展開(kāi),它等價(jià)于 其中, b*(t,z)= 所以,對(duì)任意t和z一致的有 [1] Schaubel D E, Cai J W. Analysis of clustered recurrent event data with application to hospitalization rates among renal failure patients[J]. Biostatistics, 2005,6:404-419. [2] Schaubel D E, Cai J W. Semiparametric methods for clustered recurrent event data[J]. Lifetime Data Analysis, 2005,11:405-425. [3] Lin D Y, Wei L J, Ying Z. Accelerated failure time models for counting processes[J]. Biometrika, 1998,85:609-618. [4] Tsiatis A A. Estimating regression parameters using linear rank tests for censored data[J]. Ann Statist, 1990,18:354-372. [5] Lai T L, Ying Z L. Estimating a distribution function with truncated and censored data[J]. Ann Statist,1991,19(1):417-442. [6] Ying Z. A Large Sample Study Of Rank Estimation For Censored Regression Data[J]. Ann Statist, 1993,21:76-99. [7] Sun L Q, Su B. A Class of accelerated means regression models for recurrent event data[J]. Lifetime Data Analysis, 2008,14:357-375. [8] Andersen P K, Gill R D. Cox’s regression model for counting processes: a large sample study [J]. Ann Statist, 1982, 10:1100-1120. [9] Lin D Y, Wei L J, Ying Z. Accelerated failure time models for counting processes[J]. Biometrika, 1998,85:609-618. [10] Chen Y Q, Jewell N P. On a general class of hazards regression models[J]. Biometrika, 2001,88:687-702. [11] Lin D Y, Geyer C J. Computational methods for semiparametric linear regression with censored data[J]. J Comput Graph Statist,1992, 1(1):77-90. [12] Parzen M I, Wei L J, Ying Z. A resampling method based on pivotal estimation functions[J]. Biometrika,1994, 81:341-350. [13] Lin D Y, Wei L J, Yang I,et al. Semiparametric regression for the mean and rate function for of recurrent events[J]. J R Statist, Soc B, 2000,69:711-730. [14] Pollard D. Empirical processes: theory and applications[M]. Hayward: Institute of Mathematical Statistics,1990. [15] Bilias Y,Gu M, Ying Z. Towards a general asymptotic theory for cox model with staggered entry [J]. Ann Statist, 1997, 25:668-682. [16] Schorack G R, Wellner J A. Empirical Processes with Applications to Statistics[M]. New York: Wilery,1986. Accelerated failure time models for clustered recurrent event data WANG Fen1, HE Sui2 (1.College of Mathematics and Statistics, Hubei University of Education, Wuhan 430205;2.School of Mathematics and Statistics, Huazhong Normal University, Wuhan 430079) In this paper, we present a natural extension of accelerated failure time model for survival data to formulate the effects of covariates on the mean function of the counting process for Clustered Recurrent event data. Making use of the theory of estimating equation, the unknown parameter in the model is estimated. Based on modern empirical process theory, the consistency and asymptotic normality of the proposed estimators are proved. accelerated failure time models; clustered recurrent event; estimating equation 2013-11-21. 國(guó)家科技部國(guó)際合作重點(diǎn)專項(xiàng)基金項(xiàng)目(2010DFA31790);湖北省教育廳科學(xué)技術(shù)研究基金項(xiàng)目(B2014006). 1000-1190(2014)04-0468-06 O212.7 A *E-mail: 55421810@qq.com.










































