范凱旋,李開燦
(1.湖北師范大學 數學與統計學院,湖北 黃石 435002;2.湖北師范大學 文理學院,湖北 黃石 435002)
在高維列聯表分析中,兩個變量的關聯測度在考慮第三個變量的影響有時會出現完全不同的符號,從而產生了Yule-Simpson悖論,為此需要研究關聯測度的可壓縮性。有許多學者研究了高維列聯表中各種關聯測度可壓縮性的條件。如文獻[1,2]找到了相對于I×J×K列聯表,差積比關于背景變量可壓縮的充分必要條件,文獻[3]給出了2×2×K的列聯表中,差積比關于有序背景變量可壓縮及其強可壓縮的充分必要條件。在對分的響應變量下,文獻[4]給出了相對風險關于背景變量可壓縮及其強可壓縮的充分必要條件。文獻[5]討論了I×J×K列聯表中,相對風險和差積比關于背景變量簡單可壓縮及其強可壓縮的充分必要條件。文獻[6,7]還研究了輔助交互作用、交互信息等關聯測度的可壓縮性條件。從文獻[1][8]和[9]等的討論可以知道,這些研究在生物醫學中是十分有用的。文獻[10]也從因果分析的角度給出了研究可壓縮性的意義。
在生存分析中,常常用一個非負隨機變量T來表示壽命,在研究實際問題時,一般要考慮系統性因素對壽命的影響。按照文獻[11]的描述方式,假設X是處理(暴露)變量,Y是協變量,在一定的條件下,壓縮掉協變量可能使壽命和處理之間的關系產生完全相反的結論,即出現Simpson悖論。對于壽命的一些相關函數,如生存函數、剩余壽命函數的相關測度在什么條件下可壓縮呢?目前還沒有發現相關的研究結果,本文打算研究壽命T關于處理(暴露)變量X、協變量Y的生存函數、剩余壽命函數等相關函數的強可壓縮性、平均可壓縮性問題。由于在因果分析中,可壓縮性作為一個變量是否為混雜的一個標準[12],所以找到某種變量可壓縮性條件,對生存分析中影響壽命的混雜因子的辨別有重要的作用。
本文第一節給出了要研究的生存函數、剩余壽命函數、危險率函數、平均壽命、平均剩余壽命和它們的條件相依度等概念和記號,也給出了它們這些關聯測度強可壓縮性、平均可壓縮性的定義。第二節, 在可導與可積可交換的假設下,利用條件概率的性質,對相關條件期望結果進行比較,得到了生存函數條件相依度、剩余壽命函數條件相依度的強可壓縮、平均可壓縮的條件,同時也得到了平均壽命、平均剩余壽命條件相依度平均可壓縮的條件,這些條件目前都沒有發現有已知的結果。
為了研究方便,我們記T是壽命變量,F(t)=P(T≤t)是分布函數,稱S(t)=P(T>t)為T的生存函數,R(s)=P(T>t+s|T>t)稱為剩余壽命生存函數。稱
為T的危險率函數。
注記1 通常壽命變量T是連續的,從而有密度函數f(t),若f(t)是右連續的,則不難證明

(1)
注記2 若T的生存函數S(t)可導,則不難證明
若壽命T受到處理(暴露)變量X的影響,Y是一組協變量,則上述函數相應的記為f(t|x,y) ,S(t|x,y)=P(T>t|x,y),R(s|t,x,y)=P(T>t+s|T>t,x,y),λ(t|x,y),分別稱為給定X=x、Y=y的條件下,T的條件密度函數、條件生存函數、條件剩余壽命生存函數、條件危險率函數。而f(t|x)S(t|x)=P(T>t|x),R(s|t,x)=P(T>t+s|T>t,x),λ(t|x)分別有壓縮Y后類似的函數。
注記3 若考慮影響壽命T的處理(暴露)變量X和協變量Y,那么注記1相應函數形式也會改變,即密度函數是f(t|x,y),生存函數是S(t|x,y),危險率函數(1)就是
從因果分析的角度來看,假設有一種處理或者暴露X對壽命T有作用,我們想要研究的是協變量Y=(Y1,Y2,…,Yp)T中哪些是因果分析中的混雜變量,它引起的混雜偏倚如何測量?這是目前因果分析沒有研究的課題。
按文獻[14]中用條件分布的偏導數表示兩個變量相依測度的思想,可以用如下的偏導數(設所需導數存在)刻畫壽命T關于協變量Y各種相依測度,為了表述方便,先給出如下定義
定義1 如果所要導數存在,分別稱
為T在給定X=x的條件下,關于Y=y的危險率條件相依度、生存函數條件相依度和剩余壽命生存函數條件相依度。
本節主要討論這些條件相依度的強可壓縮、平均可壓縮性問題。關于強可壓縮、平均可壓縮的概念和定義在文獻[5][15][16]中都已經給出了,為了節省篇幅這里不再贅述。
在此特別強調,本文總假設所涉及的求偏導數和求積分可以互換的條件是滿足的。
文獻[15]定義了分布函數條件相依度的強可壓縮性,由此可以獲得生存函數條件相依度、剩余壽命生存函數條件相依度可壓縮性的一個重要結論。


證明 見文獻[15]定理1,由此可以得到如下結果。


證明 因為?(t,x,y),
S(t|x,y)=P(T>t|x,y)=1-F(t|x,y),



證明 因為t當給定時,?(x,y),1-R(s|t,x,y)作為s的函數也是一個條件分布函數,事實上,按分布函數的性質逐一檢驗是可以證明的,從而由引理1結論成立。

定義2 若

(2)
則稱生存函數條件相依度關于Y平均可壓縮。若

(3)
則稱剩余壽命生存函數條件相依度關于Y平均可壓縮。
定理3 若對任何的t,x,P(T>t|x,y)關于y是齊次的,即
?y≠y0,P(T>t|x,y)=P(T>t|x,y0)
(4)
則生存函數條件相依度關于Y平均可壓縮,即(2)式成立。
證明 因為?(t,x),

所以

(5)
由齊次性條件(4),當?y≠y0,P(T>t|x,y)=P(T>t|x,y0)時,必有
由(5)可得(2)成立。
定理4 如果
1)P(T>t+s|T>t,x,y) 對任何的t,s,x關于y是齊次的,即
?y≠y0,P(T>t+s|T>t,x,y)=P(T>t+s|T>t,x,y0),或者
則

(6)
即剩余壽命生存函數條件相依度(關于Y)平均可壓縮。
證明 因為?(t,s,x),

所以


(7)
1) 在(7)式中,當P(T>t+s|T>t,x,y)對任何的t,s,x關于y是齊次的,則?y≠y0,恒有
P(T>t+s|T>t,x,y)=P(T>t+s|T>t,x,y0),故
=0,
由(7)式可得結論(6)成立。
在這一小節中,我們得到了平均壽命條件相依度、平均剩余壽命條件相依度的平均可壓縮性。在可靠性分析中,平均壽命、平均剩余壽命有其重要性,見文獻[17]。
用E(T|x,y)表示給定X=x條件下關于y=x的總體的平均壽命,MR(t|x,y)=E(T-t|T>t,x,y)表示給定X=x條件下關于Y=y的總體的平均剩余壽命。
定義3 如果所要導數存在,分別稱
為T在給定X=x條件下關于Y=y的平均壽命條件相依度和T>t之后的平均剩余壽命條件相依度。若
則稱平均壽命條件相依度關于Y平均可壓縮。若
則稱平均剩余壽命條件相依度關于Y平均可壓縮。
推論1 若對任何的t,x,P(T>t|x,y)關于y是齊次的,則平均壽命條件相依度關于Y平均可壓縮。
證明 由文獻[17]第8頁的公式(1)知道:

(8)
若對任何的t,x,P(T>t|x,y)關于y是齊次的,根據定理3,
利用積分與求導可以互換的假設,所以有

證明 由于MR(t|x)=E(T-t|T>t,x)表示對任何的t≥0,壽命變量在T>t之后的期望值,
記T1=T-t,則MR(t|x)=E(T1|T1>0,x),
利用(8)式,

其中,
S1(s|T1>0,x)=P(T1>s|T1>0,x)=P(T>t+s|T>t,x),
所以

當本推論條件成立時,利用定理4證明的(7)式同樣方法可知,?(t,x),
即平均剩余壽命條件相依度關于Y平均可壓縮。
本文研究了關于壽命變量的生存函數條件相依度和剩余壽命函數的條件相依度的強可壓縮性和平均可壓縮性的條件,以及平均壽命條件相依度、平均剩余壽命條件相依度的平均可壓縮性條件。定理1和定理2的條件顯然強于定理3、定理4,這是由于強可壓縮一定嚴于平均可壓縮。本文推論1給出了條件期望相依度平均可壓縮的條件,比較文獻[16]的定理1,本文的條件比它的條件要簡潔,驗證起來計算量明顯也要小一些。
另一方面,若T|(X,Y)服從特別的分布,比如weibull分布、對數正態分布,平均可壓縮性條件可否是充要條件呢?這些還需要進一步研究。