邱世芳,何 杰
(重慶理工大學 理學院, 重慶 400054)
在流行病學研究中,為了估計某種疾病的流行率,常使用價格便宜的篩檢方法對個體進行第一次診斷。由于篩檢方法常存在誤判,從而導致基于有誤判數據的估計常常是有偏的[1]。在實際中,完全的金標準是不存在的,同時其花費很高且非常耗時。為此,Tenenbein[2]提出了二重抽樣方法,即從感興趣的總體中隨機抽取N個個體接受易犯錯的分類器分類,再從中隨機抽取n個個體接受金標準檢驗。這種方法叫作二重抽樣方法,得到的數據稱為部分核實數據[3]。
基于Tenenbein[2]提出的二重抽樣方法得到的部分核實數據,Tang等[3]研究了單個總體下的疾病流行率的假設問題,考慮了基于Score檢驗、似然比檢驗以及2種Wald型檢驗的大樣本漸近的檢驗過程以及小樣本近似非條件檢驗過程;Tang等[4]基于上述檢驗統計量提出了關于疾病流行率的12種區間估計方法;并從顯著性檢驗的角度和區間估計的角度考慮了樣本量的確定方法[5];對于2組樣本情形,Tang等[6]基于比例差考慮了2組疾病流行率的顯著性差異的假設檢驗過程,以及從檢驗功效的角度研究了樣本量的確定問題;同時,Qiu等[7]考慮了2組樣本下關于疾病流行率差的區間估計方法,從置信區間的角度研究了2組樣本的疾病流行率的顯著性差異問題。
以上研究中有一個重要的假定是存在一種完全無誤判的金標準。但在實際應用中,完全準確的金標準檢驗也許根本不存在。為此,安金兵等[8]考慮了在無金標準條件下的診斷試驗;Qiu等[9]在2種分類器都有誤判的情況下,基于單組樣本下的部分核實數據考慮了基于疾病流行率的假設檢驗過程以及樣本量的確定,以及邱世芳等[10]從區間估計的角度研究了在給定置信水平下區間寬度控制下的樣本量的估計問題。但Qiu等[9-10]只考慮單組樣本下的部分核實數據對疾病流行率的顯著性檢驗過程。而實際生活中,疾病流行率可能會受到年齡、生活習慣等的影響。為此,本文在此基礎上進一步考慮2組獨立的無金標準部分核實數據下基于風險差的顯著性檢驗問題。
在2種分類器都有誤判的情況下,假設從第j組感興趣總體中隨機抽取了Nj個個體進行初級分類器(J)分類,再從Nj個個體中隨機抽取nj個個體進行高級分類器(S)分類,得到頻數為nikj(i,k=0,1,j=1,2)。其中,Nj-nj個個體只接受了初級分類器的分類;xj表示檢驗為陽性的個體數;yj表示檢驗為陰性的個體數,數據結構由表1所示。

表1 第j組的數據結構
令Dj=1表示患病,Dj=0表示不患病,Jj=1表示初級分類器診斷個體呈陽性,反之Jj=0;Sj=1表示高級分類器診斷個體呈陽性,反之Sj=0。令πj=P(Dj=1)為第j組感興趣總體真實的患病率,ηj=P(Jj=1|Dj=1)和θj=P(Sj=1|Dj=1)分別表示第j組樣本下初級分類器和高級分類器的敏感度。本文假定兩種分類器都不存在假陽性。
本文感興趣的問題是如下的假設檢驗:
H0:π1=π2?H1:π1≠π2
令δ=π2-π1,上述的假設檢驗就可變為:
H0:δ=0?H1:δ≠0
假定初級分類器和高級分類器的分類結果是條件獨立的,即滿足P(Jj,Sj|Dj)=P(Jj|Dj)P(Sj|Dj),j=1,2。在此假定下,可得如下的概率模型(Nedelman[11]),其概率分布如表2所示。

表2 第j組的概率分布
令m={(n11j,n10j,n01j,n00j,xj,yj):j=1,2}為觀測數據,則觀測數據m的對數似然函數為:
l1(m;π1,δ,η1,θ1,η2,θ2)=
n01j+xj)logηj+n10jlog(1-ηj)+
(n11j+n10j)logθj+n01jlog(1-θj)+
n00jlog[1-πj(ηj+θj-ηjθj)]+
yjlog(1-πjηj)}
(1)
其中,π2=π1+δ;C1是一個與參數無關的常數。
簡單計算可得π1、δ、ηj、θj(j=1,2)的非限制性極大似然估計,分別為:
(2)

(3)
在H0:δ=0下,π1的限制性極大似然估計為:
(4)

(5)
此方程組的解沒有顯表達式,可用迭代方法如牛頓迭代法求解。
2.1.1Wald型檢驗統計量

在原假設H0:δ=0下,當N1和N2趨近無窮大時,Tw1和Tw2的漸近分布為標準正態分布。
2.1.2似然比檢驗統計量
根據式(1)給出的對數似然函數,對于假設檢驗H0:δ=0?H1:δ≠0有如下的似然比檢驗統計量:
在原假設H0:δ=0下,當N1和N2趨近無窮大時,Tl的漸近分布為自由度為1的卡方分布。
2.1.3Score檢驗統計量
根據Rao[12]提出的score理論,對于假設檢驗H0:δ=0?H1:δ≠0,經過推導得到如下的score檢驗統計量:

2.1.4基于反雙曲正切變換的檢驗統計量

和
在原假設H0:δ=0下,當N1和N2趨近無窮大時,Ttan1和Ttan2的漸近分布為標準正態分布。
假定初級分類器和高級分類器存在假陽性且條件不獨立時,根據Lie[13]提出的模型,其概率分布如表3所示。

表3 第j組的概率分布
注:j=1,2
觀測樣本m的對數似然函數為:
l2(m;π1,δ,η1,θ1,η2,θ2)=
C2+(nj-n00j+xj)log(πj)+
n00jlog(1-πj)+xjlogηj+
n10jlog(1-ηj)+n01jlog(1-θj)+
yjlog(1-πjηj)+n11jlog(ηj+θj-1)
(6)
其中:π2=π1+δ;C2是一個與參數無關的常數。
經過簡單計算,可得π1,δ,ηj,θj(j=1,2)的非限制性極大似然估計,分別為:
(7)

(8)

在H0:δ=0下,π1的限制性極大似然估計為:
(9)

由此,得到如下的估計:
(10)

2.2.1Wald型檢驗統計量


2.2.2似然比檢驗統計量
由式(6)可得到如下的似然比檢驗統計量:
在原假設H0:δ=0下,當N1和N2趨近無窮大時,Tl的漸近分布為自由度為1的卡方分布。
2.2.3Score檢驗統計量
在原假設H0:δ=0成立下,可以得到Score檢驗統計量:

2.2.4基于反雙曲正切變換的檢驗統計量
同模型1,可以得到2種反雙曲正切逆變換的檢驗統計量:
和
在原假設H0:δ=0下,當N1和N2趨近無窮大時,Ttan1和Ttan2的漸近分布為標準正態分布。
為評估Tw1、Tw2、Tsc、Tl、Ttan1和Ttan2檢驗方法的有效性,考慮了如下樣本量的模擬研究:① 小樣本:(n1,n2,N1,N2)=(20,20,30,30),(30,30,50,50);② 中等樣本(n1,n2,N1,N2)=(50,50,100,100);③ 大樣本:(n1,n2,N1,N2)=(200,200,500,500)。
在不同的樣本量設置下,考察犯第一類錯誤的概率時考慮了如下參數設置:π1=0.1(0.2)0.5,η1=0.5(0.1)0.7,θ1=0.7(0.1)0.9,η2=η1+0.05,θ2=θ1+0.05,即考慮了3(π1的值)×3(η1(η2)的值)×3(θ1(θ2)的值)=27種參數組合。對于檢驗功效考慮了:δ=0.1(0.01)0.3,π1=0.1(0.2)0.5,(η1,θ1)=(0.5,0.7),(0.6,0.8),(0.7,0.9),η2,θ2同以上設置,即考慮了3(δ的值)×3(π1的值)×3((η1,θ1)的值)=27種參數組合。這里的a(b)c表示取值是從a以步長b變化到c。在每個樣本量設置和每種參數設置下,隨機產生5 000組數據m={(n11j,n10j,n01j,n00j,xj,yj):j=1,2},在顯著性水平α=0.05下,對于每個檢驗統計量Ti(i=w1,w2,sc,l,tan1,tan2),其犯第一類錯誤的概率可通過以下公式計算:基于統計量Ti拒絕原假設的次數/5 000(δ=0),經驗功效通過以下公式計算基于統計量Ti拒絕原假設的次數/5 000(δ≠0)。犯第一類錯誤概率的模擬結果見表4~7。由于篇幅的限制,只列出了小樣本和中等樣本下的部分功效的模擬結果,見表8~9。

表4 小樣本(n1,n2,N1,N2)=(20,20,30,30)下犯第一類錯誤的概率(顯著性水平α=0.05)

表5 小樣本(n1,n2,N1,N2)=(30,30,50,50)下犯第一類錯誤的概率(顯著性水平α=0.05)

續表(表5)

表6 中等樣本(n1,n2,N1,N2)=(50,50,100,100)下犯第一類錯誤的概率(顯著性水平α=0.05)

續表(表6)

表7 大樣本(n1,n2,N1,N2)=(200,200,500,500)下犯第一類錯誤的概率(α=0.05)

表8 小樣本(n1,n2,N1,N2)=(20,20,30,30)下的經驗功效(顯著性水平α=0.05)

表9 中等樣本(n1,n2,N1,N2)=(50,50,100,100)下的經驗功效(顯著性水平α=0.05)

續表(表9)
通過模擬結果可以得到以下結論:① 對于2個模型,即使在極小樣本(如(n1,n2,N1,N2)=(20,20,30,30))下,Score檢驗統計量(Tsc)犯第一類錯誤概率接近給定的顯著性水平(α=0.05),相應的功效也比較大,隨著樣本量的增大,犯第一類錯誤的概率越來越接近顯著性水平0.05且功效越來越大;② 對于模型1,除了小樣本情形,考慮原假設下方差的Wald檢驗統計量(Tw2)、Score檢驗(Tsc)以及反雙曲正切變換統計量(Ttan2)都表現良好,它們犯第一類錯誤的概率都比較接近于給定的顯著性水平0.05,且有較大的功效;③ 對于模型2,在中等樣本和大樣本且犯病率不是極小時,所有檢驗統計量犯第一類錯誤的概率都基本接近名義水平且具有較高的功效。綜上所述,在模型1下,推薦使用Tw2、Tsc和Ttan1;在模型2下,當樣本量極小時(如(n1,n2,N1,N2)=(20,20,30,30)),推薦使用Score統計量,在樣本量不是極小時,所有統計量都可以推薦使用。
為了驗證本文提出方法的有效性,利用Nedelman[11]研究中的瘧疾數據進行分析。考慮了未成年組(即9~18歲)的2個不同組的瘧疾數據,數據結構見表10。

表10 實例數據
對于假設檢驗:H0:δ=0?H1:δ≠0,在模型1下,基于本文考慮的檢驗統計量Tw1、Tw2、Tl、Tsc、Ttan1、Ttan2的檢驗p值分別為:0.113、0.130、0.129、0.184、0.115、0.132。由此,沒有充分理由拒絕原假設,認為瘧疾的患病率與不同的調查組無關。在模型2下,本文所提出的檢驗統計量的檢驗p值分別為:0.127、0.141、0.143、0.145、0.128、0.142,同樣認為沒有充分理由拒絕原假設,即認為瘧疾的患病率與不同的調查組無關。
本文基于2個有誤判分類器下的二重抽樣數據對2組患病率進行了比較研究,分別考慮2個二重抽樣模型的6種檢驗統計量,并通過不同樣本量和不同參數設置考察了它們犯第一類錯誤的概率和檢驗功效。對于模型1,即使在極小樣本下,Score檢驗以及反雙曲正切統計量都表現良好,在樣本量不太小時,似然比統計量也能很好地控制犯第一類錯誤的概率;對于模型2,本文所考慮的所有檢驗統計量(在中等樣本和大樣本下且犯病率不是極小時)都表現很好。在2個模型中,考慮初級分類器和高級分類器不存在假陽性,在實際的模型中該條件可能不存在,但如果2種分類器都存在假陽性分類時,本文考慮的模型是不可識別的。此時,可以考慮采用貝葉斯統計方法進行研究,這是一個將來值得研究的問題。