哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150086) 侯 艷 李 康
兩組計(jì)量資料非劣效檢驗(yàn)的P-P曲線評(píng)價(jià)方法*
哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150086) 侯 艷 李 康△
目的針對(duì)兩組計(jì)量資料的非劣效性評(píng)價(jià)問題,給出一種新的統(tǒng)計(jì)檢驗(yàn)方法。方法根據(jù)計(jì)量資料的不同評(píng)價(jià)分界值,給出相應(yīng)的試驗(yàn)組和對(duì)照組的“有效率”,分別以兩組的“有效率”為橫軸和縱軸,連成P-P曲線并計(jì)算曲線下面積,然后根據(jù)這一統(tǒng)計(jì)量進(jìn)行統(tǒng)計(jì)檢驗(yàn),并通過模擬實(shí)驗(yàn)對(duì)檢驗(yàn)效能進(jìn)行研究。結(jié)果給出了P-P曲線方法的檢驗(yàn)公式,使用這種方法更易于選擇非劣效界值,而且對(duì)數(shù)據(jù)的分布沒有任何限制,在偏態(tài)情況下比傳統(tǒng)方法有更高的檢驗(yàn)效能。結(jié)論該方法適合用于Ⅱ期探索性臨床試驗(yàn)研究,具有應(yīng)用和研究?jī)r(jià)值。
臨床試驗(yàn)非劣性試驗(yàn)非劣效界值P-P曲線
在新藥臨床試驗(yàn)中,經(jīng)常需要比較試驗(yàn)藥物是否非劣于陽(yáng)性對(duì)照藥物的療效,例如新的治療方法與標(biāo)準(zhǔn)治療相比安全性方面可能更有優(yōu)勢(shì),其療效只要在允許的非劣效界值范圍內(nèi)即可。兩組計(jì)量資料的非劣效性評(píng)價(jià),一般采用兩組均數(shù)的差值進(jìn)行衡量和檢驗(yàn)。非劣效界值的確定是設(shè)計(jì)的關(guān)鍵,通常需要根據(jù)陽(yáng)性對(duì)照的效應(yīng)、具體疾病特征、臨床意義等進(jìn)行確定[1-2]。傳統(tǒng)的檢驗(yàn)方法需要假定數(shù)據(jù)服從正態(tài)分布,如果數(shù)據(jù)明顯呈偏態(tài),分析的結(jié)果則可能不正確,而且選擇的非劣效界值也可能失去意義。本文提出P-P曲線這一新的概念和方法,闡述了它與傳統(tǒng)臨床試驗(yàn)非劣效評(píng)價(jià)方法的關(guān)系,在此基礎(chǔ)上推薦了新的非劣效檢驗(yàn)的界值標(biāo)準(zhǔn),這種方法對(duì)數(shù)據(jù)的分布沒有任何限制,而且在偏態(tài)分布時(shí)同樣能夠保證其檢驗(yàn)效能。
1.P-P曲線及曲線下面積
假定標(biāo)準(zhǔn)組和試驗(yàn)組的療效變量Y服從任意分布,G表示分組變量,G=0表示標(biāo)準(zhǔn)組,G=1表示試驗(yàn)組,各自服從方差為σ2(G)的分布,同時(shí)假定測(cè)量值越大療效越好(高優(yōu)指標(biāo))。對(duì)于定量終點(diǎn)評(píng)價(jià)指標(biāo),試驗(yàn)組和標(biāo)準(zhǔn)組的分布通常有較大的重疊,如果將其分為“有效”和“無效”兩類,選擇不同的閾值會(huì)得到不同的結(jié)果(圖1)。現(xiàn)用橫坐標(biāo)πT(c)和πS(c)分別表示試驗(yàn)組和標(biāo)準(zhǔn)組的“有效率”,不斷改變“有效率”的閾值c,獲得一條連續(xù)的曲線,對(duì)此稱之為P-P曲線,并用參數(shù)θ表示曲線下面積(0≤θ≤1)。從圖2可以看到,如果試驗(yàn)組與標(biāo)準(zhǔn)組的療效完全相同,P-P曲線是由(0,0)到(1,1)的45°角的直線,直線下面積為θ=1/2;當(dāng)試驗(yàn)組的療效不如標(biāo)準(zhǔn)組時(shí),曲線下面積θ<1/2;當(dāng)試驗(yàn)組療效優(yōu)于對(duì)照組時(shí),曲線下面積θ>1/2。記Δθ=1/2-θ表示兩組療效的平均差別,Δθ愈大說明試驗(yàn)組的療效與對(duì)照組相差愈大,當(dāng)Δθ<0時(shí),說明試驗(yàn)組的療效優(yōu)于標(biāo)準(zhǔn)組。

圖1 試驗(yàn)組與標(biāo)準(zhǔn)組療效測(cè)量結(jié)果的概率分布與確定有效率的閾值


圖2 試驗(yàn)組和標(biāo)準(zhǔn)組的P-P曲線示意圖
FT(c)和FS(c)分別是試驗(yàn)組和標(biāo)準(zhǔn)組的分布函數(shù),PP曲線方程可以表示為

特殊地,當(dāng)標(biāo)準(zhǔn)組和試驗(yàn)組的療效分別服從N的正態(tài)分布時(shí),容易推出P-P曲線方程:

Φ(·)為標(biāo)準(zhǔn)正態(tài)的分布函數(shù)。P-P曲線下的面積為

2.Δθ值的意義
下面我們證明兩組有效率差值與P-P曲線下面積θ之間的關(guān)系[3]。

兩總體率的最大差值max{Δπ(c)}的截?cái)帱c(diǎn)c*可以通過解下面方程得到,即

其中fS(c)和fT(c)分別為標(biāo)準(zhǔn)組和試驗(yàn)組測(cè)量結(jié)果的密度函數(shù)。容易證明,c*恰為兩密度曲線的相交點(diǎn),同時(shí)是P-P曲線上45°切線上的點(diǎn)。在正態(tài)分布假定下,有

c*的解由下式?jīng)Q定:

兩總體率的最大差值:

特殊地,在σT=σS時(shí),c*=(μS+μT)/2,于是P-P曲線下面積的參數(shù)θ與max{Δπ(c)}之間的數(shù)量關(guān)系為

max{Δπ(c)}與Δθ的具體數(shù)量關(guān)系見表1。例如Δθ=0.05,max{Δπ}=0.0708,表示在雙正態(tài)同方差假定下,無論怎樣選擇“有效率”的閾值c,標(biāo)準(zhǔn)組與試驗(yàn)組的有效率之差最大不超過7.08%。RR表示對(duì)應(yīng)c值的兩組有效率的比值。實(shí)際上,在非正態(tài)情況下(如Weibull分布),只要方差相同,max{Δπ(c)}與Δθ的關(guān)系與正態(tài)分布的情況相差不大(如max{Δπ(c)}<0.08)。為便于應(yīng)用,表1和表2給出了標(biāo)準(zhǔn)組在各百分位點(diǎn)時(shí)不同指標(biāo)的對(duì)應(yīng)值。例如,標(biāo)準(zhǔn)組的有效率為0.80,在選擇Δθ=0.05作為非劣效界值時(shí),相當(dāng)于取兩組有效率的最大差值max{Δπ(c)}=0.0534為界值。為便于比較,同時(shí)也給出了相應(yīng)的兩組有效率的比值RR。可以看出,選擇Δθ=0.05是一個(gè)較為適當(dāng)?shù)倪x擇,此時(shí)max{Δπ(c)}=0.0534,在πS>0.40的情況下,能夠保證max{RR(c)}≤1.20,作為非劣效的界值基本上能夠滿足目前臨床試驗(yàn)的要求。

表1 雙正態(tài)分布P-P曲線下面積θ與Δπ之間的數(shù)量關(guān)系

表1 雙正態(tài)分布P-P曲線下面積θ與Δπ之間的數(shù)量關(guān)系(續(xù))
3.P-P曲線下面積的計(jì)算
P-P曲線計(jì)算有多種方法,這里給出最基本的方法。可以證明,P-P曲線下面積是對(duì)照組檢測(cè)值大于試驗(yàn)組檢測(cè)值的概率,即

θ的估計(jì)值可以利用下式計(jì)算,即

其中

nS和nS為標(biāo)準(zhǔn)組和試驗(yàn)組的檢測(cè)例數(shù)。樣本估計(jì)方差可以用Delong給出的非參數(shù)方法計(jì)算得到[4]。
4.統(tǒng)計(jì)檢驗(yàn)方法
對(duì)于給定的P-P曲線下面積的非劣效界值δP-P,非劣效檢驗(yàn)的方法為[5]

統(tǒng)計(jì)量z近似服從正態(tài)分布,如果z>z1-α,則可以拒絕H0,認(rèn)為試驗(yàn)組非劣效性成立。同樣可以使用可信區(qū)間的方法,即按照100(1-α)%的置信度,計(jì)算出單側(cè)可信區(qū)間的上限CU,若CU<δP-P則可下非劣效的結(jié)論。可信區(qū)間檢驗(yàn)方法與公式(11)檢驗(yàn)方法等價(jià)。
1.雙正態(tài)分布情況
在兩組方差相同的情況下,兩組均數(shù)非劣效檢驗(yàn)的樣本含量計(jì)算公式為[6]

其中,δ0和Δμ分別為給定的兩組均數(shù)差值的允許界值和實(shí)際差值,p為標(biāo)準(zhǔn)組在總樣本中所占的比例。
對(duì)于給定的P-P曲線檢驗(yàn)方法的非劣效界值δP-P,與兩組均數(shù)差值的非劣效檢驗(yàn)的界值δ0有如下關(guān)系:

μT.0是在原假設(shè)H0:Δθ=δP-P成立時(shí)試驗(yàn)組的均數(shù)。容易推出:

為便于比較,選擇P-P曲線方法檢驗(yàn),取δP-P=0.05和δP-P=0.07兩種不同的非劣效界值,兩組的樣本含量比值k=1,即p=1/2,樣本量nS=nT=200,對(duì)于不同實(shí)際差別Δθ,其檢驗(yàn)效能的變化見圖3。可以看出,在兩組服從正態(tài)分布且方差相同假定下,P-P曲線方法與傳統(tǒng)的均數(shù)差值方法的檢驗(yàn)效能曲線重合。
2.偏態(tài)分布情況
假設(shè)測(cè)量結(jié)果Y取對(duì)數(shù)lnY服從正態(tài)分布,即lnY~N(μ,σ2)。如果標(biāo)準(zhǔn)組和試驗(yàn)組的測(cè)量結(jié)果分別服從則Y的數(shù)學(xué)期望為

根據(jù)設(shè)定的P-P曲線下面積非劣效界值δP-P,將其換算成用原始變量Y表示的非劣效界值δ0,具體方法為

其中E(YT.0)和μT.0分別表示在原假設(shè)成立條件下,試驗(yàn)組測(cè)量值和取對(duì)數(shù)的期望值。

圖3 正態(tài)分布下采用兩種不同檢驗(yàn)方法計(jì)算出的檢驗(yàn)效能(傳統(tǒng)方法的檢驗(yàn)界值δ0按照P-P曲線檢驗(yàn)給出的界值δP-P換算得到)
用模擬實(shí)驗(yàn)考核檢驗(yàn)效能,模擬中設(shè)lnYS~N(2,1)和lnYT~N(μT.a(chǎn)lt,1),μT.a(chǎn)lt是備擇假設(shè)下試驗(yàn)組測(cè)量值對(duì)數(shù)的期望值。模擬試驗(yàn)采用傳統(tǒng)的均數(shù)差值法和P-P曲線兩種方法進(jìn)行檢驗(yàn)(α=0.05),結(jié)果見圖4。結(jié)果表明,隨著Δθ的增大,非劣效檢驗(yàn)的把握度逐漸減小,在實(shí)際差別與非劣效界值相同時(shí),檢驗(yàn)效能接近檢驗(yàn)水準(zhǔn)0.05,說明能夠較好地控制檢驗(yàn)的Ⅰ類誤差。同時(shí)也看出,在偏態(tài)分布情況下,P-P曲線法的結(jié)果與正態(tài)分布時(shí)的檢驗(yàn)效能比較十分相近,而傳統(tǒng)的均數(shù)差值法的檢驗(yàn)效能則降低很多,P-P曲線檢驗(yàn)方法的檢驗(yàn)效能明顯高于傳統(tǒng)檢驗(yàn)方法。

圖4 在對(duì)數(shù)正態(tài)分布下采用兩種不同檢驗(yàn)方法計(jì)算出的檢驗(yàn)效能(傳統(tǒng)方法的檢驗(yàn)界值按照P-P曲線檢驗(yàn)給出的界值換算得到)
1.本文針對(duì)兩組計(jì)量資料的非劣效性評(píng)價(jià)問題,給出了一種新的統(tǒng)計(jì)檢驗(yàn)方法。P-P曲線的思想源于診斷試驗(yàn)評(píng)價(jià)的ROC(receiver operating characteristic)分析,這種方法的最大特點(diǎn)是對(duì)數(shù)據(jù)的分布沒有任何限制,而且對(duì)于不同檢測(cè)的數(shù)據(jù)使用相同的統(tǒng)計(jì)準(zhǔn)則去確定非劣效性界值δP-P,并且可以將試驗(yàn)組和標(biāo)準(zhǔn)組的分析結(jié)果用圖形直觀的顯示。
2.實(shí)際中,非劣效性界值的選擇需要根據(jù)統(tǒng)計(jì)學(xué)和臨床判斷綜合考慮,本文推薦使用δP-P=0.05,如果放寬檢驗(yàn)標(biāo)準(zhǔn),可以選擇δP-P=0.07,給出的這些標(biāo)準(zhǔn)不僅適合正態(tài)分布,同樣適合偏態(tài)分布數(shù)據(jù)。在雙正態(tài)分布時(shí),由式(4)可以導(dǎo)出;δP-P=Φ(δ0/由此可見,δP-P=0.05時(shí),σS和σT的值愈大,δ0也愈大,即這種方法能夠自動(dòng)地調(diào)整δ0與數(shù)據(jù)變異之間的關(guān)系,使非劣效性評(píng)價(jià)更為簡(jiǎn)單和具有實(shí)效。這種方法的不足:Δθ的實(shí)際意義不如Δμ直觀,因此建議在Ⅱ期探索性臨床試驗(yàn)中使用。
3.模擬試驗(yàn)的結(jié)果表明,無論總體是否服從正態(tài)分布,只要方差相同,檢驗(yàn)效能基本不改變,而傳統(tǒng)方法只有在正態(tài)和方差相同條件下才能夠準(zhǔn)確地檢驗(yàn)和保證最大的檢驗(yàn)效能。事實(shí)上,在方差不相同時(shí),P-P曲線方法同樣是有效的,但在這種情況下需要考慮其專業(yè)意義。
4.關(guān)于協(xié)變量調(diào)整的問題。對(duì)計(jì)量數(shù)據(jù)的非劣效性試驗(yàn),如果有協(xié)變量影響療效,可以采用協(xié)方差分析的方法,然而如果數(shù)據(jù)呈明顯的偏態(tài)分布或是兩組方差不相等,則傳統(tǒng)的協(xié)方差分析的檢驗(yàn)結(jié)果可能出現(xiàn)問題。本文給出的P-P曲線方法同樣可以對(duì)協(xié)變量進(jìn)行調(diào)整分析[3,6],并且沒有線性模型對(duì)這些條件的限制,同時(shí)可以很容易地推廣到重復(fù)測(cè)量等研究設(shè)計(jì)的非劣效性分析,具有一定的研究?jī)r(jià)值和應(yīng)用前景。
1.CCTS工作組,夏結(jié)來.非劣效臨床試驗(yàn)的統(tǒng)計(jì)學(xué)考慮.中國(guó)衛(wèi)生統(tǒng)計(jì),2012,9(2):270-273.
2.侯艷,武振宇,李康.臨床新藥試驗(yàn)中非劣效性檢驗(yàn)界值的確定方法.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(6):648-651.
3.Hou Y,Ding V,Li K,Zhou XH.Two new covariate adjustmentmethods for non-inferiority assessment of binary clinical trials data.Journal of Biopharmaceutical Statistics,2010,21(1):77-93.
4.DeLong ER,DeLong DM,Clarke-Pearson DL.Comparing the areas under two or more correlated receiver operating characteristic curves:A nonparametric approach.Biometrics,1988,44:837-845.
5.劉玉秀,姚晨,陳峰,等.非劣性/等效性試驗(yàn)的樣本含量估計(jì)及統(tǒng)計(jì)推斷.中國(guó)新藥雜志,2003,12(5):371-376.
6.侯艷,李康.非劣效性臨床試驗(yàn)中兩組率差值的協(xié)變量調(diào)整方法.中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(2):196-198,201.
(責(zé)任編輯:郭海強(qiáng))
P-P Curve Evaluation M ethod for the Non-inferiority of Clinical Trials in the Quantitative Data
Hou Yan,Li Kang(Department of Medical Statistics,Harbin Medical University(150086),Harbin)
ObjectiveIn this study,we presented a new statistical method to assess the non-inferiority for two-arm quantitative outcome.MethodsEfficacy rates from the test drug and positive control group were obtained according to the thresholds formed a probability and probability(P-P)curve,where the horizontal axis is the efficacy rate from the positive control drug and the vertical axis is one from the test drug.We calculated the area under the P-P curve and performed the statistical testw ith this new-devised statistics.In addition,a series of simulation studieswere performed to test the statistical power for this method.ResultsWe presented a test formula for P-P curvemethod,which is easier to choose the non-inferiority margin.Furthermore,thismethod has no lim itation for the data distribution,especially in the case of skewed distribution,it could provide high statistical power for thismethod.ConclusionThismethod could be effective in the explorative study and it deserves practical application and further studies.
Clinical Trials;Non-inferiority Test;Non-inferiority Margin;P-P curve
*:國(guó)家自然科學(xué)基金項(xiàng)目(81102201),哈爾濱醫(yī)科大學(xué)伍連德青年基金(WLD-QN1105)
Δ通信作者:E-mail:likang@ems.hrbmu.edu.cn
中國(guó)衛(wèi)生統(tǒng)計(jì)2014年2期