中國醫學科學院,阜外醫院,國家心血管病中心,醫學統計部(102300) 趙延延 李思冬 王 楊 李 衛
【提 要】 目的 通過比較一般線性模型、廣義估計方程及混合效應模型在醫療器械試驗定量指標縱向數據中的估計效果,探討合適分析方法并提供參考。方法 以非劣效支架試驗為例并結合應用蒙特卡洛隨機模擬的方法,模擬不同樣本量、不同數據相關程度及不同相關數據比例下的縱向數據,比較不同模型應用的準確性。結果 在不同數據相關程度及相關數據比例下,不同模型所得能獲得陽性結果的概率變化規律有所不同。一般線性模型所得假陽性錯誤率隨著相關數據比例的增加而增大,且大于0.05;而廣義估計方程和混合效應模型所得假陽性錯誤率穩定在0.05附近。結論 對于相同定量指標縱向數據,建議結合實際數據特點,采用廣義估計方程或混合效應模型進行分析,確保準確地估計組間真實療效。
隨著醫療器械臨床試驗的發展,縱向數據被越來越多地應用于醫療器械臨床試驗中,尤其是支架或球囊試驗,且往往以連續性指標為主要評價標準。該縱向數據主要以分組數據(cluster data)或系統結構數據為主,可以看作為同一個受試者在同一時間點的多次測量數據。因同一受試者或組內數據具有相同屬性,其群組或受試者內數據的相關性是不能被忽略的[1]。例如,在支架試驗中,每個受試者有多于2個病變,基于病變水平比較試驗組與對照組術后9個月節段內晚期管腔丟失(late lumen loss,LLL)的差異。
目前針對醫療器械臨床試驗中定量指標縱向數據的分析,統計分析方法的應用呈現多樣化,且傳統分析方法仍存在應用的情況[2-3]。傳統的統計分析方法包括成組t檢驗、方差分析、重復測量方差分析、一般線性模型等均要求數據滿足獨立性。因未考慮群組或受試者內數據的相關性,會低估參數的標準誤,從而高估檢驗統計量[4],增加犯假陽性錯誤的概率,可能會導致將無效的產品誤認為有效。而Liang & Zeger提出的廣義估計方程[5-6]、混合效應模型[7]雖被廣泛應用于相關數據分析中,但更多應用于新藥臨床試驗、流行病數據分析[8-9]和重復測量資料分析[10],在器械臨床試驗縱向數據中的研究報道較少。因此,本研究通過隨機模擬不同情況下的縱向數據,全面地比較一般線性模型、廣義估計方程和混合效應模型,評價其應用的準確性并提供相應參考。
1.一般線性模型
對于一般線性模型,表示為y=β0+β1x1+…+βixi+ε。β0為截距項,βi(i=1,2,3,…,k)是第i個自變量的回歸系數,ε為隨機誤差項。適用于因變量為定量指標分析,建立因變量均值與解釋變量之間的線性關系。
2.廣義估計方程
3.混合效應模型
混合效應模型(mixed effect model)通過引入隨機效應來處理數據間的相關性(即聚集性)。該模型主要由固定效應和隨機效應兩部分組成。以一個簡單的兩水平支架臨床試驗資料為例,展示經典的隨機截距模型(即方差成份模型)。假設第i個受試者(i=1,2,3,…,nj)第j(j=1,2,3,…,n)個病變的結局指標為yij,協變量記為xij=(x1ij,x2ij,x3ij,…,xpij),則yij=β0j+β1x1ij+β2x2ij+…+εij,受試者為水平2,病變為水平1。其中,β1為協變量的固定效應參數,εij為隨機誤差項;β0j為隨機變量且假設β0j=β0+μ0j,β0為固定效應參數,為平均截距,反映xij與yij的平均關系。μ0j為水平2上的隨機變量,表示第j個受試者結局指標的平均估計值與總均數的離差值,反映第j個受試者上結局指標的隨機效應。
1.資料
模擬研究將參考冠脈支架臨床試驗設計進行。該試驗為前瞻性、多中心、隨機對照、非劣效臨床試驗,術后12個月隨訪時節段內LLL水平假設為(0.24±0.50)mm(試驗組與對照組相等),非劣效界值設為0.195mm。顯著性水平取雙側5%,把握度取85%,按1:1的比例進行分組,計算得到所需的樣本量為240例(每組120例)。
2.方法
采用蒙特卡洛隨機模擬的方法對試驗組和對照組12個月節段內LLL進行數據模擬。模擬數據樣本量大小采用以定量指標為主要終點指標的非劣效試驗樣本量計算公式[11]獲得。非劣效試驗中,一般假設試驗組與對照組預期療效水平等同,故影響樣本量大小的指標有效應值大小(即非劣效界值大小)、變異大小(即兩組合并方差大小)和預設把握度大小。本研究通過設定不同非劣效界值、不同變異水平、不同把握度水平模擬4種不同樣本量方案下的病變水平數據,比較分析一般線性模型、廣義估計方程和混合效應模型。4種模擬數據方案見表1。

表1 不同數據模擬方案參數設定表
(1)數據模擬分布
按照參數設定表(表1),分別模擬對應樣本量下的試驗組和對照組受試者12個月節段內LLL數據,且LLL總體均數服從于N(μ,s2)分布。
(2)相關性及相關程度
考慮到同一受試者2個病變之間存在相關性,參考既往資料,分別設定同一受試者不同病變之間相關系數為0.1,0.3,0.5,0.9,分別代表不相關(或較低相關)、低相關、中度相關及高度相關。按照試驗組既定的均值和標準差通過二元正態分布進行隨機模擬。
(3)存在2個病變受試者比例
參考既往支架臨床試驗,符合入選/排除標準的受試者一般為1~2個病變,故設定存在2個病變受試者不同比例,分別取0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1,共11種情況。
根據數據相關系數的不同設定(4種情況)及存在2個病變受試者比例的不同取值,理論上每個試驗設計及對應樣本量方案下應產生44種情況。每種情況下模擬次數為1000次。
(4)研究中心設置
基于可行性考慮,以上每種情況下受試者將按照等比例分配到各中心(即平衡設計)進行模擬,中心數為樣本量×0.05(即存在2個病變受試者最小比例),如每組樣本量為120例,則生成中心數為6家。
(5)評價指標
①分別計算不同模擬方案下不同模型分析對應的組間(試驗組-對照組)LLL均值差值的95%置信區間,并獲得非劣效結論成立(即陽性結果)時的概率并比較。其中,能獲得陽性結果的概率=獲得陽性結果總次數/1000×100%。能獲得陽性結果的概率越大,則提示該模型越容易得到陽性結果。
②分別計算不同模擬方案下不同模型分析時得到的假陽性錯誤率并比較。其中,假陽性錯誤率=1-95%置信區間的實際覆蓋率,95%置信區間的實際覆蓋率=包含真值0的95%置信區間總次數/1000×100%。
在模擬研究中,數據模擬及不同模型分析均采用SAS 9.4實現。其中,廣義估計方程分別給出作業相關矩陣采用獨立和等相關形式的分析結果。
1.能獲得陽性結果的概率及比較
從以上4種不同數據模擬方案下對應的圖1和表2縱向結果可以看出:
(1)在相同研究設計及樣本量方案、數據相關程度為不相關(或較低相關)時,隨著2個病變受試者比例增大,即實際病變水平樣本量相比較研究設計時病人水平樣本量逐漸增大,一般線性模型、廣義估計方程(獨立)、廣義估計方程(等相關)、混合效應模型所得能獲得陽性結果的概率均呈現逐漸增大的趨勢,混合效應模型最小。

圖1 2個病變受試者比例不同情況下4種方法驗證非劣效假設成立時的把握度(%)-數據模擬一&數據模擬二

圖2 2個病變受試者比例不同情況下4種方法驗證非劣效假設成立時的把握度(%)-數據模擬三&數據模擬四
(2)在相同研究設計及樣本量方案、數據相關程度為低相關、中度相關時,呈現與以上(1)相似的規律。廣義估計方程(獨立)、廣義估計方程(等相關)、混合效應模型所得能獲得陽性結果的概率均小于一般線性模型;在2個病變受試者比例≤10%時,一般線性模型、廣義估計方程(獨立)、廣義估計方程(等相關)所得能獲得陽性結果的概率相差不大,而混合效應模型最小;在2個病變受試者比例>10%時,廣義估計方程(獨立)、廣義估計方程(等相關)、混合效應模型所得能獲得陽性結果較為接近,而一般線性模型最大。

表2 2個病變受試者比例不同情況下4種方法能獲得陽性結果的概率(%)
(3)在相同研究設計及樣本量方案、數據相關程度為高度相關時,隨著2個病變受試者比例增大,一般線性模型、廣義估計方程(等相關)、混合效應模型所得能獲得陽性結果的概率均呈現逐漸增大的趨勢,而廣義估計方程(獨立)卻呈現先減小后增大的趨勢。在2個病變受試者比例為≤10%時,廣義估計方程(獨立)、廣義估計方程(等相關)、混合效應模型所得能獲得陽性結果的概率均小于一般線性模型,且混合效應模型最小。在2個病變受試者比例為>10%時,廣義估計方程(獨立)、廣義估計方程(等相關)、混合效應模型所得能獲得陽性結果的概率均小于一般線性模型,且廣義估計方程(獨立)最小。從模擬結果橫向來看,在相同研究設計及樣本量方案、2個病變受試者比例相同情況下,數據相關程度分別為不相關、低相關、中度相關及高度相關時,一般線性模型、廣義估計方程(獨立)、廣義估計方程(等相關)、混合效應模型所得能獲得陽性結果的概率有所不同,基本呈現逐漸減小的趨勢;可見數據的相關程度對以上模型參數估計存在一定影響。
2.假陽性錯誤率估計結果及比較
從表3縱向結果中可以看出,在相同研究設計及樣本量方案、不同數據相關程度下,隨著2個病變受試者比例增大,一般線性模型分析時得到的假陽性錯誤率基本上呈現逐漸增大的趨勢,且高于顯著性水平0.05。與一般線性模型相比,廣義估計方程(獨立)、廣義估計方程(等相關)、混合效應模型所得假陽性錯誤率相對更小,且穩定在顯著性水平0.05附近;其中,廣義估計方程(獨立)與廣義估計方程(等相關)所得假陽性錯誤率相差不大,混合效應模型所得假陽性錯誤率最低。

表3 2個病變受試者比例不同情況下4種方法能獲得陽性結果的概率(%)
本模擬研究結果顯示,與廣義估計方程和混合效應模型相比,采用一般線性模型分析具有相關性的縱向數據,會增加獲得陽性結果的概率,這與已發表文獻報道結果相一致[4,12]。一般線性模型因忽略了受試者內數據的相關性,會導致低估回歸系數的標準誤差,從而更容易得到陽性結論。隨著相關數據比例的增加,3種模型所得實際能獲得陽性結果的概率均呈現逐漸增大的趨勢,但廣義估計方程和混合效應模型更接近預先設定的把握度水平,提示該2種分析方法因考慮了受試者內數據的相關性,能更準確地估計回歸系數及其標準誤差[6-7,13],使得結果可靠。
對于縱向數據分析,當相關數據比例≤5%時,混合效應模型所得能獲得陽性結果的概率最小且低于預先設定把握度水平,結果相對過于保守,而廣義估計方程(等相關)較小且更接近預先設定的把握度水平,采用廣義估計方程(等相關)分析較為合適;當相關數據比例>30%時,混合效應模型所得能獲得陽性結果的概率較小且更接近預先設定的把握度水平,采用混合效應模型分析較為合適;而當相關數據比例為5%~30%時,數據的相關程度不同,結論會有所不同,建議應結合實際數據的特點及相關程度,選擇合適的分析方法。這可能與廣義估計方程與混合效應參數估計方法不同有關[14],廣義估計方程考慮人群平均效應,而混合效應模型則是通過隨機效應描述個體間的關系。對于廣義估計方程(獨立)方法,當數據相關程度為中度相關及以下時,與廣義估計方程(等相關)分析結果相差并不大;但當數據相關程度較高時,廣義估計方程(獨立)出現了所得能獲得陽性結果的概率低于預先設定的把握度,這可能是該方法實際假設受試者內數據相關系數為0,導致參數估計結果不準確,使得結果不可靠。這與既往研究報道結論一致[15],因此,采用廣義估計方程分析縱向數據時,應注意考慮數據的相關程度,選擇合適的作業相關矩陣。尤其高度相關的縱向數據,采用廣義估計方程(等相關)分析較為合適。
從假陽性錯誤率方面看,采用一般線性模型分析具有相關性的縱向數據會增大假陽性錯誤的概率,而采用廣義估計方程和混合效應模型的應用更準確可靠。同時,與廣義估計方程相比,混合效應模型所得結果相對更保守。
綜上,對于醫療器械臨床試驗中具有相關性的定量指標縱向數據,不宜采用傳統的統計分析方法,建議結合實際數據的特點,考慮相關程度及相關比例等,采用廣義估計方程或混合效應模型進行分析,以確保估計結果準確可靠。本模擬研究仍存在一定的局限性。隨機模擬時未考慮組內相關系數的大小、同一受試者>2條觀測的相關數據、各中心受試者數量不同等問題;分析時無法準確地估計I類錯誤和II類錯誤水平,未采用組內相關系數、估計回歸系數、估計值與真值的差異等來評估模型的應用效果;數據模擬場景無法窮盡;所以研究結果外推性有限。以上不足之處還需在后續研究中進一步探討。

表4 模擬數據組織結構及SAS代碼