安徽醫科大學公共衛生學院流行病與衛生統計學系(230032)
邵 明 陳雨婷 許 偉 楊 會 鄒延峰 范引光 潘貴霞 潘發明△
【提 要】 目的 介紹試驗序貫分析(trial sequential analysis,TSA)原理以及在meta分析中的實際應用,并探討不同參數設置對TSA結果的影響。方法 相對危險度減少率(relative risk reduction,RRR)作為TSA分析的重要估計參數,比較不同設置方法下的結果。結果 公式法TSA的結果顯示,Z曲線已經越過TSA邊界,認為meta分析的結果是可靠的,然而假設法僅僅越過了傳統邊界,也沒有達到期望的信息量(required information size,RIS),無法得出穩健的meta分析結果。結論 本文揭示了不同RRR參數導致的不同TSA結果,公式法在TSA分析中的應用值得研究。
meta分析,又稱薈萃分析,作為計算多個相同研究主題合并后效應量的一種統計學方法,其優勢不僅擴大了樣本量,還增強了結果的精確性和穩健性。目前,公認的基于隨機對照實驗(randomized controlled trial,RCT)的meta分析是級別最高的證據,已經被廣泛用于疾病的診斷、治療、預后以及流行病學研究中。然而,隨著新的研究納入,meta分析不斷被更新,有證據顯示反復把P<0.05 認為存在統計學差異,進行差異性檢驗,犯I類錯誤(假陽性)的概率在10%~30%之間[1-3]。隨著各種不斷更新的meta分析日益增多,因重復性檢驗而增加I類錯誤的概率也越來越大,因此對同一個研究主題的統計分析結果的穩定性受到了很多學者的關注[4-5]。
為了最大程度降低因納入新的研究而反復性假設檢驗增加的風險,試驗序貫分析(trial sequential analysis,TSA)的方法在1997年被Pogue等人引入meta分析中,克服了傳統meta分析存在的不足之處,使統計分析結果更具有穩健性。此外,TSA還可以估算出meta分析得到穩定的結論所期望的信息量(required information size,RIS),即為臨床試驗提供了一個達到樣本量的終止標準。不僅如此,TSA還提供一個無效假設標準,可以克服某一研究主題真實效應的確不存統計學差異而meta分析在不斷反復更新無法及時終止的缺陷。國內已有學者對TSA方法進行了介紹,同時也有詳細的案例[6-10],但是都沒有很好地闡述TSA軟件參數的設置,尤其是相對危險度減少率(relative risk reduction,RRR)的設置,國內外很多篇引入TSA的meta分析都沒有明確提出RRR設定[11-14],因此TSA本身的分析結果可能存在一定偏差,導致meta分析結果被錯誤定義為穩定的結論。本文主要目的是介紹TSA基本原理并結合實例介紹如何使用TSA軟件,以及在不同參數設置下對TSA結果的影響。
1.TSA簡介
序貫分析(sequential analysis,SA)最早出現在1947年,由美國統計學家亞伯拉罕·瓦爾德(Abraham Wald)首次提出用于解決軍需品的質量檢驗。在研究某一決策性問題時,對需要的樣本數量事先不進行預設,而是通過逐次取少量樣本進行檢驗,直到獲取到足夠的信息做出決策停止,這樣的方法極大地節省了樣本量,據估計可以減少約30%~50%的樣本[15],此外某些情況下,達到預期結論的可靠度及精確度必須采用序貫分析。尤其一些大型研究,無法一次性獲得足夠的樣本,需采用陸續試驗和分析的方式,由于序貫分析可以提前得到信息,因此對于一些有效的干預措施能夠在試驗未結束前及時推廣,同時對得到無效結論的試驗立即終止。
鑒于序貫分析在大型隨機對照試驗中的優越性,序貫分析在1997年被引入meta分析中,最大程度減少前期meta分析不精確和重復性檢驗帶來的早期假陽性錯誤。此外,在單次臨床試驗前都需要對樣本量進行估算,因此meta分析也需要對納入研究數目合并后的樣本量進行估算,以期獲得足夠的RIS。TSA就提供了這樣一個估算,TSA在meta分析中將各研究按照年份順序依次納入,不僅計算出RIS,還提供了假設檢驗的界值和無效線。
2.meta分析與TSA信息量估計
TSA有利于二分類數據和連續性數據的meta分析。無論哪一類數據,都存在多種指標可用于干預效應比較。
對于分類數據,兩組的干預效應常用相對危險度(relative risk,RR)、比值比(odds ratio,OR)、特異危險度(rate difference,RD)[16]來表示,公式如下:
公式中NA和NB分別表示在A和B兩組中進行若干次獨立試驗次數,某一事件在A和B中發生的次數分別為EA和EB,而對于連續數據在進行meta分析時一般采用加權均數差(weighted mean difference,WMD)和標準化均數差(standard mean difference,SMD)[4],公式如下:
公式中Wi表示權重系數,mA,mB,SA,SB分別表示某一指標在A和B兩組的均數和標準差;WMD用于度量衡單位相同的連續性變量,SMD則用于研究度量衡單位不同的和均數相差較大的連續性變量。
一般認為,一個確鑿可靠的meta分析所需要的樣本量大小至少要和一個大型的、設計合理的和有把握的干預試驗一致,在此條件下計算meta分析所需要的信息量,計算公式如下:
RIS=2(Z1-α/2+Z1-β)2·2·σ2/δ2
公式中α為I類錯誤的最大風險,β為II類錯誤的最大風險;Z1-α/2和Z1-β分別表示1-α/2和1-β的標準正態分布分位數;對于二分類變量δ=PA-PB(PA和PB分別表示某一結果在A和B組占比)[17];對于連續性變量δ表示A和B組方式差異的預先估計[18];б2表示相關聯的方差。
在進行TSA時,對于二分類變量一般采用PA=(PB-RRR)來對干預組的期望事件比例進行計算即可,因此PB和RRR的設定要盡可能接近真實值。此外,meta分析的統計學意義使用的是Wald-type檢驗統計量[19-20],通常被稱為Z-value,每當更新一次meta分析,Z值也會被重新計算,因此隨著meta分析的不斷更新,會產生一系列Z值,從而產生一個曲線,即Z-曲線[21]。對該Z值的校對被稱為監測界值,在meta分析中具有的一系列臨界值,被稱為試驗序貫監測界值(TSA邊界),因此meta分析和試驗序貫監測界值結合即為試驗序貫分析[22-23]。
3.TSA結果的解釋
如圖1,Z曲線隨著納入樣本量增加將出現的四種情況。Z1曲線超過了傳統邊界(P<0.05,Z=1.96),但是沒有越過TSA邊界,提示有可能犯假陽性錯誤;Z2曲線與TSA邊界相交,提示meta分析結果具有穩健性,即使沒有達到RIS;Z3曲線與傳統界值和TSA界值均未相交,尚不能得出陽性或者陰性結論;Z4曲線與無效線相交,提示沒有意義。

圖1 試驗序貫分析結果舉例解釋
1.TSA軟件安裝與啟動
TSA軟件是一款基于JAVA(https://www.java.com)語言環境運行的程序,可以在任何支持JAVA語言的操作系統上運行。TSA軟件是由丹麥哥本哈根的哥本哈根臨床試驗中心(Copenhagen Trial Unit)開發,并提供一份TSA工作者手冊(User manual for TSA)[24]。TSA軟件免費下載地址為www.ctu.dk/tsa。下載完成后會得到一個壓縮包,讀者自行進行解壓到指定盤符的文件夾下,順利安裝JAVA后打開。
2.TSA軟件參數的設置
打開TSA軟件后,可以導入Revman數據或者人工錄入數據,翁鴻等[10]對TSA軟件操作界面介紹的非常詳細,這里不再做重復贅述,本文主要對“Alpha-spending Boundaries”內部參數設置進行介紹。這里是TSA界值設置界面,第一步“Name”設置為“RIS”,在假設檢驗邊界類型(boundary type)勾選雙側檢驗(Two-sided);第二步“Type 1 Error”設定5%,在信息軸(Information Axis)勾選“Sample Size”,勾選“Apply Inner Wedge”激活“Power”設定為80%;第三步“InformationSize”勾選“Estimate”。關于RRR值的設定,目前的文獻報道總結有三種,第一種是作者預先假設10%、20%、30%等;第二種是根據臨床經驗進行估算;第三種則是作者根據納入研究的meta分析結果計算。異質性校正(Heterogeneity Correction)這里勾選“Model Variance Based”;最后點擊“Add”,再點擊Calculations模塊中的“Perform calculations”,開始運算。
3.基于二分類變量的TSA案例演示
本文以《Association between IL-17A and IL-17F gene polymorphism and susceptibility in inflammatory arthritis:A meta-analysis》一文為例[25],探討不同假設參數設置下TSA結果的影響。我們以“基因多態性”、“試驗序貫分析”“TSA”為檢索詞檢索數據庫,截至目前為止發表的有關基因多態性與疾病相關性研究的meta分析涉及TSA的文獻共計16篇,其中僅2篇中文。6篇文章假設RRR為20%,1篇文章假設RRR為10%,8篇文章沒有在文章中明確提出參數的設置,只有1篇文章較為精確地對RRR參數設置進行了詳細描述[26]。有關RRR的估算我們介紹兩種,對于隊列研究RRR=1-RR,對于病例對照研究可以近似認為RRR=1-OR,然而無論是RR還是OR都取決于meta分析納入文獻的質量,因此也存在一定程度上的誤差,這里我們認為可以選取高質量的文章進行計算得出RR或者OR[24]。在本文例子中,我們可以發現OR=0.64(圖2),因此RRR應該設置為36%進行TSA分析,此外我們按照現有研究的假定考察了RRR設定為10%和20%的TSA分析結果。

圖2 白細胞介素17基因多態性與自身免疫性疾病關聯性的森林圖
4.TSA分析結果
如圖3、圖4所示,Z曲線沒有去TSA邊界相交也沒有越過RIS,得出的結論將會是當前的meta分析結果將很可能存在假陽性的錯誤,仍然需要后續的研究進一步驗證。圖5顯示Z曲線雖然沒有越過RIS但是卻與TSA邊界相交證明了此meta分析結果具有一定的穩健性。這兩種不同結果出現的原因就在于RRR參數的設置不同,前者可以認為是人為對RRR進行假設,后者是通過我們給出的公式(RRR=1-OR)獲得,前文提到二分類變量的RIS的計算RRR會直接影響PA,因此不同的RRR值會影響TSA結果。然而無論是假設法、經驗法還是公式法,都應該結合具體的事件來使用,因為我們目的是盡可能的得到最接近真實的RRR。本案例是一個單核苷酸多態性的meta分析,然而在臨床上并沒有對某個位點在對照組中突變的估計,只能通過假設和公式法進行,雖然假設法相比于公式法顯得直接,但是公式法又取決于納入文獻的質量,在某種情況下假設法不失為一個有效的方法。當然在三種方法都可以使用的前提下,我們應該優先使用經驗法,因為Pogue和Yusuf的文章就是經驗法的一個很好案例[20,27]。

圖3 RRR假設10%的TSA分析結果

圖4 RRR假設20%的TSA分析結果

圖5 RRR估算為36%的TSA分析結果
目前,已發表的meta分析中涉及TSA方法的國外研究(主要是英文)不足100篇文獻,而國內以“試驗序貫分析”和“meta分析”或者“薈萃分析”在中國期刊全文數據庫(CNKI)進行檢索,僅發現45篇,其中2019年與2020年共計發表含有TSA的meta分析文獻數目為29篇,國內最早記錄是2011年在《中華高血壓雜志》上發表的《抗高血壓藥物與罹患癌癥的風險:324168例參與隨機臨床試驗病人的薈萃分析和試驗序貫分析》[28]。盡管近兩年發表數目增加,在有記錄以來的發表總數中占比64.4%,但是很少有研究者對TSA參數的設置進行詳細描述,很多都是假設性地進行TSA分析,當然也有研究者對參數設置進行了詳細描述,RRR值設置以meta分析結果(RR或者OR值)進行計算[29]。
前文所述,TSA能夠克服傳統meta分析的不足之處,能夠有效節省不必要的繼續試驗,不僅如此其在網狀meta和系統評價中也有非常不錯的應用前景。然而隨著涉及TSA的meta分析不斷增多,有關TSA參數設置的規范也應當引起研究者們的重視,不同參數下得到的TSA結果大相徑庭,三種方法的使用應該結合實際情況具體分析。此外,TSA在meta分析中雖能夠有效的支持結論,但是TSA在以嚴格的控制假陽性錯誤(I類錯誤)為主的同時也會增加假陰性風險(II類錯誤)的可能性,因此在使用TSA方法時應該慎重。