胡晶 劉衛紅 張會娜

摘要 中醫藥治療效果需要科學的評價方法彰顯。當前單指標評價法不足以全面體現中醫藥治療優勢,“病證結合”的多主要終點評價法為全面客觀顯示中醫藥療效提供可能。盡管近年來多主要終點評價在統計學方法領域上有較大發展,但在其方法選擇、樣本量計算、統計軟件使用等方面仍有很多挑戰。因此本文對幾種多主要終點評價方法進行介紹,以期指導中醫藥臨床研究者正確選擇和使用多主要終點評價法,為全面評價中醫藥特色與優勢提供方法學支撐。
關鍵詞 病證結合;多主要終點;隨機對照試驗;中醫藥
Abstract The development of a scientific evaluation tool is a prerequisite to reflect the efficacy of traditional Chinese medicine (TCM). At present, separate analysis of each outcome is the most commonly used method in randomized controlled trials (RCTs) of TCM, while this method has been reported to have some limitations. Evaluation of multiple primary endpoints which include diseases and symptoms outcomes can reflect the effectiveness of TCM comprehensively and objectively. In recent years, despite the great development of multiple primary endpoints in the field of statistical methods, there are still some challenges in choosing methods, calculating sample size and employing statistical software. In this article, we introduced several multiple primary endpoints evaluation methods, in the expectation of appropriate use of those methods by TCM researchers as well as methodological support for comprehensive assessment of the characteristics and advantages of TCM.
Key Words Combination of diseases and syndromes; Multiple primary endpoints; Randomized controlled trials; Traditional Chinese medicine
中圖分類號:R241文獻標識碼:Adoi:10.3969/j.issn.1673-7202.2017.06.002
隨機對照試驗(Randomized Controlled Trials,RCTs)是目前被國際上公認為評價臨床干預措施有效性的金標準。自1983年第1篇中醫藥RCT報告以來[1],RCTs方法已廣泛運用于評價中醫藥臨床療效,但隨著RCTs在中醫藥領域的應用,其局限性也逐漸暴露出來,而缺乏能達成中西醫共識的療效評價方法更是成為制約中醫藥國際化進程的重要瓶頸。近年來圍繞這一領域的研究已成為各方學者關注的熱點問題[2-4]。
1 單指標評價法難以從整體反映中醫藥的治療優勢
基于統計學的假設檢驗理論,ICH E9[5]建議臨床試驗的主要終點指標最好只設一個,因此,現階段進行的中醫藥RCTs等臨床試驗設計中,療效評價通常是將西醫客觀指標(例如病理、生化指標等)作為主要療效指標,在次要指標中添加一些中醫特色指標(例如中醫證候、患者報告結局等),分析時對各指標單獨評價并做出結論。
但由于中醫和西醫在臨床治療理論、藥物研發模式等方面存在差異,中醫更注重患者癥狀的改善,而西醫更強調病理、生化等實驗室指標的改變。如果采用現行的療效評價方法,很可能會出現在主要療效指標上中藥效果接近甚至劣于西藥、而在次要指標上優于西藥的結果。
另外,中醫藥理論強調整體觀,傳統中醫藥就治病目的而言是多維度干預,既控制病情活動,又改善患者的生命質量;既改善患者主觀感受的不適癥狀,又注重客觀指標的恢復。由于臨床試驗中次要指標僅用于探索或參考目的,對療效評價作用有限[5]。因此,中醫藥RCTs若僅用西醫療效標準作為主要指標,無法全面客觀地反映中醫藥的特色治療優勢,應把中醫特色指標與西醫常規指標放到同等位置對待,即將對“病”的療效評價結果和對“證”的評價結果相結合進行分析。
2 “病證結合”的多主要終點為整體、客觀評價中醫藥療效提供可能
目前各方學者廣泛認可的觀點是,完善的中醫藥臨床療效評價指標體系應包括[6-8]:1)對于疾病的常規西醫療效評價指標;2)反映中醫證候的指標;3)生命質量評價指標。
鑒于此,本文提出體現中醫特色的“病證結合”的多終點療效評價法,即將以上3種不同屬性的測量指標共同作為主要終點進行分析,建立既能讓現代醫學界認可、又能體現中醫藥特色治療優勢的評價方法。
盡管近年來多主要終點評價在統計技術上有較大發展,但至今在中醫藥領域仍然應用較少,可能原因:1)目前國內對幾種多主要終點評價方法的理論和實際應用介紹較少,大多數學者還不熟悉該評價方法;2)多主要終點評價方法大多對統計理論和軟件水平要求較高,研究者不易實現;3)多主要終點評價雖然方法較多,但目前尚沒有公認的方法,幾種方法各有利弊(表1),且各有其適用范圍和應用條件[9]。使得研究者在實際應用時無從選擇。因此本文對幾種多主要終點評價方法進行介紹,以期指導中醫藥臨床研究者正確選擇和使用多主要終點評價法,為全面評價中醫藥特色治療優勢提供方法學支持。
3 多主要終點評價法的介紹
3.1 檢驗水準校正法
檢驗水準校正法(Alpha-adjustment Procedures)是對多主要終點中每個終點的檢驗水準進行調整的一類方法[10],包括Bonferroni校正、Simes檢驗、Hochberg法等,其中Bonferroni法是最為經典也是最簡單的方法[11],其公式為a*=a/K(K為終點個數)。Hochberg法的原理是先將各個終點檢驗的P(i)值進行排序,P(i)(K)≥P(K-1)≥…≥P(1)(K為終點個數),對應的檢驗水準a(i)分別為a,a/2,…a/k,隨后按P(i)值由大到小的順序逐步檢驗,直到出現第一個P(i)檢驗水準校正法優勢:1)可以對單個終點的療效進行分析,控制試驗總Ⅰ類錯誤率(Family-wise TypeⅠError Rate,FWER)膨脹。2)當干預措施對一個結局指標效應較強時具有較高統計檢驗效能[12]。
檢驗水準校正法不足:1)無法對多個終點療效進行整體評價,另外當多終點間結果不一甚至相反時,無法得出確切結論[13]。2)當多終點間相關程度較高時結論過于保守。
3.2 多變量檢驗
多變量檢驗(Multivariate Test)是對多個終點的聯合分布進行一次假設檢驗,對組間差別進行推斷的方法。包括Hotelling′s T2檢驗、針對多組比較的多變量方差分析(MANOVA)等[14]。多變量檢驗的計算比較繁瑣,但用SPSS或SAS軟件計算則非常簡單。在大多數情況下,多變量檢驗結論與對K個多終點進行K次單變量假設檢驗的結論是一致的,即多變量假設檢驗拒絕H0,K次單變量假設檢驗至少有一次拒絕H0。但單變量假設檢驗不能代替多變量假設檢驗,主要理由:1)K次單變量假設檢驗增加假陽性錯誤的概率。2)單變量假設檢驗只說明某一變量在數軸分布上的組間差別,不能反映多個變量在平面或空間上的差別。有可能會出現K個多終點在進行單變量假設檢驗時均無統計學意義,但多變量假設檢驗卻檢驗出有差異。
多變量檢驗優勢:1)避免多次單變量檢驗增加假陽性錯誤的概率;2)在校正過程中充分考慮了多終點間的相關結構。
多變量檢驗不足:1)缺乏對多個終點療效整體評價的結果;2)對多終點聯合概率分布的數學假設前提要求較高[15]。
3.3 多層統計分析模型
多層統計分析模型(Hierarchical Model)是同時對多個終點進行分析,包括多元混合效應模型、潛變量模型、貝葉斯模型等[16]。多層統計分析模型利用添加一個虛擬1水平進行分析,將幾個終點作為1水平上的觀察單位,將受試者作為2水平單位。HLM和MLwin是專門用于多層模型的分析軟件。SAS軟件的PROC MIXED程序也廣泛地應用于連續型結局變量的多層模型分析,PROC GLIMMIX和PROC NLMIXED程序可用于分類結局變量和計數數據的多層模型分析。
多水平模型優勢:1)能將不同類型的數據聯合進行分析,包括連續變量和分類變量;2)考慮了多終點間相關性,同時可以有效處理缺失數據[17]。
多水平模型不足:1)無法證實模型所采用假設的準確性,尤其是關于多終點間相互關系的假設;2)潛變量或超參數等含義不易被臨床醫生所理解。
3.4 綜合評價法
綜合評價(Comprehensive Evaluation Method)是對一個復雜系統多個指標進行總評價的特殊方法。目前已經逐漸應用于中醫藥臨床研究中,例如層次分析法[18]和TOPSIS法[19]等。綜合評價法的實施過程類似,包括篩選評價指標、根據指標重要性賦予權重、采用相應方法建立綜合評價模型并進行指標合并等。
綜合評價法的優勢:1)可以將西醫常規指標、中醫證候、患者報告結局等多個指標組合成一個綜合指標進行分析,對綜合指標進行檢驗,適應中醫療效多維度的特點;2)統計檢驗效能較高。
綜合評價法的不足:1)指標權重的確定或過于依賴主觀判斷,或把指標重要性同等化,造成權重系數不合理,導致最終結果的不確定性[20];2)目前綜合評價法雖多,但沒有完美的方法,多方法間結論存在較大差異[21];3)對綜合評價指標的解釋存在一定困難。
3.5 全局檢驗法
全局檢驗法(Global Statistical Test,GST)是將多個終點綜合為一個檢驗統計量進行分析的方法[22]。在GST中,O′Brien法是各方學者較為認可、應用較為廣泛的一種方法[23],可采用一般最小二乘法、廣義最小二乘法、非參數法進行分析。其中非參數法可以針對非正態分布的多終點,適用范圍較廣。全局治療效應(Global Treatment Effect,GTE)是GST中定量反映試驗組間療效差異的指標[22]。GTE的數值固定,不隨終點測量方法的改變而變化,取值范圍為“-1~1”,“0”代表試驗組和對照組間療效無差異,“1”代表試驗組完全優于對照組,“-1”代表對照組完全優于試驗組。GTE可作為結局指標的效應值,采用Splus軟件進行樣本含量的估算。
全局檢驗法的優勢:1)可以檢驗多個終點的全局治療效應,將GST應用于中醫藥RCTs最大的優勢是可以凸顯中醫藥的整體治療優勢;2)在分析時充分考慮多終點間的相關結構;3)當多終點間結果不一致甚至相反時更利于結果的解釋。
全局檢驗法的不足:只能發現試驗組間整體療效是否有差異,無法對單個終點的療效得出結論[24]。
針對多主要終點指標的樣本量計算問題,有學者建議在樣本量計算時可對每個主要終點分別計算,然后取最大值作為臨床試驗所需的樣本量[25]。Sozu等探討了用SAS軟件對同時包含連續變量和二分類變量的多主要終點進行樣本含量估計[26]。楊衛嬌對多終點指標的兩階段適應性設計的樣本量再估計進行了探討[27]。
4 結語
中醫藥治療效果需要科學的評價方法彰顯,在中醫藥臨床研究中,如何科學、客觀的選擇結局指標對于療效評價至關重要。作為臨床試驗的統計學指導規范,雖然ICH E9[5]建議主要終點指標最好只設一個,但這種考量主要是基于統計學的假設檢驗理論,由于中醫“整體觀”的理論特點,在中醫藥臨床試驗中,一個主要終點難以全面體現中醫藥治療優勢,此時通常需要通過多主要終點評價來解決,其優勢是可以將對于疾病的常規西醫療效評價指標以及反映中醫證候的指標等共同作為主要終點進行分析,能全面、客觀的體現中醫藥特色治療優勢。盡管多主要終點比單個終點在中醫藥療效評價中體現出更多的優勢,其隨之而來的一系列統計學問題卻不容忽視,統計的2類錯誤都需要進行控制。本文對幾種多主要終點評價方法進行介紹,以期指導中醫藥臨床研究者了解和使用多主要終點評價法,為全面評價中醫藥特色治療優勢提供方法學支持。
參考文獻
[1]單平,毛如寶,徐濟民,等.黃楊寧治療冠心病—用雙盲法觀察110例臨床療效分析[J].中醫雜志,1983,24(5):37-40.
[2]Li Zhang,Junhua Zhang,Jing Chen,et al.Clinical research of traditional Chinese medicine needs to develop its own system of core outcome sets[J].Evid Based Complement Alternat Med,2013,2013(2013):202703.
[3]潘萬旗,鄧素玲,楊英豪,等.關于中醫藥標準化的思考[J].中醫學報,2015,30(6):795-797.
[4]Pritzker S,Hui KK.Building an evidence-base for TCM and integrative east-west medicine:a review of recent developments in innovative research design[J].J Tradit Complement Med,2012,2(3):158-163.
[5]ICH Topic E9 Statistical Principles for Clinical Trials (CPMP/ICH/363/96),www.emea.europa.eu,1998.Accessed 8th April 2013.
[6]王賢良,毛靜遠,侯雅竹.病證結合、系統分段、多維指標中醫臨床效應評價方法建立初探[J].中國中西醫結合雜志,2013,33(2):270-273.
[7]高凡珠,謝雁鳴,王永炎.中醫復雜干預與療效綜合評價[J].中國中醫基礎醫學雜志,2010,16(6):527-529.
[8]李建生,余學慶.病證結合模式下療效評價指標體系建立的思考[J].中華中醫藥雜志,2011,26(8):1666-1670.
[9]Huang P,Goetz CG,Woolson RF,et al.Using global statistical tests in long-term Parkinson′s disease clinical trials[J].Mov Disord,2009,24(12):1732-1739.
[10]Sankoh AJ,SrdrB,Huque MF.Efficacy endpoint selection and multiplicity adjustment methods in clinical trials with inherent multiple endpoint issues[J].Stat Med,2003,22(20):3133-3150.
[11]Leon AC,Heo M.A comparison of multiplicity adjustment strategies for correlated binary endpoints[J].J Biopharm Stat,2005,15(5):839-855.
[12]Dmitrienko A,D′Agostino RB Sr,Huque MF.Key multiplicity issues in clinical drug development[J].Stat Med,2013,32(7):1079-1111.
[13]Alosh M,Bretz F,Huque M.Advanced multiplicity adjustment methods in clinical trials[J].Stat Med,2014,33(4):693-713.
[14]Olson CL.Comparative robustness of six tests in multivariate analysis of variance[J].J Am Stat Assoc,1974,69(348):894-908.
[15]Johnson JL,Muller KE,Slaughter JC,et al.POWERLIB:SAS/IML Software for Computing Power in Multivariate Linear Models[J].J Stat Softw,2009,30(5):1-27.
[16]Leiby BE,Ten Have TR,Lynch KG,et al.Bayesian multivariate growth curve latent class models for mixed outcomes[J].Stat Med,2014,33(20):3434-3452.
[17]Teixeira-Pinto A,Mauri L.Statistical analysis of noncommensurate multiple outcomes[J].Circ Cardiovasc Qual Outcomes,2011,4(6):650-656.
[18]李景.糖尿病腎病中醫藥療效綜合評價體系研究[D].北京:北京中醫藥大學,2012.
[19]陳磊,梁偉雄,呂志平.生脈膠囊治療慢性充血性心力衰竭臨床療效的TOPSIS 法綜合評價[J].南方醫科大學學報,2010,30(4):820-822.
[20]Freemantle N,Calvert M,Wood J,et al.Composite endpoints in randomized trials:greater precision but with greater uncertainty[J].JAMA,2003,289(19):2554-2559.
[21]Rauch G,Jahn-Eimermacher A,Brannath W,et al.Opportunities and challenges of combined effect measures based on prioritized outcomes[J].Stat Med,2014,33(7):1104-1120.
[22]Huang P,Woolson RF,O′Brien PC.A rank-based sample size method for multiple outcomes in clinical trials[J].Stat Med,2008,27(16):3084-3104.
[23]O′Brien PC.Procedures for comparing samples with multiple endpoints[J].Biometrics,1984,40(4):1079-1089.
[24]Baraniuk S,Seay R,Sinha AK,et al.Comparison of the global statistical test and composite outcome for secondary analyses of multiple coronary heart disease outcomes[J].Prog Cardiovasc Dis,2012,54(4):357-361.
[25]Cook RJ,Farewell VT.Guidelines for monitoring effieaey and toxieity responses in clinieal trials[J].Biometrics,1994,50(4):1146-1152.
[26]Sozu T,Sugimoto T,Hamasaki T.Sample size determination in clinical trials with multiple co-primary endpoints including mixed continuous and binary variables[J].Biom J,2012,54(5):716-729.
[27]楊衛嬌.多終點指標下兩階段適應性設計的樣本量再估計[D].上海:華東師范大學,2011.
(2017-05-10收稿 責任編輯:徐穎)