周齊,嚴鴻伊,張艷麗,潘岳松
當臨床需要評估新藥、改良術式或新干預措施的療效時,通常需將這些新治療方法與原有的某種具有公認療效的經典治療方法做比較,通常情況下,使用優效性設計試驗檢驗新的治療方法是否優于原有治療方法。但是,隨著醫學水平的進步,利用優效性檢驗獲得更佳療效藥物的難度越來越大,這就促使研究者將注意力開始轉向標準治療手段以外方面的改善[1]。非劣效性檢驗的主要研究目的是驗證新治療方法的療效不比對照組的療效差,或者療效略差但是并沒有超過臨床上有意義的程度,適用于具有客觀療效指標的臨床研究。目前非劣效性設計臨床試驗已經成為評估藥物、器械、生物制劑和其他干預措施的主要工具[2]。
本文簡要介紹非劣效性設計臨床試驗的基本概念、歷史淵源、設計要點及其與等效性和優效性設計的比較,并進行具體案例解讀,以幫助相關領域研究者正確認識、實施和評價非劣效性設計方法。
從1948年世界上第1項設計規范的隨機、雙盲對照臨床試驗——鏈霉素治療結核試驗發布后,對新藥物的探索逐漸成為了臨床研究的重點和熱點。傳統的隨機對照試驗(randomized clinical trials,RCT)多是以安慰劑作為對照組的優效性檢驗,在臨床中被視為藥物開發的金標準。然而,由于很多藥物療效不斷被證實,此類優效性研究的發展逐漸受限于倫理質疑或開發更佳療效新藥的技術難度[3]。隨著臨床研究對新藥物或新技術的不斷探索,研究者開始關注療效外的其他層面效果,例如:藥物的安全性、不良反應、療程以及治療費用等,如果新治療方法在這些方面相較于原方法表現更加優秀且更易被患者接受,即使新方法較經典治療方法在療效上沒有表現出明顯優勢或療效差異在臨床可接受范圍內,這都說明新治療方法仍適合進一步開發。非劣效性設計即是適用于這種情況的新的臨床試驗方法[4]。20世紀70年代末,以Dunnett和Gent等[5]為代表發布的第1批非劣效性或等效性設計的研究開始逐漸走進研究者的視線,此時這類研究主要目的是檢驗仿制藥物與標準藥物的生物等效性。現階段非劣效性設計臨床試驗中,研究者既期望能在一定程度上維持療效,也希望能發現新藥物比標準藥物在其他方面的改善,例如:更少的不良反應、更好的使用便利性以及更易被接受的價格等。這類方法相比于優效性檢驗更加符合倫理要求,在多種潛在獲益方面也更具價值,這使得此類設計方法逐漸成為藥物臨床試驗的主要方法之一。
2.1 適用場景 非劣效性設計臨床試驗主要適用于以下情況:①開發在療效上超越經典藥物的新藥的可能性較低;②新研發的藥物與標準藥物的療效相當,但在安全性、成本、患者依從性方面可能更具優勢;③使用安慰劑對照不符合倫理要求。
2.2 前提假設與研究目的 非劣效性設計臨床試驗中的陽性對照組是陽性對照藥物或標準藥物,其中關鍵的恒定假設是在研究背景相近前提下,當前研究中陽性對照藥物或標準藥物具有相比于歷史安慰劑的預期療效。非劣效性設計臨床試驗的目的是檢驗試驗組的治療效果不比陽性對照組的治療效果差,或療效稍差于陽性對照組但差異仍在臨床可接受的范圍內[方案事先指定的非劣效界值(?)][6]。
2.3 對照選擇 非劣效性設計臨床試驗中陽性對照組應是當前臨床上針對目標疾病普遍使用、有明確藥理作用的藥物,并且這類藥物的治療效果已被可獲得的、設計良好的臨床試驗所證實。需要注意的是,非劣效性設計臨床試驗應重點關注陽性藥物的適應證、主要療效指標和劑量以及適應證人群等方面與此類研究和歷史安慰劑研究是否具有一致性[7]。
2.4 研究終點 非劣效性設計臨床試驗的研究終點應包括以下幾個特性:①相對客觀,避免主觀因素造成的偏倚;②易于測量且不易缺失,以保證數據能盡量被完整、準確地收集記錄;③能在既往陽性對照藥物和安慰劑對照比較的臨床研究中找到該研究終點的相應歷史數據,為確定科學的非劣效界值提供依據。
對主要研究終點的評估可采用相對度量和絕對度量。相對度量包括率比、風險比、優勢比;絕對度量主要是指均值差、率差和風險差等。當兩種度量類型的分析結果一致時,更有利于得出非劣效性的結論[6]。另外,結局指標分為高優和低優兩種,其中高優指標是指結局指標的數值越大,說明治療手段療效越好,如有效率、治愈率等;低優指標是指結局指標的數值越小,說明治療手段療效越好,如死亡率、復發率等[8]。
2.5 樣本量計算 非劣效性設計臨床試驗中樣本量計算通常依據主要療效指標,樣本量的估計與試驗中事件發生率或合并方差相關,通過不同屬性的療效指標計算樣本量的公式不同。具體如下[6,8-9]。
率差的非劣效樣本量計算公式:
其中T為試驗組率的估計值,C為陽性對照組率的估計值,δ=C-T≥0(高優指標),δ=T-C≥0(低優指標),Z為檢驗統計量,α為Ⅰ類錯誤概率,β為Ⅱ類錯誤概率,?為非劣效界值,K為兩組樣本量比例,Nc為對照組樣本量,K×Nc為試驗組樣本量。
率比的非劣效樣本量計算公式:
公式中的δ=ln(C-T)≥0(高優指標),δ=ln(T-C)≥0(低優指標),T為試驗組率的估計值,C為陽性對照組率的估計值,Z為檢驗統計量,α為Ⅰ類錯誤概率,β為Ⅱ類錯誤概率,?為非劣效界值,K為兩組樣本量比例,Nc為對照組樣本量,K×Nc為試驗組樣本量。
均數差的非劣效樣本量計算公式:
其中σ2為合并方差的估算值,δ=C-T≥0(高優指標),δ=T-C≥0(低優指標),T為試驗組均數的估計值,C為陽性對照組均數的估計值,Z為檢驗統計量,α為Ⅰ類錯誤概率,β為Ⅱ類錯誤概率,?為非劣效界值,K為兩組樣本量比例,Nc為對照組樣本量,K×Nc為試驗組樣本量。
2.6 非劣效性界值的確定 非劣效界值(?)是指試驗藥物與陽性對照藥物相比在臨床上可接受的最大療效損失,這個損失的范圍應不超過陽性藥物相比于安慰劑對照的臨床獲益,以保證該研究具有足夠的檢驗靈敏度[6,9]。針對許多規則不明確的非劣效性設計臨床試驗缺少基于陽性對照藥物的歷史數據而導致?值多具有臨床主觀性的現狀,人用藥品技術要求國際協調理事會(The International Council for Harmonisation of Technical Requirements for Pharmaceuticals for Human Use,ICH)在臨床試驗中對照組的選擇和相關問題中指出,?值的確定取決于統計推斷和臨床判斷[10],在設計研究方案時應將設計良好的歷史陽性藥物和安慰劑對照臨床試驗數據列表,整理各資料中率的點估計值、區間估計與樣本量,考察各數據來源及研究背景(時間、地點、適應證等)以及所采用的統計匯總方法,即所謂的療效一致性[11]。
確定?值的常用方法有點估計法、固定界值法、綜合法以及德爾菲法。其中固定界值法和綜合法是根據陽性對照藥物與安慰劑、試驗組與陽性對照藥物、臨床上可接受的最大療效損失比例之間的相互關系來進行的,是目前美國食品和藥品管理局較為推薦的方法。?值必須在試驗設計階段就依據臨床意義、安全評價、研究成本和患者接受難易程度等多方面因素來確定并在試驗方案中詳細闡明制定標準,在揭盲之前允許修改但必須闡述理由,揭盲后則不允許再次修改[12]。
在非劣效性設計臨床試驗中,?值不能高于最小臨床意義差異(minimal clinically important difference,MCID)。MCID可以從不同角度進行解讀。從醫師角度分析,是指對臨床治療有指導意義的最小治療受益;從患者角度分析,是指不同患者在同一時間點的健康狀況差別。常用計算方法有效標法、分布法、專家意見法和文獻分析法[13]。然而,目前關于MCID還缺少統一且適用于不同情況的判斷標準,需要由專業的學術委員會作為橋梁,聯合醫療機構和生物統計專家共同制定。
2.7 凈獲益程度的計算方法 非劣效性設計臨床試驗開展前,需要先確定既往陽性對照與安慰劑相比的療效差異,即陽性對照藥物療效的凈獲益程度(M)??梢杂梢韵聨追N方法獲得M值。①既往非劣效臨床研究:需考慮相似藥物在既往研究中的適應證、目標人群、主要終點指標、環境條件等與當前研究的可比性,在得到比較肯定的結果以及臨床專家評估后,方可沿用既往研究中的?值;②既往單項隨機、安慰劑對照的優效性研究:對照組療效的變異性需要考慮在內,建議選用研究結果的95%或者更寬的CI下限作為對照組在既往研究中的療效大小,以此謹慎評估其在當前研究中的療效;③多項既往陽性對照與安慰劑或無治療相比的研究:需使用meta分析方法估算出陽性對照藥物相對于安慰劑的療效差異,以及評估不同研究間的變異性。通過恒定假設評估陽性對照藥物在當前研究和既往研究中的療效一致性后,經過再估算的當前研究中對照組療效的凈獲益程度M值稱為M1[8-9]。而?值,又稱臨床上可接受的最大損失療效(M2),計算該數值時,應同時將M1度量類型和保留陽性對照療效適當比例(f)考慮在內[14]。當M1為絕對度量時,M2=(1-f)×M1;若M1是相對度量,則M2=exp[(1-f)ln(M1)]。在臨床研究中,通常f的取值范圍是0.5~0.8,在心血管藥物的非劣效研究中,f常取值0.5。通常情況下,當療效指標為低優指標時,M1為95%CI上限的倒數;當療效指標為高優指標時,M1為95%CI下限的倒數。例如:在通過meta分析對歷史數據進行分析后,陽性對照藥物較安慰劑對照的卒中復發風險(低優指標)減少40%,此時安慰劑/陽性對照=1/(1-0.4)=1.67,依據專家咨詢結果取M1=1.5<1.67,取f=0.5,則M2=exp[(1-0.5)ln(1.5)]=1.225。
2.8 統計分析與結果解讀 非劣效性設計臨床試驗的有效性檢驗需要同時分析更接近真實世界的意向性分析集(intention-totreat,ITT)和更接近于理想狀態的符合方案集(per-protocol sets,PPS)。若兩個分析集的研究結論一致,說明研究質量控制良好,研究結果可靠;若兩個分析集得出的結論不一致,則應進一步討論和分析[15]。
非劣效性設計臨床試驗中使用的是單側檢驗,需要根據研究終點事件是高優還是低優指標選擇比較的CI上下限[16]。以主要研究終點(低優指標)的率比為例,非劣效性設計臨床試驗有多種可能結果(用雙側95%CI表示)[2,6]:①如果試驗組與對照組的不良事件發生風險的CI完全<1,則說明該研究結果為非劣效性或者考慮為優效性。②CI范圍跨1,但完全沒有超過預先設定好的界值?,則該研究滿足非劣效性的結論。③CI完全沒有超過預先設定好的界值,但CI上下限均>1,此時有研究者認為可以得出非劣效的結論,因為CI不包含?值滿足非劣效的假設檢驗。但是從CI下限來看,試驗組的療效較陽性對照組差,考慮結果可能為樣本量不足所致,建議擴大樣本來證實結論。④當CI包含?值但同時跨過1時,表明研究效力不足,只能得到不確定的研究結論。⑤當CI包含?值但整體>1時,不同學者的觀點不一致。有學者認為CI不包含1,且結果顯示陽性對照組療效更好,可以得出劣效性結論[2]。但是根據試驗報告統一標準(consolidated standards of reporting trials,CONSORT)聲明[17],此時因不能確定療效差異是否小于非劣效界值但又>1,結論尚不能確定。⑥當CI完全在?值右側時,表明試驗組療效劣于陽性對照組。圖1對不同結果進行了示例和解讀說明。

圖1 非劣效性設計臨床試驗可能出現的結果及解讀
2.9 報告規范 非劣效性和等效性隨機試驗的報告規范可參考CONSORT 2010聲明的擴展版。該擴展版是在2010年CONSORT聲明和2008年CONSORT摘要報告聲明的基礎上提出的,用于報告非劣效性和等效性試驗的CONSORT清單的更新擴展內容,并對與2010年CONSORT清單不同的項目提供了說明性示例和解釋,以提高非劣效性和等效性試驗的透明度并規范其報告,改善此類試驗結果的可解釋性以及方法和結論的可重復性,使讀者能夠評估其結果和結論的可靠程度[17]。
2.10 優勢和局限性 在非劣效性設計臨床試驗中,研究終點可以是多種類型的,如二分類變量、有序變量、連續變量等,這種靈活性有利于非劣效性設計臨床試驗的廣泛應用;另外,非劣效性設計臨床試驗是以治療方法和適應證為基礎的,在追求試驗藥物療效不劣于現有標準藥物的同時,注重探索其在療效之外的優點,比安慰劑對照的臨床試驗更具有倫理價值。
非劣效性設計臨床試驗的局限性:非劣效性設計所參考的陽性對照藥物歷史研究中,對照組并不總是理想的安慰劑對照,致使恒定假設難以驗證,檢測靈敏度難以保證[9];結果解釋的復雜性會增加臨床研究各相關方對此類研究方法概念、設計及統計方法的理解難度;?值過大以及陽性對照藥物相對于安慰劑的歷史數據存在發表偏倚、統計顯著性偏倚及選擇偏倚等缺陷,以及生物本身的進化過程都將提高生物爬行現象風險(生物爬行現象是指在連續應用非劣效試驗進行藥物或器械注冊申報時,上一代非劣效試驗的試驗藥物或器械在下一代非劣效試驗中被作為陽性對照,經過多代試驗后,試驗藥療效可能逐漸接近安慰劑的現象)[18]。
非劣效性、等效性和優效性設計在適用場景、前提假設與研究目的、對照選擇、研究終點、樣本量計算、分析人群方面均有不同程度的差異,三者都有各自的優勢和局限性。臨床研究者需要根據研究目的選擇合適的研究設計方法。這3種研究設計的特點比較見表1。

表1 非劣效性設計、等效性設計及優效性設計的比較
4.1 案例1:TRACE-2試驗——一項多中心、開放標簽、終點盲法、隨機對照、非劣效設計試驗 在缺血性腦血管病再灌注的臨床治療中,阿替普酶靜脈溶栓是唯一具有確切循證醫學證據支持的靜脈溶栓藥物,但在臨床中,阿替普酶溶栓后血管再通率和患者預后效果并不理想;另外,該藥必須使用輸液泵進行操作,不夠便捷。上述問題促使研究者開始尋找替代藥物,其中替奈普酶是目前熱門的候選藥物之一。
由首都醫科大學附屬北京天壇醫院王擁軍教授牽頭完成的替奈普酶再灌注治療急性缺血性腦血管病事件Ⅱ(tenecteplase reperfusion therapy in acute ischemic cerebrovascular event Ⅱ,TRACE Ⅱ)研究首次在亞洲急性缺血性腦血管病患者群體中進行了替奈普酶與阿替普酶的對比分析[19]。該研究共納入來自中國53個研究中心的1430例發病4.5 h內、NIHSS評分5~25分的缺血性卒中患者,按照1∶1的比例隨機接受替奈普酶(0.25 mg/kg,最大劑量25 mg)或阿替普酶(0.9 mg/kg,最大劑量90 mg)治療,研究的主要終點和主要有效性評價指標為90 d mRS評分(0~1分為功能結局良好)。在這項非劣效性設計臨床試驗中,研究者依據既往同樣以良好功能結局為主要終點的阿替普酶與安慰劑藥效對比的歷史數據,經過專家評估后確定陽性對照藥物相比于安慰劑發生結局事件的RR為1.24,95%CI為1.14~1.36,主要研究終點屬于高優指標,M1取CI下限的倒數,保留陽性對照療效比例f取0.5,通過公式計算得到?值=exp[(1-0.5)×ln(1/1.14)]=0.937。最終在有效性評估中,替奈普酶組705例中的439例(62%)患者和阿替普酶組696例中的405例(58%)患者達到主要終點(RR1.07,95%CI0.98~1.16)。鑒于?值低于RR的95%CI下限,該研究最終得到替奈普酶非劣效于阿替普酶并且安全性良好的結論。結合替奈普酶具有一次性給藥、快速給藥的便利優勢和良好的患者接受程度,研究結果為急性缺血性卒中患者的溶栓藥物選擇提供了嶄新的“中國思路”。
4.2 案例2:INSURE研究—— 一項隨機、雙盲、對照、非劣效性試驗 在臨床實踐中,依據指南推薦使用阿司匹林對中重度缺血性卒中患者進行二級卒中預防時,其帶來的胃腸道反應和出血是不可忽視的問題,因此各國學者都在尋找其他可替代阿司匹林的二級卒中預防藥物。首都醫科大學附屬北京天壇醫院王擁軍教授牽頭的多中心臨床試驗——吲哚布芬對比阿司匹林治療急性缺血性卒中(indobufen versus aspirin in acute ischemic stroke,INSURE)研究是一項隨機、雙盲、對照、非劣效性試驗,目的是探討吲哚布芬降低中重度缺血性卒中患者90 d新發卒中風險是否非劣效于阿司匹林[20]。這項研究涉及中國163家醫院,共納入5438例發病72 h內的急性中重度缺血性卒中(NIHSS評分4~18分)成年患者。將受試者按照1∶1的比例隨機分到吲哚布芬組(100 mg,2次/日)和阿司匹林組(100 mg,1次/日),治療時間為90 d。主要療效指標為90 d內新發卒中,主要安全性終點為根據鏈激酶和t-PA在冠狀動脈閉塞全球應用(global utilization of streptokinase and tissue plasminogen activator for occluded coronary arteries,GUSTO)研究定義的90 d內中度或重度出血。該研究預先設定的非劣效性界值為1.25,而主要研究結果使用HR的95%CI的單側上限是否大于非劣效界值來評估吲哚布芬對比阿司匹林的非劣效性。在最終的分析結果中發現,90 d內吲哚布芬組和阿司匹林組分別有213例(7.9%)和175例(6.4%)患者新發缺血性或出血性卒中(HR1.23,95%CI1.01~1.50),CI上限大于非劣效性界值1.25,非劣效性P=0.44。
應該正確看待INSURE研究未取得非劣效結論的結果。首先,在統計學上非劣效和劣效的界限定義并不統一,未達到非劣效并不意味著是劣效[17],未達到非劣效與劣效不能混為一談。其次,在INSURE研究中主要終點指標HR的CI下限(1.01)>1,是否可以肯定地認為吲哚布芬劣效于阿司匹林呢?關于這一點,目前是有一定爭議的。有學者認為這種情況下可以直接得出劣效的結論,但也有學者認為,根據CONSORT聲明中的解釋[17],這種情況并不能得到確定性的結論,即不能肯定地認為在中重度卒中二級預防中吲哚布芬劣效于阿司匹林。
非劣效性設計方法是建立在試驗藥物和陽性藥物比較結果假設基礎上的一種研究方法,尤其是當臨床試驗結果在差異性檢驗中未發現陽性結果時,研究者可以考慮非劣效性設計方法來探索新的治療手段的其他優點。在考慮應用非劣效性設計臨床試驗時,科研工作者需要遵守保持此類設計方法有效性的基本原則,進而應用設計良好的非劣效性設計臨床試驗來探尋具有臨床價值的創新性替代方案。