中國臨床試驗生物統計學組(CCTS) 李 衛 趙耐青(執筆)
?
·CCTS共識·
單組目標值臨床試驗的統計學考慮
中國臨床試驗生物統計學組(CCTS) 李 衛 趙耐青(執筆)
隨機對照臨床試驗(randomized controlled trial,RCT)是臨床研究的金標準,藥物/醫療器械臨床研究中,尤其是提供關鍵證據的臨床研究中一般均采用RCT。在極少數的醫療器械臨床試驗中,如采用隨機對照試驗,會存在倫理學風險,致使臨床操作不可行。在此情況下,單組目標值(single-arm objective performance criteria ,OPC)臨床試驗不失為一種替代策略,為產品注冊提供關鍵證據。探索性研究也可采用單組目標值法。本文將對單組目標值法的定義、適用范圍、目標值的確定以及評價方法等進行說明。
單組目標值臨床試驗是指在事先指定主要評價指標的一個有臨床意義目標值的前提下,通過無同期對照的單組臨床試驗考察該主要評價指標的結果是否在指定的目標值范圍內,以此來評價被試產品有效性/安全性的一類方法。
目標值是指專業領域內公認的某醫療器械的有效性/安全性/性能評價指標所應達到的標準。
單組目標值臨床試驗設計的關鍵是事先確定目標值,雖然沒有同期平行對照,但設計時必須考慮適應證、受試人群、主要療效評價指標及評價時間點,以保證當前試驗所獲得的結果與外部對照具有可比性,從而保證單組目標值法研究結果的科學性。
目標值的確定有以下三種方式。
1.臨床試驗監管部門指南
臨床試驗監管部門(例如:國家食品藥品監督管理總局醫療器械技術審評中心)會針對某些特定產品制訂涉及該產品臨床試驗的技術指導原則,如果指導原則中明確寫明,該類產品可采用單組目標值對照的方式進行臨床試驗,且指南中對有效性和/或安全性和/或性能所對應的主要評價指標給出了明確的目標值。在此種情況下,可將指南推薦的目標值作為該產品臨床試驗主要評價指標的目標值。如2002年7月美國FDA發布的有關射頻消融導管擴大室上速適應證的臨床試驗指導原則[1],提出了射頻消融導管擴大室上速適應證的目標值:即刻成功率≥85%、遠期成功率≥80%及主要并發癥發生率≤7%,只有當上述三項指標同時達到統計學要求時,才認為被試射頻消融導管達到要求。
2.行業標準或專家共識
如果監管部門沒有相應產品的指導原則,可參考該產品所屬專業領域公認的行業標準或公開發表的專家共識,從中獲得該醫療器械主要評價指標所應達到的療效和/或安全性和/或性能水平,并以此水平作為目標值。可參考的行業標準包括但不限于ISO標準、國標、部標或行標等。如2014年美國心胸外科協會制定的外科生物瓣評價標準[2]:主動脈瓣血栓栓塞發生率≤1.5%、二尖瓣血栓栓塞發生率≤1.3%、主動脈瓣瓣膜血栓發生率≤0.04%、二尖瓣瓣膜血栓發生率≤0.03%、及所有出血發生率≤1.4%等,只有當上述所有指標全部達到統計學要求時,方可認為被試瓣膜達到要求。
3.同類產品歷史研究結果
當上述兩種情況均不適用,可依據目前已上市的同類產品、相同適應證的RCT臨床試驗系統綜述和/或meta分析結果作為目標值的確定依據。研究設計時要考慮到與歷史研究的可比性,如研究人群、適應證、納入和排除標準、疾病嚴重程度、主要評價指標及評價方法等。
由于疾病的嚴重程度、分型等因素有可能影響療效,其構成比對總體療效的估計是有直接影響的。因此,設計時需參考歷史研究,明確規定相應亞組的構成比,以及當實際構成比與設定的構成比不一致時的校正方法。
雖然有上述三種目標值的確定方式,但首選的方式是依據監管部門指南,其次是依據行業標準或專家共識,再次是依據同類產品歷史研究結果的綜合。無論采用何種方式,設定的目標值應該充分結合產品的特點,目標值應在研究方案設計階段由申辦方、臨床研究者和統計學專家共同制定。無論采用何種方法確定目標值,均建議事先與監管部門進行溝通,達成共識后開始臨床試驗。
單組目標值法的假設檢驗對應于單側檢驗。在不同試驗中,根據研究的目的,主要評價指標可分為高優指標(如:有效率)或低優指標(如:不良事件發生率)。下面將針對不同的變量類型,分別按照高優指標或低優指標的情況,給出相應的檢驗假設、樣本量估計以及對應的評價方法。
1.檢驗假設
設θ1為主要評價指標的總體參數,θ0為主要評價指標的目標值。單組目標值法的假設為:
對于低優指標:H0:θ1≥θ0,H1:θ1<θ0
對于高優指標:H0:θ1≤θ0,H1:θ1>θ0
檢驗水準為α取0.025。
2.樣本量估計
樣本量估計是臨床試驗設計中極為重要的環節,充足的樣本量能夠保證試驗有足夠的檢驗效能發現實際存在的差異。單組目標值法的樣本量估計所需的參數包括:主要評價指標的總體參數、目標值、I類錯誤率α、II類錯誤率β(1-β為檢驗效能)。
(1)率的樣本量估計
樣本量計算需包含如下參數:
π1:被試產品的預期總體發生率;
π0:被試產品的率的目標值;
對應的樣本量計算公式為:

(1)
式中,α為檢驗水準,建議取單側0.025;1-β為檢驗效能,一般取值80%或以上;π0為目標值;π1為總體率;Z1-α和Z1-β為標準正態分位數。
公式(1)給出的是率的正態近似的樣本量計算公式,當目標值π0或總體參數π1接近100%或0%時,應采用確切概率法計算樣本量。
(2)均數的樣本量估計
樣本量計算需包含如下參數:
μ1:被試產品主要評價指標總體均數;
μ0:被試產品主要評價指標均數的目標值;
σ:主要評價指標的預期標準差。
對應的樣本量計算公式為

(2)
其中:α、β、Z1-α、Z1-β的意義同上。
公式(1)及(2)同時適用于高優或低優指標。
研究方案中應明確樣本量計算方法及其依據。
多個主要指標試驗樣本量的確定,應充分考慮I類錯誤的控制,同時也應注意是否達到預設的總檢驗效能。
3.統計分析
單組目標值試驗的統計學推斷。
(1) 假設檢驗
單組目標值法相應的假設檢驗為單側檢驗。當P≤α時,拒絕H0,認為試驗產品達到設計要求。
假設檢驗方法是設計時確定的,分析時應考察是否滿足應用條件。
對率的假設檢驗,當總體率π接近0%或100%時,應選擇確切概率法
(2)置信區間法
試驗結果也可以根據置信區間是否包含目標值來評價。主要評價指標為高優指標時,如果被試產品主要評價指標 (1-2α)%雙側置信區間的下限高于目標值,則認為被試產品達到設計要求;主要評價指標為低優指標時,如果被試產品主要評價指標(1-2α)%雙側置信區間的上限低于目標值,則認為被試產品達到設計要求。
對率的假設檢驗,當總體率π接近0%或100%時建議用Clopper Pearson精確概率法構建置信區間。
對于主要評價指標,應同時給出全分析集(FAS)和符合方案集(PPS)的統計分析結果。
某臨床試驗欲驗證體外循環手術患者使用一次性膜式氧合器進行血氣交換的有效性和安全性,試驗采用單組目標值法設計,主要評價指標為產品達標率(產品達標需滿足:氧合性能、二氧化碳排除能力和變溫能力達到CFDA指南中的評價標準要求),基于CFDA指南,該研究中達標率目標值應至少90%,預期達標率為95%。
1.建立檢驗假設,確定檢驗水準
H0:π1≤0,H1:π1>0
其中,π1為總體達標率(預期能達到95%),π0為目標值(規定為90%)。檢驗水準α取0.025。
單組目標值設計實際是采用樣本統計量與總體參數差異性檢驗作統計推斷的,雖然單組目標值設計α取雙側0.05.實際上監管部門僅通過估計的總體參數的95%置信區間的上限(低優指標)或下限(高優指標)與預先設定的非劣效界值進行比較,來判定被試產品是否能達到臨床要求,因此實際上α也相當于取0.025。由此可見,單組目標值設計中α取0.025(單側)與α取0.05(雙側)相同。
2.確定試驗所需樣本量
假設本試驗總體達標率為95%,目標值為90%。當單側檢驗的檢驗水準取0.025,檢驗效能取80%時,根據樣本量計算公式(1)得試驗至少需要入選239例受試者,考慮研究過程有5%受試者的脫落,本試驗預計入選252例受試者。
3.計算一次性膜式氧合器產品達標率的點估計及其雙側95%置信區間:
本研究入組260名受試者,有250名受試者達標,產品達標率點估計及其雙側95%置信區間為96.2%(93.8%,98.5%)。
4.結果解釋:
統計分析結果顯示,一次性膜式氧合器產品達標率的雙側95%置信區間下限值為93.8%,大于目標值90%,可以認為該一次性膜式氧合器能夠達到臨床應用的要求。
單組目標值法的主要缺陷是難以從設計上控制選擇性偏倚和評價偏倚。由于單組目標值法采用的是歷史信息對照(簡稱歷史對照),受時間、空間的限制,歷史對照的受試者與本次試驗的受試者可能來自不同的總體;除試驗因素外,可能影響試驗結果的因素眾多,如人口學特征、診斷標準、診斷技術、疾病分期或亞型、疾病嚴重程度、伴隨用藥和觀察條件等,致使試驗組和外部對照組可比性差;此外,還可能有一些潛在的、非常重要但未被認知的、或無法測量的預后因子也可能影響試驗結果。另一方面,由于缺乏同期平行對照,難以對不良事件與產品的相關性、以及不良事件發生率進行科學的評價。因此單組目標值法一般僅適用于安全性良好、不良事件發生率很低的產品/適應證。鑒于單組目標值法的固有缺陷,其應用范圍是極其局限的。
同樣,仍是由于沒有同期對照組的原因,單組目標值法原則上僅適用于非自限性疾病/適應證,至少在臨床試驗的療效評價階段自愈、癥狀緩解或部分緩解的可能性較小。對于有自愈傾向的病癥,如不得不采用單組目標值時,需有充分的證據,能準確估計在臨床試驗的療效評價階段受試者自愈、癥狀緩解或部分緩解的發生率,應通過對產品目標值的合理設置,確保在排除自行痊愈、緩解或部分緩解的影響以后,其產品的有效性仍在臨床可以接受的范圍內。
正是由于上述局限性,選擇單組目標值法進行醫療器械臨床試驗時應極為審慎。通常,僅在某些探索性的試驗中,考慮采用單組目標值試驗設計。一般來說,對于用于支持產品上市的關鍵性臨床試驗,僅在以下三種情況時,才有可能考慮采用單組目標值法對被試產品開展關鍵性臨床試驗[3]:(1)與現有治療方法相差過于懸殊;(2)被試器械為換代產品(其前代已上市多年,為技術成熟產品),且本質上沒有發生太多的改變,僅對外形設計等進行少許改進;(3)醫療器械臨床試驗審評審批等相關機構已制訂針對此類產品有效性和安全性指標的評價標準。
總之,為了客觀評價產品的安全性和有效性、規避產品研發及評價風險,建議醫療器械臨床試驗申辦方在臨床試驗方案設計階段與臨床醫學專家、生物統計學家和法規監管部門進行充分的溝通和協商,達成共識后方能進行單組目標值臨床試驗。
1.質量控制
高水平的試驗質控是單組目標值試驗結果真實可靠的必要保障。由于目標值試驗的受試者選擇偏倚、測量偏倚、評價偏倚等的潛在風險較大,因此,試驗過程中應采取合理的措施盡可能彌補試驗設計本身的缺陷。(1)盡可能的采用相對客觀,可重復性強的“臨床終點”作為主要終點指標,如死亡、操作失敗等;不建議選擇容易受主觀因素影響、可重復性差的指標作為主要評價指標,也不建議用與臨床客觀終點指標相關性不高的“替代終點”作為主要評價指標。(2)盡可能的提高隨訪質量,設置合理的隨訪頻度,盡最大可能控制受試者脫落。(3)為了保證數據的完整性,鼓勵采用中央注冊登記系統記錄所有篩選受試者的全部信息,以避免事后人為篩選受試者。
2.主要評價指標缺失值的處理
與隨機對照臨床試驗一樣,單組目標值試驗中應盡可能避免數據缺失。特別是主要評價指標的缺失。當主要評價指標缺失時,應采用敏感性分析,如:最差值法(worst case scenario),臨界點分析(tipping point)等方法,以說明結果的穩健性。缺失值的處理方法應事先在研究方案和/或統計分析計劃書中予以明確。
1.樂觀估計總體療效π1值導致的風險?
樂觀估計總體療效,會低估研究所需要的樣本量,將導致檢驗效能不足,增加臨床試驗失敗的風險。建議在盡可能接近被試產品真實水平的前提下,對被試產品的總體成功率作保守的估計,以避免由于低檢驗效能致使試驗失敗。即使是被試產品成功率非常高、幾乎不可能失敗時,在進行研究設計時,通常也不建議按照100%成功率進行樣本量估計。
2.單組目標值臨床試驗是否沒有對照?
事實上,單組目標值臨床試驗采用的是歷史信息對照或理論對照。目標值法不同于傳統的自身前后對照,后者僅評價主要評價指標的水平在治療前后是否有變化。而單組目標值法,則要求主要評價指標不但有改變,而且要求改變的程度必須達到臨床的最低要求或同類產品具有的療效水平(即:目標值)。
3.單組目標值試驗的樣本量是否相對較小?不一定。單組目標值試驗的樣本量取決于相應參數的設定。當被試產品的預期療效與目標值相近時,所需樣本量是很大的。
4.試驗終點指標的點估計超過目標值時,是否就可以認為達到設計要求?
不可以。應采用假設檢驗或置信區間對試驗結果做出判斷,僅點估計達到目標值還不足以說明產品達到設計要求.
[1]MRI Guidance of Focused Ultrasound Therapy of Uterine Fibroids:Early Results.AJR,2004,183:1713-1719.
[2]Ying Xing Wu,et al.Clinical Evaluation of New Heart Valve Prostheses:Update of Objective Performance Criteria.Ann Thorac Surg 2014;98:1865-74.
[3]US Food and Drug Administration.Design Considerations for Pivotal Clinical Investigations for Medical Devices:Guidance for Industry,Clinical Investigators,Institutional Review Boards and Food and Drug Administration Staff.Issued on November 7,2013.http://www.fda.gov/medicaldevices/deviceregulationandguidance/guidancedocuments/ucm373750.htm.Accessed April 27,2016.
[4]U.S Food and Drug Administration.Guidance Documents (Medical Devices and Radiation-Emitting Products) > Guidance for Industry and FDA Staff:Clinical Study Designs for Catheter Ablation Devices for Treatment of Arial Flutter.[6/4/2013]http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/GuidanceDocuments/ucm070919.htm.
[5]U.S Food and Drug Administration.Guidance Documents (Medical Devices and Radiation-Emitting Products) > The Least Burdensome Provisions of the FDA Modernization Act of 1997:Concept and Principles; Final Guidance for FDA and Industry.[6/4/2013].http://www.fda.gov/medicaldevices/deviceregulationandguidance/guidancedocuments/ucm085994.htm
[6]U.S.Food And Drug Administration.Guidance Documents (Medical Devices and Radiation-Emitting Products) Cardiac Ablation Catheters Generic Arrhythmia Indications for Use.[6/4/2013].http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/GuidanceDocuments/ucm072860.htm.
[7]唐欣然,黃耀華,王楊,等.單組目標值試驗樣本量計算方法的比較研究.中華疾病控制雜志,2013,17(11):993-996.
(責任編輯:郭海強)
中國臨床試驗生物統計學組成員(按姓名拼音排序)
陳峰、陳剛、陳平雁、陳啟光、郭翔、賀佳、黃欽、金丕煥、李康、李寧、李衛、李曉松、凌莉、劉玉秀、蘇炳華、孫高、王彤、王武保、魏朝暉、夏結來、姚晨、易東、尹平、于浩、張羅漫、趙耐青