國家藥品監督管理局醫療器械技術審評中心(100081)
高 宇 呂允鳳
體外診斷試劑的臨床試驗是指在相應的臨床環境中,對體外診斷試劑的臨床性能進行的系統性研究[1]。對于定性體外診斷試劑,通常是以經典的診斷試驗為基礎[2],根據被測標志物的性質及相應的臨床應用,將試驗用體外診斷試劑的檢測結果與已公認的“金標準”結果或已上市體外診斷試劑的檢測結果進行比較,評價其臨床性能。
根據法規要求[3],體外診斷臨床試驗所得到的數據在提交注冊時需要對試驗結果進行匯總,完成總結報告。在實際的操作過程中通常使用電子表格工具,如金山WPS表格、微軟excel,對試驗信息進行匯總,打印后由操作者、復核者簽字、臨床試驗機構蓋章,作為臨床試驗報告的附件提交至監管部門。利用電子表格工具可以完成經典的診斷試驗評價[4]。但由于體外診斷試劑臨床試驗需根據被測標志物、試劑性能及臨床用途等因素進行綜合分析評價,以證明所申報的試驗用體外診斷試劑符合其預期用途且性能滿足臨床需求,因此需要在經典診斷試驗評價的基礎上對評價方法進行擴展。本文以金山WPS表格為例,根據體外診斷試劑臨床試驗數據統計、評價工作的實際,在經典的診斷試驗評價的基礎上對定性體外診斷試劑性能的參數估計、多標志物聯合風險預測模型、分層分析方法及不一致結果分析的實現過程進行了介紹,以期為行業臨床評價工作提供參考。
使用電子表格工具對于臨床試驗數據進行四格表分析,是對原始數據進行轉換,對轉換后的數據進行四格表中四種情形的判定,并對符合相應情形的樣本數量進行統計。以圖1所示數據表為例進行四格表分析。在臨床數據表格中通常包括受試者(樣本)編號、年齡、性別、樣本類型、臨床診斷結果、考核試劑檢測結果等數據列。

圖1 定性試劑臨床試驗數據匯總表
其中用于四格表分析的為“臨床診斷”列與“考核試劑檢測結果”列。首先需利用IF條件函數對上述結果進行轉換,將“臨床診斷”中的“確診”以及“考核試劑檢測結果”中的“+”轉換為“1”;將“臨床診斷”中的“排除”以及“考核試劑檢測結果”中的“-”轉換為“0”。IF條件函數結構為IF([邏輯判斷公式],[為“真”的值],[為“假”的值]),例如對臨床診斷列的判斷公式為“IF([臨床診斷]=”確診“,1,0)”。根據該公式在原始數據表右側兩列填充轉換后的數據,并根據四格表的定義(見表2)進行判定,根據判定規則生成相應的判定結果。

表2 四格表結果的判定規則
數據轉換后在表格中繪制四格表。根據如表1所示四格表定義,通過COUNTIF函數(如圖3所示)統計圖2“四格表”列中相應字母的數量,通過求和函數(SUM)獲得“總和”格子的數值。

表1 “金標準”的檢測結果與申報試劑檢測結果四格表

圖2 四格表判定公式及判定后的臨床試驗數據匯總表

圖3 四格表結果匯總公式及結果
體外診斷試劑臨床性能的主要評價指標為靈敏度、特異度及總符合率。根據靈敏度、特異度及總符合率的定義在四格表下方表格分別計算點估計值。區間估計建議按照威爾遜分值法5進行計算(公式見圖4),以避免試驗用體外診斷試劑檢測結果與對比方法結果符合率為100%的情況下,按二項分布近似正態公式無法計算置信區間。

圖4 四格表統計結果及置信區間下限計算公式
進行體外診斷試劑檢測得到的直接結果通常是連續分布,需通過實驗室階段經充分研究所設定的截斷值(cut-off值)轉化為符合二項分布的陰、陽性結果。如截斷值為針對單一標志物檢測結果,可以使用IF條件函數進行轉換,轉換公式為“=IF([檢測結果]>[截斷值],1,0)”。但隨著生物醫學的發展,多標志物聯合檢測預測疾病風險模型逐漸成為行業熱點。
假設一種檢測試劑包含三個被測物(M1、M2、M3);每種檢測結果均以42為截斷值,大于42為陰性、小于或等于42為陽性;三個標志物的分值均為1分,風險的截斷值為2(即三個標志物任意兩個為陽性便報告陽性)。臨床試驗病例信息匯總表如圖5所示。

圖5 三標志物定性檢測試劑臨床試驗數據匯總表
首先在病例信息匯總表右側三列對檢測結果進行判斷。使用條件公式“=IF([檢測結果]>42,0,1)”對檢測結果進行判斷,公式中的“1”為該標志物分值。對于轉換后的以1/0表示的結果可使用加和的方式進行判斷(SUM)。由于三個標志物分值均為1分,截斷值為2,因此上述三個指標的加和結果為2和3時,該檢測便報告陽性。可以使用IF條件函數“=IF([加和結果]>1,1,0)”對檢測結果進行判定,得到以1/0表示的檢測結果(T),并對所得檢測結果使用第一部分所述方式進行臨床性能的評價。
在進行體外診斷試劑臨床性能評價的過程中需要根據試劑的預期用途、臨床特點對其中某類人群進行單獨分析或不同人群的差異性進行分析,稱之為分層分析(stratified analysis)。分層因素可以是通過受試者基線信息直接得到,亦可是通過基線信息進行二次分析得到。

圖6 三標志物試劑四格表的判定及公式
例如一項檢測其預期用途的樣本類型為咽拭子或痰液。在總體性能可以滿足臨床需求的情況下,還需針對兩種不同樣本類型進行分別的評價。其病例信息匯總表如圖7所示,表中已完成整體性能四格表統計。

圖7 多樣本類型定性檢測試劑臨床試驗數據匯總表
可以看到,在樣本類型中包括了“咽拭子”、“血清”、“痰液”、“糞便”等樣本類型。首先需要通過條件判斷語句生成樣本類型列,由于樣本類型包括多種樣本類型,因此需要通過嵌套條件公式進行判斷。公式為“IF([樣本類型]=”咽拭子“,1,IF([樣本類型]=”痰液“,2,3))”,將“咽拭子”轉換為1、“痰液”轉換為2、其他樣本類型轉換為3。之后將轉換后的結果作為邏輯判斷條件對“四格表”列判斷結果進行篩選,將符合目標樣本類型的四格表結果保留,而不相關樣本類型的結果用其他符號表示。其公式為“=IF([轉換后樣本類型]=1,[四格表結果],“z”)”,將樣本類型轉換后為“1”(咽拭子)的結果保留至“咽拭子四格表”列,將其他樣本類型轉換為字母“z”。用同樣的方式可以將樣本類型轉換后為“2”(痰液)的結果篩選至“痰液四格表”列。之后分別對“咽拭子四格表”列和“痰液四格表”列使用第一部分“數格子”的方法進行四格表統計并完成針對兩種不同樣本類型的臨床性能參數估計。

圖8 多樣本類型定性檢測試劑分層分析臨床試驗病例信息匯總表
對于通過基線信息進行二次分析的結果進行分層,可以結合第二部分截斷值的判斷方法進行。若某一標志物濃度會根據病程的不同而發生高低變化,例如病程早期及治療后期相對較低,病程中期相對較高,當截斷值一定的情況下早期及治療后期假陰性率會較高,而病程中期檢測靈敏度會有很好的表現。由于臨床試驗為連續入組,整體分析的情況下試劑性能可能并不理想,因此需要針對病程進行分層分析。首先,需要通過受試者基線信息獲得采樣日期距離發病日期的間隔,通過臨床上對于發病后不同時程的截斷值(例,以7天、14天作為三分類的兩個截斷值)對采樣時的病程進行分期,分析方法與第二部分對連續分布檢測結果的處理方法是一致的,對于上述例子可用“1”表示早期、“2”表示中期、“3”表示治療后期。當獲得分期后根據分期列的數據作為分層因素對四格表的數據進行有條件保留,分析方法與上面的分層分析方法一致,在“早期四格表中”把分期為“1”的數據保留,其他的分期數據用“z”表示。“中期四格表”、“后期四格表”列亦如此處理。最后對“早期四格表”、“中期四格表”、“后期四格表”采用第一部分“數格子”的方式進行統計,完成按病程分層分析的試劑性能參數估計。
在進行臨床試驗數據分析時,不僅要通過統計學方法得到臨床性能的參數估計,還需要注意針對異常結果進行分析。例如,通過對四格表中“b”、“c”格以及根據標志物特性判定為異常值的受試者的背景信息等進行分析,發現是否會在具有某一特征的受試者中有趨勢性的提示信息。在進行分析時,主要使用表格工具的數據篩選功能對受試者基線信息進行展示分析。
雖然本文為定性體外診斷試劑的分析方法,但此部分選擇一定量檢測試劑的臨床試驗數據進行舉例,亦可清晰說明不一致數據的篩選和分析方法。圖10顯示的是一個乙型肝炎病毒核酸定量檢測試劑盒的臨床試驗結果。根據國家藥品監督管理局發布的《乙型肝炎病毒脫氧核糖核酸定量檢測試劑注冊技術審查指導原則》6,臨床試驗需要入組不少于450例乙肝病毒感染受試者,其中需不少于10例的D基因型乙肝病毒感染受試者。考核試劑與對比試劑定量檢測值的對數差值大于1是兩個定量試劑檢測結果不一致的判定標準之一。通過圖中可以看出,在進行臨床數據分析時,首先計算了考核試劑與對比試劑的定量結果的對數值(第AA、AB列),然后計算對數值的差值(AC列),通過IF條件判斷對數值差值是否大于1(AD列),之后對對數值差值大于1的受試者進行篩選展示。該臨床試驗共入組乙型肝炎受試者496例,對數值差值大于1的受試者為17例。進一步對對數值差值大于1的受試者進行篩選展示后發現,D基因型感染受試者有9例。而該臨床試驗共入組15例D基因型感染受試者,檢測的偏離有顯著的在D基因型中集中趨勢。因此在臨床評價時需要針對D基因型進行分析,同時評價試劑針對D基因型的檢測性能能否滿足臨床需求。

圖9 基于病程分層分析的定性檢測試劑臨床試驗病例信息匯總表

圖10 根據檢測結果的對數值差值進行篩選展示的病例信息匯總表
對于定性檢測試劑的不一致結果的分析,可在臨床試驗數據統計的過程列中勾選判定為“b”和“c”的受試者進行分析。
體外診斷試劑臨床試驗的評價主要基于流行病學中診斷試驗、篩檢及隊列研究章節的研究方法,需要對人群特征及檢測結果進行分析,是流行病學調查的一個特例。使用電子表格軟件對電子病歷信息匯總表直接進行統計分析可以保證與提交至監管部門文件的一致性,同時大大提高申報和審評效率。由于在形式上類似于在紙質病例信息匯總表旁的空白處進行數據的統計、驗算,因此可以將這樣的統計方法命名為“表旁統計”。
在進行電子表格統計時,應當注意數據結構的完整性及數據的準確性。數據結構的完整性主要通過病例信息匯總表表頭控制,進行臨床試驗的各臨床試驗機構應使用結構(表頭)相同的病例信息匯總表。同時對數據結構相同的電子病例信息匯總表在分析時可直接粘貼統計單元格,無需重復錄入公式。而數據的準確性不僅是病例信息匯總表中的數據與原始病例信息表中一致,同時要注意信息表達方式的一致性。例如,各臨床試驗機構之間應當注意“陽性/陰性”、“+/-”的表達一致性。此外,在實際的工作中,病例信息匯總表中不可見的“空格”是導致在后續統計過程中產生統計結果錯誤的重要原因之一。
使用電子表格工具對電子病例信息匯總表數據直接進行統計分析,可有效避免數據轉換的錯誤、人工數據統計的錯誤,同時大大提高數據統計效率。本文為一般情形下的二分類臨床數據使用電子表格工具統計分析的舉例,具體產品應根據實際情況進行靈活運用,亦可選擇其他統計工具軟件。
應當注意,雖然電子表格工具作為申報、審評審批過程中的核對工具可提高效率,但由于無法保留稽查軌跡,在臨床試驗數據管理方面并不推薦。
(注:本文中所列舉數據及統計結果僅為方法舉例,不代表真實產品的統計結果。不同產品的性能估計能否符合臨床性能要求視具體產品的臨床要求確定。)