黃麗紅, 趙 楊, 王 陵, 李 晨, 陳 峰
1. 復旦大學附屬中山醫院生物統計室,上海 200032 2. 南京醫科大學公共衛生學院,南京 211166 3. 空軍軍醫大學軍隊衛生統計教研室,西安 710032 4. CSCO生物統計學專家委員會RWE項目組
在醫學研究中時常觀察到各種變量之間的相關性(association,correlation),但是這些相關關系并不一定反映因果關系(causality)。例如,在某項研究中發現鍛煉時長與血脂存在正相關關系,即鍛煉時間越長血脂越高(圖1A),顯然不符合常理,然而在控制年齡因素(每10歲為一個年齡組)的影響后,每個年齡段的鍛煉時長與血脂均有負相關關系,即鍛煉時間越長血脂越低(圖1B)。由于剔除了年齡的影響,假設不存在其他混雜因素,就可以將鍛煉時長與血脂的負相關關系歸結于鍛煉與血脂水平有負向的因果效應[1]。

圖1 相關關系和因果關系示例
因果推斷(causal inference)是臨床醫學研究中亙古不變的核心問題,無論是探索疾病的病因亦或觀察某種新藥對疾病的治療效果[2]。因果推斷反應了一種在設計和分析過程中對混雜、偏倚等干擾的審慎考慮,從而在聲明“因果關系”時能盡所能排除各種誤判的可能[3-4]。現實世界研究(real-world study, RWS)近年來備受關注,尤其是基于現實世界數據庫的RWS,逐步開始應用。獲得現實世界證據(real-world evidence, RWE)是RWS的核心目標,而因果推斷是判定RWE的重要前提[5]。
本文從因果關系的判定標準出發,解析混雜因素的存在對因果關系的影響,并針對臨床研究設計與分析中的隨機分組、分析數據集及亞組分析3個重要問題,探討其中的因果推斷元素,旨在幫助研究者正確理解因果推斷在臨床研究中的重要地位和價值。
Hill標準是目前學界公認的評判事物與事物之間的因果關系的“標尺”。由Austin Bradford Hill[6]在1965年提出,包含8條標準,即關聯的時序性、強度、可重復性、劑量反應關系、實驗證據、生物學合理性、特異性以及一致性(圖2)。

圖2 Hill因果推斷標準
在因果關系的判斷中,關聯的時間順序是必須滿足的,是因果推斷的必要條件,在確定前因后果的時序性問題上,前瞻性隊列研究和干預性研究比較容易判斷。關聯的強度、關聯的可重復性、劑量-反應關系及實驗證據有非常重要的意義,其他標準可作為參考。因此,并不一定要求8條標準全部滿足,但滿足的條件越多,則其因果關系成立的可能性越大。顯然,RWE需要經過Hill標準的評判。
混雜因素(confounder)又稱外來因素(extraneous factor),與干預因素和研究結局皆相關,但不是暴露-結局的因果關系通路上的中間變量,該因素的存在將可能歪曲(夸大或縮小)暴露因素與結局的真實關系[7]。流行病學家常用有向無環圖(directed acyclic graph,DAG)來展示混雜[8]。以G、Y和C分別代表研究因素、結局和混雜因素,一個典型混雜現象的DAG,見圖3。

圖3 混雜因素示意圖
根據因果推斷的相關理論,當混雜存在時,應當有一條從Y指向G的未被阻斷的路徑,即指向G的“后門”路徑(backdoor path)。這里,由于C同時指向G和Y,故可以認為G和Y是相關的,該路徑成為了一條后門路徑。此時在估計G對Y的效應時若忽略了C,則估計的效應受到了混雜干擾,此時G與Y的相關性并非因果關系[9]。
因果關系分析中處理混雜因素的方法就是截斷“后門”路徑,通過控制混雜因素,從而排除混雜因素的干擾,控制混雜因素可以簡單地理解為固定混雜因素的值。圖3中一旦給定了C的值,G與Y的相關性就與C無關,二者的相關性就反映了因果關系。因此,控制混雜因素是因果推斷中的重大挑戰,臨床研究中最理想的辦法是在研究設計時就對混雜因素進行控制,例如通過隨機分組的方法,從源頭上控制已知和未知混雜的影響。而對于非隨機對照研究中混雜因素的控制,一直以來是因果推斷統計學方法的研究熱點[10-11]。
要評價一種藥物的療效,最理想的方法是評價同一個受試者同時接受試驗藥物和安慰劑對照治療,利用得到的使用試驗藥物的效果與使用對照藥物的效果之差來評價。然而,事實上這是做不到的,因為分身無術,同一個受試者一次只能接受一種處理。
Hill早在1948年就在BritishMedicalJournal發表了世界上第一篇應用隨機對照設計方案的論文,該論文首次將嚴密的數理統計理論應用于臨床醫學的科研設計,并成功地探討了鏈霉素對肺結核的療效[12]。1990年,93歲的Hill在回憶錄中說:“自1937年我的著作出版后,我一直在尋找機會將隨機化應用于臨床試驗,10年后機會終于來了,而我也早已準備好了”[13]。
所謂隨機化分組是指使參加臨床研究中的每一位受試者都有同等的機會被分配到某處理組中,而不受研究者或受試者主觀意愿的影響。隨機化分組的意義在于可以使得各處理組間的各種非處理因素,不論是已知或未知的,在組間的分布皆趨于相似,使組間基線具有可比性,從而避免處理組和對照組之間的系統差異。
受試者接受隨機化分組后,存在2種潛在結果(potential outcome),即受試者接受處理組(D=1)的結果和受試者接受對照組(D=0)的結果,具體表示如下:

之所以稱為潛在結果是因為2個結果是受試者本身應該具備的,只不過不能同時顯現出來,如果沒有顯現就無法觀測到。例如,受試者無論是否服藥,都有服藥和未服藥2種情況下的潛在身體健康結果。對于未服藥的受試者,服藥的潛在結果沒有觀測到。在現實中沒有觀測到的狀態也稱為反事實(counterfactual)狀態。
通常在臨床研究中,所關心的因果效應為處理組平均因果效應(average treatment effect among the treated, ATT),即處理組個體接受處理條件后的平均潛在結果E(y1|z=1)與處理組個體接受對照條件后的平均潛在結果E(y0|z=0)的差值,即ATT=E(y1|z=1)-E(y0|z=0)(1)。直接從觀察結果估計ATT時,并不能同時觀察處理組個體接受處理條件和對照條件的2個潛在結果(實際觀察結果和未能觀察到的反事實結果)。但在隨機對照試驗中,試驗組與對照組是隨機分配的,基于反事實的一致性假設,即試驗組的受試者如果接受對照組的治療,可以得到與當前對照組一致的結果,反之亦然。因此,對照組的觀察結果是試驗組受試者接受對照組治療的潛在結果的一個無偏估計,從而能夠得到ATT的無偏估計值,這是隨機對照試驗可以進行因果推斷的關鍵原因。
在Hill的8大標準中,采用隨機化分組技術評價關聯關系,可有效排除混雜因素的干擾,獲得“關聯的時序性”、“關聯的強度”、“關聯的可重復性”、“關聯的特異性”評價的可靠信息,合理設置對照組后的隨機對照試驗,可獲得“實驗證據”,因此隨機對照試驗獲得的循證證據最強。
隨機對照試驗的統計分析中,根據不同的分析目的往往需要定義不同的數據集,數據集的定義是統計分析計劃(statistical analysis plan, SAP)的重要組成部分。最常用的數據集有全分析集(full analysis set, FAS)、符合方案集(per protocol set , PPS)和安全數據分析集(safety set, SS)[14]。其中,FAS一般是臨床試驗療效的主分析集,常常定義為按照意向性治療(intention to treat, ITT)原則,所有隨機化并有記錄接受至少一次研究治療的受試者,為一種調整過的ITT數據集(modified ITT, mITT)。可見,ITT原則是分析數據集定義的重要原則,即以意向性治療(即計劃的治療方案)為基礎進行評價,不以實際給予的治療為基礎進行評價,計劃被分到某處理組的受試者即應作為該組成員被隨訪、評價和分析,不論其是否依從方案。常見分析數據集見圖4。

圖4 常見分析數據集示意圖
在隨機對照試驗中,隨機化分組是控制混雜的重要手段,各處理組間基線是均衡的。在試驗實施過程中,需要維護這種均衡性。只有這樣,對照組的觀察結果才能作為試驗組受試者接受對照組治療的潛在結果的無偏估計,因而基于ITT原則的分析集通常定義為主要分析集。盡管基于ITT數據集的分析往往屬于一種保守的估計,在統計學上是有偏估計,但是控制了Ⅰ類錯誤,符合藥品審評的一般原則。PPS集是FAS集的一個子集,這些受試者符合試驗方案、依從性好,試驗期間未服用禁止藥物,完成病例報告表(case report form, CRF)的信息收集等。然而,PPS集人群有可能破壞了隨機化分組,組間存在基線不均衡的風險。實際工作中,ITT分析與PPS分析相結合是十分重要的,結論一致可以加強結論的可靠性。這一常規做法,是因果推斷標準中“關聯可重復性”的重要體現。
隨著腫瘤臨床研究的不斷發展,單臂臨床試驗也可用于支持具有突破性療效藥物的新藥注冊申請,2020年5月,國家藥品監督管理局藥品審評中心發布《單臂試驗支持注冊的抗腫瘤創新藥進入關鍵試驗前臨床方面溝通交流技術指導原則(征求意見稿)》,原則指出“單臂試驗的有效性分析集應以ITT原則為參考”。 在單臂設計的前提下,ITT分析估計了在“主觀意向性”前提下治療方案的有效性,某受試者同意入組但沒能按照方案要求完成試驗,按照ITT原則,此類受試者仍需納入ITT分析。然而,單臂試驗因缺乏對照,所能評價的因果推斷標準有限,在實際應用中較為局限。
在非隨機化的RWS中,由于缺乏隨機分組,所比較的組間缺乏均衡性。是否能夠進行因果推斷取決于混雜因素是否有效控制,分析數據集的定義需要與研究設計、統計分析和結果解釋融為一體進行綜合考量[15]。
所謂亞組(subgroup)是指臨床試驗中所有受試者按照某個基線特征定義的一個子集(subset)。亞組分析是針對亞組進行的統計分析。
異質性是基于臨床結局測量的,處理效應在方向或者尺度上的非隨機變異,與目標患者群體或臨床研究人群中影響預后或預測治療效果的因素差異程度有關。人群的異質性越強,在明確的亞組中調查治療效果就越重要。通常采用森林圖(forest plot)展示亞組分析的結果,當相關亞組在治療效應的方向和尺度上基本一致時,能為研究的整體結論外推到研究患者總體增加說服力。
隨機對照臨床試驗能夠進行因果推斷,但只能針對滿足入、排標準的特定人群進行評價,如果存在異質性問題,則“關聯的可重復性”這一重要標準無法滿足,難以進行明確的因果推斷[16]。異質性的問題越來越受到重視,尤其是新藥注冊的確證型研究。對于已知的導致異質性的因素,例如:不同年齡組、不同性別,是否抽煙,是否有某種并發癥,適應證的亞型等,應當在臨床研究中定義亞組進行亞組分析。異質性的評價常常通過檢驗基線因素與處理因素的交互作用,臨床研究目標人群的異質性越大,亞組分析越關鍵。
亞組分析包括2種情況:事先計劃的分析(prespecified analysis)和事后分析(post-hoc analysis)。事先設計的亞組分析需要在設計時將亞組作為一個因素進行分層隨機,維持亞組的隨機性,從而保持隨機化技術在亞組中的因果推斷作用。另外還需考慮亞組分析的檢驗效能(針對亞組進行樣本量估計),需要考慮多重比較的Ⅰ類錯誤校正等問題。因此,只有事先設計的亞組分析才可能提供因果推斷標準的“實驗證據”,從而回答研究因素在某個特定人群中是否有效的問題,解釋異質性的來源。即使整個目標人群結果沒有統計學意義,亞組的意義也能提供有效證據。而事后亞組分析、或事先沒有分層隨機的亞組分析,亞組人群可能缺乏隨機性;事后定義的亞組人群的分析,易受結果導向性影響進行“P值”挖掘的不當分析,假陽性結果風險較大。因此,事后亞組分析屬探索性分析,僅用于評估臨床研究結論的敏感性或穩健性,試驗內部的一致性,或探索影響因素,為后續研究設計提供線索。
隨著計算機技術,尤其是互聯網和多媒體技術的普及與飛速發展,醫學研究也迎來了大數據時代。大數據時代一個顯著現象就是更關注數據的相關關系,有學者甚至提出“相關關系比因果關系能更好地了解這個世界”,盡管在商業領域對相關關系的分析頗具價值,但相關分析往往只是停留在數據表面,相關關系強的對象之間并不一定存在因果關系,為決策提供指導的能力受到了限制,特別是在醫學領域,對疾病進行預防和治療的具體措施,必須建立在因果關系的基礎上。因此,因果推斷才是臨床研究的最終目標。
從Hill的因果推斷標準可以看出,臨床研究的證據強度與嚴謹的試驗設計、高質量的數據以及精細的統計分析密切相關,并且單靠一個臨床研究往往無法完全滿足因果推斷的標準,需要多個臨床研究從不同的角度加以驗證。本文充分探討了隨機化、分析數據集及亞組分析中因果推斷元素,在RWS中同樣應當充分考慮因果推斷元素才能獲得高質量的RWE。顯然,由于非隨機化的RWS需要考慮潛在的偏倚和混雜因素的影響,在進行因果推斷時充滿挑戰。在注冊類臨床研究中提出了估計目標(estimand)框架[17], 將試驗目的、恰當的試驗設計以及療效評估和假設檢驗的方法緊密結合,融入了因果目標(causal estimand)的思想,值得在RWS中借鑒。
對于臨床醫生而言,進行醫學研究設計時,應在設計的角度考慮現有設計能否回答因果問題,并事先計劃好分析策略以避免事后數據挖掘帶來的P值掘取問題(P-hacking);在研究執行的過程中,時刻監督研究中是否出現會扭曲因果關系的事件,并提前考慮分析方式;在數據分析和解讀的過程中,除了使用事先計劃的分析策略和方法獲取分析結果外,通過分層分析了解結論的一致性,通過敏感性分析考察結論的穩健性。總之,研究者應當充分認識到臨床試驗中的因果要素,從而正確認識試驗所能提供的證據等級,并在實際工作中產生高等級的醫學證據。
利益沖突:所有作者聲明不存在利益沖突。