吳 晶 朱 玄 劉程宇
隨著醫療技術進步與人們健康意識提高,不斷增長的醫療需求與有限的醫療資源之間的矛盾日益突出,這為醫療資源配置所需的更加系統科學的證據支持提出新的挑戰。隨機對照臨床試驗(randomized clinical trial,RCT)是評判藥品療效的金標準,但其試驗條件嚴苛,并不能直接反映真實世界中的臨床實踐情況。同時,藥品安全性和有效性證據的收集已不再被視為上市審批服務的“一次性評價”,而是一種貫穿于產品整個生命周期的全程評價,僅靠臨床試驗證據并不能滿足這種需求。由此,基于“醫療大數據”的真實世界研究應運而生。
隨著臨床實踐的信息化程度不斷提高,藥品、手術以及醫療器械等醫療干預情況及臨床效果數據逐漸豐富,為基于真實世界醫療大數據的觀察性研究的開展提供了充分條件,其可彌補RCT 研究外推性較差以及開展成本過高等缺陷。由于國內外經濟社會發展水平、醫療衛生體制以及人民醫療需求不同,醫療資源配置決策需基于本國流行病學和疾病負擔等本土化數據,不能直接套用他國研究結果。同時,隨著醫保精細化管理不斷深入,我國醫保部門已開始推行以價值為導向的戰略性購買,如近年開展的創新藥品醫保準入談判以及按病種付費等打包式購買方式。在醫保支付方式改革中,打包付費(如門診人頭付費、住院病種付費)的實施也使得醫院需要對手術、藥品和耗材等醫療干預方式的價值進行評估,以控制成本,合理診療,實現醫院可持續發展。這些新的需求和趨勢都使得政府和醫療機構在決策時愈發重視基于本國醫療大數據的真實世界研究。
真實世界的醫療大數據通常樣本量龐大且信息豐富,通過嚴謹地統計分析,可以用以探究臨床實踐中患者的用藥情況、治療干預效果、疾病發生風險以及經濟負擔等,為相關衛生政策制定提供證據支持。其中,治療干預在真實世界中的效果評價是衡量其價值的重要維度,也是后續研究開展及政策制定的基礎。此類研究即被稱為“比較效果研究(comparative effectiveness research,CER)”。
美國患者中心結果研究所(The Patient-centered Outcomes Research Institute)將“比較效果研究”定義為“對比評價用于預防、診斷、治療疾病和監測健康狀況的不同干預措施或策略在真實世界中的患者獲益和損害的研究”[1]。這段定義強調了比較效果研究的兩個重要特點:1)比較效果研究需在真實世界情境下進行;2)比較效果研究是“頭對頭”設計,即設陽性對照組,而非安慰劑對照。因此,進行比較效果研究時,其產出指標為藥品在真實世界中的相對效果(relative effectiveness),而非RCT 環境下與安慰劑相比的療效(efficacy)或與其他陽性藥品相比的相對療效(relative efficacy)。
比較效果研究可根據研究時間設計的不同分為前瞻性和回顧性兩種類型。前瞻性比較效果研究是指目標結局事件陸續發生于研究開始之后的縱向隨訪觀察性研究,而回顧性研究則通常使用的是暴露和結局事件均已發生的二手數據,數據來源包括醫保數據庫、醫院信息系統、疾病注冊數據庫、健康調查數據庫、其他日常醫療照護數據等。我們主要討論基于醫療大數據的比較效果研究即屬于回顧性研究設計。
當缺乏頭對頭RCT 或前瞻觀察性研究時,可使用回顧性數據庫來探究多種治療干預的效果之間是否有差異;即使已存在頭對頭的臨床試驗,在臨床實踐中也可能因用藥人群、用藥依從性的改變而使其結果不能代表真實世界的實際效果。此外,由于臨床試驗通常研究時間較短,產出指標一般為中間指標,若想獲知較長觀察時間下的最終療效(如死亡率、殘疾率和生命質量等),長期隨訪的醫療大數據研究可以提供優質的證據。
國際藥物經濟學會(ISPOR)于2009 及2012年分別在其官方雜志Value in Health 上發布了比較效果研究優良研究規范,用以指導CER 的研究設計和執行,為醫療衛生決策提供更加嚴謹科學的證據[1-4]。本文即在這些指南的基礎上對比較效果研究設計的重點問題進行探討。
明確的研究問題和清晰的研究計劃是保障研究質量的第一步。為了定義一個具有科學性、創新性和可行性的研究問題,研究者可以從“預期得到什么樣的結果”開始考慮,即預想出回答研究問題所需的關鍵圖表,同時思考從現有數據中可以獲得哪些信息以及利用現有數據是否可以回答所要研究的問題。
同時,研究問題和數據可及性對研究設計的選擇也有著重要影響。已有學者綜述過CER 中常見的重要研究設計,包括隊列研究(cohort design)、病例對照研究(case-control design)、病例交叉研究(case- crossover design)和病例時間對照研究(case-time- control design)等[5-6],不同的研究設計的使用范圍各不相同。
在隊列研究中,通常將患者分為接受不同治療的多個隊列,追蹤一段時間后,可描述治療干預與特定結果的關系。但在結局事件發生率較低的情況(如嚴重不良反應)下,隊列研究最終追蹤到的發生結局事件的患者數量可能非常少,無法進行充分的因果推斷。此時,可考慮進行病例對照研究,即首先找出已發生和未發生結局事件的患者,比較兩組患者在之前一段時間內是否接觸過特定的治療干預,進而推斷治療干預與結局事件的關系。
隊列研究與病例對照研究順利開展的前提條件是存在一個具有可比性的對照組。若不能找到合適的對照組,可以考慮采用病例交叉設計,僅納入已發生結局事件且在該結局事件發生前的特定時間內接觸過治療干預的患者,進行自身對照(即患者本身既是病例組又是對照組),這類研究設計尤其適用于估計短暫的干預措施相關的急性不良事件的危險性。病例時間對照研究則是將病例對照和病例交叉研究糅合,在病例組自身對照的基礎上,同時建立一個未發生特定結局事件的對照組,以消除時間積累對暴露和結局因果關系的干擾。
由于現有的醫療大數據并非以科研為目的建立,產生的數據集并不能完全適配科研。在進行比較效果研究時,測量暴露(治療干預)和結局事件過程中可能會出現暴露錯誤分類和結局事件錯誤分類,從而產生偏倚。許多因素可能導致暴露或結局事件的錯誤分類,包括識別“暴露”的時間窗的長短、患者是否失訪和患者通過數據庫覆蓋范圍外的其他途徑獲得治療藥物等。
混雜是另一個影響基于醫療大數據的比較效果研究結果的重要因素。當已知某些因素會影響結局但在研究中未測量或無法測量,或所對比的治療干預的適用人群有差異而使得兩組患者的實際疾病嚴重程度不同時,就會產生混雜。此外,還存在一種更加復雜的混雜因素,即時間依賴性混雜(圖1)。它指的是同時充當混雜因素和中間步驟的變量。例如,在研究使用阿司匹林對心臟病死亡的影響時,心肌梗死事件便是一個時間依賴性混雜。因為發生心肌梗死是后續服用阿司匹林的原因,也是后續發生心臟死亡的風險因素;同時,阿司匹林使用也可預防心肌梗死的發生。因此,心肌梗死事件同時扮演了混雜(之前的心肌梗死導致患者使用阿司匹林)和中間步驟(隨訪心肌梗死事件的發生受阿司匹林使用的影響)的角色(這些關系詳細描繪于下圖1b。使用阿司匹林是治療干預A,而心肌梗死事件是混雜L,心臟病死亡是結局事件Y)。

圖1 時間獨立性與時間依賴性混雜的簡化因果關系
為降低和消除偏倚和混雜的影響,嚴格限制納 排標準是一種可選的方法,例如排除過發生過結局事件的患者、只納入新用藥患者、排除依從性低的患者等等。
如上所述,在使用醫療大數據進行比較效果研究時,為了增強因果關系推斷的可靠性,選擇適當的統計分析技術控制偏倚和混雜是十分必要的。常用方法主要包括分層分析、多元回歸分析和傾向評分分析等[4]。
分層分析是將樣本數據依據患者特征進行分組,分別觀察每個亞組內的結果,可以對相關特征如何影響結局事件以及在回歸模型中如何以最佳方式納入這些協變量提供重要信息。特別是當對隨訪時間進行分層時,可預防競爭風險(即觀察多個結局指標時,不同指標的發生之間存在競爭關系,例如發生先死亡的患者不會再發生心肌梗死)產生的偏倚或患者失訪導致的研究偏倚。在對研究樣本進行分層后,如果各個亞組之間具有顯著的異質性,則表示治療干預對不同特征的患者產生的效果不同,即存在測量效果修正作用(effect-measure modification)。
當分層分析發現組間異質性或需要同時校正多個混雜時,可使用多元回歸分析來控制這些獨立因素的影響,以確定治療干預與結局事件之間的特定相關性,這也是目前最常用的統計方法。在構建一個多元回歸模型之前,研究者應該進行系統全面的文獻回顧,以確認所有可能影響治療選擇與治療結果的潛在混雜因素。理論上與治療結果或治療選擇有關的所有因素,不論在傳統顯著水平下的統計顯著性為何,均應納入模型中。
傾向評分分析是近年來發展迅速的一種技術,可用來處理選擇偏倚及其他內生性問題。傾向評分是指,在控制所有協變量的情況下一個患者接受治療的條件概率(即評分處于0~1 之間)[7]。它可用于干預組和對照組患者的配對、分層或回歸,增強兩組患者的可比性。使用傾向評分進行分析時,通過比較兩組患者評分的分布可以識別出分數存在較少重疊的情況(即兩組患者可比性較差甚至不可比)。而在回歸分析中,這些差異將會被模型掩蓋。但整體而言,回歸或傾向評分方法均無明顯的優劣差異,且原則上兩種方法均可采用。
之外,最近許多處理混雜因素的新技術也有了進一步的發展,如邊際結構模型(marginal structural models)和結構方程式模型(structural equation modeling)等,也可應用于基于醫療大數據的比較效果研究[4]。
與歐美發達國家相比,我國在比較效果研究方面還未有深入而規范的探索,已發表研究較少,且研究設計較粗糙,具體呈現出如下幾點局限。
1)真實世界的實際樣本量較小。大多數研究的開展未使用真實世界的醫療大數據,而僅僅是基于一家醫院中某一疾病患病人群的病歷數據,外推性較差[8-10]。
2)研究設計中較少考慮控制混雜因素。在已發表文獻中,大多數研究僅采用簡單的描述性統計方法對干預組和對照組的結果指標進行分析,如t檢驗、秩和檢驗、χ2檢驗等,未對因果關系進行深入探究[10-12]。僅有非常少數的學者采用了線性回歸、傾向評分匹配等方法來控制研究中的選擇偏倚等問題[13]。
3)研究結局指標設計不合理。在以手術干預為研究對象的研究中,大多數探究的是術中出血等并發癥以及短時間內的預后情況[9,11],而沒有以再次手術率、術后長期并發癥、死亡率等作為終點研究指標;在對藥物治療效果的研究中,研究指標則基本是選取了所研究疾病對應的生理生化指標(中間指標)或治愈率、有效率,較少考慮長期終點事件指標、長期生命質量或生存率等相關指標[8,14]。
根據以上分析可以看出,我國基于醫療大數據的優質的比較效果證據還較為匱乏,這嚴重制約了我國真實世界研究支持醫療衛生決策的應用。為了提高我國醫療大數據的使用價值,規范比較效果研究的研究設計、改善研究質量迫在眉睫。
首先,應當提高對醫療大數據在真實世界研究中的應用意識。回顧性數據庫可提供海量患者信息,相較于RCT 而言具有成本低、研究時限短等優勢,可以用來探究治療干預在臨床實踐中的效果,進而為決策制定提供高質量的證據支持。國內學者們可綜合利用醫保數據庫、區域醫院聯合病歷信息系統、特定疾病登記系統等多種醫療大數據來源進行研究。但值得注意的是,醫院的電子病歷雖然記錄了詳細的臨床指標但往往不能實現對患者的長期隨訪,而醫保報銷數據庫雖然能實現長期隨訪且有較詳細的費用信息記錄但往往缺乏臨床指標信息。因此,研究者還應盡量結合多個數據來源開展研究,采用更加完善的研究設計,從而提高研究質量。
其次,在正式開展研究之前,應當撰寫一份完整的研究方案執行書(protocol),包括研究背景與理論基礎、研究問題/目的、研究設計類型、研究人群、納排標準、研究時間、主要療效指標和次要療效指標、統計分析方法等。建議研究者盡量保持研究的透明度,公開發表研究執行書,并且在研究過程中,嚴格遵照研究方案進行,若后續分析有所改動則應提供正當理由,并同時報告原有分析計劃和修改分析計劃后獲得的結果。
最后,在研究設計時,需特別注意混雜和偏倚的識別和處理。包括在定義目標人群時,選擇受混雜因素影響較小的群體,如疾病新發患者或新用藥患者;在納入樣本時,要求其在研究時限內持續隨訪;在選擇數據時,盡可能鏈接多個數據來源以獲得目標人群完整的治療、結局事件及其他影響因素的信息;在統計分析方面,要根據數據情況和研究類型,綜合選擇合適的統計方法,將無法排除的偏倚和混雜影響降到最低。
綜上所述,我國應大力加強對醫療大數據的利用,鼓勵研究者基于醫療大數據開展真實世界的研究,同時還要進一步規范研究步驟,提高研究結論的可靠性,使其足以支持臨床實踐或指導政策制定。