真實世界研究中的因果推斷及粗化精準匹配

2019-01-27 13:52:56朱迪劉寶

中國藥物經濟學 2019年10期

朱迪劉寶

21世紀以來，真實世界研究（real-world study）在我國發展迅速，已逐漸成為藥物研發與監管、相關衛生政策制定的重要依據。我國在2002年提出要使用醫保數據為藥物處方與藥物經濟學評價提供支持；2010年，“真實世界證據”一詞首次被應用于一項中藥的研究中；2012年，中國醫師協會開展了一項關于“如何在觀察性研究中評估健康干預效果”研究；2018年，3項我國的真實世界研究支持了貝伐珠單抗在我國的適應證拓展；2019年，國家藥審中心發布了《真實世界證據支持藥物研發的基本考慮（征求意見稿）》，涵蓋上市前臨床研發和上市后再評價等環節[1-3]。

大量真實世界研究需要使用觀察性數據進行因果推斷，如政策效果評估中需要考察政策實施帶來的結果與影響，藥物經濟學評價中需考察不同用藥方案成本與健康結果的差異[4]。因果推斷的具體方法包括匹配法、斷點回歸法、工具變量法、結構方程模型法等等，其中最為常用的方法之一是傾向性評分匹配法（propensity score matching, PSM）[5-6]。

PSM應用十分廣泛，但同時也具有一定局限性。有學者論證了PSM的局限性，并提出“粗化精準匹配”（coarsened exact matching, CEM）；CEM在某些方面比常見匹配方法更加具有優勢，且已有一定的實證性研究驗證了其效果[7-8]。

本研究首先對因果推斷及真實世界研究進行介紹，然后對真實世界研究中常用的“匹配（matching）”方法進行闡述；在此基礎上進一步介紹CEM，并基于文獻闡述其與 PSM 等匹配方法比較的優勢，為CEM的推廣與應用做鋪墊。

1 因果推斷與真實世界研究

1.1 因果推斷的概念及原理

因果推斷是尋找觀測到的現象的成因的過程，通過模型與統計方法，對兩者之間的因果關系進行判斷[4]。

現在最常用于因果推斷的模型是1970年提出的“反事實框架（counterfactual framework）”，也叫“潛在結果框架（potential outcomes framework）”。反事實框架基于這樣一種邏輯：一個個體接受或未接受某種干預時，結果指標的差異即為干預產生的結果，因此便可以將干預與結果之間建立因果關系；但是一個個體不可能同時處于干預和不干預兩種不同的狀態，因此要通過多種方式（如選擇相似的個體、同一個體先后觀察兩種干預狀態和結果指標等）來模擬不能與被觀測的狀態同時存在的另一種狀態，建立“虛擬的事實”，進行因果推斷[9]。

1.2 基于觀察性數據的真實世界研究的因果推斷

在實際應用中，因果推斷的重要作用是觀察不同的健康干預措施后的健康產出，以測量健康干預措施的效果[9]。一般會通過內部效度（internal validity）和外部效度（external validity）來評估因果推斷的有效性。內部效度用來衡量干預與結果之間關系的確實性程度，因果推斷越準確，則內部效度越高，結論越可信；外部效度用來衡量研究結果的代表性與普遍性，樣本人群對總體人群越有代表性、結論越能在更多人群中推廣，則外部效度越高，研究與結論越具有現實意義。

隨機對照試驗（randomized-control trial, RCT）具有很好的內部效度，被視為因果推斷的金標準；但由于其納入排除標準嚴格，樣本人群對總體人群的代表性較弱；為了更好地進行因果推斷，RCT往往對干預措施有一定的限制，這種與實際情況的差異也會導致外部效度的下降。另外，RCT也面臨難以操作、成本高昂等問題，有時也會因為倫理問題而難以實施[9-10]。

由于RCT具有上述局限性，研究者們開始尋找通過觀察性數據進行因果推斷的方法。國內外已有越來越多的學者開始使用觀察性數據進行真實世界研究，國內也有學術組織對相關研究建立了方法學框架。真實世界研究體系主要包括建立研究型數據庫、研究設計、政策轉化 3大內容。研究者需要從電子病歷、醫保數據庫等中獲取信息并進行整合，“基于科研目的，形成統一、標準化、可用的研究型數據庫形式”[11]。真實世界研究的設計思路與RCT略有不同：RCT需要首先明確研究目標并進行研究設計，以此為基礎進行干預并收集數據，進行統計分析與政策建議；真實世界研究則在明確研究目的后，對已有的觀察性數據進行探索與全面了解，以此為基礎形成相應的研究設計，之后對數據進行整理與分析，并提出政策建議[5]。

與RCT等干預性研究比較，真實世界研究所需要的觀察性數據相對容易獲得，對總體人群更加具有代表性，外部效度較高；但基于觀察性數據進行研究設計與因果推斷時面臨內部效度較低的問題，主要體現為各種偏倚與混雜影響結果的真實性、可靠性[12]。

2 匹配的目的、作用及局限性

2.1 匹配的目的

“匹配”是使用真實世界觀察性數據進行因果推斷時的重要方法，可以提高因果推斷的內部效度[10]。匹配是為了根據研究目的從總體的觀察性數據集中識別出這樣一組子數據集：這個子數據集由RCT產生，根據是否接受健康干預措施可被分為干預組與對照組，使兩組樣本在除了健康干預之外的協變量情況盡可能一致。如果能夠識別出這樣的子數據集并去除其他樣本，就相當于從觀察性數據集中識別出了經過隨機對照的研究設計得到的數據集，便能夠使用觀察性數據模擬隨機對照試驗，提升證據力度與內部效度[7]。

2.2 匹配有利于進行可信的因果推斷

最理想的情況下，干預組中的每個樣本都能匹配到對照組中的某個樣本，且兩個對應的樣本在所有協變量上的情況完全一致。這種情況被稱為精準匹配（exact matching）。在這種情況下，干預組與對照組在健康產出上的差異完全由干預帶來。但在實際情況中往往無法做到精準匹配，只能為干預組中的部分樣本匹配到“相似”的樣本作為對照。此時，健康產出的差異不完全是由干預帶來的，因此在匹配后還需要進一步借助統計模型進行推斷。

想要得出可信的因果推斷結論，需要降低模型依賴性和干預組與對照組之間的不平衡性。有效的的匹配可以實現這樣的目的[8]。

2.2.1 匹配降低模型依賴性模型依賴性（model dependence）是指統計推斷會受到統計模型選擇的影響，導致不同的統計模型可能會給出不同的結果，影響結果的真實性、可靠性。

使用觀察性數據進行統計推斷時，需要基于數據情況、研究目的等多種因素進行研究設計并選擇統計模型。現實情況中，面對大量的觀察性數據，研究者難以很好地掌握所有的數據細節，因此并不知道何種統計模型最適合于當前的觀察性數據。這時，研究者會基于經驗和實際情況使用多種模型進行嘗試，并得到多種研究結果；之后，研究者會根據經驗與專業知識等，對模型與結果進行選擇、報告與發表。在因果推斷的過程中納入研究者的經驗與專業知識有利于得到更加可信的研究結果，但也可能導致研究者的偏好、利益相關等因素影響到模型與研究方法的選擇，進而影響研究結果[7]。

上述情況的存在使模型依賴性成為衡量研究結果真實可靠與否的重要維度。有學者設計出了指標來測算模型依賴性大小，用于衡量統計推斷結果對模型選擇依賴程度。通俗地來講，對于一個數據集，如果使用不同模型得出的統計推斷結果差異較大，即模型的選擇對統計推斷有很大的影響，則被認為模型依賴性較大；如果使用不同的模型得出的統計推斷結果幾乎沒有差異，即模型的選擇基本不影響統計推斷，則被認為模型依賴性較小。模型依賴性小的因果推斷更加真實、可靠；有效的匹配可以降低模型依賴性[7-8]。

2.2.2 匹配降低不平衡性如前文所述，匹配的目標是通過對真實世界觀察性數據的處理與刪減，使最終篩選出的數據集近似從嚴格設計的隨機對照實驗中得到的數據集；最理想的情況是精準匹配[13]。因此，可以用匹配后得到的數據集與精準匹配時得到的數據集之間的差距來衡量匹配的效果，即越接近精準匹配，則匹配的效果越好；這種差距被稱為“不平衡性（imbalance）”。

數據集的不平衡性降低時，其模型依賴性也會越降低；有效的匹配可以降低數據集的不平衡性，同時也會降低其模型依賴性；基于這樣的數據集得出的因果推斷更加真實可靠[7]。

2.3 常用匹配方法面臨的困境

有效的匹配應該經歷兩大步驟：首先，需要將干預組與對照組中的“非一般經驗支持樣本（units outside the common empirical support）”從觀察性數據集中去除，否則會對研究的外推性提出要求，而這是根據數據本身無法給出的；然后，在剩余的樣本中，根據樣本之間的相似程度，將干預組與對照組的樣本進行匹配。只有識別出了哪些是可以進行有效匹配樣本，才能夠判斷哪些是非一般經驗支持樣本；但是只有當匹配過程降低了數據集的不平衡性，才能夠識別出能夠有效匹配的樣本；然而，要衡量數據集的不平衡性的變化，首先要將非一般經驗支持樣本去除。雖然研究者們提出了很多識別、去除非一般經驗支持樣本的方法，如核密度估計等，但是這種邏輯循環卻無法避免；也因為其他種種困難，很多研究在實踐中跳過了第一步驟，直接對整個觀察性數據集進行匹配[8]。

現在最常用的匹配方法之一是 PSM。基于協變量計算每個樣本的傾向性評分后，將干預組與對照組之間評分最接近的樣本匹配在一起，可以使匹配后的數據集接近于通過完全隨機對照試驗產生的數據集。但是，和大量其他方法一樣，PSM 方法也無法解決前文提到的邏輯循環等難題；且由于PSM基于傾向性評分進行匹配，并非直接基于協變量進行匹配，因此無法保證配對成功的樣本的協變量取值相似；在實踐中需要進行多次嘗試，或者加入一些其他限制條件，直到匹配出干預組與對照組在協變量的不平衡性在可接受范圍內的結果。這種匹配方法在不斷地嘗試的過程中去發現不平衡性較低的結果，隨機性大，效率低下，在某些情況下效果較差。另外，由于PSM通過匹配來模擬完全隨機對照試驗，因此會產生“傾向性評分悖論（propensity score paradox）”：在數據集本身不平衡性較大的時候，可以一定程度上減少不平衡性；但是若數據集的不平衡性本身已經較低，希望通過匹配來使其進一步降低，此時PSM會增加其不平衡性[7,14-15]。

3 CEM的優勢及其應用

3.1 CEM的概念及原理

King和Nielsen[7]、Iacus等[8]提出的CEM能夠一定程度上克服上述困難。CEM的思想是先“粗化”，再精準匹配。“粗化”并非在這里首次出現，它是一種研究者常用的數據處理方法。比如，對于教育程度變量，研究者一般會將其分類為小學、高中、大學等，而較少更加細致地分為小學一年級、小學二年級等；又如，對于年齡變量，根據不同的研究類型，可以將其作為連續性變量納入研究，也可將其分段并作為分類變量納入研究，這種分段即為粗化思想的應用。雖然在匹配過程中進行粗化會不可避免地帶來信息的損失，但是CEM后的統計分析仍然使用原數據集中的值，而不是在CEM中粗化后的值；因此，CEM的粗化對后續建模與統計分析帶來的影響很小。

CEM的實施可大致分為4步：1)將所有要納入匹配的協變量記為X= (X1,X2, . . . ,Xk)，X是一個用來表示每個樣本在k個協變量上取值的k維向量；復制每個樣本的X，并記為X*，用于進行后續粗化和匹配。2）根據研究目的、文獻、國際標準、研究者的經驗或專業知識等，對X*中的每個變量進行粗化。3）根據每個協變量的粗化情況建立層，并將所有X*放入相應的層內；例如，如果在第二步中每個變量都被粗化為了3類，那么在這一步就會建立3k個層。4）判斷每個層中是否同時存在干預組和對照組，如果是，則保留這個層以及其中的樣本，反之則刪除；最后根據篩選后留下的X*在原數據集中找到對應的X，得到最終的匹配結果。

3.2 CEM的優勢及特性

與PSM等常見匹配方法相比，CEM具有許多優勢和特性[8,16-17]：1）匹配的有效與否由兩組間的不平衡性判斷，不平衡性降低則匹配有效；CEM 的原理決定了它不會使不平衡性上升，保證了匹配的有效性。在進行粗化時，不平衡性的上限就已被決定，后續的匹配過程不會使不平衡性上升。2）CEM在進行粗化和匹配時，對每個協變量的處理是獨立的，對一個協變量的處理不會影響其他協變量的粗化與匹配。研究者可以對每個協變量進行單獨處理，有利于降低兩組間的不平衡性，同時也能夠單獨研究每個協變量對降低不平衡性的貢獻。PSM 等方法需要使用所有協變量構建傾向性評分，并根據傾向性評分進行匹配，研究者難以對每個協變量進行單獨的處理與研究。3）CEM 符合“一致性原則（congruence principle）”，有利于因果推斷。常用的匹配方法不基于原始數據進行匹配，如PSM方法基于傾向性評分進行匹配，馬氏距離法使用原始數據計算馬氏距離進行匹配，這會導致因果推斷力度變弱。CEM 基于原始數據進行匹配，在更加符合直覺的同時，有利于做出有力因果推斷。4）CEM不需要提前去除非一般經驗支持樣本。如前文所述，匹配面臨邏輯循環：有效的匹配需要首先去除非一般經驗支持樣本，而這需要基于有效的匹配。CEM 將去除樣本和匹配兩個步驟合二為一，在同一個層中不同時存在干預組和對照組的樣本時，這個層中的樣本便未被匹配并被去除。這樣的操作簡單、易理解，且由于不需要提前去除樣本，更有利于比較匹配前后數據集的不平衡性，以衡量匹配的效果。5）對于質量較好的數據集，CEM能夠保留大量的樣本，且速度比其他匹配方法更快。有研究使用真實的數據集比較不同匹配方法的效果，發現CEM能夠保留最多樣本量，且計算機運算時間最短；也有一項實證研究對相同的數據庫分別使用了 PSM和CEM，發現CEM保留了更多的樣本[8,18-19]。大量的樣本保證了數據集對目標人群的代表性，同時也能夠增強因果推斷的力度。6）CEM可以降低的模型依賴性。由于CEM不會使不平衡性上升，可以穩定地降低數據集的不平衡性。模型依賴性會隨著不平衡性的下降而下降，因此CEM可以在較低的模型依賴性下做出更加可信的因果推斷。另外，CEM可以納入幾乎所有類型的協變量；CEM可以將缺失作為單獨的一種取值來進行匹配。CEM的效果受到粗化方式的影響，粗化得越合理、越細致，則匹配效果越好；不過有研究在同一數據集中嘗試不同的粗化方式，發現更加合理的粗化方式確實能夠使匹配后的不平衡性下降得更多，但沒有明顯的優勢，即粗化方式的不同不會顯著地影響匹配效果，研究者在粗化方式的選擇上有較大的自由空間[8]。

3.3 CEM的應用

部分實證研究已采用了CEM。在Pubmed數據庫中以“coarsened exact matching”為關鍵詞進行檢索，截止到2019年4月，共有131篇文獻；其中66篇為公共衛生領域的實證性研究，43篇為關于臨床操作項目的實證性研究，9篇為關于臨床用藥的實證性研究。

大多干預性研究通過對干預組及其對照組進行匹配，評估干預措施對醫療費用/健康產出的影響，進而評估干預措施/政策的實施效果，為監管與決策提供證據。

4 討論

4.1 真實世界研究能夠為藥品監管與相關決策提供支持

美國與歐洲都已開始使用真實世界研究為藥品監管提供證據。美國食品藥品管理局（FDA）于2018年發布了《真實世界證據項目框架》，指出真實世界研究可提供健康產品的安全性、有效性證據，可以輔助決策，發揮加快審批流程等重要作用；歐洲藥品管理局EMA于2018年發布文件闡述了真實世界研究在藥品上市前后可以發揮的不同作用[20-21]。

已有一些真實世界研究為藥品的監管提供了支持。一項2014年的真實世界研究為Invega Sustenna的適應證拓展提供了證據；一項2016年的真實世界研究作為一項單臂的Ⅱ期臨床試驗的對照，加快了Bavencio在歐洲和美國的上市；另有三項我國的回顧性真實世界研究為貝伐珠單抗在我國的適應證拓展提供了證據[22-23]。

隨著我國醫院電子病歷數據庫、醫保數據庫等的完善，真實世界研究能夠在藥品上市后的安全性與有效性評估、費用研究、藥物經濟學評價、預算影響分析等方面發揮重要作用，為藥品監管與相關決策提供支持。

4.2 相較于常用的PSM等匹配方法，CEM有優勢也有劣勢

真實世界研究需要采用包括匹配在內的多種方法提升其真實性、可靠性，提升其證據力度。PSM是最常用的方法之一，它使用協變量構建傾向性評分，將具有多個維度的個體特征壓縮至一維并以之為匹配的依據；CEM不對個體特征的維度數量進行壓縮，而是對每個維度的取值進行粗化，并基于多維特征進行匹配。這種原理上的差異產生了匹配結果上的差異。

一些實證性研究顯示PSM等匹配方法能夠匹配出更多的樣本，但是要納入所有可能對結果有影響的協變量，否則會影響結果的真實性。CEM能夠避免匹配過程中的邏輯循環，在匹配后大幅降低干預組與對照組之間的不平衡性并降低模型依賴性；但是一些實證性研究顯示CEM獲得的樣本量較少，特別是在協變量中包含大量分類變量的情況下，CEM的結果可能會失去對原人群的代表性。樣本量越大則能夠對原人群有更好的代表性，兩組間越均衡則更能得出真實可信的結論；PSM與CEM在這兩方面各有優劣，研究者需要結合數據的實際情況與研究設計在樣本量與均衡性兩方面進行權衡，選擇恰當的匹配方法[7,15,24-25]。

4.3 CEM可與其他匹配方法共同使用

除了可單獨使用外，CEM也可與其他匹配方法共同使用，提高匹配效果。比如，可以在CEM將變量粗化、分層并匹配后，將同一層內的干預組與對照組樣本使用其他匹配方法進行二次匹配；或者也可以在CEM之后，對得到的數據集整體直接使用其他的匹配方法再次匹配，此時是將CEM作為去除非一般經驗支持樣本的手段，提升匹配效果[8,14]。

CEM是一種優秀的匹配方法，但國內還鮮有實證性研究使用；PSM和CEM各有優劣，適用于不同類型的數據與研究設計。近幾年，越來越多的研究開始使用真實世界數據，更加需要基于實際情況選擇合適的匹配方法，以獲得更加科學可信的研究結果。