陳會會 尤東方 酒 勵 魏永越 柏建嶺 陳 峰 趙 楊△
傾向性評分法和馬氏距離法在匹配中的比較與應用*
陳會會1尤東方1酒 勵2魏永越1柏建嶺1陳 峰1趙 楊1△
目的比較傾向性評分法與馬氏距離法在匹配中的效果,在醫學數據中驗證傾向性評分悖論的觀點。方法通過最鄰近匹配及卡鉗匹配選擇最佳匹配方法,計算不同卡鉗值下刪減個體數后樣本的不平衡性,比較傾向性評分法與馬氏距離法的穩定性。結果對于本研究的數據,傾向性評分法的卡鉗匹配是最佳的匹配方法;傾向性評分法在刪減個體數達到一定后,繼續刪減匹配較差個體會增加樣本的不平衡性,馬氏距離匹配的樣本不平衡性隨著刪減個體數的增加而減少。結論傾向性評分匹配法調整混雜時,不宜刪減較多個體尋找更加精確匹配的匹配集。
傾向性評分 馬氏距離 匹配 傾向性評分悖論
當混雜因素較多或處理組與對照組間某些特征差異較大時,傳統控制混雜因素的方法常不適用,因此傾向性評分法(propensity score,PS)作為控制混雜因素的另一種常用方法應運而生,并且廣泛適用于觀察性研究及非隨機化的臨床數據中[1-2]。所謂傾向性評分,是指在給定個體協變量的基礎上,個體被分入處理組的條件概率。具體來說,利用模型對多個協變量進行某種變換計算出傾向性評分值來衡量個體被分入處理組的可能性。在計算出每個個體的傾向性評分后,可以采用匹配、分層、回歸調整等方法來調整混雜因素。其中,傾向性評分匹配(propensity score matching,PSM),作為一種常用的方法,廣泛應用于醫學、經濟學、社會學等多個領域。在公共衛生領域,PSM在人群的健康干預研究和療效評價中也有著廣泛應用。如:互助醫療改善衛生服務可及性的效果評價[3];加拿大學齡兒童饑餓與超重的關系:基于傾向性評分匹配分析研究[4]。傾向性評分有兩種使用方法,當樣本量較大且協變量較少時,較宜采用分層調整或回歸調整的方法控制混雜因素,當對照組樣本量遠多于處理組樣本量且協變量較多時,采用匹配的方法能夠較好的控制混雜。
2016年,Gary King等人提出了傾向性評分在進行匹配時存在的缺陷——傾向性評分悖論(propensity score paradox,PSP)[5]。他們提出,利用傾向性評分匹配會導致不平衡性、模型依賴以及偏倚,反而降低傾向性匹配的效果,而他們的觀點只在社會學數據中進行證實,本研究將利用醫學數據對傾向性評分悖論進行探討,并比較傾向性評分匹配和馬氏距離匹配兩種匹配方式。
本研究所用到的實例數據來自于網絡數據庫[6]中的右心導管插入術數據集。源數據發表于1996 年的JAMA雜志,是傾向性評分法匹配的經典應用案例[7]。該數據用來描述右心導管插入術(right heart catheterization ,RHC)在危重病人的最初護理時的有效性研究,其結局變量包括生存時間、護理的費用、護理的強度以及醫院期間的住院時間。實例數據的樣本量為5735例,其中使用RHC(處理組)的有3551例,未使用RHC(對照組)的有2184例,共63個變量。在協變量選擇方面,原文中選取了53個協變量,但由于其中3個協變量的缺失率高達53%,且不是所研究的重要協變量,因此本研究在進行匹配時將其剔除。最后,我們選取了年齡、性別、種族等50個協變量進行匹配,并對匹配后兩組的結局變量——30天的生存時間及住院時間進行了分析比較。
根據Rosenbaum 和 Rubin對于傾向性評分的定義為[8-9]對于研究對象i(i=1,…,N),在給定一組協變量(Xi)的情況下,任意一個研究對象被分配到處理組(Zi=1)的條件概率。這個條件概率可以表示為:e(xi)=pr(zi=1|Xi=xi),其中,xi為個體i的協變量,e(xi)為個體i被分入處理組的概率,也叫做傾向性評分值。目前用來估計傾向性評分的常用方法有logistic 回歸、Probit回歸、支持向量機、神經網絡、分類及回歸樹、Boosting等機器學習的算法,其中最常用的方法為logistic 回歸模型[10]。當求解出傾向性評分值后,可以用傾向性評分值相等或相近作為準則,對不同組個體進行匹配,使得組間協變量的分布相同或相近,從而控制組間混雜偏倚。常用的匹配方法包括:1∶1最鄰近匹配法(nearest neighborhood matching)與卡鉗匹配法(caliper matching),本文中就采用這兩種方法。
最鄰近匹配的具體做法為:首先利用logistic模型計算傾向性評分值,根據分組變量將處理組與對照組區分開;然后對處理組個體隨機排序,從處理組中選出第一個個體,與對照組中全部個體的傾向性評分值進行比較,找出對照組中傾向性評分值相同或相近的個體進行配對,若對照組中有2個或2個以上與處理組個體傾向性評分值相同,則隨機選?。蛔詈?,配對成功的個體從數據中剔除,對下一個體重復如上步驟,直到處理組個體全部完成匹配。卡鉗匹配法是在最鄰近匹配集的基礎上根據傾向性評分值在最鄰近匹配集中的分布設置不同的卡鉗,刪除兩組傾向性評分值之差在卡鉗值范圍外的配對個體,得到不同精度的匹配集[11],然后計算協變量之間的均衡性及樣本不平衡性,并將結果進行匯總。

這里我們定義匹配集的平均馬氏距離即為樣本的不平衡性,用I(X)表示,公式為:I(X)=meani∈id(Xi,Xj(i)), 其中,j(i)=argminj|Tj=1-Tid(Xi,Xj)[13]。I(X)中的d指馬氏距離,而j(i)中的d根據不同匹配方法有所不同,如PSM時,d表示Xi與Xj之間的傾向性評分值之差的絕對值;MDM時,d表示Xi與Xj之間的馬氏距離。最后,比較不同匹配方法下處理因素對結局變量的影響。
傾向性評分匹配、馬氏距離匹配及對結局變量的分析均應用SAS 9.4軟件實現。對于連續型協變量采用秩和檢驗來比較處理組與對照組之間協變量的分布差異,分類變量采用卡方檢驗比較兩組間的協變量分布的差異,處理因素對結局變量的影響采用COX比例風險模型進行分析。
1.匹配前后兩組協變量間的均衡性比較
由表1 和表2 可以看出,對于RHC的數據,傾向性評分法的卡鉗匹配是控制混雜因素偏倚的最佳方法(除肌酐外其他變量在兩組間都均衡),且傾向性評分匹配的兩種方法比馬氏距離匹配的兩種方法調整協變量混雜要好。PSM與MDM最鄰近距離匹配的對子數為2011(4022例),卡鉗匹配的對子數為1202(2404例)。
2.不同卡鉗值下刪減個體數對樣本不平衡性的影響
由圖可知,從最鄰近匹配集開始(即第一個點)隨著卡鉗值的不斷減小,處理組與對照組傾向性評分值之差落在卡鉗值之外的匹配個體越來越多,刪除的匹配個體數也逐漸增加,PSM的樣本不平衡性會先隨著刪減個體數的增大而減小,達到某個值后,繼續隨著卡鉗值的減小刪除匹配較差的個體,樣本不平衡性逐漸增加,而MDM的樣本不平衡性隨著刪除匹配較差個體數的增加而減小,并且PSM的樣本不平衡性始終大于MDM的樣本不平衡性。
3.不同匹配方法后的處理因素對結局變量的影響
由表3,表4可知,經PS卡鉗匹配后,使用右心導管插入術患者的30天的死亡風險是不使用右心導管插入術患者的1.185倍,使用右心導管插入術是危險因素;是否使用右心導管插入術對患者的住院時間無統計學差異(HR:1.1000,HR的95%可信區間:0.9270~1.2080)。

表1 連續型變量在匹配前后的組間比較
*:0.06*(1/4樣本傾向性評分值標準差)和6.572*為PSM和MDM各自的卡鉗值,此時兩者的對子數相等,1202對(2404例)。

圖1 樣本不平衡性隨刪減個體數的變化

匹配方法回歸系數標準誤風險比風險比95%的可信區間匹配前0.20970.05321.23301.1110^1.3690PS最鄰近匹配0.19170.05661.21101.0840^1.3530PS卡鉗匹配0.16980.07001.18501.0330^1.3590MD最鄰近匹配0.25730.06161.29301.1460^1.4590MD卡鉗匹配0.35590.08611.42701.2060^1.6900

表4 匹配后處理因素對住院時間的分析比較
本研究基于右心導管插入術在危重病人最初護理時的有效性研究實例,比較了傾向性評分法和馬氏距離法用于匹配時的組間協變量不均衡性及對分析結果的影響,還比較了PSM與MDM的樣本不平衡性隨刪減個體數的變化趨勢,在醫學研究中驗證傾向性評分悖論的觀點。分析結果顯示,傾向性評分法的卡鉗匹配(卡鉗值為0.06)最能有效均衡協變量之間分布與構成,并且PSM的匹配效果均優于MDM。傾向性評分法的卡鉗匹配法在控制混雜因素的影響方面是最佳的匹配方法。若使用更加嚴苛條件進行匹配(刪減更多的個體數),得到更加均衡可比的樣本,傾向性評分匹配法則可能會出現增大樣本不平衡性的缺陷,但是對于馬氏距離匹配法,卡鉗值越小,刪減的個體數越多,樣本的不平衡性越小,匹配的效果越好,越能夠控制混雜因素的影響。
在不能進行隨機化的觀察性研究中,往往需要通過統計學方法進行調整后,才能評價研究因素與研究結果之間的真正聯系。在醫學領域,由于隨機化試驗的花費昂貴,或倫理學問題使得觀察性研究的數量不斷增加,因此,傾向性評分法與馬氏距離法對于這類數據的分析起到了重要作用[14]。最鄰近匹配的方法簡單易懂,經常為研究者所用,但當兩個體實際距離較遠時,在傾向性評分的基礎上仍會進行匹配,此時匹配效果較差。因此,當研究者想要得到較精確匹配的匹配集時,常采用卡鉗匹配,但是使用PS的卡鉗匹配時,會產生傾向性評分悖論的問題,即增加樣本的不平衡性。
采用傾向性評分法對觀察性數據進行混雜調整實質上是建立一種接近于完全隨機分布的研究設計,基于PSM的條件獨立性假設,則處理組與對照組傾向性評分值相同的個體進入處理組的概率是相同的,也就可以認為是隨機分入每一組,是一種“事后隨機化”。隨著卡鉗值的減小,傾向性評分值越來越接近在一個相對恒定的范圍內且大小相近。此時,匹配后的匹配集接近于完全隨機設計,再隨著卡鉗值的減小繼續刪減匹配較差的配對個體相當于隨機刪除,由于在真實數據中兩組之間的匹配差異不同,隨機刪除會增加樣本不平衡性。其次,傾向性評分悖論出現的另一個原因是由于刪減匹配較差的配對個體時,只是根據傾向性評分值這一指標進行刪減,而不是以協變量為指標去刪減個體。最后,刪除了匹配不成功或匹配較差的的個體減少了原樣本的信息,樣本不平衡性也會增加。有研究表明,隨著協變量維度的增加,傾向性評分悖論出現越早,樣本不平衡性也越大;且對于原始數據較平衡數據而言,使用傾向性評分的方法進行匹配也較易出現傾向性評分悖論[15]。而對于馬氏距離匹配,直接在協變量的指標上計算處理組個體與對照組個體的馬氏距離,接近于完全區組設計,刪減匹配較差的配對個體,使得匹配集協變量的均衡性增加,樣本不平衡性減小[16]。但是對于本研究的數據,由于協變量較多,對于馬氏距離匹配來說,不太容易找到精確的匹配,因此在調整協變量的均衡性方面,馬氏距離匹配效果較差。由于計算傾向性評分值的方法不同,研究者根據自身意愿選擇利于自己結論的計算傾向性評分值的模型會導致模型依賴,從而引起偏倚,產生傾向性評分悖論。
雖然使用傾向性評分匹配控制混雜偏倚會出現傾向性評分悖論的問題,但是對于大樣本的觀察性數據及臨床非隨機化數據的混雜調整,PSM仍然有著很大的作用。與傳統的控制混雜的方法相比,傾向性評分的優點如下[17]:首先,將多個協變量歸為一個傾向性評分值來分析,使得匹配的過程簡單化,達到降維的效果;其次,大樣本的觀察性數據,PSM能夠避免過度的匹配與分層,處理更多的協變量,減少偏倚,且操作簡單方便。然而,PSM也存在不足與缺陷[18]:一方面,真實的研究數據一般較難嚴格滿足PSM的應用條件,如條件獨立性即給定協變量,觀察對象的潛在結局獨立于分組,也就是說研究對象的潛在結局與研究對象分到哪組無關,以及處理組與對照組間的傾向性評分分布有足夠大的重疊區域[2]。對于PSM均衡多個協變量,只是局限于已知混雜的因素,對于一些未知的混雜因素會對研究的結果產生偏倚[19];另一方面,進行PS匹配時,處理組個體的順序也會影響匹配結果,一般采用隨機排序的方法進行匹配;最后,如果納入模型的協變量有缺失,模型的擬合效果會降低,例如本研究的實例中使用logistic回歸模型去計算傾向性評分值,如果任何一個個體的協變量有缺失,那么這個個體的傾向性評分值就會缺失,此個體匹配就不成功,一般需填補后才能進行匹配。馬氏距離的優點是考慮了變量之間的相關性,還消除了量綱的影響,但其最大的缺點就是隨著樣本協變量的增加,馬氏距離的大小及運算量也隨之增加,匹配的效果下降,因此MDM多用于協變量較少,樣本量足夠的觀察性研究中。
研究者在用傾向性評分法做匹配時,在樣本不平衡性增加之前停止刪除個體可以避免傾向性評分悖論的產生;對于兩組協變量之間差別較大的數據,使用PSM進行較少刪減是控制混雜的有效可行的方法。但本研究的局限性在于只針對適合于PS方法匹配的數據進行了傾向性評分悖論的驗證,沒有探討對適用于MDM方法的數據,傾向性評分悖論是否成立;只選取了實例數據中的未缺失數據進行匹配;只進行了1:1的匹配,未進行其他比例的匹配,這些問題均有待進一步研究。
[1] 鳳元芳,趙愛光.傾向性評分法在觀察性臨床研究中的應用.中國臨床研究,2016,29(02):276-279.
[2] 焦明旭,張曉,劉迪,等.傾向性評分匹配在非隨機對照研究中的應用.中國衛生統計,2016,33(02):350-352.
[3] 高建民,陳鋼.互助醫療改善衛生服務可及性的效果評價.中國衛生經濟,2007,26(10):34-38.
[4] Sentenac M,et al.Hunger and overweight in Canadian school-aged children:A propensity score matching analysis.Canadian journal of public health,2016,107(4-5):447-452.
[5] King G,Nielsen R.Why Propensity Scores Should Not Be Used for Matching.2016,February 28.http://gking.harvard.edu/files/gking/files/psnot.pdf.
[6] http://biostat.mc.vanderbilt.edu/wiki/Main/DataSets
[7] Connors AF,et al.The effectiveness of right heart catheterization in the initial care of critically ill patients.SUPPORT Investigators.JAMA,1996,276(11):889-897.
[8] Rosenbaum PR,Rubin DB.The Central Role of the Propensity Score in Observational Studies for Causal Effects.Biometricika,1983,70(1):41-55.
[9] D′Agostino RB,Jr.Propensity score methods for bias reduction in the comparison of a treatment to a non-randomized control group.Statistics in medicine.1998,17(19):2265-2281.
[10]吳美京,吳騁,王睿,等.傾向性評分法中評分值的估計方法及比較.中國衛生統計,2013,30(03):440-444.
[11]鄔順全,吳騁,賀佳.傾向性評分匹配法在多分類數據中的比較和應用.中國衛生信息管理雜志,2013,10(05):448-451.
[12]Mahalanobis PC.On the generalised distance in statistics.Proceedings of the National Institute of Sciences of India,1936,2(1):49-55.
[13]Abadie A,Imbens GW.Large Sample Properties of Matching Estimators for Average Treatment Effects.Econometrica,2006,74(1):235-267.
[14]Baltar VT,Sousa CA,Westphal MF.Mahalanobis′ distance and propensity score to construct a controlled matched group in a Brazilian study of health promotion and social determinants.Revista brasileira de epidemiologia=Brazilian journal of epidemiology,2014,17(3):668-679.
[15]King G,Nielsen R.Why Propensity Scores Should Not Be Used for Matching.2015,July 17.http://polmeth.wustl.edu/files/polmeth/psnot4.
[16]Rubin DB.Bias Reduction Using Mahalanobis-Metric Matching.Biometrics,1980,36(2):293-298.
[17]Rosenbaum PR,Rubin DB.Reducing bias in observational studies using subclassification on the propensity score.American Statistical Association.1984,79( 387):516-524.
[18]Rubin DB.Estimating Causal Effects from Large Data Sets Using Propensity Scores.Ann Intern Med,1997,127(8 pt 2):757-763.
[19]Brookhart MA,et al.Variable Selection for Propensity Score Models.Practice of Epidemiology,2006,163(12):1149-1156.
ComparisonandApplicationofMatchinginPropensityScoreMethodandMahalanobisDistanceMethod
Chen Huihui,You Dongfang,Jiu Li,et al
(DepartmentofBiostatistic,SchoolofPublicHealth,NanjingMedicalUniversity(211166),Jiangsu)
ObjectiveTo compared the effective of matching in propensity score method and mahalanobis distance method,and to verify the viewpoint of propensity score paradox(PSP)in medicine data.MethodsChoosing the best matching method through the nearest neighborhood matching and caliper matching of propensity score matching(PSM)and mahalanobis distance matching(MDM).Calculation the samples imbalance with different caliper values by pruning different numbers of observation,comparing the stability between the PSM and MDM.ResultsFor the existing Right Heart Catheterization dataset,caliper matching of PSM is the best matching method;and the level of imbalance is decreased when the numbers of pruned observations reaches a certain,then samples imbalance is increased as more observations are pruned randomly in PSM.By contrast,as pruning the number of observations turns to decrease the samples imbalance in MDM.ConclusionUsing propensity score matching to adjust the confounding factors,should not be pruned more observation to look for more precise matching dataset,otherwise propensity score paradox will be appeared.
Propensity score;Mahalanobis distance;Matching;Propensity score paradox
國家自然基金(81373102,81302512);公共衛生與預防醫學江蘇省高校優勢學科建設專項資金、江蘇省品牌專業建設資金資助(PPZY2015A067);江蘇省高等學校自然科學項目(12KJB310003);江蘇省青藍工程資助項目
1.南京醫科大學公共衛生學院生物統計學系(211166) 2.中國藥科大學國際醫藥商學院
△通信作者:趙楊,E-mail:zhaoyang@njmu.edu.cn
張 悅)