鮑曉蕾 高 輝 胡良平
多種填補(bǔ)方法在縱向缺失數(shù)據(jù)中的比較研究
鮑曉蕾1高 輝2胡良平3
目的 比較多種方法對縱向缺失數(shù)據(jù)的處理效果。方法 運(yùn)用SAS軟件通過蒙特卡羅模擬產(chǎn)生最常見的含一個分組因素和一個重復(fù)測量因素的縱向資料,對其進(jìn)行混合效應(yīng)模型分析,將結(jié)果作為標(biāo)準(zhǔn)對照。分別構(gòu)建任意缺失模式(AMP)和單調(diào)缺失模式(MMP)下完全隨機(jī)缺失(MCAR)、隨機(jī)缺失(MAR)和非隨機(jī)缺失(NMAR)六種缺失數(shù)據(jù)集,并使缺失率分別為10%、20%、30%、40%和50%,運(yùn)用刪除法、單一填補(bǔ)法、多重填補(bǔ)法和EM算法進(jìn)行處理。結(jié)果 在AMP下,當(dāng)MCAR和MAR時,低缺失率(≤10%)下所有方法的效果均較好;隨著缺失率的增大,只有多重填補(bǔ)法的效果令人滿意。在MMP下,當(dāng)MCAR和MAR時,只有線性回歸法和預(yù)測均數(shù)匹配法的效果較好。多重填補(bǔ)法的缺點(diǎn)是在一定程度上高估系數(shù)的變異程度。另一方面,填補(bǔ)方法對結(jié)果的影響遠(yuǎn)超過填補(bǔ)次數(shù)對結(jié)果的影響。當(dāng)NMAR時,所有方法都無法取得較好的處理效果。結(jié)論 對于縱向缺失資料,多重填補(bǔ)法仍是一種較為理想的處理方法。
縱向缺失資料 缺失模式 缺失機(jī)制 多重填補(bǔ)
缺失數(shù)據(jù)是生物醫(yī)學(xué)科研中經(jīng)常碰到的一個問題,在調(diào)查研究和臨床試驗(yàn)研究中尤為常見。目前對缺失數(shù)據(jù)的常用處理方法包括直接刪除含缺失數(shù)據(jù)的觀測(以下簡稱刪除法)、單一填補(bǔ)法、多重填補(bǔ)法、EM算法等[1]。以往的研究認(rèn)為,多重填補(bǔ)法考慮了數(shù)據(jù)缺失的不確定性,相對其他方法具有較大優(yōu)勢,因此在應(yīng)用中很受研究者的青睞[2-3]。然而,通過查閱文獻(xiàn)發(fā)現(xiàn),大部分研究是基于橫斷面缺失資料展開的,對于縱向缺失資料少有涉及。近期,國外有研究發(fā)現(xiàn)多重填補(bǔ)法處理縱向缺失資料的效果并不理想[4-5],從而動搖了多重填補(bǔ)法在處理缺失數(shù)據(jù)中的地位。
因此,本文針對縱向缺失資料,考察刪除法、單一填補(bǔ)法、多重填補(bǔ)法和EM算法在處理任意缺失模式(arbitrary missing pattern,AMP)及單調(diào)缺失模式(monotone missing pattern,MMP)下完全隨機(jī)缺失(missing completely at random,MCAR)、隨機(jī)缺失(missing at random,MAR)及非隨機(jī)缺失(not missing at random,NMAR)機(jī)制的效果,對各種方法的處理效果進(jìn)行綜合比較,為研究人員處理縱向缺失資料提供理論支持和幫助。
1.刪除法(deletion)
刪除法是大多數(shù)軟件默認(rèn)的處理缺失數(shù)據(jù)的方法,即刪除所有存在待分析變量缺失情形的觀測。
2.單一填補(bǔ)法[6]
單一填補(bǔ)法是指用一個確定的值填補(bǔ)缺失值,使原來含有缺失值的數(shù)據(jù)集形成完整數(shù)據(jù)集,再按處理完整數(shù)據(jù)集的方法對其進(jìn)行處理。常用的單一填補(bǔ)法包括均值填補(bǔ)法(mean imputation)、隨機(jī)抽取填補(bǔ)法、回歸填補(bǔ)法、熱平臺填補(bǔ)法、最近鄰填補(bǔ)法、末次觀測結(jié)轉(zhuǎn)法(last observation coming forward,LOCF)等。
3.多重填補(bǔ)法[7]
多重填補(bǔ)法是Rubin于1978年提出來的一種相對復(fù)雜的缺失數(shù)據(jù)填補(bǔ)方法。該方法的基本思想是對每一個缺失值產(chǎn)生一系列可能的填補(bǔ)值,從而形成若干個完整的數(shù)據(jù)集,再用分析完整數(shù)據(jù)集的方法對每一個填補(bǔ)后的數(shù)據(jù)集進(jìn)行分析,最后把分析得到的若干個結(jié)果進(jìn)行綜合,從而得到最終的分析結(jié)果。常用的多重填補(bǔ)法包括適用于單調(diào)缺失模式的線性回歸法(regression)、預(yù)測均數(shù)匹配法(predicted mean matching,PMM)、趨勢得分法(propensity score,PS)以及適用于任意缺失模式的馬爾科夫鏈蒙特卡羅法(Markov Chain Monte Carlo,MCMC)等。
4.EM 算法[8]
EM算法是一種迭代運(yùn)算,包括預(yù)測步(E步)和估計(jì)步(M步)。預(yù)測步是給定未知參數(shù)的某個估計(jì)值,預(yù)測充分統(tǒng)計(jì)量中有關(guān)缺失數(shù)據(jù)的部分;估計(jì)步是利用預(yù)測步得到的充分統(tǒng)計(jì)量計(jì)算參數(shù)最大似然估計(jì)的校正值。該過程反復(fù)迭代,直到模型收斂為止。
5.多元正態(tài)分布假設(shè)[9]
多元正態(tài)分布是多元定量資料最常見的概率模型,大多數(shù)處理多元定量資料的方法都建立在多元正態(tài)分布的基礎(chǔ)上,因此在處理缺失數(shù)據(jù)時一般也假定資料滿足多元正態(tài)分布。然而在現(xiàn)實(shí)中數(shù)據(jù)并不總是滿足多元正態(tài)分布,盡管如此,正態(tài)模型在大多數(shù)時候依然是可行的。原因包括以下幾點(diǎn):首先,可以通過合適的數(shù)據(jù)變換使其滿足正態(tài)假設(shè);其次,如果某些完整變量(即不存在缺失數(shù)據(jù)的變量)不滿足正態(tài)分布,只要能用完整變量的線性方程構(gòu)建不完整變量使其滿足條件正態(tài)分布,并且參數(shù)推斷也僅基于這種條件分布之上,那么多元正態(tài)分布模型依然可行;最后,即便缺失變量不滿足正態(tài)分布,只要缺失信息不是很大,多重填補(bǔ)的推斷依然穩(wěn)健。
1.數(shù)據(jù)集的構(gòu)建
運(yùn)用SAS軟件模擬在實(shí)際應(yīng)用中最常見的含一個分組因素和一個重復(fù)測量因素的兩因素設(shè)計(jì)縱向資料。假定現(xiàn)欲考察兩種處理的效果,將研究對象分成兩組,一組使用處理A,一組使用處理B,每組1000例,分別在6個不同的時間點(diǎn)測量某定量指標(biāo)的取值,比較兩種處理的差別。現(xiàn)假設(shè)資料服從多元正態(tài)分布,兩組的均值向量分別是 μA=(3.0,2.5,2.0,1.7,1.5,1.1)′,μB=(3.0,2.7,2.5,2.4,2.3,1.1)′,方差與協(xié)方差矩陣為:

該方差與協(xié)方差矩陣的設(shè)置使得各時間點(diǎn)的相關(guān)系數(shù)呈遞減趨勢并保持平均相關(guān)系數(shù)在0.5左右,根據(jù)Frison和 Pocock的研究,這些取值是合理的[10]。現(xiàn)用SAS軟件的Mixed過程(混合效應(yīng)模型)對其進(jìn)行分析,構(gòu)建結(jié)果變量關(guān)于分組因素和“時間”兩個因素的線性回歸方程,將分組因素的回歸系數(shù)估計(jì)值(^β)以及回歸系數(shù)標(biāo)準(zhǔn)誤(S^β)作為標(biāo)準(zhǔn)對照。
構(gòu)造各個時間點(diǎn)上 AMP及 MMP下 MCAR、MAR及NMAR六種數(shù)據(jù)集,其中MCAR通過隨機(jī)抽取產(chǎn)生缺失數(shù)據(jù)得到,MAR通過對兩組按1:2的比例分別進(jìn)行隨機(jī)抽取產(chǎn)生缺失數(shù)據(jù)得到,NMAR通過將結(jié)果指標(biāo)在各時間點(diǎn)進(jìn)行排序,取其中最大的部分?jǐn)?shù)據(jù)作為缺失數(shù)據(jù)得到。保證六種數(shù)據(jù)集的缺失率分別為10%、20%、30%、40%和50%。
2.處理方法
對于AMP數(shù)據(jù)集,分別用刪除法、單一填補(bǔ)的均值填補(bǔ)法和LOCF、多重填補(bǔ)的MCMC法以及EM算法進(jìn)行填補(bǔ)后用混合效應(yīng)模型進(jìn)行分析,多重填補(bǔ)分別填補(bǔ)3次、5次、10次和15次,以考察不同填補(bǔ)次數(shù)對結(jié)果的影響;對于MMP數(shù)據(jù)集,分別用刪除法、均值填補(bǔ)法、LOCF法、多重填補(bǔ)的線性回歸法、預(yù)測均數(shù)匹配法和趨勢得分法以及EM算法進(jìn)行填補(bǔ),再用線性混合效應(yīng)模型進(jìn)行分析。該過程循環(huán)運(yùn)行10000次,每種方法得到10000個估計(jì)結(jié)果。
3.指標(biāo)比較
用于比較模型處理效果的指標(biāo)包括:
(1)回歸系數(shù)估計(jì)值的均值及95%置信區(qū)間:

(2)回歸系數(shù)標(biāo)準(zhǔn)誤的均值及95%置信區(qū)間:

圖1中,橫坐標(biāo)表示缺失率,分別為10%、20%、30%、40%和50%,縱坐標(biāo)分別表示回歸系數(shù)和系數(shù)標(biāo)準(zhǔn)誤及各自的95%置信區(qū)間,虛線表示標(biāo)準(zhǔn)對照,下同。
圖1表明,在AMP下,當(dāng)MCAR和MAR時,低缺失率(≤10%)下所有方法的處理效果均較好;隨著缺失率的不斷增大,刪除法、單一填補(bǔ)法和EM算法的處理效果都不佳,單一填補(bǔ)法甚至不如刪除法,其中均值填補(bǔ)法嚴(yán)重低估回歸系數(shù)的變異程度;而多重填補(bǔ)法的處理效果依然令人滿意,當(dāng)缺失率較低時幾乎與標(biāo)準(zhǔn)對照無異,當(dāng)缺失率達(dá)到50%時其回歸系數(shù)也相當(dāng)接近標(biāo)準(zhǔn)對照,其缺點(diǎn)是在高缺失率下容易高估回歸系數(shù)的變異程度,即系數(shù)的代表性有待提高。但多重填補(bǔ)的效果并沒有隨著填補(bǔ)次數(shù)的增加而增加。當(dāng)缺失機(jī)制為NMAR時,各種方法的處理效果都不理想。

圖1 多種方法處理AMP下三種缺失機(jī)制數(shù)據(jù)集的效果比較
圖2 表明,在MMP下,當(dāng)MCAR和MAR時,刪除法、均值填補(bǔ)法、LOCF法、多重填補(bǔ)PS法以及EM算法的結(jié)果偏離標(biāo)準(zhǔn)對照較遠(yuǎn),而多重填補(bǔ)線性回歸法和PMM法則能較好地彌補(bǔ)缺失數(shù)據(jù)造成的影響。當(dāng)NMAR時,所有方法的處理效果都不佳。
刪除法、單一填補(bǔ)法、多重填補(bǔ)法和EM算法是目前處理缺失數(shù)據(jù)的常用方法。刪除法直接刪除含缺失值的觀測,簡單易懂且便于操作。這種以犧牲樣本量,舍棄含缺失數(shù)據(jù)的觀測所含信息的做法在數(shù)據(jù)缺失比例較少時尚可接受,然而隨著缺失數(shù)據(jù)比例的進(jìn)一步增大,刪除法將失去大量的樣本信息,從而造成資料無法分析或分析結(jié)果產(chǎn)生偏倚,降低效能。若數(shù)據(jù)缺失比例很大,則可能使樣本信息完全無法利用。
單一填補(bǔ)法用一個確定的值代替每一個缺失值,該法同樣簡單易懂且容易操作,但忽略了缺失數(shù)據(jù)的不確定性,因而導(dǎo)致數(shù)據(jù)的變異程度被低估。
多重填補(bǔ)法的基本思想是用一系列可能的值替代缺失值,從而產(chǎn)生多個完整數(shù)據(jù)集,再對其進(jìn)行綜合分析。該法考慮了缺失數(shù)據(jù)的不確定性,但相對復(fù)雜,操作起來相對困難。
EM算法是求參數(shù)極大似然估計(jì)的一種迭代算法,是尋求極大似然估計(jì)的一種強(qiáng)有力的方法,但其要求數(shù)據(jù)服從正態(tài)分布或混合分布,且M步?jīng)]有簡單的數(shù)值計(jì)算形式。

圖2 多種方法處理MMP下三種缺失機(jī)制數(shù)據(jù)集的效果比較
本文針對縱向缺失數(shù)據(jù),通過蒙特卡羅模擬對各種方法的處理效果進(jìn)行比較,得出以下結(jié)論:在任意缺失模式下,當(dāng)缺失機(jī)制為完全隨機(jī)缺失或隨機(jī)缺失時,低缺失率(≤10%)下所有方法的效果均較好;隨著缺失率的增大,只有多重填補(bǔ)MCMC法的處理效果依然令人滿意。在單調(diào)缺失模式下,當(dāng)缺失機(jī)制為完全隨機(jī)缺失或隨機(jī)缺失時,只有多重填補(bǔ)的線性回歸法和預(yù)測均數(shù)匹配法的填補(bǔ)效果較好,其他方法效果都不佳。多重填補(bǔ)法的缺點(diǎn)是在一定程度上會高估系數(shù)的變異程度。另一方面,多重填補(bǔ)的效果并非隨著填補(bǔ)次數(shù)的增加而增加,填補(bǔ)方法對結(jié)果的影響遠(yuǎn)遠(yuǎn)超過填補(bǔ)次數(shù)對結(jié)果的影響。在非隨機(jī)缺失機(jī)制下,所有方法都無法取得較好的處理效果。
雖然多重填補(bǔ)法在處理缺失數(shù)據(jù)時具有較大優(yōu)勢,我們?nèi)孕枥斡浀囊稽c(diǎn)就是:盡管填補(bǔ)有時能有效緩解數(shù)據(jù)缺失造成的嚴(yán)重后果,但填補(bǔ)值畢竟不是真實(shí)值。正如Dempsters所言:“填補(bǔ)的思想既是誘人的,也是危險的[11]”。因此,在實(shí)際科研中,應(yīng)盡可能地減少數(shù)據(jù)缺失,確保一手?jǐn)?shù)據(jù)的質(zhì)量。
[1]楊軍,趙宇,丁文興.抽樣調(diào)查中缺失數(shù)據(jù)的插補(bǔ)方法.數(shù)理統(tǒng)計(jì)與管理,2008,27(5):821-832.
[2]張熙,林燧恒.多重填補(bǔ)在隨機(jī)干預(yù)試驗(yàn)研究中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2011,28(5):537-539.
[3]武建虎,賀佳,賀憲民,等.多變量缺失數(shù)據(jù)的不同處理方法及分析結(jié)果比較.第二軍醫(yī)大學(xué)學(xué)報(bào),2004,25(9):1013-1016.
[4]Twisk J,de Boer M,de Vente W,et al.Multiple imputation of missing values was not necessary before performing a longitudinal mixedmodel analysis.Journal of clinical epidemiology,2013,66(9):1022-28.
[5]Peters SAE,Bots ML,den Ruijter HM,et al.Multiple imputation of missing repeated outcome measures did not add to linear mixedeffects models.Journal of clinical epidemiology,2012,65(6):686-95.
[6]金勇進(jìn).調(diào)查中的數(shù)據(jù)缺失及處理(I)——缺失數(shù)據(jù)及其影響.數(shù)理統(tǒng)計(jì)與管理,2001,20(1):56-62.
[7]SAS/STAT 9.2 User's guide,second edition.Cary,NC:SAS institute Inc,2008:3765-3779.
[8]陳長生,王彤,徐勇勇,等.醫(yī)學(xué)科研中缺失數(shù)據(jù)的EM估計(jì).第四軍醫(yī)大學(xué)學(xué)報(bào),2002,23(1):59-61.
[9]Schafer JL.Analysis of incomplete multivariate data.Florida:CRC Press LLC,1997:194-195.
[10]Frison L,Pocock SJ.Repeated measures in clinical trials:analysis of using mean summary statistics and its implications for design.Statistics in medicine,1992,11(13):1685-1704.
[11]Dempster AP,Rubin DB.Incomplete data in sample surveys.Vol.II:Theory and Annotated Bibliography.New York:Academic Press,1983:3-10.
Comparative Study of Various Imputation Methods in Dealing with Longitudinal Missing Data
Bao Xiaolei,Gao Hui,Hu Liangping
(Lanzhou General Hospital,Lanzhou Military Area Command(730050),Lanzhou)
Objective To compare the effects of several commonly-used imputation methods in dealing with longitudinal missing data.Methods Simulate the longitudinal data with a classification factor and a repeated-measured factor using Monte Carlo simulation by SAS.Mixed effect model was used to analyze the effect of the longitudinal cohort.The result was used as standard control.Simulation datasets with MCAR,MAR and NMAR under AMPand MMPconditions were constructed,and the missing rate was set to be 10%,20%,30%,40%and 50%,respectively.Deletion method,single imputation method,multiple imputation method and EM method were carried out.The results were then compared with the standard control.Results For MCAR and MAR datasets with AMP,all the methods showed satisfactory results when the rate of missing data remained modest(≤10%).However,as the percentage increased,the multiple imputation method appeared to be the only optimal strategy.In contrast,for MCAR and MAR datasets with MMP,only the regression method and the predicted mean matching method were efficacious.It has to be noted that multiple imputation method tended to overestimate the variation of regression coefficients.In addition,the imputation methodology played a far more important role than the number of iterations in analyzing the data.For NMAR datasets,all attempted methods were unable to achieve satisfactory results.Conclusion The multiple imputation method was proved desirable in dealing with missing data in longitudinal cohort.
Longitudinal missing data;Missing pattern;Missing mechanism;Multiple imputations
1.蘭州軍區(qū)蘭州總醫(yī)院(730050)
2.中國人民解放軍95969部隊(duì)衛(wèi)生隊(duì)
3.北京生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢中心
郭海強(qiáng))