999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多種填補(bǔ)方法在縱向缺失數(shù)據(jù)中的比較研究

2016-12-27 08:49:11鮑曉蕾胡良平
中國衛(wèi)生統(tǒng)計(jì) 2016年1期
關(guān)鍵詞:效果分析方法

鮑曉蕾 高 輝 胡良平

多種填補(bǔ)方法在縱向缺失數(shù)據(jù)中的比較研究

鮑曉蕾1高 輝2胡良平3

目的 比較多種方法對縱向缺失數(shù)據(jù)的處理效果。方法 運(yùn)用SAS軟件通過蒙特卡羅模擬產(chǎn)生最常見的含一個分組因素和一個重復(fù)測量因素的縱向資料,對其進(jìn)行混合效應(yīng)模型分析,將結(jié)果作為標(biāo)準(zhǔn)對照。分別構(gòu)建任意缺失模式(AMP)和單調(diào)缺失模式(MMP)下完全隨機(jī)缺失(MCAR)、隨機(jī)缺失(MAR)和非隨機(jī)缺失(NMAR)六種缺失數(shù)據(jù)集,并使缺失率分別為10%、20%、30%、40%和50%,運(yùn)用刪除法、單一填補(bǔ)法、多重填補(bǔ)法和EM算法進(jìn)行處理。結(jié)果 在AMP下,當(dāng)MCAR和MAR時,低缺失率(≤10%)下所有方法的效果均較好;隨著缺失率的增大,只有多重填補(bǔ)法的效果令人滿意。在MMP下,當(dāng)MCAR和MAR時,只有線性回歸法和預(yù)測均數(shù)匹配法的效果較好。多重填補(bǔ)法的缺點(diǎn)是在一定程度上高估系數(shù)的變異程度。另一方面,填補(bǔ)方法對結(jié)果的影響遠(yuǎn)超過填補(bǔ)次數(shù)對結(jié)果的影響。當(dāng)NMAR時,所有方法都無法取得較好的處理效果。結(jié)論 對于縱向缺失資料,多重填補(bǔ)法仍是一種較為理想的處理方法。

縱向缺失資料 缺失模式 缺失機(jī)制 多重填補(bǔ)

缺失數(shù)據(jù)是生物醫(yī)學(xué)科研中經(jīng)常碰到的一個問題,在調(diào)查研究和臨床試驗(yàn)研究中尤為常見。目前對缺失數(shù)據(jù)的常用處理方法包括直接刪除含缺失數(shù)據(jù)的觀測(以下簡稱刪除法)、單一填補(bǔ)法、多重填補(bǔ)法、EM算法等[1]。以往的研究認(rèn)為,多重填補(bǔ)法考慮了數(shù)據(jù)缺失的不確定性,相對其他方法具有較大優(yōu)勢,因此在應(yīng)用中很受研究者的青睞[2-3]。然而,通過查閱文獻(xiàn)發(fā)現(xiàn),大部分研究是基于橫斷面缺失資料展開的,對于縱向缺失資料少有涉及。近期,國外有研究發(fā)現(xiàn)多重填補(bǔ)法處理縱向缺失資料的效果并不理想[4-5],從而動搖了多重填補(bǔ)法在處理缺失數(shù)據(jù)中的地位。

因此,本文針對縱向缺失資料,考察刪除法、單一填補(bǔ)法、多重填補(bǔ)法和EM算法在處理任意缺失模式(arbitrary missing pattern,AMP)及單調(diào)缺失模式(monotone missing pattern,MMP)下完全隨機(jī)缺失(missing completely at random,MCAR)、隨機(jī)缺失(missing at random,MAR)及非隨機(jī)缺失(not missing at random,NMAR)機(jī)制的效果,對各種方法的處理效果進(jìn)行綜合比較,為研究人員處理縱向缺失資料提供理論支持和幫助。

方法簡介

1.刪除法(deletion)

刪除法是大多數(shù)軟件默認(rèn)的處理缺失數(shù)據(jù)的方法,即刪除所有存在待分析變量缺失情形的觀測。

2.單一填補(bǔ)法[6]

單一填補(bǔ)法是指用一個確定的值填補(bǔ)缺失值,使原來含有缺失值的數(shù)據(jù)集形成完整數(shù)據(jù)集,再按處理完整數(shù)據(jù)集的方法對其進(jìn)行處理。常用的單一填補(bǔ)法包括均值填補(bǔ)法(mean imputation)、隨機(jī)抽取填補(bǔ)法、回歸填補(bǔ)法、熱平臺填補(bǔ)法、最近鄰填補(bǔ)法、末次觀測結(jié)轉(zhuǎn)法(last observation coming forward,LOCF)等。

3.多重填補(bǔ)法[7]

多重填補(bǔ)法是Rubin于1978年提出來的一種相對復(fù)雜的缺失數(shù)據(jù)填補(bǔ)方法。該方法的基本思想是對每一個缺失值產(chǎn)生一系列可能的填補(bǔ)值,從而形成若干個完整的數(shù)據(jù)集,再用分析完整數(shù)據(jù)集的方法對每一個填補(bǔ)后的數(shù)據(jù)集進(jìn)行分析,最后把分析得到的若干個結(jié)果進(jìn)行綜合,從而得到最終的分析結(jié)果。常用的多重填補(bǔ)法包括適用于單調(diào)缺失模式的線性回歸法(regression)、預(yù)測均數(shù)匹配法(predicted mean matching,PMM)、趨勢得分法(propensity score,PS)以及適用于任意缺失模式的馬爾科夫鏈蒙特卡羅法(Markov Chain Monte Carlo,MCMC)等。

4.EM 算法[8]

EM算法是一種迭代運(yùn)算,包括預(yù)測步(E步)和估計(jì)步(M步)。預(yù)測步是給定未知參數(shù)的某個估計(jì)值,預(yù)測充分統(tǒng)計(jì)量中有關(guān)缺失數(shù)據(jù)的部分;估計(jì)步是利用預(yù)測步得到的充分統(tǒng)計(jì)量計(jì)算參數(shù)最大似然估計(jì)的校正值。該過程反復(fù)迭代,直到模型收斂為止。

5.多元正態(tài)分布假設(shè)[9]

多元正態(tài)分布是多元定量資料最常見的概率模型,大多數(shù)處理多元定量資料的方法都建立在多元正態(tài)分布的基礎(chǔ)上,因此在處理缺失數(shù)據(jù)時一般也假定資料滿足多元正態(tài)分布。然而在現(xiàn)實(shí)中數(shù)據(jù)并不總是滿足多元正態(tài)分布,盡管如此,正態(tài)模型在大多數(shù)時候依然是可行的。原因包括以下幾點(diǎn):首先,可以通過合適的數(shù)據(jù)變換使其滿足正態(tài)假設(shè);其次,如果某些完整變量(即不存在缺失數(shù)據(jù)的變量)不滿足正態(tài)分布,只要能用完整變量的線性方程構(gòu)建不完整變量使其滿足條件正態(tài)分布,并且參數(shù)推斷也僅基于這種條件分布之上,那么多元正態(tài)分布模型依然可行;最后,即便缺失變量不滿足正態(tài)分布,只要缺失信息不是很大,多重填補(bǔ)的推斷依然穩(wěn)健。

模擬分析

1.數(shù)據(jù)集的構(gòu)建

運(yùn)用SAS軟件模擬在實(shí)際應(yīng)用中最常見的含一個分組因素和一個重復(fù)測量因素的兩因素設(shè)計(jì)縱向資料。假定現(xiàn)欲考察兩種處理的效果,將研究對象分成兩組,一組使用處理A,一組使用處理B,每組1000例,分別在6個不同的時間點(diǎn)測量某定量指標(biāo)的取值,比較兩種處理的差別。現(xiàn)假設(shè)資料服從多元正態(tài)分布,兩組的均值向量分別是 μA=(3.0,2.5,2.0,1.7,1.5,1.1)′,μB=(3.0,2.7,2.5,2.4,2.3,1.1)′,方差與協(xié)方差矩陣為:

該方差與協(xié)方差矩陣的設(shè)置使得各時間點(diǎn)的相關(guān)系數(shù)呈遞減趨勢并保持平均相關(guān)系數(shù)在0.5左右,根據(jù)Frison和 Pocock的研究,這些取值是合理的[10]。現(xiàn)用SAS軟件的Mixed過程(混合效應(yīng)模型)對其進(jìn)行分析,構(gòu)建結(jié)果變量關(guān)于分組因素和“時間”兩個因素的線性回歸方程,將分組因素的回歸系數(shù)估計(jì)值(^β)以及回歸系數(shù)標(biāo)準(zhǔn)誤(S^β)作為標(biāo)準(zhǔn)對照。

構(gòu)造各個時間點(diǎn)上 AMP及 MMP下 MCAR、MAR及NMAR六種數(shù)據(jù)集,其中MCAR通過隨機(jī)抽取產(chǎn)生缺失數(shù)據(jù)得到,MAR通過對兩組按1:2的比例分別進(jìn)行隨機(jī)抽取產(chǎn)生缺失數(shù)據(jù)得到,NMAR通過將結(jié)果指標(biāo)在各時間點(diǎn)進(jìn)行排序,取其中最大的部分?jǐn)?shù)據(jù)作為缺失數(shù)據(jù)得到。保證六種數(shù)據(jù)集的缺失率分別為10%、20%、30%、40%和50%。

2.處理方法

對于AMP數(shù)據(jù)集,分別用刪除法、單一填補(bǔ)的均值填補(bǔ)法和LOCF、多重填補(bǔ)的MCMC法以及EM算法進(jìn)行填補(bǔ)后用混合效應(yīng)模型進(jìn)行分析,多重填補(bǔ)分別填補(bǔ)3次、5次、10次和15次,以考察不同填補(bǔ)次數(shù)對結(jié)果的影響;對于MMP數(shù)據(jù)集,分別用刪除法、均值填補(bǔ)法、LOCF法、多重填補(bǔ)的線性回歸法、預(yù)測均數(shù)匹配法和趨勢得分法以及EM算法進(jìn)行填補(bǔ),再用線性混合效應(yīng)模型進(jìn)行分析。該過程循環(huán)運(yùn)行10000次,每種方法得到10000個估計(jì)結(jié)果。

3.指標(biāo)比較

用于比較模型處理效果的指標(biāo)包括:

(1)回歸系數(shù)估計(jì)值的均值及95%置信區(qū)間:

(2)回歸系數(shù)標(biāo)準(zhǔn)誤的均值及95%置信區(qū)間:

結(jié)果比較

圖1中,橫坐標(biāo)表示缺失率,分別為10%、20%、30%、40%和50%,縱坐標(biāo)分別表示回歸系數(shù)和系數(shù)標(biāo)準(zhǔn)誤及各自的95%置信區(qū)間,虛線表示標(biāo)準(zhǔn)對照,下同。

圖1表明,在AMP下,當(dāng)MCAR和MAR時,低缺失率(≤10%)下所有方法的處理效果均較好;隨著缺失率的不斷增大,刪除法、單一填補(bǔ)法和EM算法的處理效果都不佳,單一填補(bǔ)法甚至不如刪除法,其中均值填補(bǔ)法嚴(yán)重低估回歸系數(shù)的變異程度;而多重填補(bǔ)法的處理效果依然令人滿意,當(dāng)缺失率較低時幾乎與標(biāo)準(zhǔn)對照無異,當(dāng)缺失率達(dá)到50%時其回歸系數(shù)也相當(dāng)接近標(biāo)準(zhǔn)對照,其缺點(diǎn)是在高缺失率下容易高估回歸系數(shù)的變異程度,即系數(shù)的代表性有待提高。但多重填補(bǔ)的效果并沒有隨著填補(bǔ)次數(shù)的增加而增加。當(dāng)缺失機(jī)制為NMAR時,各種方法的處理效果都不理想。

圖1 多種方法處理AMP下三種缺失機(jī)制數(shù)據(jù)集的效果比較

圖2 表明,在MMP下,當(dāng)MCAR和MAR時,刪除法、均值填補(bǔ)法、LOCF法、多重填補(bǔ)PS法以及EM算法的結(jié)果偏離標(biāo)準(zhǔn)對照較遠(yuǎn),而多重填補(bǔ)線性回歸法和PMM法則能較好地彌補(bǔ)缺失數(shù)據(jù)造成的影響。當(dāng)NMAR時,所有方法的處理效果都不佳。

討 論

刪除法、單一填補(bǔ)法、多重填補(bǔ)法和EM算法是目前處理缺失數(shù)據(jù)的常用方法。刪除法直接刪除含缺失值的觀測,簡單易懂且便于操作。這種以犧牲樣本量,舍棄含缺失數(shù)據(jù)的觀測所含信息的做法在數(shù)據(jù)缺失比例較少時尚可接受,然而隨著缺失數(shù)據(jù)比例的進(jìn)一步增大,刪除法將失去大量的樣本信息,從而造成資料無法分析或分析結(jié)果產(chǎn)生偏倚,降低效能。若數(shù)據(jù)缺失比例很大,則可能使樣本信息完全無法利用。

單一填補(bǔ)法用一個確定的值代替每一個缺失值,該法同樣簡單易懂且容易操作,但忽略了缺失數(shù)據(jù)的不確定性,因而導(dǎo)致數(shù)據(jù)的變異程度被低估。

多重填補(bǔ)法的基本思想是用一系列可能的值替代缺失值,從而產(chǎn)生多個完整數(shù)據(jù)集,再對其進(jìn)行綜合分析。該法考慮了缺失數(shù)據(jù)的不確定性,但相對復(fù)雜,操作起來相對困難。

EM算法是求參數(shù)極大似然估計(jì)的一種迭代算法,是尋求極大似然估計(jì)的一種強(qiáng)有力的方法,但其要求數(shù)據(jù)服從正態(tài)分布或混合分布,且M步?jīng)]有簡單的數(shù)值計(jì)算形式。

圖2 多種方法處理MMP下三種缺失機(jī)制數(shù)據(jù)集的效果比較

本文針對縱向缺失數(shù)據(jù),通過蒙特卡羅模擬對各種方法的處理效果進(jìn)行比較,得出以下結(jié)論:在任意缺失模式下,當(dāng)缺失機(jī)制為完全隨機(jī)缺失或隨機(jī)缺失時,低缺失率(≤10%)下所有方法的效果均較好;隨著缺失率的增大,只有多重填補(bǔ)MCMC法的處理效果依然令人滿意。在單調(diào)缺失模式下,當(dāng)缺失機(jī)制為完全隨機(jī)缺失或隨機(jī)缺失時,只有多重填補(bǔ)的線性回歸法和預(yù)測均數(shù)匹配法的填補(bǔ)效果較好,其他方法效果都不佳。多重填補(bǔ)法的缺點(diǎn)是在一定程度上會高估系數(shù)的變異程度。另一方面,多重填補(bǔ)的效果并非隨著填補(bǔ)次數(shù)的增加而增加,填補(bǔ)方法對結(jié)果的影響遠(yuǎn)遠(yuǎn)超過填補(bǔ)次數(shù)對結(jié)果的影響。在非隨機(jī)缺失機(jī)制下,所有方法都無法取得較好的處理效果。

雖然多重填補(bǔ)法在處理缺失數(shù)據(jù)時具有較大優(yōu)勢,我們?nèi)孕枥斡浀囊稽c(diǎn)就是:盡管填補(bǔ)有時能有效緩解數(shù)據(jù)缺失造成的嚴(yán)重后果,但填補(bǔ)值畢竟不是真實(shí)值。正如Dempsters所言:“填補(bǔ)的思想既是誘人的,也是危險的[11]”。因此,在實(shí)際科研中,應(yīng)盡可能地減少數(shù)據(jù)缺失,確保一手?jǐn)?shù)據(jù)的質(zhì)量。

[1]楊軍,趙宇,丁文興.抽樣調(diào)查中缺失數(shù)據(jù)的插補(bǔ)方法.數(shù)理統(tǒng)計(jì)與管理,2008,27(5):821-832.

[2]張熙,林燧恒.多重填補(bǔ)在隨機(jī)干預(yù)試驗(yàn)研究中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2011,28(5):537-539.

[3]武建虎,賀佳,賀憲民,等.多變量缺失數(shù)據(jù)的不同處理方法及分析結(jié)果比較.第二軍醫(yī)大學(xué)學(xué)報(bào),2004,25(9):1013-1016.

[4]Twisk J,de Boer M,de Vente W,et al.Multiple imputation of missing values was not necessary before performing a longitudinal mixedmodel analysis.Journal of clinical epidemiology,2013,66(9):1022-28.

[5]Peters SAE,Bots ML,den Ruijter HM,et al.Multiple imputation of missing repeated outcome measures did not add to linear mixedeffects models.Journal of clinical epidemiology,2012,65(6):686-95.

[6]金勇進(jìn).調(diào)查中的數(shù)據(jù)缺失及處理(I)——缺失數(shù)據(jù)及其影響.數(shù)理統(tǒng)計(jì)與管理,2001,20(1):56-62.

[7]SAS/STAT 9.2 User's guide,second edition.Cary,NC:SAS institute Inc,2008:3765-3779.

[8]陳長生,王彤,徐勇勇,等.醫(yī)學(xué)科研中缺失數(shù)據(jù)的EM估計(jì).第四軍醫(yī)大學(xué)學(xué)報(bào),2002,23(1):59-61.

[9]Schafer JL.Analysis of incomplete multivariate data.Florida:CRC Press LLC,1997:194-195.

[10]Frison L,Pocock SJ.Repeated measures in clinical trials:analysis of using mean summary statistics and its implications for design.Statistics in medicine,1992,11(13):1685-1704.

[11]Dempster AP,Rubin DB.Incomplete data in sample surveys.Vol.II:Theory and Annotated Bibliography.New York:Academic Press,1983:3-10.

Comparative Study of Various Imputation Methods in Dealing with Longitudinal Missing Data

Bao Xiaolei,Gao Hui,Hu Liangping
(Lanzhou General Hospital,Lanzhou Military Area Command(730050),Lanzhou)

Objective To compare the effects of several commonly-used imputation methods in dealing with longitudinal missing data.Methods Simulate the longitudinal data with a classification factor and a repeated-measured factor using Monte Carlo simulation by SAS.Mixed effect model was used to analyze the effect of the longitudinal cohort.The result was used as standard control.Simulation datasets with MCAR,MAR and NMAR under AMPand MMPconditions were constructed,and the missing rate was set to be 10%,20%,30%,40%and 50%,respectively.Deletion method,single imputation method,multiple imputation method and EM method were carried out.The results were then compared with the standard control.Results For MCAR and MAR datasets with AMP,all the methods showed satisfactory results when the rate of missing data remained modest(≤10%).However,as the percentage increased,the multiple imputation method appeared to be the only optimal strategy.In contrast,for MCAR and MAR datasets with MMP,only the regression method and the predicted mean matching method were efficacious.It has to be noted that multiple imputation method tended to overestimate the variation of regression coefficients.In addition,the imputation methodology played a far more important role than the number of iterations in analyzing the data.For NMAR datasets,all attempted methods were unable to achieve satisfactory results.Conclusion The multiple imputation method was proved desirable in dealing with missing data in longitudinal cohort.

Longitudinal missing data;Missing pattern;Missing mechanism;Multiple imputations

1.蘭州軍區(qū)蘭州總醫(yī)院(730050)

2.中國人民解放軍95969部隊(duì)衛(wèi)生隊(duì)

3.北京生物醫(yī)學(xué)統(tǒng)計(jì)學(xué)咨詢中心

郭海強(qiáng))

猜你喜歡
效果分析方法
按摩效果確有理論依據(jù)
隱蔽失效適航要求符合性驗(yàn)證分析
迅速制造慢門虛化效果
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
電力系統(tǒng)及其自動化發(fā)展趨勢分析
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲床戏一区| 欧美日韩国产成人高清视频| 毛片基地美国正在播放亚洲| 国产jizzjizz视频| 国产乱码精品一区二区三区中文 | 精品乱码久久久久久久| 人妻少妇乱子伦精品无码专区毛片| 青青久视频| 中文字幕在线看视频一区二区三区| 欧美成人在线免费| 国产乱子伦视频在线播放| 国产在线观看一区二区三区| 四虎综合网| 18禁影院亚洲专区| 久久99国产视频| 久久久国产精品免费视频| 久久久久久久蜜桃| 麻豆精品在线播放| 久久99国产精品成人欧美| 亚洲成人精品在线| 国产精品私拍在线爆乳| 亚洲成a人在线播放www| 久久婷婷综合色一区二区| 99这里精品| 亚洲欧美极品| 毛片大全免费观看| 少妇精品网站| 国产精品成人一区二区| 99色亚洲国产精品11p| 2021精品国产自在现线看| 欧美日韩国产高清一区二区三区| 一级毛片免费观看不卡视频| 国产精品亚欧美一区二区三区| 国产chinese男男gay视频网| 精品福利视频网| 国产成人综合网| 亚洲一级无毛片无码在线免费视频 | 99热最新在线| 青青草原国产精品啪啪视频| 午夜免费小视频| 国产精品xxx| 精品少妇人妻无码久久| 91美女视频在线| 99热这里只有精品国产99| 欧美一区精品| 国产靠逼视频| 亚洲欧洲国产成人综合不卡| 伊人久久精品无码麻豆精品| 欧美 亚洲 日韩 国产| 一级爱做片免费观看久久| 日韩在线网址| 亚洲精品天堂在线观看| 永久免费av网站可以直接看的| 午夜一级做a爰片久久毛片| 午夜视频免费一区二区在线看| 国产永久免费视频m3u8| 国产精品无码一区二区桃花视频| 日日碰狠狠添天天爽| 自偷自拍三级全三级视频| 国产女同自拍视频| 欧美69视频在线| 亚洲成人黄色在线| 在线一级毛片| 二级特黄绝大片免费视频大片| 亚洲人成高清| 成人一区专区在线观看| 成年人国产网站| 999精品免费视频| 日韩欧美中文在线| 成人字幕网视频在线观看| 久久香蕉国产线看观看亚洲片| 99尹人香蕉国产免费天天拍| 一级做a爰片久久毛片毛片| 亚洲无码高清视频在线观看| 999国产精品| 国产区网址| 国产浮力第一页永久地址| 日本成人不卡视频| 九色免费视频| 亚洲无码视频一区二区三区| 成人福利在线免费观看| 久久夜色精品国产嚕嚕亚洲av|