999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

任意缺失模式缺失數(shù)據(jù)不同填補方法效果比較*

2013-09-07 09:02:12張秋菊劉美娜
中國衛(wèi)生統(tǒng)計 2013年5期
關鍵詞:效果評價方法

張 橋 李 寧 張秋菊 劉美娜△

任意缺失模式缺失數(shù)據(jù)不同填補方法效果比較*

張 橋1李 寧2張秋菊1劉美娜1△

目的 探討任意缺失模式下缺失數(shù)據(jù)的填補方法,并對不同方法填補效果進行比較和評價。方法 結(jié)合我國北方絕經(jīng)期婦女鈣需要和膳食評估應用研究課題的數(shù)據(jù),調(diào)用SAS軟件中IML模塊產(chǎn)生任意缺失模式模擬數(shù)據(jù),通過MI和MIANALYZE過程實現(xiàn)缺失數(shù)據(jù)的填補,同時應用準確度和穩(wěn)定度兩個評價指標來評價各方法填補的效果。結(jié)果 PS方法填補3次在本文模擬的任意缺失模式的缺失數(shù)據(jù)中填補效果最佳,MCMC方法填補效果并不理想。結(jié)論 在填補任意缺失模式的缺失數(shù)據(jù)時,MCMC并不是唯一的多重填補方法,通過多重填補的PS方法、PMM方法和REG方法把數(shù)據(jù)填補成單調(diào)缺失后,再用相同方法進行一次填補也是一種可選擇的填補方法。

缺失數(shù)據(jù) 任意缺失模式 多重填補 數(shù)據(jù)模擬

1.哈爾濱醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室(150081)

2.寧波市疾病預防控制中心免疫預防所

△通信作者:劉美娜,E-mail:liumeina369@163.com

數(shù)據(jù)缺失是實驗研究和調(diào)查研究中一個普遍存在的問題〔1〕,如何正確的處理、分析所缺失的數(shù)據(jù)在數(shù)據(jù)分析中占有重要地位。缺失數(shù)據(jù)的類型按照不同的分類方法可劃分不同類別,按缺失機制分類和按缺失模式分類兩種劃分方法〔2-3〕。

按照由Little和Rubin在1976年提出的缺失機制分類,缺失數(shù)據(jù)可以分為完全隨機缺失(missing completely at random,MCAR)、隨機缺失(missing at random,MAR)和非隨機缺失(not missing at random,NMAR)三類〔4〕。如果所缺失的數(shù)據(jù)發(fā)生的概率既與已觀察到的數(shù)據(jù)無關也與未觀察到的數(shù)據(jù)無關,則該缺失數(shù)據(jù)類型為MCAR;如果缺失數(shù)據(jù)的發(fā)生概率與所觀察到的變量是有關的,而與未觀察到的數(shù)據(jù)特征無關,則該缺失數(shù)據(jù)類型為MAR;若數(shù)據(jù)既不屬于完全隨機缺失也不屬于隨機缺失,那么該缺失數(shù)據(jù)類型就屬于NMAR〔5〕。按照數(shù)據(jù)缺失模式可以分為單調(diào)缺失模式和任意缺失模式兩類〔6-7〕,為了簡單明了可以通過圖1來形象的理解,其中是5個變量,1~5是5個樣本,“×”表示數(shù)據(jù)能觀察到,“.”表示數(shù)據(jù)缺失。

圖1 數(shù)據(jù)缺失模式

單調(diào)缺失模式如圖1(a)所示,對數(shù)據(jù)集進行適當?shù)男辛凶儞Q后,可以得到這樣一個矩陣,它呈現(xiàn)出一種層級缺失的模式,矩陣中的元素yj缺失時,則對任意的P≥j,元素yp也是缺失的;任意缺失模式如圖1(b)所示,數(shù)據(jù)缺失具有隨意性,沒有任何規(guī)律可循,即使通過行列變換也無法看出任何規(guī)律。

對于任意缺失模式的數(shù)據(jù)處理,查閱相關文獻發(fā)現(xiàn)常用的就是把缺失值直接刪除即Ad Hoc法或多重填補(multiple imputation,MI)中的馬爾科夫鏈蒙特卡洛(markov chain monte carlo,MCMC)方法〔8〕,對于縱向數(shù)據(jù)有時也采用單一填補中的LOCF(last observation carried forward)方法〔9〕。本文將探討 Ad Hoc法、LOCF填補、多重填補中的回歸方法、預測均數(shù)匹配(predictive mean matching,PMM)方法、趨勢得分(propensity score,PS)方法、MCMC方法這六種方法對任意缺失模式下缺失數(shù)據(jù)的填補效果。

資料與方法

1.資料來源

本文所用數(shù)據(jù)來源于國家科技支撐計劃項目:我國北方絕經(jīng)期婦女鈣需要和膳食評估應用研究。此課題是一個為期兩年人群干預研究,研究對象282名,通過分層隨機方法分為四組,3個鈣干預組和1個信息干預組。分別在干預前、干預1年后、干預2年后三個時間點對干預對象進行調(diào)查和樣品采集,獲得研究對象的體格檢查、一般情況、飲食情況、體力活動情況和心理與應對等信息,同時對研究對象進行骨密度檢測,所采用儀器是美國Norland XR-36雙能X線骨密度儀,包括腰椎、髖骨和全身骨三個部位,獲得相應部位的骨密度T值。本文主要選用志愿者的身高、體重、年齡以及三次骨密度檢查的腰椎骨密度T值作為模擬實驗的參考數(shù)據(jù)。

2.數(shù)據(jù)基本狀況

參考數(shù)據(jù)中身高、體重、年齡和第一次腰椎骨密度T值為完整數(shù)據(jù),共282例,第二次和第三次腰椎骨密度T值分別缺失63人和80人,因此剩余人數(shù)分別是219和202例。參考數(shù)據(jù)中各變量的均數(shù)和標準差見表1。

表1 參考數(shù)據(jù)各變量的均數(shù)和標準

表2是參考數(shù)據(jù)中各變量間的相關系數(shù)矩陣。

表2 參考數(shù)據(jù)各變量的相關系數(shù)矩陣

3.分析方法及評價標準

本文的數(shù)據(jù)分析思路為:根據(jù)實際研究所獲數(shù)據(jù)模擬出100個完整數(shù)據(jù)集,在此基礎上,分別根據(jù)完整數(shù)據(jù)中第二次和第三次腰椎骨密度T值的數(shù)據(jù)缺失率(分別為22.34%和28.37%)生成100個有數(shù)據(jù)缺失的數(shù)據(jù)集,然后再用各種缺失數(shù)據(jù)填補方法對缺失數(shù)據(jù)集進行填補,最后根據(jù)評價指標來評價各填補方法的優(yōu)劣。

數(shù)據(jù)分析軟件為SAS 9.1,模擬數(shù)據(jù)集采用IML模塊和SAS宏程序,缺失數(shù)據(jù)的處理和分析主要采用了PROC MI和PROC MIANALYZE過程。由于REG方法、PMM方法和PS方法只能對單調(diào)缺失模式的數(shù)據(jù)進行填補,所以在用如上三種方法進行缺失數(shù)據(jù)填補時,本文首先對第二次腰椎骨密度T值填補N(N=3、5、10、15、20)次,使數(shù)據(jù)變成單調(diào)缺失后,再用相應的填補方法對第三次腰椎骨密度T值填補1次。

針對缺失數(shù)據(jù)填補效果優(yōu)劣的評價指標本文采用準確度和穩(wěn)定度〔10〕。對于變量Y,100個完整數(shù)據(jù)集有100個均數(shù)Y1,Y2,…,Y100,這 100 個均數(shù)的平均值為Ymean,缺失數(shù)據(jù)經(jīng)過處理后也會有100個均數(shù),…,均數(shù)的平均值為,則準確度指標定義為:BIASmeanmean

BIASmean指標的絕對值越小說明估計均數(shù)時偏差越小,準確度越高。

MSEmean指標越大說明估計均數(shù)時穩(wěn)定度越好〔11〕。

同理可以計算100個標準誤的BIASstderr和MSEstderr。

結(jié) 果

用不同填補方法對模擬的缺失數(shù)據(jù)集進行填補,第二次和第三次腰椎骨密度T值填補效果較好的前五位的評價指標結(jié)果分別如表3和表4所示:

表3 不同填補方法對第二次腰椎骨密度T值填補效果

從表3中可以看出對于第二次腰椎骨密度T值均數(shù)準確性的評價指標BIASmean絕對值最小的前五位為:0.0005、0.0006、0.0009、0.0009、0.0012、0.0012 分別為Ad Hoc方法、MCMC方法填補10次、MCMC方法填補5次、PS方法填補3次、MCMC方法填補3次、PMM方法填補15次。對于第二次腰椎骨密度T值均數(shù)穩(wěn)定性的評價指標MSEmean最大的前五位為:2.4732、1.9634、1.9466、1.9107、1.9023 分別為 Ad Hoc方法、PS方法填補15次、PS方法填補10次、PS方法填補20次、PS方法填補3次。

對于第二次腰椎骨密度T值標準誤準確性的評價指標BIASstderr絕對值最小的前五位為:0.0001、0.0007、0.0008、0.0009、0.0012 分別為 LOCF 方法、PMM方法填補20次、PMM方法填補15次、PMM方法填補10次、PMM方法填補3次。對于第二次腰椎骨密度T值標準誤穩(wěn)定性的評價指標MSEstderr最大的前五位為:0.0362、0.0280、0.0136、0.0118、0.0112 分別為PS方法填補3次、PS方法填補5次、PS方法填補10次、Ad Hoc方法、PS方法填補15次。

表4 不同填補方法對第三次腰椎骨密度T值填補效果

從表4中可以看出對于第三次腰椎骨密度T值均數(shù)準確性的評價指標BIASmean絕對值最小的前五位為:0.0014、0.0020、0.0030、0.0032、0.0039 分別為 PS方法填補3次、REG方法填補3次、PS方法填補15次、PS方法填補5次、REG方法填補5次。對于第三次腰椎骨密度T值均數(shù)穩(wěn)定性的評價指標MSEmean最大的 前 五 位 為:2.0351、1.8190、1.8099、1.7976、1.7753分別為Ad Hoc方法、PS方法填補5次、PS方法填補10次、PS方法填補3次、PS方法填補15次。

從如上的結(jié)果綜合來看,PS方法填補3次在本文模擬的數(shù)據(jù)中填補效果最佳,而MCMC方法除在第二次腰椎骨密度T值的BIASmean指標上表現(xiàn)較好外,在其他指標中都沒有進入填補效果最好的前五位。

討 論

在多重填補的四種方法里,PS方法在第二次和第三次腰椎骨密度T值的MSEmean指標和MSEstderr指標上都有很好的效果,REG方法在第三次腰椎骨密度T值的BIASstderr指標上有很好的效果,PMM方法在第二次腰椎骨密度T值的BIASstderr指標上有很好的效果,而MCMC方法只在第二次腰椎骨密度T值的BIASmean指標上有較好的效果。填補次數(shù)越多填補效果不一定越好。

因此從本文可以看出,對于任意缺失模式的缺失數(shù)據(jù)集,多重填補的MCMC并不是唯一的多重填補方法,采用單調(diào)缺失模式下的多重填補方法把任意缺失數(shù)據(jù)填補成單調(diào)缺失,在此基礎上再進行一次該方法的填補,在某些條件下比MCMC填補的效果好。對于填補的次數(shù)并不是越多越好,而是要根據(jù)實際情況,進行數(shù)據(jù)模擬,從而找出最佳的填補次數(shù)。

1.Amold AM,Kronmal RA.Multiple imputation of baseline data in the cardiovascular health study.American Journal of Epidemiology,2003,157(1):74-84.

2.Abraham,Todd W,Russell,et al.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.

3.James M,Robins,Wang N.Inference for imputation estimators.Biometrika,2000,87(1):113-124.

4.Little RJ,Rubin DB.Statistical Analysis with Missing Data.New York:John Wiley&Sons,1987.

5.Little RJ,Rubin DB.Statistical Analysis with Missing Data.2nd ed.Hoboken,NJ:John Wiley&Sons,2002.

6.曹陽,謝萬軍,張羅漫.多重填補的方法及其統(tǒng)計推斷原理.中國醫(yī)院統(tǒng)計,2003,10(2):77-81.

7.李新華,夏結(jié)來.多重填補處理有缺失數(shù)據(jù)的2×2交叉設計資料的應用.2004中國衛(wèi)生統(tǒng)計學術會議論文集,2004:181-187.

8.張熙,林燧恒.多重填補在隨機干預實驗研究中的應用.中國衛(wèi)生統(tǒng)計,2011,28(5):537-539.

9.茅群霞.缺失值處理統(tǒng)計方法的模擬比較研究及應用.四川大學碩士畢業(yè)論文,2005.

10.Collins LM,Schafer JL,Kam CM.A comparison of inclusive and restrictive strategies in modern missing data procedures.Psychol Methods,2001,6(4):330-351.

11.李寧.鈣干預試驗骨密度缺失值的填補研究.哈爾濱醫(yī)科大學碩士畢業(yè)論文,2010.

A Simulated Comparison between Different Imputation Meth-ods in Arbitrary Missing Data

Zhang Qiao,Li Ning,Zhang Qiuju,et al.Department of Health Statistics,Harbin Medical University(150086),Harbin

ObjectiveTo evaluate the imputation effect of different imputation methods in arbitrary missing data.MethodsFirst of all,we use the IML model in SAS software to simulate arbitrary missing data,which is about the calcium requirements and dietary evaluation of postmenopausal women in the north of china.Imputing the missing data through the MI and MIANALYZE processes.Accuracy and stability were used for the evaluation indices to compare the imputation effect of different methods.ResultsThe effect of PS method when imputing 3 times is the best in this data,while the effect of MCMC method is not ideal.Conclusion The MCMC is not the unique multiple imputation method when imput arbitrary missing data.The PS,PMM,REG methods could turn the arbitrary missingness pattern into monotone missingness pattern,then we use the same method to imput once again.It is also an alternative imputation method.

Missing data;Arbitrary missingness pattern;Multiple imputation;Data simulation

國家科技支撐計劃(2011BAI09B02)

(責任編輯:郭海強)

猜你喜歡
效果評價方法
按摩效果確有理論依據(jù)
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于Moodle的學習評價
保加利亞轉(zhuǎn)軌20年評價
主站蜘蛛池模板: 亚洲日韩日本中文在线| 一本久道久综合久久鬼色| 亚洲欧美不卡中文字幕| 欧美三級片黃色三級片黃色1| 国产精品男人的天堂| 看国产一级毛片| 国产麻豆另类AV| 亚洲中文字幕久久无码精品A| 欧美成人免费午夜全| 亚洲一区黄色| 久久婷婷六月| 欧美自慰一级看片免费| 欧美黄网站免费观看| 久久人人爽人人爽人人片aV东京热 | 国产精品综合色区在线观看| 免费无码AV片在线观看国产| 国产精欧美一区二区三区| 亚洲视频免| 精品视频在线一区| 国产精品欧美日本韩免费一区二区三区不卡 | 日本精品视频一区二区| 51国产偷自视频区视频手机观看| AV不卡在线永久免费观看| 亚洲美女一级毛片| 日韩精品久久久久久久电影蜜臀| 亚洲人成网站18禁动漫无码 | 国产区91| 成人福利在线看| 欧美国产日产一区二区| 91久久精品日日躁夜夜躁欧美| 久久午夜夜伦鲁鲁片无码免费 | 欧洲亚洲一区| 日本高清在线看免费观看| 中文字幕在线欧美| 狠狠色狠狠综合久久| 网友自拍视频精品区| 久草热视频在线| 午夜日本永久乱码免费播放片| 免费黄色国产视频| 国产AV无码专区亚洲精品网站| 国产日韩欧美黄色片免费观看| 国产亚洲精品无码专| 国产三级a| 国产成人艳妇AA视频在线| 亚洲永久色| 国产男女免费视频| 激情爆乳一区二区| 久久伊伊香蕉综合精品| 成年A级毛片| 久久精品国产亚洲AV忘忧草18| 青青青伊人色综合久久| 成人亚洲视频| 国产成年女人特黄特色大片免费| 中文字幕久久精品波多野结| 久久这里只精品热免费99| 99久久无色码中文字幕| 国产精品理论片| 精品国产91爱| 成人一区在线| 超清无码一区二区三区| 58av国产精品| 精品91在线| 真人高潮娇喘嗯啊在线观看| 久久青青草原亚洲av无码| 免费国产高清视频| 国产幂在线无码精品| 伊人狠狠丁香婷婷综合色| 久久免费视频6| 丁香婷婷激情网| 一本综合久久| 亚洲 成人国产| 美美女高清毛片视频免费观看| 亚洲清纯自偷自拍另类专区| 亚洲黄色视频在线观看一区| 91亚洲影院| 亚洲精品在线影院| 操操操综合网| 91偷拍一区| 亚洲福利一区二区三区| 国产丝袜91| 一级毛片在线免费视频| 91在线国内在线播放老师|