999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

三種塊缺失數(shù)據(jù)處理方法的比較*

2017-07-18 11:08:15南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系211166
中國衛(wèi)生統(tǒng)計 2017年3期
關(guān)鍵詞:標(biāo)準(zhǔn)信息方法

南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系(211166)

林麗娟 董學(xué)思 趙 楊 魏永越 戴俊程 陳 峰△

?

三種塊缺失數(shù)據(jù)處理方法的比較*

南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系(211166)

林麗娟 董學(xué)思 趙 楊 魏永越 戴俊程 陳 峰△

跨平臺組學(xué)數(shù)據(jù)(cross-platform-omics data)研究中,一組樣本往往只在某些平臺(例如蛋白組學(xué)、代謝組學(xué)等)上進(jìn)行了測序分析,而另外一些樣本在其他平臺(例如,基因組學(xué)、蛋白組學(xué)等)上進(jìn)行了測序,欲將不同平臺的數(shù)據(jù)進(jìn)行整合分析,則塊缺失(block missing)是不可避免的。由于塊缺失的缺失比例比較高,如果將含有缺失的觀測全部剔除,僅對完整數(shù)據(jù)進(jìn)行分析,則會損失大量信息,甚至無信息可用。傳統(tǒng)上,常用的缺失數(shù)據(jù)處理方法是基于填補(bǔ)(imputation)的方法,包括單一填補(bǔ)法(如均值填補(bǔ)、回歸填補(bǔ)、hot deck填補(bǔ)等)和多重填補(bǔ)法[1-2]。然而這些方法適用于缺失比例不太高的情況,如果采用傳統(tǒng)填補(bǔ)方法對塊缺失數(shù)據(jù)進(jìn)行填補(bǔ),可能會導(dǎo)致估計偏差較大,或耗時太多,從而大大降低了統(tǒng)計分析的效率。如何處理這類缺失數(shù)據(jù),將是跨平臺組學(xué)大數(shù)據(jù)研究中急需解決的一個問題。

不同于目前常用的基于填補(bǔ)的缺失處理方法,不填補(bǔ)的方法不對缺失數(shù)據(jù)進(jìn)行填補(bǔ),而是利用不完整數(shù)據(jù)集中所有變量可利用的全部信息 ,來構(gòu)建變量之間的方差-協(xié)方差結(jié)構(gòu)或者極大似然函數(shù),并據(jù)此來估計回歸模型的參數(shù),則可以達(dá)到充分利用已有數(shù)據(jù)信息的目的,即不完整數(shù)據(jù)的全信息估計。基于此思路,本研究采用數(shù)據(jù)模擬技術(shù),比較三種不填補(bǔ)的方法:列表刪除法(listwise deletion,LD)、配對刪除法(pairwise deletion,PD)以及全信息極大似然法(full information maximum likelihood,FIML)處理塊數(shù)據(jù)的優(yōu)劣。

缺失值處理方法

1.列表刪除法

將數(shù)據(jù)集中含有缺失的記錄全部刪除后得到“完整數(shù)據(jù)集”,對該“完整數(shù)據(jù)集”采用常規(guī)的統(tǒng)計方法進(jìn)行分析,因此此方法也稱為完整觀測分析(complete case analysis)。該方法適用于任何一種分析,是很多統(tǒng)計分析軟件默認(rèn)的缺失值處理方法[3]。

2.配對刪除法

在計算某一統(tǒng)計量時,僅將兩兩變量間的缺失記錄刪除,而不考慮其他變量的缺失情況,如:在計算x1和x2的相關(guān)系數(shù)時,只將x1或x2中缺失的記錄刪除,而忽略其他變量的缺失情況[3]。與列表刪除法相比,該方法利用更多的樣本信息,在一定程度上避免了列表刪除法所造成的樣本信息大量損失,統(tǒng)計檢驗功效降低等問題。

3.全信息極大似然

在構(gòu)造極大似然函數(shù)時,只利用每個觀測中沒有缺失的完整變量,而不考慮該觀測中缺失的變量。通過計算,得到N個觀測的N個極大似然函數(shù),然后將這N個極大似然函數(shù)相加,得到基于全部觀測的極大似然函數(shù)。其表達(dá)式如下:

其中xi表示第i個觀測中完整變量的數(shù)值,μi是第i個觀測中這些完整變量的均值向量,Σi是其方差協(xié)方差矩陣,Ki是與第i個觀測中完整數(shù)據(jù)個數(shù)相關(guān)的常數(shù)[4]。

模擬研究

應(yīng)用SAS 9.2進(jìn)行編程,模擬完整數(shù)據(jù)集,樣本量為n=1000,包括1個因變量和p個服從多元正態(tài)分布的自變量x1,x2,…,xp。對該數(shù)據(jù)集構(gòu)建一個多元線性回歸模型:

y=β0+β1x1+β2x2+……+βpxp+ε

估計模型的參數(shù)以及標(biāo)準(zhǔn)誤。對完整數(shù)據(jù)集構(gòu)造不同缺失率的數(shù)據(jù)集,分別采用列表刪除法、配對刪除法和全信息極大似然法對每種缺失率的數(shù)據(jù)集進(jìn)行處理,得到模型參數(shù)的估計值及其標(biāo)準(zhǔn)誤,對每種缺失率的數(shù)據(jù)均模擬1000次,得到各模型參數(shù)的估計值及標(biāo)準(zhǔn)誤的平均值,并與所設(shè)置的理論值進(jìn)行比較。

1.模擬研究一:一個塊缺失

考慮5個自變量與1個因變量的回歸,所構(gòu)建的多元線性回歸模型如下:

y=3+2x1+4x2+6x3+8x4+10x5+ε1ε1~N(0,σ2)

其中 ,X1=(x1,x2,……,x5),X1服從多元正態(tài)分布,即X1~N(μ1,∑1)。其中μ1和∑1分別表示均值向量與方差-協(xié)方差矩陣,其表達(dá)形式如下:

假設(shè)數(shù)據(jù)集中僅(變量x1,x2,x3)呈塊缺失,即同時缺失或同時不缺失,缺失比例分別考慮10%,30%,50%,70%四種情況,而其他變量均是完整的。

2.模擬研究二:兩個塊缺失

考慮8個自變量和1個因變量的回歸,所構(gòu)建的多元線性回歸模型如下:

y=3+2x1+4x2+6x3+8x4+10x5+9x6+7x7+5x8+ε2ε2~N(0,σ2)

記X2=(x1,x2,……,x8),X2服從多元正態(tài)分布,即X2~N(μ2,∑2)),其中μ2和∑2分別表示均值向量與方差-協(xié)方差矩陣,其表達(dá)形式如下:

假設(shè)數(shù)據(jù)集中(變量x1,x2,x3)呈塊缺失,(變量x6,x7,x8)也呈塊缺失,考慮兩個塊缺失比例同時為30%、35%、40%、45%四種情況,而其余變量均是完整的。

3.評價標(biāo)準(zhǔn)

(1)標(biāo)準(zhǔn)偏差:當(dāng)標(biāo)準(zhǔn)偏差大于0.4時,偏差會對功效、置信區(qū)間覆蓋率以及誤差率產(chǎn)生影響[5]。因此,若某種方法的標(biāo)準(zhǔn)偏差小于0.4,認(rèn)為此方法的估計偏差尚可接受。標(biāo)準(zhǔn)偏差的計算公式如下:

(2)參數(shù)的標(biāo)準(zhǔn)誤:用參數(shù)估計的標(biāo)準(zhǔn)誤的均值來衡量各方法的估計精度[5]。

結(jié) 果

1.模擬研究一:一個塊缺失

模擬1000次,由于結(jié)果相似,這里僅僅列出缺失率為30%,50%時各缺失值處理方法的結(jié)果,見表1、表2。從結(jié)果可以看出,無論缺失率為多少,LD、PD以及FIML的標(biāo)準(zhǔn)偏差均小于0.4(截距項除外),因此可認(rèn)為這三種缺失值處理方法的估計偏差尚可接受。而從估計精度上看,F(xiàn)IML最優(yōu),PD次之,LD最差。

表1 缺失率為30%時各缺失值處理方法比較(模擬研究一)

圖1為不同缺失率下,各方法對完整變量x4的參數(shù)估計標(biāo)準(zhǔn)誤的變化情況。從圖中可以看出,在缺失率為10%時,三種方法的標(biāo)準(zhǔn)誤相差不大,但隨著缺失率的增加,LD和PD的標(biāo)準(zhǔn)誤均有明顯的增大,總體上PD優(yōu)于LD,而FIML的標(biāo)準(zhǔn)誤比較穩(wěn)定,增幅不大,且明顯優(yōu)于LD和PD。

表2 缺失率為50%時各缺失值處理方法比較(模擬研究一)

圖1 回歸系數(shù)β4在不同缺失率下的估計精度(模擬研究一)

2.模擬研究二:兩個塊缺失

模擬1000次,由于結(jié)果相似,這里僅列出缺失率為60%,80%時各缺失率處理方法的結(jié)果,見表3、表4。從結(jié)果可以看出,三種缺失值處理方法的標(biāo)準(zhǔn)偏差均小于0.4,說明三種方法的估計偏差尚可接受。對于含有缺失的變量(不完整變量),PD的標(biāo)準(zhǔn)誤最小,F(xiàn)IML次之,LD最大。而對于完整變量x4,x5而言,F(xiàn)IML的標(biāo)準(zhǔn)誤最小,PD次之,LD的最大。

圖2為不同缺失率下,各方法對完整變量x4的參數(shù)估計標(biāo)準(zhǔn)誤的變化情況。從圖中可以看出,隨著缺失率的上升,LD的估計標(biāo)準(zhǔn)誤明顯增加,而FIML和PD的標(biāo)準(zhǔn)誤增幅不大,F(xiàn)IML的標(biāo)準(zhǔn)誤略小于PD。

表3 數(shù)據(jù)集缺失比例為60%時各缺失值處理方法比較(模擬研究二)

表4 數(shù)據(jù)集缺失比例為80%時各缺失值處理方法比較(模擬研究二)

圖2 回歸系數(shù)β4在不同缺失率下的估計精度(模擬研究二)

討 論

本研究結(jié)果顯示,當(dāng)缺失比例比較小(如<10%)時,列表刪除法、配對刪除法和全信息極大似然法的估計偏差和估計精度都差不多。隨著缺失比例的增大,列表刪除法和配對刪除法的估計標(biāo)準(zhǔn)誤均有明顯的上升趨勢,而全信息極大似然法的估計標(biāo)準(zhǔn)誤增幅不大,且明顯小于前面二者。當(dāng)缺失比例很大時(如>70%),全信息極大似然法對完整變量的估計精度略優(yōu)于配對刪除法,而對不完整變量的估計卻遠(yuǎn)差于配對刪除法。

列表刪除法因為簡單,容易實施而被廣泛應(yīng)用,在很多統(tǒng)計分析軟件中是默認(rèn)的缺失數(shù)據(jù)處理方法[6-7]。但在跨平臺組學(xué)數(shù)據(jù)整合分析中,數(shù)據(jù)存在很多的塊缺失,若采用列表刪除法直接將缺失數(shù)據(jù)刪除,則會損失大量數(shù)據(jù)信息,導(dǎo)致統(tǒng)計分析效率低下。從上述的模擬研究的結(jié)果可以看出,當(dāng)缺失率比較小時(如10%),列表刪除法的效果尚可,隨著缺失率的上升,列表刪除法的估計精度不佳,與Baraldi等的結(jié)論一致[7-9]。

配對刪除法和全信息極大似然法都是基于不填補(bǔ)的思想[10],充分利用已觀測到的數(shù)據(jù)信息,避免了由于列表刪除法所造成的數(shù)據(jù)信息大量損失等問題,因此這兩種方法在估計精度上均優(yōu)于列表刪除法。目前常用的缺失數(shù)據(jù)處理方法是多重填補(bǔ)法[11-13]。有研究表明[14-15],多重填補(bǔ)的估計效果與全信息極大似然法相近,但全信息極大似然法的計算效率更高。而且,對于一個給定的數(shù)據(jù)集,全信息極大似然法每次的估計結(jié)果一致,而由于隨機(jī)性,多重填補(bǔ)會得出不一樣的結(jié)果。本研究結(jié)果表明,當(dāng)數(shù)據(jù)中僅存在一個塊缺失時,全信息極大似然法對所有變量的估計標(biāo)準(zhǔn)誤均小于配對刪除法,而當(dāng)數(shù)據(jù)存在兩個塊缺失時,僅對于完整變量而言,全信息極大似然法的標(biāo)準(zhǔn)誤小于配對刪除法,對于含有缺失的不完整變量,剛好相反。Yung[10]等人的研究表明,當(dāng)數(shù)據(jù)集中的缺失比例超過85%時,全信息極大似然算法會不收斂。當(dāng)數(shù)據(jù)存在兩個塊缺失時,即數(shù)據(jù)集的缺失比例很大,全信息極大似然法會因算法不收斂而效果不佳,不如配對刪除法。當(dāng)塊缺失數(shù)據(jù)的缺失比例不是很大時(如<70%),推薦采用全信息極大似然法,因為在估計偏差均可接受的情況下,其估計精度最優(yōu)。當(dāng)缺失比例超過70%時 ,三種方法的標(biāo)準(zhǔn)誤均比較大,推薦采用配對刪除法,因為其估計精度相對較優(yōu)。

塊缺失是跨組學(xué)平臺研究中經(jīng)常遇到的問題,目前尚無關(guān)于這方面的研究。不同于目前廣泛應(yīng)用的基于填補(bǔ)的方法,本研究采用不填補(bǔ)的方法對塊缺失進(jìn)行處理 。盡管所研究的變量不多,但是對于方法評價來說,已經(jīng)能夠說明各自的優(yōu)劣。這為進(jìn)一步充分利用不同組學(xué)平臺的信息以及環(huán)境暴露信息進(jìn)行疾病風(fēng)險預(yù)測、預(yù)后預(yù)測等提供了方法選擇的理論依據(jù)。

[1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.

[2]帥平,李曉松,周曉華,等.缺失數(shù)據(jù)統(tǒng)計處理方法的研究進(jìn)展.中國衛(wèi)生統(tǒng)計,2013(1):135-139.

[3]Enders CK.Applied missing data analysis.Guilford Press,2010,39-42.

[4]Enders CK.The performance of the full information maximum likelihood estimator in multiple regression models with missing data.Educational and Psychological Measurement,2001,61(5):713-740.

[5]Burton A,Altman DG,Royston P,et al.The design of simulation studies in medical statistics.Statistics in medicine,2006,25(24):4279-4292.

[6]Graham J.Missing data analysis:Making it work in the real world.Annual review of psychology,2009,60:549-576.

[7]Baraldi A,Enders CK.An Introduction to Modern Missing Data Analyses.Journal of School Psychology,2010,48(1):5-37.

[8]Myers TA.Goodbye,listwise deletion:Presenting hot deck imputation as an easy and effective tool for handling missing data.Communication Methods and Measures,2011,5(4):297-310.

[9]Kang H.The prevention and handling of the missing data.Korean journal of anesthesiology,2013,64(5):402-406.

[10]Yung YF,Zhang W.Making use of incomplete observations in the analysis of structural equation models:The CALIS procedure's full information maximum likelihood method in SAS/STAT?9.3.SAS Global Forum,2011:1-20.

[11]Royston P.Multiple imputation of missing values:further update of ice,with an emphasis on categorical variable.Stata Journal,2009,9(3):466-477.

[12]Lee K J,Carlin JB.Multiple Imputation for Missing Data:Fully Conditional Specification Versus Multivariate Normal Imputation.American Journal of Epidemiology,2010,171(5):624-632.

[13]Moniek CM,Merel VD,Kitty JJ,et al.Multiple imputation:dealing with missing data.Nephrology Dialysis Transplantation,2013,28(10):2415-2420.

[14]Allison PD.Handling missing data by maximum likelihood.SAS global forum,2012,23:1-21.

[15]Newman DA.Missing data five practical guidelines.Organizational Research Methods,2014,17(4):372-411.

(責(zé)任編輯:郭海強(qiáng))

國家自然科學(xué)基金(81530088,81473070,81373102,81402764)

△通信作者:陳峰,E-mail:fengchen@njmu.edu.cn

猜你喜歡
標(biāo)準(zhǔn)信息方法
2022 年3 月實施的工程建設(shè)標(biāo)準(zhǔn)
忠誠的標(biāo)準(zhǔn)
美還是丑?
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 99无码中文字幕视频| 国产成人精品午夜视频'| 国产免费看久久久| 久久美女精品| 国产亚洲一区二区三区在线| 国产福利2021最新在线观看| 亚洲三级视频在线观看| 免费一级大毛片a一观看不卡| 毛片免费网址| 国产va在线观看免费| 97视频在线观看免费视频| 色悠久久综合| 亚洲日产2021三区在线| 日韩欧美中文字幕一本| 91精品情国产情侣高潮对白蜜| 亚洲欧美自拍中文| 呦视频在线一区二区三区| 久久人妻xunleige无码| 亚洲精品制服丝袜二区| 国产成人综合在线视频| 美女一区二区在线观看| 欧美无专区| 国产91高跟丝袜| 成年A级毛片| 国产激情在线视频| 在线免费无码视频| 久久77777| 四虎影院国产| 日韩黄色精品| 91久久偷偷做嫩草影院电| 免费a级毛片视频| 永久免费精品视频| 国产亚洲欧美在线专区| 成年人免费国产视频| 久草中文网| 成年人久久黄色网站| 欧美一区二区精品久久久| 国产成人综合网| 亚洲国产成人久久精品软件| 九九热视频精品在线| 91在线播放免费不卡无毒| 色视频国产| 永久在线精品免费视频观看| 国产情侣一区二区三区| 亚洲精品另类| 欧美日韩一区二区在线免费观看| 亚洲综合婷婷激情| 日本手机在线视频| 91po国产在线精品免费观看| 国产福利免费在线观看| 亚洲女同一区二区| 成年午夜精品久久精品| 亚洲色图另类| 成人久久精品一区二区三区| 99久久国产综合精品女同| 亚洲无码日韩一区| 欧美精品综合视频一区二区| Aⅴ无码专区在线观看| 久久无码免费束人妻| 欧美区一区| 无码专区国产精品第一页| 538国产视频| 国产素人在线| 亚洲资源在线视频| 国产精品一老牛影视频| 在线观看91香蕉国产免费| 国产精品一线天| 天天色综网| 四虎影视8848永久精品| 亚洲专区一区二区在线观看| 国产美女91视频| 久久中文字幕不卡一二区| 91福利在线观看视频| 亚洲欧美色中文字幕| 欧美特级AAAAAA视频免费观看| 欧美有码在线| 9啪在线视频| 亚洲人成在线精品| 亚洲无码在线午夜电影| 2024av在线无码中文最新| 国产男女XX00免费观看| jizz国产在线|