三種塊缺失數(shù)據(jù)處理方法的比較*

2017-07-18 11:08:15南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系211166

中國衛(wèi)生統(tǒng)計 2017年3期

關(guān)鍵詞：標(biāo)準(zhǔn)信息方法

南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系(211166)

林麗娟董學(xué)思趙楊魏永越戴俊程陳峰△

三種塊缺失數(shù)據(jù)處理方法的比較*

南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系(211166)

林麗娟董學(xué)思趙楊魏永越戴俊程陳峰△

跨平臺組學(xué)數(shù)據(jù)(cross-platform-omics data)研究中，一組樣本往往只在某些平臺(例如蛋白組學(xué)、代謝組學(xué)等)上進(jìn)行了測序分析，而另外一些樣本在其他平臺(例如，基因組學(xué)、蛋白組學(xué)等)上進(jìn)行了測序，欲將不同平臺的數(shù)據(jù)進(jìn)行整合分析，則塊缺失(block missing)是不可避免的。由于塊缺失的缺失比例比較高，如果將含有缺失的觀測全部剔除，僅對完整數(shù)據(jù)進(jìn)行分析，則會損失大量信息，甚至無信息可用。傳統(tǒng)上，常用的缺失數(shù)據(jù)處理方法是基于填補(bǔ)(imputation)的方法，包括單一填補(bǔ)法(如均值填補(bǔ)、回歸填補(bǔ)、hot deck填補(bǔ)等)和多重填補(bǔ)法[1-2]。然而這些方法適用于缺失比例不太高的情況，如果采用傳統(tǒng)填補(bǔ)方法對塊缺失數(shù)據(jù)進(jìn)行填補(bǔ)，可能會導(dǎo)致估計偏差較大，或耗時太多，從而大大降低了統(tǒng)計分析的效率。如何處理這類缺失數(shù)據(jù)，將是跨平臺組學(xué)大數(shù)據(jù)研究中急需解決的一個問題。

不同于目前常用的基于填補(bǔ)的缺失處理方法，不填補(bǔ)的方法不對缺失數(shù)據(jù)進(jìn)行填補(bǔ)，而是利用不完整數(shù)據(jù)集中所有變量可利用的全部信息，來構(gòu)建變量之間的方差-協(xié)方差結(jié)構(gòu)或者極大似然函數(shù)，并據(jù)此來估計回歸模型的參數(shù)，則可以達(dá)到充分利用已有數(shù)據(jù)信息的目的，即不完整數(shù)據(jù)的全信息估計。基于此思路，本研究采用數(shù)據(jù)模擬技術(shù)，比較三種不填補(bǔ)的方法：列表刪除法(listwise deletion,LD)、配對刪除法(pairwise deletion,PD)以及全信息極大似然法(full information maximum likelihood,FIML)處理塊數(shù)據(jù)的優(yōu)劣。

缺失值處理方法

1.列表刪除法

將數(shù)據(jù)集中含有缺失的記錄全部刪除后得到“完整數(shù)據(jù)集”，對該“完整數(shù)據(jù)集”采用常規(guī)的統(tǒng)計方法進(jìn)行分析，因此此方法也稱為完整觀測分析(complete case analysis)。該方法適用于任何一種分析，是很多統(tǒng)計分析軟件默認(rèn)的缺失值處理方法[3]。

2.配對刪除法

在計算某一統(tǒng)計量時，僅將兩兩變量間的缺失記錄刪除，而不考慮其他變量的缺失情況，如：在計算x1和x2的相關(guān)系數(shù)時，只將x1或x2中缺失的記錄刪除，而忽略其他變量的缺失情況[3]。與列表刪除法相比，該方法利用更多的樣本信息，在一定程度上避免了列表刪除法所造成的樣本信息大量損失，統(tǒng)計檢驗功效降低等問題。

3.全信息極大似然

在構(gòu)造極大似然函數(shù)時，只利用每個觀測中沒有缺失的完整變量，而不考慮該觀測中缺失的變量。通過計算，得到N個觀測的N個極大似然函數(shù)，然后將這N個極大似然函數(shù)相加，得到基于全部觀測的極大似然函數(shù)。其表達(dá)式如下：

其中xi表示第i個觀測中完整變量的數(shù)值，μi是第i個觀測中這些完整變量的均值向量，Σi是其方差協(xié)方差矩陣，Ki是與第i個觀測中完整數(shù)據(jù)個數(shù)相關(guān)的常數(shù)[4]。

模擬研究

應(yīng)用SAS 9.2進(jìn)行編程，模擬完整數(shù)據(jù)集，樣本量為n=1000，包括1個因變量和p個服從多元正態(tài)分布的自變量x1,x2,…,xp。對該數(shù)據(jù)集構(gòu)建一個多元線性回歸模型：

y=β0+β1x1+β2x2+……+βpxp+ε

估計模型的參數(shù)以及標(biāo)準(zhǔn)誤。對完整數(shù)據(jù)集構(gòu)造不同缺失率的數(shù)據(jù)集，分別采用列表刪除法、配對刪除法和全信息極大似然法對每種缺失率的數(shù)據(jù)集進(jìn)行處理，得到模型參數(shù)的估計值及其標(biāo)準(zhǔn)誤，對每種缺失率的數(shù)據(jù)均模擬1000次，得到各模型參數(shù)的估計值及標(biāo)準(zhǔn)誤的平均值，并與所設(shè)置的理論值進(jìn)行比較。

1.模擬研究一：一個塊缺失

考慮5個自變量與1個因變量的回歸，所構(gòu)建的多元線性回歸模型如下：

y=3+2x1+4x2+6x3+8x4+10x5+ε1ε1～N(0,σ2)

其中，X1=(x1,x2,……,x5),X1服從多元正態(tài)分布，即X1～N(μ1,∑1)。其中μ1和∑1分別表示均值向量與方差-協(xié)方差矩陣，其表達(dá)形式如下：

假設(shè)數(shù)據(jù)集中僅(變量x1，x2，x3)呈塊缺失，即同時缺失或同時不缺失，缺失比例分別考慮10%，30%，50%，70%四種情況，而其他變量均是完整的。

2.模擬研究二：兩個塊缺失

考慮8個自變量和1個因變量的回歸，所構(gòu)建的多元線性回歸模型如下：

y=3+2x1+4x2+6x3+8x4+10x5+9x6+7x7+5x8+ε2ε2～N(0,σ2)

記X2=(x1,x2,……,x8)，X2服從多元正態(tài)分布，即X2～N(μ2,∑2))，其中μ2和∑2分別表示均值向量與方差-協(xié)方差矩陣，其表達(dá)形式如下：

假設(shè)數(shù)據(jù)集中(變量x1，x2，x3)呈塊缺失，(變量x6，x7，x8)也呈塊缺失，考慮兩個塊缺失比例同時為30%、35%、40%、45%四種情況，而其余變量均是完整的。

3.評價標(biāo)準(zhǔn)

(1)標(biāo)準(zhǔn)偏差：當(dāng)標(biāo)準(zhǔn)偏差大于0.4時，偏差會對功效、置信區(qū)間覆蓋率以及誤差率產(chǎn)生影響[5]。因此，若某種方法的標(biāo)準(zhǔn)偏差小于0.4，認(rèn)為此方法的估計偏差尚可接受。標(biāo)準(zhǔn)偏差的計算公式如下：

(2)參數(shù)的標(biāo)準(zhǔn)誤：用參數(shù)估計的標(biāo)準(zhǔn)誤的均值來衡量各方法的估計精度[5]。

結(jié) 果

1.模擬研究一：一個塊缺失

模擬1000次，由于結(jié)果相似，這里僅僅列出缺失率為30%,50%時各缺失值處理方法的結(jié)果，見表1、表2。從結(jié)果可以看出，無論缺失率為多少，LD、PD以及FIML的標(biāo)準(zhǔn)偏差均小于0.4(截距項除外)，因此可認(rèn)為這三種缺失值處理方法的估計偏差尚可接受。而從估計精度上看，F(xiàn)IML最優(yōu)，PD次之，LD最差。

表1 缺失率為30%時各缺失值處理方法比較(模擬研究一)

圖1為不同缺失率下，各方法對完整變量x4的參數(shù)估計標(biāo)準(zhǔn)誤的變化情況。從圖中可以看出，在缺失率為10%時，三種方法的標(biāo)準(zhǔn)誤相差不大，但隨著缺失率的增加，LD和PD的標(biāo)準(zhǔn)誤均有明顯的增大，總體上PD優(yōu)于LD，而FIML的標(biāo)準(zhǔn)誤比較穩(wěn)定，增幅不大，且明顯優(yōu)于LD和PD。

表2 缺失率為50%時各缺失值處理方法比較(模擬研究一)

圖1 回歸系數(shù)β4在不同缺失率下的估計精度(模擬研究一)

2.模擬研究二：兩個塊缺失

模擬1000次，由于結(jié)果相似，這里僅列出缺失率為60%,80%時各缺失率處理方法的結(jié)果，見表3、表4。從結(jié)果可以看出，三種缺失值處理方法的標(biāo)準(zhǔn)偏差均小于0.4，說明三種方法的估計偏差尚可接受。對于含有缺失的變量(不完整變量)，PD的標(biāo)準(zhǔn)誤最小，F(xiàn)IML次之，LD最大。而對于完整變量x4,x5而言，F(xiàn)IML的標(biāo)準(zhǔn)誤最小，PD次之，LD的最大。

圖2為不同缺失率下，各方法對完整變量x4的參數(shù)估計標(biāo)準(zhǔn)誤的變化情況。從圖中可以看出，隨著缺失率的上升，LD的估計標(biāo)準(zhǔn)誤明顯增加，而FIML和PD的標(biāo)準(zhǔn)誤增幅不大，F(xiàn)IML的標(biāo)準(zhǔn)誤略小于PD。

表3 數(shù)據(jù)集缺失比例為60%時各缺失值處理方法比較(模擬研究二)

表4 數(shù)據(jù)集缺失比例為80%時各缺失值處理方法比較(模擬研究二)

圖2 回歸系數(shù)β4在不同缺失率下的估計精度(模擬研究二)

討論

本研究結(jié)果顯示，當(dāng)缺失比例比較小(如<10%)時，列表刪除法、配對刪除法和全信息極大似然法的估計偏差和估計精度都差不多。隨著缺失比例的增大，列表刪除法和配對刪除法的估計標(biāo)準(zhǔn)誤均有明顯的上升趨勢，而全信息極大似然法的估計標(biāo)準(zhǔn)誤增幅不大，且明顯小于前面二者。當(dāng)缺失比例很大時(如>70%)，全信息極大似然法對完整變量的估計精度略優(yōu)于配對刪除法，而對不完整變量的估計卻遠(yuǎn)差于配對刪除法。

列表刪除法因為簡單，容易實施而被廣泛應(yīng)用，在很多統(tǒng)計分析軟件中是默認(rèn)的缺失數(shù)據(jù)處理方法[6-7]。但在跨平臺組學(xué)數(shù)據(jù)整合分析中，數(shù)據(jù)存在很多的塊缺失，若采用列表刪除法直接將缺失數(shù)據(jù)刪除，則會損失大量數(shù)據(jù)信息，導(dǎo)致統(tǒng)計分析效率低下。從上述的模擬研究的結(jié)果可以看出，當(dāng)缺失率比較小時(如10%)，列表刪除法的效果尚可，隨著缺失率的上升，列表刪除法的估計精度不佳，與Baraldi等的結(jié)論一致[7-9]。

配對刪除法和全信息極大似然法都是基于不填補(bǔ)的思想[10]，充分利用已觀測到的數(shù)據(jù)信息，避免了由于列表刪除法所造成的數(shù)據(jù)信息大量損失等問題，因此這兩種方法在估計精度上均優(yōu)于列表刪除法。目前常用的缺失數(shù)據(jù)處理方法是多重填補(bǔ)法[11-13]。有研究表明[14-15]，多重填補(bǔ)的估計效果與全信息極大似然法相近，但全信息極大似然法的計算效率更高。而且，對于一個給定的數(shù)據(jù)集，全信息極大似然法每次的估計結(jié)果一致，而由于隨機(jī)性，多重填補(bǔ)會得出不一樣的結(jié)果。本研究結(jié)果表明，當(dāng)數(shù)據(jù)中僅存在一個塊缺失時，全信息極大似然法對所有變量的估計標(biāo)準(zhǔn)誤均小于配對刪除法，而當(dāng)數(shù)據(jù)存在兩個塊缺失時，僅對于完整變量而言，全信息極大似然法的標(biāo)準(zhǔn)誤小于配對刪除法，對于含有缺失的不完整變量，剛好相反。Yung[10]等人的研究表明，當(dāng)數(shù)據(jù)集中的缺失比例超過85%時，全信息極大似然算法會不收斂。當(dāng)數(shù)據(jù)存在兩個塊缺失時，即數(shù)據(jù)集的缺失比例很大，全信息極大似然法會因算法不收斂而效果不佳，不如配對刪除法。當(dāng)塊缺失數(shù)據(jù)的缺失比例不是很大時(如<70%)，推薦采用全信息極大似然法，因為在估計偏差均可接受的情況下，其估計精度最優(yōu)。當(dāng)缺失比例超過70%時，三種方法的標(biāo)準(zhǔn)誤均比較大，推薦采用配對刪除法，因為其估計精度相對較優(yōu)。

塊缺失是跨組學(xué)平臺研究中經(jīng)常遇到的問題，目前尚無關(guān)于這方面的研究。不同于目前廣泛應(yīng)用的基于填補(bǔ)的方法，本研究采用不填補(bǔ)的方法對塊缺失進(jìn)行處理。盡管所研究的變量不多，但是對于方法評價來說，已經(jīng)能夠說明各自的優(yōu)劣。這為進(jìn)一步充分利用不同組學(xué)平臺的信息以及環(huán)境暴露信息進(jìn)行疾病風(fēng)險預(yù)測、預(yù)后預(yù)測等提供了方法選擇的理論依據(jù)。

[1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.

[2]帥平,李曉松,周曉華,等.缺失數(shù)據(jù)統(tǒng)計處理方法的研究進(jìn)展.中國衛(wèi)生統(tǒng)計,2013(1):135-139.

[3]Enders CK.Applied missing data analysis.Guilford Press,2010,39-42.

[4]Enders CK.The performance of the full information maximum likelihood estimator in multiple regression models with missing data.Educational and Psychological Measurement,2001,61(5):713-740.

[5]Burton A,Altman DG,Royston P,et al.The design of simulation studies in medical statistics.Statistics in medicine,2006,25(24):4279-4292.

[6]Graham J.Missing data analysis:Making it work in the real world.Annual review of psychology,2009,60:549-576.

[7]Baraldi A,Enders CK.An Introduction to Modern Missing Data Analyses.Journal of School Psychology,2010,48(1):5-37.

[8]Myers TA.Goodbye,listwise deletion:Presenting hot deck imputation as an easy and effective tool for handling missing data.Communication Methods and Measures,2011,5(4):297-310.

[9]Kang H.The prevention and handling of the missing data.Korean journal of anesthesiology,2013,64(5):402-406.

[10]Yung YF,Zhang W.Making use of incomplete observations in the analysis of structural equation models:The CALIS procedure's full information maximum likelihood method in SAS/STAT?9.3.SAS Global Forum,2011:1-20.

[11]Royston P.Multiple imputation of missing values:further update of ice,with an emphasis on categorical variable.Stata Journal,2009,9(3):466-477.

[12]Lee K J,Carlin JB.Multiple Imputation for Missing Data:Fully Conditional Specification Versus Multivariate Normal Imputation.American Journal of Epidemiology,2010,171(5):624-632.

[13]Moniek CM,Merel VD,Kitty JJ,et al.Multiple imputation:dealing with missing data.Nephrology Dialysis Transplantation,2013,28(10):2415-2420.

[14]Allison PD.Handling missing data by maximum likelihood.SAS global forum,2012,23:1-21.

[15]Newman DA.Missing data five practical guidelines.Organizational Research Methods,2014,17(4):372-411.

(責(zé)任編輯：郭海強(qiáng))

國家自然科學(xué)基金(81530088，81473070,81373102，81402764)

△通信作者：陳峰，E-mail:fengchen@njmu.edu.cn

三種塊缺失數(shù)據(jù)處理方法的比較*

缺失值處理方法

模擬研究

結(jié) 果

討 論

討論