第二軍醫大學衛生勤務學系衛生統計學教研室(200433) 王 睿 馬修強 陸 健 趙艷芳 賀 佳
在醫學研究中,經常會使用量表進行調查。量表是由若干問題或自我評分指標組成的標準化測定表格〔1〕。不同于評價不同指標的調查表,量表用于描述研究對象的一個特征,雖然量表用多個條目從各方面來描述該特征,但各條目一般都是相關聯的,最終用一個總的定量評分來描述〔1〕。
實際調查中,量表資料的缺失情況非常常見,且很多缺失為隨機缺失(missing at random,MAR),即一個觀測出現缺失值的概率是由數據集中不含缺失值的變量決定的,而不是由含缺失值的變量決定的〔2〕。比如調查人群生活質量時,有的人因文化水平有限無法理解量表導致缺失,這時條目的缺失與文化程度有關,與生活質量的高低無關。也就是說,數據的缺失只與有完全記錄的變量——文化程度有關,這種數據缺失的機制即隨機缺失。傳統的處理方法是舍棄有缺失項的記錄,只對保留下來的完全數據進行處理,但這樣不僅產生偏倚,還丟失了大量信息〔3-6〕,因此應對缺失數據進行合適的填補。常用的方法有熱平臺法、回歸填補法、自身均數填補法、條目均數填補法等〔7-9〕。近年來新興的方法有多重填補(multipleimputation,MI)〔6,10-12〕、BP 神經網絡等。
下面我們結合實際調查的資料,比較自身均數填補法、條目均數填補法、多重填補法處理量表缺失數據的優劣。自身均數填補法即用每個觀測者填寫完整的條目的均數填補該觀測者每一個缺失條目。條目均數填補法即用沒有某條目缺失的所有觀測的條目均值來填補該條目每一個缺失值。多重填補法并不是為每個缺失值產生一個填補值,而是為每一個缺失值構造m(m>1)個填補值,這些值反映了缺失值的不確定性,這樣就產生m個完整數據集。然后,用分析完整數據集的統計方法對這m個數據集分別進行統計分析,再把得到的結果進行綜合推斷,最終得到對目標變量的估計〔13-16〕。
實際數據來自一項在全國五城市進行的胃腸疾病的流行病學調查〔17〕。采用分層隨機多階段抽樣的方式抽取3600名城鄉居民,采用Epworth嗜睡量表(Epworth Sleepiness Scale,ESS)進行調查。ESS是一種簡易的患者自我評估的量表,主要評估患者在下述8種情況中的嗜睡程度〔18〕:ESS1,坐著看書時;ESS2,看電視時;ESS3,在公共場合坐著不動時(如在劇院或會場);ESS4,持續乘車一小時;ESS5,有條件時,下午躺著休息;ESS6,坐著與人談話;ESS7,不喝酒,午飯后安靜地坐著;ESS8,在轎車行進中,由于堵車而在車中等待很多分鐘。每個條目的評分如下:0分,從不打瞌睡;1分,很少打瞌睡;2分,有時打瞌睡;3分,經常打瞌睡。通過8個條目的嗜睡評分合計值來判定嗜睡程度。
最終共調查3219名居民,應答率為89.42%,3214人按照研究方案完成問卷,并進入統計分析。其中2906人(90.42%)回答了ESS的全部8個條目,308人(9.58%)缺失了至少1個條目。各個條目之間存在著顯著的相關性(P<0.05),相關系數從0.18到0.60;每個條目與總分間也有顯著的相關性(P<0.05),相關系數0.39~0.72。在對ESS缺失條目進行logistic回歸分析后發現,生活地區、年齡、教育都會影響條目的填寫完整性(P<0.05),且 ESS1、ESS3、ESS4、ESS8缺失更多,由表1可見上述四個條目的缺失情況。
首先取2878名沒有ESS條目、年齡、性別、受教育程度、地區等缺失的被調查者數據構造完整數據集。調查顯示生活地區、年齡、教育都影響ESS的填寫完整性,因此取生活地區、年齡、受教育程度三個變量作為影響因素,構建3個隨機缺失的數據集,且條目缺失率與實際缺失率相仿,并模擬100遍。具體如下:
(1)缺失數據集1:受教育程度為小學及以下,ESS4缺失5%,受教育程度為初/高中,ESS4缺失0.5%;受教育程度為小學及以下,ESS3缺失5%,受教育程度為初/高中,ESS4缺失1%。

表1 ESS量表不同條目缺失情況
(2)缺失數據集2:生活地區為農村,ESS1缺失10%,生活地區為城市,ESS1缺失1%;年齡為18~29歲,ESS8缺失1%,年齡為30~49歲,ESS8缺失2%,年齡為50~80歲,ESS8缺失10%。
(3)缺失數據集3:受教育程度為小學及以下,ESS1缺失20%,受教育程度為初/高中,ESS1缺失3%。
為研究高缺失率時數據填補的效果,進一步擴大條目缺失率,建立2個隨機缺失的數據集,如下:
(4)缺失數據集4:生活地區為農村,ESS1缺失50%,生活地區為城市,ESS1缺失20%;生活地區為農村,ESS8缺失50%,生活地區為城市,ESS8缺失20%。
(5)缺失數據集5:生活地區為農村,ESS1缺失50%,生活地區為城市,ESS1缺失20%;生活地區為農村,ESS8缺失50%,生活地區為城市,ESS8缺失20%。
針對這100個隨機缺失的數據集,分別使用自身均數填補法、條目均數填補法、多重填補法進行填補,計算填補后ESS總分及條目分值與完整數據集的一致率,以及差值的標準差,比較不同方法的優劣,詳見表2~3。可見,當缺失率較低時,幾種方法的效果都比較好,實際值與填補值的一致率都很高。隨著缺失率的增高,填補前后差值的標準差逐漸增大,實際值與填補值的一致率也逐漸下降。相比較而言,自身均數填補法的效果最好,其次是多重填補法,條目均數填補法最差。
流行病學調查中經常使用量表進行調查,而實際中量表的條目缺失非常常見。本研究發現,在MAR的情況下,當缺失率較低時,條目均數填補法、自身均數填補法和MI方法的效果都比較好,不管是總分還是單個條目分值,填補后的結果都較穩定。這與其他研究的結果相仿。Shrive〔9〕等人在研究自報抑郁量表的缺失數據時發現,MI方法填補的結果最為確切,而自身均數填補法也不失為一種簡單而合適的方法。Downey〔19〕等人在研究李克特量表的缺失數據時也發現,缺失數據在20%以內時,條目均數填補法和自身均數填補法填補后的結果都能很好地代表原始數據,但隨著缺失率的增大,自身均數填補法會導致條目相關系數虛假增大,而條目均數填補法效果較好。

表2 100個數據集填補前后差值的標準差〔均數(標準差)〕

表3 100個數據集填補后填補值與實際值的一致率(%)〔均數(標準差)〕
雖然數據填補可以避免由于刪除大量不完全觀測而造成的不必要的信息損失,但數據填補也不是萬能的。Barzi〔20〕等人研究發現,缺失率在10%以下時,不同處理方法的效果都類似,但當缺失率大于60%時,所有的方法都不能得到令人滿意的結果。本研究顯示缺失率較大時,各種方法的效果都不好。條目均數填補法和自身均數填補法簡單易懂,便于計算,但由于缺失值都由均數替代,破壞了變量的分布狀態,低估了變量的變異程度;MI考慮了缺失值的不確定性,填補效果較好,但過程復雜,雖然現在已經有很多軟件可以實現該過程,如SAS、SOLAS、NORM,但具體應用比較復雜。所以,在處理實際數據時,我們還是要根據數據特征、缺失程度等情況,慎重選擇方法。
1.孫振球主編.醫學統計學.第3版.北京:人民衛生出版社,2010:430-444.
2.Rubin DB.Inference and missing data.Biometrika,1976,63(3):581-592.
3.Greenland S,Finkle WD.A critical look at methods for handling missing covariates in epidemiologic regression analyses.American journal of epidemiology,1995,142:1255-1264.
4.Vach W.logistic regression with missing values in the covariates.New York:Springer,1994.
5.Rubin DB.Multiple imputation for non response in surveys.New York:John Wiley,1987.
6.Schafer JL.Analysis of incomplete multivariate data.London:Chapman& Hall,1997.
7.Downey RG,King CV.Missing data in Likert ratings:A comparison of replacement methods.The Journal of General Psychology,1998,125(2):175-191.
8.Bono C,Ried DL,Kimberlin C,et al.Missing data on the center for epidemiologic studies depression scale:A comparison of 4 imputation techniques.Research in Social and Administrative Pharmacy,2007,3:1-27.
9.Shrive FM,Stuart H,Quan H,et al.Dealing with missing data in a multi-question depression scale:a comparison of imputation methods.BMC Medical Research Methodology,2006,6:57-67.
10.Rubin DB.Multiple imputations in sample surveys-A phenomenological Bayesian approach to nonresponse.The proceedings of the survey research methods section of the American Statistical Association,1978:20-34.
11.Allison PD.Multiple imputation for missing data:A cautionary tale.Sociological Methods and Research,2000,28(3):301-309.
12.Meng XL,Rubin DB.Performing likelihood ration tests with multiple imputed data sets.Biometrika,1992,79(1):103-111.
13.Robins JM,Wang N.Inference for imputation estimators.Biometrika,2000,87(1):113-124.
14.SAS Institute Inc.SAS/STAT 9 User's Guide.North Carolina:SAS Institute Inc,2003.
15.Schafer JL.Multiple imputation:a primer.Statistical Methods in Medical Research,1999,8(1):3-15.
16.Wang N,Robins JM.Large-sample theory for parametric multiple imputation procedures.Biometrika,1998,85(4):935-948.
17.Yan XY,Wang R,Zhao YF,et al.Systematic investigation of gastrointestinal diseases in China(SILC):validation of survey methodology.BMC Gastroenterology,2009,9:86.
18.DeZee KJ,Jackson JL,Hatzigeorgiou C,et al.The Epworth sleepiness scale:relationship to sleep and mental disorders in a sleep clinic.Sleep Medicine,2006,7:327-332.
19.Downey RG,King CV.Missing data in Likert ratings:A comparison of replacement methods.The Journal of General Psychology,1998,125(2):175-191.
20.Barzi F,Woodward M.Imputation of missing values in practice:results from imputations of serum cholesterol in 28 cohort studies.American journal of epidemiology,2004,160(1):34-35.