張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅
中國醫學科學院基礎醫學研究所&北京協和醫學院基礎學院流行病學與衛生統計學系(100005)
·方法介紹·
完全隨機缺失條件下分類隨機變量數據缺失插補方法的比較研究
張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅△
中國醫學科學院基礎醫學研究所&北京協和醫學院基礎學院流行病學與衛生統計學系(100005)
目的 探討完全隨機缺失條件下分類隨機變量數據缺失對研究結果的影響,對各方法插補效果進行評價。方法 基于上海地區35歲及以上吸煙人群吸煙與肺癌死亡關系的完整數據集,在5%、10%、20%及30%缺失率下,模擬有序分類變量(吸煙年數分組syfz)缺失和二分類變量(性別sex)缺失,重復模擬100次。采用刪除法、眾數插補法、多重插補-logistic回歸法(MI/logistic)及多重插補-判別分析法(ML/discrim)對分類變量數據缺失進行處理。對插補效果從插補正確率及插補后模型參數的變化兩個方面進行評價。結果 有序分類變量缺失:各缺失率下,MI/logistic插補的正確率最高,MI/logistic和MI/discrim插補后模型參數的偏差均較小,對于吸煙年數sy以分組形式syfz納入模型數據缺失導致模型參數的相對偏差更小,對syfz插補后模型參數相對偏差也小于連續變量sy插補后模型參數相對偏差。二分類變量缺失:各缺失率下,眾數插補的正確率最高,刪除法處理缺失數據后模型參數的偏差最小。結論 連續變量缺失對模型結果的影響大于分類變量缺失,對于有數據缺失的連續變量可將其離散化,以分類變量的形式進行分析。缺失數據插補模型的擬合效果會直接影響插補效果,當模型擬合效果較差時可能會帶來更大的偏差。
分類變量 數據缺失 多重插補
在醫學研究中,數據缺失是一個普遍存在的問題[1]。數據缺失會導致樣本信息減少和統計檢驗效能降低,損害研究結果的有效性[2],增加統計分析的復雜性[3-4]。對缺失數據進行插補是國內外普遍應用的缺失數據處理方法,但目前研究多集中于對連續變量的數據缺失進行插補,對分類變量數據缺失的插補研究較少,完全隨機缺失是對插補方法的插補效果進行評價的理想環境。本研究基于完整數據集模擬缺失數據集,探討分類隨機變量數據缺失對研究結果的影響,并對各方法的插補效果進行比較及評價。
1.數據來源:研究數據源于1989-1991年開展的“中國吸煙與全死因關系”橫斷面調查,選取上海地區35歲及以上吸煙人群吸煙與肺癌死亡關系的數據進行插補方法研究,共14911條完整觀測。
2.研究涉及的變量:詳見表1。
3.不完整數據集的構建:基于完整數據集模擬完全隨機缺失的不完整數據集。
(1)有序分類變量缺失:模擬syfz缺失的不完整數據集,分別在5%、10%、20%和30%的缺失率下各模擬100次;
(2)二分類變量缺失:模擬sex缺失的不完整數據集,分別在5%、10%、20%和30%的缺失率下各模擬100次。
4.插補方法及效果評價
有序分類變量缺失采用四種方法處理缺失值[5-8]:①刪除法,刪除syfz缺失的觀測;②眾數插補法,按sex和sagefz將數據交叉分組分為8組。計算各組中syfz的眾數,并將其作為該組中缺失項的插補值。③多重插補-logistic回歸法(MI/logistic),以syfz為因變量,sex、age和sage為協變量擬合有序多分類logistic回歸模型,計算缺失觀測syfz取值為1,2,…,5的概率分別為p1,p2,…,p5,然后產生一個服從均勻分布的隨機變量μ,其取值介于0和1之間,若μ 二分類變量缺失采用四種方法處理缺失值[5-8]:①刪除法,刪除sex缺失的觀測。②眾數插補法,按agefz及sagefz將全部觀測分為16組,以每組中sex的眾數插補相應的缺失值。③多重插補-logistic回歸法(MI/logistic),以sex為因變量,age、sage、smd和sy為協變量擬合二分類logistic回歸模型,插補過程與有序多分類logistic回歸多重插補相同,分別對缺失值進行3次、5次和10次插補。④多重插補-判別分析法(MI/discrim),利用變量age、sage、smd和sy構建sex的判別模型,分別對缺失值進行3次、5次和10次插補。 對各方法的插補效果從以下二方面進行評價: (1)插補正確率[9-11]:計算插補后各插補方法的插補正確率,正確插補的觀測數占總缺失觀測數的比例。重復模擬100次,計算100次正確率的均值,得到各方法的平均插補正確率。插補正確率越高插補效果越好。 (2)插補后模型參數的改變[12-13]:采用logistic回歸模型分析lungca(因變量)與sex、syfz(或sy)和smd的關系。將插補數據集的模型參數估計結果與完整數據集的結果相比較,計算模型參數的平均絕對偏差MADP和平均相對偏差MRDP。 其中,k為重復模擬次數,s為模型中估計的參數個數,δ為完整數據集的參數估計值,δij為插補數據集的參數估計值。MADP和MRDP越小插補效果越好。 1.有序分類變量缺失 表2顯示了在5%缺失率下各法對syfz插補的正確率及插補后模型參數的變化。Syfz插補正確率由高到低為:MI/logistic>MI/discrim>眾數插補;從模型參數偏差來看,MI/logistic與MI/discrim插補后模型參數的偏差較小且極為接近,均遠小于眾數插補與刪除法。 其他缺失率下各插補方法的結果列于表3~6,由于同一多重插補方法在不同插補次數下的效果相近,選擇插補效果最好時對應的次數。 表3顯示,各方法的插補準確率較為穩定,不隨缺失率的變化而變化。MI/logistic插補的正確率最高,眾數插補的正確率最低。 表4顯示,模型參數的偏差隨著缺失率的增加而增加。各缺失率下,眾數插補的偏差均最大,MI/logistic與MI/discrim的偏差較小且極為接近,明顯優于眾數插補和刪除法。 syfz是由連續變量sy離散化得到的,當sy有數據缺失時,分別以連續變量形式sy和分組變量形式syfz進入模型,數據缺失導致模型參數的相對偏差情況見表5。 表5顯示,在各缺失率下,以分類變量形式syfz進入模型時模型參數的相對偏差小于連續變量形式sy的相對偏差。隨著缺失率的增加,syfz與sy的模型參數相對誤差的差值有增大的趨勢。 采用刪除法、條件均值插補、回歸插補、多重插補-趨勢得分法、多重插補-回歸法、多重插補-預測均數匹配法及多重插補-馬爾科夫蒙特卡洛法對sy的缺失數據進行處理,采用刪除法、眾數插補、多重插補-logistic回歸及多重插補-判別分析對syfz的缺失數據進行處理。將插補后的sy和syfz分別納入模型,計算各方法插補后模型參數的相對偏差,選擇最小的相對偏差作圖,可得對連續變量sy和分類變量syfz插補后模型參數的相對偏差,詳見表6。 表6顯示,在各缺失率下,分類變量syfz插補后進入模型的模型參數相對偏差均小于連續變量sy插補后進入模型的模型參數相對偏差。隨著缺失率的增加,syfz與sy的模型參數相對誤差的差值有增大的趨勢。通過表6與表5的比較可見,插補后模型參數的相對偏差明顯降低。 2.二分類變量缺失 對二分類變量sex缺失數據處理的主要結果見表7-8。 表7顯示,各方法的插補準確率穩定在一定水平上;眾數插補的正確率最高,MI/logistic與MI/discrim插補的正確率相近且均較低。 表8顯示,模型參數的偏差隨著缺失率的增加而增加。各缺失率下,刪除法的偏差最小,MI/logistic與MI/discrim的偏差均較大。 缺失率越大,數據缺失導致研究結果的偏差越大,各缺失值處理方法的效果也越差。本研究將吸煙年數測量指標分別以連續變量sy和分組變量syfz納入模型,結果顯示,syfz進入模型數據缺失導致的模型參數的相對偏差較小,對syfz進行插補后模型參數的相對偏差更小。這提示連續變量缺失對模型結果的影響大于分類變量缺失,在實際中遇到有數據缺失的連續變量可將其離散化,以分類變量的形式進行處理。 本研究對缺失變量的插補充分利用了輔助變量的信息,輔助變量與缺失變量之間的相關性越強,信息利用越充分,插補的效果越好。對syfz進行插補時,MI/logistic與MI/discrim的插補效果較好,明顯優于刪除法與眾數插補法,然而對sex進行插補時,MI/logistic與MI/discrim的插補效果較差,明顯差于刪除法與眾數插補法,究其原因是由于輔助變量能對syfz進行較好的預測,而對sex的預測效果較差。如進行MI/logistic插補時,對syfz進行預測的logistic回歸模型其矯正R2為0.8513,預測一致百分比為94.8%,而對sex進行預測的回歸模型矯正R2為0.2003,預測一致百分比為72.9%。這提示基于統計建模對缺失數據進行插補時,模型擬合效果會直接影響插補效果,當模型擬合效果較差時會帶來更大的偏差,但模型擬合優度與插補效果之間的定量關系有待進一步的研究。 [1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiology research .Current opinion in psychiatry,2004,17(4):315-321. [2]Streiner DL.The case of the missing Data:Methods of dealing with dropouts and other research vagaries .Research Methods in Psychiatry,2002,47(1):68-75. [3]吳秋紅,張裕青,李國平,等.不同模型處理縱向缺失數據的模擬研究及應用.中國衛生統計,2013,30(6):855-861. [4]曹陽,張羅漫.運用SAS對不完整數據集進行多重填補-SAS9中的多重填補及其統計分析過程(一).中國衛生統計,2004,21(1):56-63. [5]李樹威,鐘曉妮.基于Markov Chain Monto Carlo模型對醫院調查資料中缺失數據的多重估算.中國衛生統計,2013,30(6):837-841. [6]SAS Institute Inc.SAS/STAT 9.2 User′s Guide,second edition ,North Carolina:SAS Institute Inc,2009. [7]趙飛,張志杰,劉建翔.疾病監測資料中缺失值最佳填充次數的研究.中國衛生統計,2009,29(5):455-458. [8]帥平,李曉松,周曉華,等.缺失數據統計處理方法研究進展.中國衛生統計,2013,30(1):135-142. [9]蘭妥,江弋,劉光生.基于Sas的時間序列缺失值處理方法比較.計算機技術與發展,2008,10(18):43-45. [10]張橋,李寧,張秋菊,等.任意缺失模式缺失數據不同填補方法效果比較.中國衛生統計, 2013,30(5):690-692. [11]Preda C,Duhamel A,Picavet M,et al.Tools for Statistical Analysis with MissingData:Application to a Large Medical Database .Connecting Medical Informatics and Bio-Informatics,2005,181-186. [12]魏昕.缺失數據對微觀計量影響研究——以農民收入與消費為例.成都:西南交通大學,2010. [13]莊嚴,邢艷春,馬文卿.含有缺失機制的多元縱向數據分析.中國衛生統計,2008,25(5):489-493. (責任編輯:郭海強) △通信作者:姜晶梅,E-mail:jingmeijiang238@hotmail.com結 果
討 論