龐新生
(北京林業大學 經濟管理學院,北京 100083)
缺失數據處理方法的比較
龐新生
(北京林業大學 經濟管理學院,北京 100083)
文章簡要介紹了常用的缺失數據處理方法,討論了缺失數據的處理方法評價標準,并對各種缺失數據的處理方法的特點及適用情況進行了比較。
缺失數據;處理方法;比較評價
設Y=(Y1,Y2,…,YN)T表示有缺失數據的所有變量的集合,為方便論述,以下稱為研究變量。Y可以是一維,也可以是多維,通常,Y指包括那些調查者感興趣的目標變量,當然,若輔助變量數據發生缺失,也是可以納入Y中,Yobs為Y中的觀測值;Ymis為Y中的缺失值。如果Y是一維的,在缺失數據處理中首先要識別缺失數據的產生機制;如果Y是多維的,對缺失數據進行處理時,要識別缺失數據的缺失模式。缺失數據的產生機制、缺失模式不同,所采用的方法也不同。目前常用的缺失數據處理方法大體上可以概括為列表刪除、成對刪除、加權調整、缺失數據插補方法等(如圖1所示),其中,有些處理方法是基于完全隨機缺失假設(Missing Completely at Random,MCAR),一般來說,當數據不是MCAR而是隨機缺失(Missing at Random,MAR)時,這些方法是不適用的;而有些方法(如似然估計法)在MAR的假設下是適用的,因此,在進行缺失數據處理時,首先需要認真分析缺失數據產生的原因,然后采取有針對性的補救措施,這樣才能夠獲得無偏或弱偏估計。

當一維目標變量出現缺失數據時,在缺失數據處理過程中首先要考慮缺失數據產生機制,缺失數據產生機制是通過探討缺失數據與目標變量是否有關而界定的。若Y的缺失值與Y的觀測值、未觀測值都沒有關系,研究變量Y為完全隨機缺失(MCAR)。若Y的缺失值與Y的未觀測值沒有關系,但與其他觀測變量(常常是完全觀測變量,如變量X)有關,我們稱研究變量Y為隨機缺失(MAR)。若Y的缺失值與Y的未觀測值有關,研究變量Y為非隨機缺失(Not Missing at Random ,NMAR)。為方便討論,根據缺失數據的影響將缺失數據產生機制概括為可忽略和不可忽略兩種類型,如表1所示,如果缺失數據的出現是隨機的,該類缺失數據產生機制為可忽略的;如果缺失數據的產生與研究變量有關,該類缺失數據產生機制為不可忽略的。
數據缺失模式主要研究哪些變量缺失,更確切的說,關注的是R的分布。當一維目標變量出現缺失數據時,我們在數據處理過程中首先要考慮缺失數據產生機制,而對于多維目標變量而言,除了考慮缺失數據產生機制外,還要判斷數據的缺失模式。假設完全數據資料陣y是由m個觀測、n個變量組成的m×n矩陣,通過分析這個矩陣的特點,可以推斷出數據缺失模式。
(1)單變量缺失模式。如圖2(a)所示。缺失數據僅僅限于單個變量,常見于農業試驗,yk表示糧食產量,存在缺失數據,而 y1,y2,…,yk-1分別代表溫度、施肥量、施肥種類及降雨量等影響糧食產量的因素,這些變量都是可以完全觀測到的。
(2)多變量兩模式。如圖2(b)所示。從第j個變量yj開始的變量缺失的項目都相同,圖(b)中,j=3,yj之前的變量可以完全觀測到,抽樣調查中符合這一模式的顯著例子是要么完全回答,要么就是單位無回答,不存在項目無回答。

表1 缺失數據產生機制

圖2 數據缺失模式
(3)單調缺失模式。如圖2(c)所示。對數據資料陣y進行適當的行列變換后,可以得到這樣一個矩陣,它呈現出一種層級缺失的模式,即:當矩陣中的元素yij缺失時,則對任意的p≥i和q≥j,元素ypq也是缺失的。
(4)一般模式。如圖2(d)所示。數據缺失具有偶然性,沒有規律可循,如抽樣調查中經常出現的項目無回答。
(5)文件匹配模式。如圖2(e)所示,變量y1完全觀測,變量y2、y3不可能同時觀測到,如針對抽樣調查中存在互斥分枝項目的觀測值。
(6)因素分析模式。如圖2(f)所示,x表示隱變量,y完全缺失,y完全觀測,因素分析可以看作是y對x的多元回歸分析,由于x缺失,需要假定在給定x的情況下y條件獨立。
為方便討論,本文將數據缺失模式簡單地劃分為單調缺失模式和任意缺失模式,任意缺失模式包括所有不滿足單調缺失模式的類型。對于單調缺失模式來說,缺失數據的處理比較簡單,但在大多數復雜的調查中,這種缺失模式很少見。對任意缺失模式而言,處理方法較為復雜。如果可能的話,可以先將非單調缺失資料陣變換為單調缺失,之后再采用針對單調缺失模式的處理方法。
不考慮缺失數據的影響,直接在目前獲取的數據基礎之上進行分析。包括列表刪除和成對刪除。
列表刪除是處理缺失數據最簡單的方法,刪除觀測不完全的變量,針對所有回答項目,采用完全數據進行分析。這種方法簡便,易于實施,不作任何修正,在MCAR的假設下,完全單位是原單位的一個有效子樣本,丟棄不完全單位數據不會造成有偏估計。當觀測變量較多時,樣本規模的損失會相當大,當缺失數據多的時候,采用列表刪除會放棄相當數量的信息,特別是當樣本量較小的時候,采用這種方法會使數據量變得更少,估計效果較差,特別是當缺失數據為非隨機缺失時,估計效果會更差。對表2提供的例子,如果采用列表刪除法,推斷分析時僅考慮單位2和單位4,其余都刪除不考慮。

表2 列表刪除統計表

表3 成對刪除樣本單位構成

表4 插補方法比較
多元數據處理的另一種選擇就是把目標變量進行過回答的所有單位都包括進來,這種方法就稱為成對刪除法,仍以表2數據為例,采用這種方法處理缺失數據,每個目標變量使用的樣本構成如表3所示。它的缺點是根據缺失數據形式不同,各個變量的樣本基礎總是不斷變化。使用有效單位分析過程中,在MCAR下,均值和方差的估計可以直接計算,但要估計協方差或相關系數需要進行修整,具體方法參看文獻[2]。
通過上面的分析,可以看出簡單的將數據刪除并不是好的方法,替換缺失數據技術的意義在于比列表刪除浪費更少的信息,而且當缺失數據為非隨機缺失時,替換缺失數據技術比列表刪除更穩健。基于插補的缺失數據處理技術是用適當的估計補全缺失數據,這樣就允許將標準完全數據分析方法用于分析插補后的數據集。插補法主要用于項目無回答情況下的調整,根據每個缺失值替代值的個數,可以分為單一插補和多重插補。
單一插補是指對每一個由于無回答造成的缺失值只構造一個替代值,單一插補是以估算為基礎的方法,是在替代缺失數據后,對新合成的數據進行相應的統計分析。
(1)根據插補中輔助信息來源的不同,單一插補方法可以劃分為熱卡插補和冷卡插補。熱卡插補是從每一個缺失數據的估計分布抽取插補值替代缺失值,使用回答單元的抽樣分布作為抽取分布是最常見的方法。與冷卡插補相比,熱卡插補使用當前調查的回答者,而冷卡插補則使用其它資料中的回答數據或先前同樣的調查或普查中的歷史數據。
(2)根據插補值與缺失值關系,單一插補可以劃分為相似回答單一插補與其他類型的單一插補。相似回答插補的基本思想是找尋與含有缺失數據的樣本單位最相近的不存在缺失值的樣本單位,用相近樣本單位的數據去補全缺失數據。其他類型的單一插補又劃分為均值插補、隨機插補、回歸插補和隨機回歸插補,具體方法見文獻[5]。
單一插補改變了傳統方法將缺失值忽略不考慮的習慣,使得各種統計分析均可以在插補后的完整數據集上展開,但單一插補的缺點也是顯而易見的:無論采用何種方法,都存在扭曲樣本分布的問題。
多重插補是單一插補的基礎上衍生來的,由Rubin在1977年首先提出,是指給每個缺失值都構造一個以上的替代值,這樣就產生了若干個完全數據集,對每個完全數據集分別使用相同的方法處理,得到若干個處理結果,最后再綜合這些處理結果,最終得到目標變量的估計。多重插補法的出現,彌補了單一插補法的缺陷,第一,多重插補過程產生多個中間插補值,可以利用插補值之間的變異反映無回答的不確定性,包括無回答原因已知情況下抽樣的變異性和無回答原因不確定造成的變異性。第二,多重插補通過模擬缺失數據的分布,較好地保持變量之間的關系。第三,多重插補能給出衡量估計結果不確定性的大量信息,單一插補給出的估計結果則較為簡單。與單一插補相比,多重插補唯一的缺點是需要做大量的工作來創建插補集并進行結果分析,因為它主要是執行若干次相同的任務,而非一次,然而數據分析中大量工作在今天的計算環境下是比較容易實現的。
既不是刪除缺失值也不是采用插補方法去補全缺失值,而是首先要考慮缺失數據的缺失機制 (MCAR、MAR和NMAR),在此基礎上為部分缺失數據定義模型,模型的參數可以通過極大似然或極大后驗估計,常用的方法有極大似然估計、EM算法、MCMC方法(其中包含DA算法),這里主要討論完全信息極大似然估計,這是基于模型的方法,可直接用于不完全數據的分析的,最大特點在于即使缺失數據不是完全隨機缺失,估計的結果也是無偏的。完全信息極大似然估計是建立在對數極大似然估計基礎上的,假定數據來源于多元正態分布,對于不完全服從多元正態的數據還是穩健的。極大似然估計的不足之處在于需要相對比較大的數據集,而且可供推斷的信息是有限的。當樣本量太小時,不宜采用完全信息極大似然估計。
通過上面的分析,我們可以看出解決缺失數據的方法各有特點,不存在既簡便易行,估計效果又理想的方法,而且大部分方法在使用之前要求滿足如下假定:一是多元正態分布,二是所有變量獨立同分布,三是數據隨機缺失。因此在進行缺失數據處理之前,應該對于上述假定逐一判斷。應該指出的是,一個好的缺失數據處理方法應該合理反映缺失數據的不確定性,能夠保持數據分布特征,保證變量間重要關系不會因調整后發生變化。
對缺失數據的處理并不是為了尋找最理想的點預測,而是要獲得有效的統計推斷,通常情況下,在討論處理缺失數據技術時,應該注意到以下幾個問題:第一,是不是每一種缺失數據處理方法對于由非隨機缺失引起的偏差都是穩健的;第二,是不是每一種缺失數據處理方法都可能引入偏差;第三,缺失數據處理方法利用信息的程度如何;第四,缺失數據處理方法所適用的數據缺失類型。
如果缺失數據不是隨機缺失的,數據分析可能將導致偏差,除非分析方法能夠糾正由于非隨機缺失所造成的偏差。以抽樣為基礎的方法如多重插補和相似回答插補假定數據是MCAR,而模型為基礎的方法如完全信息極大似然估計僅假定數據是MAR,Little和Rubin指出即使MAR的條件并不能嚴格滿足,使用完全信息極大似然估計將減少偏差,也就是說即使MAR的條件并不能嚴格滿足,完全信息極大似然估計估計是一致的和有效的,不幸的是,完全根據經驗弄清楚一個樣本分布是MCAR、MAR或非隨機缺失是很困難的,在決定這個問題上,先驗知識是必要的。
如果缺失數據處理方法帶入偏差,我們可以比較原始數據集和經缺失數據處理方法處理后獲得的數據集的數字特征,如中位數,均值和標準差,通過統計檢驗來判斷兩者的異同,即使這些檢驗看起來非常簡單,但在大部分關于缺失數據處理方法的統計研究中是必須的,假如采用列表刪除的數據集分布與原始數據集分布相似時,我們說缺失數據處理方法在列表刪除數據集中沒有引入偏差,而該方法不適宜于完全信息極大似然估計。信息損失阻止程度可通過比較每個數據集完全單位的數目與原始數據集所有單位數目進行評價。
由于插補技術是一種非常重要的缺失數據處理方法,因此,在對各種插補方法進行比較時,需要注意幾個原則:第一,插補必須是建立在缺失數據的預測分布基礎之上;第二,在考慮插補時,完全回答變量必須考慮在內;第三,插補必須基于需要插補變量的輔助信息;第四,超越數據取值過分的外推是要避免的;第五,為保持完全數據集的分布,插補值必須從預測分布中抽取;第六、必須提供一種把插補值考慮在內的抽樣估計誤差計算方法。均值插補是唯一不滿足任何原則的方法,對于所有缺失數據采用唯一的插補值。回歸插補和基于EM算法的多重插補滿足其中的兩個原則;隨機回歸插補和基于DA算法的多重插補滿足四條原則,在四原則的基礎上,隨機回歸插補和基于DA算法看起來最有發展前景,其次是回歸插補、基于EM算法的多重插補,最差的是均值插補,具體比較見表4。

表5 各種缺失數據處理方法的比較
上述不同缺失數據的處理方法的選擇主要取決于研究數據的性質和質量、數據的使用者和用途以及缺失數據的廣度和內在機制。如前面提到的,忽略不完全觀測值僅僅在缺失數據比例很小,而且是可以忽略的情況下,才不至于引入顯著的偏差。
根據上述標準,對各種缺失數據處理方法進行比較分析,結果見表5。從該表可以看出,在大樣本情況下,完全信息極大似然估計是最好的選擇,當存在缺失數據時,由于完全信息極大似然估計具有比其他方法更好的穩健性。如果缺失數據是非完全隨機缺失,在使用列表刪除時,應首先討論是否是MCAR,如果觀測值與缺失值之間存在系統差異,采用列表刪除是非常危險的。事實上,沒有哪一種缺失數據處理方法能夠非常滿意的糾正由于缺失數據造成的偏差,更危險的是,沒有缺失數據處理方法和檢驗可以發現這種偏差。因此,必須依靠專業知識去判斷是否為隨機缺失,假如缺失數據很多,而且可能為非隨機缺失,不提倡使用任何缺失數據處理方法,包括列表刪除,在這種環境中唯一的解決辦法就是找尋真值,例如對無回答者的再次訪問。但是,如果缺失數據非常少,數據缺失在5%之內,可以采用列表刪除或其他缺失數據處理方法,而不至于引入大的誤差。對于以模型為基礎的方法如極大似然估計、EM算法、DA算法,不容易操作,僅適合于非常熟悉缺失數據機制,并且具有處理缺失數據的專長和工具的專業人士。
綜上所述,沒有哪一種處理缺失數據的方法是普遍適用的,每種方法都存在不如人意之處,但這畢竟是對不完全數據集分析的一種嘗試,對于這一問題的研究越來越引起人們的重視,對于現有的方法,應該持一種科學態度謹慎對待,根據每一種方法的特點結合實際問題加以分析、選擇和應用。
[1]Donald.B.Rubin Multiple Imputation For Nonresponse In Surveys[M].New York:John Wiley&Sons,1987.
[2]Little,R.J.A.Discussion Proceedings ofthe Survey Research Methods Section of the American Statistical Association[C].Alexandria,VA,1995.
[3]Little,R.J.A.,Rubin,D.B.The Analysis of Social Science Data with Missing Value[J].Sociological Methods and Research,1990,18.
[4]Roderick J.A.Little,Donald B.Rubin Statistical Analysis with Missing Data[M].New York:John Wiley&Sons,2002.
(責任編輯/亦 民)
O212
A
1002-6487(2010)24-0152-04
龐新生(1970-),男,山西榆次人,博士,研究方向:抽樣技術和數據分析。