于力超 金勇進

摘要:大數據時代市場調查中缺失數據的處理問題引起越來越多的關注。文章透過威斯康星縱向調查,總結了美國縱向調查中缺失數據的處理方法,重點介紹了采用多變量序貫回歸的方法進行多重插補的方法及IVEware軟件的應用情況,研究了多重插補法處理縱向缺失數據的優勢所在。作者總結了國外先進經驗,結合中國實際,提出研究大數據背景下縱向缺失數據處理方法的思路和幾點建議。
關鍵詞:多重插補法;縱向調查;缺失數據;大數據
一、 引言
在大數據背景下進行數據分析,數據的質量是關鍵。有數據顯示,對于收集到的調查數據,80%的時間要花在包括缺失數據處理、不合理值刪除等數據清洗工作上,獲得較高質量數據后方可進一步進行數據分析。我國縱向抽樣調查對缺失數據多采用直接刪除法進行處理,只利用數據完全的樣本進行分析,不僅造成大量信息浪費,而且可能導致估計結果有偏。本文以作者在威斯康星大學學習期間參與的威斯康星縱向調查(Wisconsin Longitudinal Survey)為例,介紹美國專業調查機構如何應對缺失數據問題,并結合我國實際,給出今后相關工作的建議。
二、 美國縱向抽樣調查中缺失數據的應對方法
美國許多大型縱向調查已開展多年,積累了豐富的數據和實踐經驗。例如著名的“威斯康星縱向調查”,這項由威斯康星大學麥迪遜分校調查中心組織開展的研究跟蹤調查威斯康星州1957年的1萬多名高中畢業生,已經持續了50多年的時間。研究范圍包括這些高中畢業生所上的大學、大學畢業后的工作和生活以及他們退休后的生活狀況,共收集了3 000多個變量的數據,該項目吸引了許多經濟學家、心理學家、社會學家以及流行病專家開展相關專題研究項目,從豐富的數據中挖掘他們感興趣的結論。我們以“威斯康星縱向研究”為例,看美國開展的縱向調查是如何應對缺失數據問題的。
1. 缺失數據的預防和初次出現時的應對。缺失數據多出現在收入和家庭財產相關的敏感變量。對這類問題,應盡量降低問題的敏感性。威斯康星縱向調查在提問涉及隱私的敏感問題時,一般不直接問具體數字而是通過“月收入在xx元到xx元的區間”這樣的問題間接獲取受訪者的收入信息。在每一輪調查開始時,收入分類的邊界值取上一輪調查所獲得收入數據的10%,50%和80%分位數。受訪者可以回答“不知道”或拒絕回答,調查人員對這些受訪者進行追訪,以盡可能減少缺失數據的出現,在缺失機制為不可忽略缺失的情形下,回答者與無回答者的調查數據分布有較大差異,此時進行追訪調查很有必要。如果追訪后受訪者還是無回答則記錄該受訪者的該項目數據缺失。
美國的縱向調查重視抽樣框信息的完善,收集受訪者的多種聯系方式(電話、住址、郵箱等),防止地址變更等原因導致無法聯系受訪者的問題出現,跟蹤抽樣框中受訪者聯系方式的變化,保證每位受訪者不至在縱向調查過程中失聯。威斯康星縱向調查項目(WLS)就在威斯康星州政府和美國勞動統計局的配合下,投入了大量人力財力用于維護抽樣框信息,從而能夠在整個縱向調查過程中跟蹤聯系到每一位受訪者。
2. 缺失數據的插補調整方法。采取各種預防缺失數據出現的措施只能一定程度上降低缺失數據出現的概率,不可能根本上解決缺失數據問題,威斯康星縱向調查項目(WLS)采取了大量的缺失數據預防措施,但問卷中多數問題的回答率只是在50%到90%之間。為了采用針對完全數據集的統計分析方法,需要對含缺失的數據集進行插補調整。
美國目前處理縱向調查缺失數據最常用的方法是多重插補法,用這種方法可以較好地估計目標參數以及參數估計量的方差。威斯康星縱向調查自1975年以來的各輪調查都采取了多重插補法處理缺失數據,多重插補使用的是密歇根大學調查研究中心開發的軟件IVEware。
IVEware軟件采用多變量序貫回歸的方法進行多重插補,插補所用的回歸模型可以是線性模型、logistic模型,Poisson模型或廣義logit模型等,軟件基于含缺失值的待插補變量的性質自動選擇合適的回歸模型,除待插補變量外所有其他變量構成回歸模型潛在的輔助變量集,插補值從待插補變量的后驗預測分布中抽取,該后驗預測分布基于所選擇的回歸模型獲得。軟件一次只對一個含缺失值的變量進行插補,對多個含缺失值的變量依次插補直到得到完整數據集,前期的含缺失值變量的插補值在后續針對其他變量的插補過程中被視為觀測值。該方法是一種基于回歸模型的插補方法。
具體地,假設待插補的含缺失值變量為Y1,…,Yk,數據完全的變量記為X,作為開始插補時的輔助變量,Y1,…,Yk在給定輔助變量X時的聯合分布:
f(Y1,…,Yk|X,θ1,…,θk)=f1(Y1|X,θ1)…,fk(Yk|X,Y1,…,Yk-1,θk)(1)
參數θj分布未知,假設其先驗分布為無信息先驗,即π(θj)∝1,我們對等式右邊各個因子根據Yj的性質,選用合適的回歸模型建模。
若Yj為二值變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于logistic回歸模型求得。
若Yj為屬性變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于廣義logit回歸模型求得。
若Yj為計數變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于Poisson對數線性模型求得。
若Yj為連續型變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于正態線性回歸模型求得。
插補時,首先插補缺失值最少的變量(記為Y1),根據Y1的性質選擇回歸模型,基于該模型從Y1的后驗預測分布f1(Y1|X,θ1)中抽取插補值,插補后變量Y1數據完全,然后從Y2的后驗預測分布f2(Y2|X,Y1,θ2)中抽取插補值,用與插補Y1相同的步驟插補缺失值第二少的變量Y2,此時前一期插補后的完全數據變量Y1作為回歸模型輔助變量的一部分。如此進行下去,依次插補Y1,…,Yk,直至得到一個完整數據集。
將上述插補過程進行M次,得到M個完整數據集,進而采用Rubin(1987)介紹的多重插補后參數估計量及其方差的計算公式,得到所求結果,具體地,首先用完全數據分析方法分析這M個數據集,對第m個插補后的“完整”數據集進行參數估計,記待估參數為γ,得到估計值γ(m),m=1,…,M;然后綜合M組估計量,得到統計推斷結果,參數估計為
γ=γ(m)(2)
由第i個插補后的“完整”數據集得到參數的方差估計V(m),V=V(m)為M個方差估計的均值,稱為組內方差均值,定義組間方差B=(γ(m)-γ)(γ(m)-γ)′,則參數γ的方差估計為:
VMI=V+(1-)B(3)
威斯康星縱向調查目標變量覆蓋面廣,持續時間長,收集到數據的完整程度基本反映了美國大型縱向調查的情況,一般情況下,數據完全的變量包括性別、受教育年數、每周工作時間、子女數、受教育程度等,而月收入、智商、健康狀況、家庭財產等信息常出現數據缺失,需要進行插補調整。其中,對連續型數據如收入、財產等建立插補模型時可采用正態線性回歸模型,對于屬性變量如健康狀況等需要首先將其轉化為離散型數據(如健康狀況良好則賦值為1,一般則賦值為2,較差則賦值為3),然后建立針對離散型變量的回歸模型如廣義logit回歸模型,對缺失數據進行插補。
三、 多重插補法處理缺失數據的優勢
用插補法處理缺失數據與直接刪除法相比有許多優勢。首先,它可以體現完全數據受訪單元與含缺失數據受訪單元之間的差異,從而得到參數的無偏估計結果,而直接刪除法只利用完全數據受訪單元的信息,若含缺失數據受訪單元與完全數據受訪單元的數據分布存在系統性差異,參數的估計結果會有偏;其次,插補法可以充分利用收集到的數據信息,而直接刪除法會丟棄大量有用數據,造成信息浪費。
美國目前處理縱向調查缺失數據廣泛采用的多重插補法可以充分利用輔助信息和觀測數據作為先驗信息,采用貝葉斯方法從含缺失變量后驗分布中重復抽取插補值,不僅可以獲得目標參數的無偏估計,還可以避免單一插補導致的參數估計量方差偏低的情況發生。
美國的縱向調查有一套成熟的缺失數據處理方法和步驟,對于大型縱向調查,在歷次調查階段采用相同的方法進行缺失數據處理,使歷次調查的參數估計結果具有可比性。
四、 大數據背景下縱向缺失數據處理的意義和啟示
當前國內電子商務事業蓬勃發展,阿里巴巴、京東等電商十分重視生產、銷售過程中在不同時間點產生的運營數據,這些數據可以視為縱向調查數據,企業希望根據不同時間點的運營數據建立模型,預測未來發展態勢,提早制定相應策略。以阿里巴巴為例,其數據平臺所有海量數據來自數百萬小微企業以及數以億記的消費者,阿里研究院的數據分析中心通過對他們商務活動和消費過程中產生的縱向數據進行分析,可以幫助企業和政府及時準確了解微觀經濟的運行情況。“未來制造業的最大‘能源不是石油,而是數據”,馬云如此形容數據分析的重要意義。
我國大型抽樣調查尤其是縱向調查事業起步較晚,調查設計及數據處理技術尚不成熟,尤其是在缺失數據處理方面,大多沒有采用多重插補法等統計分析方法,而是直接刪去含缺失值的受訪單元,即使插補也大多采用簡單的單一插補法,隨著大數據時代的來臨,這樣處理缺失數據弊端明顯,因為隨著時間的推移,數據量越來越大,其中的缺失數據也會越來越多,而且新老數據很容易出現重復。雀巢公司在200多個國家出售十余萬種產品,有數十萬家供應商,其數據庫數據量很大,決策層希望利用生產和銷售數據形成采購議價優勢,在市場中占得先機,但一次檢查中發現,在近千萬條客戶、原材料和經銷商記錄中近一半是過期或重復數據,剩下的一半中還有三分之一是明顯不合理或缺失的數據,在利用這些數據之前需要投入大量精力進行數據清洗處理。國內縱向調查數據無論從數量還是質量看,與西方發達國家都存在一定差距,數據缺失的問題十分嚴重,我們應當學習西方先進的缺失數據處理經驗,采用多重插補法、EM算法、基于模型的似然推斷法等統計分析方法處理缺失數據問題。
本文介紹了美國縱向調查處理缺失數據時常采用的多重插補法的操作步驟和相應軟件,結合我國國情和發展現狀,美國的經驗對我國縱向缺失數據處理工作的啟示有以下幾點:
1. 對于縱向調查,觀測不同調查時點目標參數的變化情況及發展趨勢是一個重要目的,所以對不同時點的含缺失數據集,需采用相同的缺失數據處理及參數估計方法,這樣不同時點參數估計結果才有可比性,目前我國尚沒有一個關于縱向調查中缺失數據處理方法的標準,在調查手冊中也沒有專門章節說明如何處理缺失數據,這樣可能由于縱向調查不同階段缺失數據處理方法不同,導致根據不同時點參數估計結果建立的時序模型與客觀實際不符,從而失去了根據該模型預測未來發展態勢進而制定相應策略的價值。建議研究者和調查設計及數據分析人員重視縱向缺失數據對參數估計結果的不利影響,制定縱向調查缺失數據處理相關的標準,在調查手冊和數據分析報告中用專門章節說明缺失數據的預防措施,報告每個調查時點下每個目標變量的數據缺失率,根據數據缺失的可能原因判定數據缺失機制,進而按照標準的方法有針對性地進行缺失數據處理,得到參數估計結果。
2. 重視缺失數據統計處理方法的研究。采用事前預防措施不可能完全消除缺失數據,此時需要對含缺失調查數據集進行事后處理。首先需要確定數據的缺失機制,然后合理選擇處理缺失數據的方法。對隨機缺失機制和非隨機缺失機制,適用的處理方法不同。隨機缺失機制下,可采用插補法和極大似然法處理縱向缺失數據。插補法本質是利用已觀測到的數據對數據缺失的部分進行填補,以獲得盡量完整且與實際情況相符的數據集。極大似然法(MLE)通過最大化似然函數求參數的估計值,存在縱向缺失數據的情形下,常通過EM迭代算法獲得參數的極大似然估計。非隨機缺失機制下,需要引入目標變量Yi的缺失指示變量ai(ai=0表示Yi數據缺失,ai=1表示Yi有觀測值),對 (Yi,ai)的聯合分布建模,采用極大似然法進行統計推斷,在給定輔助變量X的條件下,根據聯合分布f(Yi,ai|X)的不同分解方式,可將(Yi,ai)的聯合分布模型分為選擇模型和模式混合模型。
3. 對于目前國際上廣泛采用的多重插補法,其理論基礎是貝葉斯統計理論,一般情況下缺失數據的預測分布比較復雜,本文介紹的威斯康星縱向研究采用的序貫多變量回歸法將插補過程分解,每一步僅插補一個含缺失值變量,這樣可以使問題簡化。多重插補的一大優勢是允許在構建插補模型時將各種輔助信息考慮在內,提高估計結果的準確性,并且與均值插補、比率插補和回歸插補等單一插補法相比,多重插補構造M個完整數據集,可以模擬一定條件下的估計量分布,根據變量數據類型采用不同的回歸模型隨機多次抽取插補值,能夠反映在該模型下由于數據缺失導致的插補值的不確定性,從而增加了估計的有效性,避免了單一插補時參數估計量方差被低估的問題。
4. 重視軟件的開發和引進。目前國際上用于缺失數據處理的軟件發展速度較快,而我國如果僅用均值插補這樣簡單的缺失數據處理方法,相關軟件的強大功能將無法發揮。我國應當以自主開發為主,同時重視引進國外先進軟件,除了本文介紹的密歇根大學開發的IVEware軟件外,SAS Proc MI可以在廣義線性模型、生存分析模型、隨機效應模型等多種模型假定下,采用多重插補法進行含缺失數據情形下的參數估計。R有多個軟件包可以進行缺失數據統計分析,ACD包可以在因變量數據缺失時進行屬性數據分析,mvnmle包在目標變量和輔助變量聯合分布為多元正態分布時,進行目標變量數據缺失情形下的參數極大似然估計,MICE包是R中目前最常用的用于缺失數據分析的軟件包,MICE是Multivariate Imputation by Chained Equations的簡稱,可以進行多變量缺失數據的多重插補,在多個目標變量都可能存在缺失值時,使用MICE包中的mice函數,通過變量之間的關系預測缺失數據,利用蒙特卡洛方法生成多個完整數據集存在imp中,再對imp進行線性回歸,最后用pool函數對回歸結果進行匯總。以上軟件如能應用于我國縱向缺失數據分析領域,必將大大提高參數估計的效率和準確性。
參考文獻:
[1] Savard J R, Pearce N C. Wisconsin Longitudinal Study: User's Guide, National Institute of Health,2010.
[2] U.S.Department of Housing and Urban Development.American Housing Survey for the United States: 2007(Current Housing Reports).Issued September,2008.
[3] Raghunathan T E Lepkowski J M , et al.A Multivariate Technique for Multiply Imputing M- issing Values Using a Sequence of Regression Models[J].Survey Methodology,2001,(27):85-95.
[4] Rubin D B.Multiple Imputation for Nonresponse in Surveys[M].John Wiley & Sons, Inc.New York,1987.
基金項目:國家社科基金項目“大數據背景下非概率抽樣的統計推斷問題研究”(項目號:15BTJ014);全國統計科學研究重點項目“小微工業企業抽樣調查問題研究”(項目號:2013LZ34);北京市社科基金重點項目“基于北京市地理分布的空間抽樣設計研究”(項目號:14JGA022);北京市優博論文指導教師人文社科項目(項目號:20121000202)。
作者簡介:金勇進(1953-),男,漢族,北京市人,中國人民大學統計學院教授、博士生導師,應用統計科學研究中心主任,研究方向為抽樣調查技術與數據分析;于力超(1985-),男,漢族,山東省煙臺市人,中國人民大學統計學院博士生,研究方向為抽樣調查技術與數據分析。
收稿日期:2015-07-18。