999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

美國縱向調查中缺失數據的應對方法及對我國的啟示

2015-10-30 18:43:26于力超金勇進
現代管理科學 2015年9期
關鍵詞:大數據

于力超 金勇進

摘要:大數據時代市場調查中缺失數據的處理問題引起越來越多的關注。文章透過威斯康星縱向調查,總結了美國縱向調查中缺失數據的處理方法,重點介紹了采用多變量序貫回歸的方法進行多重插補的方法及IVEware軟件的應用情況,研究了多重插補法處理縱向缺失數據的優勢所在。作者總結了國外先進經驗,結合中國實際,提出研究大數據背景下縱向缺失數據處理方法的思路和幾點建議。

關鍵詞:多重插補法;縱向調查;缺失數據;大數據

一、 引言

在大數據背景下進行數據分析,數據的質量是關鍵。有數據顯示,對于收集到的調查數據,80%的時間要花在包括缺失數據處理、不合理值刪除等數據清洗工作上,獲得較高質量數據后方可進一步進行數據分析。我國縱向抽樣調查對缺失數據多采用直接刪除法進行處理,只利用數據完全的樣本進行分析,不僅造成大量信息浪費,而且可能導致估計結果有偏。本文以作者在威斯康星大學學習期間參與的威斯康星縱向調查(Wisconsin Longitudinal Survey)為例,介紹美國專業調查機構如何應對缺失數據問題,并結合我國實際,給出今后相關工作的建議。

二、 美國縱向抽樣調查中缺失數據的應對方法

美國許多大型縱向調查已開展多年,積累了豐富的數據和實踐經驗。例如著名的“威斯康星縱向調查”,這項由威斯康星大學麥迪遜分校調查中心組織開展的研究跟蹤調查威斯康星州1957年的1萬多名高中畢業生,已經持續了50多年的時間。研究范圍包括這些高中畢業生所上的大學、大學畢業后的工作和生活以及他們退休后的生活狀況,共收集了3 000多個變量的數據,該項目吸引了許多經濟學家、心理學家、社會學家以及流行病專家開展相關專題研究項目,從豐富的數據中挖掘他們感興趣的結論。我們以“威斯康星縱向研究”為例,看美國開展的縱向調查是如何應對缺失數據問題的。

1. 缺失數據的預防和初次出現時的應對。缺失數據多出現在收入和家庭財產相關的敏感變量。對這類問題,應盡量降低問題的敏感性。威斯康星縱向調查在提問涉及隱私的敏感問題時,一般不直接問具體數字而是通過“月收入在xx元到xx元的區間”這樣的問題間接獲取受訪者的收入信息。在每一輪調查開始時,收入分類的邊界值取上一輪調查所獲得收入數據的10%,50%和80%分位數。受訪者可以回答“不知道”或拒絕回答,調查人員對這些受訪者進行追訪,以盡可能減少缺失數據的出現,在缺失機制為不可忽略缺失的情形下,回答者與無回答者的調查數據分布有較大差異,此時進行追訪調查很有必要。如果追訪后受訪者還是無回答則記錄該受訪者的該項目數據缺失。

美國的縱向調查重視抽樣框信息的完善,收集受訪者的多種聯系方式(電話、住址、郵箱等),防止地址變更等原因導致無法聯系受訪者的問題出現,跟蹤抽樣框中受訪者聯系方式的變化,保證每位受訪者不至在縱向調查過程中失聯。威斯康星縱向調查項目(WLS)就在威斯康星州政府和美國勞動統計局的配合下,投入了大量人力財力用于維護抽樣框信息,從而能夠在整個縱向調查過程中跟蹤聯系到每一位受訪者。

2. 缺失數據的插補調整方法。采取各種預防缺失數據出現的措施只能一定程度上降低缺失數據出現的概率,不可能根本上解決缺失數據問題,威斯康星縱向調查項目(WLS)采取了大量的缺失數據預防措施,但問卷中多數問題的回答率只是在50%到90%之間。為了采用針對完全數據集的統計分析方法,需要對含缺失的數據集進行插補調整。

美國目前處理縱向調查缺失數據最常用的方法是多重插補法,用這種方法可以較好地估計目標參數以及參數估計量的方差。威斯康星縱向調查自1975年以來的各輪調查都采取了多重插補法處理缺失數據,多重插補使用的是密歇根大學調查研究中心開發的軟件IVEware。

IVEware軟件采用多變量序貫回歸的方法進行多重插補,插補所用的回歸模型可以是線性模型、logistic模型,Poisson模型或廣義logit模型等,軟件基于含缺失值的待插補變量的性質自動選擇合適的回歸模型,除待插補變量外所有其他變量構成回歸模型潛在的輔助變量集,插補值從待插補變量的后驗預測分布中抽取,該后驗預測分布基于所選擇的回歸模型獲得。軟件一次只對一個含缺失值的變量進行插補,對多個含缺失值的變量依次插補直到得到完整數據集,前期的含缺失值變量的插補值在后續針對其他變量的插補過程中被視為觀測值。該方法是一種基于回歸模型的插補方法。

具體地,假設待插補的含缺失值變量為Y1,…,Yk,數據完全的變量記為X,作為開始插補時的輔助變量,Y1,…,Yk在給定輔助變量X時的聯合分布:

f(Y1,…,Yk|X,θ1,…,θk)=f1(Y1|X,θ1)…,fk(Yk|X,Y1,…,Yk-1,θk)(1)

參數θj分布未知,假設其先驗分布為無信息先驗,即π(θj)∝1,我們對等式右邊各個因子根據Yj的性質,選用合適的回歸模型建模。

若Yj為二值變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于logistic回歸模型求得。

若Yj為屬性變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于廣義logit回歸模型求得。

若Yj為計數變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于Poisson對數線性模型求得。

若Yj為連續型變量,則fj(Yj|X,Y1,…,Yj-1,θj)可基于正態線性回歸模型求得。

插補時,首先插補缺失值最少的變量(記為Y1),根據Y1的性質選擇回歸模型,基于該模型從Y1的后驗預測分布f1(Y1|X,θ1)中抽取插補值,插補后變量Y1數據完全,然后從Y2的后驗預測分布f2(Y2|X,Y1,θ2)中抽取插補值,用與插補Y1相同的步驟插補缺失值第二少的變量Y2,此時前一期插補后的完全數據變量Y1作為回歸模型輔助變量的一部分。如此進行下去,依次插補Y1,…,Yk,直至得到一個完整數據集。

將上述插補過程進行M次,得到M個完整數據集,進而采用Rubin(1987)介紹的多重插補后參數估計量及其方差的計算公式,得到所求結果,具體地,首先用完全數據分析方法分析這M個數據集,對第m個插補后的“完整”數據集進行參數估計,記待估參數為γ,得到估計值γ(m),m=1,…,M;然后綜合M組估計量,得到統計推斷結果,參數估計為

γ=γ(m)(2)

由第i個插補后的“完整”數據集得到參數的方差估計V(m),V=V(m)為M個方差估計的均值,稱為組內方差均值,定義組間方差B=(γ(m)-γ)(γ(m)-γ)′,則參數γ的方差估計為:

VMI=V+(1-)B(3)

威斯康星縱向調查目標變量覆蓋面廣,持續時間長,收集到數據的完整程度基本反映了美國大型縱向調查的情況,一般情況下,數據完全的變量包括性別、受教育年數、每周工作時間、子女數、受教育程度等,而月收入、智商、健康狀況、家庭財產等信息常出現數據缺失,需要進行插補調整。其中,對連續型數據如收入、財產等建立插補模型時可采用正態線性回歸模型,對于屬性變量如健康狀況等需要首先將其轉化為離散型數據(如健康狀況良好則賦值為1,一般則賦值為2,較差則賦值為3),然后建立針對離散型變量的回歸模型如廣義logit回歸模型,對缺失數據進行插補。

三、 多重插補法處理缺失數據的優勢

用插補法處理缺失數據與直接刪除法相比有許多優勢。首先,它可以體現完全數據受訪單元與含缺失數據受訪單元之間的差異,從而得到參數的無偏估計結果,而直接刪除法只利用完全數據受訪單元的信息,若含缺失數據受訪單元與完全數據受訪單元的數據分布存在系統性差異,參數的估計結果會有偏;其次,插補法可以充分利用收集到的數據信息,而直接刪除法會丟棄大量有用數據,造成信息浪費。

美國目前處理縱向調查缺失數據廣泛采用的多重插補法可以充分利用輔助信息和觀測數據作為先驗信息,采用貝葉斯方法從含缺失變量后驗分布中重復抽取插補值,不僅可以獲得目標參數的無偏估計,還可以避免單一插補導致的參數估計量方差偏低的情況發生。

美國的縱向調查有一套成熟的缺失數據處理方法和步驟,對于大型縱向調查,在歷次調查階段采用相同的方法進行缺失數據處理,使歷次調查的參數估計結果具有可比性。

四、 大數據背景下縱向缺失數據處理的意義和啟示

當前國內電子商務事業蓬勃發展,阿里巴巴、京東等電商十分重視生產、銷售過程中在不同時間點產生的運營數據,這些數據可以視為縱向調查數據,企業希望根據不同時間點的運營數據建立模型,預測未來發展態勢,提早制定相應策略。以阿里巴巴為例,其數據平臺所有海量數據來自數百萬小微企業以及數以億記的消費者,阿里研究院的數據分析中心通過對他們商務活動和消費過程中產生的縱向數據進行分析,可以幫助企業和政府及時準確了解微觀經濟的運行情況。“未來制造業的最大‘能源不是石油,而是數據”,馬云如此形容數據分析的重要意義。

我國大型抽樣調查尤其是縱向調查事業起步較晚,調查設計及數據處理技術尚不成熟,尤其是在缺失數據處理方面,大多沒有采用多重插補法等統計分析方法,而是直接刪去含缺失值的受訪單元,即使插補也大多采用簡單的單一插補法,隨著大數據時代的來臨,這樣處理缺失數據弊端明顯,因為隨著時間的推移,數據量越來越大,其中的缺失數據也會越來越多,而且新老數據很容易出現重復。雀巢公司在200多個國家出售十余萬種產品,有數十萬家供應商,其數據庫數據量很大,決策層希望利用生產和銷售數據形成采購議價優勢,在市場中占得先機,但一次檢查中發現,在近千萬條客戶、原材料和經銷商記錄中近一半是過期或重復數據,剩下的一半中還有三分之一是明顯不合理或缺失的數據,在利用這些數據之前需要投入大量精力進行數據清洗處理。國內縱向調查數據無論從數量還是質量看,與西方發達國家都存在一定差距,數據缺失的問題十分嚴重,我們應當學習西方先進的缺失數據處理經驗,采用多重插補法、EM算法、基于模型的似然推斷法等統計分析方法處理缺失數據問題。

本文介紹了美國縱向調查處理缺失數據時常采用的多重插補法的操作步驟和相應軟件,結合我國國情和發展現狀,美國的經驗對我國縱向缺失數據處理工作的啟示有以下幾點:

1. 對于縱向調查,觀測不同調查時點目標參數的變化情況及發展趨勢是一個重要目的,所以對不同時點的含缺失數據集,需采用相同的缺失數據處理及參數估計方法,這樣不同時點參數估計結果才有可比性,目前我國尚沒有一個關于縱向調查中缺失數據處理方法的標準,在調查手冊中也沒有專門章節說明如何處理缺失數據,這樣可能由于縱向調查不同階段缺失數據處理方法不同,導致根據不同時點參數估計結果建立的時序模型與客觀實際不符,從而失去了根據該模型預測未來發展態勢進而制定相應策略的價值。建議研究者和調查設計及數據分析人員重視縱向缺失數據對參數估計結果的不利影響,制定縱向調查缺失數據處理相關的標準,在調查手冊和數據分析報告中用專門章節說明缺失數據的預防措施,報告每個調查時點下每個目標變量的數據缺失率,根據數據缺失的可能原因判定數據缺失機制,進而按照標準的方法有針對性地進行缺失數據處理,得到參數估計結果。

2. 重視缺失數據統計處理方法的研究。采用事前預防措施不可能完全消除缺失數據,此時需要對含缺失調查數據集進行事后處理。首先需要確定數據的缺失機制,然后合理選擇處理缺失數據的方法。對隨機缺失機制和非隨機缺失機制,適用的處理方法不同。隨機缺失機制下,可采用插補法和極大似然法處理縱向缺失數據。插補法本質是利用已觀測到的數據對數據缺失的部分進行填補,以獲得盡量完整且與實際情況相符的數據集。極大似然法(MLE)通過最大化似然函數求參數的估計值,存在縱向缺失數據的情形下,常通過EM迭代算法獲得參數的極大似然估計。非隨機缺失機制下,需要引入目標變量Yi的缺失指示變量ai(ai=0表示Yi數據缺失,ai=1表示Yi有觀測值),對 (Yi,ai)的聯合分布建模,采用極大似然法進行統計推斷,在給定輔助變量X的條件下,根據聯合分布f(Yi,ai|X)的不同分解方式,可將(Yi,ai)的聯合分布模型分為選擇模型和模式混合模型。

3. 對于目前國際上廣泛采用的多重插補法,其理論基礎是貝葉斯統計理論,一般情況下缺失數據的預測分布比較復雜,本文介紹的威斯康星縱向研究采用的序貫多變量回歸法將插補過程分解,每一步僅插補一個含缺失值變量,這樣可以使問題簡化。多重插補的一大優勢是允許在構建插補模型時將各種輔助信息考慮在內,提高估計結果的準確性,并且與均值插補、比率插補和回歸插補等單一插補法相比,多重插補構造M個完整數據集,可以模擬一定條件下的估計量分布,根據變量數據類型采用不同的回歸模型隨機多次抽取插補值,能夠反映在該模型下由于數據缺失導致的插補值的不確定性,從而增加了估計的有效性,避免了單一插補時參數估計量方差被低估的問題。

4. 重視軟件的開發和引進。目前國際上用于缺失數據處理的軟件發展速度較快,而我國如果僅用均值插補這樣簡單的缺失數據處理方法,相關軟件的強大功能將無法發揮。我國應當以自主開發為主,同時重視引進國外先進軟件,除了本文介紹的密歇根大學開發的IVEware軟件外,SAS Proc MI可以在廣義線性模型、生存分析模型、隨機效應模型等多種模型假定下,采用多重插補法進行含缺失數據情形下的參數估計。R有多個軟件包可以進行缺失數據統計分析,ACD包可以在因變量數據缺失時進行屬性數據分析,mvnmle包在目標變量和輔助變量聯合分布為多元正態分布時,進行目標變量數據缺失情形下的參數極大似然估計,MICE包是R中目前最常用的用于缺失數據分析的軟件包,MICE是Multivariate Imputation by Chained Equations的簡稱,可以進行多變量缺失數據的多重插補,在多個目標變量都可能存在缺失值時,使用MICE包中的mice函數,通過變量之間的關系預測缺失數據,利用蒙特卡洛方法生成多個完整數據集存在imp中,再對imp進行線性回歸,最后用pool函數對回歸結果進行匯總。以上軟件如能應用于我國縱向缺失數據分析領域,必將大大提高參數估計的效率和準確性。

參考文獻:

[1] Savard J R, Pearce N C. Wisconsin Longitudinal Study: User's Guide, National Institute of Health,2010.

[2] U.S.Department of Housing and Urban Development.American Housing Survey for the United States: 2007(Current Housing Reports).Issued September,2008.

[3] Raghunathan T E Lepkowski J M , et al.A Multivariate Technique for Multiply Imputing M- issing Values Using a Sequence of Regression Models[J].Survey Methodology,2001,(27):85-95.

[4] Rubin D B.Multiple Imputation for Nonresponse in Surveys[M].John Wiley & Sons, Inc.New York,1987.

基金項目:國家社科基金項目“大數據背景下非概率抽樣的統計推斷問題研究”(項目號:15BTJ014);全國統計科學研究重點項目“小微工業企業抽樣調查問題研究”(項目號:2013LZ34);北京市社科基金重點項目“基于北京市地理分布的空間抽樣設計研究”(項目號:14JGA022);北京市優博論文指導教師人文社科項目(項目號:20121000202)。

作者簡介:金勇進(1953-),男,漢族,北京市人,中國人民大學統計學院教授、博士生導師,應用統計科學研究中心主任,研究方向為抽樣調查技術與數據分析;于力超(1985-),男,漢族,山東省煙臺市人,中國人民大學統計學院博士生,研究方向為抽樣調查技術與數據分析。

收稿日期:2015-07-18。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 久久99蜜桃精品久久久久小说| 色婷婷亚洲综合五月| 色播五月婷婷| 麻豆国产原创视频在线播放 | 精品国产毛片| 啪啪啪亚洲无码| 久爱午夜精品免费视频| 国产丝袜91| 伊人久久大线影院首页| 日韩精品一区二区三区视频免费看| 欧美日韩第三页| 欧美视频在线第一页| 欧美在线网| 丝袜久久剧情精品国产| 亚洲婷婷六月| 色综合久久88色综合天天提莫 | 亚洲国产综合精品一区| 2022国产无码在线| 欧美视频在线播放观看免费福利资源 | 国外欧美一区另类中文字幕| 中文字幕亚洲乱码熟女1区2区| 亚洲日本中文综合在线| 成人午夜视频在线| 久久成人免费| 国产一级二级在线观看| 麻豆国产原创视频在线播放| 2024av在线无码中文最新| 亚洲六月丁香六月婷婷蜜芽| 亚洲aaa视频| 免费一级毛片在线播放傲雪网| 婷婷丁香色| 中文字幕久久波多野结衣 | 国产微拍一区| 国产免费人成视频网| 91精品专区国产盗摄| 国产精品专区第1页| 日本少妇又色又爽又高潮| 蜜桃臀无码内射一区二区三区 | 香蕉伊思人视频| 人与鲁专区| 大乳丰满人妻中文字幕日本| 欧亚日韩Av| 久久性视频| 国产精品极品美女自在线网站| 狠狠亚洲婷婷综合色香| 亚洲人成高清| 中国毛片网| 国产原创演绎剧情有字幕的| 中文字幕欧美日韩| 亚洲午夜福利精品无码| 国产成人高清在线精品| 97久久免费视频| 欧美午夜视频在线| 国产色伊人| 孕妇高潮太爽了在线观看免费| 日韩精品亚洲一区中文字幕| 99精品免费欧美成人小视频| 国产打屁股免费区网站| 欧美第二区| 亚洲欧美精品一中文字幕| 亚洲中文字幕日产无码2021| 国产91无码福利在线| 国产成人精品综合| 久久国产香蕉| 国产区免费精品视频| 日韩欧美中文字幕在线精品| jizz亚洲高清在线观看| 丁香婷婷综合激情| 亚洲无线视频| 国产v欧美v日韩v综合精品| 亚洲日韩在线满18点击进入| 97se亚洲| 久久久91人妻无码精品蜜桃HD| 亚洲自偷自拍另类小说| 视频二区亚洲精品| 国产美女丝袜高潮| 欧美不卡视频在线| 国产精品永久久久久| 久久国产乱子伦视频无卡顿| 久久中文字幕不卡一二区| 91精品久久久无码中文字幕vr| 婷婷开心中文字幕|