999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

縱向抽樣調查中缺失值的預防和處理方法

2018-11-22 09:29:36于力超
統計與決策 2018年20期
關鍵詞:機制方法模型

于力超

(中央民族大學 理學院,北京 100081)

0 引言

在針對抽樣調查數據的統計推斷過程中,常存在各種各樣的問題,由于無回答等原因造成的缺失數據是一個常見問題,如果處理不當,將對抽樣調查活動的順利實施產生嚴重的負面影響,研究缺失數據的處理方法意義重大。為了節省時間和人力成本,并觀察目標變量隨時間的變化趨勢,常對一批受訪者進行跟蹤調查,得到一組縱向調查數據,縱向調查數據缺失問題尤為普遍,由于變換住址、問題敏感等原因,某些縱向調查數據會出現缺失。目前常采用的處理方法是直接刪除法,即忽略縱向調查中的缺失數據,僅用獲得完整數據的樣本進行統計推斷,這樣不僅造成大量信息的浪費,影響估計結果的有效性,而且如果含缺失數據樣本與數據完全樣本分布存在差異(即數據的缺失模式不是完全隨機缺失(MCAR)),那么得到的參數估計結果有偏[1]。可見,調查數據的質量和缺失數據處理方法的選擇影響總體參數估計結果的無偏性和有效性,如何通過調查設計、數據收集過程控制和缺失數據統計處理預防和降低缺失數據的負面影響,是一個研究的熱點和難點。

國內現有的關于各種大型縱向抽樣調查設計、開展和數據分析的指導手冊很少有專門的關于如何處理缺失數據的內容。葉素靜等[2]對1980—2013年間92篇關于心理健康縱向調查的文章進行了統計,其中有59篇報道了數據有缺失,但只有39篇報告了缺失數據的處理方法且全部采用的是直接刪除法。本人曾參與了美國威斯康星大學關于威斯康星州成年人健康狀況的縱向調查(Wiscon-sin Family Health Survey(WFHS)),該調查有嚴格的數據質量控制標準,對缺失數據采用多重插補法進行處理,經事后檢驗,從參數估計結果無偏性和有效性兩方面看,多重插補法比直接刪除法效果好。

本文從缺失數據的事前預防和事后處理兩個方面研究和總結了一些適用于縱向抽樣調查數據缺失的預防和處理方法,重點研究事后處理方法。若縱向抽樣調查數據缺失機制為隨機缺失,可采用插補法或加權法,目的是對缺失數據集進行調整以進一步分析,加權法常用于沒有從受訪者處獲得任何信息的單元缺失情形,插補法常用于受訪者只提供了調查問卷中部分信息的項目缺失情形,多重插補法因其在估計結果無偏性和有效性方面的良好表現,得到越來越廣泛的應用。若縱向抽樣調查數據缺失機制為非隨機缺失,加權法和插補法將不可用,近年來,研究者提出似然建模方法,即用選擇模型法、模式混合模型法和共享參數模型法,通過建立似然函數,用極大似然法進行參數估計,該方法因其廣泛適用性越來越受到重視[3-5]。

本文首先闡述設計階段和數據收集階段對缺失數據進行事前預防的方法,然后在隨機缺失機制下,研究插補法和似然法兩種處理縱向缺失數據的方法,最后在非隨機缺失機制下,研究用似然法進行總體參數估計的方法。本文中定義缺失數據指數據本身是客觀存在的且對總體參數估計有意義,但由于種種原因(如地址變化、問題敏感等)沒有收集到的數據。

1 缺失數據的預防

對缺失數據的處理有兩種方式:事前預防和事后處理。事后處理只能盡量降低缺失數據帶來的不利影響,沒有一種事后統計處理方法能夠在相關數據缺失時對調查的目標參數進行無偏可靠估計,所以,對于縱向抽樣調查,事前預防(即在調查的設計階段和數據收集階段采取控制措施盡量降低無回答率)是最有效的方法。

本文認為可以采取以下幾項措施:

(1)注重調查問卷的設計質量。問卷不宜過長,問卷項目應與調查目的緊密相關,問卷的設計盡量增加趣味性,盡量避免涉及個人隱私等敏感性問題,如實在無法避免,則采用沃納隨機化回答模型或西蒙斯模型[6]等隨機化應答技術,消除被調查者的防衛心理,避免被調查者在沒有任何保護的情況下直接應答敏感性問題。

(2)重視調查員和數據管理員的培訓,選用工作認真、責任心強的工作人員。通過宣傳,強調調查的意義,提高群眾的參與意識,并對積極參與調查的受訪者給予適當獎勵。

(3)對第一輪調查中出現缺失數據的受訪者進行追訪調查,以盡可能減少缺失數據的出現,特別是在缺失機制為不可忽略缺失的情形下,回答者與未回答者的調查數據分布有較大差異,此時進行追訪調查很有必要。

(4)完善抽樣框信息,收集受訪者的多種聯系方式(電話、住址、郵箱等),防止因地址變更等原因導致無法聯系受訪者的問題出現,跟蹤抽樣框中受訪者聯系方式的變化,保證每位受訪者不至于在縱向調查過程中失聯。威斯康星縱向調查項目(WLS)就在威斯康星州政府和美國勞動統計局的配合下,投入了大量人力財力用于維護抽樣框信息,從而能夠在整個縱向調查過程中聯系到每一位受訪者。

事前預防措施只能減少調查數據的缺失比例,但不能完全消除缺失數據,需要對調查收集到的含缺失數據集采用統計方法進行處理。根據數據缺失是否與缺失數據的具體值有關,將數據缺失機制分為隨機缺失和非隨機缺失,需要首先明確數據的缺失機制,然后基于此選擇合適的處理方法。

2 隨機缺失機制(MAR)下縱向缺失數據處理方法

隨機缺失(MAR)指變量值缺失的概率只與已經觀測到的變量值有關,與變量的缺失值無關。對含缺失縱向抽樣調查數據集,在隨機缺失機制下,常采用插補法或EM算法處理缺失數據。插補法利用已有信息推斷缺失數據的替代值,然后基于插補后的完整數據集進行統計推斷,用于尋找參數極大似然估計的統計迭代算法——EM算法也常被用于含缺失縱向抽樣調查數據集的參數估計。

2.1 概念與符號

對n個受訪者在T個調查時點進行縱向調查,假設對各受訪者的調查是獨立進行的,其中第i個受訪者的目標變量向量為Yi=(yi1,...,yiT),若yij數據缺失,則記aij=0 ,否則aij=1,對第i個受訪者,可構造指示各時點調查數據是否缺失的向量ai=(ai1,...,aiT),設Yio,Yim分別表示Yi中有觀測值的部分和數據缺失的部分。若ai的分布函數有以下等式關系:L(ai|Yi,Xi,θ)=L(ai|Yio,Xi,θ),則數據缺失機制為隨機缺失,其中Xi為與Yi有關的自變量。

縱向調查中,若目標變量Y在時點t數據缺失與否只依賴于Y的前期值,且數據的缺失模式為單調缺失(即受訪者在某時刻退出調查,此后再未返回),此時數據缺失機制為MAR,例如,患者經檢查如果指標恢復正常,可以出院,此后患者的檢查數據將缺失,這種情況下數據缺失與否就完全取決于觀測到的數據,而與缺失數據的具體值無關。MAR又稱可忽略缺失,此時可以忽略缺失機制,僅利用觀測值對目標參數進行估計。

2.2 單一插補法

插補法主要適用于調查數據中項目缺失的情形,插補并不會提高參數估計的精度,但如果插補方法使用得當,可以減小由于數據缺失帶來的參數估計精度損失。所謂插補,就是基于已有數據信息,為每一個缺失數據計算一個或多個替代值,從而得到完整數據集,然后使用針對完整數據集的方法進行統計推斷。為每個缺失數據計算一個替代值的方法稱為單一插補法,單一插補法的基本思想是以觀測數據為基礎,為待插補變量構造一個預測分布,如果該分布合理,則插補后的數據集能夠較好反映數據集的真實情況。單一插補法包括均值插補、回歸插補、最近距離插補等方法。

對縱向調查中的缺失數據采用均值插補法,即利用在某時點有觀測值的樣本目標變量的均值作為目標變量數據缺失樣本的缺失數據替代值。這是最簡便的缺失數據插補方法。

回歸插補法類似于抽樣調查中的回歸估計,利用目標變量Y和自變量X之間的關系,構造回歸模型,并基于觀測數據對模型參數進行估計,然后利用已有的自變量信息,計算缺失的目標變量值的替代值。

最近距離插補法通過定義測量受訪者調查變量間“距離”的函數,根據受訪者在自變量上的接近程度選擇為數據缺失的受訪者提供插補值的受訪者,即在與含缺失值受訪者臨近的數據完全受訪者中,選擇與其“距離”最近(自變量取值最相似)的受訪者所對應的目標變量值作為缺失數據替代值。

最近鄰插補法與回歸插補法要求目標變量與自變量之間相關性強,對自變量數據質量要求較高。在隨機缺失機制下,采用單一插補法操作簡便,基于插補后的完整數據集進行參數估計,可以在一定程度上降低估計偏倚,但該方法未考慮缺失數據的不確定性,會導致參數估計量方差被低估,多重插補法是解決此問題的有效方法。

2.3 多重插補法

多重插補法是由Rubin在1978年首先提出并在專著中對其理論及應用進行了全面介紹[6],多重插補法適用于數據缺失機制是隨機缺失的情形。分插補步、分析步和合并步三步進行:

(1)插補步。對于縱向調查中的目標變量缺失數據Ym,從給定目標變量觀測數據Yo和自變量數據X的條件下的預測分布P(Ym|Yo,X)中重復抽取D個插補值,D一般不少于5,每次抽樣都是基于一組獨立抽取的分布參數進行。

具體的,首先從給定觀測值條件下參數的后驗分布P(γ|Yo,X)中抽取一組參數值γ*,將其代入P(Ym|Yo,X)中,從中抽取一組插補值,使得~P(Ym|Yo,X,γ*)。重復進行D次以上過程,得到D個插補值,從而構造D組“完整”數據集,基于此進行下面的分析步和合并步。

(2)分析步。對插補后的D個數據集用針對完整數據集的標準方法進行參數估計,得到D個參數估計值,d=1,…,D。

(3)合并步。綜合分析步所得D組參數估計結果,得到參數估計量及其方差。具體的,將分析步所得D個參數估計結果采用Rubin規則[6]進行綜合,得到參數估計值為分析步所得D個估計結果的均值,即:

對于參數估計量的方差,首先計算D個基于“完整”數據集的參數估計量的方差估計結果,其均值記為進而計算,則的方差估計結果為:

統計軟件R中有針對多重插補法開發的mice包[7],具體操作時,將含缺失縱向調查數據輸入R,采用mice生成插補后的多個完整數據集(默認為5個),Graham等(2007)[8]的研究表明,插補數據集個數D隨著缺失數據占比的增大應相應增加。

2.4 EM算法

EM算法是一種有效的針對含缺失縱向調查數據集的參數估計方法,通過迭代計算,可以得到參數的極大似然估計。其基本思想是基于n個獨立觀測受訪者的目標變量缺失數據集Ym=(Y1m,...,Ynm)與待估參數γ之間相互關系(Ym中含有與待估參數γ有關的信息),求γ的極大似然估計,通過分布參數γ,Ym的分布可以寫出,進而能夠求得Ym的合理替代值。EM算法首先設定參數的迭代初值γ(0),每一步迭代包括E步和M步。

E(Expectation)步:

設第k步迭代開始時分布參數為γ(k),由式(3)計算對數似然函數對Ym的條件期望:

其中f(Yim|Yio,γ(k))為已知Yio和當前參數γ(k)時,Yim的后驗分布密度。

M(maximization)步:

EM算法每次迭代都會使似然函數值增加,Rubin和Little[9]指出,似然函數有界,序列將收斂到一個穩定值,這個穩定值就是γ的極大似然估計值。

以上介紹了幾種隨機缺失機制下縱向缺失數據的處理方法。Newman[10]通過模擬產生不同缺失率的縱向調查數據,比較了直接刪除法、回歸插補法、多重插補法和EM算法在隨機缺失機制下參數估計的效果,發現多重插補法和EM算法能得到更準確的參數估計結果,多重插補法求得的參數估計標準誤差更合理。雖然相比EM算法和其他單一插補方法,多重插補法耗時較長,計算過程更復雜,但借助計算機軟件,多重插補法相對其他方法更有優勢。

3 非隨機缺失機制(NMAR)下縱向缺失數據處理方法

3.1 概念

與MAR相對的是非隨機缺失機制(NMAR),指目標變量Y是否缺失與Y的具體值有關,不管其是否被觀測到。例如,居民收入調查中,收入越高,出于保護隱私考慮,受訪者回答的傾向越低,此時的數據缺失機制即NMAR。沿用上文的符號,NMAR 下,有L(ai|Yi,Xi,θ)≠L(ai|Yio,Xi,θ)。對于NMAR,在參數估計時必須考慮數據的缺失機制,此時插補法將不可用,需要對(Yi,ai)的聯合分布建模,根據聯合分布f(Yi,ai|Xi,γ,η)的不同分解方式,Little(1993)[11]將 (Yi,ai)的聯合分布模型分為選擇模型和模式混合模型。

3.2 選擇模型法

選擇模型將Yi和ai的聯合分布分解為Yi的邊緣分布(設分布參數為γ)和ai在給定Yi時的條件分布(分布參數為η),模型中引入與目標變量Yi有關的協變量Xi,并假設Xi數據無缺失,模型如下:

在用選擇模型處理縱向抽樣調查中的缺失數據時,首先要構建Yi=(Yio,Yim)的統計模型,對縱向數據中常采用潛變量增長模型。

該模型要求對縱向數據的缺失機制fa|Y(ai|Yi,Xi,η)建模,以反映樣本在每個觀測點數據缺失的概率,常用的回歸模型包括Logistic模型和Probit模型。Wu和Carroll(1988)[12]提出共享參數模型(Shared parameter model),可以視為一種特殊的選擇模型,其利用個體增長曲線的斜率和截距間接估計缺失指示變量ai的分布。

選擇模型(4)能夠直觀地將Yi和ai的聯合分布分解為Yi的邊緣分布和Yi的數據缺失機制,其中fY(Yi|Xi,γ)的參數γ是目標變量的總體分布參數,一般是我們感興趣的參數。選擇模型不用像模式混合模型一樣先估計子總體參數再求加權平均得到總體參數估計。但不可忽略缺失機制下,必須考慮目標變量的缺失機制,由于ai=0對應的是缺失數據Ymis,i,而且沒有Ymis,i的信息,從而造成模型不可識別。此時需要加入一些分布假設,如對縱向調查目標向量Yi的分布采用混合效應模型建立回歸模型,加入隨機效應項,假定Yi個體增長曲線的斜率和截距服從正態分布。Enders在2011—2013年[5,13,14]的幾篇論文中對用選擇模型處理NMAR缺失機制下縱向缺失數據的方法進行了研究。

3.3 模式混合模型法

模式混合模型將Yi和ai的聯合分布分解為ai的邊緣分布(設分布參數為δ)和Yi在給定ai時的條件分布(分布參數為ν),模型如下:

參數估計的思想是首先構造缺失模式,在縱向調查中,單調缺失模式下,缺失模式一般按刪失時刻劃分,缺失模式類數與調查時點數相同。然后在每個模式內擬合目標變量分布模型,得到各缺失模式下子模型的參數估計值,其中i=1,…,r,r為缺失模式類數,進而將各缺失模式下的參數估計結果整合,假設第i個缺失模式下的樣本占比為 πi,fY(Yi|Xi,γ)為目標變量Yi的總體分布,則總體參數估計值?是r個子模型下目標變量分布參數估計值的加權平均

模式混合模型可以將調查總體按照缺失模式分為若干組,認為各組內的樣本分布相似。這樣做的好處有兩點:第一,由于存在缺失數據,對總體分布直接進行參數估計比較困難,按照缺失模式分組后對各組分別進行參數估計相對容易,將各組參數估計結果利用缺失模式的邊緣分布作為權重加權可得總體參數估計;第二,不同缺失模式下子總體目標變量Yi的分布往往存在系統性的差異,我們有時更關心子總體的分布參數,或者希望在估計總體參數的同時也能估計子總體參數。例如Yij為第i個受訪者在第j個調查時刻的生活質量指標,aij為其缺失指示變量,aij=1表示受訪者在第j個調查時點仍存活,否則aij=0,相對于Yij的邊緣分布,我們顯然更關心存活者生活質量指標即aij=1條件下Yij的分布,這時模式混合模型就派上了用場。

當缺失機制為NMAR時,選擇模型需要對給定目標變量值時缺失指示向量的條件分布建模,由于沒有目標變量缺失值的信息,需要做一些主觀假設。而模式混合模型避免了對數據缺失機制建模。

但當調查時點數較多時,缺失模式會很多,導致某些模式下的樣本量過少,不足以獲得子模型下參數的可靠估計,因此Roy(2003)[15]提出用潛在類別變量代替傳統的按刪失時刻分組的方法,用這種潛在模式混合模型不僅可以減少缺失模式類數,還可以捕捉樣本的本質差別進行分類。如何尋找潛變量進行模式劃分,這方面的研究很有必要。

4 總結

縱向抽樣調查也稱追蹤調查,在一段時間內的不同時點對同一批受訪者進行重復調查,從而觀察到事物比較完整的發展過程和關鍵節點。由于受訪者中途退出等原因,縱向抽樣調查中數據缺失的現象時有發生,目前針對這種情況,常采用的方法是直接刪除法或均值插補法。直接刪除法只對數據完整的樣本進行分析,這樣勢必造成大量的信息浪費,而均值插補法沒有考慮缺失數據的不確定性,導致參數估計效率降低。本文對現有的縱向調查中缺失數據的處理方法進行了歸納評述,在不同的數據缺失機制下,給出了缺失數據處理方法的使用建議。經研究,在隨機缺失機制下,多重插補法使用效果較好,EM算法也能得到較準確的參數估計結果;在非隨機缺失機制下,可采用選擇模型法、模式混合模型法等似然建模方法進行參數估計。

本文按數據缺失機制將缺失數據處理方法分為兩類,今后的研究還可以按數據缺失模式、數據缺失比例等進行分類,研究各種情形下的缺失數據處理方法。在實際的操作工作中,缺失數據的處理不容忽視,在項目研究方案設計和總結報告中應當明確說明缺失數據的事前預防和事后處理方法,這樣給出的分析結果才更加可信。

猜你喜歡
機制方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 婷婷六月激情综合一区| 亚洲日韩Av中文字幕无码| 不卡无码网| 国产爽歪歪免费视频在线观看 | 永久免费无码日韩视频| 91在线播放免费不卡无毒| 一区二区三区成人| 91精品视频播放| 黄色不卡视频| 在线精品亚洲国产| 日本在线视频免费| 中美日韩在线网免费毛片视频 | 91国内视频在线观看| 日韩在线视频网站| 亚洲国产精品一区二区第一页免 | 一本大道香蕉高清久久| 免费一级毛片不卡在线播放| 99久久精品国产综合婷婷| 亚洲成年网站在线观看| 国产精品手机视频| 国产jizz| 国产欧美亚洲精品第3页在线| 亚洲福利网址| 91精品情国产情侣高潮对白蜜| 无码AV动漫| 国模视频一区二区| 久热这里只有精品6| 国产成人1024精品| 色窝窝免费一区二区三区| 国产综合亚洲欧洲区精品无码| 激情综合五月网| 韩日无码在线不卡| 人妻出轨无码中文一区二区| 日韩AV无码一区| 国产女人18水真多毛片18精品| 好吊日免费视频| 国产黄在线观看| 国产午夜福利片在线观看| 国产激爽爽爽大片在线观看| 亚洲 欧美 偷自乱 图片| 亚洲日韩日本中文在线| 久久不卡精品| 麻豆精品在线| 9cao视频精品| 97成人在线观看| 亚洲一级色| 97久久精品人人| 中文毛片无遮挡播放免费| 国产成人a在线观看视频| 亚洲经典在线中文字幕 | 理论片一区| 亚洲精品制服丝袜二区| 人妻丰满熟妇av五码区| 国产91特黄特色A级毛片| 露脸一二三区国语对白| 99视频在线免费看| 亚洲美女视频一区| 成人综合网址| 国产在线第二页| 伊人蕉久影院| 欧美日韩精品一区二区视频| 国产日本欧美在线观看| 亚洲第一黄色网| 秋霞一区二区三区| 天堂网亚洲系列亚洲系列| 成人亚洲视频| 高清国产va日韩亚洲免费午夜电影| 色综合热无码热国产| 亚洲大尺度在线| 四虎综合网| 国产区福利小视频在线观看尤物| 欧美色综合网站| 国产精品亚洲一区二区三区在线观看| 五月天久久婷婷| 亚洲综合日韩精品| 欧美区国产区| 亚洲天堂成人在线观看| 国产福利免费视频| 国产99视频免费精品是看6| 成人在线亚洲| 好吊日免费视频| 国产高清国内精品福利|