輔助信息在數據缺失時的應用

2012-03-15 00:23:08曾瓊軍

統計與決策 2012年24期

關鍵詞：信息

羅薇，曾瓊軍

(1.暨南大學經濟學院，廣州 510632；2.廣東工業大學管理學院，廣州 510520)

1 問題的提出

數據缺失是幾乎所有的抽樣調查都無法避免的問題，一般來說，數據缺失主要由以下幾方面的原因造成：抽樣框沒能覆蓋目標總體中的全部單元；樣本單元沒有參與調查；樣本單元沒有回答某些調查項目；或者出現一些明顯不合邏輯、有意造假的數據。數據缺失不但減少了接受調查者的實際單位數，而且可能擴大估計量方差，嚴重時還會帶來估計量偏差，甚至造成抽樣的無效。在數據收集過程中，有許多方法可以用來處理缺失數據。這些方法的共同目的都是要將缺失的數據尋找回來。例如對無回答樣本進行重新調查，但是由于成本或其他種種原因的限制無法進行重新調查，或者重新調查也不能獲得回答。此時，我們就要關注數據處理階段對無回答的補救，如采用輔助抽樣框將缺失數據與抽樣總體單元進行某種方式的聯接，或者利用有關輔助資料對缺失數據進行推算，計算缺失數據帶來估計量偏差的影響程度。上述問題的解決都有賴于輔助信息運用。本文僅討論項目無回答背景下的處理，但其方法對單位無回答情況有參考意義。

設目標總體為U，包含N個抽樣單元，Y為目標變量，X為與目標變量Y存在較高相關性的輔助變量，則有：

Xi為第i個調查單元的已知輔助信息，q為輔助變量的個數，εi為殘差，其均值為零，與Xi相互獨立。

上式可以化為：

2 輔助信息在加權調整法中的應用

保證回答集中輔助變量的加權總值等于實際輔助變量的總體總值：

（2）利用輔助信息，調整樣本的初始權數di，使得di=ωi，即在等式（4）約束下，使得di與ωi的距離最小，下面采用較為簡單的線性校準估計，距離函數表達為：

利用拉格朗日定理求解線性距離最小化得：

解得：

即：

從而校準估計量為：

即：

校準估計的方差估計量為：

其中：

上述情形為總體輔助信息已知。如果只有樣本輔助信息，在項目無回答發生時，校準估計可以利用樣本輔助信息調整無回答集的分布，使得回答單位集輔助信息的分布與樣本輔助信息的分布較為一致，從而減少無回答誤差，此時，校準估計的條件約束方程組為：

則校準估計量為：

3 利用輔助信息進行插補

插補的基本原理是用已有的數據替代調查中的缺失數據，然后利用調查所收集的數據或模擬出缺失數據對總體參數進行估計。已有的數據可以通過兩種方法獲得：一是以前進行過類似的調查，或存在與缺失數據相關的輔助信息，如果變量之間存在函數關系，建立起反映數據之間相互關系的模型，則可以對缺失數據進行推算估計。但是變量之間往往不存在函數關系，這就限制了這一方法在實際中的應用。二是利用當前正在進行的調查數據，即利用樣本中回答數據模擬缺失數據的樣本單位，如均值插補、隨機插補、熱卡和冷卡插補、距離函數配對法、回歸估計插補，而這類方法可能會人為地扭曲數據的真實分布。而在相關的輔助信息下，模擬的精度往往得以提高。

sr是對目標變量y回答單元的集合，sm是對目標變量y數據缺失單元的集合，為補上缺失數據yi而造出的插補值，下面將討論不同插補方法。

（1）均值插補法

（2）隨機插補法

為了避免均值插補中插補值形成一個人造“峰值”的缺陷，我們按照某種概率抽樣的方法從回答單位數據中隨機抽取插補單位，以抽取的插補單位的實際回答值代替缺失值。即在樣本回答集中，在r個回答單元中隨機抽取m個回答單元，替代m個缺失數據，若j∈sr使得p(=yj) =1 r，則=yj。這一方法彌補了均值插補中插補值過分集中的缺點，但是增加了一個再抽樣的過程，必然導致方差的增加。如果能利用相關輔助信息對樣本單位進行事后分層，再在每層中進行隨機插補，則調整效果較好。

（3）熱卡和冷卡插補法

熱卡插補就是先根據輔助變量的信息將樣本分為若干層，使得層內各單位特征盡可能相似，然后按照某種概率抽樣的方法，從當前正在進行調查的同層回答單位中抽取與無回答單位數量相同的樣本，以抽取的樣本單位數據作為缺失數據的插補值。由于熱卡插補抽取的數據與缺失數據具有相似性，所以插補出的數據比較準確，且插補后仍可以保持數據的回答分布形式。如果缺失數據由當前調查外的其他信息，如歷史數據進行插補，則稱為冷卡插補。

（4）距離函數配對法

采用離缺失數據最近的回答數據作為插補值，若j∈sr使mindist(xi,xj)則=yj。距離函數一般是輔助變量的函數，所選擇的輔助變量在性質上應與目標變量相似，且兩者應具有密切關系。

（5）回歸插補法

回歸插補法需要完整的輔助變量x1,…xq和目標變量估計目標變量y對線性關系建立回歸方程，則：

此時的插補值是通過標準方法（如最小平方法）計算出來的預測值，它所產生的插補值比均值法得到的插補值更為穩定。往往可以采用前期數據作為輔助變量來預測現期數據。而當輔助信息x1,…xq相同時，得到的插補值也一樣，同樣會產生樣本扭曲的問題。

4 利用輔助信息構造間接估計量

由于缺失數據的分布一般來說是隨機的，所以采用插補法推算缺失數據，樣本方差將增大，估計量也是有偏的，同時，上述各插補方法也要求完整的輔助信息。下面研究在一般情況下，即在一些目標變量數據和一些輔助信息都缺失的情況下，利用回答數據和已知輔助信息構造間接估計量來處理無回答。

設目標總體U的樣本為s，第i個單位的包含概率為πi[1]，將樣本分成三個不相交的子集：s1表示目標變量和對應輔助信息都完整的集合，s2表示目標變量無回答但輔助信息存在的集合，s3表示目標變量存在但輔助變量不存的目標變量的集合，其對應的樣本量分別為n1，n2，n3，且1≤n2,n3≤n/2[2]。要估計總體均值，一方面可以先對各子樣本考慮估計量，然后進行加權平均或相加，求得總體均值的估計量。令總體均值為：

如果β未知，利用廣義最小二乘法，固定樣本下β的最小線性無偏估計量即為樣本回歸系數，則為的線性無偏估計量。而未抽中單元均值估計量為=，所以：

另外，根據樣本的結構，也可以利用所有已知目標變量和輔助變量來推斷缺失數據，估計總體參數。子樣本s1，s2，s3的Horvitz-Thompson估計量為：

則目標變量Y和輔助信息X的總體總量估計分別為：

相應的比估計量和回歸估計量為：

其中，X是輔助變量的總體總量，如果b未知，取b=cov(x,y)/var(x)。M.M.Rueda，S.Gonza′lez和A.Arcos的數據模擬研究證明，與簡單回歸估計插補相比，上述間接估計量的精度可以大大地提高[4]。

5 結論

綜合上述各種方法不難發現，利用輔助信息，加權校準估計能調整樣本回答集的發布，使其更好地代表總體的分布，提高估計量的精度。采用輔助信息模擬缺失數據的插值法，簡單易明，能夠減少估計量的偏差。但傳統的插值法也存在這樣或那樣的缺點，如扭曲樣本的分布，低估方差，穩定性較差，需要完整的輔助信息。而利用間接估計量進行插補，方法雖較為復雜，但是在一部分目標變量和一部分輔助信息缺失的情況下，利用所有已知的目標變量和輔助信息，能夠提高估計量的精度。

[1]劉建平等.輔助信息在抽樣調查中的應用模型與方法[M].北京:中國統計出版社，2008.

[2]Valliant,A.H,Dorfman，R.M.Royall.Finite Population Sampling and Inference[M].London：John Wiley,2000.

[3]H.Toutenburg，V.K.Srivastava.Efficient Estimation of Population Mean Using Incomplete Survey Data on Study and Auxiliary Characteristics，Sonderforschungsbereich[C].Discussion Paper179,2000.

[4]M.M.Rueda，S.González,A.Arcos.Indirect Methods of Imputation of Missing Data Based on Available Units[J].Applied Mathematics and Computation，2009,(175).

[5]金勇進.非抽樣誤差分析[M].北京:中國統計出版社，1996.