摘要數(shù)據(jù)的準確性與可靠性是抽樣調(diào)查的生命力所在。在實際的抽樣工作過程中,人們不僅要控制抽樣誤差,而且還要控制非抽樣誤差。本文對登記測量測量誤差的影響做出概述,并介紹了兩種估計與控制登記測量測量誤差的方法。
關(guān)鍵詞登記測量測量誤差 隨機子抽樣方法 交叉子抽樣方法
中圖分類號:O213 文獻標識碼:A
Estimation Model of Registration Measurement Measurement
Error in Nonsampling Error
JIANG Qingsong
(Statistics Department, He'nan Financial and Economic University, Zhengzhou, He'nan 450002)
AbstractThe accuracy and reliability is the vitality of sample survey. In the actual sampling process, people not only need to control thesampling error, but also the nonsampling error. This paper summarizes the inflection of registration measurement measurement error,and introduces two methods of estimating and controling method of registration measurement measurement error.
Key wordsregistration measurement measurement error; random methods of subsampling; interpenetrating subsampling
1 登記測量誤差的概述
在調(diào)查工作過程中,由于受測量器具的不準確,調(diào)查員的某些工作失誤(如測量錯誤、計算錯誤、記錄錯誤等),以及由于被調(diào)查者沒有提供真實情況等因素影響,常使調(diào)查結(jié)果的準確性受到損害,產(chǎn)生一定的誤差,這類誤差就是登記測量誤差。樣本所有單元的登記測量誤差可能是某一常數(shù),也可能互不相同(這種情況是最常見的);樣本中各單元的登記測量誤差可能是互不相關(guān)的,也可能是相關(guān)的。在不同情況下,其影響也是各不相同的。如果樣本中各不同單元的計量誤差是相關(guān)的,則通常計算標準誤的公式是有偏的;由于在實際中這些相關(guān)大部分是正相關(guān),致使標準誤偏小,這種干擾就可以被忽略。如果一個樣本之內(nèi)一個單元的計量誤差與另一個單元的計量誤差彼此獨立,并且整個總體的計量誤差平均為零時,通常計算估計量的標準誤的公式是把這種計量誤差考慮在內(nèi)的;這種誤差降低了估計量的精確度,降低是否嚴重是值得而且某些情形下是可以查明的。如果所有單元都有相同的常數(shù)偏差,這是最難于察覺的,對樣本數(shù)據(jù)不論進行什么處理也不能使這種偏差顯露出來。在對登記測量誤差的研究中可能出現(xiàn)的問題是各種不同的調(diào)查所產(chǎn)生的登記測量誤差是不一樣的,它還涉及到費用、時間等問題,而且很少有哪些測量器具不產(chǎn)生任何誤差。在無法保證能取得正確數(shù)據(jù)的情況下,可改用更正確可靠的測量器具或方法重新測量,或者利用橫向或縱向的比較(即比較兩個總體的同一指標,或者比較同一總體不同時期的同一指標等等),從而對測量偏差至少有個粗略的估計。除了這些比較簡單直觀的考察登記測量誤差的方法外,還可以構(gòu)造統(tǒng)計模型來估計和控制登記測量誤差,下面介紹兩種方法。
2 隨機子抽樣方法
假如有K個調(diào)查員對某總體進行一次抽樣調(diào)查,規(guī)定每人完成m個單元的測量。為了評估這次調(diào)查的質(zhì)量,通常所采用的方法是從這K個調(diào)查員中隨機抽取k個,再組織k個具有同樣訓(xùn)練素質(zhì)的調(diào)查員對他們各自完成的調(diào)查單元重新調(diào)查。現(xiàn)在考慮某一對調(diào)查員所調(diào)查的數(shù)據(jù),設(shè)由他們調(diào)查第i個單元后所得的數(shù)據(jù)分別記為yi1,yi2 (i = 1,2,…,m)按數(shù)學(xué)模型:
yit = i + dit(t = 1,2)
dit是第i個單元對調(diào)查作的若干次回答所產(chǎn)生的誤差,稱之為回答離差;i 是對第i個單元若干次重復(fù)測量結(jié)果的平均。
由于yi1,yi2 之間的差的平方提供了該單元登記測量誤差方差的信息,將這對調(diào)查員所調(diào)查的單元得到的數(shù)據(jù)差的平方加以平均,則有
現(xiàn)在提出如下假設(shè):(1)關(guān)于同一單元的回答誤差di1與di2不相關(guān);(2)第1次調(diào)查人員的簡單回答方差12與第二次調(diào)查人員的簡單回答方差22相等。
上述假設(shè)(1)、(2)在通常情況下具有一定的合理性。因為我們總是假定前后兩次調(diào)查人員的調(diào)查是獨立進行的,這一點保證了(1)的成立。而兩位調(diào)查人員具有同樣的訓(xùn)練素質(zhì)則保證了假設(shè)(2)的成立。
在假設(shè)(1)、(2)成立情況下,上式提供2( = 12 = 22)了的一個良好估計,由于是僅對一對調(diào)查員而言,只要將k對調(diào)查員相應(yīng)的k個上述結(jié)果相加再平均就成為2的估計量。
當然也存在著假設(shè)不成立的情況,例如被調(diào)查者在第二次調(diào)查中僅僅依靠回憶第一次回答的內(nèi)容,而不是“重新獨立”地考慮回答的內(nèi)容,此時顯然獲取了正的協(xié)方差cov(di1,di2),這樣利用k個的平均去估計2就會發(fā)生“低估”現(xiàn)象。
為了利用隨機子抽樣方法對調(diào)查質(zhì)量作出恰當?shù)脑u估,盡量使假設(shè)(1)、(2)成立是值得的,就組織者而言,不讓第二個調(diào)查員了解第一次調(diào)查的結(jié)果也許是有益的。
3 交叉子抽樣方法
除了簡單回答方差之外,我們還需要對總回答方差中的相關(guān)分量有所了解。由數(shù)理統(tǒng)計學(xué)中方差分析的知識,為了分解出方差的各種成分,最好是將方差估計公式中的平方和進行類似于組內(nèi)離差與組間離差等部分的分解。在抽樣調(diào)查中,相應(yīng)的較好方法就是將樣本隨機分為若干組,然后由不同的調(diào)查員獨立地對每組進行調(diào)查,這就是所謂的“交叉隨機子抽樣方法”。具體實施如下:
n個待查的樣本單元隨機地分為k個子樣本,每個含m = (假如n可以k被整除的話)個單元,假定這k個子樣本的單元之間不存在登記測量誤差的相關(guān)性(這一點在許多場合是容易做到的。不然的話,在劃k分組時應(yīng)將這個因素考慮進去)。指派k個調(diào)查員分別對這個子樣本進行調(diào)查,調(diào)查是獨立執(zhí)行的。這時,不同調(diào)查員之間不存在登記測量誤差相關(guān)這一假設(shè)是合乎情理的。現(xiàn)在建立數(shù)學(xué)模型如下:
yija = ij + dij
其中i表示第i個子樣本(或第i個調(diào)查員),j表示該子樣本中第j個單元,在第i組內(nèi)
這里的w是指同一調(diào)查員所得dij之間的相關(guān)系數(shù)。
由各不同子樣本中登記測量誤差的獨立性,易得
對的估計常采用乘上某一常數(shù)因子的形式,在交叉隨機子樣本模型中,變成,則有
其中,S2w的自由度為k (m - 1),S2b的自由度為k - 1。
因此,在本模型中可以利用交叉隨機子樣本平方和作為的無偏估計,且
這說明總回答方差的相關(guān)分量可以利用交叉隨機子抽樣估計量進行估計,當然也可以估計出相關(guān)分量在總回答方差中所占的份量。
4 結(jié)論
數(shù)據(jù)的準確性與可靠性是抽樣調(diào)查的生命力所在,如何有效地控制非抽樣誤差,取得準確可靠的數(shù)據(jù)資料,以及如何對已經(jīng)取得的數(shù)據(jù)進行質(zhì)量評估,一直是抽樣調(diào)查理論和實踐中所經(jīng)常關(guān)注和著力研究解決的重要問題。本文給出了兩種估計和控制登記測量誤差的統(tǒng)計模型,在實踐中均有著一定的應(yīng)用價值。
參考文獻
[1]W.G.科克倫.抽樣技術(shù).中國統(tǒng)計出版社,1985(4).
[2]L.Kish.抽樣調(diào)查.中國統(tǒng)計出版社,1997(12).
[3]趙民德,謝邦昌.探索真相.中國統(tǒng)計出版社,2001(4).
[4]王兢,賀文星.抽樣調(diào)查.鄭州大學(xué)出版社,2008(8).