賴俊峰,閆在在,邴淑琴
(內蒙古工業(yè)大學 理學院,呼和浩特 010051)
近年來,隨機化調查方法研究不論從抽樣設計還是估計量的構造,都開始深入到復雜抽樣調查中。主要包括Jong-Min Kim等人[9~12]討論了分層抽樣下屬性特征隨機化調查理論與方法;Shaul K.等[13]中利用二級連續(xù)抽樣方案改進了Warner RRT;Horng-Jinh Chang討論了利用兩個獨立的子樣本同時顧及敏感屬性比例.雖然關于隨機化調查的研究有很多,但是這一方面研究還遠不夠全面和系統(tǒng),主要體現在這些調查方法沒有統(tǒng)一的評價標準并且與抽樣設計有關。在隨機化調查中,關于屬性特征和數量特征許多具體方法,其方法中抽樣設計多見于SRSWR,SRSWOR,PPS等方案[1]。2006年Raghunath Arnab[7]研究了上述問題。本文將提出一個一般化的估計量并給出期望和方差,擬初步建立在任意抽樣設計p(s)(s為樣本)下數量特征和屬性特征敏感問題的統(tǒng)一的隨機化理論。
用大寫字母與小寫字母分別表示有關總體與樣本的量,ER、VR代表對隨機化裝置求期望和方差,EP、VP代表對抽樣設計求期望和方差。從一個容量為N的總體中抽樣兩個互相獨立的容量分別為n1,n2的樣本s。NG(未知)表示總體中擁有敏感問題的數量,p(s)表示樣本s出現的概率,設π表示總體中敏感問題X所占的比例。
定義1在不放回不等概率抽樣中,總體中每個單元i被包含到樣本的概率記作 Pr(i)=πi,任意兩個單元 i,j都包含到樣本的概率稱為包含概率 Pr(i,j)=πij(inclusion Probabilities)。
容易證明[8]對固定的樣本容量n包含概率πi具有性質:

二步抽樣下列兩式成立:

調查者從容量N的總體中以概率p(sk)抽取容量為nk樣本sk(k=1,2),第i個回答者若有敏感屬性則他回答敏感屬性值xi,否則它將通過一個隨機化裝置回答一個概率分布已知的隨機值Rki。這個隨機化回答裝置可以是一個紙片或其它,回答者通過隨機抽出一個數Rki。則在樣本Sk(k=1,2)中第i個回答者回答值Zki如下:

設θk,代表隨機化裝置Rk的均值和方差 (已知),γ(k)代表回答值的均值,則有=ER(Zki),令

則


下面給出所定義TK的期望和方差性質:
定理 1 TK的數學期望 E(TK)=πμx+(1-π)θk。

定理2 TK的方差

其中:

證明:

定理 3 V(TK)一個無偏估計量其中

證明:

敏感性問題調查從統(tǒng)計上看可以分成兩類,一類是屬性特征敏感問題調查,解決的是估計總體中各種比例;另一類是數量特征敏感問題調查,解決的是估計總體某項指標的均值或總值[2]。對于屬性敏感問題我們所關心的是具有敏感屬性的人在總體中所占的比例π=NG/N,而對于數量敏感問題我們關心的是具有敏感屬性的多少根據估計量
(1),得出如下定理:


證明:定理5屬性敏感問題的無偏估計量的方差為:推論1屬性敏感問題π的無偏估計量π^的方差估計為:定理6對于數量特征敏感問題均值μ的估計量:


證明:

對于簡單隨機不放回抽樣(STSWOR)[3]設計中,從樣本容量為中抽取樣本量為的樣本包含概率πi=n/N,πij=n(n-1)/N(N-1)取 bsi=1/nk,則

(2)TWOR的方差變?yōu)椋?/p>
(3)屬性敏感問題的比例的無偏估計:

(4)數量特征敏感問題均值μx估計量的估計量:

在不放回不等概率抽樣πi是第i單元的包含概率。Horvitz與Thompson在1952年提出了Horvitz-Thompson估計量[6],取 bsi=1/Nπi(k),則

(3)屬性敏感問題的Horvitz-Thomson估計量的無偏估計:

(4)數量特征敏感問題的Horvitz-Thomson均值估計量:

由上述證明可知本文所建立的方法搭起了屬性特征和數量特征RR調查的理論的聯(lián)系,抽樣設計也是一般的,因此這是一個非常一般化的RR調查方法。
[1]賴俊峰,閆在在等.沃納模型在社會問卷調查中的應用及改進[J].統(tǒng)計與決策,2010,(8).
[2]Anthony Y.C.Kuk.Asking Sensitive Questions Indirectly[J].Biometrika,1990,77(2).
[3]閆在在,聶贊坎.隨機化技術的公平比較[J].數學物理學報,2004,24(A)(3).
[4]范金城,閆在在.多元抽樣技術(Ⅰ)[J].工程數學學報,1998,15(4).
[5]閆在在,聶贊坎.嚴格πps抽樣方案在不放回不等概率抽樣中的可容許性[J]. 數學物理學報,2002,22(4).
[6]Horvitz,D.G.,Shah,B.V.,Simmons,W.R..The Unrelated Question Randomized Response Model[J].Journal of the American Statistical Assoc.,1969,64(326).
[7]Raughnath,Georg.Dorffner.Randomized Response Technique for Complex Survey Designs[J].Statistical Papers,2006,(48).
[8]馮士雍,施錫銓,抽樣調查——理論,方法和實踐[M].上海:上海科學技術出版社,1994.
[9]Jong-Min Kim, William D.Warde.A Stratified Warner’s Randomized Response Model[J].Journal of Statistical Planning and Inference,2004,(120).
[10]Jong-Min Kim,M.E.Elam.A Two-Stage Stratified Warner’s Randomized Response ModelUsing OptimalAllocation[J].Metrika,2005,(61).
[11]Jong-Min Kim,Matthew E.Elam.Comparison and Analysis of Stratified Randomized Response Models[C].2003Joint Statistical Meetings-Section on Survey Research Methods,2003.
[12]Tasos C,Christofides.Randomized Response in Stratified Sampling.[J].Journal of Statistical Planning and Inference,2005,(128).
[13]Shaul K.Bar-Lev,Elizabeta Bobovich,Benzion Boukai.A Two-StageSequentialSamplingSchemeforWarner’sRandomized Response Model[J].Communications in Statistics Theory and Methods,2003,(12).