李 健
(內蒙古化工職業學院,內蒙古 呼和浩特 010010)
敏感性問題是指所調查的內容涉及私人隱私而不愿或不便于公開表態或陳述的問題.例如學生在考試中有作弊現象,青少年的婚前性行為,社會上的賣淫嫖娼、賭博吸毒、偷稅漏稅等問題都是這一類問題,對這些問題的調查就是敏感性調查.
對于敏感性調查,如果直接提問,被調查者往往會拒絕回答,或不提供真實情況,因此對這一類調查必須采用經過特別設計的調查方法,以消除被調查者的顧慮,使它們能夠如實回答問題.這種為敏感性問題調查特別設計的技術即是隨機化回答技術,其基本特征是被調查者對所調查的問題采取隨機回答的方式,避免在沒有任何保護的情況下直接回答敏感性問題,從而既對被調查者的隱私和秘密加以保護,且能獲得所需的真實資料.
敏感性問題按問題指標特征可分成屬性特征問題和數量特征問題兩類.本文將按這兩類介紹一些已有的隨機化調查模型.
為了得到敏感性問題的可靠的樣本數據,使被調查者能夠很好地配合調查.Warner在1965年開創性地提出了隨機化回答調查法,這種調查方法的原理是在調查中引入隨機化裝置,使被調查者在保證真實回答的前提下,采用隨機化回答裝置,既能為被調查者保護個人隱私,也能使調查者獲得所需的真實信息.之后,又出現了各種敏感問題調查方法.
Waner1965年首先引入了敏感性問題的隨機化調查方法,揭開了隨機化調查的序幕.之后Simmons(1967)、Mangat(1990,1994)、Kuk(1990)、Singh(2002)等一些學者進一步發展了隨機化回答技術.這些學者提出的調查方法解決的是定性敏感性問題的調查,即估計總體中具有敏感特征個體所占的比例.
其設計原則是根據敏感性特征設計兩個相互對立的問題,“你有敏感屬性A嗎?”和該問題的對立問題“你沒有敏感屬性A嗎?”讓被調查者按預定的概率從中選一個回答,調查者無權過問被調查者究竟回答的是哪一個問題.
根據矩思想得到πA的一個無偏估計量為:


其中λ=πAPW(1-πA)(1-PW)為被調查者回答“是”的概率.
Simmons于1967年對Warner模型作了改進.其設計仍是基于Warner的隨機化回答思想.在設計調查方案時,用無關的問題Y代替了Warner模型中的敏感性問題A的對立問題.如Y為“你是四月出生的嗎?”,“你喜歡藍色嗎?”等等.
πA的一個無偏估計量為:


其中θ=πAPS+πy(1-PS)為被調查者回答“是”的概率.
Mangat(1990)提出一個具有兩個隨機化裝置的方法.第一個裝置由兩條陳述組成,即(i)“我有敏感屬性A”,(ii)“到第二個裝置”,配置概率分別為T和1-T.第二個裝置和Warner裝置完全相同具有設計參數PM和1-PM.
πA的一個無偏估計量為:


其中α=TπA)1-T)[πAPM+(1-πA)(1-PM)].
這個裝置是Mangat在他1990年提出的方法的基礎上將隨機化裝置進一步進行簡化而得出的,它使得被調查者的回答更為簡便.
πA的一個無偏估計量為:


其中β=πA+(1-πA)(1-Pm).
此裝置的特點是不要求個體給出一個“是”或“否”的回答,調查方法為:個體分別根據參數θ1和θ2的兩個Bernoulli分布產生兩個結果.如果他或她有敏感屬性A,要求個體回答第一個結果.如果他或她沒有敏感屬性A,則回答第二個結果.
πA的一個無偏估計量為:


其中γ=πAθ1+(1-πA)θ2為樣本個體報告“第一個結果”的概率.
使用簡單隨機有放回抽樣方法從N個總體中抽取n個簡單隨機樣本.所要解決的問題是估計總體中敏感問題特征量X的均值
對于定量敏感性問題的研究,Greenberg(1969,1971)、Eichhorn和Hayre(1983)、Gupta(2002)、Bar_Lev(2004)等提出了一些可供選擇的隨機化調查方法.Gjestvan等人2007年提出了在效率上優于Bar-Lev(2004)模型的強迫回答模型.
設X表示對定量敏感問題的回答值,S表示一個與X相互獨立的正的隨機數,且S的均值與方差已知,分別記為θ,γ2.回答者所產生的回答是敏感變量X與隨機數S的乘積.調查者最終收集到的是個體關于敏感指標的擾動回答Z=XS.樣本中的每一個個體使用某種隨機化裝置產生一個隨機數S,調查者不知道被調查者產生的隨機數S.這里隨機數S被EH稱為擾動隨機變量.使用簡單隨機有放回抽樣(SRSWR)方法從總量為N的總體中抽取容量為n的樣本,則樣本中的第i個個體報告的回答值為zi=xisi,樣本均值為
調查方法如下:
(1)產生一概率密度為f(y)的隨機數Y.
(2)產生一0—1分布的隨機數ε,且P(ε=1)=PG.
(3)若ε=1,則被調查者直接回答敏感性問題X;否則要求被調查者回答看到的Y值.
X,Y,ε 相互獨立.研究者只能看到被調查者給出的最終回答zi.
將之歸為模型,則得:

X均值的無偏估計量為:

估計量XG的方差為:

Eichhorn和Hayre(1983)對總體的敏感指標X的均值μx給出一個如下的無偏估計量

方差為

其中σX2=V(X),Cx=σx/μx,Cγ=γ/θ,而Cx=σx/μx,Cγ=γ/θ 分別表示總體敏感指標X和擾動變量S的變異系數.
2002年Gupta等人在Eichhorn和Hayre(1983)擾動回答模型的基礎上給出一種可選擇的隨機化調查技術,在此模型下,每個個體選擇如下兩類問題中的一類:
(a)回答者報告敏感指標真值X,
(b)回答者報告擾動回答XS,其中S為事先產生的與相互獨立的擾動隨機數.且滿足E(S)=θ=1.調查者收集到的關于敏感指標X的擾動回答是Z=XSW,其中W為示性隨機變量,即,令P0為個體報告擾動回答的概率,則E(W)=P0.調查者根據所調查問題的敏感程度來選擇設計參數P0的值.如果所調查的問題較為敏感,此時人們傾向于使用擾動回答,則調查者會選擇一個較大的P0值.如果問題是非常不敏感的,此時人們傾向于作直接回答,則調查者會選擇一個很小的設計參數P0.容量為n的簡單隨機有放回樣本(SRSWR)中的第i個個體報告的回答值為
Gupta(2002)給出的對μx的一個無偏估計量為

方差為

Bar-Lev,Bobovitch和Boukai2004年給出一種改進的擾動回答模型,設X是所要調查的定量敏感指標,Y是一個分布已知的擾動隨機變量,X與Y相互獨立,P0是調查裝置設計參數.
被調查者遵循如下的隨機化回答原則:Z=XSW其中W為示性隨機變量,即,令P0為個體報告擾動回答的概率,則E(W)=P0.其中E(S)=θ,V(S)=γ2為已知.使用簡單隨機有放回抽樣(SRSWR)的方法從容量為N的總體中抽取容量為n的簡單隨機樣本,樣本中n個個體給出的隨機化回答值為等給出的敏感指標均值的無偏估計量為


在Gjestvang等人提出的強迫回答模型中,隨機化調查裝置設計如下:一個裝有紅黃藍三種顏色卡片的箱子,箱中三種顏色卡片所占的比例分別為p1,p2,p3,且滿足條件p1+p2+p3=1,每一張卡片上都印有一個確定的數值,這個數值是由調查者設定的.在調查者不在場的前提下,每一個簡單隨機樣本個體隨機從箱子中抽出一張卡片,如果卡片的顏色是紅色的,則要求個體報告敏感指標X的真值;如果卡片的顏色是黃色的,則要求個體報告敏感指標與擾動變量的乘積值XY;如果卡片是藍色的,則要求個體報告印在卡片上的數值F.個體作出回答的分布為

強迫回答模型下,敏感指標均值的一個無偏估計量為


在所有的隨機化回答技術中,個體參與調查的合作程度均依賴于調查裝置對個體作出回答的保密程度,裝置對個體隱私的保密性越好,個體越容易配合調查.另一方面,如果裝置對個體的保護程度提高了,那么裝置的調查效率就會降低.因此裝置對個體的保護度與裝置的調查效率之間存在著不可調和的矛盾.為了在保護度與效率之間建立一種合理的平衡,已有很多學者在這方面作出了研究.
〔1〕Hong Zhimin.Estimation of mean in randomized response surveys when answers are incompletely truthful[J].Model Assisted Statistics and Applications,2006,(1).
〔2〕閆在在,聶贊坎.隨機化策略的公平比較[J].數學物理學報,2004(24).
〔3〕洪志敏,閆在在.基于相同保護度的隨機化裝置效率比較[J].工程數學學報,2008(25).
〔4〕馮士雍,施錫銓.抽樣調查—理論,方法和實踐[M].上海:上海科學技術出版社,1994.
〔5〕謝邦昌.抽樣調查理論及其應用方法[M].北京:中國統計出版社,1998.