孫 萍,趙東方
(1.烏魯木齊職業大學,烏魯木齊 830002;2.華中師范大學 數學與統計學學院,武漢430079)
敏感性問題是指與個人(或單位)的隱私(或私人利益)有關而不便向外界透漏的問題。例如,是否存在行賄、受賄情況,考生是否存在考試作弊,個體工商戶是否偷稅、漏稅,是否為同性戀者等。對于這些敏感性問題,若采用直接問答的形式,被調查者就會產生抵觸情緒,拒絕回答,或者,接受調查但不愿據實回答。
抽樣調查中,經常會遇到敏感性問題的調查工作,由于涉及到被調查者的隱私問題,很難得到被調查者的配合,因此造成了調查的困難、以及調查結果的不準確。
1965年,S.L.Warner設計了一種隨機問答方法,巧妙的解決了這個問題[1]。1969年,B.G.Greenberg改進了S.L.Warnerder的方法[2]。現在,S.L.Warner的隨機調查法得到了廣泛的應用[3][4]。
隨機問答法的具體步驟如下:
第1步:調查問卷的卡片,每張卡片只問下列問題之一
問題1:你屬于集合A
問題2:你不屬于集合A
假設問題1共有a張卡片,問題2共有b張卡片,要求:p=a/(a+b)≠1/2,其中,p叫做卡片參數。
第2步:被調查者隨機抽取一張卡片,卡片上只有一個問題,被調查者只回答“Yes”,或者“No”,然后,將卡片放回卡片盒。
在整個調查過程中,調查人不知道被調查者回答的是哪個問題,只知道回答結果Yes或No,這樣,被調查者就有很大的可能說真話。
第3步:假設調查了n個人,m個人回答“Yes”,根據全概率公式:

于是,我們就可以得到百分比α的估計值。
【案例1】某地調查個體工商戶偷稅漏稅問題
問題1:我偷過稅
問題2:我從不偷稅
卡片設計:卡片參數p=1/6,即,6張卡片有一張是問題1,其余5張是問題2。
調查過程:被調查者隨機抽取一張卡片,看見問題后,將卡片保密放回卡片盒,然后告訴調查人,Yes或No。
調查結果:隨機調查100個個體戶,共有75人回答“Yes”,根據公式計算可得:

于是,我們可以認為,某地可能有1/8=12.5%的個體戶偷過稅。
S.L.Warner的隨機調查法,其中兩個問題都與敏感性話題直接相關,很容易引起被調查者的戒備,所以,B.G.Greenburg建議,用其它一個毫不相干的問題代替問題2。
調查問卷的卡片,只問下列問題之一
問題1:你屬于集合A
問題2:你屬于集合B
假設,屬于集合A的人群的百分比為αA(待求指標),屬于集合B的人群的百分比αB(已知指標),問題1共有a張卡片,問題2共有b張卡片,p=a/(a+b),被調查者共有n人,其中m人回答Yes,那么就有:

從中解出αA:

【案例2】某高中調查學生談戀愛比例
問題1:我談過戀愛
問題2:我的身份證尾數是奇數
相對于問題1,αA待求;相對于問題2,αB=1/2。
卡片參數:p=9/10,即,10張卡片中有9張是問題1。
被調查者n=100,其中,23人回答Yes,即,m=23,根據公式計算:

于是,我們可以認為,這所高中大約有20%的學生談過戀愛。
在S.L.Warner模型中,待求百分比α=1/(2p-1)(p-1+m/n)p≠1/2,其中,卡片參數p的取值,必須使得0≤α≤1,下面,我們畫出α的圖形:

圖1 m/n<0.5的圖形

圖2 m/n>0.5的圖形
圖中p軸上方水平線對應α=1。
通過觀察圖形,我們看到0≤α≤1的條件并不總是得到滿足,特別是在p=0.5附近,這個條件完全被破壞,于是,為了確保0≤α≤1成立,我們就要考慮卡片參數p的取值范圍。
總的原則:p的取值要遠離0.5。
若取p<0.5,由,可以得到,,即,根據所調查的問題的背景知識,卡片參數p應該盡可能的小。例如,已知患艾滋病的人群比例比較小,可以取p=1/9、p=1/10等等(此時,10張卡片有一張是問題1:你有艾滋病?)。
若取p>0.5,由,可以得到,,即,根據所調查的問題的背景知識,卡片參數p應該盡可能的大。例如,已知有某種壞習慣的人群比例比較大,可以取p=7/10、p=9/10等等(此時,10張卡片有9張是問題1:你有×××壞習慣?)。

即,卡片參數p應該盡可能大一點。
總結:卡片參數p的取值范圍,總的設計原則是,(1)在S.L.Warner模型中,p的取值應該遠離0.5;(2)在B.G.Greenberg的改進模型中,p的取值應該盡可能靠近1。
[1]Warner,S.L.Randomized Response:A Survey Technique for Elimi?nating Evasive Answer Bias[J].Journal of the American Statistical As?sociation,1965,(60).
[2]Greenberg,B.G.,et al.The Unrelated Question Randomized Re?sponse Model:Theoretical Framework[J].Journal of the American Sta?tistical Association,1969,64(326).
[3]M.Ostapczuk,M.Moshagen,Z.Zhao,J.Musch.Assessing Sensitive Attributes Using the Randomized-response-technique:Evidence for the Importance of Response Symmetry[J].Journal of Educational and Behavioral Statistics,2009,(34).
[4]M.Ostapczuk,J.Musch,M.Moshagen.A Randomized-response In?vestigation of the Education Effect in Attitudes towards Foreigners[J].European Journal of Social Psychology,2009,(39).
[5]趙東方.數學實驗與數學模型[M].武漢:華中師范大學出版社,2003.
[6]趙東方.數學模型與計算[M].北京:科學出版社,2007.