孟 楠(山東財經大學統計學院,濟南 250014)
敏感性問題的統計調查方法
孟楠
(山東財經大學統計學院,濟南250014)
摘要:敏感性問題是現代社會既客觀又普遍的問題,但調查者通常不愿真實作答,因此得出的數據往往帶有偏差。本文從委婉詢問法、網上調查法和隨機化回答技術三個方面對敏感性問題的設計進行研究。最后本文給出了對敏感性問題調查的結論與建議。
關鍵詞:敏感性問題;隨機化回答技術;Simmons模型;Mangat模型
隨著現代社會中一些特殊現象越來越平常,敏感性問題變得既具有客觀性,又有普遍性。敏感性問題(sensitivequestion),就是所調查內容涉及私人機密而不愿或不便于公開表態或陳述的問題。這類問題涉及到被調查者隱私,若直接詢問易提高被調查者警惕和反感,被調查者通常會拒絕回答,或采取敷衍、虛假回答的方式,這使得調查無法得到真實數據,給決策造成偏差。下面我們對敏感性問題設計從三個方面來進行研究:
在調查敏感性問題調查過程中,由于問題的特殊性,直接詢問并不是最佳方式,通常提問要注意方式方法,委婉地進行表達,不會讓被調查者有泄漏隱私的感覺。常用的方法有以下三種[1]:(1)釋疑法。在問卷開頭或敏感性問題之前,要向被訪者說明調查的目的和意義,這樣正規的格式有利于打消被調查者的顧慮。(2)轉移法。即采用三人稱方式提問,將敏感性問題轉移到根據他人情況作答。例如:“有些人有公交車、火車等公共交通工具逃票現象,您知道是為什么嗎?”轉移法將被調查者的注意力轉移到其他人或事情本身上,消除自身的心理防衛從而獲得有效的答案。(3)假定法。即采用一個條件作為問題的前提,然后向被調查者提問。例如:“在經濟足夠寬裕的情況下,您會優先購買汽車還是住宅?”
網上敏感性問題調查即利用網絡,隨機抽取一定數量網民進行敏感性調查,將結果作為樣本來估計全體網民特征。網上調查具備客觀性和保護性兩大優勢。具體步驟為[2]:
(1)網上抽樣。網上隨機抽樣一般采用的是隨機IP自動撥叫技術,隨機IP發生軟件會隨機產生一些IP地址,IP自動撥叫軟件會利用這些IP地址呼叫、并向被調查者發送信息。(2)編制網上敏感性問題調查問卷。在正式調查內容開始前,應規范描述此次調查名稱、目標等信息,使被調查者明確調查目的,減輕被調查者顧慮。網頁的第二頁記錄被調查者的有關情況,不同的調查目的對應著不同的調查內容,同時可以此制定抽樣框,對不符合抽樣范圍的調查者進行排除。網頁第三頁的任務是隨機抽取問題,編寫隨機函數用來抽取0-1之間的隨機數,被調查者根據意愿控制函數的開始與結束,待函數停止運行時屏幕上將出現一個0-1之間的隨機數。以0.5為界,小于0.5時,選擇問題1;大于等于0.5時,選擇問題2。確定回答問題后進入下一環節。最后一頁即為要調查的問題,以調查網民是否有過行賄受賄行為為例:準備問題1:你有行賄受賄行為,是嗎?問題2:你手機尾號為偶數,是嗎?上頁中抽到哪個題目,該頁中只顯示此題目和“是”、“不是”兩項。被調查者只需對選項進行選擇,結果會通過網絡傳至調查者并記錄。由于被調查者在此過程中是將問題下載至自己電腦進行作答的,因此所選問題是1或2只有被調查者本人清楚,調查者得到的結果僅為“是”或“不是”,因此保護了被調查者的隱私。
隨機化回答技術可在調查中最大限度地保護被調查者的隱私,從取得被調查者的信任,得到真實答案。這一技術在調查中使用特定的隨機化裝置,使得被調查者以預定的概率P來回答敏感性問題。下面介紹三種隨機化回答技術模型:
3.1Warner模型
此模型是Warner[3]在1965年提出的,設計方法為根據敏感性調查準備兩個對立問題,被調查者從二者中選擇一個問題作答,選中的概率可預先設置。假設總體的兩類是相互對立的:一類包含敏感特征A,另外一類ā即不具備敏感特征,總體中的每個個體要么具有敏感性特征,要么不具有。調查結果得出的是A類人群在總體中的比例。由于調查者并不知具體選中的問題,因此有效保護被調查者隱私。
3.2Simmons模型
1967年Simmons提出了這一模型設計,啟發于Warner模型。不同的是,在設計中用不具敏感性的問題Y代替Warner模型中的敏感性問題A的對立問題。假設Y為“你的生日月份是奇數嗎?”。
以下是模型的設計思路[4]:實驗的兩種不同結果由隨機裝置產生,例如外觀相同的兩套卡片,其中一套卡片問題帶有敏感性,如:“你有偷稅漏稅行為嗎?”。剩余的一套卡片上寫的問題不具有敏感性。如:“你的生日月份是奇數嗎?”。調查過程中將兩套卡片混合,比例可預先設定,被調查者任意抽取一張卡片并真實作答即可,卡片內容調查者無權了解。
3.3Mangat模型
Mangat于1990年提出了二階隨機化回答模型,此模型是Warner模型和直接回答折衷而來,Warner模型和直接回答的加權平均數即為該模型的估計量。Mangat模型中有兩套裝置用來產生隨機問題,第一個裝置中:情況一為直接回答“我具有敏感屬性”,此概率為P,情況二為“跳轉到裝置二”。在第二個裝置中也分為兩種情況:情況一為直接回答“我具有敏感屬性”,此概率為T,情況二為“我不具有敏感屬性”,概率為1-T。調查過程中被調查者要依次經過裝置一、二,并真實回答“是”或“否”。
被調查者出于對自身隱私的保護,通常不愿真實回答帶有敏感性的問題,給調查結果帶來偏差。因此設計敏感性調查的關鍵部分是要想方設法保護被調查者,打消疑慮,從而使調查數據質量有所提高。到目前為止,雖然已有多種隨機化回答模型,但還沒有一個模型能真正做到精度高、保護度好。在設計模型過程中,應將定義保護度、設計抽樣方法、數據處理、參數選擇等方面綜合考慮,并結合實際調查。與此同時,也可利用學科交叉,把心理學、社會學等思想融合到統計方法中,力求產生更完美的隨機化回答技術模型。
參考文獻:
[1]李燦,辛玲.調查問卷中的敏感性問題設計研究[J].經濟師,2007(01):143,286.
[2]孫蕾,蔡亮.敏感性問題的統計調查新方法——網上調查[J].統計與信息論壇,2000(03):43-44.
[3]WarnerSL.RandomizedResponse:aSurveyTechniquefor El iminat ingEvasiveAnswerBias.J.Amer icanStat ist ical Associat ion,1965(60):63-69.
[4]孫山澤,孫明舉,段鋼.二項選擇敏感性問題調查的基本方法[J].數理統計與管理,2000,19(0l):58-6.
作者簡介:孟楠(1990-),女,山東日照人,山東財經大學統計學院研究生,研究方向:經濟統計。