劉洋
摘 要 本文對NNRT中的兩個主要模型進行了介紹,并對敏感性問題中有關兩個總體比較的方法進行了初步的探索。通過假設檢驗的方法結合之前有關NNRT中平行模型的結論,進行了基于平行模型的兩總體比較,計算出了置信區間和拒絕域。
關鍵詞 敏感性問題調查 非隨機化回答技術 三角模型 平行模型 假設檢驗
中圖分類號:O221 文獻標識碼:A
一、引言
在社會中進行統計調查研究的時候經常會涉及到一些隱私或者不便公開的問題的調查,例如是否有過偷稅漏稅的行為、是否有過吸毒經歷、是否有過受賄行賄行為、是否有過作弊行為等等,我們稱這些問題為敏感性問題。對于這些敏感性問題的調查,如果采用直接調查法會讓被調查者感到難堪并產生抵觸心理,從而不配合調查或者給出與實際不符的錯誤答案。無法獲得真實有效的統計數據,對這些社會問題進行分析研究就無從提起。因此很多學者開展了對于敏感性問題調查方法的研究,并提出了一些有效的調查方法來提高對被調查者的保護性,從而提高統計數據的真實性。
當前對于敏感性問題的調查技術大致有三類:隨機化回答技術(Randomized Response Technique-RRT)、非匹配計數技術(UnmatchedCount Technique-UCT)和非隨機化回答技術(Non-Randomized ResponseTechnique-NRRT)。其中最著名的當屬1965年Warner提出的隨機化回答模型,該模型中通過隨機化裝置保護了被調查者的隱私,后來隨機化回答技術中的很多模型都是以此為基礎提出改進的。由田國梁等學者于2007年提出的NRRT是一種較新的方法,該方法擺脫了隨機化裝置,從而可以通過問卷形式獲得調查數據,方便快捷。同時該方法具有可重復性,便于對調查過程進行反向檢驗。對于被調查者而言,這種方法更直觀,也能讓其心理上獲得更高的安全感,促使他們給出最真實的答案。
本文的主要研究內容是基于非隨機化回答模型的對于敏感性問題調查中有關兩總體比較的研究。以往對于敏感性問題調查的研究大部分是集中于調查方法的設計,以及對于一個總體的研究,很少對兩個總體進行比較研究。對于一個敏感性問題,我們有時需要進行多個總體的比較,比如對比兩個不同時期有吸毒行為的人群比例,通過比較得出吸毒人群比例的變化從而方便相關部門了解情況制定計劃。
二、模型介紹
(一)三角模型。
為了估計對于敏感性問題具有敏感性特征的個體比重 ,在三角模型中引入了兩個不相關的問題。一個是敏感性問題Y,比如是否有過吸毒行為,當有過吸毒行為時Y=1,反之Y=0,此時π=PY=1。另一個是非敏感性問題W,比如生日是否在1-3月之間,當生日在1-3月之間時W=1,反之W=0。對于非敏感性問題我們要求符合兩個假設條件:(1)非敏感性問題與敏感性問題之間彼此獨立,(2)對于非敏感性問題具有非敏感性特征的個體比重p已知,即p=PW=1已知。在三角模型中被調查者要求回答以下表格的左部分:
被調查者在回答問卷時,如果既沒有敏感性特征,也沒有非敏感性特征,比如既沒有吸毒行為,生日也不在1-3月之間,則被調查者選擇“○”,反之選擇“.”。當被調查者選擇“○”時,表明他不具有敏感性特征。相對的,即使他選擇了“.”,由于“.”代表了三種情況,因而也無法以此判斷被調查者是否具有敏感性特征,從而達到了保護隱私的作用,促使他們給出真實答案。
在表1中的右部分給出了發生每種情況所對應的概率,據此通過概率論與數理統計的知識就可以得到對于敏感性問題具有敏感性特征的個體比重π。設λ表示所有被調查者選擇“.”的概率,則λ的無偏估計量λ=nN,其中N表示所有被調查者總體數,n表示其中選擇“.”的個體數,顯然,
(二)平行模型。
在三角模型中,對于敏感性問題Y,當Y取0或1不同的兩個值時,對于被調查者而言具有不同的敏感性。比如當Y=0時表明無吸毒行為,即無敏感性特征,反之當Y=1時表明有過吸毒行為,即有敏感性特征。然而,在某些敏感性問題調查中,當Y取0或1不同的兩個值時,對于被調查者而言均為敏感性的,差異僅在于敏感度的大小,比如當Y=0時表明有過0到1次吸毒行為,Y=1時表示有過1次以上吸毒行為。顯然,對于被調查者而言,敏感性問題Y的兩個不同的答案均具有一定的敏感性,為了保護他們的隱私,田國梁于2011年針對這種情況提出了平行模型。
平行模型在三角模型的基礎上又加入了另外一個非敏感性問題U,對于這個問題要求滿足與三角模型中一樣的兩個假設,即:(1)該非敏感性問題與另外兩個問題之間彼此獨立,(2)對于該非敏感性問題具有非敏感性特征的個體比重q已知,即q=PU=1已知。在平行模型中被調查者要求回答以下表格的左部分:
調查者根據自己的實際情況來選擇“○”或者“.”,這兩種不同的選擇都分別包含兩種情況,“○”所代表的兩種情況均為非敏感性特征,“.”所代表的兩種情況既包含了敏感性特征也包含了非敏感型特征,所以同樣對被調查者起到了保護隱私的作用。對于表2中標記的這四種情況,必有一種是符合被調查者情況的,且每種情況所對應的概率如表二右部分所示,顯然,
三、基于平行模型的兩總體假設檢驗
在此將進行基于平行模型的兩總體假設檢驗,檢驗兩總體中具有較高敏感性特征的個體比重是否相等。
四、小結
本文對NNRT中的兩個主要模型進行了介紹,并對敏感性問題中有關兩個總體比較的方法進行了初步探索。通過假設檢驗的方法結合之前有關NNRT中平行模型的結論,進行了基于平行模型的兩總體比較,計算出了置信區間和拒絕域。
(作者:首都經濟貿易大學統計學院研究生,研究方向:應用數理統計)
參考文獻:
[1]Tian, G.L., Yu, J.W., Tang, M.L., and Geng,Z. (2007). A new non-randomized model for analyzing sensitive questions with binaryoutcomes. Statistics in Medicine, 26,4238-4252.
[2]Tian, G.L. (2011). A new non-randomized response model: the parallel model. Technical Report of the Department of Statistics and Actuarial Science, The University of Hong Kong.
[3]盛驟,謝世千,潘承毅.概率論與數理統計(第三版).高等教育出版社,2001.