濮翔科高 歌阮玉華
二項選擇敏感問題兩階段抽樣調查樣本量的估計*
濮翔科1,2高 歌1△阮玉華3
目的研究二項選擇敏感問題RRT模型下兩階段抽樣調查樣本量的估計公式,探討敏感問題復雜抽樣調查設計的統計方法。方法使用二項選擇敏感問題西蒙斯模型,根據概率論和數理統計學的理論方法,在給出二項選擇敏感問題兩階段抽樣樣本比例及其方差計算公式的基礎上;使用哥西不等式、求條件極小值點等方法,從數學上推導二項選擇敏感問題西蒙斯模型下兩階段抽樣調查各階段抽樣的最優樣本量的計算公式;通過對北京MSM人群預調查獲取相關統計量的數值,進而估計北京MSM人群敏感問題RRT模型下兩階段抽樣調查各階段的最優樣本量。結果當限定抽樣誤差而使調查費用最小時需要抽取13個區縣,當限定調查費用而使抽樣誤差最小時需要抽取9個區縣;從每個被抽中的區縣中需要抽取的MSM人數平均為51人。結論本文研究的二項選擇敏感問題RRT模型下兩階段抽樣調查樣本量的估計公式及相關統計方法具有創新理論意義和很好的實際應用價值。
敏感問題 隨機應答技術 兩階段抽樣 樣本量 男男性行為者
調查研究中經常需要調查一些敏感問題,例如艾滋病高危行為賣淫、吸毒、男男性行為等。這些敏感問題都涉及到個人隱私,不便于公開陳述或表態,以至于調查者難以獲取有關敏感問題的真實信息。但實際上,調查者關注的并非某個特定調查對象的敏感問題情況,而是被調查的整個群體中具有敏感問題的數量特征。為解決這一矛盾,Warner提出了隨機應答技術(randomized response technique,RRT)應用于敏感問題調查〔1〕,能有效保護調查對象的隱私并獲取較準確的調查資料。此后,Simmons加以改進,設計了二項選擇敏感問題調查的西蒙斯模型〔2〕,由于其簡單有效,至今仍被廣泛應用于二項選擇敏感問題的調查研究。目前,對二項選擇敏感問題復雜抽樣的調查方法已有一些研究,例如對二項選擇敏感問題分層隨機抽樣下總體比例與總體方差等參數的估計等研究。科學地確定樣本量是調查設計的重要環節。本文對二項選擇敏感問題西蒙斯模型的兩階段抽樣調查,在給出樣本比例及其方差計算公式的基礎上,當限定抽樣誤差的大小而使調查費用最小及當限定調查費用的大小而使抽樣誤差最小兩種情況下,推導出各階段最優樣本量的計算公式,并在北京市男男性行為人群(men who have sex w ith men,MSM)的現場調查中取得了成功的實際應用效果。
1.二項選擇敏感問題的西蒙斯模型
針對一個二項選擇敏感性問題,例如:“你是同性戀嗎?”;選擇一個與該敏感性問題無關的非敏感問題,例如:“你的出生月份是奇數嗎?”。西蒙斯模型〔2〕需設計一個隨機化裝置,例如:在桌上放一個一元的硬幣。每名調查對象獨立地拋擲該硬幣,事先約定:出現“1元”朝上(概率為P)回答自己是否是“同性戀”?出現“國徽”朝上,回答自己的出生月份是否是奇數?除本人以外的任何人均不知道被調查者究竟回答的是哪一個問題。在拋擲硬幣及回答過程中,調查對象的隱私受到保護,可以消除顧慮,給出自己的真實答案。
2.兩階段抽樣方法
假定總體共劃分成M個群,第i個群包含Mi個觀察對象,i=1,2,…,M,平均每個群內包含個調查對象。又假設第一階段從總體中隨機抽取了m個群,第二階段從第i個被抽取的群中隨機抽取了mi個調查對象,i=1,2,…,m,平均從每個抽中的群內抽取了i個調查對象。對每個被抽中的調查對象,采用西蒙斯模型進行調查。
3.總體比例的估計量及其方差
假定隨機化裝置中要回答的敏感問題所占比例為P。Pi表示第i個群內具有敏感問題特征的個體比例為其樣本估計量;ri表示第i個抽中群內具有無關非敏感問題特征的個體所占的比例,ri一般是已知或可以通過專門調查獲得的。Bi表示第i個群內調查對象回答“是”的比例,根據全概率公式〔3〕有Bi=PiP為Bi的樣本估計量,假設第i個被抽取的群內有hi個人回答“是”,則由此可得:

根據文獻〔4〕給出的結果,得到敏感特征總體比例的估計量p為:

其方差為:



4.樣本量的估計
實際抽樣調查所需的費用一般可以用如下函數形式表示〔5〕:

其中C表示抽樣調查的總費用,C0表示整個調查所需的基本費用,C1表示每調查一個群所需的基本費用,C2表示每一個調查對象所需的直接調查費用。
由公式(3)經過變形得:

解得(在抽樣誤差限定時使得調查費用達到最小和調查費用限定時使得抽樣誤差達到最小):

當方差V(p)的值限定為V時,由(7)式解得(抽樣誤差限定而使調查費用達到最小):

當調查費用限定為C時,由(6)式解得(調查費用限定而使抽樣誤差達到最小):


1.調查方法
調查對象來自于北京市15~49歲男男性行為人群,調查時間為2010年8月至10月。根據王麗艷、劉鵬等〔6-7〕的估算方法,結合2010年第六次全國人口普查數據〔8〕估計得北京市出入MSM活動場所的男男性行為者人數為67750人,即此次調查的研究總體。
采用兩階段抽樣方法,以北京市的16個區縣作為群,M=16;以北京市男男性行為者作為調查對象,平均每個區縣MSM人數=4234人。第一階段從北京的區縣中隨機抽取13個區縣(m=13);第二階段在被抽中的區縣共隨機抽取1523名MSM調查對象,平均從每個抽中區縣抽取約117人=117)。對抽取的1523名MSM調查對象,采用二項選擇敏感問題的西蒙斯模型作調查,調查指標為:最近一次肛交時全程使用安全套的比例、最近一年男男商業性性行為的發生比例、最近一年HIV檢測結果為陽性的比例、最近一年到正規醫療機構進行性病檢查結果為有性病的比例等。
2.預調查結果。
使用excel 2003和SAS 9.13軟件完成調查數據的管理與計算。以肛交時是否全程使用安全套的調查為例:按公式(1)和(2),計算得北京市MSM人群最近一次肛交全程使用安全套的樣本比例為0.7763;由公式(4)和(5)計算得的樣本估計量分別為由公式(3)計算得肛交中全程使用安全套樣本比例的估計方差為0.00033,總體比例的95%CI為:0.7408~0.8118。
此次調查擬采用兩階段抽樣,以北京市的區縣為群、以MSM者為調查對象。根據預調查的實際情況預算如下:整個調查的基本費用C0=10萬元(含項目合作單位合作費、差旅費、培訓費、印刷費等),平均每調查一個區縣的基本費用C1=10萬元(含調查協作單位協作費、MSM活動場所協作費、同伴志愿者報酬、交通費等),平均每調查一個MSM對象的直接費用C2=3元(調查員勞務費)。此次調查采用的RRT模型為西蒙斯模型,先針對每一個調查指標分別計算所需樣本量,然后取它們中的最大值。現以肛交時全程使用安全套比例的調查為例,介紹樣本量計算:
根據已計算出的北京市MSM人群男男性行為肛交時全程使用安全套比例的估計方差相關統計量和由公式(8)計算出從每個抽中的區縣平均需要抽取的男男性行為者的人數為:

當抽樣誤差V(p)的值限定為V=0.00033(按預調查資料的估計結果)而使調查費用最小時,由公式(9)計算出從北京市16個區縣中需要抽取的區縣個數為:

當調查費用值限定為C=100萬元而使抽樣誤差最小時,由公式(10)計算出從北京市16個區縣中需要抽取的區縣個數為:

在第i個被抽中的區縣內需抽取的男男性行為者的個數可由公式(11)計算。例如某個被抽中的區縣共有男男性行為者5738人,則應從該區縣隨機抽取的男男性行為者人數為:

敏感問題調查的隨機應答技術自誕生以來,由于該技術能較好地保護被調查者的個人隱私和提高真實應答率,因此很多學者進行了研究并加以改進完善。西蒙斯模型也是較早提出的二項選擇敏感問題調查模型,因其較為簡單實用,至今應用仍較廣泛〔9〕。西蒙斯模型的簡單隨機抽樣應用較多,但在復雜抽樣下應用研究較少,而且對敏感問題調查樣本量的估計也較少研究。本文對二項選擇敏感問題西蒙斯模型兩階段抽樣調查設計方法進行了研究,科學推導出敏感問題西蒙斯模型兩階段抽樣調查樣本量的計算公式,國內外至今未見文獻報道。
自從改革開放以來,吸毒、艾滋病、同性戀等敏感問題正在我國受到越來越多的關注。如今我國艾滋病正從高危人群向一般人群傳播,形勢非常嚴峻。艾滋病的傳播途徑以性傳播為主,尤其是近幾年新發現的感染者中男男性行為者的比例逐年增高〔10-12〕,這意味著男男性行為人群是艾滋病傳播的高危人群,其高危性行為應受到重視和干預。
1.Warner SL.Randomized response:a survey technique for eliminating evasive answer bias.Journal of the American Statistical Association,1965,60(309):63-69.
2.Horvitz DG,Shah BV,Simmons WR.The unrelated question randomized responsemodel.Proceedings of the Social Statistics Section,American Statistical Association,1967:65-72.
3.蘇良軍.高等數理統計.北京:北京大學出版社,2007:3.
4.Wang J,Gao G,Fan Y,et al.The estimation of sample size in multistage sampling and its application in medical survey.Applied Mathematics and Computation,2006,178(2):239-249.
5.Cochran WG著.抽樣技術.張堯庭,吳輝譯.北京:中國統計出版社,1985,87.
6.王麗艷,夏冬艷,吳玉華,等.乘數法估計北京、哈爾濱兩市男性同性戀人群規模的研究.華南預防醫學,2006,32(3):9-11.
7.劉鵬,高歌,賀志龍,等.數量特征敏感問題加法模型二階段抽樣的統計方法及其應用.蘇州大學學報(醫學版),2011,31(3):384-387.
8.北京市統計局,國家統計局北京調查總隊.北京統計年鑒-2011.2011.
9.高歌,范玉波.敏感問題Simmons模型的(分層)整群抽樣研究.中國衛生統計,2008,25(6):562-565,569.
10.Fan S,Lu H,Ma X,etal.Behavioral and Serologic Survey of Men Who Have Sex w ith Men in Beijing,China:Implication for HIV Intervention.AIDS Patient Care and STDs,2012,26(3):148-155.
11.Li Q,Liu Y,Zhou Z,et al.Online Sex-Seeking Behaviors Among Men Who have Sex w ith Men:Implications for Investigation and Intervention.AIDS and Behavior,2012,16(6):1690-1698.
12.中華人民共和國衛生部,聯合國艾滋病規劃署和世界衛生組織. 2011年中國艾滋病疫情估計.2011,2-6.
(責任編輯:郭海強)
Sam ple Size Determ ination of Dichotomous Sensitive Question Survey under Twostage Sam pling
Pu Xiangke,Gao Ge,Ruan Yuhua(School of Public Health,Medical College of Soochow University(215123),Suzhou)
ObjectiveTo investigate the two-stage sampling method and determ ine the sample size for dichotomous sensitive question survey.MethodsBy using statistical theories and methods,the population proportion of dichotomous sensitive question under Simmonsmodel and its variance were estimated;Cauchy-Schwarz inequality and them inimum method were used to deduce the sample size determ ination formulae for two-stage sampling survey of dichotomous sensitive questions;the survey method and relevant formulae were applied to the two-stage sampling survey of condom use in sex behavior among MSM(men who have sex w ithmen)in Beijing.ResultsBased on the pre-survey data of MSM in Beijing,51 MSM should be extracted in each selected county.If the sampling error is to be limited,13 counties should be extracted tomake the survey costm inimum in the first stage of sampling.On the contrary,9 counties should be extracted to m inim ize the sampling error in the first stage of sampling if the survey cost is to be lim ited.ConclusionThe surveymethod and sample size determination formulae are useful in the two-stage sampling survey of dichotomous sensitive questions.An optimum sample size can be calculated by using the deduced formulae to reduce the cost and the sampling error of the survey.
Sensitive question;RRT;Two-stage sampling;Sample size;MSM
國家自然科學基金資助項目(81273188);江蘇省預防醫學科研課題立項項目(Y2012072);常州市應用基礎研究計劃項目(CJ20112013)
1.蘇州大學醫學部公共衛生學院(215123)
2.常州市第三人民醫院肝病研究所
3.中國疾病預防控制中心性病艾滋病預防控制中心
△通信作者:高歌