劉媛媛,冀鵬浩,吳國榮
(內蒙古農業大學 理學院,呼和浩特 010018)
隨著抽樣調查理論的不斷發展與完善,其涉及的領域也越來越廣泛。在調查研究中,當涉及個人隱私或不良信息(如偷稅、吸毒)等敏感性問題時,采用直接問詢的方式進行調查往往無法獲得真實數據,導致調查結果出現偏差。1965 年,Warner 模型的提出開創了隨機化回答技術的先河,隨機化回答技術是進行敏感性問題調查和推斷總體特征比例的一種行之有效的方法[1]。Warner隨機化模型的設計原理是根據要調查的敏感屬性設計兩個相對立的問題,讓被調查者按預定概率從中抽取一個問題回答。除被調查者外,任何人均不知道被調查者回答的是哪個問題。被調查者可以毫無顧慮地按真實意愿作答,既有效地保護了被調查者的隱私,又可以獲得真實、可靠的調查數據。到目前為止,很多定性敏感性問題的調查模型都是Warner模型的延續和改良。在眾多學者的努力下,大量保護度好、精度高的隨機化調查模型和估計方法相繼問世。在模型的研究和設計過程中,由最初的通過改進隨機化裝置,逐漸轉向將抽樣方法、估計方法與隨機化裝置改進相結合,力求得到更完美、精度更高的隨機化調查模型。
在抽樣調查中,若能在有效利用與敏感變量相關的輔助信息的同時,又合理地選擇抽樣方法,則對于提高調查精度將會起到很好的促進作用。在實際調查中,一個具體的方案大多是不同的抽樣方法與估計方法各種形式的組合[2]。將分層技術與比估計法按不同次序進行組合,可得到兩類比較復雜的非線性估計法——分別比估計法和聯合比估計法。分別比估計法是先分別對各層進行比估計,然后匯總,按層權平均得到總體參數的估計[3]。聯合比估計法是先對兩個指標求總體均值或總量的分層估計,然后用他們構造比估計[4]。這兩類估計方法有效地利用了輔助信息與分層技術,是提高目標量估計精度較理想的方法,所以近年來引起了很多學者的關注。Kadilar 和Cingi(2006)[5]對目標量的簡單估計、比估計、分層估計和聯合比估計進行了效率比較。閆在在和田兵(2011)[6]研究了基于輔助變量偏斜系數的分別比估計。劉媛媛等(2012)[2]基于分別比估計法,對Warner 模型中的敏感屬性比例估計量的均方誤差式進行了理論推導及效率比較。王春枝和趙國杰(2017)[7]在分層抽樣方法下,結合輔助變量,探討了分別比估計法、聯合比估計法、分別回歸估計法和聯合回歸估計法的應用條件。喬松珊和張建軍(2019)[8]研究了總體均值的分別比估計法的改進及應用。目前,將聯合比估計法應用于敏感性問題隨機化調查技術中的研究相對較少。因此,本文以改進估計方法為切入點,運用聯合比估計法,對分層抽樣下Warner 模型中敏感屬性比例的估計量及其均方誤差進行理論推導和效率比較,目的是提高估計量的調查精度。
根據輔助信息將總體N分成L層,用Nh表示第h層的總體容量,應用放回簡單隨機抽樣法從每層中獨立地抽取容量為nh的樣本。每層采用Warner 隨機化回答裝置:在盒子中按ph和1-ph的比例均勻地放有外形完全相同的兩類卡片,卡片上分別寫有“你有敏感屬性Y嗎?”和“你沒有敏感屬性Y嗎?”。被調查者從盒子中任取一張卡片,根據抽到的問題與自身屬性匹配的情況作出真實的回答。該項調查的目的是根據調查數據估計在總體中具有敏感屬性Y的比例π[10]。記zˉh為第h層nh個被調查者中回答“是”的個數的均值;Wh=Nh N為第h層的層權;πh為第h層總體的敏感屬性比例,則πh的一個無偏估計為:
進而得到分層總體中具有敏感屬性的比例π 的一個無偏估計為:
估計量π?s的性質有:
(1)無偏性,即E(π?s)=π;
新模型是基于分層抽樣下的Warner模型引入輔助變量,對調查的敏感屬性比例和輔助變量分別作分層估計,再對他們作比估計。通過新估計量的構造來提高總體敏感屬性比例的估計精度。具體實施和推導過程為:將大小為N的有限總體分成L個不相迭的子總體,其大小分別為N1,N2,…,NL(Nh皆已知,,應用放回簡單隨機抽樣法從每層中獨立進行抽樣。設πh為第h層中的回答者具有敏感性指標Y的比例;Xh和Xˉh分別是第h層輔助性指標的總值和均值,敏感性指標值和輔助性指標值之間具有較好的正相關性。
記:
顯然有

采用的隨機化裝置Rh(h=1,2,…,L)如下:
卡片a:有敏感性指標Y?輔助性指標X。
卡片b:沒有敏感性指標Y?輔助性指標X。
每個被調查者從裝有卡片a和b的盒子中獨立地進行隨機抽樣,然后對所抽到的卡片進行如實回答。設ph和1-ph分別為在第h層中抽到卡片a和b的比例,在總體Y中,層間的ph取值一般是不相同的。從第h層中抽取容量為nh的樣本(),第h層中的nh個個體獨立使用隨機化裝置的回答如下:(zh1,xh1),(zh2,xh2),…,(zhnh,xhnh);h=1, 2,…,L。
設:

在本文中,ER(zhi)=ph yhi+(1-ph)(1-yhi)(ER是關于隨機化回答的數學期望運算)。則有:
第h層中個體回答“是”的比例為:

聯合比估計法是先對分層樣本的調查變量和輔助變量作分層估計,再對他們作比估計。則總體敏感屬性比例πRc的聯合比估計量為:
根據式(1)至式(3)推導聯合比估計量π?Rc的期望和均方誤差。
其中,ER是關于隨機化回答的數學期望運算,Ed是關于抽樣設計的數學期望運算。

則有:
當nh較大,、Cyxh都較小時,可得
將E(π?Rc)的推導式(式(4))代入式(5)的第二部分,可得:
將式(6)代入式(5)得:
其中:
根據E(π?Rc)的推導式,得:
將式(8)至式(10)代入式(7)得:
基于分層隨機抽樣對敏感性問題調查比例的分層估計法與聯合比估計法進行效率比較。在分層隨機抽樣方法下,敏感屬性比例π 的估計量的方差為:
在聯合比估計方法下,敏感屬性比例π 的估計量的方差為:
當nh較大、比估計有效時,聯合比估計的精度優于分層估計的精度的條件是2ρhCxhCyh->0 ,即ρh>Cxh2Cyh。
基于分層隨機抽樣,運用分層估計法與聯合比估計法對某學校某專業300 名學生某門課程考試的作弊行為進行調查。通過數值分析,估算學生作弊的比例及其方差。根據該門課程的考試成績將300 名學生分為三層,81~100 分為第一層,60~80 分為第二層,60 分以下為第三層。綜合各因素,總樣本量取n=90,按比例確定各層樣本量,層內采用簡單隨機抽樣法。每層運用本文所建立的新模型隨機化裝置:在盒子中按ph和1-ph的比例均勻地放有外形完全相同的兩類卡片a和b。
卡片a:你在考試中有作弊行為嗎?在5次作業中獨立完成的次數是多少?
卡片b:你在考試中無作弊行為嗎?在5次作業中獨立完成的次數是多少?
每個被調查者獨立地從裝有卡片a和b的盒子中進行隨機抽樣,然后根據抽到的問題回答“是”或“否”及獨立完成作業的次數。將每個被調查者未能獨立完成作業的頻率作為輔助變量X。詳見表1。

表1 分層情況與調查數據
在分層隨機抽樣方法下,作弊比例πs的估計值及其方差估計值為:
在聯合比估計方法下,作弊比例πs的估計值及其方差估計值為:
由調查數據的算例可知,當分層合理、各層的樣本量較大時,聯合比估計法的精度優于分層估計法的精度。運用聯合比估計法對敏感屬性比例作估計時,尋找與調查指標相關性較高的輔助變量是調查過程中的難點問題,也是導致兩種方法下方差估計值較接近的主要原因。
分層抽樣是抽樣調查中常用的抽樣方法,在實施過程中的組織管理和數據匯總都比較簡便,若分層合理,則可較大程度地提高估計量的精度。比估計是一種比較復雜的非線性估計法,除了調查指標Y外,還需要可利用的輔助性指標X。若調查指標與輔助指標之間具有較好的正相關性,則會有效提高調查變量的估計精度。因此本文將分層技術與比估計相結合的聯合比估計法應用于敏感問題的隨機化調查中。得出的結論是:若各層的樣本量相對較大,比估計有效,即ρh>Cxh2Cyh,則聯合比估計法的精度優于分層估計法的精度。