李 鋒
(首都經濟貿易大學 統計學院,北京 100070)
調查的最終目的是獲取真實的數據。為了掌握社會經濟方面的信息,政府及其他部門組織的以居民及住戶為調查對象的調查日漸增多,比如消費者信心指數調查等,但是一直沒有建立起完整的居民及住戶抽樣框。常用的住戶抽樣框主要有兩種,一種是以戶籍為標準的戶口抽樣框,戶口抽樣框在人戶分離問題嚴重的背景下失去現實基礎,抽樣框誤差較為嚴重;另一種是以住宅為標準的抽樣框,具體又可以采用入戶派員面訪、(固定)電話調查和郵寄調查,此外,還有以手機、郵箱等為抽樣框的居民調查框。
電話訪問與入戶訪問是僅有的兩種可以實施住戶隨機抽樣的方法。隨著電話普及率不斷增高,而且也迫于大都市入戶訪問成功率越來越低的現狀,面訪已經被計算機輔助電話調查CATI(Computer Assisted Telephone Interviewing System)所取代,傳統的固定電話簿技術已經被計算機隨機撥號RDD(random digit dialing)技術所取代。將區號和電話號碼的前四位(八位號碼)或者前三位(七位號碼)的組合號段作為初級單元,將電話號碼的后四位作為次級單元,每個初級單元包含的次級單元均相等為10000。傳統的計算機隨機撥號設計分兩步:首先隨機抽取一定數量的初級單元,在抽中的號段中再隨機抽取后四位號碼得到完整的電話號碼,最終,在每個抽中的號段中抽取一定數量的住戶為樣本。這種撥號方法實際上是每階段抽樣都是簡單隨機抽樣的二階抽樣,估計量及方差的計算都有現成的公式,但是這種方法有兩個問題,一是樣本中的住戶太少,有很多空號和單位電話;二是無回答在各個號段并不是等比例分布,因此,抽樣過程較為復雜,估計還可能有偏。
Mitofsky和Waksberg提出了一種方法對計算機隨機撥號進行改進,稱為Mitofsky-Waksberg兩階段抽樣法,設計分兩步:第一步首先隨機抽取初級單元,在抽中的號段中再隨機抽取一個后四位號碼得到一個(或多個)電話號碼,如果這個號碼是住宅號碼,則定為一類初級單元PSU,如果這個號碼不是住宅號碼,則放棄這個初級單元(號段)。第二步在每個一類初級單元(號段)中,再抽取k-1個號碼。最終,在每個一類號段中抽取相同數量的住戶為樣本。這種撥號方法實際上是第一階為PPS抽樣(與初級單元規模成比例的不等概率抽樣),第二階為抽取等量單元的簡單隨機抽樣的二階抽樣設計,設總體初級單元(號段)有N個,第i個單元中住戶數為Mi,總的住戶數為M0,從N個單元中抽取n個單元進行調查,在每個抽中的初級單元共抽取m個單元,則總體中第j基本單元(住戶)入樣概率均為P(ij)=P(j|i)P(i)=(m/Mi)(Mi/M0)=m/M0。
因此,Mitofsky-Waksberg兩階段RDD方法理論上估計量及方差都是自加權的,有現成的公式,也可以根據一家多部電話等進行調整。這種方法可以大大提高抽樣單元中的住戶的數量。
調查過程中,合格受訪者因各種因素無法接受訪問,即為無回答,對于任何一種訪問方式,當其目標被訪者的無回答率超過40%①以上時,其隨機樣本的代表性就存在問題。而由于電話詐騙較為猖獗,當前我國計算機隨機撥號訪問的無回答率常常能達到80%左右。直接應用全部樣本數據,對無回答不作任何處理,當成自加權樣本實施推斷,估計量只能代表回答者的情況,估計量很可能出現較大偏倚。
令Yij為總體第i個初級單元中的第j個次級單元的指標值,i=1,2,…,N;j=1,2,…,Mi。yij為樣本中第i個初級單元中第 j個次級單元的指標值,i=1,2,…,n;j=1,2,…,mi。是總體(樣本)初級單元的指標和,是總體(樣本)第i個初級單元指標按次級單元的平均數總體(樣本)按次級單元的平均數;在上述自加權的設計下,假定所有抽中的單元均回答,第i個初級單元內調查單元mi等于回答單元m,則總體總量的估計量:

如果考慮無回答率,假設第i個初級單元中回答率為r1i,無回答率為r0i,則被調查單元回答單元的均值為回答單元的均值為總體總量的估計量:

如果仍然按自加權設計估計,偏差為:

可見,估計的偏倚既受到初級單元的回答率影響,也受到回答者與回答者之間的差異影響,同時差異的結構也影響偏倚的大小。本文簡單地忽略回答者和無回答者的差異,同時也忽略了初級單元回答率的高低和差異。
如果有大量的無回答,就需要調整無回答,常規的處理方法是對每個初級單元內的無回答群體實施調查,然后加權得到每個初級單元內的估計量,即用二重抽樣法進行估計。由于無回答在各個號段之間并不是等比例分布,加權之后各個號段(初級單元)中的調查單元不是相同的,這樣Mitofsky-Waksberg兩階段RDD方法得到的估計量實際上不再是自加權的。由于第一階抽樣是PPS抽樣,第二階是二重分層抽樣,抽樣過程較為復雜,方差估計需要在每一個初級單元內部根據二重分層抽樣的方法計算方差,再計算二階抽樣的方差估計,十分復雜。
隨機組法就是從總體中抽取k個(k≥2)的樣本(通常每個樣本是一樣的抽樣設計),對每一個樣本分別構造所感興趣的總體參數θ(如總體均值)的一個估計量,α=1,2,…,k。如果這些估計量互不相關而且有共同的數學期望μ,這樣總體參數θ的全樣本估計量θ定義為:


如果數學期望μ=總體參數θ,則估計量是無偏估計。
實際操作中,通常是將全部樣本劃分成R組,每一組都遵循同樣的設計,這種偽隨機在總體單元遠大于樣本量時,可以視為獨立復制。如果直接在初級單元內設計隨機組,容易破壞群結構,為了不破壞群結構,并且能夠通過盡量多地保留原始數據的信息,本文建議采取分層抽樣的方式隨機撥號基礎上的隨機組法。具體方式如下:
一是將全部號段分層,如將號段分為直轄市城市住戶、直轄市農村住戶、東部住戶、中部住戶、西部住戶等。
二是在每層內實施Mitofsky-Waksberg兩階段抽樣法,在每個層內抽取k個一類初級單元PSU(號段),在每個號段內抽取到同等數量的回答者。
三是對每個號段內的無回答者實施簡單隨機抽樣,在每個號段內抽取到同等數量的無回答者。
四是在各個層內采取隨機組號分配的方式,構造k個隨機組。在第一層中,第一個號段分派一個1到k之間的隨機數,例如分派數為k-1,就分到第k-1個隨機組,則第二個號段分配數為k,第三個號段分配數為1,以此類推。
五是用隨機組法得到整體的估計量及方差,也可以得到每一層的估計量。
通過這種方法能夠構造出抽樣設計完全相同的k個隨機組,得到的總體參數(均值、總量等)的估計量以及估計量方差的無偏估計量。
兩階段RDD方法電話調查模擬數據隨機組構造如表1所示。

表1 兩階段RDD方法電話調查模擬數據隨機組構造
計算機輔助電話調查已經成為我國對住戶實施抽樣調查的主要方式,Mitofsky-Waksberg兩階段抽樣法雖然提高了撥到住戶的比例,但在無回答廣泛存在的情形下,估計量不再是自加權的,而且可能有偏。本文認為應該對無回答者實施抽樣,加權得到每一個初級單元的估計量,通過結合分層技術,可以得到隨機組下的無偏估計量,并且能夠得到方差估計。此外,我國移動電話普及率逐年上升,在解決隨機撥號電話調查無回答的問題之后,應該大力發展移動電話調查。