呂 萍
抽樣調查作為一種獲取統計資料的重要手段,日益受到政府各部門、企業、學術界和社會公眾的重視。由于中國各級政府都要管經濟,各級行政長官都關心本地區的經濟,都需要掌握有關統計數據,出現了如何滿足多層次調查的需要,也就是多層次抽樣調查的問題。此處的層次包含在抽樣設計中的為了提高抽樣效率利用輔助信息分的層,也包含行政設置中的省市、區縣、村居等的自然層,也稱為域,分層次調查問題是總體和各個層次(也稱為域、子總體)都需要估計的問題。尤其是大型的抽樣調查,例如中國科學素養調查、中國婦女的社會地位等大型綜合調查都需要在對全國的目標變量進行估計的基礎上也對各省(層次)的目標變量進行估計。
解決分層次調查問題的方法主要有直接估計方法和間接估計方法。其中直接估計方法主要有層層抽樣的方法、ABC法[1]、樣本追加法[2]。其中,層層抽樣和ABC三級[1]一套的樣本設計是一種自下而上的抽樣思路,簡單直接,但由于需要對所有的縣都進行調查,經費龐大從而違背了抽樣調查的經濟性的優勢,而且各個縣的工作效率以及調查和估計很難統一等缺點,在實際應用中有很大的局限性。樣本追加方法是一種自下而上抽樣設計思路,是由馮世雍與秦懷振[3]于2002年提出的一種分層次抽樣設計方法,是在滿足上一級目標變量估計精度需要的基礎上用樣本追加的方法來滿足下一級尤其是省級目標變量估計精度的需要。間接估計方法是充分挖掘已有的樣本信息,充分利用間接信息和數據改進各個層次的目標變量的估計量,與傳統數理統計中的時間序列、回歸模型、貝葉斯統計等方法得到各個層次的目標變量的有效估計量。
在實踐中主要有兩種多層次調查問題。第一,總體和各層次的調查不同時進行,即總體調查在前,省級調查在后。第二,總體與省級調查總體的調查同時進行。從抽樣設計的角度,有兩種解決上述分層次調查問題的樣本追加方法,一種是用馮世雍與秦懷振于2002年提出的樣本追加方法,一種是利用永久隨機數的方法來進行樣本追加。
樣本追加方法的基本思想是按照某種特定的概率抽樣方法,從總體中抽取樣本對總體的目標變量進行估計。但對于其中的某些層或域,由于落入該層的樣本單元不能保證對該層或域的目標量推斷的需要,即落入其中的樣本對該層或域沒有代表性,此時在該層內按照某種抽樣方法追加部分樣本單元與原來落入該層或域的樣本(主體樣本)組成復合樣本來對該層的目標量進行推斷,通過樣本追加滿足來下一層目標量估計的需要,兩級樣本相互兼容,同時利用這些追加的樣本還可以進一步提高總體目標量的估計精度。
這種方法的優勢主要體現在:(1)樣本追加可以很好地實現多級樣本的兼容,以提高樣本的使用效率,節約調查成本;(2)樣本追加避免各個層都要抽樣帶來的人力物力財力的浪費,只在有推斷要求的層追加樣本。(3)樣本追加可以進一步提高上級目標變量的估計精度。
多層次調查中的樣本追加將抽樣設計分為主體設計,追加設計和終極設計。為確保總體推斷的可靠性而制定的抽樣設計稱為主體設計,為確保對某種層推斷的可靠性而為需要追加層制定的抽樣設計稱為域追加設計。主體設計和追加設計連同實施方案一起的抽樣設計稱為終極設計。
當總體的抽樣設計與層的追加設計獨立進行、獨立實施,利用終極樣本對總體以及需要估計的層(層)的目標變量進行估計的樣本追加方法稱為獨立樣本追加方法。在實施主體設計的基礎上在層進行樣本追加,對總體以及層的目標變量的估計稱為條件樣本追加。不管是獨立追加設計還是條件追加設計,其基本的設計思想是根據主體的抽樣設計和層的樣本追加設計分別構造總體和層的參數估計并選擇合適的方差估計方法;然后構造總體和層參數的估計類,在類內選擇最優偽估計,構造漸進局部最優估計,從而得到層的目標變量的最優估計量。
在實際調查中,獨立樣本追加是易于操作的樣本追加方法,只需將主體設計和層的追加設計按照各自的抽樣方案獨立設計、獨立進行、獨立設施,相當于做了兩次獨立的抽樣調查,然后利用極小化方差的思想,在主體設計與追加設計都可測并滿足最小方差的前提下,基于主體樣本和追加樣本分別構造總體的目標變量的H-T估計量及其方差估計量,最后利用極小方差的方法在層的線性無偏類中找到目標變量的最優估計量。以總量估計為例,利用總體總量Y的H-T估計Y?π和層的總量YD的H-T估計Y?Dπ及其方差估計量,層追加樣本的總量估計量Y?+Dπ及其方差的無偏估計量;然后通過極小化方差的方法在YD的線性無偏類 {Y?D(θ)=θY?Dπ+(1-θ)Y?Dπ+;θ∈R}里找到局部最優偽估計;最后通過估計其方差里的未知系數來構造層總量的漸進局部最優估計。
由上得到


得到獨立追加在追加設計可測的情況下,層的估計量Y?D(θ)的最有方差估計量是

可以驗證當 Cov(θ?opt,Y?Dπ-Y?Dπ+)→ 0 時,Y?Dopt是YD的漸進無偏估計量。
利用獨立樣本追加設計還可以對總體的估計量進行改進,設C=UD為剩余層,則剩余層YC=Y-YD的基于主體設計的目標變量的H-T估計量Y?Cπ=Y?π-Y?Dπ,可以得到終極設計下的總體總量 Y 的估計 Y?bet(θ?opt)=Y?Cπ+Y?opt,可以驗證Y的H-T估計量和最優方差加權估計量 Y?(θ?opt)都是無偏的。由此,構造總量Y?π的無偏估計類Y? ={Y?(α|θopt)= αYπ+(1- α)Y?bet(θ?opt),α ∈ R},利用極小化方差V(α|θopt)求得最優點 αopt(θopt),可得出

由此得到Y?π的最優估計量是 αoptYπ+(1-αopt)Y?bet(θ?opt)。
上述樣本追加方法都需要進行二次抽樣,有時會導致樣本單元的過量抽取和使用,利用永久隨機數技術可以有效處理樣本追加問題。永久隨機數技術,即抽樣框中的每個單元都被賦予從區間(0,1)產生的隨機數,永久隨機數和這個單元同時產生,同時改變,同時消亡。永久隨機數技術實施起來非常方便,可以有效地解決多目標、分層次、與規模成比例的不等概抽樣調查以及實現連續調查中的樣本輪換等問題。將永久隨機數技術和樣本追加方法結合起來,可以有效地解決分層次調查中的樣本兼容問題,方便的實現樣本追加,使抽到的樣本對總體有更好的代表性。抽樣方法按照樣本量是否固定分為兩類,隨機樣本量和固定樣本量的抽樣方法。隨機樣本量的抽樣方法有Poisson抽樣、Bernoulli抽樣、配置抽樣、PoMix抽樣和Mpps抽樣,其中以Poisson抽樣為代表。固定樣本量的抽樣方法有序貫Srswor抽樣、序貫Poisson抽樣、Pareto抽樣和序貫PoMix抽樣,其中以序貫Poisson抽樣為代表。
利用永久隨機數抽樣技術可以方便地解決實際調查中存在的總體與層調查同時進行以及總體調查與層調查不同時進行的分層次抽樣調查。
利用永久隨機數法的分層次調查是對總體中每一個單位賦予永久隨機數,確定樣本的排列順序,使各層次的樣本能有較高的兼容共享性,也避免了二次抽樣和樣本重復抽樣的情況。針對分層次調查中總體和層同時抽樣的情況,即其中層與總體同時進行調查,此時只需對層進行調查,總體樣本的數據也就能夠從層中獲得。此處我們利用永久隨機數抽樣法中隨機樣本量的Poisson抽樣方法或固定樣本量的序貫Poisson抽樣方法來處理,因為Poisson抽樣法是一種與規模成比例的不等概抽樣方法,更符合實踐中復雜抽樣的設計。其中Poisson抽樣法由于樣本量的隨機性,最終實現的樣本量與期望的樣本量有一定的差異,可以通過永久隨機數的修勻來減少隨機樣本量的變動情況。下面介紹總體與層調查同時進行的兩階段分層次調查。
將總體的每一個單元賦予永久隨機數,并將總體U劃分為M個層,其中若干個層和總體同時進行估計,不失一般性,假設U1,U2,...Ur和U同時調查,總體的樣本容量為n。
(1)當r=M時,即所有的層都與總體同時調查,利用永久隨機數法,只需要對U1,U2,...Ur進行調查即可,因此首先在U1,U2,...Ur中分別利用永久隨機數得到U1,U2,...Ur各自的樣本,由永久隨機數法的性質可知總體的樣本一定在U1,U2,...Ur樣本的并集中,此時只需在U1,U2,...Ur樣本的并集中,按照總體樣本的排列順序選定前n個單元就可,因此無需再抽樣就可以完成總體和各層的抽樣。
(2)當r<M 時,將U 劃分為兩個子集U(1)和U(2),樣本量分別為n1和n2。
在(2)中,若事先已知總體U 的兩個子集U(1)和U(2)的樣本量為n1和n2,則由永久隨機數的性質,則兩部分的樣本之和即為總體中隨機數最小的n個永久隨機數對應的單元,為總體的樣本。若事先不知道總體U的兩個子集U(1)和U(2)的樣本量為n1和n2,則首先按照(1)的方法在U(1)中選取永久隨機數最小的n個單元作為總體U的樣本,然后與U(2)中的單元的永久隨機數進行比較,如果對應的永久隨機數小于U(1)中的n個樣本單元對應的永久隨機數,則將Ui(2)迭代進入樣本,將U(1)中的最大的那個隨機數迭代出來,以此方式迭代下去,即得到總體U的n個樣本單元。
多階段的分層次抽樣其方法是類似的,只考慮需要估計的層和其下的一個層次,視為兩階段的分層次抽樣調查即可。
當總體調查與層調查不同時進行時,同樣對總體中的每一個單元賦予永久隨機數,具體實施思路如下,仍以兩階段的分層次調查為例。假設第一次對總體進行調查時此層的樣本量為n1,由于此樣本對于該層缺乏代表性,所以需要進行第二次抽樣調查,即對該層進行樣本追加,若追加的樣本量為n2,利用永久隨機數方法只需在選擇n1個永久隨機數對應的樣本的基礎上再選擇n2最小永久隨機數對應的樣本單位即可,大于兩層的多層次調查的方法類似。
通過上述分析,可以看到永久隨機數方法有效地解決了各個層次的調查的樣本兼容問題,很好地解決了多層次調查的樣本的抽取問題,但是從抽樣框中抽取樣本不是抽樣調查的目標,而是如何有效地對總體進行有一定精度的估計。
分層次抽樣調查中的永久隨機數抽樣方法,一般是Poisson或序貫Poisson抽樣方法。此處我們應用在Poisson抽樣中利用廣義回歸估計量計算目標變量的無偏估計量,得到層的估計量是

運用復雜方差的棄一的Jackknife方差估計方法,得到方法估計量

其中
隨機組的劃分是Jackknife方法的關鍵,隨機組的具體劃分要取決于調查的具體抽樣設計。
文章主要針對實際調查中的分層次調查問題展開討論,現在許多大型的調查都需要在對總體的目標變量進行估計的基礎對各個層次也進行有效的估計。本文主要介紹了馮世雍與秦懷振的樣本追加方法和利用永久隨機數的樣本追加方法。
[1]秦懷振.抽樣調查中若干理論與實踐問題的研究[M].北京:中國統計出版社,2003.
[2]Rao,J.N.K.Small Area Estimation[M].New York:Wiley,2003.
[3]馮士雍.中國抽樣調查應用中的若干問題[J].中國統計,2001,(11).
[4]林才生.分層次復合pps抽樣設計[J].統計與決策,2006,(13)