桑小峰 ,凌 亢 ,白先春
(1.南京財經大學 經濟學院統計系,南京 210046;2.南京人口管理干部學院,南京 210042)
在抽樣調查中,調查指標的樣本信息是不可或缺的必用信息。在實際工作中,有時我們常可擁有或獲得與調查指標具有高度正相關性的輔助指標的信息,這類輔助信息盡管不是抽樣調查的必用信息,但對提高估計精度有積極作用,因為輔助信息的使用使總的可用信息量增大了,從而在不擴大調查規模的前提下減小了由抽樣的隨機性帶來的不確定性。盡可能應用一切可利用的相關性輔助信息提高估計精度是抽樣設計必須考慮的一個問題。基于這種考慮的比估計法常被用于抽樣設計,例如將比估計與簡單隨機抽樣、分層隨機抽樣、整群抽樣進行匹配,在一定條件下可大大提高抽樣設計的效率。
設我們關心的主要變量為Y,另一個與Y高度正相關的變量為X,X的總體總值是已知的。在實際抽樣調查中,X這樣的變量稱為輔助變量,一般有以下幾種常見情況:
(1)同一個變量的前一期調查結果,往往隱含著當期與前一期相比變化不會太大的假設;
(2)與主要變量之間整體上存在某種比值關系,即隱含著兩者比值關系的變化不會太大的假設。
定義主要變量的總體均值Y的比率估計量為:

定義主要變量的總體總值Y的比率估計量為:

分層抽樣是將抽樣單元按某種特征或某種規則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本,將各層的樣本結合起來,對總體的目標量進行估計。分層抽樣保證了樣本中包含有各種特征的抽樣單元,樣本的結構與總體的結構比較相近,從而可以有效地提高估計的精度,同時分層抽樣在一定條件下為組織實施調查提供了方便。
將比估計的思想和技術用于分層隨機樣本時,對總體參數的估計有兩種途徑:一種是對每層樣本分別考慮比估計量,然后對各層的比估計量進行加權平均,即“先比,后加權”,這種情形稱為分別比估計;另一種是對比率的分子和分母分別加權計算出總體均值或總體總量的分層估計量,然后用對應的分層估計量來構造比估計,即“先加權,后比”,稱為聯合比估計。本研究在分別運用分別比估計和聯合比估計進行分析的同時,與簡單線性回歸估計進行比較研究。
總體包括江蘇省的106個縣(縣級市、地級市市區),擬對其中的10個縣(縣級市、地級市市區)進行實地人口調查,因此總樣本量n=10。
按江蘇省不同地理位置,將總體劃分為3個層N1、N2和N3,分別對應蘇南、蘇中和蘇北,其中蘇南包括南京、無錫、蘇州、常州、鎮江,蘇中包括南通、揚州、泰州,蘇北包括徐州、連云港、淮安、鹽城、宿遷。
采用比例分配的原則確定各層的樣本量,根據各層的大小N1、N2和N3,在總樣本量的基礎上進一步得到各層樣本量為:n1=4,n2=2,n3=4。
按照隨機抽樣的準則,在各層內隨機地抽取縣(縣級市、地級市市區)進行實地人口調查,最終入選的10個樣本點分別對應為:南京市秦淮區、無錫市崇安區、徐州市鼓樓區、常州市金壇市、蘇州市平江區、南通市港閘區、連云港市灌云縣、淮安市盱眙縣、泰州市姜堰市和宿遷市沭陽縣。對上述10個樣本點進行數據搜集,得表1。其中yhi代表第h層的第i個樣本縣(縣級市、地級市市區)的實際調查人口數,xhi代表該縣(縣級市、地級市市區)登記在冊的人口數。

表1 人口調查樣本數據表
對搜集到的數據進行計算、歸并,整理結果見表2。表中的部分指標解釋如下:h代表層號,Xh為各層年初登記在冊的人口數,s2為方差,r(0<r<1)為相關系數,其中


表2 中間計算結果
sxyh=rhsyhsxh為樣本協方差,用于估計層協方差Sxyh=ρhSyhSxh。
基于上述數據整理的結果,依次采用分層隨機抽樣的簡單線性估計、分別比估計及聯合比估計對總體總值做出估計。
(1)分層隨機抽樣的簡單線性估計

(2)分層隨機抽樣的分別比估計

(3)分層隨機抽樣的聯合比估計

因此,運用三種方法對總體總值進行估計,得到的估計量分別為:簡單線性估計為6601.3938,分別比估計為8061.1297,聯合比估計為7514.4689。
將總體總值的估計結果與調查年度年底登記在冊的人口數進行比較,對以上三種方法的估計精度做出大致的判斷,結果見表3。

表3 誤差分析表
可見,聯合比估計的誤差最小,僅為0.53%;其次是分別比估計,誤差為7.85%;簡單線性估計的精度最差,誤差達到了11.68%。另外從估計量的標準差來看,簡單線性估計也顯著地高于分別比估計和聯合比估計,而分別比估計與聯合比估計的差異不大。因此,在本項研究中,聯合比估計的精度最好,為選取的最優方法。
本文采用分層隨機抽樣方法抽取了江蘇省10個樣本縣(縣級市、地級市市區),然后在樣本區進行實地的人口調查,運用統計方法中的非線性比估計法,充分利用前一年政府的公開統計數字所提供的輔助信息,對總體做出了有效估計。在本項調查研究中,相比簡單線性回歸估計而言,比估計法的誤差更小,估計的精度更高,具有更高的可信度。這為今后基于人口抽樣調查的樣本數據進行總體估計提供了一條新的優化技術路線,即充分利用可以得到的輔助信息,巧妙借助比估計法,提高抽樣調查總體估計的精確性和可靠性。
本項調查研究中,各層的樣本量都不大(4,2,4),結果顯示聯合比估計的精度最高,這也印證了已有的結論:如果各層的樣本量都比較大,同時各層的比率之間差異較大,則分別比估計優于聯合比估計;如果各層的樣本量不大,或者各層的比率之間差異較小,則聯合比估計優于分別比估計。在實際的抽樣調查中,應重視這個理論前提,根據具體情況合理選擇分別比估計或聯合比估計的方法,以提高估計的精度和可靠性。
[1]2005年江蘇省1%人口抽樣調查資料[M].北京:中國統計出版社,2005.
[2]金勇進,杜子芳,蔣妍.抽樣技術[M].北京:中國人民大學出版社,2008.
[3]杜子芳.抽樣技術及其應用[M].北京:清華大學出版社,2005.
[4]馮士雍,倪加勛,鄒國華.抽樣調查理論與方法[M].北京:中國統計出版社,1998.
[5]張勇,金勇進,汪飛星.PPS抽樣設計的比估計及其模擬分析[J].統計教育,2004,(3).
[6]楊芳芳,唐德善,楊娟.比估計法在節水工程節水量計算中的應用[J].水利科技與經濟,2007,(4).
[7]俞純權.二階抽樣下的比估計與回歸估計[J].統計與決策,2006,(1).