黃正棟 江雪龍
(1江蘇省蘇州市統計局、2江蘇省昆山市統計局/1局長、2局長,江蘇蘇州、昆山215004、215300)
抽樣調查和區域調查法比較研究
——昆山市經濟普查資料實證分析
黃正棟1江雪龍2
(1江蘇省蘇州市統計局、2江蘇省昆山市統計局/1局長、2局長,江蘇蘇州、昆山215004、215300)
依照朱震葆研究員提出的“人口密度理論和區域調查方法”,對昆山市第二次經濟普查資料,分別采用抽樣調查和區域調查方法進行實證研究,結論是:區域調查法比抽樣調查法優越。
抽樣調查;區域調查;人口密度
抽樣調查對于不同的調查對象需要建立不同的樣本框,彼此互不兼容,為此需要投入大量的社會成本。即便如此,對于某次抽樣調查,也無法了解和控制抽樣標志以外調查資料的準確程度和偏差。既然如此,朱震葆研究員設想:如果能夠抽取一部分社區(居委會和村委會)作為調查對象(樣本框),使其與該縣(市區)總體社會經濟發展水平相當,來推測全縣(市區)的社會經濟發展水平,來替代一個個不同主題的樣本框,如果能夠實現,即可大大節省調查投入的人力、物力、財力和時間。我們根據其提出的“人口密度理論”和“區域調查方法”,依托第二次經濟普查資料,分別采取抽樣調查和區域調查方法進行測算,以檢驗其理論和方法的有效性和可行性。
人口密度理論是區域調查法的理論基礎,它有一個假設:在一個國家的行政區域內,一個地區的人口密度與社會經濟發展水平正相關。所以抽取的社區人口密度必須與全市(縣、區)人口密度相等或者盡可能接近,這是一個約束條件。為了簡便,本文將城區社區居委會和鄉村村委會統一以“社區”稱之。以下是全市各社區人口密度和行業門類資料。
為了比較抽樣調查和區域調查,分別按照“年末從業人員”、“主營業務收入”和“人口密度”抽取樣本框。
區域調查法與抽樣調查法結果比較(1/4樣本),是按全市300個社區的四分之一對稱等距抽取,是75個社區匯總資料;抽樣調查法與區域調查法比較(1/6樣本),是按全市300個社區的六分之一對稱等距抽取,是50個社區匯總資料(表1)。

昆山市第二次經濟普查資料

昆山市經濟普查區域調查法與抽樣調查法結果比較(1/4樣本)
我們先看區域調查法與抽樣調查法結果比較(1/4樣本)表。每組都是經濟普查最主要的三列數據,即“年末從業人員”、“主營業務收入”和“主營業務成本”。
第一行組是用抽樣調查法,按照主營業務收入為標識排序后,按對稱等距抽取后匯總的數據,可以獲取四組不同的樣本框,其中誤差最小的是第二組(按隨機原則,選中這組的機會只有25%),與第一次經濟普查資料相比,主營業務收入增長率是240.23%,與全市第二次經濟普查結果相比,絕對誤差是-71.12%,相對誤差是-22.84%。
第二行組是用抽樣調查法,按照年末從業人員為標識排序后,按對稱等距抽取后匯總的數據,可以獲取四組不同的樣本框,其中誤差最小的是第三組(按隨機原則,選中這組的機會只有25%),與第一次經濟普查資料相比,年末從業人員增長率是179.34%,與全市第二次經濟普查結果相比,絕對誤差是-7.55%,相對誤差是-4.04%。
第三行組是用區域調查法,按照人口密度為標識排序后,按照對稱等距抽取后匯總的數據,與第一次經濟普查資料相比,年末從業人員增長率是177.47%,與全市第二次經濟普查結果相比絕對誤差是-9.42%,相對誤差是-5.04%。可以看到,比抽樣調查法按照年末從業人員為標識抽取的結果誤差大1個百分點。不過,主營業務收入和主營業務成本比抽樣調查結果誤差要小,尤其是主營業務成本,抽樣調查法相對誤差為-5.94%,而區域調查法為-2.72%,比抽樣調查法小了一半還多。
再看,將抽樣調查法二組作一下比較,分別按照主營業務收入和年末從業人員為標識,抽取的結果大相徑庭,誤差可以高達10倍以上。分析原因,按照年末從業人員為標識抽取的誤差,要比按照主營業務收入為標識抽取的要小許多,因為主營業務收入涉及到企業的核心經濟利益,而年末從業人員不涉及到企業的核心利益,而且核查起來要容易。
由于主營業務收入和主營業務成本數據準確性和可靠性比年末從業人員指標要差,所以,我們以下在作抽樣調查法和區域調查法比較時,就分別以年末從業人員與人口密度為標識(表2)。

昆山市經濟普查抽樣調查法與區域調查法比較(1/6樣本)
這張表是六分之一樣本匯總資料。抽樣調查法是用年末從業人員為標識按照對稱等距抽取,可以獲取六組不同的樣本框,誤差最小的是第四組(按隨機原則,選中這組的機會只有16.67%)。第二次經濟普查年末從業人員數與第一次經濟普查比較,增長率為197.75%,與全市第二次經濟普查結果相比,絕對誤差為10.86%,相對誤差為5.81%。
區域調查法用人口密度為標識抽取六分之一樣本匯總資料,第二次經濟普查年末從業人員數與第一次經濟普查比較,增長率為181.03%,與全市第二次經濟普查結果相比,絕對誤差為-5.86%,相對誤差為-3.14%。二種方法比較,區域調查法誤差為抽樣調查法的54%,將近一半。
需特別說明的是:抽樣調查法是用年末從業人員為標識的,應該在全部調查項目中,誤差是最小的。而區域調查法是用人口密度為標識的,抽取的只是與全市社會經濟發展水平相當的社區樣本框,不涉及到哪一個具體社會經濟指標,它代表的只是社會經濟發展水平與總體(全市)相一致,也就是說,人口密度是廣義的社會經濟指標,用它為標識抽取的社區樣本框,可以為絕大多數的抽樣調查提供樣本框。
區域調查法是隨機抽樣和有意抽樣相結合的一種方法,“有意抽樣有時可以得到比隨機抽樣更有代表性的結果”。1不過,由于我們這次按照人口密度抽取的樣本框,已經包括我市全部17個門類的行業,沒有對一個社區進行調整,因而是一次完全意義上的隨機抽樣,只是抽樣標識用的是人口密度,抽樣對象是社區。所以,隨機抽樣的誤差控制理論和方法,對于我們這次區域調查法完全適用。
為了簡便起見,本文只提供全市和樣本(1/6樣本)的人口密度計算資料。
1.均值
全市X=2363人/平方千米樣本X0=2405人/平方千米
2.極值
全市:最大值=78743人/平方千米最小值=203人/平方千米
樣本:最大值=78743人/平方千米最小值=203人/平方千米
3.中位數
全市=1946人/平方千米樣本=1952人/平方千米
4.標準誤差
全市S=149.5樣本s=34.65
由此可見,用人口密度為標識抽出的樣本波動比全市總體要小,穩定性要高。
5.頻數
組距為5000時,全市和樣本都是16個分組
全市和樣本頻數最大值都在200-5000組,全市=225,樣本=37
組距為1000時,全市和樣本都是79個分組
全市和樣本頻數最大值都在200-1000組,全市=107,樣本=18
組距為100時,全市和樣本都是786個分組
全市和樣本頻數最大值都在500-600組,全市=27,樣本=4
由此可見,隨著分組加密,頻數由二項分布,轉化為左偏正態分布。用人口密度為標識抽出的樣本頻數分布與全市總體頻數分布完全一致。
我們用區間估計概率為95%時,k=1.96
1.抽樣調查法對年末從業人員作區間估計
z 0-k v 3624-1.96*34.6482 3556 2.區域調查法對人口密度作區間估計 x 0-k s 2405-1.96*34.65 2337 二者比較可以看出,用人口密度作為抽樣標識,其穩定性要好于以年末從業人員為抽樣標識的結果。 1.代表性檢驗 以人口密度為標識抽取的樣本框,完全遵照抽樣技術對稱等距隨機抽取,其過程與通常抽樣調查別無二致,其代表性與抽樣技術抽取的樣本沒有任何差別。 同時,由于抽取的樣本包括全市總體全部17個行業門類,從經濟類型代表性上看與總體相同。 2.無偏性檢驗 我們用u檢驗樣本的無偏性。我們假設樣本人口密度發生顯著改變。 由于1.9865小于2.576,所以假設被否定,我們認為樣本與總體沒有顯著差異。 需要說明一下,在社會經濟領域,要滿足E x=X是很難得到滿足的,基本上都是帶有偏差的,“有時某個統計量對待估參數雖然有微小偏誤,但卻有其他顯著優點,仍然可考慮選為估計量”2 3.穩定性檢驗 由于用人口密度抽取的樣本,標準差s=34.65僅為總體S=149.5的九分之二。并且人口密度與其他經濟指標相比,在短時間內變動要小的多。所以,我們用人口密度抽取的樣本框穩定性是有保障的。 4.一致性檢驗 因為我們抽樣過程嚴格遵照抽樣技術的要求進行,所以根據抽樣理論可知,一致性原則通常均能得到滿足。 5.相關性檢驗 用人口密度抽取的樣本,除了應該包括總體(昆山市)全部17個經濟類型(門類)以外,其值分布也必需與總體相關,這樣抽取的樣本才真正具有經濟上的代表性。為此,我們繼續用年末從業人員數進行相關性檢驗。 經計算,得到相關系數r=0.9668>0.606(=1%)。 由此可見,用人口密度抽取的樣本不僅在經濟類型上與總體完全一樣,而且其數值分布上也與總體高度一致,所以其經濟代表性可以得到滿足。 從表1看,抽樣調查法以主營業務收入為標識,按照四分之一抽取樣本,誤差最小的第二組,主營業務收入也高達-22.84%,對于年末從業人員和主營業務成本誤差也高達-12.46%和-22.56%,因此,整群抽樣在此已經失效。 再看,抽樣調查法如果以年末從業人員為標識,按照四分之一抽取樣本,誤差最小的第三組,年末從業人員誤差為-4.04%,主營業務收入和主營業務成本分別為-4.26%和-5.94%。 區域調查法以人口密度為標識,按照四分之一抽取樣本,年末從業人員誤差為-5.04%,比抽樣法大1個百分點,主營業務收入和主營業務成本誤差為-4.04%和-2.72%,則要小于抽樣法。 從表2看,抽樣調查法以年末從業人員為標識,按照六分之一抽取樣本,誤差最小的第四組,年末從業人員誤差為5.81%。 區域調查法以人口密度為標識,按照六分之一抽取樣本,年末從業人員誤差為-3.14%,比抽樣法小了將近2.7個百分點。 由此可見,區域調查法即使不以具體經濟統計指標(比如,這兒的“主營業務收入”和“年末從業人員”)作為標識,同樣可以得到不比抽樣調查法差的樣本框,而且得到的是廣義樣本框。 抽樣調查通常都是多目標調查,現行的國家統計抽樣調查制度近50來個,其中調查項目最少的是“規模以下工業企業抽樣調查制度”,有8項經濟統計指標,即8項目標。操作過程是以“產品銷售收入”作為抽樣調查的標識,同時開展對全部從業人員年末數、工業總產值、成交稅金、所得稅、營業利潤、應付工資和折舊等7項指標的調查。由于至今數學理論上沒有解決在以一個目標作為標識時,同時保證其他調查項目的代表性問題。因而,在用這些非標識指標推算總體時,它們的代表性、準確性、可靠性和可信性都出了問題!所以,抽樣技術在實際應用中,遇到多目標調查時,只對作為標識的主要社會經濟統計指標有代表性,也就是說,目前正在貫徹執行的國家統計抽樣調查制度在理論上存上缺陷。 而區域調查法只以一個“人口密度”社會指標作為標識,對社區(居委會和村委會)進行整群抽樣(我們這次是等群抽樣),是名副其實的單目標抽樣,從而繞過了多目標“代表性泥淖”。 在當前社會經濟發展極其迅速的今天,尤其是對于像我國這樣的發展中大國,社會日新月異,經濟超常發展,還沒有等普查資料整理出來(我國一項大規模普查,資料的整理到發布最少需要一年以上,國外需要2-3年以上),社會經濟狀況已經面目全非,許許多多企業已經消失得無影無蹤,但是它們還存在在我們的樣本框里。即使是直接管理它們的工商局和稅務局,到年末也無法統一它們的企業統計數字。因此,一年前抽樣調查建立起來的樣本框的可靠性存在問題。 相比在非不可知因素(比如,戰爭、大規模災變、大規模疾病流行等)不存在的情況下,人口出生率、人口死亡率和人口流動性在一段時間內比較穩定,從而保證了區域內人口密度的穩定,只要我們行政區劃發生變更時,能夠及時調整,統計口徑上不會產生任何問題。所以,應用人口密度抽取的樣本框,通常只需要逢到人口普查和人口抽樣調查的年份,每5年作一次性重新抽樣即可。 由此可見,人口密度抽取的樣本框穩定性,顯然要高于用經濟指標作為標識抽取的樣本框。 區域調查法是以社區(城鎮居委會和農村村委會合稱)為抽樣對象的整群抽樣。通常以縣(縣級市和城區)為總體,抽樣單位為社區,樣本量,按照昆山市的經驗,占一個縣的六分之一左右適宜,各地也可以根據情況設八分之一或者十二分之一。社區無論是居委會還是村委會通常都設會計一名,會計同時兼統計業務。市縣統計局只需要對這些會計作一些業務培訓,提高他們的榮譽感、使命感、責任心和業務能力,就可以為我們提供很好的服務。由于區域調查法抽中的社區,通常5年才會變更一次,這些會計絕大多數會成為業務熟練的優秀調查員。就我們統計部門來說,不需要再為每項抽樣調查配置調查員了。 根據昆山市這次實例,區域調查法實際上是二階段過程。 第一階段,抽取以社區為調查單位的樣本框。這一階段只需要社區人口和面積二項指標,計算出人口密度。為了使抽中的社區包括全市全部經濟門類,以增加樣本的代表性,在收集社區人口密度的同時,提供社區的經濟門類資料,這次經濟普查已經包括這些資料,這些社區樣本框,每5年調整一次。 第二階段,就是根據每次抽樣調查的項目,由社區提供相應的資料。比如,如果我們需要規模以下服務業的資料,就由這些社區提供相應的規模以下服務業資料,根據這些社區占全市的比重(以這次經濟普查為基年)和增長率,就可以推算出全市總體的數據了。非特殊原因,基年資料每5年調整一次。 區域調查法以縣(市區)為總體、以社區(居委會和村委會)為抽樣對象的,不需要經過街道和鄉鎮一級的直報制度,由此可以減少外界的干預。 (責任編輯:倪進) 10.3969/j.issn.1674-8905.2010.05.021 1《統計大辭典》.鄭家亨主編,中國統計出版社,1995年3月版P 192。 2《實用推斷統計方法》.周銘主編,寧夏人民出版社,P 71。(三)幾項重要的檢驗

四、幾點結論
1.區域調查法可以得到廣義樣本框
2.區域調查法不受多目標代表性問題困擾
3.區域調查法樣本框穩定
4.區域調查法是經濟廉價的調查方法
5.區域調查法是簡便易行的調查方法
6.區域調查法是抗干擾的調查方法