胡桂華,陳新華
(廣西財經學院 數統系,廣西 南寧 530003)
新西蘭人口普查的事后計數調查
胡桂華,陳新華
(廣西財經學院 數統系,廣西 南寧 530003)
新西蘭國家統計局進行人口普查事后計數調查的主要目的是估計人口普查涵蓋誤差,即普查中遺漏或錯誤計數人口數。事后計數調查樣本采取差別比例方式抽取。對抽取的單位使用問卷采集家庭和個人信息。對收集的信息進行比較。利用比較結果和抽樣權數,使用線性估計量對實際人口數目進行估計。估計的涵蓋誤差指標有普查凈遺漏率、凈遺漏人口數、不同性別、年齡、種族和地區的凈遺漏率,以及普查住宅遺漏和普查無答復率。
新西蘭;人口普查;事后計數調查;涵蓋誤差估計
新西蘭第一次人口普查(為敘述方便,后面一律稱普查)是在1851年。從1886年起,每隔5年進行一次普查。2006年是最近的一次普查。
在1996年前,新西蘭統計局只是使用事后計數調查結果來評估普查登記質量,而沒有用它來估計普查覆蓋范圍。1996年,新西蘭進行了它的第一次正式的事后計數調查。為避免普查員和事后計數調查員在現場相互干擾彼此的工作,這次事后計數調查在普查結束后才開始。2001年事后計數調查在普查后兩個星期實施。2006年事后計數調查在普查后一個星期進行。
2006年事后計數調查為私人住宅抽樣調查。其主要目標是提供普查覆蓋范圍完整性的信息,也就是說,估計有多少新西蘭居民在普查中被遺漏或被計數超過1次。樣本分三步抽取,最終抽取了1011個基本抽樣單位,共約含10900個私人住宅(占新西蘭所有永久性私人住宅總數的0.7%)。樣本抽出后,使用問卷采集事后計數調查數據,答復率為84%。對收集的數據在同一樣本單位內進行家庭或個人記錄比較。比較的目的是確定事后計數調查的回答者是否計數在某個地址或某個可能地址的普查表中,即是否在普查中被遺漏。使用比較的數據來估計普查個人或私人住宅的覆蓋范圍。
相比美國、瑞士和烏克蘭,新西蘭事后計數調查的一個顯著特點是沒有使用基于捕獲-再捕獲模型的雙系統估計量估計全國實際人口數,而是使用線性估計量估計。該估計量的斜率是普查中應該被計數的人口數的估計值與實際在普查中被計數人口數的估計值之比。這兩個估計值均是依據樣本人口數與抽樣權數計算的。截距是整個家庭被估算的普查人口數。自變量是全國實際普查人口數。
2006年事后計數調查抽樣總體由新西蘭私人住宅的常住居民和事后計數調查期間停留在新西蘭私人住宅里的個人組成。在事后計數調查期間居住在新西蘭私人住宅的海外訪問者和普查晚上在新西蘭某個地方的人也被包括其中。抽樣總體包括海外訪問者的目的是為了確定普查和事后計數調查間他們究竟是新西蘭國內居民還是海外訪問者。由于實際的原因,非私人住宅、其他私人住宅和遙遠地區的住宅被剔除抽樣總體。與國際統計慣例一致,抽樣總體不包括居住或停留在非私人住宅的人口、居住在其他私人住宅(廟宇、有篷的車輛、游艇)的人口、普查晚前死亡的人口、普查晚后出生的人口、海外的外交官、他們的家庭和與他們住在一起的人口和外圍島人口(外河科島除外)。
新西蘭區域抽樣框由41392個街區組成(城市街區通常是一大片居民區,每個街區一般含40個住宅;鄉村街區通常覆蓋一個更為寬廣的地區)。為便于抽樣,將全國所有街區合并為20394個基本抽樣單位。為提高抽樣效率,將這些基本抽樣單位分在119層。分層依據為地區、城鄉、種族和其他社會-經濟變量(收入、就業狀態、65歲及以上人口)。每層平均含160個基本抽樣單位。每個基本抽樣單位平均含私人住宅60個。
在這119層,隨機抽取1768個基本抽樣單位。從這抽取的1768個基本抽樣單位中抽取1011個基本抽樣單位。抽取的方法是:從毛利人、太平洋島嶼人和亞洲人都很多的層中抽取100%的基本抽樣單位;從或毛利人多或太平洋島嶼人多或亞洲人多的層中抽取5/8基本抽樣單位;從其他的南島嶼層中抽取1/2的基本抽樣單位;從其余的層中抽取3/8的基本抽樣單位。
將1011個基本抽樣單位中的每一個分為6-7個小組,每個小組包括大約10個私人住宅。這些小組均被抽取,它們共含10900個住宅。
普查工作結束后,新西蘭統計局組織事后計數調查。為了便于居民回憶普查日前后發生的事情,事后計數調查日應該盡可能靠近普查日。使用問卷采集抽取的基本抽樣單位的每一個私人住宅及其中的人口。如果居民不在家,由其鄰居代替回答。對無法調查的住宅或信息不完整的住宅,進行后續調查(電話方式)采集額外信息。2006年事后計數調查答復率為84%。這里的答復率定義為樣本中至少有一人回答了所有事后計數調查問題的住宅數目占樣本住宅總數目的比值。總共有24900人答復了事后計數調查。
事后計數調查問卷包括的調查項目有姓名、性別、出生日期或年齡、種族或民族及地址。除了常住地址和普查日晚上的地址外,事后計數調查也收集某人可能包括在其他地方普查表的地址信息。這有助于確定多個普查計數。
為了實現事后計數調查目標,采集數據要與普查獨立。為了確保獨立,事后計數調查應該做到:不使用普查工作人員;在普查大部分現場工作結束后再進行事后計數調查;使用事后計數調查員從住宅居住者采集信息,而普查通過個人填寫普查表。
比較的目的是確定事后計數調查回答者是否計數在某個或某些地址的普查表中。這通過比較事后計數調查回答者提供的信息與普查表上給出的信息來實現。如果普查表上給出的地址不同于事后計數調查表所有的地址,那就要設法在樣本基本抽樣單位的周圍區域進行搜索,看事后計數調查表中是否存在與普查表中相同的那個地址。
比較采取手工方式,對比事后計數調查問卷與普查文件圖像。首先是比較住宅,如果事后計數調查表中的住宅在普查表中無法找到,就認為該住宅在普查中被遺漏。住宅比較的結果有三種:匹配住宅(事后計數調查表和普查表同時出現的住宅);未匹配住宅和比較狀態懸而未決住宅
對匹配的住宅,下一步是比較其中的個人。用于個人比較的變量包括姓名、出生日期或年齡、性別、民族、常住居民還是訪問者、家庭結構和關系。個人比較后的結果也有三種:匹配者;未匹配者和比較狀態懸而未決者。
在進行個人比較時,要注意變量的可變性。例如,一個婦女可能在普查和事后計數調查之間結婚,并且把她少女時的姓改為婚后隨其丈夫的姓,因此她普查表中的姓就與她在事后計數調查問卷中的姓就不匹配,但所有其他的數據都是一樣的(第一個名字、性別、出生日期和民族)。在這樣的情況下,認為這個婦女為匹配者是合乎道理的。
個人比較的基本原則是,除非有明顯的證據證實某人沒有在普查中計數,否則應該把他們當做是計數在了普查中的某個地址上。為了確保未匹配者數目由于不精確的比較而被過分夸大,堅持這個基本原則是極其重要的。

其中
X=使用PES抽樣權數估計的全國實際人口數
x=使用PES抽樣權數估計的應該在普查中被計數的人口數
y=使用PES抽樣權數估計的實際普查人口數
Y=普查實際人口數
S=未返回普查表但有足夠證據證實家庭實際存在的普查人口數
注意,并非所有回答了事后計數調查問題的人都有資格包括在估計模型中。沒有資格的回答者的例子包括普查日晚上后出生的嬰兒、海外的來訪者、在普查中提供不足搜索地址信息的人。
人口普查凈遺漏是使用PES抽樣權數估計的全國實際人口數與實際普查人口數目的差異。
4.2.1 住宅設計權數(Design Weight,簡稱DW)。每一個抽取的住宅和這個住宅中的個人都有一個初始的基于住宅抽樣概率的權數。第h層第i基本抽樣單位第j住宅的抽樣權數為

其中,Whi=第h層所有基本抽樣單位私人住宅數目/從第h層抽取的基本抽樣單位的私人住宅數目 (等概率抽樣),Khij=第h層第i基本抽樣單位私人住宅數目/從第h層第i基本抽樣單位抽取的住宅數目(等概率抽樣)。
4.2.2 修正住宅權數(Housing Weight,簡稱HW)。對住宅設計權數進行修正,目的是提高住宅遺漏估計值的精度。修正時要考慮到某種住宅更可能比其他住宅在事后計數調查中被遺漏。
基本抽樣單位中每個住宅被事后計數調查遺漏的概率大小是不一樣的,那么對住宅設計權數進行修正就是必要的。通過事后分層,把被事后計數調查遺漏概率相同的放在一層,其他的放在另一層。分別在每個事后層內計算住宅的抽樣權數。第g事后層第h層第i基本抽樣單位第j住宅修正權數為

其中,PFSg為第g事后層第j住宅修正因子,為第g事后層私人住宅數目/第g事后層所有事后計數調查私人住宅設計權數的和。
4.2.3 個人權數(Person Weight,簡稱PW)。個人最終權數用來提高個人遺漏估計值的精度,要考慮到某類人比其他類人更能夠答復被事后計數調查。
同一家庭內部,不同年齡、性別、地區的人被事后計數調查遺漏的概率是不一樣的,這就需要在住宅權數的基礎上對不同人使用不同的抽樣權數。第g事后層第h層第i基本抽樣單位第j住宅第K人最終抽樣權數為

其中,WAghijk為權數修正,按年齡、性別、地區、種族分別確定。
依據事后計數調查得到的凈遺漏容易受到抽樣誤差和非抽樣誤差的影響。由于事后計數調查只是包括了總體中的部分住宅樣本,所以從其得到的估計值將不同于依據所有住宅得到的數字。抽樣誤差是反映依據事后計數調查得到的估計值由于只是包括了住宅樣本而可能帶來的隨機變化。
由于樣本量有限,所以提供總體中各個不同類別的凈遺漏估計值只是一種可能。有些估計值有比較大的抽樣誤差,使用時要特別小心。一般地說,全國范圍下的子總體(地區和民族)的估計值的抽樣誤差比全國估計值的抽樣誤差要大一些。
由于抽樣可變性帶來的不準確性是抽樣誤差獨有的問題。事后計數調查中的非抽樣誤差源于各種不同的來源,例如,無答復、回答者報告信息的不完整性、數據收集和數據處理。非抽樣誤差的影響可以通過精心設計事后計數調查表格、訓練和監督調查員,有效地操作來減少。當比較遺漏估計值時,要考慮到抽樣誤差和非抽樣誤差的規模。
事后計數調查與普查之間的獨立性要求并不總是成立的(在普查中遺漏的人很可能在事后計數調查中遺漏),這導致非抽樣誤差。當一個在普查中被遺漏的人有更大可能性被事后計數調查遺漏時,就是獨立性不滿足的情形。
在2006年事后計數調查前,抽樣誤差是使用近似分析公式計算的。權數修正方法的變化,以及新西蘭統計局計算抽樣誤差的標準化,導致2006年事后計數調查抽樣誤差將使用重復抽樣技術來計算。本質上看,重復抽樣是一個從事后計數調查樣本抽取多個子樣本的過程。依據這些子樣本中的每一個計算遺漏估計值和根據子樣本估計值的變化來計算所有樣本的抽樣方差。
新西蘭2006年事后計數調查除提供總的結果外,還分別提供了按年齡、性別、種族和地區分類的結果。
表1列示了新西蘭2006年和2001年事后計數調查結果。
從表1可以看出,相比2001年普查,新西蘭2006年普查凈遺漏率下降了0.2%(=2.0%-2.2%)。這表明新西蘭公眾參與普查的積極性提高了,自覺支持普查局的工作。2006年普查凈遺漏81000人是遺漏的192000人被多計的11000人抵消的結果。凈遺漏率2.0%是遺漏率2.2%與多計率0.2%的差。2001年普查凈遺漏85000人,凈遺漏率為2.2%。
2006年普查人口數為4030千人,但事后計數調查估計的普查標準時點的人口數為4111千人(4030+81)。
2006年事后計數調查提供的普查凈遺漏率為2%的抽樣絕對誤差率為0.4%,因此有95.45%的概率保證總體凈遺漏率在1.6%到2.4%之間。注意,這里沒有考慮非抽樣誤差。2001年抽樣絕對誤差率為0.3%,真實凈遺漏率在1.9%到2.5%之間。從全國范圍來看,2006和2001凈遺漏率沒有顯著性差異。
在普查中,有些家庭或個人遺漏,沒有回答普查提出的問題。也有些家庭沒有返回普查表,但有證據顯示這些家庭是實際存在的。普查局為這樣的家庭設計了專門的普查表,即替換普查表。
普查數應該包括遺漏的家庭及其個人和替換普查表。新西蘭2006,2001,1996年普查無答復率分別是5.2%,5.0%和4.4%。2006年凈遺漏比2001年稍微下降,原因之一是被替換普查表抵消的結果。
由于普查數據具有重大意義,所以許多國家通過事后計數調查估計他們國家人口普查的覆蓋范圍。澳大利亞、美國、加拿大和英國使用事后計數調查評估普查質量。
新西蘭、加拿大、澳大利亞、英格蘭和威爾士2001年普查凈遺漏率分別為2.2%、3%、1.8%和6.1%。這些國家在年齡、性別、少數民族等凈遺漏率也存在差異。
值得注意的是,國際比較應該謹慎,因為樣本量、計數方法和慣例、抽樣和非抽樣誤差等都有不同。
在新西蘭,不同年齡、不同性別、不同民族和不同地區的凈遺漏率差異是明顯的。有些子總體比其他子總體在普查中更容易被遺漏。
2006年新西蘭普查男性和女性的凈遺漏率分別是2.1%和1.8%。在2001年普查中,男性和女性的凈遺漏率分別是2.6%和1.9%。如果給定抽樣絕對誤差,那么2006年男性凈遺漏率的范圍在1.6%到2.6%,女性凈遺漏率的范圍在1.2%到2.4%。
其他國家的研究也表明,男性比女性更容易在普查中遺漏。例如,2001年澳大利亞,男性和女性凈遺漏率分別是2.2%和1.4%。加拿大2001年普查男性和女性凈遺漏率分別是4%和2%。
如果樣本總量小,人口統計分析專家在按年齡和其他人口統計特征分析事后計數調查結果時就會很困難,因為抽樣誤差很大。為了分析,年齡數據不得不整合為四類:0-14歲;15-29歲;30-44歲;45歲及以上。

表1 新西蘭兩次事后計數調查結果
不同年齡的遺漏率差異比不同性別的遺漏率差異更顯著。根據2001年經驗,新西蘭年輕成年人(15-29歲)屬于流動人口,有很大的被普查遺漏風險,被確定為2006年普查計數的重點年齡組。年輕成年人的抽樣誤差最大,為1.6%,其他年齡組的抽樣誤差只有0.5%-0.6%。15-29歲年齡組真實凈遺漏率區間為2.5%到5.7%。2006年0-14歲組的凈遺漏率為1.6%,明顯低于2001年的2.7%。2006年30-44歲組和45歲上組凈遺漏率比較低,分別為1.3%和1.4%。
不同民族的普查遺漏是有很大差異的,尤其是少數民族,被計數的情況比較差。在澳大利亞2001年事后計數調查中,本土澳大利亞人比非本土澳大利亞人的凈遺漏率大。在2000年美國,全國凈遺漏率0.5%,但黑人30-49歲男性凈遺漏率超過了8%。
在新西蘭,2001年事后計數調查發現,毛利人和太平洋島嶼人比少數民族歐洲人凈遺漏率高,分別是4.4%,5.2%,1.7%。因此,新西蘭2006普查要設法找到毛利人、太平洋島嶼人、少數民族和年輕人群,更主要是關注奧克蘭地區,因為這個地區集中了這些難以計數的民族或種族。在毛利人和太平洋島嶼人群,組織定期聯絡,說服年輕人參加普查,是解決這類人群難以普查計數的好辦法。
歐洲少數民族、毛利人和太平洋島嶼人,2006年凈遺漏率明顯減少。亞裔人2006年比2001年凈遺漏率最高,達5.2%,隨后是毛利人的3.1%和太平洋島人的2.3%。歐洲人占整個新西蘭人口的2/3,其2006年普查凈遺漏率是最低的,為1.4%。
2006年亞裔人凈遺漏率估計值的抽樣誤差最大,為3.2%,凈遺漏區間為1.8%-8.6%。歐洲人抽樣誤差為0.4%,凈遺漏率區間為1%-1.8%。
民族凈遺漏率差異部分源于這些組之間年齡結構的差異。毛利人、太平洋島嶼人和亞裔人有更多的年輕人口。30歲下的亞裔人集中在15-29歲組,占整個亞裔人口的1/3。
除了年齡和民族外,住處所在的地區也是影響普查范圍的一個決定性因素。海外研究表明,地區之間和同一地區不同地方之間的凈遺漏率差異是很明顯的。澳大利亞2001年各州凈遺漏率在1%和4%之間;而同一州內,首都地區比非首都地區的計數好很多。
2006年普查北方的北方島(由奧克蘭、北部地帶、外卡多、帕冷提海灣組成)的凈遺漏率超過了所有新西蘭居民凈遺漏率的一半以上,為2.4%,超過了全國的2%。南方的北部島的凈遺漏率只有1.3%。2001年普查北方的北方島和南方的北部島的凈遺漏率分別是2.7%和2.2%。南方島是唯一的2006年比2001年普查凈遺漏率有所增加的地區,分別是1.8%和1.3%。北方的北方島凈遺漏率高的原因是這個群體的年齡和種族結構的差異。一半以上的毛利人和3/4的亞裔人和太平洋島人居住在這里,而歐洲人居住在這里的少于一半。北方的北方島年齡在30歲下的人口數比例也比較高。
新西蘭2006年、2001年和1996年遺漏的永久性私人住宅分別是6300個,2400個,6000個;凈遺漏率分別為0.4%,0.2%和0.5%。2006年永久性私人住宅的抽樣誤差是0.2%,私人住宅凈遺漏率置信區間為0.2%到0.6%。
與2001年相比較,新西蘭2006年普查凈遺漏率由2.2%降低為2.0%,凈遺漏人口數由85000人減為81000人??傮w實際凈遺漏率2006年和2001年區間分別為1.6%-2.4%和1.9%-2.5%。
由于新西蘭統計局進行了其他的家庭調查。這使得普通公眾不那么愿意參加普查并提供信息,這增加了普查計數的困難。表現在遺漏和多計人口、建立了普查替換表和逾期普查表。2001年和2006年難以計數的普查表分別占7.2%和9.3%。1996,2001和2006年普查無答復率分別是4.4%,5.0%,5.2%。
1996,2001和2006子總體估計的凈遺漏率是一致的。女性比男性計數好。老年比青年計數好。少數民族歐洲人比亞裔人、毛利人和太平洋島人計數好。
事后計數調查是檢查普查結果和過程的一種方法。2001年事后計數調查結果用來制訂2006年事后計數調查計劃,同樣2006年結果用來幫助新西蘭統計局制訂2011年普查新方法。需要繼續改進年輕人和少數民族人口的普查計數方法,這兩類人口比其他人口增長的速度快許多。
[1]Dtz New Zealand.Census 2006 and Housing in New Zealand[R].Centre for Housing Research,Aotearoa New Zealand and Building Research,2007,8.
[2]Statistics Canada.Coverage:1991 Census Technocial Reports Series[R].Minister of Industry,Science and Technology,1994.
[3]Statistics Canada.Coverage:1996 Census Technocial Reports Series[R].Minister of Industry,Science and Technology,1999.
[4]Statistics Canada.Coverage:2001 Census Technocial Reports Series[R].Minister of Industry,Science and Technology,2004.
[5]Statistics New Newland.A Report on the 1996 Post-Enumeration Survey[R].Statistics New Newland,1998.
[6]Statistics New Newland.A Report on the 2001 Post-Enumeration Survey[R].Statistics New Newland,2002.
[7]Statistics New Newland.A Report on the 2006 Post-Enumeration Survey[R].Statistics New Newland,2007.
[8]Statistics South Africa.Census 2001 Post-Enumeration Survey:Results and Methods[R].Statistics South Africa,2004.
[9]StatisticsSouth Africa.The PeopleofSouth AfricaPopulation Census,1996:the Count and how it was done[Z].Statistics South Africa,Private Bag X44,Pretoria 0001,South Africa,1996.
[10]The Republic of Gambia.Population and Housing Census,1993:Report on Post Enumeration Survey[R].Central Statistics Department,Ministry of Finance and Economic Affairs,Banjul,Gambia,1994.
C921.3
A
1002-6487(2011)11-0158-04
國家社會科學基金資助項目(10XTJ003);全國統計科學重大項目(2009LD003);廣西自然科學基金資助項目(2010JJA10018,2010GXNSFA013107);廣西人文社會科學發展研究中心科學研究工程2010年度開放基金資助項目(KF2010021);廣西教育廳科研資助項目(201012MS110)
胡桂華(1963-),男,湖北武漢人,博士,教授,研究方向:統計調查與數據處理。
陳新華(1964-),男,廣西梧州人,碩士,副教授,研究方向:統計調查與數據處理。
(責任編輯/亦 民)