張廣宇 顧寶昌
摘要:人口普查中的重報問題長期以來一直沒有得到統計部門和學者的足夠重視。但是,美國2000年和2010年兩次人口普查均出現大規模的人口重報,隨后加拿大、英國和澳大利亞等國的統計部門也發現在各自的普查中重報現象都有明顯上升的趨勢。
本文回顧了這四個國家近些年舉辦的普查的調查方式、居住地原則、人口漏報和重報的情況,歸納了重報人口的共同特征和造成重報的原因,以及各國應對重報問題增加而采取的措施。
普查中重報現象的增加,既與普查方式的轉變有關,也與人們越來越復雜的生活和居住方式、越來越頻繁的人口流動,以及對人口普查的居住地原則的不同理解有關。要有效地應對重報問題,不僅要加強事后抽樣工作,而且要積極利用計算機和互聯網技術,通過數據匹配發現和去除重報的普查記錄。文章還對中國2020年的普查應對重報問題提出了一些建議。
關鍵詞:人口普查;重報;數據質量
中圖分類號:C921.2文獻標識碼:A文章編號:1000-4149(2018)03-0001-12
Abstract:Overcoverage in census has long been considered as nonsignificant in comparison to undercoverage. However, it was found that both the 2000 and 2010 US decennial censuses overcounted millions of people with a net overcount outcome. Meanwhile, an increase in the magnitude of person duplications in recent censuses has been reported in Canada, the UK and Australia.
This paper reviews census residence rules, censustaking methods and coverage errors in these four countries. It summarizes common features of census duplicates and potential causes for overcount in census, and the measures taken by national statistical offices to address these issues.
The increase in overcount is not only associated with the adoption of new censustaking method while shifting away from the traditional doorknocking method, but also attributable to more frequent population movement and more complex living situations, and the resultant respondents confusion on census residence rules. To identify and remove census duplicates, it is important to both enhance the postenumeration survey, and undertake data linking between census and administrative statistics. The paper also makes some recommendations on Chinas 2020 census addressing potential overcoverage.
Keywords:census;overcoverage;data quality
我們在《中國人口科學》2017年第5期發表的“從國際視角看人口普查中的低齡兒童的漏報問題”一文中討論了各國在人口普查中遇到的人口漏報[1],特別是低齡兒童漏報的問題。但是,影響人口普查完整性的因素不僅來自人口漏報,也來自人口重報。本文擬在前文的基礎上,著重討論近些年來各國人口普查中越來越顯著的人口重報問題。
自1950年以來,世界各國舉辦了1600多次普查,人口漏報和普查結果的凈漏報一直是人口普查面對的最主要的挑戰[2]。由于人口重報的程度和影響相對較小,因而一直沒有得到各國統計部門和人口學者的足夠重視和深入研究。美國2000年的普查是世界上第一次在規模很大的人口中開展的人口普查中發現總人口的凈重報,即重報人口大于漏登人口[3],而隨后的2010年人口普查又繼續發現大幅度的人口重報和漏報[4]。與此同時,加拿大、英國和澳大利亞統計部門也發現,盡管總人口的凈漏報依然是近些年舉辦的普查的最主要的挑戰,但人口的重報也呈現顯著上升的趨勢[5-7]。
人口普查的主要目標是完整和準確地登記一個國家在普查時點的所有居住人口,這不僅包括完整登記所有普查對象,還包括在正確的地址登記這些人口。由于人口流動,很多人在普查時點居住的地址(即現住地)與其長期居住的地址(即常住地)并不一致。而隨著經濟的發展和全球經濟的一體化,人們生活和居住方式也越來越復雜,國內流動和國際遷移越來越頻繁,在很多國家現住地和常住地不一致的人口大量增加,由此產生的對普查的居住地原則的誤解相應地導致普查中重報和漏報程度的上升[8]。
在上述幾個國家的人口普查實踐中,人口重報問題的顯現與近些年普查調查方式的改變在時間上密切相關:由于計算機和互聯網技術的進步,同時也是出于節省經費的考慮,這些國家逐步放棄了傳統的依靠普查員登門入戶投送和收集問卷的普查方式,轉而采用依靠全國性的地址名錄,通過郵局向絕大多數普查對象寄送普查問卷,要求他們自行填寫普查問卷,或通過郵局寄回普查表,或通過互聯網完成普查。
中國2010年的第六次人口普查采取了雙口徑登記的原則,即流動人口既在現住地登記,也在戶口登記地進行登記,然后由統計部門采取相應的措施去除重復登記的記錄。這種措施有助于大大減少普查中由于現住地和常住地的分離而可能帶來的漏登程度,但也相應地增加了人口重報的可能性。在六普以前,有些人口學者已經關注人口的重報問題[9]。而六普結果公布以后,更多的研究開始關注此問題,并一致認為2010年人口普查的重報問題可能比以往的普查更為顯著[10-14]。回顧和借鑒其他國家分析和處理人口重報問題的經驗和教訓,對于更好地準備和成功舉辦2020年的人口普查,更好地評估普查的數據質量,具有十分積極的意義。
一、美國、加拿大、英國和澳大利亞近年人口普查中的重報問題
1.美國2000和2010年人口普查中的重報問題
美國的人口普查自1790年以來,每十年舉辦一次,由人口普查局具體執行。普查的對象是所有普查時點在美國生活和居住并以美國為常住地的人,包括非美國公民。從1970年普查開始,普查局已經逐步對大多數人口采取通過郵局寄送和回收問卷的方式進行普查。對于這種登記方式沒有覆蓋的少數人口,則采取由普查員登門入戶的方式,或攜帶新問卷要求住戶把完成的問卷郵寄回普查局,或以直接登記的方式完成普查。在普查后期的查漏補缺階段,對還沒有返回問卷的家庭,普查局或通過電話,或派普查員登門催促他們盡快完成普查[15]。
近幾十年來,美國人口普查的凈漏報率一直在穩定下降,1980年普查已降低到很低的水平[4]。但是,相對低的凈漏報率可能隱藏了大量的人口漏報和重報的事實,這一點在2000和2010年兩次普查中尤為顯著(見表1)。由于美國人口的基數大,實際漏報的人口數很可觀。
2000年的人口普查,普查局第一次實現通過計算機進行的實時的數據匹配,以期提高普查后期查漏補缺工作的成效。但是,還在普查正在進行的階段,就發現有大量的家庭郵寄回不止一份問卷。進一步的分析發現大約有160萬家庭重復登記,由此導致大約360萬人口的重報,這些記錄最終被從普查記錄中刪除[16]。
美國的人口普查采用事后抽樣調查和人口分析兩種方法獨立評估普查質量。與以往的歷次普查不同,對2000年普查,兩種評估方法得出截然相反的結論:事后抽樣調查結果認為普查大約凈漏報1%的人口,而人口分析的結果則表明,結果很有可能是凈重報。為此,普查局決定暫緩公布對普查數據質量的評估,一方面對兩種評估方法進行回顧及檢查,并重新評估普查的數據質量,另一方面積極探索新的辦法研究普查中新出現的大規模的人口重報問題,例如,把普查數據與其他來源的數據進行匹配,從而發現重報的人口[17]。
2000年普查實際登記的人口為2.73億人,在兩年之后公布的研究成果,證實此次普查的結果為凈重報,凈重報率為0.5%,即大約凈重報了133萬人[3]。除了在數據處理過程中對應在普查中登記而沒有登記的家庭利用統計方法進行賦值從而由系統生成虛擬的記錄以外,大約有600多萬人在普查中登記了一次以上[3]。而這些重報的人口并不包括在普查期間刪除的由于地址重報而導致的大約360多萬人的重報。研究還發現,傳統的只針對凈漏報率設計的事后抽樣調查,不能準確發現新出現的大規模人口重報的現象[18]。
在總結經驗和教訓的基礎上,2010年的人口普查采取了大量針對人口漏報和重報問題的改進措施。例如,在編制全國地址名錄的過程中進行了大量的數據匹配和實地調查,力爭在普查前去除主地址名錄中重復的地址[19]。由于此次普查,所有普查對象都只填寫短表,只需回答包括姓名、地址和一些關鍵的人口指標等問題,問卷中專門加上了關于在每一個住址是否有潛在的人口漏報和重報的兩個問題。在普查期間,普查局利用計算機即時進行數據匹配和分析,發現對這兩個問題的回答有疑問的問卷,就與該住址的家庭聯系,爭取在普查結束前就澄清和解決有關疑問[20]。
2010年普查在事后抽樣調查的目標和方法方面也進行了大量的改進,該調查不僅要評估普查的凈漏報率或凈重報率,還要估計普查差錯的具體構成,即粗重報率和粗漏報率。除此以外,還要根據不同人口特征提供相應的指標,例如種族。針對人口的重報問題,普查局在2000年普查以后就已經測試過把部分普查數據與其本身進行一對一的數據匹配,以確定重報的人口。2010年普查結束以后,普查局第一次實施了對全部普查記錄本身進行數據匹配的做法,即對每一個普查記錄都在全部普查記錄中搜尋和匹配具有相同姓名、性別和生日等確定性特征的記錄,以發現和確定重報的人口[21]。
2010年的人口普查共登記了3億多人口。事后抽樣調查結果表明,大約1600萬人漏登,同時有1600萬人錯登,包括800萬系統生成的記錄,實際上大約有800 萬人在普查中登記了一次以上。普查粗重報率和漏報率都是5.3%,凈漏報率為-0.01%,大約凈重登了3.6萬人,但不具備統計顯著的意義[4]。
2.加拿大2006年和2011年人口普查中的重報問題
加拿大統計局自1951年開始,每五年舉辦一次人口普查。普查采用常住地原則,即所有普查對象在其常住地登記,普查時點不在常住地的人口在其登記地登記為“臨時/暫住人口”。2006和2011年普查的調查方式與美國相似,依靠全國地址名錄,對大多數城市人口采取通過郵局寄送/回收的方式進行調查。對城市中難以調查的人口,或邊遠地區的人口,則專門派普查員登門,或者要求普查對象自行填寫問卷然后寄回普查部門,或者直接進行調查[6]。這兩次普查積極鼓勵普查對象通過互聯網完成普查。2006年的普查大約有18%的家庭通過互聯網填寫問卷,而在2011年則有54%的家庭通過互聯網完成普查[6]。
自1991年普查開始,加拿大統計局不僅調查普查中的漏登問題,還調查普查中的錯登,主要是重報問題。表2列出1991—2011年五次人口普查中的重報和漏報問題。盡管總的凈漏報率有所下降,但粗重報率則一直呈現不斷上升的趨勢。例如,2011年的粗重報率是1991年的3倍,而重報的人口也從1991年普查的15萬人增加到2011年的63萬人(見表2)。
受美國2000年普查出現大規模重報問題的影響,加拿大統計局在2006年普查以前已經積極采取了很多有針對性的措施。例如,在普查前花大力氣清理和提高普查用地址名錄的準確性,力求避免因為地址名錄的重復而導致普查人口的重報。不僅如此,還在2006年普查的質量評估中增加了專門的普查重報調查,主要是把普查數據與其他來源的行政統計數據進行匹配[22]。但普查結果表明,粗重報率實際比上次普查又上升了0.6個百分點。加拿大統計局總結經驗教訓,在2011年普查準備階段繼續采取很多有針對性的措施,但實際結果表明粗重報率依然呈現上升趨勢。這個現象除了部分歸因于重報調查的方法和技術[6],但更重要的是也表明普查中重報問題與漏報問題一樣不可避免。
3.英國2001和2011年人口普查中的重報問題
英國(指英格蘭和威爾士)的人口普查每十年舉辦一次,最近的一次是2011年的普查。英國以前的普查采取的是現住地原則,即普查對象均在普查時的所在地登記,但從2001年普查開始,采取常住地原則,所有人均須在其常住地進行登記。與以前歷次普查相比,英國2011年的普查又有許多重要的改進。一個很重要的變化是采用美國和加拿大的普查模式,即在普查前建立完善的全國地址名錄,普查時依靠此地址名錄通過郵局寄送/回收問卷,普查后期依靠此地址名錄進行查漏補缺的工作。不僅如此,普查對象還可以利用互聯網完成普查。
在英國2001年普查以前的歷次普查,人口重報都不是一個值得重視的問題。與美國和加拿大不同,這些普查都是由普查員登門入戶投送和回收問卷,而且普查采取的又是現住地原則,因而大大減少了人口重報的可能性和重報的程度。從2001年開始,英國普查改用常住地原則統計人口,調查方式也改為由普查員挨家挨戶投送問卷,但問卷的回收由普查對象用預先提供的信封自行寄送回普查部門。與以前普查不同,這次普查并不要求普查員必須與普查對象見面。這樣一來,不僅漏報率大為提高,而且重報率也顯著增加[23]。
在美國和加拿大普查先后發現重報問題已經成為一個顯性的問題之后,英國統計部門加強了這方面的研究。對2001年普查數據的分析表明,此次普查粗漏報率為6%,但粗重報率也達到0.4%,大約有20萬人重報[24],重報問題比以前歷次普查有明顯增加。研究還表明住校大學生、離婚夫婦共同撫養的小孩,和有不止一處家庭住址的人,在普查中的重報概率相對較高[23]。因而在準備和舉辦2011年普查的過程中,統計部門加強了對這些人群登記的檢查,例如加強對學生普查登記記錄的審核,努力避免他們既在學校登記,又在父母住址登記。在普查的問卷上,專門列有針對離婚夫婦共同撫養的小孩如何登記的提示[7]。
對2011年普查數據的質量評估,英國統計部門除了利用傳統的事后抽樣調查的方法以外,還采用美國的做法,即對普查記錄本身進行數據匹配,以應對潛在增加的人口重報問題。抽樣調查的結果用于估計本地人口的重報程度,而普查數據匹配的結果主要用于在全國范圍內尋找重報的人口[7]。研究結果表明,2011年普查登記人口接近6000萬人,粗漏報率為6.7%,但粗重報率估計在0.5%—1.0%之間,即大約重報了30萬至60萬人[7]。
4.澳大利亞2016年人口普查中的重報問題
澳大利亞統計局自1961年以來每五年舉辦一次人口普查。普查同時采用現住地和常住地原則,即所有普查對象在現住地登記,但必須在普查問卷上填寫其常住地地址。所有的官方人口統計數據都是以常住地為準。2011年普查以及以前的歷次普查的調查,都是采用由普查員登門投送問卷,普查對象自行填寫問卷,再由普查員登門回收問卷的方式進行[25]。但是,普查對象也可選擇使用普查部門提供的信封寄回問卷,或選擇使用互聯網完成問卷。
2016年的普查實施了很多重大的改進,一個重大的變化是采取美國、加拿大和英國的普查模式,即事先編制全國地址名錄和通過郵局寄送/回收普查問卷,鼓勵普查對象盡可能使用互聯網參加電子普查。事實上,使用互聯網參加普查的家庭的比例在2016年超過2/3[5]。與其他國家不同的是,統計局依然雇傭了大批普查員登門提醒普查對象按時完成普查,或向要求使用書面問卷的家庭投送問卷。對邊遠地區的土著居民,仍然依靠普查員登門入戶登記人口。
另外一個重大的變化是,吸取美國、加拿大和英國普查的經驗教訓,在事后抽樣調查中專門加上了調查人口重報的內容[26]。表3提供了1996年至2016年五次人口普查的重報和漏報情況。除1996年普查以外,各次普查的粗漏報率比變化不大,但是粗重報率一直在逐步上升。在2011和2016年兩次普查期間,粗漏報率變化不大,但是粗重報率卻顯著上升。漏報人口增加了將近30%,而重報的人數則幾乎是上一次普查重報人數的兩倍[5]。
二、重報人口的分布和特點
上述四國對普查中重報人口的特征和分布都相應做了很多研究,盡管幾個國家的情況各不相同,但總結他們的研究成果,仍然可以發現重報人口有一些共同的特征。
1.有些特定人群比其他人群更容易在人口普查中重報
在美國,2000年和2010年的兩次普查都發現以下幾種人群更容易在普查中重報/被重報:①住校但周末回家的大學生,雖然他們應該在學校登記,但有些父母還會把孩子也包括在普查表里。②由離婚父母共同撫養的小孩,小孩因為與父親和母親分別居住一段時間,其父母有可能都在各自的普查表中包括了孩子的信息。③有不止一個住址的人,包括通勤上班者(平時住城市,周末回家)和有不止一處房產的人。本人和家人有可能分別填寫了普查表。④在普查登記期間流動的人,包括短期旅行和搬家的人,他們也有可能在不同的地方都做了登記。⑤普查期間在監獄里的犯人。
而加拿大2011年普查的質量評估結果也顯示,大約30%的重報記錄屬于離婚夫婦協議撫養的小孩,很顯然父母雙方都把孩子登記到自己的地址。接近20%的重報記錄來自于既在大學登記,又在父母地址登記的在校學生,或者是新近結婚離開父母單獨居住的年輕人。還有超過20%的重報記錄來自于居住在親戚或朋友家的成年人[6]。
在澳大利亞,2016年普查的事后抽樣調查發現,人口的重報主要有以下三種情況:①普查時點在外地并在其現住地登記,但是家人將其包括在常住地登記的普查表中; ②普查期間搬家,同時在原住址和現住址參與了普查;③普查時點在國外,不是本次普查的對象,但卻被家人包括在其常住地的普查表中[5]。
2.重報人口遍布各個年齡段,但年輕人口更容易重報
相對于其他年齡組,很多年輕人由于求學和工作的緣故而成為流動人口,不僅容易在普查中漏報,而且也容易在普查中重報。對美國最近兩次普查重報人口的研究發現,重報人口幾乎分布在每一個5歲年齡組,但是年輕群組比其他年齡組更容易出現重報,特別是15—24歲年齡組,同時,15歲以下兒童組和25—29歲年齡組的人群也有相對較高的重報比例[21]。年輕年齡組的人口不僅容易在普查中漏報,他們也更容易在普查中重報,這是因為他們由于求學和工作的緣故而成為流動人口的主要組成部分。
加拿大統計局對2006和2011年兩次普查的分析發現,5—14歲和15—24歲年齡組比其他年齡組的人口更容易重報。研究發現,在所有這些年齡組,男性和女性人口重報的比例差不多[6]。
3.在地理范圍上很多重報發生在同一地址或相近的地址
對美國2010年普查的深入研究發現,就地理范圍而言,將近13%的重報是跨州登記(即登記在不同的州),另外大約23%的重報是在同一個州但不同的縣登記。超過25%的重報發生在同一普查小區,也就是說,很多重報是在同一個地址登記,或者在相鄰的地址登記[21]。
加拿大2006年的調查結果顯示,大約20%的重報記錄來自于在同一地址上的同一個家庭,一個很重要的原因是許多家庭既填寫了普查問卷,又在互聯網上完成了普查。另外有20%的重報記錄來自于同一個家庭,但是登記為不同的地址,一個很有可能的解釋是不同的家庭成員在不同的地址都登記了家庭成員的情況[27]。
4.重報人口的其他特征
在美國2010年的人口普查中,大約82%的重報發生在家庭戶中,其他18%的重報發生在家庭戶和非家庭戶(集體戶)之間,即有許多人口既在家庭戶登記,也在學校、醫院和旅館等其他場合登記。在重報的家庭戶中,絕大多數的重報發生在部分家庭成員中,整個家庭重報的比例相對較低,大約占1/4。美國的研究還發現,弱勢群體更容易在普查中被漏登,而社會經濟條件相對好一些的人群則更容易出現重報,因為他們更有條件流動或者擁有多處地址,與統計部門也更為配合。以種族劃分,非西班牙裔白人的重報比例要比其他種族的人口要高。在歷次美國的人口普查中,黑人和西班牙裔人口一向有比較高的漏報率[21]。
三、普查中部分人群容易重報的原因
人口的頻繁流動和人們生活和居住方式的多樣化和復雜化,使得人們對普查的居住地原則產生不同的理解,這無疑是造成人口重報的重要原因。但是,綜合這幾個國家統計部門的研究,重報問題的顯著上升,在時間上與這些國家放棄傳統的登門入戶的調查方式轉而采用新的普查方法也密切相關。
1.普查方式的變化是人口重報問題顯著上升的一個重要原因
西方發達國家傳統的人口普查,每次都耗資巨大臨時雇傭大量的普查人員。近年來很多國家的統計部門都面臨預算緊縮的壓力,大量減少普查人員就成為減少普查經費最易行的措施。計算機和互聯網技術的進步、普查方法的改進、行政統計數據的廣泛使用,和數據匹配方法的發展等,在客觀上促進很多國家采用新的普查方法。
本文回顧的四個國家逐步拋棄了傳統的普查員登門入戶的調查方式,轉而采用新的普查方式,即編制“完整”的全國地址名錄,然后依靠此地址名錄通過郵局寄送/回收問卷,和進行普查后期的查漏補缺工作,并積極鼓勵普查對象通過互聯網完成普查。計算機和互聯網技術在普查中的廣泛使用,不僅提高了普查的內容的準確性,例如大大減少由于手寫筆誤造成的錯誤等,而且提高了普查后數據處理的時效性。
采用新的普查方式以后,統計部門可以大量減少普查員,但是很明顯的副作用就是一名普查員不得不應對大量的普查對象,因而也就不可能多次登門入戶完成投送問卷、提醒督促和回收問卷等任務。結果就是這些國家普查的漏報率都不可避免地有所上升。與此同時,問卷由普查對象自行完成,特別是由于紙質問卷和互聯網問卷的同時使用,一些過于熱心的普查對象就有可能提交不止一份問卷。例如,英國2011年的普查,在問卷回收階段,就發現有24萬對來自相同地址和家庭的重復的問卷[7]。
此外,依靠郵局投送和回收問卷,郵局投送工作的失誤,也有可能造成普查的重報。例如,美國的研究發現,郵遞員把A地址的問卷投遞到B地址,那么B地址的家庭有可能填寫兩份問卷,構成重報,而A家庭則沒有填寫問卷,構成漏登。還有一種情況是在編制全國地址名錄的時候,地址仍然存在,但在此之后該地址不再存在,如拆遷,郵遞員可能把問卷投送到附近的地址。如果附近地址的居民填寫了問卷,則有可能構成重報[17,21]。
2.普查用地址名錄的質量會直接導致普查中的重報和漏報
新的普查方式依賴一個高質量的全國地址名錄,如果該地址名錄不能準確地去除重復的,或者相似的但實際上是同一個地址的住址,就很容易造成重報。同樣,如果該地址名錄遺漏一些地址,在這些地址的家庭就不會收到通過郵局寄送的問卷,那么地址的遺漏就會直接導致部分人口的漏報。
美國普查局的研究發現,在編制全國地址名錄的時候,不同來源的數據有可能導致同一地址被登記為兩個很相似/相近的地址,例如同一地址以“X公寓1號”和“X公寓A號”被登記兩次。普查部門根據地址名錄給同一家庭先后寄送了兩份普查問卷,而該家庭把兩份問卷都寄還給普查部門,從而造成該戶家庭成員都被登記兩次,形成重報[17]。這個問題在2000年普查中比較突出,在2010年的普查中得到了很好的解決。但是由于各種原因,普查局不可能全部根除地址名錄中的重復地址,因而這仍然是導致人口重報的原因之一。加拿大和英國的研究也都得出相同的結論,即地址名錄的重報和漏報是導致很多人口在普查中重報和漏報的重要原因[6-7]。
3.流動人口對居住地原則的不同理解導致人口的漏報和重報
很多國家的人口普查采用常住地原則,即以占用人們生活和休息大部分時間的地方為主。由于人口流動和生活方式的多樣化,很多人口的常住地和現住地并不一致。因而每一次人口普查,各國統計部門都要制定詳細的標準來確定一個人是否為普查對象,其常住地在何處。
例如,美國2000年的普查,對學生如何參加普查登記有如下的標準:①寄宿學校的學生在父母的地址登記;②住校的大學生在學校登記;③如果大學生在父母家常住,則在父母家的地址登記。這些標準看似詳細,但與復雜的實際情況相比則還是顯得過于簡單。同時,不同背景的普查對象對此標準的理解又有很大的不同。美國普查局的相關研究證實,普查對象對居住地原則的誤解是造成人口重報的重要原因之一[8]。
為此,美國普查局不斷改進對居住地原則標準的制定。在2010年的普查中,普查局總結經驗教訓,對學生如何參加普查制定了更為詳細的標準:①住在大專院校以下的寄宿學校的學生,仍然在父母家登記;②大專院校學生仍然在父母家居住的,在父母家登記; ③離家的大專院校學生,但在校園內或校園外居住的,在居住時間更長的地址登記;④離家的大專院校學生,并在校園內或校園外居住的,但經常回父母家度假的,在居住時間更長的校園內或校園外的地址登記;⑤在境外的美國學生不在普查范圍之內;⑥在美國境內的外國學生,在校園內或校園外居住的,在居住時間更長的地址登記[28]。
4.在數據處理過程中由系統生成“虛擬人口”導致的重報
在美國和澳大利亞的人口普查記錄中,還包括一些通過統計方法產生的所謂“虛擬人口”,相應的,這些國家的普查中又產生了一些由數據處理導致的人口重報。以澳大利亞的普查為例,在普查實地調查中,某一住址沒有普查問卷返回,一種可能是該戶家庭成員普查時點在該地居住,但拒絕參與普查。但是另一種可能是該戶家庭成員在外地或國外,而普查人員沒有可靠的信息確定該戶人家是否應該包括在普查之中。有很多時候,普查員把問卷留在該地址,但如果鄰居或朋友幫助把問卷收走,普查員就有可能錯誤地判斷該戶人家已經參與了而實際并沒有參與普查。事實是,如果該戶家庭普查時點在外地,也參與了普查,就有可能造成重報。同樣,如果該戶家庭普查時點在國外,雖然不在普查范圍之內,但人數、年齡和性別等信息則通過出入境記錄加入總人口匯總數據中,同樣會造成重報。但是由于這種重報是在普查數據匯總過程中產生的,與普查對象在同一地址或不同地址填寫兩份問卷造成的重報性質不同,后一種重報是可以通過數據匹配發現,而前一種重報主要通過事后抽樣調查發現[29]。
四、發現和去除重報人口的方法及挑戰
人口的重報與漏報一樣,是大多數國家人口普查與生俱來的問題。當重報問題開始顯現的時候,美國、加拿大、英國和澳大利亞等國的統計部門,沒有回避問題,而是積極探索新的方法以發現和去除重報人口。
1.改進事后抽樣調查方法,把人口重報問題納入調查重點
美國是世界上最早采用事后抽樣調查方法評估普查數據質量的國家。但長期以來,事后抽樣調查的主要目標就是發現普查的凈漏報率,用以估計普查時點的總人口。所以,原先的調查方法并不是先分別計算出粗重報率和粗漏報率,然后再計算出凈漏報率,而是直接得出凈漏報率。對2000年普查及其抽樣調查結果的分析還表明,當人口出現重報的時候,原先的事后抽樣調查方法不僅很難發現重報,而且會得出相反的錯誤結論[18]。要估計普查的完整的差錯構成,就必須在事后抽樣調查的抽樣方法、樣本規模和結果估計上作出很多改進[20]。
自美國2000年普查發現大規模人口重報并改進事后抽樣調查方法以后,加拿大統計局在2006年的普查中增加了專項普查重報調查,而英國統計局也在準備2011年普查的同時開始研究如何改進事后抽樣調查的方法[22,25]。澳大利亞統計局也吸取這幾個國家的經驗教訓,在2016年普查的事后抽樣調查中增加了人口重報的調查內容[5]。
當然,事后抽樣調查可以估計全國或大的地區范圍的重報和漏報水平,但無法給出具體估計,特別是確定哪些人是重報人口。所以,這些國家都利用數據匹配的方法,特別是對普查記錄本身進行數據匹配,以發現和判定重報的人口。
2.通過數據匹配的方法發現普查中重報記錄
美國2000年人口普查中重報問題的發現,既得益于美國人口普查局同時實行兩種獨立的普查數據評估方法,更得益于普查中收集的姓名和地址等信息第一次轉化為電子數據,從而能夠利用計算機實行一對一的數據匹配。人口普查局在2000年普查以后開始把普查數據與其他外部數據進行匹配,以發現重報問題。2010年普查之后,更是在以前實驗的基礎上,開始實行把普查與其自身匹配,以從中發現重報的普查記錄[21]。
加拿大統計局從2006年普查起,開始實施獨立的普查重報調查[22]。但與其他抽樣調查不同的是,這個調查依靠把普查數據與行政統計數據以及普查數據本身進行匹配,以估計普查的重報程度。用于匹配的數據包括出生、死亡、國際遷移、衛生、福利和稅收記錄等行政統計數據[6]。英國和澳大利亞統計局也積極實施把普查數據與其他行政統計數據匹配,或借鑒美國的做法,對普查數據本身進行數據匹配以發現重報的人口。
這些國家的普查都搜集普查對象的姓名、出生日期和其他人口信息,并把普查數據轉換為計算機數據,因而大大促進了數據匹配工作。數據匹配有兩類:一類是確定性的匹配。如果普查搜集的數據包含全部普查對象的社會保險號碼、身份證號碼等個人獨有的信息,計算機可以很容易地進行確定性的匹配。但是如果沒有這些獨特的信息,就只能進行另外一類數據匹配,即概率性的匹配[30-31]。本文回顧的這些國家的數據匹配都利用概率性的匹配方法,并輔以人工判定和實地追蹤調查以確定和去除重報記錄。但是,他們的實踐也表明,數據匹配可以辨別重報的人口,但如果不輔以實地追蹤調查,也沒有辦法去除普查數據中的重報記錄。
3.數據匹配方法上的挑戰
在這些國家實行概率性數據匹配的實踐中,如何準確無誤地發現重報人口,仍然面臨方法上的挑戰。在確定普查記錄是否重報時,姓名和出生日期是非常重要的變量。如果普查中兩個記錄具有相同的姓名、性別和出生日期,而且在同一個地址,就可以準確判定有一個記錄是重報;如果是相鄰的地址,如在相鄰的鄉鎮和區縣,那么也有很大的可能確定為重報。但是,如果在更大的地域范圍,直至全國范圍內搜尋,就會遇到方法和技術上的挑戰。美國人口普查局在進行數據匹配時就遇到過“琳達·史密斯(Linda Smith)問題”,因為琳達·史密斯是非常普遍的女性姓名,在全國范圍內用姓名、性別和出生日期來確定匹配的普查記錄是否重報,如果有超過365個女士有相同的姓名和出生日期,就無法確定匹配的記錄是不同的人重名,還是相同的人重報[16]。要想判定重報,需要引入更多的數據變量,如教育程度、婚姻狀態和工作性質,等等,但普查的數據內容畢竟有限,如果人口數量很大,就會很快遇到相同的問題。
在進行數據匹配的過程中,如果匹配的普查記錄并不是同一個人,而是具有一些相似特征的不同的兩個人,那么其中一個記錄會被去除,而真正的重報記錄仍然留在普查數據之中。如果匹配的記錄依靠的是出生日期和性別等關鍵數據,那么清理后的普查數據在年齡和性別結構方面仍然可靠,但是在其他數據方面就會有很多誤差。如果一個為沒有生育的育齡婦女和一個有生育的育齡婦女具有相同的姓名、性別和出生日期,但由于沒有其他變量來區分她們因而被判定其中一人為重報,那么刪除哪一個記錄就會對利用普查數據估計生育率造成直接的影響。
總之,這些國家的數據匹配工作各有自己的問題和挑戰,也在不斷完善的過程之中。如何更好地進行數據匹配來辨別和判定普查中的重報記錄,還是一個需要不斷研究和實踐的重要課題。
五、對中國2010年和2020年人口普查的一些啟示
中國的人口普查依靠普遍實行的戶籍登記和身份證制度,和普查員登門入戶的調查方式,保證了普查能夠成功舉行和取得高質量的數據。雖然近些年關于普查對低齡兒童調查的質量、對總人口和生育率的估計等爭論很多,但是以國際標準衡量,在中國這樣一個十多億人口的大國進行普查,能取得已有的成果已經是一個很了不起的成就。
從1982年到2000年的三次普查,人口的漏登是主要的挑戰。但是,這些普查采用的是唯一的居住地原則,理論上,每個人只應登記一次,因而漏報的概率要比重報的概率大得多。針對流動人口數量龐大和人們生活方式越來越復雜的現實,國家統計局在2010年的普查中采用了雙口徑的方法進行調查,即流動人口同時在現住地和常住地登記,然后在數據匯總階段由普查部門進行去除重登記錄的工作。采取這樣的普查方式無疑有助于減少人口的漏登,但也會給準確地評估普查的數據質量,以及發現和去除重報記錄的工作帶來極大的挑戰。
由于國家統計局沒有公布詳細的事后抽樣調查的結果,也沒有介紹如何去除由于雙口徑調查以及其他原因導致的人口重報,我們并不清楚人口重報的程度究竟有多高,也不清楚重報究竟如何影響普查結果中的年齡結構,因此也就很難對六普的質量評估下更進一步的結論,并評估重報對生育率估計和總人口估計的影響。
但是,考慮到中國流動人口龐大的現實,雙口徑登記造成的重報規模肯定要比美國2000年普查重登的規模還要大。那么,在局部地區,如流動人口流出集中的地區,人口重報很可能大于漏報。而根據美國2000年普查的經驗,采用傳統的以調查凈漏報率為目標的事后抽樣調查方法就很難準確地發現人口的重報[18]。
從國際經驗看,發現重登的普查記錄最好的辦法是對普查記錄本身進行數據匹配。但是,中國人口眾多,即使只挑選流動人口與普查數據匹配,其工作量也比美國全國普查數據匹配的工作量要大得多。這些年飛速發展的計算機和互聯網技術,尤其是大數據、云計算等技術,在提高人口數據匹配的速度和準確性等方面具有十分積極的意義。但是,計算能力只是眾多挑戰之一,對數據匹配方法和技術的研究和選擇,也是很重要的挑戰。如果普查能夠搜集全國統一的而且是每個個人獨有的鑒別碼,例如身份證號或健康保險卡號等,數據匹配可以相對容易地進行,發現和判定普查記錄是否重報也相對容易。但是,如果沒有這些全國統一且個人獨有的鑒別碼,數據匹配就只能利用概率匹配的方法進行,不確定性也就相應地大大增加,也就很難避免由于錯誤的匹配和去除重登記錄而導致的普查數據的缺陷。
鑒于這些發達國家的經驗和教訓,隨著我國社會經濟的進一步發展,人口流動的越發頻繁和多居住地人口的增多,特別是雙口徑普查方式的使用,或許準確地發現和去除重報人口會成為考驗即將到來的2020年人口普查質量的重大挑戰。
六、結論及討論
人口普查中的重報問題,長期以來一直沒有獲得人口學界和統計部門的重視。但是近十多年來,美國、加拿大、英國和澳大利亞等國的普查實踐表明,人口重報已經是一個不可避免而且逐步增加的問題,成為影響人口普查質量的一個新的挑戰。
與全部人口相比,有些特定的人群更容易被重報,例如流動人口、有多住址的人口、住校學生和離婚夫婦共同撫養的小孩,等等。由于求學和工作的原因,年輕人群比其他人群更有可能在普查中漏報和重報。
人口的頻繁流動以及人們生活和居住方式的多樣化和復雜化,以及由此導致的對普查居住地原則的不同理解,無疑是造成人口重報的最重要原因。但這些國家放棄傳統的登門入戶的調查方式,轉而采取新的普查方式,也是導致人口重報顯著上升的重要原因。這些國家的普查實踐也表明,改進事后抽樣調查方法有助于準確發現和估計普查中的漏報問題,但利用計算機進行數據匹配是發現和判定普查記錄中重報人口的主要方法。如果普查無法搜集全國統一和個人獨有的鑒別碼,從而進行決定性的數據匹配,那么概率性的匹配就是唯一選擇。而要做到這一點,無論在裝備上、方法的研究上和人員的準備上,都需要提前做好準備。
在本文結束之際,我們再次強調,中國的普查與本文回顧的四個國家現行的普查方法有很大的不同,因而面臨的主要挑戰也不盡相同。為了應對由于人口大規模流動可能帶來的人口漏報問題,2010年中國人口普查采用的雙口徑登記方法,盡管減少了漏報程度,卻又在事實上大大增加了普查結果中人口重報增多的風險。如果2020年普查仍然采取雙口徑登記的方法,那么統計部門需要積極借鑒國際經驗,利用計算機和大數據技術的最新發展,提高普查的技術裝備水平,同時積極組織力量研究和準備利用計算機進行數據匹配的技術和方法,及早應對潛在的相當規模的人口重報問題。同時,利用現有的2010年普查的數據,組織專家學者認真研究普查中重報的模式和程度,總結出可供2020年普查借鑒的經驗和教訓。
參考文獻:
[1]張廣宇,顧寶昌. 從國際視角看人口普查中低齡兒童的漏報問題[J].中國人口科學, 2017(5):96-109.
[2]UNITED NATIONS. World population prospects: the 2015 revision[R]. New York: United Nations, 2015.
[3]US CENSUS BUREAU. Decision on intercensal population estimates (12 March 2003)[R]. Washington, D C: U.S. Census Bureau, 2003.
[4]US CENSUS BUREAU. For immediate release: Tuesday, May 22, 2012: census bureau releases estimates of undercount and overcount in the 2010 census
[EB/OL].[2018-02-08]. https://www.census.gov/newsroom/releases/archives/2010_census/cb12-95.html.
[5]AUSTRALIAN BUREAU OF STATISTICS. Census of population and housing: details of overcount and undercount[R]. Canberra: Australian Bureau of Statistics, Cat. No. 2940.0, 2017.
[6]STATISTICS CANADA. 2011 census technical report: coverage[R]. Ottawa: Statistics Canada, 2015.
[7]OFFICE FOR NATIONAL STATISTICS. 2011 census: methods and quality report: overcount estimation and adjustment[R]. London: Office for National Statistics, 2012.
[8]NATIONAL RESEARCH COUNCIL. Once, only once, and in the right place: residence rules in the decennial census[M]//CITROC C D, NORWOOD J. Panel on the Residence Rules in the Decennial Census. Washington, D C:The National Academies Press, 2006.
[9]王廣州. 對第五次人口普查數據重報問題的分析[J]. 中國人口科學,2003(1): 63-66.
[10]胡耀嶺, 原新. 1982—2010年期間全國人口普查數據一致性研究[J]. 人口研究, 2013(1): 3-9.
[11]崔紅艷, 徐嵐, 李睿. 對2010年人口普查準確性的估計[J]. 人口研究, 2013(1): 10-21.
[12]王金營,戈艷霞. 2010年人口普查數據質量評估以及對以往人口變動分析校正[J].人口研究, 2013(1): 22-33.
[13]陶濤, 張現岺. 六普人口數據的漏報與重報[J].人口研究, 2013(1): 42-53.
[14]胡桂華,武潔,安軍. 人口普查中多報人口數的估計[J]. 中國人口科學, 2016(1):41-52.
[15]MAURY M, PEMBERTON D. History: 2000 census of population and housing[R]. Washington, D C: US Census Bureau, 2009.
[16]FAY R. Probabilistic models for detecting census person duplication[C]. Proceedings of the Survey Research Methods Section, Joint Statistical Meetings, 2002.
[17]MARSHALL L. Potential duplicates in the census: methodology and selection of cases for followup[C]. Proceedings of the Survey Research Methods Section, Joint Statistical Meetings, 2008.
[18]MULRY M. Methodological lessons from census 2000 coverage error measurement[C]. Proceedings of the Survey Research Methods Section, Joint Statistical Meetings, 2004.
[19]MULE T. Census coverage measurement estimation report: summary of estimates of coverage for persons in the United States[R].Washington, D C: US Census Bureau, 2012.
[20]WHITFORD D. Coverage improvement and measurement in the 2010 US census: innovation in response to census 2000[C]. Proceedings of the 59th International Statistical Institute World Statistics Congress, Durban, South Africa, 2009.
[21]HEIMEL S, KING R. 2010 census effectives of unduplication evaluation report[R]. Washington, D C: US Census Bureau, 2012.
[22]CLARK C. Census population coverage error: results and methods[C]. Presentation at the Federal Committee on Statistical Methodology Research Conference, Washington, D C, 2009.
[23]ABBOTT O, BROWN J. Overcoverage in the 2011 UK census[C]. Paper presented to 13th Meeting of the National Statistics Methodology Advisory Committee, 2007.
[24]BLACKWELL L, LYNCH K, SMITH J, GOLDBLATT P. Longitudinal study 1971—2001: completeness of census linkage[R]. London: Office for National Statistics, N0.10, 2003.
[25]AUSTRALIAN BUREAU OF STATISTICS. How Australia takes a census, 2011[R]. Canberra: Australian Bureau of Statistics, No.2903.0, 2011.
[26]AUSTRALIAN BUREAU OF STATISTICS. Information paper: measuring overcount and undercount in the 2016 population census[R]. Canberra: Australian Bureau of Statistics, No. 2940.0.55.002, 2016.
[27]STATISTICS CANADA.2006 census technical report: coverage[R]. Ottawa: Statistics Canada, 2010.
[28]US CENSUS BUREAU.Residence rule and residence situations for the 2010 census[EB/OL].[2018-02-08]. https://www.census.gov/population/www/cen2010/resid_rules/resid_rules.html.
[29]FELLEGI I, SUNTER A. A theory for record linkage[J]. Journal of the American Statistical Association, 1969, 64 (328): 1183-1210.
[30]CHRISTEN P. Data matching:concepts and techniques for record linkage, entity resolution, and duplicate detection[M]. Canberra: Springer, 2002.
[31]AUSTRALIAN BUREAU OF STATISTICS. Estimated resident population and effects of census systems created records[R]. Canberra: Australian Bureau of Statistics, No. 3132.0, 2002.
[責任編輯 方志]