對我國人口普查數據質量評估的若干思考

2014-09-18 23:47:42陳培培金勇進

現代管理科學 2014年9期

陳培培++金勇進

摘要：文章根據官方公布的歷次中國人口普查方案和相關數據質量抽查實施辦法，分別從普查摸底階段、普查登記匯總編碼階段和普查事后質量抽查階段分析現有人口普查數據質量評估特點，并在此基礎上提出了雙系統估計量在我國普查實踐中的科學應用、匯總數據時要綜合運用評估方法和在普查數據質量抽查中采用系統完善的抽樣設計等改進措施，期望能夠進一步完善人口普查數據質量評估的理論方法。

關鍵詞：人口普查；數據質量評估；事后質量抽查

一、引言

人口普查是一項重大的國情國力調查，人口普查的數據結果為科學制定國民經濟和社會發展規劃、統籌安排人民的物質和文化生活、構建社會主義和諧社會提供科學準確的統計信息支持。目前國內學者主要從數據質量控制和數據質量評估兩個方面對人口普查的數據質量進行研究，比較有代表性的有：李成瑞（1984）從我國1982年人口普查的方案設計、普查登記和數據處理等方面介紹了數據質量控制的具體措施；武潔（2002）介紹了我國第五次人口普查的事后質量抽查；張為民等（2003）采用人口統計分析法評估了我國第五次人口普查的某些代表性指標；胡桂華（2013）通過對比我國與美國等五個國家的人口普查數據質量評估情況，對我國人口普查質量評估提出若干改進建議。

我國先后經歷了六次人口普查，1953年第一次人口普查后在全國抽取了9%的人進行復查，這可以被視為我國最早的事后質量抽查嘗試。改革開放后，從第三次全國人口普查開始，每次都要在普查登記工作結束后開展事后質量抽查，并從2000年第五次人口普查開始引入雙系統估計量評估普查數據質量。雖然歷次人口普查都開展了事后抽查，但相比國外，我國的人口普查數據質量評估尚處于經驗借鑒中。從我國已有的人口普查事后抽查看，人口普查事后抽查也亟待進一步從理論上加強和完善。

二、對現有人口普查數據質量評估的認識

1. 普查摸底階段缺乏嚴謹的數據質量評估方法。《全國人口普查條例》規定人口普查對象為普查標準時點在中華人民共和國境內的自然人以及在中華人民共和國境外但未定居的中國公民，不包括在中華人民共和國境內短期停留的境外人員。為了保證人口普查登記期間普查登記工作的不重不漏，需要通過普查登記前的摸底工作編制《戶主姓名底冊》，真實、全面地記錄本普查小區所有房屋及其他建筑物內居住人口的狀況。《戶主姓名底冊》不僅是普查登記工作的主要依據，而且也是各級人口普查辦公室指導工作、核查質量和驗收數據的重要依據，同時還為抽取普查表長表調查戶提供抽樣框，因此編制高質量的《戶主姓名底冊》至關重要。

我國第一次和第二次人口普查方案中均未明確說明普查登記前是否編制《戶主姓名底冊》，1982年第三次和1990年第四次人口普查方案僅規定在普查登記前根據戶口整頓情況編制《戶主姓名底冊》，但未開展摸底工作。2000年第五次和2010年第六次人口普查方案明確規定在戶口整頓和區域劃分的基礎上由普查員、普查指導員通過實地勘察和入戶訪查，開展摸底工作，并在此基礎上編制《戶主姓名底冊》。摸底工作完成后，鄉級人口普查辦公室組織村級人口普查小組和普查指導員對各普查小區《戶主姓名底冊》的匯總結果進行評估，結合經整理的流動人口、戶籍人口、港澳臺和外籍人員、死亡人口和出生人口等資料以及房管、物業部門提供的入住率（空房）清單、出租房屋戶數等資料進行比對，確保在正式普查登記之前及時發現問題，保證普查數據質量。

人口普查數據主要從普查摸底和登記填報這兩個環節取得，其中普查摸底工作關系到普查地址碼庫建立的準確性，是一項基礎性工作。因此，普查摸底數據質量不僅是普查數據質量的基礎，同時也關系到普查事后抽查樣本框的質量。雖然我國自第五次人口普查以來均制定了全國統一的摸底工作細則，明確了摸底工作的實施過程和質量控制措施，但只是對各普查小區《戶主姓名底冊》的匯總結果進行比對評估，并沒有在摸底工作結束后隨機抽取一部分普查區重新逐戶調查核對，也沒有制定統一的主要數據質量評估指標。因此，有必要采用系統完善的抽樣設計保證普查摸底質量評估的可行性。

2. 普查登記匯總編碼階段的檢驗規則過于單一。我國人口普查主要調查人口和住戶的基本情況，內容包括姓名、性別、年齡、民族、國籍、受教育程度、行業、職業、遷移流動、社會保障、婚姻、生育、死亡和住房情況等。1953年我國第一次人口普查僅調查6個項目；1964年增加了本人成分、職業和文化程度3項；1982年增加到19項；1990年又增加了“遷來本地的原因”和“1985年7月1日常住地狀況”兩項；2000年第五次全國人口普查表分為普查表長表、普查表短表、暫住人口調查表和死亡人口調查表四類，其中長表已達到49個項目，分為按戶填報的項目和按人填報的項目，比上一次普查增加了28項，并首次加進了住房項目；2010年第六次全國人口普查表分為普查表長表、普查表短表、境外人員普查表和死亡人口調查表四類，其中長表共計45個項目。由此可見，普查表和普查項目越來越多。雖然我國歷次人口普查均開展了復查審核驗收工作，但還是很有必要建立一套系統完善的數據質量控制和評估系統。

人口普查登記匯總編碼階段的審核評估屬于數據質量評估技術中的邏輯規則檢驗范疇，主要檢驗普查表填報代碼、普查表內和表間相關指標的邏輯關系的一致性和準確性，主要通過匯總、議查或個別訪查和人工邏輯檢查方法驗收。這種審核驗收方法需要事先了解普查表內和表間進行對比的相關指標間的邏輯關系，而且這些相互對比的指標又互為參照標準，使得驗收結果只能反映誤差的方向（被高估或低估），不能反映誤差的確切水平。所以實踐中，需要采用更多的方法評估人口普查登記匯總數據的質量。

3. 普查事后抽查階段的數據質量評估缺乏嚴謹的科學依據。事后質量抽樣調查是在普查登記結束之后進行的獨立調查，是整個普查工作的一部分，其目的在于評價全國人口普查登記的質量，而不評價省級及其以下各級人口普查的登記質量，也不對抽中普查小區的登記質量進行評價。1953年第一次人口普查后在全國抽取了9%的人進行復查，抽查的結果是，重復人口占抽查人口0.139%，遺漏人口占0.255%，二者相抵，凈遺漏人數僅占0.110%。改革開放后，1982年第三次人口普查的事后質量抽查以全國各省為層，按照區（縣）、街道（鎮、公社）、普查區、普查小區的分層四階段整群抽樣設計，在全國共抽取972個普查小區，重報人口占0.71‰；漏報人口占0.56‰，重漏相抵，凈差人口占0.15‰。1990年的人口普查事后抽查也基本沿用了這一事后抽查設計思路。2000年第五次人口普查的事后質量抽查將全國31個省按總人口的多少分為四層，對每個省再按城鄉分層，在每個層內采用一階段隨機等距整群抽樣，直接抽取調查小區。同一層內的各省分配相同的樣本量，全國共抽取了602個調查小區，抽查結果顯示，人口漏登率為1.81%。本次普查數據質量評估除了以事后質量抽查為準計算漏報率以外，初次應用雙系統模型評估普查數據質量。2010年第六次人口普查事后質量抽樣調查根據人口普查地址碼庫，首先將全國31個省市區按人口流動類型（流入、流出和流入流出基本平衡地區）分為三類，然后按照常住人口規模或者凈流入人口規模等指標對以上各類進行分層，最后在每層內按照一階段隨機等距整群抽樣的方法抽取普查小區。第六次全國人口普查共抽取了402個普查小區，抽查結果顯示，人口漏登率為0.12%。

由此可見，雖然第六次全國人口普查的事后質量抽查在抽樣設計和估計方法等方面有所改進，但仍然存在以下問題。第一，在省（自治區、直轄市）層級只按城鄉標志對普查小區分層，然后在每層內采用隨機等距整群抽樣直接抽取普查小區，以這種方式抽出的樣本的代表性明顯不足；第二，估計方法存在漏洞：在當前流動人口規模大，流動速度快的情況下，普查和事后質量抽查均存在人口遺漏問題，所以以事后質量抽查為準評估普查數據質量的做法并不科學，有必要引入考慮兩次調查均存在遺漏問題而構建的雙系統估計量評估普查數據質量；第三，違背抽樣估計理論的要求，沒有利用抽樣權數把樣本數據還原為總體估計量，而是直接使用樣本調查小區的普查人口數和事后抽查人口數估計該調查小區的真實人口數。

三、對人口普查數據質量評估的若干建議

1. 科學應用雙系統估計量。人口普查作為大規模的數據收集過程，無法準確計數目標總體的每一個人及其人口統計特征，所以不可避免地會存在兩種類型的調查誤差。一種類型是遺漏誤差，當真實的普查人口被遺漏時，便會發生這種誤差，并會引起人口低估。另一種類型是由普查中的無效記錄引起的計數誤差（EE），比如虛假或重復的人口，會使普查計數增加。這兩種誤差都會顯著影響普查人口總數的準確性。因此，評估人口普查的數據質量，需要估計人口普查的誤差。人口普查誤差可進一步分為覆蓋誤差和內容誤差。其中人口普查覆蓋誤差是普查人口數和真實人口數N之間的差，它直接影響人口總數的精度，進一步分為遺漏和錯誤計數。人口普查內容誤差雖然不影響人口總數的精度，但卻影響普查各個類別人口數的精度。所以，世界各國政府統計機構都在致力于研究評估人口普查數據質量的方法，其中又以估計人口普查覆蓋誤差為主。

雙系統估計是建立在捕獲—再捕獲模型基礎上的。人口普查摸底階段沒有應用雙系統估計評估摸底數據質量；事后抽查階段雖然應用了雙系統估計，但在抽樣設計和估計方法等方面并未嚴格滿足應用雙系統估計的前提假設。把雙系統估計科學引入我國人口普查數據質量評估，需要同時滿足如下假設條件：

（1）封閉性假定。即總體U是封閉的，總體單位數N固定。實踐中，該假定意味著普查的推斷期得到了很好的定義，而且在此期間沒有新增（出生或遷入）和損失（死亡或遷出）人口。

（2）獨立性假定。該假定包含兩層含義：一層含義是指事件第i個人是否被普查（或事后調查）調查到與事件第j個人是否被普查（或事后調查）調查到相互獨立，另一層含義是指事件第i個人在普查中是否被調查到與事件該人在事后調查中是否被調查到相互獨立。其中：i，j=1，2，…，N，i

（3）匹配假定。即假定樣本調查結果可以和普查結果進行正確匹配。也就是說，可以毫無誤差地確定樣本調查中的哪些個體出現在普查中，哪些個體不在普查中。

（4）虛假事件假定（Spurious Events Assumption）。即假定普查和事后調查均不存在虛假事件，或者這些虛假事件在估計之前已經被剔除。這意味著普查和調查結果均不存在記錄誤差。實踐中確實存在一些虛假事件，如：①普查表中的重復記錄；②在普查或樣本調查中報告了本不存在的個體；③普查中錯誤登記了范圍外的個體，如在推斷期之后出生的個體。

（5）無回答假定。即假定一定會存在某種程度的無回答，但在普查和樣本調查中均會向無回答者收集充分的識別信息，實現調查和普查的精確匹配。

（6）事后分層假定。即假定估計N時最好采用某種事后分層。例如，可以按照年齡進行事后分層，得出特定年齡的人口數估計值，然后加總所有事后層人口數估計值便可得到人口總數N的估計值。普查和樣本調查中任何事后分層變量都必須在所有個體上正確登記。

（7）捕獲概率滿足pi1+=p1+，pi+1=p+1，i=1，2，…，N。即第i個人在普查（或事后調查）中的捕獲概率和第j個人在普查（或事后調查）中的捕獲概率相同，但第i個人在普查中的捕獲概率和他在事后調查中的捕獲概率不相同。i，j=1，2，…，N，i≠j。

顯然，科學應用雙系統估計量的關鍵是看人口普查及其事后調查的實際情況是否符合模型中的假設條件。對于假定1，由于人口出生、遷移和死亡，人口總體總是處于動態變化之中，縮短兩次調查的時間間隔將有助于人口總體的穩定。為滿足假定2，從事事后調查工作的調查員不應該是普查中的普查員。但在實際調查中，為節約時間和便于事后調查工作的開展，事后調查仍然使用普查時的普查員。為保證兩次調查一定程度上的獨立性，不讓普查員事先知道選為事后調查員，將他派往不同于普查時工作過的調查區都是必要措施。假定4和5的實現有助于滿足假定3，即在估計之前應該剔除普查和事后調查中的虛假事件。針對無回答個體，可以通過后續調查收集充分的識別信息，使得樣本調查結果可以和普查結果進行正確匹配。假定6的實現有助于滿足假定7，即可以通過適當的事后分層，使層內個體具有相同或相似的捕獲概率。

2. 匯總數據時要綜合運用評估方法。人口普查登記匯總編碼階段產生的數據屬于總量匯總數據。一般而言，匯總數據的質量評估方法有邏輯規則檢驗、相關指標比對、經驗參數比對、參數穩定性分析和基于模型的異常值識別等。所以，該階段的數據質量評估方法除邏輯規則檢驗以外，還可以利用評估參照標準來檢驗待評估數據的準確性。若已知某些統計指標與待評估數據具有較長時期穩定的高度相關關系，并且這些指標事先已知是正確的，那么可以把這些相關指標作為評估參照標準，根據這些相關指標的變動趨勢遞推待評估數據的變動趨勢，以此檢驗待評估數據的準確性。若能掌握某些反映人口特征的統計指標間較為穩定的變動關系，如比例或比率等相對指標，可以把它們視為這些指標間基本固定的經驗參數，然后把這些經驗參數作為評估參照標準。如果根據待評估數據計算的比例或比率關系值與經驗參數嚴重不一致，就可以對待評估數據的準確性提出質疑。

以上評估方法要求事先確定評估參照標準，當難以得到與待評估數據存在穩定而確切相關關系的統計指標時，可以考慮采用基于模型的評估方法。通常情況下，該評估方法從以下兩個方面檢查待評估數據的質量：一方面通過分析模型參數估計值的實際意義是否合理，來判斷模型所反映的人口特征是否違背現實情況和模型假定；另一方面通過分析待評估數據與模型擬合值之間的差異情況，識別出嚴重偏離擬合值的異常值。

3. 數據質量抽查中采用系統完善的抽樣設計。2010年全國人口普查事后質量抽查采用分層一階段隨機等距整群抽樣方法從城市層和鄉村層分別抽取樣本普查小區，這樣的樣本明顯缺乏代表性。為提高樣本代表性，本文提出兩步抽樣法，即首先依據事后質量調查目的確定全國樣本量，然后根據全國各省（自治區、直轄市）的上次普查人口數按比例分配它們在全國的樣本總量，再根據各抽樣層的具體情況分配該省（自治區、直轄市）各地區的樣本量，最后以兩步方式從各抽樣層抽取最終樣本單元。具體來看，第一步，首先在各省（自治區、直轄市）內將所有調查小區按城鄉標志分為城市層和鄉村層，然后在層內以調查小區為抽樣單元進行等距抽樣，抽取樣本調查小區；第二步，分別對抽取的城市層和鄉村層樣本調查小區編制家庭戶目錄，這樣便使得屬于同一個樣本調查小區的家庭擁有兩個家庭戶目錄，即普查目錄和事后調查目錄。對這兩個家庭戶目錄進行比較，會出現兩種情形，要么事后調查目錄的家庭戶數目與普查目錄的家庭戶數目差異較小，要么兩者數目差異較大，即兩個層。相應地，我們把第一步抽取的樣本調查小區分在這兩個層中，在層內仍然以調查小區為抽樣單元，采用等距抽樣抽取最終樣本調查小區。

參考文獻：

1. 張為民，崔紅艷.對中國2000年人口普查準確性的估計.人口研究，2003，（7）：25-35.

2. 王謙等.中國第六次人口普查：經驗與啟示.人口研究，2010，11（6）：19-31.

3. 陶然，金勇進.普查事后抽查理論研究與經驗啟示.調研世界，2010，（9）：9-12.

4. 陳培培，金勇進.對經濟普查數據質量評估的若干思考.市場研究，2012，（5）：49-53.

5. 戴世光.我國1953年的人口普查.教學與研究，1957，（4）：1-6.

6. 胡桂華.國外人口普查質量評估方法綜述.調研世界，2011，（11）：55-58.

7. 胡桂華.人口普查覆蓋誤差估計方法綜述.統計與信息論壇，2013，（9）：39-46.

8. 武潔.人口普查中的事后質量抽樣調查.南方人口，2002，（3）：18-24.

基金項目：國家社科基金項目“普查數據質量的事后抽查理論及其應用研究”（項目號：11BTJ009）；教育部人文社會科學研究項目“復雜抽樣中的模型方法研究”（項目號：10JJD790036）。

作者簡介：金勇進，教育部重點研究基地“應用統計科學研究中心”研究員，中國人民大學統計學院教授、博士生導師；陳培培，中國人民大學統計學院博士生。

收稿日期：2014-07-18。

現代管理科學2014年9期

現代管理科學的其它文章: 家族企業的復合契約治理與代際傳承; 科技金融創新發展研究; 手機銀行持續使用影響因素整合模型研究; 中國在西非投資區位選擇的影響因素研究; 養老保險基金投資精細管理研究; 高管持股和投資決策的關系研究