侯亞娟
摘要:當前人口與發展數據資源沒有得到有效的開發和利用,存在數據標準化低、共享程度低、集中度低等共性問題,本文以Q市衛生計生部門為例,在深化部門信息共享的基礎上,建立數據源質量控制機制,通過人口與發展數據倉庫,來整合人口數據,為深入分析人口及相關宏觀綜合信息和為人口與發展的決策提供支持服務。
關鍵詞:人口與發展;數據整合;數據倉庫;數據質量
中圖分類號:C924.2 文獻識別碼:A 文章編號:1001-828X(2017)001-0000-02
人口與發展數據是信息中的基礎性、戰略性信息,合理準確利用人口數據,它可以為人口政策、勞動力供求、城鎮化,以及教育、交通、住房、社保等問題提供基礎依據;對重大問題進行監測評估、挖掘分析、預測預警;為人口發展戰略、人口規劃提供科學依據。
一、目前人口數據情況分析
目前計生系統使用的數據主要包括:人口普查和專項抽樣調查數據、計生業務系統數據以及其他部門的宏觀統計數據等。
1.人口普查和專項抽樣調查數據
(1)人口普查數據。是指在國家統一規定的時間內,根據國家行政和社會、經濟以及科學研究的需要,按照統一的項目、統一的表格、統一的時點和統一的填寫方法,對調查區域內的全部人口,逐一地進行調查和登記的過程。(2)人口經常性登記調查數據,包含城鄉居民的出生、死亡、常住、暫住、遷入、遷出、婚姻等變動信息。(3)人口抽樣調查數據。是從總體中抽出一部分進行調查,并將調查結果推斷說明人口總體狀況的一種調查方法。
2.計生業務系統數據
計生業務系統數據包括育齡婦女信息管理系統(WIS)、人口共享平臺、流動人口信息管理平臺、國家人口與宏觀管理和決策支持系統以及其他業務系統。這些系統在運行過程中,積累了大量數據,也是我們研究人口數據的重要資源。
3.相關部門的統計數據
主要包括國家統計局、公安部、民政部、勞動和社會保障部等相關部委的人口與經濟、社會、資源、環境綜合宏觀統計數據。主要包括普查、專題調查的匯總數據和統計年鑒數據。
二、人口數據資源利用情況
在人口數據資源利用方面,衛生計生系統和其他政府部門,都沒有對數據進行有效的開發利用,都存在很多問題和障礙,人口以及相關統計顯現范圍廣泛、部門眾多、項目繁雜、方法多樣等特性問題,使人口數據出現標準化、共享化、集中化程度低。
1.數據標準化程度低
因數據的來源沒有統一規范,數據的格式、指標解釋、共享接口不統一,影響了對數據的利用。同時,即使是同一統計數據,也可能存在著統計范圍不同的問題。所以在數據的使用過程中,數出多門、數出多源、標準程度低以及變動性使得人口數據的使用率低下。
2.數據共享程度低。一直以來,民政、統計、公安、人力資源和社會保障、住房和城鄉建設等部門都積累了很多和人口相關的信息,但是一些部門對信息共享積極性不高,同時,缺乏信息化建設的統籌考慮,使得數據沒有統一標準,兼容程度較低。在計生系統也存在著同樣的問題,育齡婦女信息管理系統(WIS)是各個省自己開發的,沒有系統的互聯互通,就形成了“信息孤島”,降低了信息的整體使用效能。在計生系統內部,多年建設的信息系統,因為交互性差,數據更新不同步,還存在功能模塊重復開發、利用率低等問題,造成數據冗余、重復輸入,不一致等問題。
以Q市為例,Q市衛生計生部門系統內部提供新生兒接生信息、出生醫學證明信息、計劃免疫等信息,但是和公安以及民政部門的人口信息共享未能全面做到。市衛生計生共享平臺每月導入其他部門的共享信息,來對WIS數據進行比對、更新。但信息共享程度不夠,影響了人口數據的完整性和及時性。
3.數據集中度低
目前,人口數據存在以各種存儲介質存儲,甚至還有以圖片、視頻等格式存儲,造成數據集中度低,難以提供統一的數據查詢服務。
以Q市衛生計生部門為例。最近幾年,信息化等到了長足的發展,在全省率先啟用了新版育齡婦女信息管理系統和省共享平臺,同時在信息化方面投入的大量的人力物力,提高了數據的集中度,但在基層,還存在著一些人口相關數據依賴于表、單、冊來存儲的現象。
三、整合數據,建立人口與發展數據倉庫
人口與發展數據龐大,要整合數據,建立人口與發展數據倉庫,就要深入挖掘數據,充分利用各種數據源,加強信息共享,確保數據源質量。
1.制定完善的人口信息共享機制,為人口與發展數據擴容
在統計、公安、教育、工商、衛生計生等部門之間搭建信息平臺,建立順暢的人口信息及相關經濟社會宏觀信息資源的交流與共享機制,實現信息采集的多渠道、全覆蓋和及時準確,切實提高數據信息的共享程度。在衛生計生系統內部,要打破各省自行開發,形成“信息孤島”的情況。在同一信息不同部門,通過辦公自動化系統,在衛生計生上下級之間、部門之間實現網絡互動,同時要實現各個系統數據的共享,從而實現人口與發展數據的共享。
2.建立數據質量控制機制,保證人口與發展數據質量
數據質量問題普遍存在于各種數據源之中,在數據整合過程中,雖然可以對數據進行一定的修正,但其作用極其有限,所以數據質量控制至關重要。
建立數據質量控制機制,對于衛生計生內部的業務系統,要規范數據源數據的錄入。從數據標準規范、數據校驗、數據的定期清理、操作規范等方面進行嚴格要求,盡可能保證數據質量。
3.整合人口與發展數據,建立人口與發展數據倉庫
在完善人口信息共享機制,擴容人口與發展數據,保證數據質量的基礎上,整合人口與發展數據,建立人口與發展數據倉庫。數據倉庫是面向主題的、集成的、穩定的、反應歷史變化的數據集合,見圖1。首先對人口與發展數據源進行數據預處理,即對部門共享數據、計生系統內部數據、調查數據以及其他人口與發展數據進行抽取、清洗、轉化、加載,去掉人口數據中大量的冗余信息、錯誤信息,轉化人口數據中各種不標準數據。把這些經過處理的數據集中存儲到數據倉庫。通過對數據源的增量抽取,將數據源中新增的或修改的數據抽取,來更新數據倉庫,保證信息的及時性,準確性以及完整性。
同時,對衛生計生的數據應用服務都基于統一的人口發展數據倉庫實施。包括數據查詢;數據挖掘,對人口發展數據倉庫中的數據,特別是微觀個案數據進行關聯分析,獲得關于數據的新的知識和信息,為決策提供服務;GIS應用,顯示人口數據地理分布;人口與發展主題分析和集中展現;為決策模型的運行提供基礎數據和各類參數的選擇;對外人口及相關信息查詢服務。
四、結語
人口與發展數據的整合,在部門之間,要盡可能的提高和部門的人口數據的共享程度,彌補自身信息范圍的不完整性。在計生系統內部,要建立數據質量控制機制,確保數據質量,通過數據倉庫,對數據進行整合,為深入分析人口及相關宏觀綜合信息,預測人口發展趨勢,提高人口與經濟、社會、資源、環境綜合決策的科學性為人口與發展的決策支持服務。
參考文獻:
[1]李永勝.人口統計學.[J]成都:西南財經大學出版社,2002.
[2]蘇鵬艷.數據整合及數據倉庫在政府經濟管理信息系統中的應用[D].2009.