王衍祺,王 堯
(航天科工網絡信息發展有限公司,北京 100143)
隨著超大城市流動人口逐年增多,政府各部門掌握流動人口的相關背景信息孤島式存在,導致管理人口政府部門管理和服務容易跟不上、跟不緊。 為提升社會綜合治理水平,首先要做到人口底數清,需構建權威的人口庫。 人口庫是政務信息四大基礎庫之一,目前人口庫建模多為地方性標準[1]。 數據安全法、個人信息保護法對人口信息保護提出明確要求,如何在保護好個人信息的條件下融通各部門數據,建立政府統一的人口庫,已成為政府治理城市的重要抓手。 傳統構建人口大寬表的集中式[2]存在知悉范圍過大情況。本文分析超大城市人口數據基礎上,提出一種人口庫數據架構和建模方法;此方法可數據全程加密,數據分散建模與存儲,使用時根據業務事項構建人口塊數據[3],進行數據整合與授權,確保信息安全。
某市已建立企業、社會組織、事業單位及個人的數據庫,初步發揮出了應有的作用。 由于各部門之間條塊分割嚴重、標準不統一,造成領域的條狀數據煙囪林立,數據散落在各個業務部門,數據分割現象嚴重,無法形成治理合力。
構建“底數清”的人口庫數據架構和數據模型,融合各部門條狀數據,確保個人信息安全,實現數據按需使用,支持政府精細化人口社會治理及政府服務等業務應用。
人口庫自底向上分為原始庫、基礎庫和應用庫,通過構建人口數據核心層,減少與底層數據源的耦合,快速響應上層數據應用需求,支持現有及新增數據主題建設,人口庫總體架構如圖1 所示。
原始庫存儲來自各部門的原始數據,并進行數據標準化,包括空值、異常值、多源數據不一致等處理,形成統一的數據基礎。
基礎庫包括人口數據核心層以及人口顆粒數據和人口塊數據。 人口數據核心層以人為核心,通過維度建模方式,將與人相關的信息抽象成自然人的基礎特征、身份和關系等以及政府服務和管理管理相關的信息,構建人口的多維視圖。 其中,人口基礎信息實現對自然人的唯一標識,統一人口編碼等;基礎特征包括生理特征、社會特征等,身份和關系相關信息包括政治資格身份、政治面貌等社會身份以及血緣關系、財產關系、物權關系等社會關系的集合;政府服務圍繞自然人從出生到死亡整個生命周期過程,劃分為生育收養、科研教育、就業創業等階段,每個階段再細化建模;管理屬性面向綜合社會治理,以司法案件、綜治事件等為基礎,對重大人群進行分類分級。 基于人口數據核心層,進行數據離散化,拆解成無法再分的顆粒,作為數據使用和授權的基礎。 面向業務事項需求,將多個顆粒組裝成人口塊數據,實現數據融合。
應用庫基于基礎庫,面向業務場景進行組裝、分析,構建各類專題庫,經授權后對外提供數據服務。
數據經采集、整編、標準化處理后,形成規范的數據,通過數據建模加工,形成各類主題庫數據,據此構建各類特色專題應用,處理流程如圖2 所示。

圖2 數據處理流程
采用業務自頂向下梳理與自底向上數據盤點相結合的方式,參考人口相關規范[1-3]和數據模型,結合城市人口管理需求,從業務層將人口屬性劃分為基礎特征、身份和關系、政府服務、管理屬性等分組,通過維度建模方法,以人口為核心,結合數據源盤點情況補充相關屬性,構建人口數據模型,實現信息整合。 數據模型設計如圖3 所示。

圖3 數據模型設計
人口基礎信息表,基于戶籍人口信息、網格辦人口采集信息、社保信息等進行去重合并,結合業務規則篩選出現住人口信息。 設計人口編碼算法,針對身份證、護照、港澳臺通行證等不同證件,形成統一的人口編碼標識,關聯各屬性分組。 對應基礎特征分組,根據國家相關標準,對人口的生理特征、社會特征等屬性進行補充。 身份和關系包括政治面貌、政治資格、行為能力等法定身份,以及血緣關系、繼承關系、監護人關系等人與人之間的關系,產權關系、物權關系、債權關系等人與物的關系等。 政府服務對象圍繞人的整個生命周期進行建模,通過人口唯一編碼關聯生育收養、教育科研、就業創業等不同階段的數據。 管理屬性分組涉及司法案件、綜合治理重點事件及重點人等信息,建立人與事件的關系,構建數據模型。
人口顆粒對應一類無法再分的數據,顆粒取值對應維度建模中的維度值,如男性顆粒存儲性別=男性的人口編碼信息。 人口塊數據實現多源數據的整合,基于人口編碼對顆粒數據進行關聯融合,形成具有一定業務屬性的多維信息集合,如人口社會特征塊包括民族、國籍、行業、職稱等。
與傳統數倉構建大寬表方式不同,本建模思路從業務角度對人口數據進行拆分,突出業務關鍵信息,每個屬性表只記錄一類無法再拆解的業務信息,實現數據分散存儲;通過構建人口唯一編碼,按需進行數據關聯融合,形成人口顆粒和塊數據。
2.3.1 數據加密存儲與處理
采用國密算法SM4 對接入平臺的所有數據進行加密處理,包括前置機、原始庫、基礎庫及上層應用庫,且支持不同層采用不同的密鑰管理。 前置庫臨時存儲增量更新數據,定期刪除;原始庫、基礎庫通過認證的處理組件對密文進行計算,只有應用庫經授權后對外提供服務。
2.3.2 數據分散存儲,根據業務事項授權使用
人口顆粒數據—數據打標結果分散存儲,每個顆粒對應一個獨立的表,只存儲根據證件號碼生成的人口唯一編碼(非原始證件號碼);根據業務事項構建人口塊數據,實現多源數據按需融合,通過業務事項實現塊數據按需使用。
超大城市數據存在數據量大、加密數據處理效率低等問題,通過將需要處理的數據進行細粒度篩選可跳過不滿足條件的數據已提升數據處理效率,比如數據存儲可使用hive orc 格式或者parquet 格式,數據處理可利用支持分布式內存計算的spark 引擎。
人口庫綜合各類數據資源,結合法定數據的基礎上可形成各行各業的法定庫,全方位刻畫人員畫像,為具體業務提供法定支撐,如各行業從業資格審查;也可從人口庫精確提取人口統計信息,為政府進行社會治理、人員管理、改善政府的公共服務,提高服務質量等工作提供智能決策支持。
隨著大城市群人口的迅速發展,政府人口治理充滿了新的挑戰與機遇。 本文在考慮個人信息安全的條件下,提出了一種數據顆粒化解耦、塊化融合的人口庫數據架構和建模方法,此架構可有效保障個人信息數據使用尺度,也可以為超大城市人口庫建設、助力政府精細化治理城市提供架構參考。