周靜 余浩然 謝誼 龔偉


2017年12月8日,習近平總書記在中共中央政治局第二次集體學習時強調,要“實施國家大數據戰略加快建設數字中國”,領導干部要“善于獲取數據、分析數據、運用數據”。為給社會、政府提供更高效專業的咨詢服務,各級政府部門要審時度勢、精心謀劃、超前布局,主動深入了解大數據、發展大數據,謀思變革,著手研究如何克服各種數據資源的差異性,使大數據和政府部門統計數據融合發展,建立以標準化數據庫為核心的、強大的統計數據庫信息智庫系統,推進數據資源整合和開放共享。
一、大數據與政府部門統計工作融合的必要性
大數據不僅帶來了海量數據,也開啟了人們利用數據的新模式,改變著人們的思維模式,更給傳統政府統計部門采集、管理、分析、應用和發布數據等各方面工作帶來前所未有的沖擊。
(一)經濟社會發展的必然需求
大數據是信息技術發展的必然產物,其發展推動了數字經濟的形成與繁榮,已經成為數字經濟發展的關鍵生產要素和社會基礎性戰略資源,也成為國際競爭的前沿地帶。[1]要建設“數字中國”,就要發展數字經濟;要推動經濟發展質量變革、動力變革,就必須實施大數據發展戰略。現在,不管國外還是國內,都把大數據應用的重點由市場轉向政府,而政府統計部門就是大數據在政府工作應用中尚未開墾的“良田”,大數據和政府統計數據深度融合的研究應用是經濟社會發展的必然趨勢。
(二)政府科學決策的必然要求
大數據特征歸納為四個“V”:數量(Volume)巨大,種類(Variety)變化多,價值(Value)密度低,速度(Velocity)處理快,能對非結構數據進行海量計算和精準分析,干擾性小,有很強的應用價值,但在實踐中對決策指導性等深層次分析應用相對偏少。[2]政府統計主要采用聯網直報報表或者入戶調查等手段,對結構化數據的上報審核匯總清晰,程序嚴謹,但是對于非結構化數據的收集、存儲和分析處理能力非常有限。為了更全面、更快捷、更準確收集數據,更深入分析各方面信息,深度挖掘大數據價值,形成平臺共用、數據融合、業務協同、上下聯動的“全數據”“一盤棋”系統,利用大數據提升政府統計科學決策能力和現代化水平,大數據與政府統計數據的深度融合勢在必行。
(三)人民日益增長的美好生活需要
隨著數字經濟的到來,手機、電腦、移動客戶端等逐漸成為人們日常社交、生活學習工作中必不可少的一部分,如何更快捷、更準確、更豐富地獲取所需大數據信息已經成為大眾需求。所以,大數據和政府統計數據的融合應用既是人民日益增長的美好生活需要,也是政府統計部門更好服務社會、提升服務水平的重要工作之一。
二、大數據與政府部門統計數據融合建庫的困難
(一)標準不統一
雖然大數據能大大地提升政府部門統計工作的信息化技術水平,但是要實現大數據和政府部門統計數據的融合還面臨著一些技術難點,其中最大難點就是多源異構數據整合方法的設計研究,即缺乏對標準、規范、高效和統一的數據交換標準和數據管理標準的體系研究。在以往數據庫系統建設中,不同組織、不同系統建立了種類繁多的元數據體系,統計調查元數據的術語不統一,建模方法不統一,導致在數據生產的各個流程階段里元數據可比性差。如何建立一套科學有效、穩定易用、便于交換的元數據標準是目前數據融合的最大難題。
(二)政府部門高科技技術研發能力較弱
當前,我國互聯網領域的大數據應用市場化程度較高、發展較好,但行業應用廣度和深度明顯不足。雖然近兩年很多省市都成立了大數據局等相關機構,但技術力量薄弱。特別是在政府統計部門工作中的大數據應用還在研究探索階段,政府部門缺乏專門的大數據研究機構和人員,尤其是科技拔尖人才少,信息技術人員超負荷工作等,嚴重限制了高新技術科研水平,政府高新工作生態系統亟待形成和發展。
(三)數據隱私有一定安全隱患
“數據共享和數據隱私是成反比的,數據共享開放的需求越迫切,數據隱私安全問題就越突出。”[3]為全方位觀察、認知事物,最好的途徑就是對海量、高質量數據資源進行分析和挖掘,而共享開放和數據跨域流通為信息建立了完整數據集。可是,如果大數據是無序流通與共享,就可能存在隱私保護和數據安全方面的重大風險。
(四)大數據研究在政府部門工作中成果轉化力度較弱
由于人工智能、大數據、云計算和區塊鏈等新技術在政府統計工作中的研究還不成熟,推廣應用規模也非常有限,成果轉化不明顯。部分領導敢于把項目研究落到實處試點的勇氣不夠,敢于創新的勢頭不強,加上沒有配備專門的高新技術研發部門和實驗試點經費等,導致大數據研究在政府工作中落地實施的不多,成果轉化較少。
三、大數據與政府部門統計數據融合建庫的對策建議
(一)建立大數據與政府部門統計數據統一的標準體系
通過研究,我們發現只要把數據庫分成多源異構資源裝載的數據湖、大數據資源管理、大數據應用三部分,完成多源、多結構數據采集交換平臺的設計,就能打破傳統數據倉庫無法包容多源數據的瓶頸,啃下多年的“硬骨頭”。換言之,在描述統計需求確認、設計、開發及任務部署、采集、審核上報和數據分析及匯總過程的同時,加大描述統計數據分析及匯總、數據發布和數據存檔過程,最后使用DDI標準來描述規范統計數據存檔評估,利用SDMX標準指導大數據源數據識別,一一對應將統計數據與大數據源數據融合,用DDI+SDMX標準最終實現統計數據和大數據源數據識別和交換標準的統一。具體步驟如下:
首先,將多元異構原始數據導出成csv數據文件,根據文件中每列內容進入元數據編輯工具錄入DataFiles對象信息,使DataFiles中variable內容和順序與csv文件的列內容和順序對應,達到使用DDI元數據描述統計數據的作用。
其次,將數據描述信息導出生成DDI元數據文件,將兩兩配對的csv數據文件和DDI元數據文件一起提交給數據倉庫,經過解析識別完成數據入庫。以后增加的來自外部組織的數據,只要符合DDI標準或SDMX標準也可以直接被解析識別,并將信息存儲到數據倉庫中。數據庫接收到csv數據文件和DDI元數據文件,將其中的數據和元數據解析并存儲。
再次,“通過DDI+SDMX把入庫后的csv、excel等數據統一為XML載體”,[4]因為XML有良好的易讀性、可擴展性與平臺無關性,還有標簽注解等功能,特別適合做數據研究載體。這些原始數據再按照需要形成Cube用于形成主題數據集市。
通過這樣一整套完整的標準規范,上可以對接系統業務各個階段,如數據交換、數據共享查詢、數據分析、數據發布、數據歸檔和輔助決策等,下可以對接信息技術和系統平臺,成為數據融合技術之間的傳輸紐帶和翻譯器。
(二)建設大數據與政府部門統計數據融合智庫
通過建立大數據與政府部門統計數據的標準體系,雖然解決了多元異構數據融合的難題,但是融合后數據的存儲和管理還需要通過建智庫完成。為了更快完成大量數據的離線計算、實時查詢分析、高時效性大規模并行計算的場景,采用大數據架構建立總數據庫,里面包括貼源層數據庫、標準層數據庫、資源庫和大數據應用庫,用于整合、存儲統計數據和大數據源數據。首先,按照DDI+SDMX標準將多源異構數據統一標準后,通過ETL工具或流式采集技術將政府部門數據和大數據等多源異構數據整合到貼源層數據庫中,再利用SDMX和DDI中的元數據標準,統一數據庫表結構命令規范,形成全量數據字典目錄,將貼源層數據進行標準化。然后,將標準化后的數據存儲在標準層數據庫中,完成政府部門統計數據和大數據融合后的數據入庫。
然后,按照通用統計業務模型GSBPM,利用ETL工具Kettle將標準層數據庫中的數據進行重新組合,融合形成資源庫。資源庫分為基礎庫、專題庫和主題庫,資源庫服務于現有業務系統。然后,根據數據應用要求,利用ETL工具Kettle將標準層數據庫或資源庫中的數據進行重新組合,融合形成應用庫。應用庫服務于決策支持、應用展示以及信息資源服務。資源庫和應用庫可利用MPP數據庫Clickhouse、Hive技術滿足在線數據實時計算以及離線數據批量計算等不同業務場景要求,成功構建政府部門統計數據和大數據融合統一的大數據架構。
(三)加大引進和培養高科技人才,增強高科技實力
按照《重慶市新型智慧城市建設方案(2019—2022)》精神,政府應著力構建高新工作生態系統。政府各部門應繼續加大高新技術的投入和扶持,引進和培養大數據等高科技人才,建立專家咨詢顧問機制,促進交流合作,突出重點亮點智能項目,助推“數字中國”“智慧重慶”。
(四)注意加強數據隱私安全保護
在研究大數據與政府部門統計數據融合時,必須要注意研究數據隱私保護的問題,要體系化、一致性全面考慮信息網絡安全管理工作,制訂專門的數據安全法、個人信息保護法[5]。2016年11月7日,全國人民代表大會常務委員會發布《中華人民共和國網絡安全法》;2019年5月28日,國家互聯網信息辦公室發布《數據安全管理辦法(征求意見稿)》,都明確了個人信息和重要數據的收集、處理、使用和安全監督管理的相關標準和規范,保障網絡安全和公民法人的合法權益。美國在2020年1月1日發布《加利福尼亞消費者隱私法案》,該法案被稱為美國“最嚴厲、最全面的個人隱私保護法案”,大大提高了美國保護隱私的標準。這些法律法規在促進數據的合規使用、保障個人隱私和數據安全等方面都發揮了不可或缺的重要作用,未來還需與時俱進地完善。如何兼顧共享發展和隱私安全,平衡效率和風險,在保障安全的前提下加大對大數據價值的挖掘利用,是當前全世界在數據治理中面臨的共同課題。
(五)加強大數據研究成果在政府工作中的轉化應用
科學研究不能落地應用,就如“空中樓閣”,空有好看皮囊卻無法居住,失去了“樓閣”最基本的價值。只有爭取廣泛的支持與合作,加強交流溝通,才能讓更多有社會效益的項目研究技術落地,或者可以嘗試建立政府、企業等多方參與、市場化運作的投資融資運營機制,推進政府與社會資本合作,把研究成果從“空中”落到“地面”,促進大數據成果和政府工作深度融合,必將大幅度提升政府部門的服務質量和水平,惠及民生福祉。
參考文獻:
[1]耿亞東.政府致力變革的技術基礎——大數據驅動下的政府治理變革研究述評[J].公共管理與政策評論,2020(04):87-96.
[2]余芳東.大數據在政府統計中的應用、瓶頸及融合路徑[J].調研世界,2018(11):03-09.
[3]謝磊.大數據時代政府統計工作面臨的問題及其策略研究[J].內蒙古科技與經濟,2020(03):12-14.
[4]耿晴,李兵,詹偉.面向時空信息數據的大數據平臺設計[J].地理空間信息,2017(10):35-39.
[5]陳鼎昌等.大數據背景下統計數據資源整合探索[J].統計科學與實踐,2018(10):52-55.
責任編輯:張 波