劉冰
摘 要 為充分把握國家實施大數據戰略,加強頂層設計和統籌管理,全面建立以省級政務云為基礎、以大數據資源管理為核心、以大數據示范應用為主導、以大數據安全體系為保障的大數據總體框架,初步構建數據匯集存儲、開放共享、示范應用的大數據生態體系。通過建設資源中心,加快推進省級“數字政府”建設,釋放大數據紅利,提升政府治理能力,助推全省數字經濟發展與轉型升級。
關鍵詞 大數據資源;建設研究;大數據紅利
1建設目標
充分利用云計算、大數據、人工智能等技術,打造“12345”數據資源中心框架體系。“1”平臺:建設統一的數據資源中心軟件平臺。“2”類數據資源:匯聚形成兩類數據資源,一是數據湖,從外部數據源落地到數據資源中心的統一數據存儲空間;二是數據庫,用于存放經過一系列清洗、轉換、加載、治理步驟后的高質量的政務數據資源,其數據來源主要來自于數據湖。“3”級互聯互通:形成覆蓋上聯國家、下接市(州)、橫向連接省級部門的三級互聯互通模式。“4”大能力:數據承載能力、數據管理能力、數據服務能力、數據應用能力,構建全省數據資源的核心樞紐,推進實現跨層級、跨地域、跨系統、跨部門、跨業務的協同管理和服務。“5”項管理:實現數據標準管理、數據質量管理、數據調度管理、數據資產管理、數據安全管理[1]。
2總體設計
2.1 總體框架
資源中心體系架構為“4+3”框架形式,即基礎設施層、數據支撐層、數據資源層(數據匯聚中心)、數據管理層(數據管理中心)四個橫向層次為主體,標準規范、安全保障和運維保障三個縱向體系為支撐。①基礎設施層。依托四川省政務云平臺軟硬件、網絡資源等基礎設施,為資源中心提供計算、存儲、網絡、安全等基礎保障。②數據支撐層。數據支撐層包括大數據基礎支撐平臺(并行計算、分布式存儲等)、數據集成平臺(ETL、爬蟲等工具)、數據共享開放平臺、數據治理平臺等。③數據資源層(數據匯聚中心)。數據資源的建設范圍將覆蓋政務數據、社會數據和互聯網數據等。數據資源層重點規劃建設數據湖和數據庫,數據湖是以大數據存儲和計算能力為支撐、融合匯聚多領域數據,形成數據資源原始庫。數據庫是在數據治理的基礎上形成標準數據資源,構建人口庫、法人庫、自然資源和空間地理庫、電子證照庫、社會信用庫等五大基礎庫,宏觀經濟、政務服務、醫療健康、生態環境等重點領域主題庫以及對接共享部門建設的專題庫。④數據管理層(數據管理中心)。數據管理層以數據標準管理、數據質量管理、數據資產管理、數據調度管理、數據安全管理等為一體全方位的數據管控和調度體系。
2.2 技術架構
技術架構主要從數據資源的全生命周期管理搭建平臺的技術架構體系,涉及數據采集、數據治理、數據存儲等不同技術層面。基于大數據支撐平臺數據處理環境,無縫集成了Hadoop生態中大量工具,提供PB級海量數據存儲、查詢、分析和挖掘能力。具有如下關鍵特性:①靈活性:可以存儲任意類型的數據并可以使用多種不同的處理框架對數據進行處理,如批處理、交互式SQL、文本查詢、機器學習和統計分析計算;②集成化:快速建立并快速運行于一個完整的包裝好的基于Apache Hadoop的系統;③安全性:方便處理和控制敏感的數據,提供多租戶的運行保護機制;④可擴展:為廣泛的應用提供運行設施,并隨著業務成長支持靈活彈性擴展;⑤高可用:可以應對多任務高負載的應用場景,保證集群的穩定;⑥兼容性:擴充和利用現有的基礎架構,保護投資;⑦開放性:受益于高速的創新,并且無須受制于專有供應商的鎖定。
3建設內容
依據“4+3”總體框架形式,資源中心建設主要包括數據管理層、數據資源層、數據支撐層、基礎設施層四個橫向內容,以及三個縱向(標準規范、安全保障和運維保障)支撐體系。
3.1 數據管理層
數據管理層是定位數據資源的管理調度中心,其構建在
數據資源層之上,主要用來實現對數據資源的全生命周期管控。數據資源的管理包括數據標準管理、數據質量管理、數據資產管理、數據調度管理、數據安全管理等。
3.2 數據資源層
融合匯聚政務數據資源、社會數據資源和互聯網數據資源,構建互聯互通、共享協作的全省大數據資源中心。數據資源層主要規劃建設數據湖和數據庫。數據湖是一個存儲政務數據、社會數據和互聯網數據等多源異構原始數據的大型倉庫;數據庫重點建設五大基礎庫、主題庫、專題庫。
3.3 數據支撐層
(1)大數據基礎支撐平臺。大數據基礎支撐系統定位于大數據技術組件集成環境,采用現有主流的大數據架構,無縫集成Hadoop生態中大量工具,提供PB級海量數據存儲、查詢、分析和挖掘能力,用以支撐未來各類政府領域、社會行業、互聯網的結構化、非結構化大數據存儲和計算需求。大數據基礎支撐系統包含業界流行的基于開源Hadoop及其生態組件構建的核心,還需要具備很多支撐政府級業務的高級管理特性。
(2)數據集成平臺。數據集成平臺是實現數據采集匯聚能力的統一集成平臺,平臺提供前置機、部門業務備份庫、庫表數據傳輸、數據文件上報或導入、接口服務集成等多種方式的數據采集。其中前置機、部門業務備份庫、庫表數據傳輸三類情景采用ETL方式來實現。數據文件上報或導入采用文件上傳功能實現。接口服務集成要集成到服務管理平臺中。
(3)數據共享開放平臺。數據共享開放平臺是政務數據資源的交換和匯聚通道以及對外開放的載體,數據共享能夠縱向實現國省市跨層級、跨地域的數據共享交換能力,橫向解決業務系統之間和跨部門的數據資源共享交換;數據開放將對外提供各類數據的下載及使用。
(4)數據治理平臺。數據治理平臺是通過建立數據質量評估模型,定義數據檢測評估規則,對匯聚的數據進行數據質量檢測,形成數據質量報告,進而對具備質量改進權限的數據進行清洗加工、融合比對、數據標簽、數據加密、數據脫敏、數據溯源等處理。主要包括數據質量檢驗檢測、數據清洗轉換、數據加密脫敏、數據溯源等功能模塊。
3.4 基礎設施層
基于四川省政務云平臺軟硬件、網絡資源等基礎設施,在政務云上建立資源中心運行所需的專享物理資源池,通過在專享資源上創建云主機的方式控制和管理專享資源,專屬物理資源基礎設施,為數據資源中心提供計算、存儲、網絡、安全等基礎保障。
3.5 三個支撐體系
資源中心建設以標準規范、安全保障和運維保障三個縱向體系為支撐。
參考文獻
[1] 賀劍武.基于大數據分析技術的旅游智慧平臺設計[J].現代電子技術,2020,43(14):183-186.