


摘 ?要:文章介紹對政府數據的研究,建立數據結構模型,探討政府數據資源平臺建設方向,結合政府情況,分析基礎數據庫和主題數據庫建設,開展數據共享交換平臺的應用研究。同時基于大數據平臺開展社會公共部門數據的有效匯聚,聚焦政府數據資源存儲、傳輸、處理、交換、使用、銷毀各環節管理的全過程,保障數據的“時效性、真實性、可靠性、完整性、安全性和可用性”,促進數字政府建設。
關鍵詞:政府信息;政府信息管理;信息生命周期;大數據;數據治理
中圖分類號:TP391 ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)24-0104-04
Abstract: This paper introduces the research on government data, establishes the data structure model, discusses the construction direction of government data resource platform, combined with the government situation, analyzes the construction of basic database and theme database, and carries out the application research of data sharing and exchange platform. At the same time, based on the big data platform, it carries out the effective aggregation of social public sector data, focus on the whole process of government data resource storage, transmission, processing, exchange, use and destruction management, ensures the “timeliness, authenticity, reliability, integrity, security and availability” of data, and promotes the construction of digital government.
Keywords: government information; government information management; information lifecycle; big data; data governance
0 ?引 ?言
近些年我國逐步優化了數據安全相關政策法規,每一領域的數據治理工作也在有序開展,并且在很大程度上控制了收集、應用以及共享數據等環節的違法違章現象,每一行業均將數據安全管理作為了一項重點工作予以落實,從而顯著提高了數據應用以及流通的合法性與規范性,慢慢形成了一個良性、健康的大數據發展氛圍。在保障數據安全的前提下數據治理的核心就是提升數據的質量。要想有效的開展數據治理就必須明白數據質量的根本定義及分析開展數據治理要解決的問題[1-5]。
我們將用“目標導向”思維方式和“任務驅動”工作方法來共同探討。首先“目標導向”的思維方式能讓有清晰的核心目標,便于圍繞著目標去分析并解決存在的問題。核心目標是數據治理,數據治理的核心是數據采集,數據采集的核心是數據有效性,數據有效性的核心是數據有效來源及數據有效處理,以上這些目標的實現高度依賴“數據質量”。如圖1所示。根據我國現行相關規范要求,利用模板化數據、標準化元數據以及政務信息來達到科學編輯、數字化管理、關聯運用以及高效共享數據的目的,進而切實有效地提高所有領域行業的數據管理質量以及資源利用率。其不單單能夠有效共享與交換數據、實現應用創新的重要規則體制以及地層路基,而且還能夠有效提高數據質量、防止出現數據混亂的現象,為數據創新與應用打下有力基礎,同時亦是整合開放、交換以及信息資源目錄體系的管理平臺。本文設計的大數據平臺總體設計架構如圖1所示。
1 ?現有政府數據存在問題及數據質量重要性
資料顯示我們收集很多數據,但是無效數據較多。例如地方政府數據開放平臺上面就有很多數據,各部門手頭也積累了很多工作數據,省域數據容量分布和有效數據集總量如圖2所示。那么我們來分析現有數據特性,就會發現通用問題。具體內容有:
(1)滯后性嚴重[6]。當前開放平臺上的數據大部分為靜態數據,有很多數據集自上傳之后就沒有更新,滯后性嚴重。
(2)單一性突出。每種數據集只提供單一維度的數據,無法在單數據集內進行深入的數據價值探索。
(3)關聯性不強。不同的數據集之間,沒有直觀的鏈接關系,無法通過多數據集的形式進行業務的融合分析,從而實現更多數據價值的探索與發現。
(4)容錯率不高。數據錯誤包括數據類型錯誤、數據范圍越界、數據不符合業務規定。
(5)數據不一致。包括名稱不一致、標識不一致、編碼不一致、引用不一致等。
以上統稱“明數據”。還有一種比較特殊,給它定義為“暗數據”,尚未轉換為數字格式的數據稱為暗數據,它是尚未開發的巨大存儲庫,未來這些模擬數據庫將被數字化并在遷移到云中,它們的利用,有利于進行預測分析決策。這些數據大量存在各行業的業務部門手中,屬于工作累積數據。
1.1 ?現有數據存在的問題
廣義上的數據問題可以劃分為三類:
A類問題——傳統的數據處理問題,它通過較低的采樣率,即可實現較好的解決問題效果,不需要海量數據采集和分析,應用統計分析技術即可。
B類問題——典型的大數據問題,隨著數據采樣率的提升,解決問題的效果越來越好。這些問題在工程上可歸結為“大數據問題”。
C類問題——介于A類問題和B類問題之間,其處理效果隨著數據量的上升。有一定的提高,但當數據量達到一定規模后,其改善效果不明顯。
1.2 ?數據質量的重要性
數據質量在不同的時期有著不同的定義。在幾十年前,數據質量就是意味著數據的準確性,確切地說是數據的一致性、正確性、完整性和最小性這四個指標在信息系統總得到的滿足程度。但是隨著信息系統的發展,數據的來源越來越多樣化,數據體量越來越大,數據涵蓋的面也越來越廣,對于數據質量的定義也才狹義走向了廣義。準確性不再是衡量數據質量的唯一標準,一旦數據數量增多,格式也變得多元化,數據實用性將會直接關系到了數據質量。
數據質量在數據分析中起著至關重要的作用,數據的質量會在很大程度上關系到了數據參數以及其價值,在整合、共享以及開放數據時,數據質量成為影響數據共享、開放的重要問題。提升數據質量成為現階段數據歸集共享、開放工作的首要任務。
2 ?大數據采集和存儲
2.1 ?大數據采集
設置采集數據功能模塊,由以往數據庫到大數據平臺中來實現數據的動態采集以及批量采集。利用開源Sqoop組件(批量數據導入導出組件)實現大數據平臺與關系型數據庫、文件系統之間交換數據和文件,同時也可以將數據從關系型數據庫或者文件服務器導入到大數據平臺的HDFS/HBase中,或者反過來從HDFS/HBase導出到關系型數據庫或者文件服務器中。
2.2 ?大數據存儲
政府工作過程中會形成海量結構化數據、半結構化數據,還有諸多非結構化數據,如音頻資料以及圖片等。在存儲該類數據過程中,例如存儲數據異構過程中,需要大數據基礎平臺運用分布式文件系統來存儲整合所得的多元化數據信息,便于開展后期數據分析和使用。
在大數據平臺中,部分數據讀寫頻率高,需要快速讀寫,使用大容量磁盤容,數據在集群內遷移時容易出現IO瓶頸;而部分體量大,讀寫頻率不高數據,使用小容量磁盤存儲,需要占用大量的節點,增加項目TCO。使用混合存儲的方式,由于數據分布不均勻,數據的讀寫性能得不到有效發揮。隨著節點擴容,新舊服務器的磁盤容量配置不一致,大容量節點的計算能力相對較差,容易成為性能短板。
異構存儲方案,通過制定存儲策略,實現數據可以按“冷熱”分別存儲到不同的存儲層,對需要快速讀寫的數據,選擇配置如:SAS、SSD、內存之類的小容量、快速讀寫的計算密集型節點;對數據量大、使用頻率不高的數據,可以選擇如:SATA之類的大容量的存儲密集型服務器節點。使同一個集群內,數據按不同容量的存儲介質異構存儲,無需限定配置統一規格的服務器,同時可以滿足利舊的需求,有效降低成本。
2.3 ?數據建模
通過對已有的數據庫進行邏輯建模,確定設計約束和命名規則,而后進行物化及落地,以數據建模模塊中邏輯建模規則、數據字典、物化規則等為指導,根據各部門業務抽象成邏輯模型或者通過成熟物理模型反向生成邏輯模型, 邏輯建模階段創建的邏輯模型對象根據提前設置的歸集庫規則物化生成物理模型對象。
3 ?以政府人口庫為模板開展數據治理
按照數據建模規范要求,可以對人口基礎信息數據進行梳理和建模,將分散在各部門業務過程中的各類信息資源進行有效識別并登記,建立完整、統一、標準的人口數據資源目錄。以人口基礎信息、社會活動、社會資源、社交關系、涉事涉法等維度為依據,建立三級人口目錄,統一匯聚人口基本信息和人口擴展信息。通過人口基礎數據目錄梳理,把人口基礎數據相關的數據項及數據屬性等內容進行識別和統一,包含包含資源編碼、資源名稱、資源描述、資源類型、管理方式、隸屬系統、共享方式、公開范圍、更新周期、提供部門、交付方式等內容。
3.1 ?數據治理流程
通過制定數據治理的相關規則,構建人口基礎庫的數據治理業務流程,流程要覆蓋人口庫的數據抽取、集成、融合、質量評估等過程,貫穿全生命周期。
3.1.1 ?數據融合
3.1.1.1 ?多數據來源問題
在人口模型中,可能會出現某一個字段的來源不同,值也可能不一樣的情況,如居住地址,可能來自多個表。這種情況下需要把多數據源的記錄都需要記錄下來。如圖3所示。
3.1.1.2 ?數據融合處理
根據與數源部門共同制訂的數據融合規則,對多來源數據進行比對分析,選擇最權威、最準確的數據寫入人口庫。例如,常住人口表中有姓名、身份證、性別、地址等信息,社保卡發卡記錄表中也有同樣的信息,但是記錄的內容稍有區別,而且還有可能各個數據表的標準不統一。常住人口表中的性別為[男],而發卡記錄表中則不一致。通過圖3中的3張表,可以融合成以性別代碼維度、證件類型維度、地址代碼維度為主要維度的一張新表,以這張新表為基礎,可以進行多維的分析。
3.2 ?數據治理成果核查
在數據治理流程結束后對數據治理成果進行核查,對存在質量問題的數據進行發現及排查,并對問題進行評估分析,將問題數據進行質量溯源反饋,持續進行反饋跟蹤,直至問題解決。
稽核問題發現之后,系統會自動觸發工作流,根據分類走不同的問題處理工單,實現通過WEB、短信、郵件的方式與問題處理流程中各個角色的互動,統一對問題進行核實處理。質量問題清單一旦形成,那么系統會進行持續的問題跟蹤,跟蹤至數據的責任人,直至問題解決。
4 ?結 ?論
綜上所述,目前各級政府缺少數據治理層面的制度規范,未建立規范的數據治理流程和有效的管理機制,但是建立完善的數據收集、整合、存儲、治理、管理、服務等流程管理制度和數據規范勢在必行。本文從人口庫的建設為例,以點帶面,研究開展政府層面的數據集中管理和大數據治理方面的技術實踐。探討以城市級大數據為核心,形成行業級二級主題數據庫的整體大數據應用,切實有效的實現城市治理的數字化以及規范化。
參考文獻:
[1] 耿曉軍.阿里城市大腦1.0發布獻禮世界城市發展 [J].物聯網技術,2017,7(10):6+8.
[2] 楊潔.杭州城市治理模式新探索:實施全國首個城市數據大腦規劃[N].中國建設報,2018-05-28.
[3] 牛強,夏源,牛雪蕊,等.智慧城市的大腦——智慧模型的概念、類型和作用 [J].上海城市規劃,2018(1):40-43+62.
[4] 馬玉灝.基于數據驅動方法建立城市交通的大腦 [J].通訊世界,2019,26(2):242-243.
[5]陳衛強.杭州城市大腦的實踐與思考 [R/OL].(2019-09-08). http://theory.people.com.cn/n1/2019/0908/c40531-31342597.html.
[6] 劉葉婷,王春曉.“大數據”,新作為——“大數據”時代背景下政府作為模式轉變的分析 [J].領導科學,2012(35):4-6.
作者簡介:顧鳴聲(1975—),男,漢族,黑龍江人,高級工程師,碩士研究生,研究方向:教育信息化、軟件工程開發設計、網絡安全管理以及大數據管理等。