韋杰


摘要:目前政務數據的共享和應用面臨著質量不高、內容不全等問題,為此需要開展政務數據治理工作。文章針對政務數據治理體系,闡述了當前我國政務數據治理理論體系的現狀和取得的成果,總結了政務數據治理的三個目標:統一數據標準和規范,統一數據資產管理,統一數據調度,詳細介紹了數據共享與交換、元數據和數據元管理、數據標準和規范、數據資產管理、數據調度中心、數據安全體系等方面的內容,最后研究分析了政務數據集中治理和分散治理的技術特點及優缺點。
關鍵詞:大數據;數據治理;政務數據;數據資產
中圖分類號:TP311.13 文獻標識碼:A
文章編號:1009-3044(2020)01-0298-04
1概述
大數據時代的到來,給企業、群眾帶來了極大的生活便利,也給國家政府治理帶來了新的挑戰和機遇,為充分利用大數據帶動國家經濟社會的發展,提高國家政務服務水平,國家啟動了大數據發展戰略,于2015年8月31日印發了《促進大數據發展行動綱要》,推動各部門、各地區、各行業、各領域的數據資源共享開放,從根本上解決我國政務信息化建設“各自為政、條塊分割、煙囪林立、信息孤島”的問題。目前全國各省、自治區已經建立了本地的數據共享交換平臺,全面匯聚各部門、各行業的政務數據。國家數據共享交換平臺共匯聚了部委1.6萬條信息,地方66萬條信息,5090個數據庫,1.5萬個文件,1191個服務接口。
隨著國家政務服務平臺的建設和使用,各部門的政務數據共享交換顯得更加重要。各級各單位的政務數據在政務服務平臺發揮了很大的作用,但也面臨新的問題。匯聚的政務數據存在質量不高、關聯性不強、內容不完整、供需不一致等問題。因此,研究政務數據治理的內容,探索政務數據治理的模式,推動政務數據治理技術的應用,對解決政務數據利用出現的難題,對建設智慧城市,落實大數據戰略具有深遠的意義。
2概念
DAMA(The Global Data Management Community,國際數據管理協會1認為數據治理是對數據資產行使權力控制的活動集合,包括計劃、監控和執行等。DGI(The Data Govemance Insti-tute,國際數據治理研究所)認為數據治理是包含信息相關過程的決策權及責任制的體系,根基于共識的模型執行,描述誰在何時何種情況下采取什么樣的行動、使用什么樣的方法。IBMDG Council(數據治理委員會)認為數據治理是組織管理其信息知識并回答問題的能力,如數據來自哪里?數據是否符合公司政策及規則?數據治理實踐提供了一個全面的方法來管理、改進和利用信息,以幫助決策者建立對業務決策和運營的信心。國家市場監督管理總局和中國國家標準化管理委員于2018年6月發布《信息技術服務治理第5部分:數據治理規范》中將數據治理定義為數據資源及其應用過程中相關管控活動、績效和風險管理的集合。
在這里認為,政務數據治理是行政單位和企事業單位根據工作職能,按照數據生命周期,制定規劃和流程,梳理數據資產清單,形成數據標準和規范,構建政務數據管理體系,實現數據統一管理、統一共享、統一交換、統一調度的工程。
3研究現狀
目前,國內外學者、專家和實踐者認為大數據80%集中在政府部門,20%集中在社會企業、群眾,并圍繞大數據治理概念、框架、技術、模式等方面展開研究。
在國外,雷內·亞伯拉罕認為數據治理是指對數據的管理行使權力和控制。數據治理的目的是增加數據的價值,并將與數據相關的成本和風險降到最低,并提出了數據治理的六個維度和五個領域;索雷斯研究了大數據治理的框架、成熟度、治理標準、治理規則等內容;斯蒂芬妮認為每個單位負責數據收集,擁有數據所有權和應用權。數據管理者通過數據治理和數據規范化對數據行駛管理。
在國內,文獻[5]認為數據治理過程是對管理活動的評估、指導和監督,而管理過程是對治理決策的計劃、建設和運營,分析了數據規范、數據清洗、數據交換、數據集成、治理框架,提出了“HAO治理”模型,將數據治理分為數據接入模塊、治理模塊、服務模塊;文獻[6]認為數據治理可以從宏觀、中觀、微觀三個層面進行定義,總結當前政務數據治理存在的問題,提出了數據治理框架由大數據生命周期管理、數據源管理、技術支撐、資源中心、標準規范、安全等9部分組成;文獻[7]結合貴州大數據的發展,對數據治理主體、治理對象、治理活動、治理工具等方面進行分析,驗證政務大數據治理體系的構成要素。文獻[8]提出數據治理的核心技術包括數據結構化處理、數據質量評估、數據清洗、數據規范化、數據融合與摘取、數據發布共享,列出了基于數據倉庫的數據集成系統架構和基于中間模式的數據集成系統架構。文獻[9]從數據治理主體、客體、工具三方面論述當前大數據治理理論研究的三個趨勢,認為數據治理主體由企業擴展至政府領域,治理客體由數據提升至主體層面,治理工具由技術轉變至管理維護。
從數據治理的現狀來看,我國政務數據治理還處于起步階段,政務數據依然存在以下問題:一是系統種類繁多,數據關系不清。信息化建設初期,由于缺乏系統性、科學性的頂層設計和統籌規劃,各單位各自為主,建設了大量的“數據孤島”,使得數據共享難,業務協同管理難;二是缺乏統一的數據標準和數據規范。各單位在本地數據共享交換平臺發布的數據形式多樣,字段不統一,內容重復,數據權威性不強,匯聚的數據質量不高,可信度不夠,導致共享的數據不敢用、不想用、不能用;三是各單位信息化水平存在差距,政務數據治理工作達不到預期效果;四是數據治理的機制不健全,技術支撐不足。缺乏數據治理的總體規范,總體工作指引和實施方案;五是信息化系統建設急功近利。各單位信息化系統建設重在系統的業務流程、展示效果,前期投入數據梳理的工作量不多,導致建設的大數據平臺因缺乏數據支撐,數據邏輯不清;六是數據管理控制程度不高,政務數據的數據存儲在各單位,由各單位獨立管理,缺乏統一管理、控制的平臺。各部門的數據供需仍以單線聯系、溝通為主。
4治理的目標
政務數據治理是從根本上建立數據標準和規范,統一數據資產管理,統一數據調度,保證數據可控、可用、可信的工程。第一,按照數據標準和數據規范,形成各單位邏輯統一、相互關聯、標簽唯一的小數據資產。各單位的數據資產組合成統一管理、統一調度、統一共享的大數據資產。第二,促進業務協調,提高政務數據流轉速度,實現“一網通辦”的目標。第三,建立健全數據的管理機制,規范數據生產、加工、存儲、分析等環節的流程,構建政務大數據管理體系和安全體系。第四,以政務大數據為基礎,挖掘數據價值,推進數字政府、數據社會、數據經濟的快速發展。
5治理的內容
從大數據的角度來看,政務數據的治理是圍繞政府大數據治理活動而形成的由一系列要素及其相互關系構成的有機整體,是一項體系工程,包括治理的主體、客體、數據共享與交換、元數據和數據元管理、數據質量、數據標準、數據規范、數據資產、數據調度、數據生命周期、數據安全等。
5.1數據治理的主體和客體
政務數據治理的主體通常是指數據治理工作的決策者、組織者、協調者、操作者和參謀者,通常是指大數據牽頭部門、大數據專家委員會、大數據發展領導小組及參與治理工作的單位和人。數據治理的主體負責研究數據治理的總體規劃和目標,制定治理工作方案、工作機制、工作流程。政務數據治理的客體通常指各行政機關單位、企事業單位為各級各部門采集、加工、交換、使用、處理的信息資源,包括文件、資料、圖表、視頻、音頻、數據等各類信息資源。
5.2數據共享與交換
各單位按照政務數據資源目錄的基本屬性在統一平臺發布庫表、文件、接口,滿足部門之間的數據傳輸,實現政務數據的供需。數據共享與交換需要數據提供方和數據需求方在同個網絡,按照統一的規則實現數據申請、訂閱的工作流程,實現跨部門、跨層級、跨區域的數據交換,是數據治理的重要傳輸通道和基礎。
5.3元數據和數據元管理
從定義來看,元數據是描述數據的數據,是一組用來描述數據的信息組或數據組,反映某個數據的基本屬性;數據元又稱數據類型,通過定義、標識、表示以及允許值等一系列屬性描述的數據單元。在特定的語義環境中被認為是不可再分的最小數據單元。政務數據治理過程中,元數據管理包括元數據采集、存儲、分析三個方面,可實現數據源、表、視圖、數據類型等信息的查詢和瀏覽,并建設元數據模型,梳理數據之間的關系,展示數據元的名稱。
5.4數據質量管理
政務數據治理需要對政務數據的完整性、規范性、一致性、及時性、準確性、唯一性、關聯性進行系統檢查,主要工作包括數據缺失、內容不全、記錄為空、字段重復、名稱不統一、類型不一致等信息進行檢查和判斷,并按照統一的轉換規則進行加工處理,形成邏輯統一、相互聯系、歸屬清晰的數據庫或數據圖譜。政務數據質量處理需要數據使用單位的評估,從業務的角度評價政務數據解決業務場景的效率,并定期形成數據質量分析報告。
5.5數據標準規范
數據標準是數據治理的重要依據,通常分為通用標準和行業標準,用于統一描述對象的屬性,統一元數據和數據元的名稱、類型、長度、內容、范圍等。通用標準主要包括人、企業、房產、車輛等對象屬性的描述。行業標準特指某個領域的數據內容,專業性、業務性比較強,如海洋、石油、森林、旅游等數據。數據規范通常指數據清洗、加工、存儲、分析、共享、利用的工作流程或工作指南。
5.6數據資產
數據資產是根據部門的職責清單、系統清單、數據庫清單、目錄清單,按照統一的數據標準和規范,經過清洗、加工后,形成字段唯一、相互關系的數據總庫,是部門的數據臺賬。數據資產管理應按照數據所有者、使用者、提供者、管理者進行管理和登記。數據的管理者應負責數據的調度流程、安全保障。數據的提供者應保障數據完整性、一致性、準確性、及時性、可信性等。數據的使用者應維護數據的一致眭、安全性、保密性,不篡改、不泄露、不售賣原數據。數據資產管理分為集中管理和分散管理兩種。集中管理由數據管理單位統一匯聚各部門的數據,建成數據中心。分散管理由各單位按照統一的規則,建成本單位的數據庫,通過數據共享交換平臺實現數據的統一調度,實現數據“不為已所有,但為已所用”的目標。分散管理模式先由各部門建成本單位的數據小圖譜,多個數據小圖譜組成、關聯形成數據大圖譜,形成數據的關系網、調度網、拓撲圖。
5.7數據調度中心
數據調度中心也可稱為數據資源管理中心或數據資源共享中心,在數據共享交換平臺的基礎上,增加數據調用的靈活性,實現數據按需選擇,一次性選擇、多部門多資源同時調用的功能,并在部門部署數據共享庫、前端采集程序。數據調度中心可以進行數據匯聚后,再提供共享和利用,也可以建成數據物理分散、邏輯統一、相互關聯、統一調用的模式。數據調度中心需提供數據安全保密技術。
5.8數據安全體系和法律法規
政務數據的治理不僅需要技術手段,更需要建立一套完整的管理制度,形成數據安全體系。政務數據管理制度包括數據通用標準、行業標準,數據清洗加工規范、數據資產管理辦法、數據調度管理辦法、數據安全管理辦法、數據脫敏工作流程、數據轉換規則等。
6治理的模式與技術
根據政務數據的存儲方式和數據調用的方法,政務數據的治理主要存在集中治理和分散治理這兩種模式。兩種模式雖然工作的內容基本上一致,但是在數據存儲和數據調用方面存在一定的差異,對治理的主體要求也不一樣。
6.1集中治理
政務數據集中治理,一般由大數據主管部門牽頭負責數據的匯聚、存儲、清洗、加工、分析、發布等工作流程。要完成治理的目標,第一,需要各個部門通過本地數據共享交換平臺,按照統一的目錄信息,發布數據庫、文件等數據資源。第二,數據共享交換平臺采用ETL技術抽取數據并集中存儲在數據倉庫。第三,按照數據標準和規范,對數據倉庫進行處理,形成數據標準庫。第四,數據標準庫通過數據共享交換平臺發布共享。見圖1所示。
技術特點:
1)重點通過ETL工具實現數據抽取(Extract)、數據轉換(Transform)、數據加載(Load),按照觸發器方法、時間戳方法、整表比對法、全表刪除法、日志表法、主動交換法、人工報送法等進行全量抽取或增量抽取的方式。
2)發布數據格式主要有庫表、文件或文件夾、服務接口三種,基于Web Service技術實現XML文件、JSON數據格式的傳輸。
3)服務接口調用通常采用OAuth 2.0的授權模式發送to-ken,保障數據調用的安全性,同時要防范API的攻擊。
優勢:
1)數據集中,統一提供基礎設施、統一存儲、統一管理、統一治理,統一技術和人員投入,減少各部門的經費開支,解決不同部門信息化技術差異的問題。
2)數據共享交換平臺功能主要集中目錄、資源發布共享,數據交換等功能,整體功能框架比較成熟,技術架構比較普遍,技術維護相對容易。
3)可靈活處理數據上報的工作,大批量數據獲取比較容易,可靈活處理數據報送時的格式變化和質量檢測。
不足:
1)由于數據集中存儲,數據安全隱患大,易造成批量數據的泄漏,為此對網絡安全和數據安全方面要求比較高。
2)處理的數據所需的網絡帶寬高,容易產生高并發的數據調用,需要解決大容量數據交換,高并發性的問題。
3)數據標準庫和數據共享交換平臺出現故障時,容易造成大面積數據共享交換失敗,影響的業務范圍較廣。
4)數據和人員的管理要求高,內部管理制度比較多。
6.2分散治理
政務數據分散治理,由大數據主管部門制定統一的數據標準和規范后,各個單位根據信息化系統和業務工作產生的數據進行內部的數據治理,形成本單位字段唯一、邏輯關聯的數據標準庫或數據小圖譜。數據小圖譜通過數據中臺與數據共享交換平臺連接。部門之間的數據調用通過數據共享交換平臺和數據中臺完成。數據交換時,根據各部門的需求,在數據共享交換平臺勾選資源后,將請求發送給數據中臺,獲得部門的授權批準后,由數據中臺從部門的數據標準庫抽取數據,并反饋數據給數據需求單位。整個過程中,政務數據是分散存儲在各個部門,并沒有進行集中存儲。數據共享交換平臺通過控制數據中臺實現單個部門或多個部門數據的調度。
技術特點:
1)重點采用分布式數據存儲技術,將政務數據分布存儲在各個單位內部,通過網絡實現數據調用。如ceph的CRUSH、HASH算法,google的GFS分布式文件存儲系統;Hadoop的分布式文件系統HDFS;Rackspace公司開發的分布式對象存儲服務Swift;基于Linux平臺的開源集群(并行)文件系統Luster。
2)重點采用檢索技術實現布爾邏輯、截詞、位置、字段、加權等檢索。如全文檢索技術Lucene。
3)重點采用基于MapReduce等任務調度方法,根據政務數據的分布情況確定調度任務的優先級,對數據進行合并后輸出。
優勢:
1)政務數據分散治理,分散存儲,降低數據安全風險,避免數據大面積泄漏。
2)各部門分別承擔數據治理,有利于部門的業務工作與數據梳理,促進部門信息化發展,推進行業大數據應用的建設。
3)分散治理通過數據中臺實現數據隨用隨調,按需調用。可一次性調用多個部門的數據,也可按需選擇調用的數據字段,數據調用更精準、更靈活。
4)大數據主管部門負責制定數據治理的標準和規范,對各部門進行技術指導,減少人員的投入。
5)數據治理從源頭開始,數據的質量較高,數據的內容較完整。
不足:
1)數據共享交換平臺的技術和功能要求比較高,需增加數據調度、數據圖譜檢索、數據資產管理等功能。
2)數據中臺部署需要新的硬件資源,增加硬件成本和運維工作。
3)對各單位工作人員的技術水平要求較高,信息化技術較落后的單位需要培訓。
7結論
數據治理是政務數據應用的階段,是一項煩瑣、復雜的工程。它既需要對數據進行邏輯關系的處理,也需要對數據的合理性、完整性進行判斷。文章對政務大數據治理提出了兩種不同的模式,為政務數據治理提供了思路和方法,為實現政務大數據資產管理,充分挖掘大數據價值進行了大數據決策治理研究。不同的數據治理模式,對技術的要求和部署方式也存在差異,可根據實際情況,選擇合適的模式。文章從整體上介紹了政務數據目標、內容及模式,為建立健全我國政務大數據治理理論體系提供參考。