李娜
摘要:政務數據治理的定義:何謂數據治理?有兩種定義,一種是“依靠數據進行治理”,也就是通過對數據的利用、應用,完成一些流程規范、效率提升、社會治理的過程;另一種解釋則是“對數據進行治理”,即采取一定的方法或者形式,對數據本身進行整理、規范、標準化、統一化,提升數據的質量,提高數據的價值,有利于后續對數據的利用。本文所采用的是后一種解釋,同時限定了數據的范圍,僅對目前智慧城市建設中所涉及到的政務數據的數據治理進行一些粗淺的討論。
關鍵詞:數據治理 必要性 數據落地 數據治理經驗 數據治理模型
引言
政務數據,其實就是政府單位在執行對城市、社會、公眾的服務、管理等行政職能過程中,擁有和管理的數據,如典型的公安、交通、醫療、衛生、就業、社保、地理、文化、教育、科技、環境、金融、統計、氣象等數據。可以說,自從開始履行行政管理職能之時,就在不斷地產生政務數據(數字化之前的紙質資料,如檔案,也可算作政務數據的一種),而自政府部門IT信息化建設開始之后,政務數據則呈現爆炸式增長,積累了這么多年,早已形成了海量的數據,自然也就形成了“政務大數據”。
政務數據中,包括了多種類別的數據,如自然信息采集測量類數據(包括地理、資源、氣象、環境、水利、礦藏、植被等),城市建設類數據(包括交通設施、旅游景點、住宅建設,名勝古跡等),城市管理類數據(包括工商、稅收、人口、機構、企業、商品、環保、團體等),民生服務類數據(包括水、電、通訊、醫療、社保、燃氣、污水、出行等),社會政治經濟類數據(宗教、金融、法律、保險、工業、商業、服務業等)……可以說是包羅萬象。
政務數據相對于其他數據而言,具有很大的特殊性和幾個明顯的特點,即:它是可信度最高的數據,是最有價值的數據,是價值密度最高的數據,是延續性最好的數據,同時也是最為敏感的數據。
1 政務數據治理的必要性
那么,為何要對政務數據進行治理?它的必要性在哪里?
政務數據,既是城市管理與服務過程中產生的數據,同時也是完成城市管理與服務所依賴的數據。
舉一個簡單的例子,僅就市民的婚姻登記信息而言,就可能涉及到生育(一孩二孩)、房產(購買商品房、政策房)、教育(小孩上學)、繼承(遺產繼承資格)、金融(配偶賬戶銷戶和資金轉移)、養老(虛領養老金)、收養、就業、醫療等各個方面。不同的信息將導致所能適用的完全不同的政策條款和依據。而就該信息而言,可能令其產生變化的,又涉及到民政(結婚離婚登記)、司法(離婚判決)、醫院(配偶死亡開具證明)、公安(配偶可能的非正常死亡)等多個部門。
在這種情況下,如果民政司法公安等部門的信息系統不互通,市民又無意或者有意地不去派出所及時變更,便可能造成房產、教育、繼承方面的錯誤處理,這種由于信息錯誤所帶來的管理失誤,往往很難糾正,甚至牽連更廣,引發一些社會問題。
同樣,由于信息不互通,不準確所帶來的諸如同一身份證結婚兩次,離婚后債務分擔,喪偶后死者依然領養老金之類的情況也偶有發生。
通過對政務數據進行整理和規范,解決可能出現的問題,建立全網統一的、實時的、準確的權威數據資源以供各部門、職能單位共享,是數據治理的核心目標。
2 政務數據治理需要解決的問題
完成政務數據治理,需要解決當前政務數據存在的一些問題,包括但不限于以下幾個方面:
(1)數據互聯互通:數據治理的前提是完成跨職能部門間的政務數據互聯互通,一方面互聯互通的數據才能夠進行比較,查看是否存在數據值沖突的問題,另一方面也需要將完成治理的政務數據反饋到各職能部門的系統中,對原系統中的數據進行更新、糾正。
(2)清除空白數據:職能部門的信息化系統中,存在一些空白數據,這些數據可能由于測試、誤操作等原因而輸入,沒有經過刪除而遺留在原系統中,可能影響到一些服務事項的辦理、統計分析的結果。
(3)去除重復數據:在各部門的信息化系統中,由于重復錄入,或者由于錄入錯誤而重新錄入而造成的重復數據大量存在。
(4)修正錯誤數據:政務數據中存在不少錯誤數據是顯而易見的現象,有無意輸入錯誤的,有故意篡改的,有歷史遺留的,都有可能造成數據的錯誤。
(5)規范不統一數據:同樣的數據,在不同的系統可,可能使用不同的規范,例如身份證號碼的15位和18位,例如對于性別,其屬性可能是“男女”的字符屬性,可能使用“M”和“F”,也可能直接使用0和1來替代,甚至也可能使用“是”和“否”這樣的邏輯值。為構建能夠為全網所“信賴”的權威數據資源池,需要將同一物理含義的數據規范為唯一的一種數據格式或屬性。
3 完成政務數據治理需要注意的幾個方面
政務數據的治理,是一個繁瑣、枯燥而又不得不一點一點認真細致完成的過程,絲毫沒有捷徑可言。在這一過程中,需要重點注意幾個方面
(1)需要數據落地
數據互聯互通是件非常困難的事,因此在某些地市,采取折中的方式,即僅開發互聯互通的接口,并不將各職能部門信息化系統中的數據取出來集中構建數據平臺,而采取“隨用隨取”的方式,即“數據不落地”。這種方式雖然也構建模型完成一定的數據治理操作,但一方面數據的多源性(同一數據來源于多個部門的從外系統)、調取數據的隨機性(這次和下次從多源中獲取數據的順序不一樣)、數據本身的質量誤差都會最終導致數據治理的失敗,另一方面,這種“隨用隨取”的方式無法實現歷史數據的積累(數據不落地)和更新(無需求則不取最新數據),對于基于大數據分析的大量應用都成了無源之水,無從談起。
(2)需要對政務數據有較為清晰的理解
政務數據大多是有明確的物理含義的,數據之間有錯綜復雜的相互關系,這種相互關系是對數據進行復核校驗的邏輯依據,并非一堆毫無關聯的數據的堆砌。只有對政務數據有較為清晰的理解,才能更為有效和無誤地完成數據治理,無論是對于數據合理性的判斷(如身份證號18個數字有著明確的定義,某地就曾有出現過1865年出生日期的身份證號,明顯是錯誤的),還是對于多源數據對比校驗的邏輯的定義(以哪個部門的數據為主,或如何比較多個沖突數據間的時間記錄,以便于獲取最新更新的數據值),都依賴于對這些數據的深刻理解。
(3)需要有豐富的數據治理經驗
這一點與(2)一樣,都是基于對數據的理解而取得的。這種理解和經驗,沒有太多的理論依據,完全需要實踐的摸索,一點一點積累經驗而成。城市信息化建設中,很多職能部門的信息化系統建成多年,對于數據沒有相關的文檔留存,甚至于連建設方都已注銷解體,或根本不配合,在這種情況下,如何快速地分辨數據的含義、數據之間的關聯關系,都需要依靠長期積累的實踐經驗,才能迅速找到路徑,否則只能“望洋興嘆”。
(4)需要有大量數據治理模型的積累
我國政體上下統一,從中央到地方,部門劃分、部門職責、服務與管理事項基本統一,對于某些垂管部門,甚至于“國家-部委-省-市-縣-鄉鎮”全盤一體,這也就意味著各地市的職能部門信息化系統基本一致,哪怕是由不同的企業承建的,但其中重要的數據內容也會大部分相同,跨部門的數據間的邏輯關系也基本一致,這就意味著可以使用幾乎相同的數據治理模型。這種數據治理模型本質上也就是數據治理經驗積累的物理載體(成熟的開發人員是經驗載體)。這種數據治理模型積累得越多,政務大數據平臺的開發(數據治理是其中的最耗時的重要一環)則效率越高、失誤越少、可靠性越大。
4 結語
國家層面,越來越重視政府部門的服務職能,越來越重視服務的高效性、精準性,浙江的“最多跑一次”是典型的代表,而“互聯網+政務”建設則是由國家推動的一波建設浪潮,再加上推動大數據產業、建設信用城市等,越來越多的地市都在推動城市政務大數據平臺的構建。
基于政務大數據平臺,提升政府服務辦事效率,推動精準社會治理,離不開一個權威的、可信的、全網統一的政務數據資源池。未經過數據治理的數據,很難談得上“權威”和“可信”,基于錯誤數據帶來的錯誤事項,將浪費大量的時間和服務資源,甚至于有可能引起社會事件。從這個角度來說,數據治理是構建城市政務大數據平臺不可缺少的關鍵步驟,而如何更好地完成數據治理,則是可能影響到城市未來信息化、智慧化發展的大事。